本發(fā)明涉及多肽設(shè)計,具體涉及一種活性多肽序列的生成方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、多肽是由氨基酸通過肽鍵連接而成的鏈狀分子,肽鏈中的氨基酸數(shù)目通常少于約50個。多肽藥物具有一些獨特的優(yōu)勢,例如,多肽可以針對特定的靶點,如受體、酶等,具有高度的選擇性;相比于大分子抗體,多肽更容易進行化學(xué)合成和改造;通過適當?shù)男揎椏梢越档投嚯牡拿庖咴缘取R虼耍嚯乃幬餅樗幬镅邪l(fā)中的熱點。
2、多肽藥物研發(fā)的過程一般是:確定疾病相關(guān)的蛋白質(zhì)靶標(例如受體);基于靶點的結(jié)構(gòu)信息,設(shè)計能夠與其結(jié)合的多肽序列;利用固相或多液相合成技術(shù)制備設(shè)計好的多肽;通過實驗驗證多肽的活性,并進行結(jié)構(gòu)優(yōu)化以提高其穩(wěn)定性、特異性和效力。
3、但是,這種通過實驗驗證多肽活性的多肽藥物設(shè)計方法,需要花費大量的時間去做實驗驗證,導(dǎo)致多肽藥物設(shè)計效率低。
技術(shù)實現(xiàn)思路
1、有鑒于此,本發(fā)明提供了一種活性多肽序列的生成方法、裝置、設(shè)備及存儲介質(zhì),以解決多肽藥物設(shè)計效率低的問題。
2、第一方面,本發(fā)明提供了一種活性多肽序列的生成方法,所述方法包括:
3、將多肽受體的序列信息和已生成的多肽詞元信息,輸入至生成式深度學(xué)習(xí)模型,生成新的多肽詞元信息;
4、按照生成順序?qū)λ錾墒缴疃葘W(xué)習(xí)模型生成的多肽詞元信息進行拼接,得到目標多肽的序列信息;
5、獲取所述目標多肽的第一幾何性質(zhì)、所述多肽受體的第二幾何性質(zhì);
6、將所述第一幾何性質(zhì)和所述第二幾何性質(zhì)、以及所述多肽受體的序列信息和所述目標多肽的序列信息,輸入至多肽活性預(yù)測模型,預(yù)測得到所述目標多肽和所述多肽受體的結(jié)合活性;所述多肽活性預(yù)測模型包括第一特征學(xué)習(xí)模型、第二特征學(xué)習(xí)模型和分類模型,所述第一特征學(xué)習(xí)模型用于學(xué)習(xí)所述第一幾何性質(zhì)和所述第二幾何性質(zhì)的第一特征信息,所述第二特征學(xué)習(xí)模型用于學(xué)習(xí)所述多肽受體的序列信息和所述目標多肽的序列信息的第二特征信息,所述分類模型用于基于所述第一特征信息和所述第二特征信息預(yù)測所述目標多肽和所述多肽受體的結(jié)合活性。
7、在一種可選的實施方式中,所述獲取所述目標多肽的第一幾何性質(zhì)、所述多肽受體的第二幾何性質(zhì),包括:
8、利用深度學(xué)習(xí)模型分別預(yù)測所述目標多肽的序列信息對應(yīng)的第一三維結(jié)構(gòu)、所述多肽受體的第二三維結(jié)構(gòu);
9、根據(jù)所述第一三維結(jié)構(gòu)計算所述目標多肽的第一幾何性質(zhì),根據(jù)所述第二三維結(jié)構(gòu)計算所述多肽受體的第二幾何性質(zhì)。
10、在一種可選的實施方式中,所述多肽活性預(yù)測模型還包括transformer?encoder模型,所述transformer?encoder模型用于對所述第一特征信息和所述第二特征信息進行對齊和融合得到第三特征信息,所述分類模型基于所述第三特征信息預(yù)測所述目標多肽和所述多肽受體的結(jié)合活性。
11、在一種可選的實施方式中,所述分類模型基于所述第三特征信息和所述第二特征信息,預(yù)測所述目標多肽和所述多肽受體的結(jié)合活性。
12、在一種可選的實施方式中,所述生成式深度學(xué)習(xí)模型的輸入層為嵌入層,所述嵌入層用于詞元嵌入和位置嵌入;
13、所述生成式深度學(xué)習(xí)模型的解碼器包括多個依次連接的網(wǎng)絡(luò)模塊,每一所述網(wǎng)絡(luò)模塊包括依次連接的第一規(guī)范化層、遮掩多頭自注意力層、第二規(guī)范化層和前饋全連接層;所述遮掩多頭自注意力層為flash?attention機制;所述前饋全連接層中使用高斯誤差線性單元激活函數(shù);
14、所述解碼器之后還包括第三規(guī)范化層以及線性層和softmax層,所述嵌入層和所述線性層共享權(quán)重。
15、在一種可選的實施方式中,所述將多肽受體的序列信息和已生成的多肽詞元信息,輸入至生成式深度學(xué)習(xí)模型之前,還包括:
16、獲取詞元表,所述詞元表中一種氨基酸殘基為一個詞元,一種修飾信息為一個詞元,所述詞元表中還包括第一特殊詞元、第二特殊詞元和未知詞元,所述第一特殊詞元用于補齊所述多肽受體的序列信息至預(yù)設(shè)長度,所述第二特殊詞元用于分割所述多肽受體的序列信息和所述多肽詞元信息,所述未知詞元用于表示所述氨基酸殘基、所述修飾信息、所述第一特殊詞元和所述第二特殊詞元以外的其他詞元;
17、按照所述詞元表中的詞元對多肽受體序列進行詞元切分;
18、按照所述詞元表中各詞元對應(yīng)的數(shù)值,對切分后的多肽受體序列進行數(shù)值化,得到所述多肽受體的序列信息。
19、在一種可選的實施方式中,所述生成式深度學(xué)習(xí)模型使用fused?adamw優(yōu)化器進行訓(xùn)練。
20、在一種可選的實施方式中,所述生成式深度學(xué)習(xí)模型使用采用半精度浮點格式進行訓(xùn)練。
21、第二方面,本發(fā)明提供了一種活性多肽序列的生成裝置,該裝置包括:
22、生成模塊,用于將多肽受體的序列信息和已生成的多肽詞元信息,輸入至生成式深度學(xué)習(xí)模型,生成新的多肽詞元信息;
23、拼接模塊,用于按照生成順序?qū)λ錾墒缴疃葘W(xué)習(xí)模型生成的多肽詞元信息進行拼接,得到目標多肽的序列信息;
24、獲取模塊,用于獲取所述目標多肽的第一幾何性質(zhì)、所述多肽受體的第二幾何性質(zhì);
25、活性預(yù)測模塊,用于將所述第一幾何性質(zhì)和所述第二幾何性質(zhì)、以及所述多肽受體的序列信息和所述目標多肽的序列信息,輸入至多肽活性預(yù)測模型,預(yù)測得到所述目標多肽和所述多肽受體的結(jié)合活性;所述多肽活性預(yù)測模型包括第一特征學(xué)習(xí)模型、第二特征學(xué)習(xí)模型和分類模型,所述第一特征學(xué)習(xí)模型用于學(xué)習(xí)所述第一幾何性質(zhì)和所述第二幾何性質(zhì)的第一特征信息,所述第二特征學(xué)習(xí)模型用于學(xué)習(xí)所述多肽受體的序列信息和所述目標多肽的序列信息的第二特征信息,所述分類模型用于基于所述第一特征信息和所述第二特征信息預(yù)測所述目標多肽和所述多肽受體的結(jié)合活性。
26、第三方面,本發(fā)明提供了一種計算機設(shè)備,包括:存儲器和處理器,存儲器和處理器之間互相通信連接,存儲器中存儲有計算機指令,處理器通過執(zhí)行計算機指令,從而執(zhí)行上述第一方面或其對應(yīng)的任一實施方式的活性多肽序列的生成方法。
27、第四方面,本發(fā)明提供了一種計算機可讀存儲介質(zhì),該計算機可讀存儲介質(zhì)上存儲有計算機指令,計算機指令用于使計算機執(zhí)行上述第一方面或其對應(yīng)的任一實施方式的活性多肽序列的生成方法。
28、第五方面,本發(fā)明提供了一種計算機程序產(chǎn)品,包括計算機指令,計算機指令用于使計算機執(zhí)行上述第一方面或其對應(yīng)的任一實施方式的活性多肽序列的生成方法。
29、本實施例提供的活性多肽序列的生成方法、裝置、設(shè)備及存儲介質(zhì),不僅可以利用生成式深度學(xué)習(xí)模型,針對不同的多肽受體序列,快速生成多種不同的受體序列。而且將多肽生成式深度學(xué)習(xí)模型與多肽活性篩選深度學(xué)習(xí)模型(即多肽活性預(yù)測模型)相結(jié)合。也即將生成式深度學(xué)習(xí)模型設(shè)計的多肽,輸入到多肽活性預(yù)測模型,篩選出有活性的多肽,從而可以顯著提高活性多肽設(shè)計的效率和質(zhì)量,從而實現(xiàn)高通量的活性多肽設(shè)計。
30、另外,本發(fā)明實施例在預(yù)測生成的目標多肽與多肽受體的結(jié)合活性時,不僅僅只是依據(jù)兩者的序列信息來預(yù)測,還結(jié)合了兩者的幾何性質(zhì)。具體地,第一幾何性質(zhì)和第二幾何性質(zhì)具體包括殘基的相對可及面積(rasa)、深度指數(shù)(dpx)、突出指數(shù)(cx)、疏水性(hydrophobicity)。rasa為計算出的可接近表面積與特定殘基的標準可接近表面積之間的每個殘基比率。dpx用于計算多肽和受體在空間維度所占的體積,通過計算空間維度所占體積和未占體積的比率進而得出原子的cx。疏水性則有利于受體和多肽形成二級結(jié)構(gòu)、α螺旋,影響其穩(wěn)定性。通過引入受體和多肽的幾何性質(zhì),可從空間維度層面分析多肽和受體的相互關(guān)系,可提升多肽和受體結(jié)合活性預(yù)測的準確性。