本發(fā)明屬于人工智能,涉及一種基于機(jī)器學(xué)習(xí)的kras抑制劑活性預(yù)測方法。
背景技術(shù):
1、kras蛋白作為一種關(guān)鍵的信號轉(zhuǎn)導(dǎo)分子,在細(xì)胞生長、分化和存活中扮演著核心角色。kras基因的突變在多種癌癥中普遍存在,尤其是在肺癌、結(jié)直腸癌和胰腺癌中,使得kras成為癌癥治療的重要靶點(diǎn)。然而,kras蛋白的活性位點(diǎn)較為平滑,缺乏明顯的藥物結(jié)合位點(diǎn),給傳統(tǒng)的藥物篩選方法帶來了極大的挑戰(zhàn),導(dǎo)致kras抑制劑的篩選和開發(fā)進(jìn)程緩慢。隨著機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展,可以利用機(jī)器學(xué)習(xí)模型從大量的化學(xué)和生物信息中提取有用特征,預(yù)測化合物的生物活性。本發(fā)明構(gòu)建了高效的機(jī)器學(xué)習(xí)模型,能夠精確地識別和預(yù)測潛在的kras抑制劑,為開發(fā)針對kras相關(guān)癌癥的新藥物提供了強(qiáng)有力的支持。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明要解決的問題是:本發(fā)明的目的是提出一種基于機(jī)器學(xué)習(xí)的kras抑制劑活性預(yù)測方法,旨在協(xié)助藥物研發(fā)人員高效、精確地識別潛在的kras抑制劑。本發(fā)明方法通過整合互信息特征篩選技術(shù)與支持向量機(jī)分類模型,提高了預(yù)測準(zhǔn)確性,進(jìn)而改進(jìn)了藥物篩選的效率和準(zhǔn)確性。
2、本發(fā)明的技術(shù)方案為:一種基于機(jī)器學(xué)習(xí)的kras抑制劑活性預(yù)測方法,包括如下步驟:
3、步驟s1,從chembl、bindingdb和pubchem數(shù)據(jù)庫中采集kras抑制劑數(shù)據(jù),然后對采集到的數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)清洗、數(shù)據(jù)去重和標(biāo)簽提取,標(biāo)簽指抑制劑分子的活性標(biāo)簽;
4、步驟s2,對預(yù)處理的數(shù)據(jù)進(jìn)行特征計(jì)算,包括maccs指紋、ecfp4指紋和mordred描述符,并篩選排除無效和冗余特征,接著將得到的數(shù)據(jù)隨機(jī)劃分為訓(xùn)練集和測試集;
5、步驟s3,利用互信息特征選擇進(jìn)行特征篩選,在訓(xùn)練集上挑選出對模型預(yù)測性能貢獻(xiàn)最大的特征集合;
6、步驟s4,構(gòu)建支持向量機(jī)svm分類模型,將經(jīng)過特征篩選的訓(xùn)練集數(shù)據(jù)輸入模型進(jìn)行訓(xùn)練,使用測試集對模型進(jìn)行評估;
7、步驟s5,將分類模型應(yīng)用于外部驗(yàn)證集進(jìn)一步驗(yàn)證評估,對未知分子進(jìn)行活性預(yù)測,輸出每個(gè)分子是否具有kras抑制活性的預(yù)測結(jié)果。
8、進(jìn)一步的,所述步驟s1中,采集的kras抑制劑數(shù)據(jù)包括半抑制濃度值ic50和簡化分子線性輸入規(guī)范字符串smiles。
9、進(jìn)一步的,所述步驟s1中,數(shù)據(jù)預(yù)處理包括:
10、數(shù)據(jù)清洗:刪除活性不可用的ic50數(shù)據(jù)和三維構(gòu)像失敗的分子;
11、數(shù)據(jù)去重:對smiles字符串標(biāo)準(zhǔn)化后去除重復(fù)項(xiàng),保留唯一的smiles作為分子表示;對同一抑制劑分子與不同類型的kras突變體作用時(shí)所產(chǎn)生的不同ic50值,保留最低值;
12、標(biāo)簽提?。菏褂胕c50作為分子的活性衡量指標(biāo),設(shè)置活性閾值為1000nm,ic50值小于活性閾值的分子標(biāo)記為類別“1”,視作kras的活性抑制劑,否則視作弱或非活性抑制劑,標(biāo)記為類別“0”,類別即為活性標(biāo)簽。
13、進(jìn)一步的,所述步驟s2中的特征計(jì)算使用python中的rdkit庫進(jìn)行。
14、進(jìn)一步的,所述步驟s2中,篩選排除無效和冗余特征包括:
15、(1)替換或刪除非數(shù)值型描述符;
16、(2)低方差過濾,刪除方差值小于0.1的描述符;
17、(3)高相關(guān)過濾,當(dāng)任意兩個(gè)描述符之間相關(guān)系數(shù)高于0.9時(shí),只保留其一。
18、進(jìn)一步的,所述步驟s3中的互信息特征選擇,首先計(jì)算每個(gè)特征與活性標(biāo)簽之間的互信息值,并根據(jù)這些值對特征進(jìn)行排序。然后選擇互信息值最高的若干特征作為特征集合,用于訓(xùn)練模型,以cohen’s?kappa系數(shù)為評價(jià)標(biāo)準(zhǔn),評估在選定的特征集合下模型預(yù)測性能,將該系數(shù)最高的若干維特征作為最終模型的輸入,kappa系數(shù)計(jì)算公式如下:
19、
20、其中,tp(true?positive)、tn(true?negative)、fp(false?positive)和fn(falsenegative)分別代表真陽性、真陰性、假陽性和假陰性。
21、進(jìn)一步的,所述步驟s4中,將經(jīng)過互信息選擇得到的特征集合作為svm模型的輸入,使用5折交叉驗(yàn)證評估模型的性能和選擇最佳的超參數(shù)。
22、進(jìn)一步的,所述步驟s4中,使用測試集評估模型,評估使用的指標(biāo)包括準(zhǔn)確率acc、f1分?jǐn)?shù)f1-score、召回率recall、假陽性率fpr和受試者工作特征曲線下面積auc。
23、進(jìn)一步的,所述步驟s5中,利用外部驗(yàn)證集進(jìn)一步驗(yàn)證評估具體為:從cddi中收集與現(xiàn)有kras抑制劑數(shù)據(jù)集不重合的活性分子,在dud-e數(shù)據(jù)庫中通過這些活性分子的smiles字符串生成不重復(fù)的誘騙分子,將誘騙分子視為非活性分子,將活性分子和誘騙分子結(jié)合起來,形成一個(gè)外部驗(yàn)證集,用于評估分類模型在未見過的數(shù)據(jù)上的預(yù)測能力。
24、本發(fā)明采用先進(jìn)的機(jī)器學(xué)習(xí)技術(shù),為kras抑制劑的篩選提供了一種高效方法,在腫瘤治療藥物領(lǐng)域具有重大意義。本發(fā)明開發(fā)了一套創(chuàng)新的篩選流程:首先,利用互信息理論來識別與kras抑制活性最相關(guān)的化學(xué)和生物特征,確保模型能夠?qū)W習(xí)到與kras靶點(diǎn)直接相關(guān)的特征;其次,采用先進(jìn)的支持向量機(jī)模型,提高模型在預(yù)測kras抑制劑活性時(shí)的準(zhǔn)確性和穩(wěn)定性;最后,通過外部驗(yàn)證集有效地測試模型是否從訓(xùn)練數(shù)據(jù)集中學(xué)到了關(guān)鍵的結(jié)構(gòu)特征,確保模型的泛化能力。實(shí)驗(yàn)結(jié)果表明,模型在測試集上展現(xiàn)較好的性能,分別達(dá)到auc=0.912,acc=0.859,f1=0.890,并且在外部驗(yàn)證集上也展現(xiàn)出優(yōu)異的性能,auc值達(dá)到0.944,證明了其在kras抑制劑篩選中的有效性和實(shí)用性。
1.一種基于機(jī)器學(xué)習(xí)的kras抑制劑活性預(yù)測方法,其特征在于包括如下步驟:
2.如權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)的kras抑制劑活性預(yù)測方法,其特征在于:所述步驟s1中,采集的kras抑制劑數(shù)據(jù)包括半抑制濃度值ic50和簡化分子線性輸入規(guī)范字符串smiles。
3.如權(quán)利要求2所述的基于機(jī)器學(xué)習(xí)的kras抑制劑活性預(yù)測方法,其特征在于:所述步驟s1中,數(shù)據(jù)預(yù)處理包括:
4.如權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)的kras抑制劑活性預(yù)測方法,其特征在于:所述步驟s2中的特征計(jì)算使用python中的rdkit庫進(jìn)行。
5.如權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)的kras抑制劑活性預(yù)測方法,其特征在于:所述步驟s2中,篩選排除無效和冗余特征包括:
6.如權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)的kras抑制劑活性預(yù)測方法,其特征在于:所述步驟s3中的互信息特征選擇,首先計(jì)算每個(gè)特征與活性標(biāo)簽之間的互信息值,并根據(jù)這些值對特征進(jìn)行排序,然后選擇互信息值最高的若干特征作為特征集合,用于訓(xùn)練模型,以cohen’skappa系數(shù)為評價(jià)標(biāo)準(zhǔn),評估在選定的特征集合下模型預(yù)測性能,將該系數(shù)最高的若干維特征作為最終分類模型的輸入,kappa系數(shù)計(jì)算公式如下:
7.如權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)的kras抑制劑活性預(yù)測方法,其特征在于:所述步驟s4中,將經(jīng)過互信息選擇得到的特征集合作為svm模型的輸入,使用5折交叉驗(yàn)證評估模型的性能并選擇最佳的超參數(shù)。
8.如權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)的kras抑制劑活性預(yù)測方法,其特征在于:所述步驟s4中,使用測試集評估模型,評估使用的指標(biāo)包括準(zhǔn)確率acc、f1分?jǐn)?shù)f1-score、召回率recall、假陽性率fpr和受試者工作特征曲線下面積auc。
9.如權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)的kras抑制劑活性預(yù)測方法,其特征在于:所述步驟s5中,利用外部驗(yàn)證集進(jìn)一步驗(yàn)證評估具體為:從cddi中收集與現(xiàn)有kras抑制劑數(shù)據(jù)集不重合的活性分子,在dud-e數(shù)據(jù)庫中通過這些活性分子的smiles字符串生成不重復(fù)的誘騙分子,將誘騙分子視為非活性分子,將活性分子和誘騙分子結(jié)合起來,形成一個(gè)外部驗(yàn)證集,用于評估分類模型在未見過的數(shù)據(jù)上的預(yù)測能力。