本發(fā)明涉及生物信息,具體涉及基于多組學數(shù)據(jù)的腫瘤準確分型的方法、其建立的評估腫瘤藥物治療效果的模型及該模型的應用。
背景技術:
1、目前早期腎癌能通過超聲、ct、mri被診斷發(fā)現(xiàn),能夠和良性腎占位性疾病相互區(qū)分開來,例如腎囊腫、腎血管平滑肌脂肪瘤。通過術后或穿刺后的病理分級、tnm分期等指標能夠揭示或指導患者后期抗腫瘤用藥以及預后情況,但仍會在腫瘤異質性、耐藥性方面無法做到明確的辨別。原因是不同于乳腺癌、卵巢癌、肺癌等常見癌癥,目前腎癌沒有較為明確的分子分型方式,腎癌沒有分子分型的原因主要有兩方面。首先,腎癌的組織學類型有多種,如透明細胞癌(kirc)、嫌色細胞癌(kich)、乳頭狀細胞癌(kirp)以及其他未分類的腎細胞癌等,這些類型腫瘤的生物學特性都有差異,因此在治療和預后評估上會有所不同;其次,腎癌的分子分型主要依賴于腎癌的基因表達情況,而腎癌的基因表達往往存在異質性,這使得腫瘤的分子分型較為復雜。腎透明細胞癌是病理分型中占比最大的腎癌,有報道通過基因測序測定特定基因表達對腎透明細胞癌患者進行特定的分子分型區(qū)分,但區(qū)分效果并不如人意,往往只能從生存預后的角度發(fā)現(xiàn)生存預后組間存在較為明顯的表達差異,并不能有效的對腎透明細胞癌患者進行區(qū)分,進而無法對特定的腎透明細胞癌患者的臨床診療中提供有效的指導意見,無法為患者制定個性化的治療方案。
技術實現(xiàn)思路
1、為了克服現(xiàn)有技術的不足,本發(fā)明的目的之一在于提供基于多組學數(shù)據(jù)的腫瘤準確分型的方法,通過該方法,可以實現(xiàn)對腎透明細胞癌患者進行準確分子分型,能夠評估腫瘤藥物治療效果,有助于對特定的腎透明細胞癌患者的臨床診療中提供有效的指導意見,為患者制定個性化的治療方案。
2、本發(fā)明的目的之二在于提供基于多組學數(shù)據(jù)的腫瘤準確分型的方法、及其在建立評估腫瘤藥物治療效果的模型中的應用。
3、本發(fā)明的目的之三在于提供基于多組學數(shù)據(jù)的腫瘤準確分型的方法的篩選鑒定方法,能夠篩選鑒定到基于多組學數(shù)據(jù)的腫瘤準確分型的方法。
4、本發(fā)明的目的之一采用如下技術方案實現(xiàn):
5、基于多組學數(shù)據(jù)的腫瘤準確分型的方法,包括以下步驟:
6、s1、獲取五種組學數(shù)據(jù),分別是癌癥基因組圖譜數(shù)據(jù)庫(tcga)中的腎透明細胞癌(kirc)患者的轉錄組數(shù)據(jù),所述轉錄組數(shù)據(jù)包括mrna表達譜數(shù)據(jù)和lncrna表達譜的數(shù)據(jù)(mrna/lncrna);從xena數(shù)據(jù)庫中獲得了illumina?dna甲基化數(shù)據(jù);從cbioportal數(shù)據(jù)庫中獲取體細胞基因突變數(shù)據(jù)和臨床病理學特征數(shù)據(jù);從所述癌癥基因組圖譜數(shù)據(jù)庫中篩選具備所述五種組學數(shù)據(jù)的腎透明細胞癌(kirc)患者用于組學分析;
7、s2、五種組學數(shù)據(jù)的處理,具體是:對于所述mrna表達譜數(shù)據(jù)和所述lncrna表達譜的數(shù)據(jù),用fpkm計算處理;對于所述dna甲基化數(shù)據(jù),保留基因啟動子區(qū)cpg島上有探針id標記的數(shù)據(jù);對于所述體細胞基因突變數(shù)據(jù),保留基因突變矩陣中具有非同義變異的體細胞基因突變數(shù)據(jù);
8、s3、根據(jù)cox回歸生存分析篩選所述五種組學數(shù)據(jù)中與總生存期最相關的因素組學數(shù)據(jù),得到五種臨床相關組學數(shù)據(jù);
9、s4、通過計算聚類預測指數(shù)cpi和gap統(tǒng)計量,確定組學聚類的數(shù)目;
10、s5、使用movics分子分型r工具包中的機器學習模型對所述五種臨床相關組學數(shù)據(jù)按照確定的組學聚類的數(shù)目進行多組學數(shù)據(jù)分析,建立腎透明細胞癌(kirc)患者的momc-vm分子分型分類模型,用于指導腫瘤準確分型。
11、進一步地,步驟s2中,將所述lncrna表達譜數(shù)據(jù)中的轉錄本記為:非編碼、3'端重疊非編碼rna、反義rna、長間隔非編碼rna(lincrna)、內(nèi)含子感應性正義重疊型及雙向啟動子lncrna亞型,并通過gencode27映射將所述轉錄本的ensembl?id轉換為基因符號。
12、進一步地,步驟s2中,所述體細胞基因突變數(shù)據(jù)包括移碼缺失/插入突變數(shù)據(jù)、框內(nèi)缺失/插入突變數(shù)據(jù)、錯義/無義/非停止密碼子突變數(shù)據(jù)以及剪接位點或起始密碼子突變數(shù)據(jù),即為所述具有非同義變異的體細胞基因突變數(shù)據(jù)。
13、進一步地,步驟s3中,對fpkm計算處理后的lncrna表達譜的數(shù)據(jù)在cox回歸生存分析基礎上,然后根據(jù)與金屬離子誘導細胞死亡相關的mrna的相關性進行相關性篩選,相關性cor>0.3的lncrna被納入組學分析中。
14、進一步地,步驟s5中,所述movics分子分型r工具包中的機器學習模型為支持向量機(support?vector?machines)、k近鄰算法(k-nearestneighbor)、隨機森林(randomforest)、極限樹(extra?tree)、梯度提升機(xgboost)、mlp、lightgbm、naivebayes、adaboost、gradientboosting中的一種。
15、進一步地,分別采用多種所述機器學習模型得到的不同的聚類結果,將不同的聚類結果進行進一步整合,生成穩(wěn)健的聚類結果模型,其中整合步驟如下:
16、s1、數(shù)據(jù)預處理:確保所有模型使用的數(shù)據(jù)集是一致的,包括特征選擇、標準化等;
17、s2、模型選擇:分別選擇權利要求5中多種不同的聚類算法,包括支持向量機(support?vectormachines)、k近鄰算法(k-nearestneighbor)、隨機森林(randomforest)、極限樹(extra?tree)、梯度提升機(xgboost)、mlp、lightgbm、naivebayes、adaboost、gradientboosting,以確保從不同角度分析數(shù)據(jù);
18、s3、模型訓練:分別對每種聚類算法進行訓練,得到各自的聚類結果;
19、s4、結果分析:分析每種模型的聚類結果,包括聚類的數(shù)量、聚類的質量。
20、s5、一致性評估:評估不同模型聚類結果的一致性,使用的評估指標包括調(diào)整蘭德系數(shù)(adjusted?rand?index)、歸一化互信息(normalized?mutual?information)的一種。
21、s6、集成方法:使用集成方法來整合不同模型的聚類結果,常見的集成方法包括:
22、投票機制:每個數(shù)據(jù)點根據(jù)多數(shù)模型的聚類結果進行投票,最終確定其聚類;
23、堆疊(stacking):將不同模型的聚類結果作為特征輸入到一個新的分類模型中,訓練這個模型來確定最終的聚類;
24、基于圖的方法:構建一個圖,其中節(jié)點表示數(shù)據(jù)點,邊的權重表示數(shù)據(jù)點在不同模型中屬于同一聚類的置信度,然后使用圖聚類算法來整合結果;
25、s7、穩(wěn)健性檢驗:對集成后的聚類結果進行穩(wěn)健性檢驗,確保結果不是由個別模型的異常表現(xiàn)所驅動;
26、s8、結果解釋:對最終的聚類結果進行解釋,理解聚類背后的邏輯和數(shù)據(jù)結構;
27、s9、應用:將最終的聚類結果應用于建立評估腫瘤藥物治療效果的模型。
28、進一步地,步驟s5后,將所述腎透明細胞癌(kirc)患者的momc-vm分子分型分類模型從roc曲線、dca曲線、混淆矩陣、準確度方面進行預測能力評價,選擇建立最優(yōu)momc-vm分子分型分類模型的所述機器學習模型作為最終的分子分型的分類算法。
29、進一步地,步驟s3中,采用mad算法對所述五種臨床相關組學數(shù)據(jù)進行篩選,分別得到mrna的精英標志物、lncrna的精英標志物,基于所述mrna的精英標志物、所述lncrna的精英標志物,使用所述movics分子分型r工具包中的機器學習模型按照確定的組學聚類的數(shù)目進行多組學數(shù)據(jù)分析,建立所述腎透明細胞癌(kirc)患者的momc-vm分子分型分類模型。
30、本發(fā)明的目的之二采用如下技術方案實現(xiàn):
31、基于多組學數(shù)據(jù)的腫瘤準確分型的方法建立的momc-vm分子分型分類模型,采用所述的基于多組學數(shù)據(jù)的腫瘤準確分型的方法建立得到。
32、本發(fā)明的目的之三采用如下技術方案實現(xiàn):
33、基于多組學數(shù)據(jù)的腫瘤準確分型的方法建立的momc-vm分子分型分類模型在建立評估腫瘤藥物治療效果的模型中的應用,其特征在于,包括以下步驟:
34、s1、獲取所述腎透明細胞癌(kirc)患者的五種組學數(shù)據(jù),采用所述momc-vm分子分型分類模型對所述腎透明細胞癌(kirc)患者進行momc-vm分子分型,得到所述腎透明細胞癌(kirc)患者的分子分型類別;
35、s2、根據(jù)所述得到的所述腎透明細胞癌(kirc)患者的分子分型類別,對腫瘤藥物對所述腎透明細胞癌(kirc)患者進行治療的效果進行評估。
36、相比現(xiàn)有技術,本發(fā)明的有益效果在于:
37、本發(fā)明提供了基于多組學數(shù)據(jù)的腫瘤準確分型的方法,基于獲取癌癥的更全面的多組學數(shù)據(jù)以及更先進的聚類分析算法,能以更全面完善的數(shù)據(jù)類型對腎透明細胞癌患者進行區(qū)分度更佳的分型,進而彌補現(xiàn)有技術對腎透明細胞癌患者分子分型的缺陷,對目前腎透明細胞癌患者的一線治療方案以及用藥進行明確的指導,為腎透明細胞癌的患者的預后和指導治療提供更精準化治療。