本發(fā)明涉及數(shù)據(jù)分析,更具體地說,本發(fā)明涉及一種基于機器學(xué)習(xí)的宮頸癌病毒甲基化位點分析方法。
背景技術(shù):
1、宮頸癌是女性第四大常見惡性腫瘤,高危型hpv?16病毒持續(xù)感染是宮頸癌發(fā)病的高危因素,然而,90%以上為一過性感染,可被機體免疫系統(tǒng)清除,僅有10%呈持續(xù)感染,而最終真正導(dǎo)致癌變的僅占1%。目前宮頸癌篩查的主要手段為hpv檢測和tct檢查,但是兩種檢查方法均存在一定局限性,無法真正進行甲基化水平分析,并篩出敏感特征及特異特征最佳組合的第二甲基化位點,為了解決上述問題,現(xiàn)提供一種技術(shù)方案。
技術(shù)實現(xiàn)思路
1、為了克服現(xiàn)有技術(shù)的上述缺陷,本發(fā)明提供一種基于機器學(xué)習(xí)的宮頸癌病毒甲基化位點分析方法,通過對hpv病毒感染患者的病例樣本進行分析,并獲取患者的宮頸脫落細(xì)胞樣本,對患者的宮頸脫落細(xì)胞樣本內(nèi)感染宮頸癌病毒的甲基化位點,進行甲基化水平分析,篩選出顯著差異甲基化位點;再對篩選出的差異位點進行三三隨機組合,利用機器學(xué)習(xí)回歸模型綜合考慮多個位點進行預(yù)測,結(jié)合roc分析篩選出敏感性和特異性最優(yōu)的最佳組合,以解決上述背景技術(shù)中提出的問題。
2、為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
3、一種基于機器學(xué)習(xí)的宮頸癌病毒甲基化位點分析方法,包括如下步驟:
4、步驟一,樣本準(zhǔn)備:依據(jù)病理學(xué)及分子分型特征將hpv?16病毒感染患者的病例樣本,分類為第一正常對照組、第二高級別病變組以及第三宮頸鱗狀細(xì)胞癌組,通過宮頸液基保存液分別獲取患者的宮頸脫落細(xì)胞樣本;
5、步驟二,基因提?。豪脛P普核酸提取儀hbnp-4801a,核酸提取試劑盒磁珠法(dr-4801-kz型)提取宮頸脫落細(xì)胞樣本中的基因組dna;
6、步驟三,捕獲目標(biāo)片段:通過液相探針雜交捕獲法,捕獲納入分析的dna樣本中hpv16病毒的全基因組,并上機進行甲基化水平檢測;
7、步驟四,hpv?16病毒全基因組甲基化水平分析:利用甲基化捕獲測序原始數(shù)據(jù)使用fastq軟件進行質(zhì)控,在去除低質(zhì)量和adaptor序列后使用bismark(v0.23.1)軟件內(nèi)置的bowtie與hpv?16基因組比對,使用bismark去除重復(fù)序列后,提取hpv胞嘧啶-磷酸-鳥嘌呤(cpg)甲基化位點的信息,使用mtools(v1.15)和mosdepth(v0.3.2)工具對bam文件進行質(zhì)量評估,統(tǒng)計測序數(shù)據(jù)與基因組的比對概況和捕獲效率;
8、步驟五,差異甲基化位點篩選:使用methylkit(v1.18.0)讀取甲基化文件后,進行差異分析,提取差異甲基化位點dms和差異甲基化區(qū)域dmr,對比正常對照組,分析高級別病變組以及宮頸鱗狀細(xì)胞癌組的甲基化位點差異水平,共有31個位點差異有統(tǒng)計學(xué)意義(meth.diff>25%且q<0.05);
9、步驟六:甲基化位點組合分析:將對比結(jié)果差異顯著的31個甲基化位點,進行三三隨機組合,共有969種組合形式,運用回歸模型結(jié)合roc分析和不同位點組合找最大組間差異的嘗試,篩選出敏感性及特異性最優(yōu)的最佳組合。
10、作為本發(fā)明進一步方案,步驟六中,對比結(jié)果差異顯著的甲基化位點,進行三三隨機組合,進行三三隨機組合的計算公式為:
11、
12、式中:p為進行三三隨機組合后的組合總數(shù),n為對比結(jié)果差異顯著的甲基化位點個數(shù)。
13、作為本發(fā)明進一步方案,步驟六中,篩選出敏感性及特異性最優(yōu)的最佳組合,敏感特征及特異特征最佳組合需滿足:auc曲線下面積趨向于1,且顯著性水平小于0.05。
14、作為本發(fā)明進一步方案,步驟六中,通過機器學(xué)習(xí)回歸模型對組合的甲基化位點進行三三組合,結(jié)合roc分析評估各組合的模型性能,篩選出敏感性及特異性最優(yōu)的最佳組合,具體步驟為:
15、步驟a1,基于邏輯回歸模型,通過將給定的n組數(shù)據(jù)作訓(xùn)練集訓(xùn)練模型,并在訓(xùn)練結(jié)束后對給定的一組或多組數(shù)據(jù)作測試集進行分類,其中每一組數(shù)據(jù)都是由p個指標(biāo)構(gòu)成;
16、步驟a2,應(yīng)用sigmoid函數(shù)進行二分類,其中一類標(biāo)簽為0,另一類標(biāo)簽為1,其中,sigmoid函數(shù)的公式為:
17、
18、式中:σ(x)為輸入為x時sigmoid函數(shù)的輸出值,x為sigmoid函數(shù)的輸入值,e為自然對數(shù)的底;
19、實現(xiàn)線性回歸到概率的轉(zhuǎn)化,公式如下:
20、t=β0+β1x;
21、
22、式中:t為輸入數(shù)據(jù)通過線性回歸模型得到的結(jié)果,β0為線性回歸模型的截距項,β1為線性回歸模型的斜率,p(x)為輸入x經(jīng)過sigmoid函數(shù)映射后得到的概率值,σ(t)為輸入為t時sigmoid函數(shù)的輸出值;
23、經(jīng)過sigmod函數(shù)的映射,得到的概率為0到1,以α=0.5為閾值,大于閾值定義為1,小于閾值定義為0,進一步轉(zhuǎn)化為:
24、
25、
26、采用最大似然法對擬合結(jié)果進行量化,由于每個樣本是相關(guān)獨立的,所以計算總體概率是要相乘,公式如下:
27、
28、式中:l(ω)為總體概率,xi為第i個樣本的量化結(jié)果,yi為第i個樣本的閾值定義;
29、進行對數(shù)操作后,轉(zhuǎn)換如下:
30、l(ω)=∑yiln?p(xi)+(1-yi)(1-p(xi));
31、
32、
33、式中:ω為使樣本數(shù)據(jù)出現(xiàn)概率最大化的參數(shù)值;
34、步驟a3,繪制roc曲線,通過將連續(xù)變量設(shè)定出若干不同的臨界值,從而計算出一系列敏感性和特異性,再以敏感性為縱坐標(biāo),1-特異性為橫坐標(biāo),繪制成roc曲線;
35、步驟a4,運用logistic回歸和roc曲線綜合評價31個差異位點對宮頸癌病變的診斷價值,存在4個差異位點符合標(biāo)準(zhǔn)為“auc≥0.9且p<0.05,特異性趨向于1,敏感性趨向于0.86”,這4個位點分布于hpv?16的l2和e7區(qū),即這4個位點單個即具有診斷宮頸癌病變的應(yīng)用價值;將31個差異位點三三組合,共有969種組合形式,再次運用logistic回歸和roc曲線對這969種組合綜合評估,存在8個組合符合標(biāo)準(zhǔn)為“auc趨向于1且p<0.05,特異性和敏感性均趨向于1”,8個組合包含7個位點,分布于hpv?16的l1、l2、e6和e7。
36、作為本發(fā)明進一步方案,步驟五甲基化位點篩選中,將對比結(jié)果差異顯著的甲基化位點應(yīng)滿足甲基化水平差異值大于25%,且多重檢驗校正后的顯著性水平小于0.05。
37、本發(fā)明一種基于機器學(xué)習(xí)的宮頸癌病毒甲基化位點分析方法的技術(shù)效果和優(yōu)點:本發(fā)明通過對hpv病毒感染患者的病例樣本進行分析,并獲取患者的宮頸脫落細(xì)胞樣本,對患者的宮頸脫落細(xì)胞樣本內(nèi)感染宮頸癌病毒的甲基化位點,進行甲基化水平分析,篩選出顯著差異甲基化位點;再對篩選出的差異位點進行三三隨機組合,利用機器學(xué)習(xí)回歸模型綜合考慮多個位點進行預(yù)測,結(jié)合roc分析篩選出敏感性和特異性最優(yōu)的最佳組合。