蛋白質(zhì)分類模型構建方法和裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及生物學領域,特別地,涉及一種蛋白質(zhì)分類模型構建方法和裝置。
【背景技術】
[0002] 盡管細胞中包含的所有基因是一樣的,但在不同組織中,細胞僅表達一部分基因。 研宄各組織中特異表達的蛋白質(zhì)對于了解蛋白質(zhì)的功能和作用機制具有重要作用?,F(xiàn)有研 宄方法主要根據(jù)基因在各細胞或組織中的表達數(shù)據(jù)來考察各基因在某組織中是否表達,如 基因芯片。如果某一基因僅在一個組織或一個細胞類型中表達,則將該基因定義為組織特 異基因,其對應的蛋白質(zhì)為組織特異表達蛋白質(zhì)。在大部分組織中都有表達的基因則定義 為廣泛表達基因,與該基因?qū)牡鞍踪|(zhì)為廣泛表達蛋白質(zhì)。同時,研宄人員發(fā)現(xiàn)組織特異 表達蛋白質(zhì)相比于廣泛表達蛋白質(zhì)具有一些特殊的屬性,如組織特異表達蛋白質(zhì)與組織特 異基因存在的組織功能密切相關,通常對應最新進化的基因,在相互作用網(wǎng)絡中具有更小 的連接度。這些屬性對于預測未知的蛋白質(zhì)是否為組織特異蛋白質(zhì)具有一定的提示作用。
[0003]如文章ChangCW,ChengWC,ChenCR,etal.IdentificationofHuman HousekeepingGenesandTissue-SelectiveGenesbyMicroarrayMeta-Analysis.PLOS One, 2011,6(79) :e22859提出了一種基于基因表達數(shù)據(jù)發(fā)現(xiàn)組織表達特異蛋白質(zhì)的方法, 包括以下步驟:
[0004] 1)從基因表達數(shù)據(jù)庫M2DB中下載人的多種組織表達數(shù)據(jù)集,獲得了 43個正常組 織中的104個數(shù)據(jù)集;
[0005] 2)對多個基因表達數(shù)據(jù)集進行標號對應和數(shù)據(jù)標準化處理,使其具有可比性;
[0006] 3)提取僅在1個組織中表達的基因作為組織特異基因,在43個組織中均有表達的 基因作為廣泛表達基因;
[0007] 4)對由該方法獲得的組織特異表達蛋白質(zhì)和廣泛表達蛋白質(zhì)進行功能分析。
[0008] 該方法主要基于基因表達信息來預測組織特異表達的蛋白質(zhì),由于基因表達數(shù)據(jù) 存在一定噪聲,噪音的產(chǎn)生與實驗條件密切相關。該預測方法受噪音干擾嚴重,預測精度 低。該方法構建的預測模型沒有考慮蛋白質(zhì)本身的特性,僅從現(xiàn)有實驗數(shù)據(jù)出發(fā)進行預測, 不利于發(fā)現(xiàn)僅表達了組織特異蛋白質(zhì)的組織特異基因。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明提供一種蛋白質(zhì)分類模型構建方法和裝置,以解決現(xiàn)有技術中預測方法精 度低,方法受噪音干擾大的技術問題。
[0010] 根據(jù)本發(fā)明的一個方面,提供了一種蛋白質(zhì)分類模型構建方法,包括:獲取組織表 達蛋白質(zhì)分類特征;根據(jù)分類特征得到組織特異表達蛋白質(zhì)的預測模型;以及根據(jù)預測模 型對蛋白質(zhì)進行分類。
[0011] 進一步地,獲取組織表達蛋白質(zhì)的分類特征包括:查詢組織特異表達的蛋白質(zhì),得 到標準陽性數(shù)據(jù)集;查詢組織廣泛表達的蛋白質(zhì),得到標準陰性數(shù)據(jù)集;計算標準陽性數(shù) 據(jù)集和標準陰性數(shù)據(jù)集中蛋白質(zhì)間差異顯著性;提取在標準陽性數(shù)據(jù)集和標準陰性數(shù)據(jù)集 中具有蛋白質(zhì)間差異顯著性的特征作為分類特征。
[0012] 進一步地,獲取蛋白質(zhì)和基因組織特異表達的分類特征包括:獲取基因芯片數(shù)據(jù); 以及從基因芯片數(shù)據(jù)中提取分類特征。
[0013] 進一步地,根據(jù)分類特征得到組織特異表達蛋白質(zhì)的預測模型包括:計算分類特 征的似然比;以及由似然比得到預測模型。
[0014] 進一步地,預測模型對蛋白質(zhì)進行分類包括:獲取樣品集中的待分類蛋白質(zhì);通 過預測模型對待分類蛋白質(zhì)進行分類,并獲取預測模型的分類結果;以及利用待檢測蛋白 質(zhì)嚴重分類結果的準確性。
[0015] 根據(jù)本發(fā)明的另一方面還提供了一種蛋白質(zhì)分類模型構建裝置,包括獲取單元, 用于獲取組織表達蛋白質(zhì)的分類特征;生成單元,用于根據(jù)分類特征得到組織特異表達蛋 白質(zhì)的預測模型;以及檢測單元,用于根據(jù)預測模型對蛋白質(zhì)進行分類。
[0016] 進一步地,獲取單元包:第一查詢模塊,用于查詢組織特異表達的蛋白質(zhì),得到標 準陽性數(shù)據(jù)集;第二查詢模塊,用于查詢廣泛組織表達的蛋白質(zhì),得到標準陰性數(shù)據(jù)集;第 一計算模塊,用于計算標準陽性數(shù)據(jù)集和標準陰性數(shù)據(jù)集中蛋白質(zhì)間差異顯著性;以及第 一提取模塊,用于提取在標準陽性數(shù)據(jù)集和標準陰性數(shù)據(jù)集中具有蛋白質(zhì)間差異顯著性的 特征作為分類特征。
[0017] 進一步地,生成單元包括:獲取模塊,用于獲取基因芯片數(shù)據(jù);以及第二提取模 塊,用于從基因芯片數(shù)據(jù)中提取分類特征。
[0018] 進一步地,生成單元包括:計算模塊,用于計算分類特征的似然比;以及生成模 塊,用于由似然比得到預測模型。
[0019] 進一步地,還包括:取樣單元,用于獲取樣品集中的待分類蛋白質(zhì);分類單元,用 于通過預測模型對待分類蛋白質(zhì)進行分類,并獲取預測模型的分類結果;以及驗證單元,用 于利用待檢測蛋白質(zhì)嚴重分類結果的準確性。
[0020] 本發(fā)明具有以下有益效果:
[0021] 1、本發(fā)明提供的方法在采集基因表達數(shù)據(jù)的情況下,還采集了基因表達蛋白的其 他特征,通過構建陰集和陽集后對其進行顯著性分類,選取在蛋白質(zhì)之間差異顯著性明顯 的蛋白質(zhì)特征作為分類特征,提高了所構建模型對具有組織特異表達蛋白的篩選能力。當 構建所得模型遇到由于實驗中導致的噪音干擾時,能通過所篩選出的多個具有篩選顯著 性的特征對蛋白質(zhì)進行分類。
[0022] 2、本發(fā)明提供的裝置在采集基因表達數(shù)據(jù)的情況下,還采集了基因表達蛋白的其 他特征,通過構建陰集和陽集后對其進行顯著性分類,選取在蛋白質(zhì)之間差異顯著性明顯 的蛋白質(zhì)特征作為分類特征,提高了所構建模型對具有組織特異表達蛋白的篩選能力。當 構建所得模型遇到由于實驗中導致的噪音干擾時,能通過所篩選出的多個具有篩選顯著性 的特征對蛋白質(zhì)進行分類。
[0023] 除了上面所描述的目的、特征和優(yōu)點之外,本發(fā)明還有其它的目的、特征和優(yōu)點。 下面將參照圖,對本發(fā)明作進一步詳細的說明。
【附圖說明】
[0024] 構成本申請的一部分的附圖用來提供對本發(fā)明的進一步理解,本發(fā)明的示意性實 施例及其說明用于解釋本發(fā)明,并不構成對本發(fā)明的不當限定。在附圖中:
[0025] 圖1根據(jù)本發(fā)明第一實施例蛋白質(zhì)分類模型建立裝置的示意圖;
[0026] 圖2根據(jù)本發(fā)明第二實施例蛋白質(zhì)分類模型建立裝置的示意圖;
[0027] 圖3根據(jù)本發(fā)明第三實施例蛋白質(zhì)分類模型建立裝置的示意圖;
[0028] 圖4根據(jù)本發(fā)明第四實施例蛋白質(zhì)分類模型建立裝置的示意圖;
[0029] 圖5根據(jù)本發(fā)明第五實施例蛋白質(zhì)分類模型建立裝置的示意圖;
[0030] 圖6是根據(jù)本發(fā)明第一實施例的蛋白質(zhì)分類模型建立方法的流程圖;
[0031] 圖7是根據(jù)本發(fā)明第二實施例的蛋白質(zhì)分類模型建立方法的流程圖;
[0032] 圖8是根據(jù)本發(fā)明第三實施例的蛋白質(zhì)分類模型建立方法的流程圖;以及
[0033] 圖9是根據(jù)本發(fā)明第四實施例的蛋白質(zhì)分類模型建立方法的流程圖。 圖10是根據(jù)本發(fā)明第五實施例的蛋白質(zhì)分類模型構建方法的流程圖。
【具體實施方式】
[0034]