基于芯片進(jìn)行規(guī)?;焖僦苽鋯胃押塑账岬姆椒?br>【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及芯片合成寡核苷酸的技術(shù)領(lǐng)域,特別是涉及單根寡核苷酸低成本規(guī)模 化制備方法。更具體的說(shuō),本發(fā)明涉及利用聚丙烯酰胺凝膠分離方法對(duì)芯片合成所得的寡 核苷酸混合物進(jìn)行分離的方法。本發(fā)明還涉及針對(duì)單根寡核苷酸快速制備方面的芯片上寡 核苷酸庫(kù)的設(shè)計(jì)方法。
【背景技術(shù)】
[0002] 標(biāo)準(zhǔn)的DNA化學(xué)合成是從3'端到5'端延長(zhǎng)核苷酸鏈的循環(huán)過(guò)程。二十世紀(jì)八十年 代,已經(jīng)發(fā)展了四步法亞磷酰胺化學(xué)合成方法[1]。這個(gè)方法現(xiàn)在仍被大多商業(yè)化DNA合成 公司所采用。該過(guò)程將酸活化的脫氧核苷亞磷酰胺(Deoxynucleoside phosphoramidite) 分子耦合到一個(gè)被固定在固相上(一般是硅材質(zhì)表面)的脫氧核苷酸分子上。在第一個(gè)合 成循環(huán)中,核苷酸鏈將從第一個(gè)被固定在表面的受保護(hù)的核苷酸分子開始延伸。其中,經(jīng)常 采用的固定化表面主要是可控孔度玻璃(controlled pore glass,CPG)或者聚苯乙稀珠子 (polystyrene beads, PS beads)。目前,基于四步法合成方法的DNA全自動(dòng)合成儀已經(jīng)可 以將單次合成的通量從1根提高到1,536根序列[幻。目前,商業(yè)化提供的CPG合成長(zhǎng)寡核 苷酸(<60nt)的價(jià)格可以達(dá)到$0. 10-0. 20/nt,較長(zhǎng)的寡核苷酸及進(jìn)一步合成的基因價(jià)格 大約是 $0· 40-1. ΟΟ/bp [幻。
[0003] 傳統(tǒng)的DNA合成方法受到通量和成本限制,合成的寡核苷酸只能充當(dāng)PCR或者定 點(diǎn)突變的引物。但隨著DNA化學(xué)合成技術(shù)的發(fā)展,尤其是基于微陣列技術(shù)的并行合成寡核 苷酸合成技術(shù)的發(fā)展[4][反幻,大量寡核苷酸序列可以在幾厘米見(jiàn)方的芯片上并行合成, 通量得到提升,對(duì)應(yīng)的成本也隨之降低,可以直接應(yīng)用到代謝工程改造、藥物開發(fā)、基因組 功能分析等領(lǐng)域。
[0004] 人工合成的高保真的寡核苷酸多用來(lái)制作單鏈核酸探針,檢測(cè)序列特異性的分 子,包括DNA與蛋白質(zhì)、藥物或其他配體分子之間的相互作用,從而應(yīng)用到核酸雜交、原位 雜交熒光檢測(cè)(FISH)、噬菌體展示、核磁共振NMR等技術(shù)中[Z]。另外,DNA或RNA可以在 細(xì)胞內(nèi)結(jié)合序列互補(bǔ)的基因組DNA或轉(zhuǎn)錄的mRNA,造成基因沉默或蛋白表達(dá)水平下調(diào),弓丨 起表型的改變。因此,寡核苷酸也可以應(yīng)用到基因功能檢測(cè)、基因治療相關(guān)的藥物開發(fā)等方 面。比如,雙鏈DNA寡核苷酸可以作為檢測(cè)哺乳細(xì)胞對(duì)外源DNA相關(guān)應(yīng)答的工具[§],也可 以用來(lái)作為敲除細(xì)胞內(nèi)相關(guān)基因序列或調(diào)控序列從而研宄基因功能的工具。
[0005] 另外,蛋白表達(dá)相關(guān)調(diào)控因子,如啟動(dòng)子、核糖體結(jié)合位點(diǎn)等序列都是短的 DNA(即寡核苷酸)序列,這種類型的寡核苷酸可以直接進(jìn)行人工合成。因此,研宄者們可 以通過(guò)理性設(shè)計(jì)和構(gòu)建寡核苷酸文庫(kù),來(lái)達(dá)到優(yōu)化蛋白質(zhì)表達(dá)的目的。如Schlabach, M. R.等人通過(guò)人工設(shè)計(jì)合成了一套啟動(dòng)子文庫(kù),分別克隆到含有GFP基因的表達(dá)載體中,控 制表達(dá)蛋白產(chǎn)生熒光信號(hào),經(jīng)過(guò)FACS篩選得到強(qiáng)啟動(dòng)子,用來(lái)優(yōu)化哺乳細(xì)胞內(nèi)蛋白表達(dá)水 平[殳]。
[0006] 寡核苷酸相關(guān)分子,包括反義 RNA「101, aptamers Till、siRNAs (small-interferin g RNAs) [1£]等可以選擇性調(diào)控疾病相關(guān)基因的表達(dá),具有成為治療人類疾病的藥物的潛 力。在發(fā)達(dá)國(guó)家,已經(jīng)有不少分子進(jìn)入了臨床研宄[11]。而反義寡核苷酸,可以直接作為 藥物治療疾病,如Isis' s Vitravene就是市場(chǎng)上開發(fā)的第一個(gè)治療患視網(wǎng)膜炎的AIDS病 人的寡核苷酸藥物[Ii].另外,dsDNA可以克隆到轉(zhuǎn)錄載體中直接轉(zhuǎn)錄得到RNA分子,比 如microRNA前體等,繼而應(yīng)用到各項(xiàng)RNA干擾相關(guān)的研宄中。近些年來(lái),雙鏈RNA包括 siRNA(small interfering RNA)和 shRNA(short hairpin RNA) Γ15, 161 的研宄進(jìn)入快速 發(fā)展階段。其中,shRNA可以通過(guò)化學(xué)合成單鏈后退火得到,也可以通過(guò)RNA聚合酶III轉(zhuǎn) 錄寡核苷酸DNA模板得到。通常60-100bp的雙鏈DNA寡核苷酸中含有19-29bp與目標(biāo)基 因同源的序列,并且該部分序列存在兩份,形成回文結(jié)構(gòu),經(jīng)過(guò)酶切,會(huì)形成發(fā)夾結(jié)構(gòu)[II]。 因此,人工合成長(zhǎng)寡核苷酸除了可以作為長(zhǎng)鏈DNA組裝的起始元件,還可以用來(lái)構(gòu)建RNA轉(zhuǎn) 錄模板文庫(kù)及各種短DNA文庫(kù),在很大程度上擴(kuò)大了寡核苷酸應(yīng)用的范圍。
[0007] 化學(xué)合成的寡核苷酸可以通過(guò)聚丙烯酰胺凝膠電泳(PAGE)[遲]、高效液相色譜 (HPLC)[叢]、毛細(xì)管電泳(CE)等方法進(jìn)行純化。一般PAGE純化是使用變性聚丙烯酰胺凝 膠電泳分離DNA后,從凝膠中回收目標(biāo)DNA。該方法得到的DNA純度可以大于90 %,尤其對(duì) 大于50mer的寡核苷酸有效。使用HPLC的方法純化DNA更加高效且方便,可以達(dá)到很高的 純度(>95% )和靈敏度,但是成本相比PAGE方法偏高,且更適用于小于50mer的未修飾寡 核苷酸。已經(jīng)商業(yè)化應(yīng)用的HPLC純化選用的有簡(jiǎn)易反相柱C18柱、反相凈化濾芯(RPC)純 化柱等。其中C18柱對(duì)DNA有特異性吸附,可以被有機(jī)溶液洗脫,而不會(huì)被水洗脫,因此能 有效地去除鹽分,但不能有效去除比目的片段小的小片段。RPC純化原理與反相HPLC-樣, 但是更加有效且經(jīng)濟(jì)。超高效液相色譜(UPLC)是一種比HPLC方法更快速、更高效和更高 分辨率的DNA檢測(cè)分離技術(shù)。已發(fā)展的純化方法多用于純化寡核苷酸化學(xué)合成中的N-I長(zhǎng) 度的邊反應(yīng)產(chǎn)物,目標(biāo)產(chǎn)物是單一的一條DNA。
[0008] 目前,商業(yè)化提供的CPG合成寡核苷酸(<60nt)的價(jià)格一般在$0· 10-0. 20/nt,更 長(zhǎng)的寡核苷酸(<200nt)價(jià)格大約會(huì)上升到到$0.40-1. 00/nt Q]。眾所周知,CPG合成方法 可以提供大量高保真性的寡核苷酸DNA,但是存在通量低、成本高的缺點(diǎn)。因此,過(guò)去二十 年,基于芯片的寡核苷酸合成方法得到快速發(fā)展,該方法可以提高合成通量并降低成本 [3, 20-25]。有報(bào)道稱420, 000根寡核苷酸可以在同張芯片上合成,成本可以降到0. 001-10 美分/nt [玉M]。但是芯片合成方法得到的寡核苷酸是一個(gè)復(fù)雜的混合物(序列不同,長(zhǎng)度 也可能不同)[迷],單種寡核苷酸的量極低(IO 4-IO6個(gè)分子)[沒(méi)]。目前單根寡核苷酸的商 業(yè)合成還是使用CPG合成方法,限制了寡核苷酸在代謝工程改造、藥物開發(fā)、基因組功能分 析等方面的應(yīng)用潛力。所以,更高通量、更低成本的單根寡核苷酸合成方法應(yīng)該被開發(fā)。目 前還沒(méi)有基于芯片大規(guī)模制備單根寡核苷酸的技術(shù)的報(bào)道?;谛酒铣傻墓押塑账峄旌?庫(kù),分離獨(dú)立寡核苷酸時(shí),可以采用的方法是直接分離方法或者特異性引物擴(kuò)增。但是具有 以下難點(diǎn):(1)單獨(dú)寡核苷酸的絕對(duì)量極少(IO 4-IO6個(gè)分子[互]),無(wú)法直接應(yīng)用到下游,也 無(wú)法直接進(jìn)行分離(單種寡核苷酸的濃度過(guò)低,也不足以分辨);(2)背景序列復(fù)雜[迷], 因此無(wú)論是直接分離(背景序列長(zhǎng)度不一,具有相同長(zhǎng)度的寡核苷酸也不在少數(shù),因此無(wú) 法直接分離),還是選擇性擴(kuò)增(復(fù)雜背景導(dǎo)致非特異性擴(kuò)增),都存在技術(shù)難度。同時(shí),特 異性擴(kuò)增需要合成序列特異的引物,針對(duì)整張芯片不同寡核苷酸序列進(jìn)行特異性引物合成 的話,成本過(guò)高。
【發(fā)明內(nèi)容】
[0009] 基于上述問(wèn)題,本發(fā)明建立了一套基于芯片合成的高通量低成本的單根寡核苷酸 規(guī)?;蛛x制備方法。本發(fā)明以一種新的、基于微芯片的高并行DNA原位合成方法[M,盟] 進(jìn)行寡核苷酸的大量合成。采用的4K芯片可以最高合成接近4, 000根不同的寡核苷酸。在 設(shè)計(jì)寡核苷酸序列時(shí),引入通用引物將芯片合成的全部寡核苷酸分成一系列亞庫(kù),從而降 低寡核苷酸混合物的復(fù)雜性;每個(gè)亞庫(kù)含有5-11根長(zhǎng)度不同的寡核苷酸,相鄰長(zhǎng)度的寡核 苷酸相差至少4堿基,從而可以通過(guò)PAGE方法分辨并分離。另外,得到的寡核苷酸序列中包 括目標(biāo)序列及其兩端的通用引物,該序列可以通過(guò)IIS型內(nèi)切酶移除引物得到目標(biāo)寡核苷 酸;也可以作為模板,根據(jù)使用者的需求使用通用引物來(lái)自行擴(kuò)增。本發(fā)明通過(guò)芯片合成 了 615根不同的寡核苷酸,分為88個(gè)寡核苷酸亞庫(kù),合成寡核苷酸總長(zhǎng)度達(dá)62, 809堿基, 構(gòu)成了包括綠色熒光蛋白、木糖異構(gòu)酶、三種纖維素酶編碼基因(共6, 441堿基對(duì)),以及 223種線蟲來(lái)源的microRNA前體模板DNA (共19, 930堿基對(duì))。通過(guò)條件優(yōu)化,本發(fā)明可以 在22h之內(nèi)得到納摩爾級(jí)的PAGE純度的分離的雙鏈寡核苷酸,花費(fèi)最低可降至$0. 004/堿 基,并且,隨著單張芯片合成量的提高,成本可以進(jìn)一步降低。本發(fā)明可以提供的單根寡核 苷酸從通量、成本、產(chǎn)量和保真度方面都可以滿足科研中對(duì)大量獨(dú)立寡核苷酸序列的需求, 在通量和成本方面優(yōu)于目前商業(yè)化提供的單根寡核苷酸(>60堿基),極大地填補(bǔ)了單根寡 核苷酸(>60堿基)高通量低成本合成這方面的空白。
[0010] 具體地,本發(fā)明提供一種高通量合成和純化寡核苷酸的方法,所述方法包括以下 步驟:1)設(shè)計(jì)寡核苷酸序列,在寡核苷酸兩端加上通用引物,以將合成的全部寡核苷酸分 成若干亞庫(kù),不同亞庫(kù)具有不同的通用引物,同一亞庫(kù)具有相同通用引物,所述通用引物上 含有IIS型內(nèi)切酶的酶切位點(diǎn);2)進(jìn)行基于微芯片的DNA原位合成并洗脫合成產(chǎn)物;3)利 用所述通用引物對(duì)所述合成產(chǎn)物進(jìn)行PCR擴(kuò)增;4)分離擴(kuò)增產(chǎn)物。
[0011] 在一個(gè)優(yōu)選的實(shí)施方案中,所述亞庫(kù)以要合成的寡核苷酸片段大小來(lái)分配。
[0012] 在一個(gè)優(yōu)選的實(shí)施方案中,在寡核苷酸和一側(cè)的通用引物之間還具有接頭序列。
[0013] 在一個(gè)優(yōu)選的實(shí)施方案中,所述接頭序列在所述寡核苷酸的3'端。
[0014] 在一個(gè)優(yōu)選的實(shí)施方案中,所述接頭序列含有Iis型內(nèi)切酶的酶切位點(diǎn)。
[0015] 在一個(gè)優(yōu)選的實(shí)施方案中,每個(gè)亞庫(kù)含有5-11根長(zhǎng)度不同的寡核苷酸。
[0016] 在一個(gè)優(yōu)選的實(shí)施方案中,每個(gè)亞庫(kù)中相鄰長(zhǎng)度的寡核苷酸相差至少4個(gè)堿基。 [0017] 在一個(gè)優(yōu)選的實(shí)施方案中,步驟4)中的分離使用聚丙烯酰胺凝膠電泳進(jìn)行。
[0018] 在一個(gè)優(yōu)選的實(shí)施方案中,所述聚丙烯酰胺凝膠濃度為8% -10%且為非變性的。
[0019] 在一個(gè)優(yōu)選的實(shí)施方案中,所述方法在步驟4)后還包括用IIS型內(nèi)切酶酶切和/ 或用相應(yīng)通用引物選擇性PCR擴(kuò)增分離后的獨(dú)立寡核苷酸的步驟。
[0020] 在一個(gè)優(yōu)選的實(shí)施方案中,所述IIS型內(nèi)切酶是內(nèi)切酶Sch I,Bbs I或Bsa I。
[0021] 在一個(gè)優(yōu)選的實(shí)施方案中,所述微芯片是4k芯片。
[0022] 附圖簡(jiǎn)述
[0023] 圖1單根寡核苷酸制備分離原理。芯片合成的寡核苷酸混合庫(kù)中的單根寡核苷酸 序列兩端可以引入不同組的通用引物對(duì),通過(guò)PCR擴(kuò)增得到獨(dú)立的各個(gè)寡核苷酸亞庫(kù)。每 個(gè)寡核苷酸亞庫(kù)包含5-11根不同的寡核苷酸,這些寡核苷酸具有不同長(zhǎng)度,相鄰寡核苷酸 之間的長(zhǎng)度差別至少4堿基。
[0024] 圖2單根寡核苷酸設(shè)計(jì)原理。需要合成的目標(biāo)寡核苷酸兩端引入通用引物,該引 物部分序列可以通過(guò)IIS型限制性內(nèi)切酶切除,而不會(huì)破壞目標(biāo)序列,也不會(huì)殘留額外的 堿基。有些寡核苷酸兩端除了通用引物序列,另外還在DNA的3'端引入了接頭序列,該接 頭序列同樣可以通過(guò)IIS型內(nèi)切酶切除。
[0025] 圖3寡核苷酸亞庫(kù)完整性驗(yàn)證設(shè)計(jì)原理(基因組裝)。分離寡核苷酸亞庫(kù)得到的 單根寡核苷酸可以通過(guò)基因序列組裝來(lái)驗(yàn)證是否存在序列缺失或錯(cuò)誤(非目標(biāo)寡核苷酸 序列)。此處,構(gòu)成同一根基因片段的寡核苷酸并不屬于擴(kuò)增時(shí)同一組寡核苷酸亞庫(kù)?;?序列通過(guò)軟件DNAWorks或TmPrimer切割成為多個(gè)片段,進(jìn)而切割成一組寡核苷酸。這些 寡核苷酸可以通過(guò)后續(xù)的組裝得到全長(zhǎng)基因 DNA。
[0026] 圖4 PAGE分離寡核苷酸亞庫(kù)。8% PAGE分離寡核苷酸亞庫(kù)(A,B)。 A. EGFP亞庫(kù)al的8 % PAGE分離,目標(biāo)條帶(泳道1)如箭頭所示,分別是 IOlbp, IlObp, 115bp, 120bp, 125bp ;B. CtCBH 6個(gè)亞庫(kù)的分離(泳道1~6),每個(gè)亞庫(kù)分別 含有9, 9, 8, 8, 8, 5根不同的寡核苷酸。以上相鄰大小的寡核苷酸之間的差異至少4個(gè)堿基。 其中,CtCBH亞庫(kù)2 (泳道2)的目的條帶使用箭頭標(biāo)注,分別是73bp,80bp,85bp,91bp,96b p,IOlbp, 105bp, 109bp, 115bp。以上泳道 M 表不 20bpDNA Ladder Marker(Takara)。
[0027] 圖5單根寡核苷酸組裝片段DNA。A. PAGE分離CtCBH亞庫(kù)3,泳道M:20bp DNA ladder marker (Takara);泳道I:CtCBH亞庫(kù)3寡核苷酸,目標(biāo)條帶7lbp-116bp,共8條寡 核苷酸序列;B.分離后再擴(kuò)增的單根寡核苷酸(可組裝成為TrCBH片段2),泳道1~11: 組成TrCBH片段2的11條分離后的寡核苷酸;C. Sch I對(duì)合成的寡核苷酸(構(gòu)成TrCBH片 段2)進(jìn)行酶切,寡核苷酸在酶切前后的大小差別30個(gè)堿基的通用引物序列長(zhǎng)度,泳道1 : 酶切前;泳道2 :酶切后;D.酶切后的寡核苷酸組裝成為TrCBH片段2,目標(biāo)片段334bp,泳 道1 :組裝使用構(gòu)成該片段序列的完整的11條寡核苷酸;泳道2 :組裝時(shí)缺一條寡核苷酸; E. CtCBH全長(zhǎng)基因的融合,目標(biāo)片段I. 6kb (泳道1)。
[0028] 圖6制備單寡核苷酸的完整性驗(yàn)證。分離制備得到的寡核苷酸用于組裝基因 DNA 全長(zhǎng),并進(jìn)行測(cè)序驗(yàn)證。目的基因分別是OXI (1. 3kb),TrCBH (1. 4kb),CtCBH (1. 6kb)和 TrEGl (I. 3kb)〇
[0029] 圖7單根寡核苷酸分離制備時(shí)間成本。第一步:芯片合成寡核苷酸(<12h);第二 步:從芯片上洗脫寡核苷酸混合物(1小時(shí));第三步:寡核苷酸亞庫(kù)擴(kuò)增(1-1. 5小時(shí));第 四步:寡核苷酸亞庫(kù)內(nèi)的單根寡核苷酸分離(3小時(shí));第五步:分離后的單根寡核苷酸進(jìn) 行選擇性擴(kuò)增(使用通用引物或者特異性引物)(1-1. 5小時(shí));第六步:含有不同通用引 物結(jié)合序列的寡核苷酸混合進(jìn)行退火反應(yīng),暴露DNA鏈上的錯(cuò)誤堿基,形成錯(cuò)配(3小時(shí)); 第七步:MICC糾錯(cuò),該系統(tǒng)全稱是MutS固定化纖維素柱,基于MutS錯(cuò)配結(jié)合蛋白對(duì)雙