本發(fā)明涉及有機(jī)化學(xué)品環(huán)境風(fēng)險(xiǎn)評(píng)估領(lǐng)域,具體涉及一種有機(jī)化學(xué)品的低營(yíng)養(yǎng)級(jí)食物鏈生物放大預(yù)測(cè)模型。
背景技術(shù):
1、有毒有害化學(xué)物質(zhì)具有親脂性、難降解性,且在生物體內(nèi)積累和富集。在生態(tài)系統(tǒng)中,隨著營(yíng)養(yǎng)級(jí)的增加呈現(xiàn)生物放大效應(yīng),對(duì)高等生物及人體產(chǎn)生毒性。因此研究水生生物體內(nèi)有機(jī)污染物的含量特征為當(dāng)?shù)鼐用竦慕】岛褪称钒踩哂兄匾饬x。
2、化合物通過食物鏈在高營(yíng)養(yǎng)級(jí)生物和人體中的富集程度對(duì)評(píng)價(jià)該化合物對(duì)生態(tài)、環(huán)境毒性意義重大。多年來(lái),科學(xué)家一直從事相關(guān)工作,通過長(zhǎng)期的研究,他們發(fā)現(xiàn)并建立各種介質(zhì)間化合物積累模型。評(píng)價(jià)有機(jī)污染物是否存在生物富集效應(yīng)一般有兩個(gè)標(biāo)準(zhǔn)。第一是化合物的kow(正辛醇-水分配系數(shù)),一般地,當(dāng)logkow>4-5時(shí),該化合物可能具有生物富集效應(yīng),而logkow在5-7時(shí),化合物具有最大的生物富集效應(yīng);第二是生物富集因子(baf)。生物富集因子(ba?f)可以表征一個(gè)化合物的相對(duì)生物可富集能力。
3、水生食物鏈中生物富集因子baf的計(jì)算公式如下:
4、
5、c生物表示水生生物體中污染物的濃度,單位pg/kg?lw;c水中溶解相表示水體中溶解的污染物的濃度,單位pg/l。生物中的濃度為脂肪歸一化濃度。
6、在baf模型中,當(dāng)某種污染物baf值高于5000(或logbaf>3.7)時(shí),可認(rèn)為該污染物在食物鏈中具有生物富集效應(yīng);當(dāng)baf值在2000~5000(或logb?af>3.7)時(shí),認(rèn)為其有潛在的生物富集效應(yīng)。
7、pbdes和hbcds作為斯德哥爾摩公約新增列的一類新型持久性有機(jī)污染物,具有典型的生物富集性。由于pbdes和hbcds具有高親脂性和代謝能力差等特點(diǎn),所以具有沿食物鏈放大的潛力。而最近的研究也證實(shí),pbdes和hbcds可以在食物鏈中隨營(yíng)養(yǎng)級(jí)傳遞。但是僅通過實(shí)驗(yàn)方法獲取化學(xué)品生物放大因子(bmf)成本高、費(fèi)時(shí)費(fèi)力,難以滿足化學(xué)物質(zhì)生態(tài)風(fēng)險(xiǎn)性評(píng)價(jià)的需要。目前,針對(duì)化學(xué)物質(zhì)在食物鏈上的生物放大效應(yīng)模型還空缺。所以,迫切需要發(fā)展科學(xué)快捷有效的食物鏈傳遞模型的理論計(jì)算方法。經(jīng)濟(jì)合作與發(fā)展組織(oecd)于2007年發(fā)布了qsar模型構(gòu)建與驗(yàn)證的導(dǎo)則,提出了qsar模型應(yīng)滿足的標(biāo)準(zhǔn):①具有明確定義的環(huán)境指標(biāo);②具有清晰和明確的數(shù)學(xué)算法;③定義了模型的應(yīng)用域;④模型具有適當(dāng)?shù)臄M合優(yōu)度、穩(wěn)健性和預(yù)測(cè)能力;⑤盡可能進(jìn)行模型機(jī)理解釋。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明首次基于qsar模型,構(gòu)建pbdes和hbcds的低營(yíng)養(yǎng)級(jí)食物鏈生物放大預(yù)測(cè)模型,如下所示:
2、pecoral,predator?=?pecwater*bcffish*bmf???????????(1)
3、bmf=-5.04472+0.8374*ggi3-35.46426*mor21v??(2)
4、其中各參數(shù)含義如下:
5、
6、本發(fā)明提供了上述低營(yíng)養(yǎng)級(jí)食物鏈生物放大模型的構(gòu)建方法,具體如下:
7、⑴樣本采集及篩選
8、實(shí)驗(yàn)室數(shù)據(jù)獲得包含了9個(gè)有機(jī)化合物的生物放大因子數(shù)據(jù),這些化合物涵蓋了pbdes和hbcds的有機(jī)物。為了建立有效的qsar模型,首先把數(shù)據(jù)集分成訓(xùn)練集和測(cè)試集。為保證訓(xùn)練集化合物的代表性,本次工作所用的分組方法是kennard&stone方法,這種方法在一定程度上能夠避免訓(xùn)練集樣本分布不均勻,能夠很好的將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,本數(shù)據(jù)集劃分為6個(gè)訓(xùn)練集和3個(gè)驗(yàn)證集。
9、⑵分子描述符計(jì)算
10、本方法首先在chemdraw軟件中構(gòu)建出9個(gè)有機(jī)化合物的分子結(jié)構(gòu),然后導(dǎo)入hypechem程序?qū)Ψ肿舆M(jìn)行優(yōu)化。優(yōu)化分為兩步:首先是mm+分子力場(chǎng)方法進(jìn)行初步的能量?jī)?yōu)化,然后使用半經(jīng)驗(yàn)量子力學(xué)am1方法對(duì)結(jié)構(gòu)進(jìn)行更加準(zhǔn)確的構(gòu)型優(yōu)化。優(yōu)化后的結(jié)構(gòu)導(dǎo)入到dragon5.4軟件中計(jì)算1664個(gè)不同類型的理論分子描述符。建模前對(duì)這些描述符進(jìn)行了預(yù)處理,即將常數(shù)項(xiàng)、接近常數(shù)的項(xiàng)和具有高度相關(guān)(相關(guān)系數(shù)大于0.96的兩個(gè)分子描述符中與目標(biāo)值相關(guān)系數(shù)較小的)的分子描述符刪除。最終剩余1169個(gè)描述符用于后面的變量選擇過程。
11、⑶模型構(gòu)建
12、采用遺傳算法來(lái)選擇與生物富集具有高度相關(guān)的描述符集,這個(gè)過程在mobydigs中實(shí)現(xiàn)。經(jīng)過遺傳算法變量選擇后,用多元線性回歸(mlr)方法建立線性qsar模型,即ga-mlr模型。模型評(píng)價(jià)函數(shù)選擇留一法交互檢驗(yàn)(leave-one-out?cross?validation),即當(dāng)增加一個(gè)描述符后模型的性能沒有明顯變化時(shí)(增加一個(gè)描述符q2增加小于0.02),即達(dá)到最佳描述符個(gè)數(shù)。本方法中,最佳描述符個(gè)數(shù)為7。建模中的相關(guān)參數(shù)設(shè)置為:種群大小(population?size)為100,初始模型允許的做大變量數(shù)(maximum?allowed?variables)為7,變異均衡值(mutation?trade-off,t)為0.5,交叉(crossover)和變異(mutation)概率均基于t參數(shù)。
13、(4)模型驗(yàn)證
14、經(jīng)過遺傳算法變量選擇后,用多元線性回歸方法建立線性qsar模型,即mlr模型。線性mlr方程如下:
15、bmf=-5.04472+0.8374*ggi3-35.46426*mor21v
16、ntr=6q2loo=0.9981r2fitting=0.9996r2adj=0.9994rmsetr=0.0665r2boot=0.7175
17、next=3r2ext=0.836,q2ext=0.8662r2adj=0.9994rmseext=0.0289
18、其中,ggi3表示3階拓?fù)潆姾芍笖?shù),mor21v表示3d-morse-加權(quán)原子范德華體積,ggi3與生物放大因子呈正相關(guān)性,mor21v與生物放大因子呈負(fù)相關(guān)性,訓(xùn)練集和驗(yàn)證集rmse分別為0.0665和0.0289,模型預(yù)測(cè)效果較好。
19、表1pbdes和hbcds?bmf實(shí)驗(yàn)值和預(yù)測(cè)值
20、
21、
22、本方法建立的有機(jī)化學(xué)品的低營(yíng)養(yǎng)級(jí)食物鏈生物放大預(yù)測(cè)模型的優(yōu)點(diǎn)在于:由實(shí)驗(yàn)手段測(cè)定水生生物體中污染物的濃度pbdes和hbcds含量水平、水體中溶解的污染物的濃度,再計(jì)算得到化學(xué)品在食物鏈上的生物放大時(shí)間長(zhǎng)、成本高。利用本方法構(gòu)建出的有機(jī)化學(xué)品的低營(yíng)養(yǎng)級(jí)食物鏈生物放大預(yù)測(cè)模型能準(zhǔn)確預(yù)測(cè)出pbdes和hbcds類化學(xué)品有機(jī)污染物生物放大因子,提高了預(yù)測(cè)結(jié)果的準(zhǔn)確率,節(jié)省了人力、物力和時(shí)間,簡(jiǎn)單、快速有效,并且嚴(yán)格按照oecd規(guī)定的qsar模型使用規(guī)則,從分子描述符結(jié)構(gòu)上解釋影響生物放大因子的關(guān)鍵因素,對(duì)pbdes和hbcds等毒害化學(xué)物質(zhì)的風(fēng)險(xiǎn)管控和環(huán)境安全具有重要意義。
1.一種有機(jī)化學(xué)品的低營(yíng)養(yǎng)級(jí)食物鏈生物放大預(yù)測(cè)模型,其特征在于,所述低營(yíng)養(yǎng)級(jí)食物鏈生物放大預(yù)測(cè)模型如下:
2.權(quán)利要求1所述有機(jī)化學(xué)品的低營(yíng)養(yǎng)級(jí)食物鏈生物放大預(yù)測(cè)模型的構(gòu)建方法,其特征在于,包括以下步驟:
3.根據(jù)權(quán)利要求2所述有機(jī)化學(xué)品的低營(yíng)養(yǎng)級(jí)食物鏈生物放大預(yù)測(cè)模型的構(gòu)建方法,其特征在于,步驟(1)具體為:實(shí)驗(yàn)室數(shù)據(jù)獲得包含了9個(gè)有機(jī)化合物的生物放大因子數(shù)據(jù),這些化合物涵蓋了pbdes和hbcds的有機(jī)物,首先把數(shù)據(jù)集分成訓(xùn)練集和測(cè)試集,所用的分組方法是kennard&stone方法,劃分為6個(gè)訓(xùn)練集和3個(gè)驗(yàn)證集。
4.根據(jù)權(quán)利要求2所述有機(jī)化學(xué)品的低營(yíng)養(yǎng)級(jí)食物鏈生物放大預(yù)測(cè)模型的構(gòu)建方法,其特征在于,步驟(2)具體為:首先在chemdraw軟件中構(gòu)建出9個(gè)有機(jī)化合物的分子結(jié)構(gòu),然后導(dǎo)入hypechem程序?qū)Ψ肿舆M(jìn)行優(yōu)化;優(yōu)化分為兩步:首先是mm+分子力場(chǎng)方法進(jìn)行初步的能量?jī)?yōu)化,然后使用半經(jīng)驗(yàn)量子力學(xué)am1方法對(duì)結(jié)構(gòu)進(jìn)行更加準(zhǔn)確的構(gòu)型優(yōu)化,優(yōu)化后的結(jié)構(gòu)導(dǎo)入到dragon5.4軟件中計(jì)算1664個(gè)不同類型的理論分子描述符;建模前對(duì)這些描述符進(jìn)行預(yù)處理,即將常數(shù)項(xiàng)、接近常數(shù)的項(xiàng)和具有高度相關(guān)的分子描述符刪除,最終剩余1169個(gè)描述符用于后面的變量選擇過程。
5.根據(jù)權(quán)利要求2所述有機(jī)化學(xué)品的低營(yíng)養(yǎng)級(jí)食物鏈生物放大預(yù)測(cè)模型的構(gòu)建方法,其特征在于,步驟(3)具體為:采用遺傳算法來(lái)選擇與生物富集具有高度相關(guān)的描述符集,這個(gè)過程在mobydigs中實(shí)現(xiàn);經(jīng)過遺傳算法變量選擇后,用多元線性回歸mlr方法建立線性qsar模型,模型評(píng)價(jià)函數(shù)選擇留一法交互檢驗(yàn),即當(dāng)增加一個(gè)描述符后模型的性能沒有明顯變化時(shí),即達(dá)到最佳描述符個(gè)數(shù);本方法中,最佳描述符個(gè)數(shù)為7;建模中的相關(guān)參數(shù)設(shè)置為:種群大小population?size為100,初始模型允許的做大變量數(shù)maximum?allowedvariables為7,變異均衡值mutation?trade-off,t為0.5,交叉crossover和變異mutation概率均基于t參數(shù)。
6.根據(jù)權(quán)利要求2所述有機(jī)化學(xué)品的低營(yíng)養(yǎng)級(jí)食物鏈生物放大預(yù)測(cè)模型的構(gòu)建方法,其特征在于,步驟(4)具體為:經(jīng)過遺傳算法變量選擇后,用多元線性回歸方法建立線性qsar模型,即mlr模型,線性mlr方程如下: