123,123

前言：想要寫(xiě)出一篇引人入勝的文章？我們特意為您整理了本科生角度談生物醫(yī)學(xué)數(shù)據(jù)的建模心得范文，希望能給你帶來(lái)靈感和參考，敬請(qǐng)閱讀。

本科生角度談生物醫(yī)學(xué)數(shù)據(jù)的建模心得

摘要：由于生物醫(yī)學(xué)研究領(lǐng)域數(shù)據(jù)的復(fù)雜性，高效的統(tǒng)計(jì)建模尤為重要。筆者以肺癌全基因組關(guān)聯(lián)研究為例，結(jié)合建立肺癌風(fēng)險(xiǎn)預(yù)測(cè)模型的切身體會(huì)，建議研究者需要重視數(shù)據(jù)質(zhì)量控制體系、反復(fù)推敲建模方法和策略、培養(yǎng)熟練的軟件操作技能。

關(guān)鍵詞：生物醫(yī)學(xué)數(shù)據(jù)；統(tǒng)計(jì)建模；預(yù)測(cè)模型；心得體會(huì)

隨著生物信息技術(shù)的飛速發(fā)展，生物醫(yī)學(xué)研究領(lǐng)域的數(shù)據(jù)呈幾何級(jí)增長(zhǎng)。近年來(lái)，生物醫(yī)學(xué)大數(shù)據(jù)受到學(xué)者們的廣泛關(guān)注。生物醫(yī)學(xué)大數(shù)據(jù)具有典型的“4V”特征：體量巨大（volume）、種類(lèi)繁多（variety）、實(shí)時(shí)更新（velocity）、價(jià)值隱藏（value）[1]；“3H”特點(diǎn)：高維（highdimension）、高度計(jì)算復(fù)雜性（highcomplexity）、高度不確定性（highuncertainty）[2]。因此，綜合利用生物學(xué)、醫(yī)學(xué)、數(shù)學(xué)、流行病學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)學(xué)等多個(gè)學(xué)科的方法和手段，從中挖掘“有價(jià)值”的信息，為生物醫(yī)學(xué)研究提供確鑿有效的證據(jù)，顯得尤為重要。筆者以肺癌全基因組關(guān)聯(lián)研究（genome-wideas-sociationstudy，GWAS）為例，結(jié)合理論學(xué)習(xí)和案例實(shí)踐的切身體會(huì)，淺談利用GWAS數(shù)據(jù)建立肺癌風(fēng)險(xiǎn)預(yù)測(cè)模型的心得體會(huì)。

一、嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)質(zhì)量控制體系不容忽視

由于存在檢測(cè)、觀察、填寫(xiě)或錄入錯(cuò)誤，未經(jīng)數(shù)據(jù)質(zhì)控的原始數(shù)據(jù)極可能含有一些異常，甚至錯(cuò)誤的觀測(cè)值。在研究設(shè)計(jì)之初，便要盡可能考慮規(guī)避產(chǎn)生錯(cuò)誤數(shù)據(jù)。另外，統(tǒng)計(jì)建模之前，仍然必須對(duì)原始數(shù)據(jù)再次進(jìn)行質(zhì)量控制。在GWAS中，要同時(shí)對(duì)行（樣本）、列（位點(diǎn)）進(jìn)行質(zhì)量評(píng)價(jià)。例如，刪除次等位基因頻率低于5%、缺失率超過(guò)5%或哈代不平衡的位點(diǎn)；刪除分型失敗率超過(guò)5%、問(wèn)卷性別與遺傳性別不一致、存在血緣關(guān)系、屬于離群值的樣本[3]。另外，同時(shí)需要對(duì)流行病學(xué)問(wèn)卷及臨床數(shù)據(jù)進(jìn)行核查。只有對(duì)數(shù)據(jù)進(jìn)行清理后，才能用于后續(xù)關(guān)聯(lián)分析、統(tǒng)計(jì)建模。

二、合理的建模方法和策略值得精雕細(xì)琢

對(duì)于GWAS高維數(shù)據(jù)，合理的方法和策略不僅要考慮統(tǒng)計(jì)學(xué)性能（一類(lèi)錯(cuò)誤、檢驗(yàn)效能、預(yù)測(cè)精度），還需要考慮分析效率（計(jì)算速度）。因此，研究者應(yīng)該要深入思考，為研究項(xiàng)目量身定制一套“合理”的方法和策略。然而，現(xiàn)有的統(tǒng)計(jì)學(xué)模型和方法往往都有相應(yīng)的應(yīng)用條件。實(shí)際數(shù)據(jù)由于其變量結(jié)構(gòu)的復(fù)雜性，不一定完全滿(mǎn)足所有的應(yīng)用條件。并且，簡(jiǎn)單的算法速度快，但統(tǒng)計(jì)性能相對(duì)低；復(fù)雜算法需要犧牲計(jì)算速度來(lái)提升統(tǒng)計(jì)性能。因此，研究者可能需要制定多個(gè)備選方案。結(jié)合建模步驟，筆者將從以下幾個(gè)方面，淺談個(gè)人心得體會(huì)。1.初始模型：一般擬合logistic回歸模型評(píng)價(jià)肺癌風(fēng)險(xiǎn)。模型中往往需要納入一些協(xié)變量，例如：年齡、性別、吸煙、人群分層等。一般參考以下納入原則：（a）在模型中有統(tǒng)計(jì)學(xué)意義（P≤0.05）；（b）即便在模型中無(wú)統(tǒng)計(jì)學(xué)意義，但絕大多數(shù)同類(lèi)研究顯示其是公認(rèn)的影響因素。某些協(xié)變量可能是位點(diǎn)的混雜因素，例如人群分層。如果GWAS中忽視調(diào)整混雜因素的影響，則有可能導(dǎo)致誤報(bào)噪音位點(diǎn)的一類(lèi)錯(cuò)誤膨脹，或識(shí)別致病位點(diǎn)的檢驗(yàn)效能降低[4]。此外，研究者還需要考察協(xié)變量進(jìn)入模型的形式。一般而言，無(wú)序分類(lèi)變量以啞變量形式進(jìn)入模型。當(dāng)某些類(lèi)別樣本量特別小，需要進(jìn)行類(lèi)別合并。有序分類(lèi)變量、連續(xù)性變量則需要考慮是否以非線性的形式進(jìn)入模型。一種最簡(jiǎn)單的方式是，將連續(xù)性變量轉(zhuǎn)化為有序分類(lèi)變量，并以啞變量形式進(jìn)入模型。如果啞變量各組的系數(shù)呈現(xiàn)線性遞增的趨勢(shì)，則提示原始變量與結(jié)局變量間存在線性關(guān)系。否則，可采用啞變量、樣條函數(shù)等方法處理非線性關(guān)系。2.因素篩選：研究者需要從GWAS數(shù)據(jù)50萬(wàn)位點(diǎn)中篩選出肺癌相關(guān)位點(diǎn)，加入初始模型，以提高模型的預(yù)測(cè)精度。常規(guī)做法是，在初始模型中逐個(gè)納入位點(diǎn)，對(duì)位點(diǎn)的主效應(yīng)進(jìn)行假設(shè)檢驗(yàn)。因檢驗(yàn)次數(shù)達(dá)50萬(wàn)次，研究者必須要考慮多重比較所致的一類(lèi)錯(cuò)誤膨脹。常見(jiàn)一類(lèi)錯(cuò)誤控制方法有Bonferroni法和FDR法。前者較為嚴(yán)格，后者較為寬松。GWAS識(shí)別位點(diǎn)一般采用“寧缺毋濫”的原則，傾向于采用嚴(yán)格的校正方法。除此之外，研究者還要在多個(gè)獨(dú)立的人群中驗(yàn)證初篩的位點(diǎn)。如果位點(diǎn)在多個(gè)人群中都顯示與結(jié)局存在統(tǒng)計(jì)學(xué)關(guān)聯(lián)，則認(rèn)為該位點(diǎn)是潛在的影響因素。除基因位點(diǎn)主效應(yīng)外，研究者還需要關(guān)注基因-基因、基因-環(huán)境交互作用。復(fù)雜疾病往由環(huán)境、基因相互影響，共同導(dǎo)致。因此，有必要在模型中對(duì)交互作用進(jìn)行評(píng)估。例如，基因-環(huán)境交互作用可以顯著提高肺癌風(fēng)險(xiǎn)預(yù)測(cè)模型的預(yù)測(cè)精度[5]。有效的降維策略能夠提高因素篩選的效率。筆者曾采用“信息熵初篩→對(duì)數(shù)線性模型再篩→多因素lo-gistic回歸模型確認(rèn)”的降維策略進(jìn)行全基因組基因-基因交互作用分析[6]。信息熵方法計(jì)算速度快，且其統(tǒng)計(jì)量總是不小于對(duì)數(shù)線性模型，不會(huì)出現(xiàn)漏檢的情況。前兩步可以檢驗(yàn)次數(shù)將1011次縮減至105次。檢驗(yàn)次數(shù)降低6個(gè)數(shù)量級(jí)。最后一步，利用調(diào)整協(xié)變量的logistic回歸模型對(duì)關(guān)聯(lián)結(jié)果加以確認(rèn)，防止出現(xiàn)假陽(yáng)性。當(dāng)然，研究者也可以根據(jù)項(xiàng)目“量體裁衣”，選擇其他降維方法，例如：隨機(jī)森林（randomforest）、多因子降維（multifactordimensionalityreduction，MDR）等。3.預(yù)測(cè)模型：經(jīng)過(guò)遺傳因素篩選步驟后，研究者可通逐步回歸、LASSO等方法，建立含有與協(xié)變量、遺傳位點(diǎn)的主效應(yīng)項(xiàng)、交互作用項(xiàng)的風(fēng)險(xiǎn)預(yù)測(cè)模型。根據(jù)受試者工作特征曲線（receiveroperatingcharacteristiccurve，ROC）確定一個(gè)風(fēng)險(xiǎn)閾值，使得風(fēng)險(xiǎn)預(yù)測(cè)的靈敏度、特異度同時(shí)達(dá)到最優(yōu)。若樣本的預(yù)測(cè)概率≥閾值，則預(yù)測(cè)該樣本為肺癌。4.模型評(píng)價(jià)：從統(tǒng)計(jì)學(xué)的角度，可采用ROC曲線下面積（areaunderROC，AUC）來(lái)評(píng)價(jià)模型的優(yōu)劣[7]。此外，還可以采用交叉驗(yàn)證的方式評(píng)價(jià)模型，即：訓(xùn)練集擬合的預(yù)測(cè)模型對(duì)測(cè)試集的樣本進(jìn)行風(fēng)險(xiǎn)估計(jì)，并計(jì)算AUC。然而，AUC并非衡量模型的唯一標(biāo)準(zhǔn)。如果預(yù)測(cè)模型形式簡(jiǎn)單，應(yīng)用便捷，即便AUC稍有遜色，也是優(yōu)秀的模型之一。所以，筆者認(rèn)為需要綜合考慮，權(quán)衡利弊。

三、熟練的軟件操作和編程技能令人事半功倍

扎實(shí)的理論基礎(chǔ)固然重要，熟練的軟件操作亦不可或缺。筆者建議研究者不要拘泥于某一軟件，本著“方便原則”利用多個(gè)軟件進(jìn)行數(shù)據(jù)處理、統(tǒng)計(jì)建模。根據(jù)筆者的經(jīng)驗(yàn)，一般不太可能一次性完成建模工作，往往需要不斷調(diào)整分析策略和分析方法。因此，筆者建議研究者適當(dāng)撰寫(xiě)一些項(xiàng)目相關(guān)的通用程序。如果需要重新建模，只需要修改程序參數(shù)，微調(diào)代碼就可以建立新的預(yù)測(cè)模型。因此，這就要求研究者“功在平時(shí)”以培養(yǎng)編程能力?；诜伟〨WAS風(fēng)險(xiǎn)預(yù)測(cè)模型的建模體會(huì)，筆者建議研究者需要重視數(shù)據(jù)質(zhì)量控制體系、推敲建模方法和策略、培養(yǎng)熟練軟件操作技能。

參考文獻(xiàn)：

[1]王波,呂筠,李立明.生物醫(yī)學(xué)大數(shù)據(jù):現(xiàn)狀與展望[J].中華流行病學(xué)雜志,2014,35(6):617-620.

[2]寧康,陳挺.生物醫(yī)學(xué)大數(shù)據(jù)的現(xiàn)狀與展望[J].科學(xué)通報(bào),2015,(z1):534-546.

[3]陳峰,柏建嶺,趙楊,荀鵬程.全基因組關(guān)聯(lián)研究中的統(tǒng)計(jì)分析方法[J].中華流行病學(xué)雜志,2011,32(4):400-404.

[4]ZhaoY,ChenF,ZhaiR,LinX,WangZ,SuL,ChristianiDC.Correctionforpopulationstratificationinrandomforestanalysis[J].InternationalJournalofEpidemiology,2012,41(6):1798-1806.

[5]ZhangR,ChuM,ZhaoY,WuC,GuoH,ShiY,DaiJ,WeiY,JinG,MaH,DongJ,YiH,BaiJ,GongJ,SunC,ZhuM,WuT,HuZ,LinD,ShenH,ChenF.Agenome-widegene-environmentinteractionanalysisfortobaccosmokeandlungcancersusceptibility[J].Carcinogenesis,2014,35(7):1528-1535.

[6]ChuM,ZhangR,ZhaoY,WuC,GuoH,ZhouB,LuJ,ShiY,DaiJ,JinG,MaH,DongJ,WeiY,WangC,GongJ,SunC,ZhuM,QiuY,WuT,HuZ,LinD,ShenH,ChenF.Agenome-widegene-geneinteractionanalysisidentifiesanepistaticgenepairforlungcancersusceptibilityinHanChinese[J].Carcinogenesis,2014,35(3):572-577.

[7]陳峰.醫(yī)用多元統(tǒng)計(jì)分析方法[M].北京:中國(guó)統(tǒng)計(jì)出版社,2000.

作者:陳欣郁可沁魯涵魏永越趙楊于浩陳峰張汝陽(yáng) 單位:南京醫(yī)科大學(xué)公共衛(wèi)生學(xué)院

本科生角度談生物醫(yī)學(xué)數(shù)據(jù)的建模心得

相關(guān)熱門(mén)標(biāo)簽

相關(guān)文章閱讀

精選范文推薦