公務(wù)員期刊網(wǎng) 論文中心 正文

臨床醫(yī)學(xué)數(shù)據(jù)挖掘分析

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了臨床醫(yī)學(xué)數(shù)據(jù)挖掘分析范文,希望能給你帶來靈感和參考,敬請閱讀。

臨床醫(yī)學(xué)數(shù)據(jù)挖掘分析

1DM概述

DM是數(shù)據(jù)庫知識發(fā)現(xiàn)(knowledgediscoveryindatabase,KDD)不可缺少的一部分,而KDD是將未加工的數(shù)據(jù)轉(zhuǎn)換為有用信息的整個過程(圖1),包括一系列轉(zhuǎn)換步驟,從數(shù)據(jù)的預(yù)處理到DM的后處理[1]。其最早是在1989年舉行的第11屆美國人工智能協(xié)會(americanassociationforartificialintelli-gence,AAAI)學(xué)術(shù)會議上提出的,是近年來隨著人工智能和數(shù)據(jù)庫技術(shù)的發(fā)展而出現(xiàn)的一門新興技術(shù)[4],其開發(fā)與研究應(yīng)用是建立在先進(jìn)的計(jì)算機(jī)技術(shù)、超大規(guī)模數(shù)據(jù)庫的出現(xiàn)、對巨大量數(shù)據(jù)的快速訪問、對這些數(shù)據(jù)應(yīng)用精深的統(tǒng)計(jì)方法計(jì)算的能力這4個必要條件基礎(chǔ)上的,以數(shù)據(jù)庫、人工智能和數(shù)理統(tǒng)計(jì)三大技術(shù)為支柱[5]。

2DM的基本模式及在臨床醫(yī)學(xué)中的應(yīng)用

DM的任務(wù)通常有兩大類:預(yù)測任務(wù)和描述任務(wù)。預(yù)測任務(wù)主要是根據(jù)其他屬性的值,預(yù)測特定屬性的值,主要有分類(classificaion)和回歸(regression)2種模式。描述任務(wù)的目標(biāo)是導(dǎo)出概括數(shù)據(jù)中潛在聯(lián)系的模式(相關(guān)、趨勢、聚類、軌跡和異常),主要有關(guān)聯(lián)分析、聚類分析、異常檢測3種模式[1]。

2.1預(yù)測建模(predictivemodeling)

涉及以說明變量函數(shù)的方式為目標(biāo)變量建立模型。有2種模式:分類和回歸。分類是用于預(yù)測離散的目標(biāo)變量。在臨床醫(yī)學(xué)中,疾病的診斷和鑒別診斷就是典型的分類過程。Melgani和Bazi[6]以美國麻省理工學(xué)院的心律失常數(shù)據(jù)庫的心電圖為原始數(shù)據(jù),采用不同分類模型,對心電圖的5種異常波形和正常波形進(jìn)行分類?;貧w是用于預(yù)測連續(xù)的目標(biāo)變量?;貧w可廣泛應(yīng)用于醫(yī)學(xué)研究中如醫(yī)療診斷與預(yù)后的判別、多因素疾病的病因研究等。Burke等[7]采用各種回歸模式對影響乳腺癌患者預(yù)后的因素進(jìn)行回歸分析。

2.2關(guān)聯(lián)分析(associationanalysis)

用來描述數(shù)據(jù)中強(qiáng)關(guān)聯(lián)特征的模式,用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的令人感興趣的聯(lián)系。所發(fā)現(xiàn)的模式通常用蘊(yùn)函規(guī)則或特征子集的形式表示。關(guān)聯(lián)分析主要應(yīng)用于DNA序列間相似搜索與比較、識別同時出現(xiàn)的基因序列、在患者生理參數(shù)分析中的應(yīng)用、疾病相關(guān)因素分析等[5]。有學(xué)者對37000例腎病患者進(jìn)行了追蹤觀察,監(jiān)測腎小球過濾率、尿蛋白水平和貧血狀況,結(jié)果發(fā)現(xiàn)以上3種生理指標(biāo)中的任何一項(xiàng)異常都伴隨著心臟病發(fā)病率的上升,這種腎病與心臟病“關(guān)聯(lián)”的現(xiàn)象可發(fā)生在腎病的早期階段[8]。

2.3聚類分析(clusteranalysis)

旨在發(fā)現(xiàn)緊密相關(guān)的觀測值組群,使得與屬于不同簇的觀測值相比,屬于同一簇的觀測值相互之間盡可能類似。聚類分析在醫(yī)學(xué)領(lǐng)域中主要用于DNA分析、醫(yī)學(xué)影像數(shù)據(jù)自動分析以及多種生理參數(shù)監(jiān)護(hù)數(shù)據(jù)分析、中醫(yī)診斷和方劑研究、疾病危險因素等方面[5]。羅禮溥和郭憲國[9]利用聚類分析對云南省25縣(市)現(xiàn)有的112種醫(yī)學(xué)革螨的動物地理區(qū)劃進(jìn)行分析,發(fā)現(xiàn)云南省醫(yī)學(xué)革螨的分布明顯地受到自然地理區(qū)位和特定的自然景觀所制約。

2.4異常檢測(anomalydetection)

用來識別其特征明顯不同于其他數(shù)據(jù)的觀測值。這樣的觀測值稱為異常點(diǎn)(anomaly)或離群點(diǎn)(outlier)。異常檢測的目標(biāo)是發(fā)現(xiàn)真正的異常點(diǎn),避免錯誤地將正常對象標(biāo)注為異常點(diǎn)。換言之,一個好的異常檢測器必須具有高檢測率和低誤報率,其主要應(yīng)用于檢測欺詐、網(wǎng)絡(luò)攻擊、疾病的不尋常模式等[2]。

3DM的方法及研究趨勢

在DM算法的理論基礎(chǔ)上,DM常用方法:(1)生物學(xué)方法包括人工神經(jīng)網(wǎng)絡(luò)、遺傳算法等;(2)信息論方法包括決策樹等;(3)集合論方法包括粗糙集理論、近鄰算法等:(4)統(tǒng)計(jì)學(xué)方法;(5)可視化技術(shù)等方法。DM經(jīng)過十幾年的蓬勃發(fā)展,很多基本算法已較為成熟,在其基礎(chǔ)上進(jìn)行更加高效的改進(jìn)和算法提高顯得比較困難,如傳統(tǒng)的頻繁模式和關(guān)聯(lián)規(guī)則挖掘在近幾年的國際著名會議和期刊上已不再作為重要的研究主題[10]。近年來眾多國內(nèi)外知名學(xué)者相繼探討DM的最新方向。Yang和Wu[11]匯總形成了DM領(lǐng)域十大挑戰(zhàn)性問題報告;Agrawa等[12]探討了DM的現(xiàn)狀并展望了未來的發(fā)展方向,Piatetsky-shapiro等[13]討論了DM新的挑戰(zhàn)性問題,并主要探討在生物信息學(xué)(bioinformatics)、多媒體挖掘(multimediamining)、鏈接挖掘(1inkmining)、文本挖掘(textmining)和網(wǎng)絡(luò)挖掘(webmining)等領(lǐng)域所遇到的挑戰(zhàn)。與國外相比,DM在國內(nèi)的研究和應(yīng)用始于20世紀(jì)90年代初,主要是對DM方法的介紹和推廣,20世紀(jì)90年代后期和21世紀(jì)初進(jìn)入蓬勃發(fā)展階段,當(dāng)前DM已成為大型企業(yè)進(jìn)行經(jīng)營決策時所必須采用的方法,證券和金融部門已將DM作為今后重點(diǎn)應(yīng)用的技術(shù)之一。有學(xué)者以HIS和LIS數(shù)據(jù)庫信息為數(shù)據(jù)源,人工神經(jīng)網(wǎng)絡(luò)為工具,概率論為依據(jù),對常規(guī)檢驗(yàn)結(jié)果和質(zhì)譜指紋圖數(shù)據(jù)進(jìn)行DM并應(yīng)用于臨床實(shí)踐[14-16]。

4臨床醫(yī)學(xué)DM的特點(diǎn)

DM作用于醫(yī)學(xué)數(shù)據(jù)庫跟挖掘其他類型的數(shù)據(jù)庫相比較,具有其自己的特點(diǎn)。以電子病歷、醫(yī)學(xué)影像、病歷參數(shù)、化驗(yàn)結(jié)果等臨床數(shù)據(jù)為基礎(chǔ)建立的醫(yī)學(xué)數(shù)據(jù)庫是一個復(fù)雜類型數(shù)據(jù)庫,這些臨床信息具有隱私性、多樣性、不完整性、冗余性、異質(zhì)性和缺乏數(shù)學(xué)性質(zhì)等自身的特殊性和復(fù)雜性,使得醫(yī)學(xué)DM與常規(guī)DM之間存在較大差異。醫(yī)學(xué)DM方法包括統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法等。將這些不同的挖掘方法應(yīng)用到疾病的診斷、治療和預(yù)后分析以及醫(yī)療管理等各個領(lǐng)域,從疾病的診治、醫(yī)療質(zhì)量管理、醫(yī)院管理、衛(wèi)生政策研究與醫(yī)療資源利用評價等方面去獲取諸如概念、規(guī)律、模式等相關(guān)知識;用于對疾病進(jìn)行分類、分級、篩選危險因素、決定治療方案和開藥數(shù)量等[5]。

5我國醫(yī)學(xué)DM的現(xiàn)狀及展望

生命科學(xué)的快速發(fā)展以及系統(tǒng)生物學(xué)(systembiology)的出現(xiàn)和蓬勃發(fā)展為研究現(xiàn)代醫(yī)學(xué)模式和中醫(yī)藥學(xué)提供了可能的新思路和新方法。通過基因組學(xué)、蛋白質(zhì)組學(xué)等方法闡述復(fù)雜生命迫切需要DM等相關(guān)計(jì)算分析方法處理海量的基因、蛋白、染色質(zhì)數(shù)據(jù)如基因調(diào)控網(wǎng)絡(luò)的研究、蛋白質(zhì)交互網(wǎng)絡(luò)的挖掘等[10]。在我國醫(yī)學(xué)數(shù)據(jù)極為豐富,但運(yùn)用DM技術(shù)分析和處理這些數(shù)據(jù)資源的研究尚處于起步階段。有些大學(xué)(如第二軍醫(yī)大學(xué)、哈爾濱醫(yī)科大學(xué)、瀘州醫(yī)學(xué)院等)已經(jīng)面向醫(yī)學(xué)本科生及研究生開設(shè)了相關(guān)課程,上海交通大學(xué)醫(yī)學(xué)院也向醫(yī)學(xué)專業(yè)研究生開設(shè)了《生物醫(yī)學(xué)數(shù)據(jù)挖掘》的課程[17],瀘州醫(yī)學(xué)院檢驗(yàn)醫(yī)學(xué)系開設(shè)了《檢驗(yàn)醫(yī)學(xué)信息學(xué)》課程,從檢驗(yàn)醫(yī)學(xué)信息的來源、綜合、提煉和利用過程均進(jìn)行了詳細(xì)介紹[18]。這些課程的開設(shè)旨在使學(xué)生及醫(yī)學(xué)科學(xué)研究者了解這些知識,能理性地應(yīng)用這些數(shù)學(xué)工具,并建立和其他學(xué)科領(lǐng)域研究人員合作的基礎(chǔ)。醫(yī)學(xué)DM是一門涉及面廣、技術(shù)難度大的新興交叉學(xué)科,是計(jì)算機(jī)技術(shù)、人工智能、統(tǒng)計(jì)等技術(shù)手段與現(xiàn)代醫(yī)療相結(jié)合的產(chǎn)物,需要從事計(jì)算機(jī)、統(tǒng)計(jì)學(xué)的科研人員與廣大醫(yī)務(wù)工作者之間的通力合作。隨著理論研究的深入和進(jìn)一步的實(shí)踐摸索,醫(yī)學(xué)DM必將在疾病的診療、醫(yī)學(xué)科研與教學(xué)以及醫(yī)院管理等方面發(fā)揮不可估量的巨大作用。