123,123,123

前言：想要寫出一篇引人入勝的文章？我們特意為您整理了臨床醫(yī)學數(shù)據(jù)挖掘分析范文，希望能給你帶來靈感和參考，敬請閱讀。

臨床醫(yī)學數(shù)據(jù)挖掘分析

1DM概述

DM是數(shù)據(jù)庫知識發(fā)現(xiàn)（knowledgediscoveryindatabase，KDD）不可缺少的一部分，而KDD是將未加工的數(shù)據(jù)轉換為有用信息的整個過程（圖1），包括一系列轉換步驟，從數(shù)據(jù)的預處理到DM的后處理［1］。其最早是在1989年舉行的第11屆美國人工智能協(xié)會（americanassociationforartificialintelli－gence，AAAI）學術會議上提出的，是近年來隨著人工智能和數(shù)據(jù)庫技術的發(fā)展而出現(xiàn)的一門新興技術［4］，其開發(fā)與研究應用是建立在先進的計算機技術、超大規(guī)模數(shù)據(jù)庫的出現(xiàn)、對巨大量數(shù)據(jù)的快速訪問、對這些數(shù)據(jù)應用精深的統(tǒng)計方法計算的能力這4個必要條件基礎上的，以數(shù)據(jù)庫、人工智能和數(shù)理統(tǒng)計三大技術為支柱［5］。

2DM的基本模式及在臨床醫(yī)學中的應用

DM的任務通常有兩大類：預測任務和描述任務。預測任務主要是根據(jù)其他屬性的值，預測特定屬性的值，主要有分類（classificaion）和回歸（regression）2種模式。描述任務的目標是導出概括數(shù)據(jù)中潛在聯(lián)系的模式（相關、趨勢、聚類、軌跡和異常），主要有關聯(lián)分析、聚類分析、異常檢測3種模式［1］。

2．1預測建模（predictivemodeling）

涉及以說明變量函數(shù)的方式為目標變量建立模型。有2種模式：分類和回歸。分類是用于預測離散的目標變量。在臨床醫(yī)學中，疾病的診斷和鑒別診斷就是典型的分類過程。Melgani和Bazi［6］以美國麻省理工學院的心律失常數(shù)據(jù)庫的心電圖為原始數(shù)據(jù)，采用不同分類模型，對心電圖的5種異常波形和正常波形進行分類?；貧w是用于預測連續(xù)的目標變量?；貧w可廣泛應用于醫(yī)學研究中如醫(yī)療診斷與預后的判別、多因素疾病的病因研究等。Burke等［7］采用各種回歸模式對影響乳腺癌患者預后的因素進行回歸分析。

2．2關聯(lián)分析（associationanalysis）

用來描述數(shù)據(jù)中強關聯(lián)特征的模式，用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的令人感興趣的聯(lián)系。所發(fā)現(xiàn)的模式通常用蘊函規(guī)則或特征子集的形式表示。關聯(lián)分析主要應用于DNA序列間相似搜索與比較、識別同時出現(xiàn)的基因序列、在患者生理參數(shù)分析中的應用、疾病相關因素分析等［5］。有學者對37000例腎病患者進行了追蹤觀察，監(jiān)測腎小球過濾率、尿蛋白水平和貧血狀況，結果發(fā)現(xiàn)以上3種生理指標中的任何一項異常都伴隨著心臟病發(fā)病率的上升，這種腎病與心臟病“關聯(lián)”的現(xiàn)象可發(fā)生在腎病的早期階段［8］。

2．3聚類分析（clusteranalysis）

旨在發(fā)現(xiàn)緊密相關的觀測值組群，使得與屬于不同簇的觀測值相比，屬于同一簇的觀測值相互之間盡可能類似。聚類分析在醫(yī)學領域中主要用于DNA分析、醫(yī)學影像數(shù)據(jù)自動分析以及多種生理參數(shù)監(jiān)護數(shù)據(jù)分析、中醫(yī)診斷和方劑研究、疾病危險因素等方面［5］。羅禮溥和郭憲國［9］利用聚類分析對云南省25縣（市）現(xiàn)有的112種醫(yī)學革螨的動物地理區(qū)劃進行分析，發(fā)現(xiàn)云南省醫(yī)學革螨的分布明顯地受到自然地理區(qū)位和特定的自然景觀所制約。

2．4異常檢測（anomalydetection）

用來識別其特征明顯不同于其他數(shù)據(jù)的觀測值。這樣的觀測值稱為異常點（anomaly）或離群點（outlier）。異常檢測的目標是發(fā)現(xiàn)真正的異常點，避免錯誤地將正常對象標注為異常點。換言之，一個好的異常檢測器必須具有高檢測率和低誤報率，其主要應用于檢測欺詐、網絡攻擊、疾病的不尋常模式等［2］。

3DM的方法及研究趨勢

在DM算法的理論基礎上，DM常用方法：（1）生物學方法包括人工神經網絡、遺傳算法等；（2）信息論方法包括決策樹等；（3）集合論方法包括粗糙集理論、近鄰算法等：（4）統(tǒng)計學方法；（5）可視化技術等方法。DM經過十幾年的蓬勃發(fā)展，很多基本算法已較為成熟，在其基礎上進行更加高效的改進和算法提高顯得比較困難，如傳統(tǒng)的頻繁模式和關聯(lián)規(guī)則挖掘在近幾年的國際著名會議和期刊上已不再作為重要的研究主題［10］。近年來眾多國內外知名學者相繼探討DM的最新方向。Yang和Wu［11］匯總形成了DM領域十大挑戰(zhàn)性問題報告；Agrawa等［12］探討了DM的現(xiàn)狀并展望了未來的發(fā)展方向，Piatetsky－shapiro等［13］討論了DM新的挑戰(zhàn)性問題，并主要探討在生物信息學（bioinformatics）、多媒體挖掘（multimediamining）、鏈接挖掘（1inkmining）、文本挖掘（textmining）和網絡挖掘（webmining）等領域所遇到的挑戰(zhàn)。與國外相比，DM在國內的研究和應用始于20世紀90年代初，主要是對DM方法的介紹和推廣，20世紀90年代后期和21世紀初進入蓬勃發(fā)展階段，當前DM已成為大型企業(yè)進行經營決策時所必須采用的方法，證券和金融部門已將DM作為今后重點應用的技術之一。有學者以HIS和LIS數(shù)據(jù)庫信息為數(shù)據(jù)源，人工神經網絡為工具，概率論為依據(jù)，對常規(guī)檢驗結果和質譜指紋圖數(shù)據(jù)進行DM并應用于臨床實踐［14－16］。

4臨床醫(yī)學DM的特點

DM作用于醫(yī)學數(shù)據(jù)庫跟挖掘其他類型的數(shù)據(jù)庫相比較，具有其自己的特點。以電子病歷、醫(yī)學影像、病歷參數(shù)、化驗結果等臨床數(shù)據(jù)為基礎建立的醫(yī)學數(shù)據(jù)庫是一個復雜類型數(shù)據(jù)庫，這些臨床信息具有隱私性、多樣性、不完整性、冗余性、異質性和缺乏數(shù)學性質等自身的特殊性和復雜性，使得醫(yī)學DM與常規(guī)DM之間存在較大差異。醫(yī)學DM方法包括統(tǒng)計方法、機器學習方法、神經網絡方法和數(shù)據(jù)庫方法等。將這些不同的挖掘方法應用到疾病的診斷、治療和預后分析以及醫(yī)療管理等各個領域，從疾病的診治、醫(yī)療質量管理、醫(yī)院管理、衛(wèi)生政策研究與醫(yī)療資源利用評價等方面去獲取諸如概念、規(guī)律、模式等相關知識；用于對疾病進行分類、分級、篩選危險因素、決定治療方案和開藥數(shù)量等［5］。

5我國醫(yī)學DM的現(xiàn)狀及展望

生命科學的快速發(fā)展以及系統(tǒng)生物學（systembiology）的出現(xiàn)和蓬勃發(fā)展為研究現(xiàn)代醫(yī)學模式和中醫(yī)藥學提供了可能的新思路和新方法。通過基因組學、蛋白質組學等方法闡述復雜生命迫切需要DM等相關計算分析方法處理海量的基因、蛋白、染色質數(shù)據(jù)如基因調控網絡的研究、蛋白質交互網絡的挖掘等［10］。在我國醫(yī)學數(shù)據(jù)極為豐富，但運用DM技術分析和處理這些數(shù)據(jù)資源的研究尚處于起步階段。有些大學（如第二軍醫(yī)大學、哈爾濱醫(yī)科大學、瀘州醫(yī)學院等）已經面向醫(yī)學本科生及研究生開設了相關課程，上海交通大學醫(yī)學院也向醫(yī)學專業(yè)研究生開設了《生物醫(yī)學數(shù)據(jù)挖掘》的課程［17］，瀘州醫(yī)學院檢驗醫(yī)學系開設了《檢驗醫(yī)學信息學》課程，從檢驗醫(yī)學信息的來源、綜合、提煉和利用過程均進行了詳細介紹［18］。這些課程的開設旨在使學生及醫(yī)學科學研究者了解這些知識，能理性地應用這些數(shù)學工具，并建立和其他學科領域研究人員合作的基礎。醫(yī)學DM是一門涉及面廣、技術難度大的新興交叉學科，是計算機技術、人工智能、統(tǒng)計等技術手段與現(xiàn)代醫(yī)療相結合的產物，需要從事計算機、統(tǒng)計學的科研人員與廣大醫(yī)務工作者之間的通力合作。隨著理論研究的深入和進一步的實踐摸索，醫(yī)學DM必將在疾病的診療、醫(yī)學科研與教學以及醫(yī)院管理等方面發(fā)揮不可估量的巨大作用。

臨床醫(yī)學數(shù)據(jù)挖掘分析

相關熱門標簽

相關文章閱讀

相關期刊推薦

臨床醫(yī)學

中華臨床醫(yī)學

中國臨床醫(yī)學

浙江臨床醫(yī)學

江蘇臨床醫(yī)學

精選范文推薦