公務員期刊網(wǎng) 論文中心 正文

數(shù)據(jù)挖掘算法及在醫(yī)院內感染的應用

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了數(shù)據(jù)挖掘算法及在醫(yī)院內感染的應用范文,希望能給你帶來靈感和參考,敬請閱讀。

數(shù)據(jù)挖掘算法及在醫(yī)院內感染的應用

1常見數(shù)據(jù)挖掘算法及其在醫(yī)院內感染中的應用

1.1神經(jīng)網(wǎng)絡

人工神經(jīng)網(wǎng)絡是一種模擬人腦神經(jīng)傳遞的智能算法,一般由輸入、隱含和輸出三部分構成,包括前饋式網(wǎng)絡、反饋式網(wǎng)絡、自組織網(wǎng)絡3種模型。BP神經(jīng)網(wǎng)絡為多層前饋式人工神經(jīng)網(wǎng)絡,是醫(yī)學領域最常用的一種,基于誤差逆?zhèn)鞑ニ惴ㄓ柧毝?。神?jīng)網(wǎng)絡對資料類型沒有任何要求,非線性數(shù)據(jù)處理能力強,容錯性能良好,分類精確度高。但構建神經(jīng)網(wǎng)絡模型時缺乏相應的理論指導,主要靠專業(yè)經(jīng)驗設置網(wǎng)絡隱藏層的層數(shù)和單元數(shù),且無法明確輸入變量是保護因素還是危險因素,對結果的解釋性能較低。重癥監(jiān)護病房(ICU)住院患者自身基礎疾病多,侵襲性治療操作多,是醫(yī)院內感染的高危人群。謝多雙等[6]將ICU患者作為研究對象,構建ICU患者醫(yī)院內感染的多層感知器神經(jīng)網(wǎng)絡預測模型,模型結構為25-4-1,結果顯示,ICU患者醫(yī)院內感染的影響因素依次為ICU入住時間、抗菌藥物使用情況、基礎疾病診斷、年齡、使用插管等,模型訓練集與測試集的準確率分別達81.60%、84.20%,受試者工作特征曲線下面積為0.861,模型預測效果良好。許林勇等[7]使用SAS/EnterpriseMiner軟件對患者醫(yī)院內感染數(shù)據(jù)進行清洗和編碼后使用16-6-1結構的BP神經(jīng)網(wǎng)絡模型進行醫(yī)院內感染的危險度評估,建立了針對患者個體的預測模型,正確率達98.91%,受試者工作特征曲線下面積為0.986。但該研究納入研究因素較少,且未對各科室情況進行分析。牛淼[8]根據(jù)住院患者種類將醫(yī)院分為內科病區(qū)、外科病區(qū)、干部病區(qū)和其他病區(qū),運用多層感知器神經(jīng)網(wǎng)絡模型對各病區(qū)醫(yī)院內感染情況進行分析,結果顯示,各病區(qū)中最重要的影響因素均為住院時間,無論在哪個病區(qū),隨著住院時間增加,醫(yī)院內感染的風險顯著升高。

1.2決策樹

決策樹的經(jīng)典算法是由Quinlan提出的ID3算法,C4.5算法在此基礎上增加了連續(xù)變量的處理方法,隨著boosting技術的應用,C5.0算法應運而生。決策樹的傳遞方式為自上而下,通過邏輯分支關系,形成一種具有分類規(guī)則的樹狀結構。決策樹根據(jù)信息增益、GINI系數(shù)等模型參數(shù)選擇對測試數(shù)據(jù)區(qū)分度最大的屬性變量作為決策樹的根節(jié)點,然后根據(jù)根節(jié)點變量的屬性向下進行分割,形成分支;每個分支節(jié)點重新測試變量屬性,繼續(xù)向下分支,直到該分支節(jié)點的類別同質化或達到預先設定的閾值[9]。決策樹生成過程若不加以限制,將會發(fā)生過擬合的現(xiàn)象,需對樹進行剪枝。剪枝方式有2種,前剪枝和后剪枝,前剪枝是限制決策樹的生長,減少決策分支;后剪枝是在決策樹分割完成后對樹進行修剪,防止過度擬合的發(fā)生。決策樹模型生成的樹狀圖簡單、直觀,易于理解,建模過程省時、高效、速度快,對多種類型屬性等復雜數(shù)據(jù)處理能力強,具有高度精準的預測和分類的能力。王力紅等[10]研究了1897例入住ICU的患者,分析其發(fā)生醫(yī)院內感染的危險因素,通過建立評價指標體系將危險因素進行分類,并建立了決策樹預測模型,對ICU患者住院期間發(fā)生醫(yī)院內感染的風險進行早期預測。LOPES等[11]對巴西兒科醫(yī)院的急診患者進行前瞻性隊列研究,監(jiān)測患者醫(yī)院內感染情況,并將決策樹算法用于醫(yī)院內感染相關病死率的預測,并找出高病死率相關的預測因素,結果顯示,醫(yī)院內感染相關高病死率與侵入性操作、多種抗生素聯(lián)合應用有關,通過改變決策路徑里的這些因素可降低醫(yī)院內感染相關病死率。鄧小紅等[12]將CART決策樹算法用于ICU住院患者醫(yī)院獲得性壓瘡的風險預測,最終生成4層11個節(jié)點的決策樹模型,共提取6條分類規(guī)則,篩選出3類高危人群,且決策樹模型的靈敏度、特異性及受試者工作特征曲線下面積均高于Braden評分。

1.3支持向量機(SVM)

SVM由Vapnik提出,在統(tǒng)計學習理論基礎上發(fā)展而來[13]。SVM融合了結構風險最小原理和VC維理論等統(tǒng)計學習理論,成為其最大的技術特色,具有更良好的執(zhí)行推廣能力[14]。SVM旨在小樣本數(shù)據(jù)的有限空間內尋找具有最大間隔的決策面,使決策風險達到最小,模型泛化能力達到最優(yōu)[15]。SVM可很好地解決數(shù)據(jù)非線性問題及高維問題,解決了神經(jīng)網(wǎng)絡模型的局部極小點問題,提高了泛化性能[16]。EHRENTRAUT等[17]采用SVM和梯度樹增強構建醫(yī)院內感染監(jiān)測模型。梯度樹增強具有良好的分類能力,且能測量每個功能的重要程度,評估分類器所使用的特征是否為醫(yī)院內感染的合理指標。該研究將重點研究有關預處理方法或參數(shù)調整是否有助于提高模型性能的問題,盡可能高地使回憶精度接近于100%,而具有高召回率的算法尤其適用于對感染的篩查。SILVA等[18]采用跨行業(yè)數(shù)據(jù)挖掘標準流程方法將SVM和樸素貝葉斯分類技術用于波爾圖市中心醫(yī)院的醫(yī)院內感染數(shù)據(jù)分析,根據(jù)不同場景創(chuàng)建預測模型,以發(fā)現(xiàn)新知識并獲得解決問題的最佳模型(靈敏度高于91.90%)。該研究通過對現(xiàn)有臨床數(shù)據(jù)進行分析,提供了以臨床問題為導向的科研思路,旨在減少患者發(fā)生并發(fā)癥的風險,改善其安全和健康,從而預防和減少醫(yī)療機構的醫(yī)院內感染的發(fā)生。醫(yī)院內感染數(shù)據(jù)存在嚴重的不均衡性,陽性患者所占比重較小,針對這一現(xiàn)象,COHEN等[19]提出了非對稱SVM,提高了SVM模型對罕見陽性病例的識別能力,以極低的成本實現(xiàn)了92.00%的召回率,且與之前研究通過新穎的重采樣策略獲得的最高靈敏度(87.00%)又有所提升。

1.4粗糙集

粗糙集理論是由PWLAK[20]教授于1982年提出的一種研究不完整、不確定知識和數(shù)據(jù)的學習歸納法,在處理大數(shù)據(jù)庫和消除冗雜信息方面具有明顯優(yōu)勢,現(xiàn)在已成為數(shù)據(jù)挖掘/知識發(fā)現(xiàn)研究中強有力的工具。粗糙集的基本思想是對決策表(數(shù)據(jù)集)進行屬性約簡和值約簡后得出決策規(guī)則,然后采用判別規(guī)則進行分類。粗糙集理論的特點是不用預先給定特征或屬性的數(shù)量描述,而直接從給定問題出發(fā),通過不可分辨關系(類)找出問題的近似域,從而發(fā)現(xiàn)其內在規(guī)律[21-22]。王向陽等[23]首次將粗糙集算法用于醫(yī)院內感染數(shù)據(jù)挖掘研究,通過對患者信息數(shù)據(jù)進行預處理,將病情信息看作條件屬性,將是否發(fā)生醫(yī)院內感染看作決策屬性,對數(shù)據(jù)集進行屬性約簡和值約簡,通過約簡后的數(shù)據(jù)集得出決策規(guī)則,再使用得到的決策規(guī)則進行判別分類,得到的決策規(guī)則少而精,非常直觀。洪晶等[24]將粗糙集與經(jīng)典ID3決策樹算法結合起來,建立了基于粗糙集的決策樹算法,通過粗糙集屬性約簡后數(shù)據(jù)再使用決策樹進行分類,2種算法優(yōu)勢互補,為診斷醫(yī)院內感染提供了新的思路與方法。

1.5時間序列

時間序列數(shù)據(jù)具有高維性、海量性、噪聲性、幅度上的拉伸和平移、時間軸上的伸縮性、線性漂移和不連續(xù)點等特征。傳統(tǒng)的數(shù)據(jù)挖掘算法無法對時間序列數(shù)據(jù)進行有效的處理分析,因此,時間序列數(shù)據(jù)挖掘應運而生[25]。典型的時間序列模型包括自回歸滑動平均模型、Markov模型和人工神經(jīng)網(wǎng)絡模型等[26]。耐甲氧西林金黃色葡萄球菌(MRSA)造成的醫(yī)院內感染或社區(qū)感染不斷攀升,對環(huán)境物表清潔消毒的要求也不斷提高。單歡等[27]考慮到MRSA流行的時間趨勢及周期變化,使用求和自回歸滑動平均模型(ARIMA)對2010-2014年浙江醫(yī)院MRSA監(jiān)測數(shù)據(jù)進行擬合分析,建立了MRSA的ARIMA預測模型,對MRSA的流行趨勢進行預測,得出模型的平均相對誤差為20.19%,預測出的MR-SA動態(tài)趨勢與實際檢出情況基本符合,可為MRSA的防控提供參考依據(jù)。NGO等[28]將指數(shù)平滑法用于加利福尼亞州舊金山退伍軍人醫(yī)學中心在1991-1992年銅綠假單胞菌細菌感染疑似慶大霉素耐藥情況分析,研究了慶大霉素抗性銅綠假單胞菌年累計發(fā)病率與流行發(fā)生的關系。由于兒童各器官系統(tǒng)發(fā)育尚未成熟,免疫機制尚不健全,對病原體尤其是呼吸道病原體抵抗力較弱,是醫(yī)院內感染的易感人群。劉海鵬等[29]收集匯總了2011-2015年安徽省兒童醫(yī)院住院患兒醫(yī)院內感染數(shù)據(jù),使用ARIMA時間序列分析方法進行模型的構建,并對數(shù)據(jù)進行一階差分來平穩(wěn)序列的方差,根據(jù)信息量準則選擇最優(yōu)模型,預測效果良好,對住院患兒醫(yī)院內感染的發(fā)生率具有一定的預測價值。監(jiān)測抗生素耐藥性導致的醫(yī)院內感染暴發(fā)是醫(yī)院內感染控制不可或缺的重要部分。

1.6關聯(lián)規(guī)則

對事務數(shù)據(jù)庫進行關聯(lián)規(guī)則挖掘,就是通過用戶指定的最小支持度(Support)和最小置信度(Confidence)尋找強關聯(lián)規(guī)則的過程[30]。關聯(lián)規(guī)則挖掘問題包括尋找所有頻繁項目集和在頻繁項目集中尋找關聯(lián)規(guī)則兩部分。關聯(lián)模式中最著名的就是AGRAWAL等提出來的Apriori算法[31],其算法思想是首先找出頻繁性至少和預定義的最小支持度一樣的所有頻集,然后由頻集產(chǎn)生強關聯(lián)規(guī)則。通過減少對數(shù)據(jù)庫的掃描次數(shù)和不必要的頻繁項目集的生成方法可提高Apriori算法的效率。由于Apriori算法在尋找頻繁項目集時產(chǎn)生大量的候選項,占用了大量的內存,不適用于大規(guī)模數(shù)據(jù)集,由此衍生出CLOSE算法和FP-GROWTH算法[32]。FP-GROWTH算法對原始數(shù)據(jù)庫進行2次掃描,將原始庫映射成一棵頻繁模式樹,并保留關聯(lián)信息,然后再將頻繁模式樹分化成條件庫,再對條件庫進行挖掘,在內存中即可完成頻繁項目集的發(fā)現(xiàn)工作。對醫(yī)院內感染數(shù)據(jù)進行關聯(lián)分析可發(fā)現(xiàn)數(shù)據(jù)屬性間的關系,為醫(yī)院內感染的防治提供參考依據(jù)。BROSSETTE等[33]利用阿拉巴馬大學伯明翰分校醫(yī)院的銅綠假單胞菌感染控制數(shù)據(jù)探索了一個基于關聯(lián)規(guī)則的數(shù)據(jù)挖掘流程,期望用于醫(yī)院內感染事件的自動識別與監(jiān)測,模型實現(xiàn)結果良好。目前,醫(yī)療數(shù)據(jù)分析主要采用Apriori算法進行關聯(lián)規(guī)則的數(shù)據(jù)分析,但Apriori算法候選頻繁集較多,生成許多無趣的規(guī)則。有研究采用FP-GROWTH算法對解放軍總醫(yī)院第一附屬醫(yī)院的400例患者進行了關聯(lián)分析,提取患者性別、年齡、抗生素使用情況等7個屬性建立了13條關聯(lián)規(guī)則,揭示了年齡、介入性操作、抗生素使用、住院時間等因素與醫(yī)院內感染間的關聯(lián)性[34]。醫(yī)院內感染的影響因素多且彼此間及與醫(yī)院內感染發(fā)生的聯(lián)系尚未明確,具有灰色特性。劉姣英[35]運用灰色關聯(lián)分析理論將醫(yī)院內感染的數(shù)據(jù)資料進行量化分析,研究各因素間的關聯(lián)程度及優(yōu)勢程度,結果顯示,外科是醫(yī)院內感染控制的重點科室,外科感染以泌尿系統(tǒng)感染最為突出,下呼吸道感染是醫(yī)院內感染監(jiān)控的重要部位,是造成其他部位感染的重要潛在因素。

2小結與展望

醫(yī)院內感染因素復雜,種類龐多,對不同類型、不同部位的醫(yī)院內感染進行預測,沒有哪一種模型是絕對最優(yōu)的,因此,需進一步進行大量的針對不同類型、途徑、人群等具體屬性的醫(yī)院內感染數(shù)據(jù)挖掘研究。隨著醫(yī)院內感染數(shù)據(jù)挖掘研究的越來越深入,單一模型已無法滿足研究需求,組合模型研究成為新的研究方向。模型的優(yōu)劣取決于現(xiàn)有數(shù)據(jù)的擬合程度及對新數(shù)據(jù)的預測準確程度及實用性。模型預測的結果可集成到智能平臺中,用于醫(yī)院內感染發(fā)生的監(jiān)測及預警,為醫(yī)療衛(wèi)生決策提供重要參考依據(jù)。

作者:楊文偉 蔣良芝 李春燕 汪可可 單位:上海市楊浦區(qū)中心醫(yī)院 同濟大學附屬楊浦醫(yī)院醫(yī)院感染管理科