亚洲一区二区三区污网站,好爽…又高潮了毛片免费看

前言：想要寫出一篇引人入勝的文章？我們特意為您整理了生物醫(yī)學(xué)文本挖掘研究熱點(diǎn)范文，希望能給你帶來(lái)靈感和參考，敬請(qǐng)閱讀。

生物醫(yī)學(xué)文本挖掘研究熱點(diǎn)

［摘要］為了解生物醫(yī)學(xué)文本挖掘的研究現(xiàn)狀和評(píng)估未來(lái)的發(fā)展方向，以美國(guó)國(guó)立圖書(shū)館PubMed中收錄的2000年1月－2015年3月發(fā)表的生物醫(yī)學(xué)文本挖掘研究文獻(xiàn)記錄為樣本來(lái)源，提取文獻(xiàn)記錄的主要主題詞進(jìn)行頻次統(tǒng)計(jì)后截取高頻主題詞，形成高頻主題詞－論文矩陣，根據(jù)高頻主題詞在同一篇論文中的共現(xiàn)情況對(duì)其進(jìn)行聚類分析，根據(jù)高頻主題詞聚類分析結(jié)果和對(duì)應(yīng)的類標(biāo)簽文獻(xiàn)，分析當(dāng)前生物醫(yī)學(xué)文本挖掘研究的熱點(diǎn)。結(jié)果顯示，當(dāng)前文本挖掘在生物醫(yī)學(xué)領(lǐng)域應(yīng)用的主要研究熱點(diǎn)為文本挖掘的基本技術(shù)研究、文本挖掘在生物信息學(xué)領(lǐng)域里的應(yīng)用、文本挖掘在藥物相關(guān)事實(shí)抽取中的應(yīng)用3個(gè)方面。

［關(guān)鍵詞］文本挖掘;生物醫(yī)學(xué)研究;研究熱點(diǎn)

隨著生物醫(yī)學(xué)科學(xué)的飛速發(fā)展，生物醫(yī)學(xué)領(lǐng)域的實(shí)驗(yàn)數(shù)據(jù)和文獻(xiàn)數(shù)量急劇增加。常用的檢索方式通常會(huì)消耗大量時(shí)間，并且需要對(duì)檢索詞進(jìn)行仔細(xì)篩選及恰當(dāng)組合。文本挖掘是通過(guò)計(jì)算機(jī)發(fā)現(xiàn)以前未知的新信息，即在現(xiàn)有文獻(xiàn)資源中自動(dòng)提取相關(guān)信息，并揭示另外隱含的意義［1］。利用文本挖掘能夠有效地從生物醫(yī)學(xué)數(shù)據(jù)庫(kù)中提取相關(guān)知識(shí)進(jìn)行研究進(jìn)而提出新的實(shí)驗(yàn)假設(shè)，得到新的科學(xué)結(jié)論，因此文本挖掘在生物科學(xué)領(lǐng)域具有很大的應(yīng)用價(jià)值。以檢索詞“textmining”在PubMed檢索(2015年6月9日)相關(guān)文獻(xiàn)，結(jié)果顯示文獻(xiàn)累積數(shù)量隨著年代的分布呈現(xiàn)典型的指數(shù)分布，說(shuō)明文本挖掘在生物醫(yī)學(xué)領(lǐng)域中正處在飛速發(fā)展中，是當(dāng)前的研究熱點(diǎn)。基于以上原因，我們運(yùn)用共詞分析的方法，對(duì)2000年1月至2015年3月MEDLINE數(shù)據(jù)庫(kù)收錄的有關(guān)文本挖掘在生物醫(yī)學(xué)領(lǐng)域應(yīng)用的論文中的高頻主題詞進(jìn)行了共現(xiàn)聚類分析，總結(jié)出當(dāng)前國(guó)際上文本挖掘在生物醫(yī)學(xué)領(lǐng)域應(yīng)用的研究熱點(diǎn)，并對(duì)其進(jìn)行分析。

1資料與方法

數(shù)據(jù)樣本為MEDLINE數(shù)據(jù)庫(kù)收錄的生物醫(yī)學(xué)領(lǐng)域文本挖掘研究文獻(xiàn)。MEDLINE是國(guó)際上生物醫(yī)學(xué)領(lǐng)域的權(quán)威數(shù)據(jù)庫(kù)，迄今收錄文獻(xiàn)達(dá)2400萬(wàn)篇，通過(guò)該數(shù)據(jù)庫(kù)可以檢測(cè)到含有確切關(guān)鍵詞的文獻(xiàn)［2］。采用檢索策略為:“textmining”［tiab］AND((“2000/01/01”［PDAT］:“2015/03/31”［PDAT］)ANDmedline［sb］)，共得到879篇相關(guān)文獻(xiàn)記錄。以xml格式將全部相關(guān)文獻(xiàn)記錄套錄下來(lái)，運(yùn)用文獻(xiàn)計(jì)量學(xué)統(tǒng)計(jì)分析軟件BICOMB［3］抽取和統(tǒng)計(jì)以上文獻(xiàn)中的主要主題詞及副主題詞及每個(gè)詞在以上全部文獻(xiàn)中的出現(xiàn)頻次，按照它們的出現(xiàn)頻次由高到低進(jìn)行排序，選取其中出現(xiàn)頻次高于13次的40個(gè)主題詞/副主題詞作為高頻主題詞(表1)。由于這些文獻(xiàn)的篇名或摘要中含有“文本挖掘”被檢出，且被收錄于MEDLINE，其主要內(nèi)容都與生物醫(yī)學(xué)文本挖掘有關(guān)，因此得到的主題詞和副主題詞可反映文本挖掘在生物醫(yī)學(xué)領(lǐng)域中的應(yīng)用情況。對(duì)所有高頻主題詞做進(jìn)一步處理，統(tǒng)計(jì)每一個(gè)高頻詞在文獻(xiàn)中的出現(xiàn)情況，形成高頻詞－文獻(xiàn)矩陣，輸入到gCLUTO軟件，采用系統(tǒng)聚類法對(duì)所得相似矩陣進(jìn)行聚類分析，聚類分析的結(jié)果可以反映出這些高頻詞之間的親疏關(guān)系，分析這些高頻主題詞能夠獲得生物醫(yī)學(xué)領(lǐng)域文本挖掘研究的熱點(diǎn)。聚類結(jié)果如圖1所示，其中橫軸代表PubMed數(shù)據(jù)庫(kù)中文獻(xiàn)，縱軸代表進(jìn)行聚類的主題詞/副主題詞。如果兩詞聚集到一起的距離短，說(shuō)明它們的關(guān)系越密切［4］。首先，根據(jù)每一類高頻主題詞的含義以及這些主題詞之間的語(yǔ)義關(guān)系，總結(jié)出每一類主題詞所代表的研究熱點(diǎn)，即當(dāng)前醫(yī)學(xué)領(lǐng)域文本挖掘研究的熱點(diǎn)。例如，主題詞NaturalLanguageProcessing(自然語(yǔ)言處理)和PeriodicalsasTopic(期刊作為主題)距離較近，關(guān)系密切，首先聚成一類;ArtificialIntelli-gence(人工智能)再與前面兩個(gè)詞合成一類，這一類再與MEDLINE組成的一類再聚成一大類，以此類推。通過(guò)分析這些主題詞的語(yǔ)義關(guān)系就能得出它們所代表的類團(tuán)含義標(biāo)簽，綜合各個(gè)類別的類標(biāo)簽可以得出當(dāng)前醫(yī)學(xué)領(lǐng)域文本挖掘研究的熱點(diǎn)。其次，利用gCLUTO軟件計(jì)算各類成員對(duì)聚類貢獻(xiàn)率的指標(biāo)(描述度Descriptive和區(qū)分度Descriminating)，選取對(duì)每一類形成貢獻(xiàn)最大的來(lái)源文獻(xiàn)作為表示該類內(nèi)容的類標(biāo)簽文獻(xiàn)，通過(guò)文獻(xiàn)內(nèi)容進(jìn)一步闡釋該研究方向的具體內(nèi)容。

2結(jié)果與分析

通過(guò)對(duì)近2000－2015年MEDLINE收錄的生物醫(yī)學(xué)領(lǐng)域文本挖掘研究文獻(xiàn)的高頻主題詞和副主題詞進(jìn)行共現(xiàn)聚類分析(圖1)，我們將該領(lǐng)域的研究熱點(diǎn)分為以下3大方面，14個(gè)主題。

2．1文本挖掘的基本技術(shù)

2．1．1關(guān)于基因名稱識(shí)別的研究

該類所含的主題詞有Genes;TerminologyasTopics;Vocabulary，Controlled。研究?jī)?nèi)容如根據(jù)詞表對(duì)基因符號(hào)消歧，評(píng)價(jià)生物醫(yī)學(xué)命名體識(shí)別的各種標(biāo)準(zhǔn)［5－8］，整合多種資源以規(guī)范基因名稱等。

2．1．2文本分類中高維特征的處理問(wèn)題

該類包含ArtificialIntelligence，Algorithms，PatternRecognition，Automated/methods等主題詞。研究?jī)?nèi)容如利用Turku系統(tǒng)增強(qiáng)生物醫(yī)學(xué)事件抽取的新的特征選擇策略，Swanson的ABC研究中定量計(jì)算B詞的模型，如何把文本和手工構(gòu)建通路聯(lián)系起來(lái)［9－12］。

2．1．3文本挖掘中標(biāo)引注釋問(wèn)題

該類包括的主題詞有NaturalLanguageProcessing;InformationStorageandRetrieval/methods;PeriodicalsasTopic;Databases，Bibliographic;AbstractingandIndexingasTopic/methods。如用于生物文本挖掘語(yǔ)義注釋的語(yǔ)料庫(kù)GENIA，對(duì)文章中圖例進(jìn)行標(biāo)引和分類的系統(tǒng)，從全文中抽取生物學(xué)信息的工具。以上都涉及到文本挖掘語(yǔ)料的庫(kù)建設(shè)，需要事先注釋好的語(yǔ)料庫(kù)［13－16］。

2．1．4文本挖掘初級(jí)階段的輔助工具

該類包括DatabaseManagementSystems，MED-LINE，User－ComputerInterface等主題詞。研究?jī)?nèi)容如通過(guò)Web服務(wù)進(jìn)行文本處理的Whatizit系統(tǒng)，對(duì)MEDLINE/PubMed文獻(xiàn)記錄自動(dòng)挖掘的輔助性工具M(jìn)edKit，文本中自動(dòng)標(biāo)記基因、蛋白質(zhì)和其他實(shí)體名字的開(kāi)源工具ABNER，支持生物本體開(kāi)發(fā)與分析的API:ONTO－PERL。其中，基于Web文本分析工具Whatizit是一種基于服務(wù)器的，用于分析文獻(xiàn)(如任何科學(xué)出版物或MEDLINE摘要)中所含信息的模塊，它可以辨認(rèn)術(shù)語(yǔ)并將其與生物醫(yī)學(xué)數(shù)據(jù)庫(kù)(如UniProtKb/Swiss－Prot)中相應(yīng)的條目和基因本體概念鏈接起來(lái)［17－19］。

2．2文本挖掘在生物信息學(xué)研究中的應(yīng)用

2．2．1系統(tǒng)生物學(xué)的知識(shí)管理

涉及的主題詞有SystemsBiology/methods;GeneExpressionProfiling/methods，KnowledgeBases。研究?jī)?nèi)容如以高通量siRNA監(jiān)測(cè)作為生物系統(tǒng)擾動(dòng)和與復(fù)合物監(jiān)測(cè)并存靶向通路的辨認(rèn)的方法應(yīng)用于轉(zhuǎn)化醫(yī)學(xué)的通用和可視化驅(qū)動(dòng)的框架，藥物基因組學(xué)領(lǐng)域中的關(guān)系抽取，用于分析、整合和可視化人類轉(zhuǎn)錄組學(xué)［20－23］、蛋白質(zhì)組學(xué)和代謝組學(xué)的Web系統(tǒng)生物學(xué)工具。

2．2．2生物學(xué)網(wǎng)絡(luò):蛋白質(zhì)相互作用網(wǎng)絡(luò)的構(gòu)建和分析

涉及的主題詞有ProteinInteractionMapping/methods、Models，Biological和SignalTransduction/physiology。研究?jī)?nèi)容如利用文本挖掘的結(jié)果來(lái)構(gòu)建PPI網(wǎng)絡(luò)，生物網(wǎng)絡(luò)推理和分析信息融合平臺(tái)Bio-CAD;還有學(xué)者開(kāi)發(fā)出基于網(wǎng)絡(luò)－上下文的文獻(xiàn)檢索系統(tǒng)(NcDocReSy)作為Cytoscape的插件，可以通過(guò)間接相關(guān)的文獻(xiàn)幫助用戶手工構(gòu)建網(wǎng)絡(luò)，該系統(tǒng)結(jié)合了用生物學(xué)網(wǎng)絡(luò)檢索文獻(xiàn)和根據(jù)網(wǎng)絡(luò)拓?fù)鋪?lái)排序檢索到的文獻(xiàn)［24－27］。

2．2．3通過(guò)文本挖掘獲得蛋白質(zhì)相互作用網(wǎng)絡(luò)圖，并對(duì)該圖中節(jié)點(diǎn)間的關(guān)系進(jìn)行語(yǔ)義上的注釋

涉及Proteins/metabolism，ProteinInteractionMapping，Semantics等主題詞。研究?jī)?nèi)容如利用上下文模型和句子格式對(duì)基因提名加以規(guī)范并提取相互作用，把文獻(xiàn)挖掘和從各種來(lái)源的相互作用證據(jù)結(jié)合起來(lái)構(gòu)建鼠蛋白相互作用網(wǎng)絡(luò)，語(yǔ)言特征在從PubMed中抽取相互作用時(shí)的有用程度，以及從文獻(xiàn)中抽取人類蛋白質(zhì)因果關(guān)系的挖掘工具PPInterFinder［28－31］。

2．2．4利用文本挖掘進(jìn)行的蛋白質(zhì)功能研究

涉及的主題詞有Databases，Protein;Proteins/chemistry。研究?jī)?nèi)容如基于Web的蛋白質(zhì)序列功能注釋工具ProFat，利用圖雙字相關(guān)自動(dòng)抽取蛋白質(zhì)點(diǎn)突變，PPI與文本挖掘集成用于蛋白質(zhì)功能預(yù)測(cè);用整合后的全局相關(guān)評(píng)分改善PPI對(duì)排序［32－35］等。

2．2．5文本挖掘方法在生物信息學(xué)中應(yīng)用的概述

它涉及到DataMining/methods;ComputationalBiology/methods;Databases，Genetic等主題詞。文本挖掘是生物信息學(xué)的重要研究方法之一，有助于構(gòu)建基因數(shù)據(jù)庫(kù)和知識(shí)庫(kù)。研究?jī)?nèi)容如從自文本中抽取事實(shí)的研究，文本挖掘是否能用成倍提高手工構(gòu)建基因產(chǎn)品的效率。在OMIM中檢索臨床綱要的CSI－OMIM系統(tǒng)，利用PharmGKB訓(xùn)練文本挖掘方法以在藥物基因組研究中確認(rèn)潛在基因靶標(biāo)的研究［36－39］。

2．2．6圍繞PubMed的挖掘系統(tǒng)和工具

涉及到的主題詞有Software，Internet，PubMed。本類所研究系統(tǒng)和工具與文獻(xiàn)挖掘的輔助工具相似，都是基于文獻(xiàn)數(shù)據(jù)庫(kù)開(kāi)發(fā)的工具，但是輔助工具關(guān)注的是MEDLINE數(shù)據(jù)庫(kù)，而本類則關(guān)注其網(wǎng)絡(luò)版，因此更具有網(wǎng)絡(luò)應(yīng)用的性質(zhì)。眾多工具不再是輔助性的文本處理工具，而是針對(duì)PubMed的檢索和挖掘工具，尤其是基于Web的PubMed檢索工具，如GeneView，PPInterFinder等。與挖掘有關(guān)的工具則有書(shū)目分析工具，如PipelinePilot就是一種基于Web的PubMed書(shū)目分析工具等，可以進(jìn)行交互式的文本挖掘［31，40－42］。以上6個(gè)主題也可以歸為一個(gè)大類，即在生物信息學(xué)研究中的應(yīng)用，側(cè)重系統(tǒng)生物學(xué)的挖掘分析，即通過(guò)蛋白質(zhì)相互作用網(wǎng)絡(luò)的分析來(lái)預(yù)測(cè)蛋白質(zhì)的功能。這是文本挖掘當(dāng)前在生物醫(yī)學(xué)應(yīng)用的主流，也是文本挖掘在生物醫(yī)學(xué)應(yīng)用中的重中之重。

2．3文本挖掘在事實(shí)抽取中的應(yīng)用

2．3．1如何從文本中抽取事實(shí)(關(guān)系)，即從文獻(xiàn)中發(fā)現(xiàn)醫(yī)學(xué)知識(shí)的方法學(xué)研究

涉及Databases，F(xiàn)actual;Publications;BiomedicalResearch等主題詞。研究?jī)?nèi)容如利用文本挖掘給文獻(xiàn)打分和排序，以改善毒理基因組學(xué)比較數(shù)據(jù)庫(kù)中藥物－基因－疾病關(guān)系的建立;利用用戶定制的支持互操作格式的Web服務(wù)來(lái)處理生物學(xué)文獻(xiàn);無(wú)監(jiān)督文本挖掘方法抽取生物醫(yī)學(xué)文獻(xiàn)中的關(guān)系等［43－46］。

2．3．2利用文本挖掘幫助文獻(xiàn)檢索和整理，滿足用戶信息需求的研究

涉及主題詞有ComputationalBiology，InformationStorageandRetrieval。文本挖掘應(yīng)用于生物信息學(xué)的信息檢索，如利用生物醫(yī)學(xué)本體改善生物醫(yī)學(xué)文獻(xiàn)聚類效果，利用計(jì)算機(jī)跟蹤知識(shí)與內(nèi)容，利用文本挖掘開(kāi)展人類重要疾病的整合基因組分析，藥物開(kāi)發(fā)中的信息需求與文本挖掘的作用等［47－50］。2．3．3利用文本挖掘方法(尤其是文獻(xiàn)計(jì)量學(xué)方法)構(gòu)建藥物－基因－疾病等調(diào)節(jié)網(wǎng)絡(luò)該類主題詞有DataMining和GeneRegulatoryNetworks。研究?jī)?nèi)容如利用文本挖掘方法幫助構(gòu)建E．coliK－12菌株中OxyR蛋白的調(diào)節(jié)作用和生長(zhǎng)條件的數(shù)據(jù)庫(kù)，文獻(xiàn)計(jì)量學(xué)網(wǎng)絡(luò)重建應(yīng)用程序和服務(wù)器Biblio－MetReS，比較性毒理基因組學(xué)數(shù)［51－54］據(jù)庫(kù)中藥物－基因－疾病網(wǎng)絡(luò)的文本挖掘和手工構(gòu)建等。2．3．4臨床記錄中各種信息(特別是時(shí)間信息)的抽取涉及到MedicalInformatics/methods，ElectronicHealthRecords等主題詞。該研究?jī)?nèi)容如從臨床記錄中抽取時(shí)間關(guān)系而生成患者時(shí)間軸，結(jié)合使用規(guī)則和機(jī)器學(xué)習(xí)方法從患者出院小結(jié)中抽取時(shí)間關(guān)系的TEMPTING系統(tǒng)，從臨床文本中自動(dòng)抽取巴士指數(shù)的研究，對(duì)瑞士語(yǔ)臨床文本的線索斷言分類，為pyConTextSwe系統(tǒng)開(kāi)發(fā)詞匯表等［55－58］。以上4類的共同特征是偏重從文本中抽取事實(shí)，尤其是與藥物和毒理(藥物副作用)有關(guān)的事實(shí)抽取方法的研究，同時(shí)也涉及到基因等信息。

3結(jié)論

通過(guò)對(duì)14個(gè)主題的高頻主題詞進(jìn)行梳理，可以看到文本挖掘在生物醫(yī)學(xué)領(lǐng)域應(yīng)用主要在3個(gè)方面。一是文本挖掘的基本技術(shù)研究。研究?jī)?nèi)容從語(yǔ)料庫(kù)建設(shè)中的標(biāo)引注釋問(wèn)題到文本分類中的特征提取，一直到這些技術(shù)在基因名稱的命名體識(shí)別中的應(yīng)用，最后涉及到可以在命名體識(shí)別等基本技術(shù)上幫助文本挖掘的工具。文本挖掘基本技術(shù)研究未來(lái)的發(fā)展應(yīng)更加注重采用規(guī)范化和標(biāo)準(zhǔn)化的工具。二是文本挖掘在生物信息學(xué)領(lǐng)域里的應(yīng)用。該研究方向側(cè)重于將挖掘方法應(yīng)用到系統(tǒng)生物學(xué)分析中，如在轉(zhuǎn)化醫(yī)學(xué)、藥物基因組學(xué)、人類轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)和代謝組學(xué)等領(lǐng)域中的應(yīng)用，利用免費(fèi)而權(quán)威的PubMed文獻(xiàn)數(shù)據(jù)庫(kù)開(kāi)發(fā)挖掘系統(tǒng)和工具。其中通過(guò)蛋白質(zhì)相互作用網(wǎng)絡(luò)分析來(lái)預(yù)測(cè)蛋白質(zhì)的功能是當(dāng)前文本挖掘在生物醫(yī)學(xué)領(lǐng)域應(yīng)用中的重中之重。另外，對(duì)生物學(xué)網(wǎng)絡(luò)(尤其是蛋白質(zhì)相互作用PPI網(wǎng)絡(luò))的屬性分析已經(jīng)成為一種新的生長(zhǎng)點(diǎn)。其中通過(guò)對(duì)文本挖掘獲得文獻(xiàn)網(wǎng)絡(luò)，由此獲得蛋白質(zhì)功能的信息，并將其與生物整合起來(lái)的研究也是值得注意的新動(dòng)向。三是文本挖掘在相關(guān)事實(shí)抽取中的應(yīng)用。文本挖掘也常用于從文本中抽取事實(shí)，尤其是與藥物、毒理(藥物副作用)、疾病有關(guān)的事實(shí)抽取方法的研究，同時(shí)也涉及到基因信息研究。包括對(duì)從文獻(xiàn)中發(fā)現(xiàn)醫(yī)學(xué)知識(shí)的具體技術(shù)的探討，如構(gòu)建各種生物醫(yī)學(xué)相關(guān)的數(shù)據(jù)庫(kù)和知識(shí)庫(kù)，Web服務(wù)器處理文獻(xiàn);利用文本挖掘技術(shù)幫助用戶文獻(xiàn)檢索和整理文獻(xiàn)也是當(dāng)前引起廣泛關(guān)注的服務(wù)。此外，在文本挖掘算法上比較突出的方向是利用文本挖掘方法以及文獻(xiàn)計(jì)量學(xué)方法構(gòu)建藥物－基因－疾病等調(diào)節(jié)網(wǎng)絡(luò)，以及有關(guān)臨床記錄中各種信息(特別是時(shí)間信息)的抽取問(wèn)題。綜上所述，生物醫(yī)學(xué)文本挖掘研究熱點(diǎn)主要集中在文本挖掘基本方法和技術(shù)研究、生物信息學(xué)中的應(yīng)用和在藥物相關(guān)研究中的應(yīng)用，未來(lái)發(fā)展方向應(yīng)當(dāng)是以詞表標(biāo)準(zhǔn)、復(fù)雜網(wǎng)絡(luò)分析等方法為主。

【參考文獻(xiàn)】

［1］王浩暢，趙鐵軍．生物醫(yī)學(xué)文本挖掘技術(shù)的研究與進(jìn)展［J］．中文信息學(xué)報(bào)，2008，22(3):89－98．

［2］崔雷，劉偉，閆雷，等．文獻(xiàn)數(shù)據(jù)庫(kù)中數(shù)目信息共現(xiàn)挖掘系統(tǒng)的開(kāi)發(fā)［J］．現(xiàn)代圖書(shū)情報(bào)技術(shù)，2008(8):70－75．

［3］張丹曄，崔雷．PBL教學(xué)模式的研究熱點(diǎn)分析［J］．醫(yī)學(xué)教育探索，2010，9(8):1053－1057．

作者：史航高雯珺崔雷