公務(wù)員期刊網(wǎng) 精選范文 數(shù)據(jù)挖掘范文

數(shù)據(jù)挖掘精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數(shù)據(jù)挖掘主題范文,僅供參考,歡迎閱讀并收藏。

數(shù)據(jù)挖掘

第1篇:數(shù)據(jù)挖掘范文

關(guān)鍵詞:數(shù)據(jù)挖掘 技術(shù) 應(yīng)用

中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2013)04(c)-0054-01

數(shù)據(jù)挖掘是在信息的海洋中從統(tǒng)計(jì)學(xué)的角度分析發(fā)現(xiàn)有用的知識(shí),并且能夠充分利用這些信息,發(fā)揮其巨大的作用,從而創(chuàng)造價(jià)值,為社會(huì)生產(chǎn)服務(wù)。數(shù)據(jù)挖掘工具能夠掃描整個(gè)數(shù)據(jù)庫(kù),并且識(shí)別潛在的以往未知的模式。

1 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是與計(jì)算機(jī)科學(xué)相關(guān),包括人工智能、數(shù)據(jù)庫(kù)知識(shí)、機(jī)器學(xué)習(xí)、神經(jīng)計(jì)算和統(tǒng)計(jì)分析等多學(xué)科領(lǐng)域和方法的交叉學(xué)科,是從大量信息中提取人們還不清楚的但具有對(duì)于潛在決策過(guò)程有用的信息和知識(shí)的過(guò)程[1]。數(shù)據(jù)挖掘能夠自動(dòng)對(duì)數(shù)據(jù)進(jìn)行分析,并歸納總結(jié),推理,分析數(shù)據(jù),從而幫助決策者對(duì)信息預(yù)測(cè)和決策其作用[2]。

對(duì)比數(shù)據(jù)挖掘及傳統(tǒng)數(shù)據(jù)分析(例如查詢(xún)、報(bào)表),其本質(zhì)區(qū)別在于:前者在沒(méi)有明確假設(shè)的前提下通過(guò)挖掘信息,提取有用的資料,并提升到知識(shí)層面,從而幫助提供決策支持。所以數(shù)據(jù)挖掘又稱(chēng)為知識(shí)挖掘或者知識(shí)發(fā)現(xiàn)。數(shù)據(jù)挖掘通過(guò)統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、可視化技術(shù)、機(jī)器學(xué)習(xí)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)叢大量數(shù)據(jù)中自動(dòng)搜索隱藏在其中的有著特殊關(guān)聯(lián)性的信息[3]。

2 數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘有許多挖掘分析工具,可以在大量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系,常用數(shù)據(jù)挖掘技術(shù)包括:聚類(lèi)分析和分類(lèi)分析,偏差分析等。

分類(lèi)分析和聚類(lèi)分析的主要區(qū)別在于前者是已知要處理的數(shù)據(jù)對(duì)象的類(lèi),后者不清楚處理的數(shù)據(jù)對(duì)象的類(lèi)。聚類(lèi)是對(duì)記錄分組,把相似的記錄在一個(gè)聚集里,聚集不依賴(lài)于預(yù)先定義好的類(lèi),不需要訓(xùn)練集。分類(lèi)分析是預(yù)先假定有給定的類(lèi),并假定數(shù)據(jù)庫(kù)中的每個(gè)對(duì)象歸屬于這個(gè)類(lèi),并把數(shù)據(jù)分配到這個(gè)給定類(lèi)中。通過(guò)分析訓(xùn)練集中的數(shù)據(jù),準(zhǔn)確描述每個(gè)類(lèi)別,并進(jìn)行建模、挖掘分類(lèi)規(guī)則,并依據(jù)該分類(lèi)規(guī)則,劃分其他數(shù)據(jù)庫(kù)中的數(shù)據(jù)類(lèi)別。聚類(lèi)分析是非監(jiān)督學(xué)習(xí),不依靠預(yù)先定義的類(lèi)和帶類(lèi)標(biāo)號(hào)的訓(xùn)練數(shù)據(jù)集,實(shí)體對(duì)象集合依照某種相似性度量原則,歸納為若干個(gè)類(lèi)似實(shí)體對(duì)象組成的多個(gè)類(lèi)或簇的過(guò)程,不同類(lèi)中的數(shù)據(jù)盡可能存在差異,同類(lèi)中的數(shù)據(jù)之間各個(gè)數(shù)據(jù)盡可能相似。

存在大量數(shù)據(jù)的數(shù)據(jù)庫(kù)中,數(shù)據(jù)中存在著偏差,而在偏差中也包括了大量的知識(shí)。偏差分析是當(dāng)數(shù)據(jù)庫(kù)中存在異常行為,就顯示出要采取預(yù)防措施;否則,正常的變化,則需要更新數(shù)據(jù)庫(kù)中的記錄[4]。

3 數(shù)據(jù)挖掘方法

要的數(shù)據(jù)挖掘方法包括決策樹(shù)、遺傳算法、人工神經(jīng)網(wǎng)絡(luò)、近鄰算法和規(guī)則推導(dǎo)等。通過(guò)描述和可視化來(lái)對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行表示。

決策樹(shù)是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法。著決策集的樹(shù)形結(jié)構(gòu)代表決策樹(shù),樹(shù)型結(jié)構(gòu)表示分類(lèi)或決策集合。決策樹(shù)是采用自頂向下的遞歸方式,樹(shù)的非終端節(jié)點(diǎn)表示屬性,葉節(jié)點(diǎn)表示所屬的不同類(lèi)別。

遺傳算法是基于種群“多樣性”和“優(yōu)勝劣汰”原則等進(jìn)化理論,模擬生物進(jìn)化過(guò)程的全局優(yōu)化方法,將群體中將較劣的初始解通過(guò)復(fù)制、交叉和變異3個(gè)基本算子優(yōu)化求解的技術(shù),在求解空間隨機(jī)和定向搜索特征的多次迭代過(guò)程,直到求得問(wèn)題的最優(yōu)解[5]。

人工神經(jīng)網(wǎng)絡(luò)對(duì)人腦神經(jīng)元進(jìn)行模擬,依據(jù)其非線形預(yù)測(cè)模型,通過(guò)模式識(shí)別的方式展開(kāi),獲取的知識(shí)需要存儲(chǔ)在網(wǎng)絡(luò)各單元之間的連接權(quán)中。人工神經(jīng)網(wǎng)絡(luò)能夠完成分類(lèi)和聚類(lèi)等挖掘[5]。

關(guān)聯(lián)規(guī)則是進(jìn)行數(shù)據(jù)挖掘的重要的可悲發(fā)現(xiàn)的知識(shí),對(duì)于兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,并對(duì)其進(jìn)行可信度的分析,挖掘其中的關(guān)聯(lián)關(guān)系。這對(duì)于發(fā)現(xiàn)數(shù)據(jù)中存在的各種有用的信息,發(fā)現(xiàn)其數(shù)據(jù)模式和特征,然后發(fā)現(xiàn)目標(biāo)行為具有重要意義。

4 數(shù)據(jù)挖掘的應(yīng)用

在醫(yī)學(xué)領(lǐng)域,科學(xué)家從異構(gòu)和分布式基因數(shù)據(jù)發(fā)現(xiàn)的基因序列的識(shí)別、發(fā)現(xiàn)基因表達(dá)譜數(shù)據(jù)中的差異表達(dá)基因,疾病不同階段的致病基因等,運(yùn)用各種數(shù)據(jù)挖掘技術(shù)了解各種疾病之間的相互關(guān)系、發(fā)展規(guī)律,總結(jié)治療效果這對(duì)疾病的診斷、治療和醫(yī)學(xué)研究都是很有價(jià)值的。在零售業(yè)/市場(chǎng)營(yíng)銷(xiāo),通過(guò)對(duì)顧客購(gòu)物籃的分析,把顧客經(jīng)常同時(shí)買(mǎi)的商品放在一起,幫助如何擺放貨架上的商品,挖掘購(gòu)買(mǎi)商品的關(guān)聯(lián)關(guān)系,規(guī)劃如何相互搭配進(jìn)貨,促銷(xiāo)產(chǎn)品組合等商業(yè)活動(dòng)[6]。

數(shù)據(jù)挖掘在生物信息學(xué)中有著廣泛的應(yīng)用。生物信息學(xué)就是通過(guò)對(duì)生物學(xué)實(shí)驗(yàn)產(chǎn)生的海量數(shù)據(jù),進(jìn)行分類(lèi)、處理、分析和存儲(chǔ),達(dá)到深入理解生命科學(xué)中基于分子水平的生物信息的生物學(xué)意義。如差異基因表達(dá)檢測(cè)的基因芯片,就是具有高通量的特點(diǎn),并同時(shí)能夠產(chǎn)生許多生物學(xué)數(shù)據(jù),在其中蘊(yùn)含著豐富的生物學(xué)意義。分析和挖掘基因芯片數(shù)據(jù),檢測(cè)差異表達(dá)基因在不同環(huán)境條件的異常表達(dá)值,能夠生層次的了解生物學(xué)知識(shí),提高對(duì)生命科學(xué)研究的科學(xué)性和效率。對(duì)癌癥差異基因的分析結(jié)果分析,能夠更好的檢測(cè)有關(guān)疾病,并根據(jù)相關(guān)疾病的基因特性,就能有針對(duì)性的進(jìn)行個(gè)體化治療,開(kāi)發(fā)個(gè)體化的新藥。

進(jìn)入2013年,有許多媒體都在稱(chēng)之為“大數(shù)據(jù)元年”。大數(shù)據(jù)也就是擁有龐大的數(shù)據(jù)信息,事務(wù)數(shù)據(jù)量大規(guī)模增長(zhǎng),而且大數(shù)據(jù)是要處理大量的非規(guī)范化數(shù)據(jù),數(shù)據(jù)挖掘和分析是必不可少的。爆炸性的大數(shù)據(jù)的產(chǎn)生,可能會(huì)改變?nèi)藗兊乃伎挤绞剑仓厮芰巳祟?lèi)交流的方式[7]。

5 結(jié)語(yǔ)

數(shù)據(jù)挖掘技術(shù)能自動(dòng)分析數(shù)據(jù),廣泛應(yīng)用于各個(gè)企事業(yè)單位,分析調(diào)查大量數(shù)據(jù),分析企業(yè)經(jīng)營(yíng)對(duì)社會(huì),經(jīng)濟(jì)和環(huán)境的綜合影響,并預(yù)測(cè)企業(yè)未來(lái)的發(fā)展趨勢(shì),從數(shù)據(jù)倉(cāng)庫(kù)中揭示出數(shù)據(jù)之間的潛在價(jià)值的規(guī)律性,形成知識(shí)發(fā)現(xiàn),為決策管理提供依據(jù)。

參考文獻(xiàn)

[1] 孟曉明.淺談數(shù)據(jù)挖掘技術(shù)[J].計(jì)算機(jī)應(yīng)用與軟件,2004(8).

[2] 丁樣武,楊瑩.數(shù)據(jù)挖掘在醫(yī)學(xué)上的應(yīng)川[J].鄖陽(yáng)醫(yī)學(xué)院學(xué)報(bào),1999(3):130-132.

[3] 黃曉霞,蕭蘊(yùn)詩(shī).數(shù)據(jù)挖掘集成技術(shù)研究[J].計(jì)算機(jī)應(yīng)用研究,2003(4):37.39.

[4] 王陽(yáng),張春華.數(shù)據(jù)挖掘技術(shù)、應(yīng)用及發(fā)展趨勢(shì)[J].信息化與網(wǎng)絡(luò)建設(shè),2003(4).

[5] 任承業(yè).校園信息系統(tǒng)中數(shù)據(jù)挖掘的研究與應(yīng)用[D].廣州:暨南大學(xué),2005.

第2篇:數(shù)據(jù)挖掘范文

數(shù)據(jù)挖掘的做法和意思如下:

1、數(shù)據(jù)挖掘通常需要有信息收集、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)挖掘?qū)嵤┻^(guò)程、模式評(píng)估和知識(shí)表示8個(gè)步驟。

2、數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專(zhuān)家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。

(來(lái)源:文章屋網(wǎng) )

第3篇:數(shù)據(jù)挖掘范文

【 關(guān)鍵詞 】 隱私保護(hù);數(shù)據(jù)挖掘;數(shù)據(jù)擾動(dòng);多方安全計(jì)算

A Survey of Privacy Preserving Data Mining

Li Zhan-yu Zhu Jian-ming

(School of Information, Central University of Finance and Economics Beijing 100081)

【 Abstract 】 With the development of E-commerce and E-government, and deepening use of the data mining technology, the problem of privacy preservation becomes one of the key factors in data mining. In this dissertation, we briefly introduce the history and current situation of Privacy Preserving Data Mining (PPDM). Some basic concepts, characters, classifications and research results related to PPDM are presented. In addition, we exhibit PPDM technology in data perturbation and secure multi-party computation respectively, pointing out the research area in the future.

【 Keywords 】 privacy preservation; data mining; data perturbation; secure multi-party computation

1 引言

數(shù)據(jù)挖掘隱私保護(hù)(Privacy Preserving Data Mining,簡(jiǎn)稱(chēng)PPDM)是關(guān)于隱私和安全研究的熱點(diǎn)問(wèn)題之一。數(shù)據(jù)挖掘的過(guò)程,就是自動(dòng)發(fā)現(xiàn)高層次的數(shù)據(jù)或隱藏在其中的模式。在數(shù)據(jù)挖掘中,假設(shè)所有數(shù)據(jù)都是容易獲取的,并且存儲(chǔ)在一個(gè)中心位置,或通過(guò)集中的訪問(wèn)機(jī)制存儲(chǔ)在聯(lián)合數(shù)據(jù)庫(kù)、虛擬數(shù)據(jù)倉(cāng)庫(kù)中。然而,這些數(shù)據(jù)有時(shí)候分布在眾多的參與者中。出于隱私保護(hù)、法律要求和商業(yè)上的考慮,參與者們可能不會(huì)直接共享某些敏感數(shù)據(jù)。敏感數(shù)據(jù)通常涉及到個(gè)人的健康信息、金融方面的隱私等。參與者怎樣在保護(hù)隱私的情況下進(jìn)行數(shù)據(jù)挖掘成為一個(gè)巨大的挑戰(zhàn)。這個(gè)問(wèn)題的產(chǎn)生并不是源于數(shù)據(jù)挖掘本身,而是進(jìn)行數(shù)據(jù)挖掘的方式。本文主要介紹數(shù)據(jù)挖掘隱私保護(hù)方面的研究現(xiàn)狀。

隨著電子商務(wù)、電子政務(wù)的發(fā)展以及越來(lái)越多的個(gè)人數(shù)據(jù)在線交換,數(shù)據(jù)隱私成為全社會(huì)關(guān)注的重要問(wèn)題之一。無(wú)論是國(guó)家層面,還是商業(yè)交易層面,在數(shù)據(jù)使用方面的未授權(quán)訪問(wèn)是隱私保護(hù)中的主要問(wèn)題。在數(shù)據(jù)庫(kù)中,數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)就是從大量的數(shù)據(jù)中自動(dòng)的提取未知的模式。現(xiàn)如今,企業(yè)和政府機(jī)構(gòu)都收集了大量的數(shù)據(jù),這自然導(dǎo)致了隱私保護(hù)方面的問(wèn)題。因此,在數(shù)據(jù)挖掘者收集到大量隱私數(shù)據(jù)之后,為了防止隱私信息的披露,這些數(shù)據(jù)必須要以不同的方式進(jìn)行擾亂,但同時(shí)又要保留數(shù)據(jù)中所包含的有價(jià)值的模式。隨著追蹤技術(shù)的發(fā)展,隱私保護(hù)在很多領(lǐng)域都成為重要問(wèn)題?;谏鲜銮闆r,人們開(kāi)始在“數(shù)據(jù)挖掘隱私保護(hù)”的框架下提出各種特殊的數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘隱私保護(hù)(Privacy Preserving Data Mining,簡(jiǎn)稱(chēng)PPDM)研究的目的,就是尋找在不破壞個(gè)體隱私的情況下進(jìn)行數(shù)據(jù)挖掘的技術(shù)。近年來(lái),數(shù)據(jù)挖掘隱私保護(hù)問(wèn)題成為研究的熱點(diǎn)。

隱私保護(hù)數(shù)據(jù)挖掘的研究可以分為兩個(gè)方面。第一個(gè)方面是數(shù)據(jù)公布,也就是在隱私數(shù)據(jù)公布給數(shù)據(jù)挖掘者之前進(jìn)行數(shù)據(jù)變換,把隱私隱藏起來(lái)。第二個(gè)方面是修改數(shù)據(jù)挖掘的算法,進(jìn)行分布式數(shù)據(jù)挖掘,這樣隱私的信息就不會(huì)透露給其他的參與者。

PPDM研究的目的是消除合作的數(shù)據(jù)挖掘與數(shù)據(jù)機(jī)密性之間的隔閡。這涉及到許多領(lǐng)域,例如統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、社會(huì)科學(xué)等。這對(duì)于國(guó)家安全、現(xiàn)代科學(xué)和我們的社會(huì)具有根本的重要性。

隱私的暴露包括兩個(gè)級(jí)別:身份信息暴露和價(jià)值信息暴露。身份信息暴露涉及到在數(shù)據(jù)庫(kù)中暴露個(gè)體的身份信息,而價(jià)值信息暴露涉及到暴露個(gè)體的某些機(jī)密的屬性。表1是n個(gè)顧客原始個(gè)人信息的情況,包含了各種屬性。毫無(wú)疑問(wèn)的是,身份信息(例如姓名Name、社會(huì)保險(xiǎn)號(hào)SSN)應(yīng)該在數(shù)據(jù)公布之前隱藏起來(lái)。然而,一些范疇屬性(例如郵政編碼Zip、種族Race、性別Gender)連接到某些公共數(shù)據(jù)庫(kù)時(shí),也可以用來(lái)識(shí)別個(gè)人隱私。這些屬性被稱(chēng)為準(zhǔn)識(shí)別碼。有很多研究都是關(guān)于預(yù)防身份暴露的,例如著名的統(tǒng)計(jì)披露控制(SDC)方法、k-匿名方法。為了防止價(jià)值信息披露,許多基于隨機(jī)化的方法被提出來(lái)。

數(shù)據(jù)挖掘中的隱私問(wèn)題于20世紀(jì)90年代開(kāi)始研究。在過(guò)去的幾年中,越來(lái)越多的成功技術(shù)被提出來(lái),這些技術(shù)可以在保護(hù)隱私的條件下獲得有效的數(shù)據(jù)挖掘結(jié)果。

第4篇:數(shù)據(jù)挖掘范文

關(guān)鍵詞:數(shù)據(jù)挖掘;應(yīng)用;發(fā)展

1數(shù)據(jù)挖掘技術(shù)的概述

數(shù)據(jù)挖掘是通過(guò)對(duì)各種數(shù)據(jù)信息進(jìn)行有選擇的統(tǒng)計(jì)、歸類(lèi)以及分析等挖掘隱含的有用的信息,從而為實(shí)踐應(yīng)用提出有用的決策信息的過(guò)程。通俗的說(shuō)數(shù)據(jù)挖掘就是一種借助于多種數(shù)據(jù)分析工具在海量的數(shù)據(jù)信息中挖掘模數(shù)據(jù)信息和模型之間關(guān)系的技術(shù)總裁,通過(guò)對(duì)這種模型進(jìn)行認(rèn)識(shí)和理解,分析它們的對(duì)應(yīng)關(guān)系,以此來(lái)指導(dǎo)各行各業(yè)的生產(chǎn)和發(fā)展,提供重大決策上的支持。數(shù)據(jù)挖掘技術(shù)是對(duì)海量數(shù)據(jù)信息的統(tǒng)計(jì)、分析等因此數(shù)據(jù)挖掘技術(shù)呈現(xiàn)以下特點(diǎn):一是數(shù)據(jù)挖掘技術(shù)主要是借助各種其它專(zhuān)業(yè)學(xué)科的知識(shí),從而建立挖掘模型,設(shè)計(jì)相應(yīng)的模型算法,從而找出其中的潛在規(guī)律等,揭示其中的內(nèi)在聯(lián)系性;二是數(shù)據(jù)挖掘主要是處理各行數(shù)據(jù)庫(kù)中的信息,因此這些信息是經(jīng)過(guò)預(yù)處理的;三是以構(gòu)建數(shù)據(jù)模型的方式服務(wù)于實(shí)踐應(yīng)用。當(dāng)然數(shù)據(jù)挖掘并不是以發(fā)現(xiàn)數(shù)據(jù)理論為目的,而是為了在各行各業(yè)的信息中找出有用的數(shù)據(jù)信息,滿(mǎn)足用戶(hù)的需求。

2數(shù)據(jù)挖掘的功能

結(jié)合數(shù)據(jù)挖掘技術(shù)的概述,數(shù)據(jù)挖掘主要具體以下功能:一是自動(dòng)預(yù)測(cè)趨勢(shì)和行為。數(shù)據(jù)挖掘主要是在復(fù)雜的數(shù)據(jù)庫(kù)中尋找自己有用的信息,以往的信息搜索需要采取手工分析的方式,如今通過(guò)數(shù)據(jù)挖掘可以快速的將符合數(shù)據(jù)本身的數(shù)據(jù)找出來(lái);二是關(guān)聯(lián)分析。關(guān)聯(lián)性就是事物之間存在某種的聯(lián)系性,這種事物必須要在兩種以上,數(shù)據(jù)關(guān)聯(lián)是在復(fù)雜的數(shù)據(jù)中存在一類(lèi)重要的可被發(fā)現(xiàn)的知識(shí);三是概念描述。概念描述分為特征性描述和區(qū)別性描述;四是偏差檢測(cè)。

3數(shù)據(jù)挖掘技術(shù)的步驟分析

3.1處理過(guò)程

數(shù)據(jù)挖掘雖然能夠?qū)崿F(xiàn)在復(fù)雜的數(shù)據(jù)庫(kù)中尋求自己的數(shù)據(jù)資源,但是其需要建立人工模型,根據(jù)人工模型實(shí)現(xiàn)對(duì)數(shù)據(jù)的統(tǒng)計(jì)、分析以及利用等。

3.2關(guān)鍵技術(shù)

由于數(shù)據(jù)挖掘涉及到很多專(zhuān)業(yè)學(xué)科,因此相對(duì)來(lái)說(shuō),數(shù)據(jù)挖掘技術(shù)融合多門(mén)專(zhuān)業(yè)技術(shù)學(xué)科的知識(shí),結(jié)合實(shí)踐,數(shù)據(jù)挖掘技術(shù)主要應(yīng)用到以下算法和模型:一是傳統(tǒng)統(tǒng)計(jì)方法。采取傳統(tǒng)的統(tǒng)計(jì)方法主要有抽樣技術(shù),也就是采取相應(yīng)的策略對(duì)數(shù)據(jù)進(jìn)行合理的抽樣。多元化統(tǒng)計(jì)和統(tǒng)計(jì)預(yù)測(cè)方法;二是可視化技術(shù),可視化技術(shù)是數(shù)據(jù)挖掘技術(shù)的熱點(diǎn),它是采取可視化技術(shù)與數(shù)據(jù)挖掘過(guò)程的結(jié)合,以直觀的圖形等使人們更好地進(jìn)行數(shù)據(jù)挖掘技術(shù);三是決策樹(shù)。決策樹(shù)需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行幾遍的掃描之后,才能完成,因此其在具體的處理過(guò)程中可能會(huì)包括很多的預(yù)測(cè)變量情況;四是4)聚類(lèi)分析方法。聚類(lèi)分析方法是一種非參數(shù)分析方法,主要用于分析樣本分組中多維數(shù)據(jù)點(diǎn)間的差異和聯(lián)系。判別分析法需要預(yù)先設(shè)定一個(gè)指針變量,假設(shè)總體為正太分布,必須嚴(yán)格遵守?cái)?shù)理依據(jù)。而聚類(lèi)分析則沒(méi)有這些假設(shè)和原則,只需要通過(guò)搜集數(shù)據(jù)和轉(zhuǎn)換成相似矩陣兩個(gè)步驟,就能完成聚類(lèi)分析的全過(guò)程。聚類(lèi)分析主要用于獲取數(shù)據(jù)的分布情況,能夠簡(jiǎn)單方便的發(fā)現(xiàn)全局的分布模式,識(shí)別出密集和系數(shù)區(qū)域;此外,對(duì)于單個(gè)類(lèi)的分析也有很強(qiáng)的處理能力,能深入分析每個(gè)類(lèi)的特征,并找出變量和類(lèi)之間的內(nèi)在聯(lián)系?;诰嚯x、層次、密度和網(wǎng)絡(luò)的方法是最常用的聚類(lèi)分析方法。

4數(shù)據(jù)挖掘技術(shù)的實(shí)踐應(yīng)用

數(shù)據(jù)挖掘技術(shù)雖然在我國(guó)發(fā)展的時(shí)間還不長(zhǎng),但是其在實(shí)踐中的應(yīng)用已經(jīng)非常的廣泛,因?yàn)閿?shù)據(jù)挖掘技術(shù)在實(shí)踐中的應(yīng)用價(jià)值是非常大的,其可以提取隱藏在數(shù)據(jù)背后的有用信息,具體來(lái)看,其主要應(yīng)用在:(1)在醫(yī)學(xué)上的應(yīng)用。人體的奧秘是無(wú)窮無(wú)盡的,人類(lèi)遺傳密碼的信息、人類(lèi)疾病史和治療方法等,都隱含了大量數(shù)據(jù)信息。采用數(shù)據(jù)挖掘來(lái)解決這些問(wèn)題,將給相關(guān)工作者的工作帶來(lái)很大方便。此外,醫(yī)院內(nèi)部醫(yī)藥器具的管理、病人檔案資料的整理、醫(yī)院內(nèi)部結(jié)構(gòu)的管理等,也是龐大的數(shù)據(jù)庫(kù)。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于醫(yī)學(xué)領(lǐng)域,深入分析人類(lèi)疾病間的內(nèi)在聯(lián)系和規(guī)律,幫助醫(yī)生進(jìn)行診斷和治療,能夠有效提高醫(yī)生診斷的準(zhǔn)確率,對(duì)人類(lèi)的健康和醫(yī)療事業(yè)的發(fā)展有十分重要的作用。(2)在電信業(yè)中的應(yīng)用。隨著三網(wǎng)融合技術(shù)的不斷發(fā)展,傳統(tǒng)的電信業(yè)務(wù)已經(jīng)不能滿(mǎn)足當(dāng)前社會(huì)發(fā)展的需求,而是側(cè)重通信、圖像以及網(wǎng)絡(luò)等業(yè)務(wù)的融合,而實(shí)現(xiàn)“三網(wǎng)融合”的關(guān)鍵技術(shù)是實(shí)現(xiàn)對(duì)數(shù)據(jù)的分析與統(tǒng)計(jì),因?yàn)槿W(wǎng)融合會(huì)帶來(lái)更多的數(shù)據(jù),這些數(shù)據(jù)都需要充分的挖掘,以此實(shí)現(xiàn)“三網(wǎng)融合”戰(zhàn)略的實(shí)現(xiàn)。將數(shù)據(jù)挖掘技術(shù)與電信業(yè)務(wù)有效的結(jié)合起來(lái),能夠提高資源利用率,更深入的了解用戶(hù)的行為,促進(jìn)電信業(yè)務(wù)的推廣,幫助各行各業(yè)獲取更大的經(jīng)濟(jì)效益。(3)在高校貧困生管理的應(yīng)用。貧困生管理分析系統(tǒng)主要應(yīng)用了數(shù)據(jù)倉(cāng)庫(kù)技術(shù)以及數(shù)據(jù)挖掘技術(shù),其主要是將高校貧困生的各種信息統(tǒng)一納入到高校信息管理平臺(tái)中,然后根據(jù)具體的貧困生劃分標(biāo)準(zhǔn),建立模型,進(jìn)而對(duì)學(xué)生的信息進(jìn)行統(tǒng)計(jì)與分析,實(shí)現(xiàn)對(duì)貧困生信息的科學(xué)管理,便于高校管理者及時(shí)了解學(xué)生的信息。

5結(jié)語(yǔ)

總之?dāng)?shù)據(jù)挖掘技術(shù)在實(shí)踐中的廣泛應(yīng)用,為我國(guó)互聯(lián)網(wǎng)+戰(zhàn)略提供了關(guān)鍵技術(shù)支撐,但是由于數(shù)據(jù)挖掘技術(shù)在實(shí)踐中還存在某些技術(shù)問(wèn)題,比如各種模型和技術(shù)難于集成、缺少與數(shù)據(jù)庫(kù)系統(tǒng)耦合的通用API或挖掘系統(tǒng)僅提供孤立的知識(shí)發(fā)現(xiàn)功能,難于嵌入大型應(yīng)用等問(wèn)題導(dǎo)致挖掘技術(shù)在實(shí)踐中的應(yīng)用還存在缺陷,因此需要我們加大對(duì)數(shù)據(jù)挖掘技術(shù)的進(jìn)一步研究,以此更好地實(shí)現(xiàn)“互聯(lián)網(wǎng)+”戰(zhàn)略。

作者:陳建偉 李麗坤 單位:安陽(yáng)職業(yè)技術(shù)學(xué)院

參考文獻(xiàn)

第5篇:數(shù)據(jù)挖掘范文

空間數(shù)據(jù)挖掘方法在測(cè)繪實(shí)際生產(chǎn)領(lǐng)域具有良好的運(yùn)用前景,特別是在“數(shù)字地球”的應(yīng)用中初見(jiàn)成效。從數(shù)據(jù)挖掘及空間數(shù)據(jù)挖掘的定義入手,分析研究數(shù)據(jù)挖掘及空間數(shù)據(jù)挖掘現(xiàn)狀,探討對(duì)空間數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘的方法。

關(guān)鍵詞:

空間數(shù)據(jù)挖掘;數(shù)字城市;空間信息學(xué)

1引言

上世紀(jì)60年代,隨著數(shù)據(jù)庫(kù)的產(chǎn)生及大量原形數(shù)據(jù)庫(kù)的建設(shè),人們對(duì)數(shù)據(jù)庫(kù)的研究熱情不斷加強(qiáng),對(duì)數(shù)據(jù)庫(kù)技術(shù)的研究也不斷深入。上世紀(jì)70年代,研究人員已經(jīng)把研究的視角從層次、網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的方向轉(zhuǎn)向了關(guān)系數(shù)據(jù)庫(kù),大力發(fā)展了數(shù)據(jù)庫(kù)建模工具、數(shù)據(jù)庫(kù)索引及其他分析工具等。進(jìn)入上世紀(jì)80年代,研究者已經(jīng)能夠在數(shù)據(jù)模型分析方面,譬如基于對(duì)象的模型、基于演繹的模型數(shù)據(jù)庫(kù)等等都得到廣泛應(yīng)用及深入研究。而后隨著互聯(lián)網(wǎng)的不斷發(fā)展,數(shù)據(jù)庫(kù)技術(shù)的更新也日新月異。但是,數(shù)據(jù)庫(kù)技術(shù)的發(fā)展隨之也進(jìn)入一個(gè)體量越來(lái)越大了、信息獲取難度不斷增加的程度。特別在于,獲取能夠運(yùn)用于決策層的關(guān)鍵信息卻沒(méi)有隨著數(shù)據(jù)庫(kù)本身的體量擴(kuò)大而進(jìn)一步增加。因而針對(duì)數(shù)據(jù)庫(kù)的信息分析與數(shù)據(jù)挖掘的研究進(jìn)入研究者的視野。進(jìn)而,開(kāi)發(fā)能夠從超大體量的數(shù)據(jù)庫(kù)資源中獲取我們所需的關(guān)鍵信息的技術(shù)工具成為數(shù)據(jù)庫(kù)研究人員的一個(gè)重要方向,數(shù)據(jù)挖掘技術(shù)進(jìn)入了一個(gè)全新的時(shí)代,數(shù)據(jù)挖掘技術(shù)是一個(gè)針對(duì)數(shù)據(jù)庫(kù)本體的研究手段,從數(shù)據(jù)庫(kù)本體中發(fā)掘高效的有用信息,從而減少了數(shù)據(jù)資源的采集工作,增加了數(shù)據(jù)資源的利用效率。

2數(shù)據(jù)挖掘與空間數(shù)據(jù)挖掘的定義與研究現(xiàn)狀

數(shù)據(jù)挖掘,又譯為資料探勘、數(shù)據(jù)采礦。如圖1所示,即是一個(gè)典型的數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)圖。數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)中的一個(gè)步驟。所謂KDD是在1989年于美國(guó)密歇根州底特律市舉行的第11屆國(guó)際聯(lián)合人工智能學(xué)術(shù)會(huì)議上提出來(lái)的一種新型的技術(shù)手段。KDD是一個(gè)“從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)隱含的、先前不知道的、潛在有用的信息的非平凡過(guò)程”[1]。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專(zhuān)家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)[2]?,F(xiàn)階段,數(shù)據(jù)挖掘系統(tǒng)已經(jīng)發(fā)展了四代,第一代數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)相對(duì)簡(jiǎn)單,一般運(yùn)用一個(gè)或者幾個(gè)算法,僅用來(lái)挖掘向量數(shù)據(jù),而且在進(jìn)行數(shù)據(jù)挖掘的工作是,一般一次性調(diào)進(jìn)內(nèi)存進(jìn)行處理。第二代數(shù)據(jù)挖掘系統(tǒng)能夠支持大體量的數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù),一般是針對(duì)數(shù)據(jù)庫(kù)的接口進(jìn)行設(shè)計(jì),對(duì)數(shù)據(jù)庫(kù)中的眾多數(shù)據(jù)模型能夠良好支持并擁有較強(qiáng)的高維數(shù)據(jù)、大數(shù)據(jù)集、復(fù)雜數(shù)據(jù)集的挖掘能力。第三代數(shù)據(jù)挖掘系統(tǒng)則能夠?qū)W(wǎng)絡(luò)數(shù)據(jù)、高度異質(zhì)的數(shù)據(jù)進(jìn)行挖掘工作,這代數(shù)據(jù)挖掘系統(tǒng)的關(guān)鍵技術(shù)在于能夠?qū)Ξ愘|(zhì)數(shù)據(jù)進(jìn)行相對(duì)復(fù)雜的預(yù)言模型構(gòu)建及管理這些預(yù)言模型的元數(shù)據(jù)。第四代數(shù)據(jù)挖掘系統(tǒng)則是在一定程度上對(duì)移動(dòng)系統(tǒng)、嵌入式系統(tǒng)、甚至普遍存在的數(shù)據(jù)進(jìn)行復(fù)雜程度更高的數(shù)據(jù)挖掘工作。如圖2所示,四代數(shù)據(jù)挖掘系統(tǒng)的特征與相關(guān)信息。從數(shù)據(jù)挖掘的定義我們可以很容易得到空間數(shù)據(jù)挖掘的定義的關(guān)鍵所在:即針對(duì)空間數(shù)據(jù)庫(kù)的探索,發(fā)現(xiàn)空間數(shù)據(jù)庫(kù)的中隱含的、用戶(hù)感興趣的或者是空間數(shù)據(jù)模式亦或者是非空間數(shù)據(jù)模式的一種數(shù)據(jù)挖掘技術(shù)。隨著研究人員對(duì)空間數(shù)據(jù)庫(kù)及數(shù)據(jù)挖掘技術(shù)的不斷深入研究,空間數(shù)據(jù)挖掘技術(shù)取得了長(zhǎng)足的進(jìn)步。這里以加拿大SimonFraser大學(xué)開(kāi)發(fā)的數(shù)據(jù)挖掘軟件DBMiner中的空間數(shù)據(jù)挖掘擴(kuò)展模塊———GeoMiner為例,GeoMiner系統(tǒng)包含三大子模塊,分別是空間數(shù)據(jù)立方體構(gòu)建模塊、空間聯(lián)機(jī)分析處理模塊及空間數(shù)據(jù)挖掘模塊。GeoMiner系統(tǒng)采用人機(jī)交互式挖掘模式,在完成數(shù)據(jù)挖掘工作后能夠即時(shí)顯示挖掘結(jié)果。GeoMiner系統(tǒng)已經(jīng)能夠在一定程度上實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)挖掘工作,但其實(shí)現(xiàn)過(guò)程仍需要工作人員的不斷干預(yù),因而在自動(dòng)化方面是研究人員未來(lái)重要的探索方向。

3空間數(shù)據(jù)挖掘常見(jiàn)算法空間

數(shù)據(jù)挖掘方法按功能的方式可以分為:描述、解釋、預(yù)測(cè)。下面介紹幾類(lèi)常用的空間數(shù)據(jù)挖掘算法[3]:

1)基于概率論的方法基于概率論的方法這里主要是指通過(guò)計(jì)算不確定性屬性的概率來(lái)對(duì)空間數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘的方法。

2)空間分析方法空間分析方法是指采用綜合屬性數(shù)據(jù)分析、拓?fù)浞治觥⒕彌_區(qū)分析、密度分析、距離分析、疊置分析、網(wǎng)絡(luò)分析、地形分析、趨勢(shì)面分析、預(yù)測(cè)分析等在內(nèi)的分析模型和方法,用以發(fā)現(xiàn)目標(biāo)在空間上的相連、相鄰和共生等關(guān)聯(lián)規(guī)則,或挖掘出目標(biāo)之間的最短路徑、最優(yōu)路徑等。

3)統(tǒng)計(jì)分析方法統(tǒng)計(jì)分析方法則主要表現(xiàn)在通過(guò)對(duì)空間對(duì)象的信息采用統(tǒng)計(jì)學(xué)的方法進(jìn)行評(píng)估、預(yù)測(cè)等方式進(jìn)行數(shù)據(jù)挖掘。

4)歸納學(xué)習(xí)方法歸納學(xué)習(xí)方法即運(yùn)用一定的知識(shí)背景的手段,分析提取空間數(shù)據(jù)庫(kù)中的隱含的相關(guān)數(shù)據(jù)。

5)空間關(guān)聯(lián)規(guī)則挖掘方法關(guān)聯(lián)規(guī)則挖掘方法即運(yùn)用空間數(shù)據(jù)庫(kù)中的數(shù)據(jù)關(guān)聯(lián)規(guī)律分析其一般的規(guī)則和運(yùn)行模式。

6)聚類(lèi)分析方法聚類(lèi)分析方法即根據(jù)空間實(shí)體特征的一般性總結(jié)整個(gè)空間的分布規(guī)律及其典型運(yùn)行模式的方法。

7)神經(jīng)網(wǎng)絡(luò)方法神經(jīng)網(wǎng)絡(luò)方法則是通過(guò)構(gòu)建神經(jīng)元網(wǎng)絡(luò)的方法來(lái)實(shí)現(xiàn)適應(yīng)非線性動(dòng)態(tài)系統(tǒng),從而構(gòu)建其分布存儲(chǔ)、聯(lián)想記憶等功能,并使得系統(tǒng)具有自行學(xué)習(xí)、并行處理的能力。

8)決策樹(shù)方法決策樹(shù)方法采用的是一種基于樹(shù)形表示分類(lèi)結(jié)構(gòu)的方法,從中發(fā)現(xiàn)規(guī)律,進(jìn)而展示規(guī)則的數(shù)據(jù)挖掘算法方案。

9)基于模糊集合論的方法基于模糊集合論的方法主要是利用模糊集合理論中描述帶有不確定性的研究對(duì)象來(lái)對(duì)實(shí)際的不確定性問(wèn)題進(jìn)行處理的手段與方法。

10)基于云理論的方法基于云理論的方法,主要是利用云理論中關(guān)于云模型及不確定性的研究方法對(duì)空間數(shù)據(jù)進(jìn)行定性分析及定量計(jì)算結(jié)合處置的方法。

11)遺傳算法遺傳算法則是一種基于生物進(jìn)化理論的數(shù)據(jù)挖掘算法,該算法突出的表現(xiàn)在對(duì)空間數(shù)據(jù)的高效并行計(jì)算及在處置過(guò)程中的自動(dòng)獲取知識(shí)、積累相關(guān)參數(shù)并實(shí)時(shí)適應(yīng)挖掘過(guò)程從而得出最優(yōu)的處理方案。除了以上算法之外,常用的還有數(shù)據(jù)可視化方法、計(jì)算幾何方法、空間在線數(shù)據(jù)挖掘等等方法,均在一定程度上可以對(duì)空間數(shù)據(jù)挖掘產(chǎn)生有利作用。

4小結(jié)

從以上的各種方法分析,我們可以看到數(shù)據(jù)挖掘工作對(duì)空間數(shù)據(jù)利用非常重要。空間數(shù)據(jù)的體量及其大,數(shù)據(jù)結(jié)構(gòu)及其復(fù)雜,通過(guò)簡(jiǎn)單的方式根本不能對(duì)空間數(shù)據(jù)的關(guān)鍵信息資源進(jìn)行利用,只有通過(guò)空間數(shù)據(jù)挖掘的方法,才可以在更加直觀的、立體的平臺(tái)上對(duì)空間數(shù)據(jù)進(jìn)行廣泛而有效的利用。

參考文獻(xiàn):

[1]百度百科《KDD》

[2]百度百科《數(shù)據(jù)挖掘》

第6篇:數(shù)據(jù)挖掘范文

數(shù)據(jù)挖掘技術(shù)是延伸和擴(kuò)展了傳統(tǒng)分析方法,可以發(fā)現(xiàn)傳統(tǒng)分析方法不能發(fā)現(xiàn)的內(nèi)容和規(guī)律,并且它將人們從單調(diào)、枯燥的閱讀專(zhuān)利文獻(xiàn)的工作中解放出來(lái),使用計(jì)算機(jī)代替了人類(lèi)勞動(dòng),這樣不僅提高了效率,而且提升了準(zhǔn)確度。因此,數(shù)據(jù)挖掘作為一個(gè)專(zhuān)利分析的強(qiáng)有力工具被引入到專(zhuān)利分析中來(lái),并且得到快速的發(fā)展應(yīng)用。專(zhuān)利數(shù)據(jù)挖掘流程應(yīng)考慮的問(wèn)題:一是用數(shù)據(jù)挖掘解決什么樣的問(wèn)題;二是為進(jìn)行數(shù)據(jù)挖掘所做的數(shù)據(jù)準(zhǔn)備;三是數(shù)據(jù)挖掘的各種分析算法。故專(zhuān)利數(shù)據(jù)挖掘的一般過(guò)程通常按照以下步驟來(lái)完成:領(lǐng)會(huì)數(shù)據(jù)挖掘的目的,獲取分析所用的數(shù)據(jù)集合,探索、清理和預(yù)處理數(shù)據(jù),選擇要使用的數(shù)據(jù)挖掘技術(shù),使用算法解決問(wèn)題,解釋算法的結(jié)果。而其一般流程可簡(jiǎn)化為三個(gè)階段:數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘結(jié)果解釋和評(píng)價(jià)。本文采用簡(jiǎn)化的流程進(jìn)行實(shí)證分析。

二、石家莊地區(qū)制藥企業(yè)專(zhuān)利數(shù)據(jù)挖掘

本文對(duì)石家莊地區(qū)制藥企業(yè)的專(zhuān)利數(shù)據(jù)進(jìn)行挖掘分析,挖掘?qū)ο笫侨A北制藥集團(tuán)公司、石家莊制藥集團(tuán)有限公司、石家莊神威藥業(yè)股份有限公司、石家莊四藥股份、河北以嶺藥業(yè)股份有限公司、石家莊市華曙制藥集團(tuán)、河北醫(yī)科大學(xué)制藥廠、河北圣雪大成制藥有限責(zé)任公司等地址在石家莊且具有一定代表性的藥企,希望通過(guò)這些藥企數(shù)據(jù)能夠找到石家莊地區(qū)制藥領(lǐng)域的核心組成,并能為藥企更好地發(fā)展提供有力的信息支持。IPC號(hào)是目前權(quán)威的專(zhuān)利技術(shù)主題的標(biāo)識(shí)編碼之一,基本包含了各行各業(yè)的專(zhuān)利信息,是一個(gè)龐大的專(zhuān)利信息體系。目前國(guó)內(nèi)外很多分析方法及技術(shù)大部分是基于專(zhuān)利的IPC分類(lèi)號(hào)來(lái)分析專(zhuān)利技術(shù)主題的,此分析方法有一定的參考價(jià)值和科學(xué)性,而且對(duì)于具有大量專(zhuān)利信息的分析具有很好的總結(jié)概括效果。本文以專(zhuān)利全部IPC號(hào)為分析對(duì)象,并且構(gòu)建IPC號(hào)之間的關(guān)聯(lián)規(guī)則,在最大程度上揭示隱含的專(zhuān)利技術(shù)關(guān)聯(lián)性,從而為石家莊地區(qū)制藥企業(yè)專(zhuān)利技術(shù)的發(fā)展提供參考。

1.數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)來(lái)源的準(zhǔn)確與否是數(shù)據(jù)分析與挖掘的基礎(chǔ),是數(shù)據(jù)分析與挖掘的根本。本文所使用的石家莊地區(qū)制藥領(lǐng)域?qū)@麛?shù)據(jù)由萬(wàn)方數(shù)據(jù)公司提供,以制藥企業(yè)地址為石家莊為檢索條件,搜索出了包括從1985—2014年間石家莊地區(qū)制藥領(lǐng)域?qū)@?44條,分別分布在A、B、C、D、E、F、G、H八個(gè)大部。對(duì)專(zhuān)利數(shù)據(jù)庫(kù)中的644條專(zhuān)利進(jìn)行篩選,根據(jù)“分類(lèi)號(hào)”字段限制,它涉及專(zhuān)利信息的分類(lèi),有些IPC所涉及的范圍與石家莊地區(qū)制藥領(lǐng)域沒(méi)有聯(lián)系或聯(lián)系很小,不宜保留。根據(jù)“申請(qǐng)人(專(zhuān)利權(quán)人)”字段的限制,剔除與石家莊地區(qū)制藥不相關(guān)或制藥企業(yè)地址不在石家莊地區(qū)的專(zhuān)利。最后篩選出590條最符合該領(lǐng)域特點(diǎn)的專(zhuān)利。由于IPC號(hào)在幾乎所有現(xiàn)存數(shù)據(jù)庫(kù)中均是以一個(gè)字段存儲(chǔ)一個(gè)專(zhuān)利的所有IPC分類(lèi)號(hào)的,形如:A61K38/26、A61K9/08、A61K47/12、A61P3/10,且每個(gè)專(zhuān)利一般都有好幾個(gè)分類(lèi)號(hào),而每個(gè)企業(yè)又研究大量的專(zhuān)利,所以在進(jìn)行專(zhuān)利分析之前,需要對(duì)專(zhuān)利IPC號(hào)進(jìn)行數(shù)據(jù)整理。由于過(guò)于細(xì)致的IPC分類(lèi)號(hào)并不利于專(zhuān)利主題的分析與揭示,所以本文中采用專(zhuān)利小類(lèi)分析,就是取IPC號(hào)的前4位。并將申請(qǐng)人與其對(duì)應(yīng)的多條IPC號(hào)進(jìn)行拆分,拆分后的數(shù)據(jù)項(xiàng)有773條,即顯示每個(gè)申請(qǐng)人對(duì)應(yīng)的一條IPC分類(lèi)號(hào)。

2.數(shù)據(jù)挖掘。本文數(shù)據(jù)挖掘過(guò)程將采用Excel和SQLsever2005軟件,首先對(duì)所得到的數(shù)據(jù)導(dǎo)入SQLserver2005進(jìn)行挖掘,利用SQLserver2005可以直接進(jìn)行IPC號(hào)的關(guān)聯(lián)規(guī)則挖掘,然后對(duì)專(zhuān)利信息進(jìn)行分析。

3.數(shù)據(jù)挖掘結(jié)果與分析?;陉P(guān)聯(lián)規(guī)則制作依賴(lài)關(guān)系網(wǎng)絡(luò)圖,可以更加直觀地看到各個(gè)IPC號(hào)之間的關(guān)聯(lián)和依賴(lài)狀態(tài)。

(1)以A61K、C12N、C12P、C07D、C07C為中心的核心專(zhuān)利技術(shù)群。這些專(zhuān)利的IPC分類(lèi)號(hào)是關(guān)鍵部分藥物組成的各種化合物即藥物主要成分的重要聚集組。A61K(醫(yī)用、牙科用等的配置品)是項(xiàng)集次數(shù)最多的,即支持度較高的,C12P(發(fā)酵或使用酶的方法合成目標(biāo)化合物或組合物或從外消旋混合物中分離旋光異構(gòu)體)、C12N(微生物或酶;其組合物)、C07D(雜環(huán)環(huán)合物,例如鄰氯芐星青霉素的合成)、C07C(無(wú)環(huán)和碳環(huán)化合物)通過(guò)專(zhuān)利相關(guān)知識(shí)我們已經(jīng)知道這些都是藥物的合成成分,即土霉素、鏈霉素、青霉素等多種抗生素和維生素的主要成分組成,是制藥領(lǐng)域的核心。這也是和石家莊地區(qū)制藥企業(yè)的核心領(lǐng)域相符合的。另外這些專(zhuān)利主題的相互關(guān)聯(lián)、依賴(lài)說(shuō)明了石家莊地區(qū)制藥企業(yè)在該領(lǐng)域具有很好的布局網(wǎng)絡(luò),在研發(fā)數(shù)量上也占有一定優(yōu)勢(shì),所以說(shuō)是石家莊地區(qū)制藥企業(yè)的主要研究領(lǐng)域。

(2)以B65G、C12M為中心的輔助設(shè)備專(zhuān)利技術(shù)群。藥品的生產(chǎn)離不開(kāi)設(shè)備的支持,所以設(shè)備方面的專(zhuān)利也能體現(xiàn)制藥企業(yè)的技術(shù)水平。在圖1中也能體現(xiàn)出來(lái),專(zhuān)利間有著很強(qiáng)的依賴(lài)性和關(guān)聯(lián)性,在核心專(zhuān)利周邊有B65G(運(yùn)輸或貯存裝置,例如裝載或傾斜用輸送機(jī)、車(chē)間輸送機(jī)系統(tǒng)、氣動(dòng)管道輸送機(jī))、C12M(酶學(xué)或微生物學(xué)裝置),這些是制藥的輔助技術(shù)手段,與中心專(zhuān)利是相互聯(lián)系的,也是制藥過(guò)程中必不可少的,在這些方面的提高有利于制藥核心領(lǐng)域的發(fā)展。先進(jìn)藥品的研制離不開(kāi)先進(jìn)制藥設(shè)備支持,所以設(shè)備水平的提高也是關(guān)鍵的。如圖3所示,石家莊地區(qū)制藥企業(yè)在這一方面的技術(shù)依賴(lài)網(wǎng)絡(luò)也已經(jīng)形成,說(shuō)明在此技術(shù)領(lǐng)域也已經(jīng)擁有較強(qiáng)實(shí)力。但與中心主要專(zhuān)利相比,輔助設(shè)備專(zhuān)利技術(shù)還是需要不斷提高的。

三、總結(jié)

第7篇:數(shù)據(jù)挖掘范文

1.1數(shù)據(jù)挖掘相關(guān)技術(shù)數(shù)據(jù)挖掘相關(guān)技術(shù)介紹如下[6]:(1)決策樹(shù):在表示決策集合或分類(lèi)時(shí)采用樹(shù)形結(jié)構(gòu),在這一過(guò)程中發(fā)現(xiàn)規(guī)律并產(chǎn)生規(guī)則,找到數(shù)據(jù)庫(kù)中有著最大信息量的字段,從而可建立起決策樹(shù)的人工智能及識(shí)別技術(shù)。(2)聚類(lèi)分析:聚類(lèi)分析指將物理或抽象對(duì)象的集合分組為由類(lèi)似的對(duì)象組成的多個(gè)類(lèi)的分析過(guò)程。它是一種重要的人類(lèi)行為。(3)關(guān)聯(lián)分析:關(guān)聯(lián)分析又稱(chēng)關(guān)聯(lián)挖掘,就是在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,查找存在于項(xiàng)目集合或?qū)ο蠹现g的頻繁模式、因果、關(guān)聯(lián)或相關(guān)性結(jié)構(gòu)。也可以說(shuō),關(guān)聯(lián)分析是用來(lái)發(fā)現(xiàn)有關(guān)交易的數(shù)據(jù)庫(kù)中不同商品(項(xiàng))之間的聯(lián)系。(4)神經(jīng)網(wǎng)絡(luò)方法:顧名思義,類(lèi)似于生物的神經(jīng)結(jié)構(gòu),由大量簡(jiǎn)單的神經(jīng)元,通過(guò)非常豐富和完善的連接組成自適應(yīng)的非線性動(dòng)態(tài)系統(tǒng),具有自適應(yīng)、自組織、自學(xué)習(xí)、聯(lián)想記憶、分布存儲(chǔ)、大規(guī)模并行處理等功能。粗集方法:也就是在數(shù)據(jù)庫(kù)里把行為對(duì)象列視為元素,將不同對(duì)象在某個(gè)(或多個(gè))屬性上取值相同定義為等價(jià)關(guān)系R。其等價(jià)類(lèi)為滿(mǎn)足R的對(duì)象組成的集合[5]。

1.2IBMSPSSModelerIBMSPSSModeler是一個(gè)數(shù)據(jù)挖掘工作臺(tái),用于幫助用戶(hù)快速直觀地構(gòu)建預(yù)測(cè)模型,而無(wú)需進(jìn)行編程。其精密的數(shù)據(jù)挖掘技術(shù)使用戶(hù)能夠?qū)Y(jié)果進(jìn)行建模,了解哪些因素會(huì)對(duì)結(jié)果產(chǎn)生影響。它還能可提供數(shù)據(jù)挖掘相關(guān)的數(shù)據(jù)提取、轉(zhuǎn)換、分析建模、評(píng)估、部署等全過(guò)程的功能[3]。通常,SPSSModeler將數(shù)據(jù)以一條條記錄的形式讀入,然后通過(guò)對(duì)數(shù)據(jù)進(jìn)行一系列操作,最后將其發(fā)送至某個(gè)地方(可以是模型,或某種格式的數(shù)據(jù)輸出)[3]。使用SPSSModeler處理數(shù)據(jù)的三個(gè)步驟:(1)將數(shù)據(jù)讀入SPSSModeler;(2)通過(guò)一系列操縱運(yùn)行數(shù)據(jù);(3)將數(shù)據(jù)發(fā)送到目標(biāo)位置。

2客戶(hù)流失預(yù)測(cè)分析

2.1數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理[6],將需要的客戶(hù)投保數(shù)據(jù)按照業(yè)務(wù)預(yù)測(cè)分析的要求,將數(shù)據(jù)抽取到中間數(shù)據(jù)中,同時(shí)對(duì)數(shù)據(jù)清洗和轉(zhuǎn)換,滿(mǎn)足業(yè)務(wù)預(yù)測(cè)分析要求。每日凌晨調(diào)用存儲(chǔ)過(guò)程將核心業(yè)務(wù)系統(tǒng)數(shù)據(jù)提取到中間數(shù)據(jù)庫(kù),壽險(xiǎn)業(yè)務(wù)數(shù)據(jù)與其他數(shù)據(jù)一樣,存在不安全和不一致時(shí),數(shù)據(jù)清洗與轉(zhuǎn)換可以幫助提升數(shù)據(jù)質(zhì)量,進(jìn)而提升數(shù)據(jù)挖掘進(jìn)程的有效性和準(zhǔn)確性。數(shù)據(jù)清洗主要包括:遺漏數(shù)據(jù)清洗,錯(cuò)誤數(shù)據(jù)處理,垃圾數(shù)據(jù)處理[1]。

2.2數(shù)據(jù)選取數(shù)據(jù)預(yù)處理后,可以從中得到投保人的投保信息,包括投保人姓名,投保年齡(有效保單為當(dāng)前年齡,無(wú)效保單為退保年齡),保費(fèi),投保年期,保單狀態(tài)等。數(shù)據(jù)如圖1所示。

2.3客戶(hù)流失預(yù)測(cè)模型建立壽險(xiǎn)業(yè)務(wù)按渠道來(lái)分可分為個(gè)人保險(xiǎn)、團(tuán)體保險(xiǎn)、銀行保險(xiǎn)、網(wǎng)銷(xiāo)保險(xiǎn)、經(jīng)代保險(xiǎn)五類(lèi)。由于團(tuán)體保險(xiǎn)在壽險(xiǎn)公司發(fā)展比較緩慢,團(tuán)險(xiǎn)業(yè)務(wù)基本屬于停滯階段。結(jié)合壽險(xiǎn)公司的營(yíng)銷(xiāo)特點(diǎn),選定個(gè)人保單作為分析的對(duì)象,通過(guò)IBMSPSSModeler預(yù)測(cè)模型工具[3],使用決策樹(shù)預(yù)測(cè)模型對(duì)客戶(hù)流失進(jìn)行預(yù)測(cè)分析。

2.4結(jié)果分析通過(guò)使用IBMSPSSModeler決策類(lèi)預(yù)測(cè)模型分析某壽險(xiǎn)公司2013年個(gè)人客戶(hù)承保情況來(lái)看有以下規(guī)則:(1)投保年數(shù)在1年以?xún)?nèi),首期保費(fèi)在0~2000元或大于9997.130保費(fèi)的客戶(hù)比較容易流失。(2)保單終止保單中,女性客戶(hù)較男性客戶(hù)容易流失。(3)投保年數(shù)在2年以上,湖北及河北分支機(jī)構(gòu)客戶(hù)流失率比較容易流失。(4)分紅壽險(xiǎn)相對(duì)傳統(tǒng)壽險(xiǎn),健康壽險(xiǎn)的客戶(hù)比較容易流失[1]。

3總結(jié)

第8篇:數(shù)據(jù)挖掘范文

自大數(shù)據(jù)進(jìn)入了人們的視線之后,它便逐漸成為人們普遍關(guān)注的焦點(diǎn)。大數(shù)據(jù)講的是PB時(shí)代的科學(xué),本質(zhì)上大數(shù)據(jù)的挑戰(zhàn)是PB時(shí)代的對(duì)科學(xué)的挑戰(zhàn),更是對(duì)包括數(shù)據(jù)挖掘在內(nèi)的認(rèn)知科學(xué)的挑戰(zhàn)。那么,大數(shù)據(jù)時(shí)代怎么做數(shù)據(jù)挖掘呢?

在現(xiàn)今時(shí)代人們通常所說(shuō)的大數(shù)據(jù)主要包括三個(gè)來(lái)源:第一是自然界大數(shù)據(jù),也就是地球上的自然環(huán)境,很大很大。第二是生命大數(shù)據(jù)。第三也是最重要的,則是人們關(guān)心的社交大數(shù)據(jù)。這些數(shù)據(jù)普遍存在于人們的手機(jī)、電腦等設(shè)備中。今天一個(gè)報(bào)告在3分鐘之內(nèi)就可能被全世界的人們所知道。

奧巴馬就職的社交場(chǎng)所,這么多面孔,每一個(gè)面孔下都有一個(gè)故事,每一個(gè)人后面都有大數(shù)據(jù)的支撐。人臉是數(shù)據(jù)安全的很重要的識(shí)別器,怎么把人臉識(shí)別清楚呢?人們想了很多辦法?,F(xiàn)在北京市有80萬(wàn)個(gè)攝像頭,我們每天都在攝像頭的監(jiān)督下開(kāi)車(chē)、購(gòu)物。我們可以利用攝像頭做身份認(rèn)證、年齡識(shí)別、情感計(jì)算、親緣發(fā)現(xiàn)、心理識(shí)別、地區(qū)識(shí)別、民族識(shí)別。這種流媒體主要的形態(tài)是非結(jié)構(gòu)化的,特征之間的關(guān)聯(lián)關(guān)系、設(shè)備算法的準(zhǔn)確率等等,都嚴(yán)重地制約著大數(shù)據(jù)人臉挖掘的進(jìn)度。如何能從這些海量數(shù)據(jù)中利用識(shí)別算法提取出所需要的特征屬性,并理清特征之間的關(guān)系都是現(xiàn)在所面臨的問(wèn)題。

技術(shù)推動(dòng)計(jì)算機(jī)發(fā)展

1936年天才數(shù)學(xué)家圖靈提出圖靈模型,后來(lái)有計(jì)算機(jī)把圖靈模型轉(zhuǎn)化為物理計(jì)算機(jī),這其中有三大塊:CPU、操作系統(tǒng)、內(nèi)存和外存,還有輸入和輸出。在計(jì)算機(jī)發(fā)展的頭30年里,我們投入最多的是CPU、操作系統(tǒng)、軟件、中間件以及應(yīng)用軟件。當(dāng)時(shí)人們側(cè)重于計(jì)算性能的提高,我們把這個(gè)時(shí)代叫做計(jì)算時(shí)代。

計(jì)算對(duì)軟件付出了很大的努力,尤其是高性能計(jì)算機(jī)。我們認(rèn)為計(jì)算在前20年中起到了主導(dǎo)作用,它的標(biāo)志速度就是摩爾速度。在這樣一個(gè)計(jì)算領(lǐng)先的時(shí)代當(dāng)中,我們主要做的是結(jié)構(gòu)化數(shù)據(jù)的挖掘。關(guān)系數(shù)據(jù)庫(kù)之父埃德加在1970年提出一個(gè)關(guān)系模型,以關(guān)系代數(shù)為核心運(yùn)算,用二維表形式表示實(shí)體和實(shí)體間的聯(lián)系。三四十年來(lái),各行各業(yè)的數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)技術(shù),以及從數(shù)據(jù)庫(kù)發(fā)現(xiàn)知識(shí)的數(shù)據(jù)挖掘成為巨大的信息產(chǎn)業(yè)。

關(guān)系代數(shù)是關(guān)系數(shù)據(jù)庫(kù)的形式化理論和約束,先有頂層設(shè)計(jì)和數(shù)據(jù)結(jié)構(gòu),后填入清洗后的數(shù)據(jù)。數(shù)據(jù)圍繞結(jié)構(gòu)轉(zhuǎn),數(shù)據(jù)圍繞程序轉(zhuǎn)。用戶(hù)無(wú)需關(guān)心數(shù)據(jù)的獲取、存儲(chǔ)、分析以及提取過(guò)程。通過(guò)數(shù)據(jù)挖掘,可以從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)分類(lèi)知識(shí)、關(guān)聯(lián)知識(shí)、時(shí)序知識(shí)、異常知識(shí)等等。

隨著數(shù)據(jù)庫(kù)產(chǎn)業(yè)的膨大,人們對(duì)數(shù)據(jù)庫(kù)已經(jīng)不太滿(mǎn)足了,于是把Databases說(shuō)成大數(shù)據(jù),這便遇到了兩個(gè)不可回避的挑戰(zhàn),第一個(gè)挑戰(zhàn)是由于關(guān)系代數(shù)的形式化約束過(guò)于苛刻,無(wú)法表示現(xiàn)實(shí)數(shù)據(jù);第二個(gè)挑戰(zhàn)是隨著數(shù)據(jù)量的增大,關(guān)系代數(shù)運(yùn)算性能急劇下降。在這個(gè)時(shí)候,我們的存儲(chǔ)技術(shù)得到了迅猛發(fā)展,人類(lèi)進(jìn)入了搜索時(shí)代。搜索因?yàn)榇鎯?chǔ)便宜了,存儲(chǔ)的速度大概每9個(gè)月翻一番,所以存儲(chǔ)帶動(dòng)了技術(shù)的腳步,這種搜索時(shí)代經(jīng)過(guò)了20多年的發(fā)展,帶領(lǐng)我們進(jìn)入了一個(gè)半結(jié)構(gòu)化數(shù)據(jù)挖掘時(shí)代。這個(gè)時(shí)代的代表人物就是萬(wàn)維網(wǎng)之父家蒂姆?伯納斯―李,他提出了超文本思想,開(kāi)發(fā)了世界上第一個(gè)Web服務(wù)器,于是我們可以從一臺(tái)服務(wù)器上檢索另一臺(tái)服務(wù)器的內(nèi)容,服務(wù)器在軟件的支持下可包括文本、表格、圖片、音視頻的碎片化超媒體信息。

因此,客戶(hù)端服務(wù)器結(jié)構(gòu)和云計(jì)算結(jié)構(gòu)蓬勃產(chǎn)生,這時(shí)已經(jīng)沒(méi)有了關(guān)于代數(shù)那樣嚴(yán)格的形式化約束,依靠的主要是規(guī)范、標(biāo)準(zhǔn),所有媒體均以實(shí)體形式存在,甚至是軟件,實(shí)體通過(guò)超鏈接產(chǎn)生聯(lián)系。

形式化理論比關(guān)系代數(shù)寬松了許多,創(chuàng)建了靈活多樣的實(shí)體,這時(shí)候數(shù)據(jù)開(kāi)始圍繞實(shí)體轉(zhuǎn),實(shí)體圍繞鏈接轉(zhuǎn)。在云計(jì)算背景下,數(shù)據(jù)挖掘也可以看作是云計(jì)算環(huán)境下的搜索與個(gè)性化服務(wù),不存在固定的查詢(xún)方式,也不會(huì)出現(xiàn)唯一、100%準(zhǔn)確的查詢(xún)結(jié)果。

網(wǎng)絡(luò)化的大數(shù)據(jù)挖掘

隨著互聯(lián)網(wǎng)帶寬6個(gè)月翻一番的速度,人類(lèi)進(jìn)入了交互時(shí)代,交互帶動(dòng)著計(jì)算和存儲(chǔ)的發(fā)展。

移動(dòng)互聯(lián)網(wǎng)時(shí)代的大數(shù)據(jù)挖掘主要是網(wǎng)絡(luò)化環(huán)境下的非結(jié)構(gòu)化數(shù)據(jù)挖掘,這些數(shù)據(jù)形態(tài)反映的是鮮活的、碎片化的、異構(gòu)的、有情感的原生態(tài)數(shù)據(jù)。

非結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn)是,它常常是低價(jià)值、強(qiáng)噪聲、異構(gòu)、冗余冰冷的數(shù)據(jù),有很多數(shù)據(jù)放在存儲(chǔ)器里就沒(méi)再用過(guò)。數(shù)據(jù)的形式化約束越來(lái)越寬松,越來(lái)越接近互聯(lián)網(wǎng)文化、窗口文化和社區(qū)文化。

關(guān)注的對(duì)象也發(fā)生很大改變,挖掘關(guān)注的首先是小眾,只有滿(mǎn)足小眾挖掘需求,才談得上滿(mǎn)足更多小眾組成的大眾的需求,因此一個(gè)重要思想就是由下而上勝過(guò)由上而下的頂層設(shè)計(jì),強(qiáng)調(diào)挖掘數(shù)據(jù)的真實(shí)性、及時(shí)性,要發(fā)現(xiàn)關(guān)聯(lián)、發(fā)現(xiàn)異常、發(fā)現(xiàn)趨勢(shì),總之要發(fā)現(xiàn)價(jià)值。

當(dāng)前,深度學(xué)習(xí)也是一種數(shù)據(jù)自適應(yīng)簡(jiǎn)約。如果我們?cè)诎俣壬嫌蒙疃葘W(xué)習(xí)搜索一個(gè)人臉象素搜索,這么多人臉誰(shuí)是誰(shuí)?數(shù)據(jù)量急劇增加,各種媒體形態(tài)可隨意碎片化,組織結(jié)構(gòu)和挖掘程序要圍著數(shù)據(jù)轉(zhuǎn),程序要碎片化,并可以隨時(shí)虛擬重組,挖掘常常是人機(jī)交互環(huán)境下不同社區(qū)的發(fā)現(xiàn)以及社區(qū)中形成的群體智能,在非結(jié)構(gòu)化數(shù)據(jù)挖掘中,會(huì)自然進(jìn)行數(shù)據(jù)清洗,自然形成半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù),以提高數(shù)據(jù)使用效率。

群體智能是一個(gè)最近說(shuō)得很多的詞,我們?cè)?jīng)在計(jì)算機(jī)上做一個(gè)圖靈測(cè)試,讓計(jì)算機(jī)區(qū)分哪些碼是人產(chǎn)生的,哪些是機(jī)器產(chǎn)生的,這是卡內(nèi)基美隆大學(xué)提出來(lái)的,在網(wǎng)絡(luò)購(gòu)物、登錄網(wǎng)站、申請(qǐng)網(wǎng)站時(shí)都會(huì)碰到適配碼被使用。在此要提到第三個(gè)代表人物――路易斯,他提出用這個(gè)適配碼應(yīng)用方式。

如果云計(jì)算支撐大數(shù)據(jù)挖掘要發(fā)現(xiàn)價(jià)值,那么我們認(rèn)為云計(jì)算本來(lái)就是基于互聯(lián)網(wǎng)的大眾參與計(jì)算模式,其計(jì)算資源是動(dòng)態(tài)的,可收縮的,被虛擬化的,而且以服務(wù)的方式提供。 產(chǎn)生擺脫了傳統(tǒng)的配置帶來(lái)的系統(tǒng)升級(jí),更加簡(jiǎn)潔、靈活多樣、個(gè)性化,手機(jī)、游戲機(jī)、數(shù)碼相機(jī)、電視機(jī)差別細(xì)微,出現(xiàn)了更多iCloud產(chǎn)品,界面人性化、個(gè)性化,都可成為大數(shù)據(jù)挖掘的終端。

挖掘員支撐各種各樣的大數(shù)據(jù)應(yīng)用,如果我們有數(shù)據(jù)收集中心、存儲(chǔ)中心、計(jì)算中心、服務(wù)中心,一定要有數(shù)據(jù)挖掘中心,這樣一來(lái),就可以實(shí)現(xiàn)支撐大數(shù)據(jù)的及時(shí)應(yīng)用和價(jià)值的及時(shí)發(fā)現(xiàn)。

第9篇:數(shù)據(jù)挖掘范文

關(guān)聯(lián)技術(shù)用于發(fā)現(xiàn)數(shù)據(jù)庫(kù)中屬性之間的有趣聯(lián)系。和傳統(tǒng)的產(chǎn)生式規(guī)則不同,關(guān)聯(lián)規(guī)則可以有一個(gè)或多個(gè)輸出屬性。同時(shí),一個(gè)規(guī)則的輸出屬性可以是另一規(guī)則的輸入屬性。關(guān)聯(lián)規(guī)則是用于購(gòu)物籃分析的常用技術(shù),是因?yàn)榭梢哉覍撛诘牧钊烁信d趣的所有的產(chǎn)品組合。由此,有限數(shù)目的屬性可能生成上百條關(guān)聯(lián)規(guī)則。

Income range($) Magazine promotion Watch promotion Life insurance promotion Credit card insurance sex age

40-50K yes no no no male 45

30-40K yes yes yes no female 40

40-50K no no no no male 42

30-40K yes yes yes yes male 43

50-60K yes no yes no female 28

20-30K no no no no female 55

30-40K yes no yes yes male 35

20-30K no yes no no male 27

30-40K yes no no no female 43

30-40K yes yes yes no female 41

40-50K no yes yes no male 43

20-30K no yes yes no female 29

50-60K no yes yes no female 39

40-50K yes yes no no male 55

20-30K no no yes yes female 19

我們將Agrawal等人描述的apriori關(guān)聯(lián)規(guī)則算法應(yīng)用到上表數(shù)據(jù)中。該算法檢查了項(xiàng)目籃,并為那些包含項(xiàng)目最少的籃子生成規(guī)則。Apriori算法不處理數(shù)值型數(shù)據(jù)。因此,在應(yīng)用該算法之前,我們將屬性年齡轉(zhuǎn)化為離散的分類(lèi)值:超過(guò)15,超過(guò)20,超過(guò)30,超過(guò)40,和超過(guò)50。例如,age=over40是年齡在40和49歲(包含40和49)之間。我們將屬性選項(xiàng)限制為income range,credit card insurance,sex和age。這里是通過(guò)表的數(shù)據(jù)應(yīng)用apriori算法所產(chǎn)生的3條關(guān)聯(lián)規(guī)則:

(1) IF sex=female & age=over40 & credit card insurance=NO THEN life=insurance promotion=YES

(2) IF sex=male & age=over40 & credit card insurance=NO THEN life=insurance promotion=NO

(3) IF sex=female & age=over40 THEN credit card insurance=NO & life=insurance promotion=YES

3條規(guī)則的準(zhǔn)確度都達(dá)到100%并且正確的覆蓋了所有數(shù)據(jù)實(shí)例的20%。對(duì)于規(guī)則3,20%的覆蓋率告訴我們,每5個(gè)人是年齡超過(guò)40的女性,她沒(méi)有信用卡保險(xiǎn),且她們都是通過(guò)壽險(xiǎn)促銷(xiāo)活動(dòng)獲得壽險(xiǎn)的。注意,規(guī)則3中的信用卡保險(xiǎn)和壽險(xiǎn)促銷(xiāo)都是輸出屬性。

關(guān)聯(lián)規(guī)則存在的問(wèn)題是,對(duì)于潛在有趣的規(guī)則,我們可能發(fā)現(xiàn)某個(gè)規(guī)則的值很小。

在關(guān)聯(lián)規(guī)則系統(tǒng)中,規(guī)則本身是“如果條件怎么樣,怎么樣,怎么樣,那么結(jié)果或情況就怎么樣”的簡(jiǎn)單方式。可以表示為“A=>B”關(guān)聯(lián)規(guī)則,它包括兩2部分:左部A稱(chēng)為前件,又部B稱(chēng)為后件。前件可以包括一個(gè)或多個(gè)條件,在某個(gè)給定的正確率中,要使后件為真,前件中的所有條件必須同時(shí)為真。后件一般只包含一種情況,而不是多種情況。

例如,購(gòu)買(mǎi)計(jì)算機(jī)有購(gòu)買(mǎi)財(cái)務(wù)軟件趨向的關(guān)聯(lián)規(guī)則,以及年齡在30至40歲之間并且年收入早42000元至50000元之間的客戶(hù)購(gòu)買(mǎi)高清晰度彩電電視機(jī)趨向的關(guān)聯(lián)規(guī)則可以分別表示為:

Buys(x,“computer”)=>buys(x,“financial_management_software”) (11.1)

Age(“30…60”)∧income(“42000…50000”)=>buys(x,“high_resolution_TV”)(11.2)

其中x為表示客戶(hù)的變量。

關(guān)聯(lián)規(guī)則在實(shí)際應(yīng)用中根據(jù)值類(lèi)型,數(shù)據(jù)維,層次的不同,可以分成各種類(lèi)型的規(guī)則。

根據(jù)規(guī)則中所處理的值類(lèi)型可以分部成布爾關(guān)聯(lián)規(guī)則和量化關(guān)聯(lián)規(guī)則兩種。例如,上述的關(guān)聯(lián)(11.1)就是布爾關(guān)聯(lián)規(guī)則,而關(guān)聯(lián)規(guī)則(11.2)是量化規(guī)則,其量化屬性值就離散值。

如果規(guī)則中的項(xiàng)或?qū)傩灾簧婕暗揭粋€(gè)維,那就是單維規(guī)則。例如關(guān)聯(lián)規(guī)則(11.1)只涉及buys維。而關(guān)聯(lián)規(guī)則(11.2)涉及到三個(gè)維age,income和buys數(shù)據(jù)維,因此是多維關(guān)聯(lián)。

如果規(guī)則集涉及不同的抽象層次,那么關(guān)聯(lián)規(guī)則集就是多層次關(guān)聯(lián)規(guī)則;反之就是單層關(guān)聯(lián)規(guī)則。例如,規(guī)則(11.1)和(11.2)都是單層規(guī)則。而關(guān)聯(lián)規(guī)則集

Age(“30…40”)=>buys(x,“IBM computer”) (11.3)

Age(“30…40”)=>buys(x,“computer”) (11.4)

涉及的購(gòu)買(mǎi)商品有較低抽象層次“IBM computer”和較高抽象層次的“computer”。因此,規(guī)則集(11.3)和(11.4)是多層關(guān)聯(lián)規(guī)則。

關(guān)聯(lián)規(guī)則在實(shí)際應(yīng)用中用SQL語(yǔ)言就可以很好的處理,例如對(duì)于關(guān)聯(lián)規(guī)則(11.2)可以用以下的SQL查詢(xún)語(yǔ)句完成。

Select Cust.name, p.item_name

From Purchases, P

Group by Cust.ID

Having (Cust.age>=30.and.Cust.age=42000 and Cust.income

關(guān)聯(lián)規(guī)則的應(yīng)用必須有應(yīng)用目標(biāo),在實(shí)際應(yīng)用中可以以前件為目標(biāo),以后件為目標(biāo),以準(zhǔn)確性為目標(biāo),以覆蓋率為目標(biāo)或者以“興趣度”為目標(biāo)。

以前件為目標(biāo)的關(guān)聯(lián)規(guī)則是將前件等于某值的所有規(guī)則收集起來(lái)顯示給用戶(hù)。例如:一個(gè)五金店可能需要前件為釘子,螺栓或螺釘?shù)乃幸?guī)則,以了解對(duì)這些低利潤(rùn)的商品打折是否能夠促進(jìn)其他高利潤(rùn)商品的銷(xiāo)售。

以后件為目標(biāo)的關(guān)聯(lián)規(guī)則是查找后件等于某值的所有規(guī)則,用來(lái)了解什么因素與后件有關(guān)或?qū)蠹惺裁从绊?。例?得到后件為“咖啡”的所有標(biāo)準(zhǔn)對(duì)于咖啡的銷(xiāo)售就十分重要,可以從中了解哪些商品的銷(xiāo)售會(huì)導(dǎo)致咖啡銷(xiāo)售的增加。咖啡店就可以將這些商品放到咖啡附近,以同時(shí)提高兩者的銷(xiāo)售額?;蛘?咖啡廠商可以根據(jù)這個(gè)準(zhǔn)則決定下次把他們的優(yōu)惠卷放在哪些雜志上。

以正確率為目標(biāo)的關(guān)聯(lián)規(guī)則,主要是以正確率表示前件為真時(shí),后件為真的可能性。正確率高表示規(guī)則比較可靠。正確率有時(shí)也稱(chēng)為置信度,對(duì)于“A=>B”關(guān)聯(lián)規(guī)則,其置信度或正確率可以定義為:

置信度(A=>B)=包含A和B的元組數(shù)/包含A的元組樹(shù)(11.5)

有時(shí),對(duì)用戶(hù)來(lái)說(shuō)最重要的是規(guī)則的正確率。正確率達(dá)到80%或90%以上的規(guī)則,表明發(fā)現(xiàn)的關(guān)系是很強(qiáng)的。即使它們對(duì)數(shù)據(jù)庫(kù)的覆蓋率較低,出現(xiàn)的次數(shù)有限,只要抓住這些規(guī)則。成功的可能性就比較大。

以覆蓋率為目標(biāo)的關(guān)聯(lián)規(guī)則表示數(shù)據(jù)庫(kù)中適用于規(guī)則的記錄數(shù)量。其覆蓋率可以定義為:

覆蓋率(A=>B)=包含A和B的元組數(shù)/元組總數(shù)(11.6)