前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數(shù)據(jù)挖掘技術(shù)論文主題范文,僅供參考,歡迎閱讀并收藏。
1.較高的有效性新興起來的數(shù)據(jù)挖掘技術(shù)的應(yīng)用時間并不是很長,但是其在經(jīng)濟(jì)統(tǒng)計領(lǐng)域的應(yīng)用受到了良好的效果,其穩(wěn)定的工作性能,不僅能夠?qū)?jīng)濟(jì)統(tǒng)計數(shù)據(jù)進(jìn)行分析整理,更能深層次地開發(fā)出更多的有用信息,在實際的應(yīng)用中展現(xiàn)出較高的有效性。
2.綜合應(yīng)用性強(qiáng)數(shù)據(jù)挖掘技術(shù)已經(jīng)被廣泛地應(yīng)用在統(tǒng)計工作中的多個領(lǐng)域,并且發(fā)揮著重要的作用。數(shù)據(jù)挖掘技術(shù)不僅是一種綜合應(yīng)用性強(qiáng)的技術(shù)手段,同時又能滿足統(tǒng)計數(shù)據(jù)使用者的特定數(shù)據(jù)需要。因此,數(shù)據(jù)挖掘技術(shù)能夠?qū)?jīng)濟(jì)統(tǒng)計數(shù)據(jù)進(jìn)行定向的整理和開發(fā),為數(shù)據(jù)使用者提供更好的服務(wù)。
3.宏觀型的數(shù)據(jù)庫有利于數(shù)據(jù)挖掘技術(shù)的應(yīng)用當(dāng)前,我國的經(jīng)濟(jì)統(tǒng)計大多還是采用傳統(tǒng)的經(jīng)濟(jì)統(tǒng)計方法,統(tǒng)計收集的數(shù)據(jù)信息不能形成有機(jī)整體,在對數(shù)據(jù)進(jìn)行管理過程中,出現(xiàn)了很多問題。因此。經(jīng)濟(jì)統(tǒng)計工作需要能夠提供數(shù)據(jù)整理開發(fā)的新技術(shù)。宏觀經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)庫,為數(shù)據(jù)挖掘技術(shù)的開展提供了平臺。數(shù)據(jù)管理系統(tǒng)的經(jīng)濟(jì)統(tǒng)計信息要正確無誤,然后經(jīng)過數(shù)據(jù)挖掘技術(shù)的整合,就能得到更豐富的數(shù)據(jù)資源。
二、數(shù)據(jù)挖掘技術(shù)的運(yùn)用
數(shù)據(jù)挖掘技術(shù)的特性決定了其對經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)整理的重要性,經(jīng)濟(jì)統(tǒng)計所得到的數(shù)據(jù)信息要求必須有實用性和真實性,數(shù)據(jù)挖掘技術(shù)的特性正好滿足了經(jīng)濟(jì)統(tǒng)計工作的需要。數(shù)據(jù)挖掘的過程主要包括以下四種方法:
1.預(yù)處理方法首先,要對統(tǒng)計數(shù)據(jù)進(jìn)行預(yù)處理。由于經(jīng)濟(jì)統(tǒng)計信息在收集過程中存在一些問題,導(dǎo)致收集到的數(shù)據(jù)存在缺失和模糊現(xiàn)象,這種有缺憾的數(shù)據(jù)信息不能作為數(shù)據(jù)挖掘的基礎(chǔ),因此一定要對數(shù)據(jù)挖掘?qū)ο筮M(jìn)行事先的處理。其中包括對基礎(chǔ)數(shù)據(jù)中不正確、不真實、不準(zhǔn)確和偏差較大的數(shù)據(jù)進(jìn)行甄別。
2.集成化處理方法其次,要對統(tǒng)計數(shù)據(jù)進(jìn)行集成化處理。經(jīng)濟(jì)統(tǒng)計過程中,會出現(xiàn)對多個數(shù)據(jù)源進(jìn)行重疊統(tǒng)計的現(xiàn)象,這就要求對數(shù)據(jù)進(jìn)行挖掘之前,要有一個統(tǒng)一整理的過程,即數(shù)據(jù)的集成化處理。數(shù)據(jù)集成在統(tǒng)計中被廣泛的使用。經(jīng)過數(shù)據(jù)集成處理的統(tǒng)計信息更加全面,更加真實,可以作為數(shù)據(jù)挖掘基礎(chǔ)信息。
3.轉(zhuǎn)換方法再有,要對統(tǒng)計數(shù)據(jù)根據(jù)需要進(jìn)行轉(zhuǎn)換。經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)的描述形式比較單一,為了滿足數(shù)據(jù)信息使用者的需要,就要對數(shù)據(jù)進(jìn)行轉(zhuǎn)換,使其的表現(xiàn)形式具有泛化或是更加規(guī)范。這里所說的泛化指的是利用更深層次和更加抽象的定義來代替原有的低層數(shù)據(jù)。
4.決策樹方法除卻上述四種處理方法外,還有決策樹方法,指的是對龐雜的經(jīng)濟(jì)數(shù)據(jù)進(jìn)行分類,把有利用價值的統(tǒng)計數(shù)據(jù)提煉出來,這種數(shù)據(jù)挖掘形式能夠?qū)Ψ治鰧ο筮M(jìn)行體現(xiàn),并能快速的對信息進(jìn)行分類處理,能夠解決在經(jīng)濟(jì)統(tǒng)計過程中出現(xiàn)的各種問題。
三、結(jié)語
1.1較高的有效性數(shù)據(jù)挖掘技術(shù)作為一種數(shù)據(jù)的深加工技術(shù),其本身是帶有鮮明的目的性的,在實際應(yīng)用活動中能夠?qū)﹂L時間積累下來的經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)進(jìn)行基于數(shù)據(jù)使用者要求的深入加工。在實踐應(yīng)用活動中主要有兩種重要的應(yīng)用形式,一種是對積累經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)的管理高效化處理,一種是對現(xiàn)有經(jīng)濟(jì)數(shù)據(jù)的目的性分析。其中第一種分析方式是從經(jīng)濟(jì)數(shù)據(jù)管理的角度出發(fā)的,在應(yīng)用中主要是以固有數(shù)據(jù)信息的統(tǒng)計、分類為基礎(chǔ),將原本混亂的數(shù)據(jù)庫信息進(jìn)行科學(xué)、系統(tǒng)的歸類,保證統(tǒng)計數(shù)據(jù)管理的高效性和使用的便利性。另一種工作方式是一種經(jīng)濟(jì)數(shù)據(jù)的再加工過程,以鮮明的數(shù)據(jù)統(tǒng)計、分析目標(biāo)為指引對原有數(shù)據(jù)的呈現(xiàn)形式、組成內(nèi)容和關(guān)聯(lián)形式進(jìn)行重新加工,以保證經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)能夠最大限度地服務(wù)于管理者的需求。
1.2綜合應(yīng)用性強(qiáng)如前文所述,數(shù)據(jù)挖掘技術(shù)是一個工具系統(tǒng)而不是單一的工具,能夠?qū)崿F(xiàn)使用主體的各種信息需求,隨著現(xiàn)代社會經(jīng)濟(jì)的快速發(fā)展,當(dāng)前我國經(jīng)濟(jì)管理的各個部門都需要大量的經(jīng)濟(jì)統(tǒng)計信息來作為經(jīng)濟(jì)管理決策的基礎(chǔ)。但是因為各個管理部門經(jīng)濟(jì)管理的領(lǐng)域不同、經(jīng)濟(jì)管理的方式不同、經(jīng)濟(jì)的管理權(quán)限不同,所以相應(yīng)的經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)呈現(xiàn)形式的需求就不同。這就為經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計系統(tǒng)提出了更高的要求,其不僅要對符合各個經(jīng)濟(jì)管理部門需求的數(shù)據(jù)內(nèi)容進(jìn)行統(tǒng)計,同時要將統(tǒng)計完成的數(shù)據(jù)換算成各種不同的呈現(xiàn)形式,并根據(jù)統(tǒng)計信息的來源和統(tǒng)計信息的計算方式對其可靠性進(jìn)行評估[2]。最終這些數(shù)據(jù)信息的輸出格式還應(yīng)該符合所服務(wù)的經(jīng)濟(jì)管理部門管理系統(tǒng)的格式要求,保證統(tǒng)計數(shù)據(jù)能夠在管理部門的管理系統(tǒng)中正常錄入、應(yīng)用,數(shù)據(jù)挖掘技術(shù)很好地滿足了上述的復(fù)雜經(jīng)濟(jì)數(shù)據(jù)管理要求,其功能的綜合性促進(jìn)了其應(yīng)用深度的提高和范圍的擴(kuò)大。
1.3宏觀數(shù)據(jù)庫有利于數(shù)據(jù)挖掘技術(shù)的應(yīng)用當(dāng)前因為經(jīng)濟(jì)管理部門的職權(quán)較為分散,各個經(jīng)濟(jì)管理部門的經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)需求不盡相同。所以我國的經(jīng)濟(jì)統(tǒng)計活動絕大多數(shù)還采用傳統(tǒng)的經(jīng)濟(jì)統(tǒng)計方法,統(tǒng)計收集的經(jīng)濟(jì)信息存在一定的局限性,不能夠服務(wù)于經(jīng)濟(jì)管理活動的整體,或者造成一些數(shù)據(jù)統(tǒng)計工作的重復(fù),對經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計工作造成了一系列的質(zhì)量和效率上的影響。經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計活動急需一個能夠整合各個統(tǒng)計系統(tǒng),實現(xiàn)統(tǒng)計數(shù)據(jù)信息融合的新技術(shù)。宏觀經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)庫為數(shù)據(jù)挖掘技術(shù)的開展提供了平臺,數(shù)據(jù)管理系統(tǒng)的經(jīng)濟(jì)統(tǒng)計信息要正確無誤,然后經(jīng)過數(shù)據(jù)挖掘技術(shù)的整合,就能得到更加豐富的數(shù)據(jù)資源[3]。
2數(shù)據(jù)挖掘技術(shù)的應(yīng)用
在社會經(jīng)濟(jì)管理活動中,管理主體對經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)的要求主要有兩個。一個是統(tǒng)計數(shù)據(jù)的真實性、一個是數(shù)據(jù)統(tǒng)計信息的實用性。單就這兩個經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)要求而言,數(shù)據(jù)挖掘技術(shù)能夠很好地滿足經(jīng)濟(jì)統(tǒng)計工作的需求,是適用性極強(qiáng)的一種經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計技術(shù),其在具體的經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計活動中主要有以下三種應(yīng)用方法。
2.1預(yù)處理方法在經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計活動中,最為基礎(chǔ)的一種處理方式就是經(jīng)濟(jì)數(shù)據(jù)的預(yù)處理方法,因為數(shù)據(jù)挖掘本身是一種基于提供基礎(chǔ)信息的智能分析技術(shù)。其本身是受基礎(chǔ)經(jīng)濟(jì)信息限制的,不可能無中生有代替經(jīng)濟(jì)數(shù)據(jù)收集系統(tǒng)的功能。所以所有作為數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)基礎(chǔ)的經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)信息都應(yīng)該進(jìn)行預(yù)處理,處理的內(nèi)容主要包括對這些數(shù)據(jù)中不正確、不真實、不準(zhǔn)確,以及不同經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)信息之間差距較大的現(xiàn)象。對這些基礎(chǔ)數(shù)據(jù)存在的問題進(jìn)行處理的過程被稱為數(shù)據(jù)清理,當(dāng)前數(shù)據(jù)清理主要采用的方法有均值法、平滑法和預(yù)測法。其中均值法是現(xiàn)代分析技術(shù)中模糊理念的一種應(yīng)用形式,當(dāng)基礎(chǔ)數(shù)據(jù)中的一個數(shù)據(jù)點是空值或者噪聲數(shù)據(jù)的時候,可以采用均值法進(jìn)行處理,即用數(shù)據(jù)庫中所有該屬性已知的屬性均值來填補(bǔ)空缺。保證數(shù)據(jù)挖掘系統(tǒng)對基礎(chǔ)數(shù)據(jù)的分析和整理能夠正常進(jìn)行,得出相對而言準(zhǔn)確度較高的統(tǒng)計分析數(shù)據(jù)。其中Ci表示當(dāng)前數(shù)據(jù)點的取值,Cj表示當(dāng)前數(shù)據(jù)點前后不為空的數(shù)據(jù)點,K表示當(dāng)前數(shù)據(jù)點進(jìn)行計算所取的參考數(shù)據(jù)點數(shù)量[4]。平滑法依然是對基礎(chǔ)數(shù)據(jù)中空值和噪聲數(shù)據(jù)的計算方法,其與均值法的區(qū)別是用加權(quán)平均數(shù)代替了平均數(shù),考慮了計算過程中提取的每一個數(shù)據(jù)對數(shù)據(jù)結(jié)果的影響權(quán)重,所以計算出的結(jié)果往往更加接近真實的數(shù)值。其中Ci表示當(dāng)前數(shù)據(jù)點的取值,Cj表示當(dāng)前數(shù)據(jù)點前后不為空的數(shù)據(jù)點,K表示為對當(dāng)前數(shù)據(jù)點進(jìn)行計算所取的數(shù)據(jù)點數(shù)量。WJ表示Cj數(shù)據(jù)點的權(quán)值。
2.2集成化處理方法在數(shù)據(jù)挖掘技術(shù)的應(yīng)用活動中,因為相同地區(qū)的數(shù)據(jù)統(tǒng)計主體不同,或者在不同地區(qū)對相同經(jīng)濟(jì)數(shù)據(jù)的統(tǒng)計標(biāo)準(zhǔn)不統(tǒng)一,會產(chǎn)生一系列的數(shù)據(jù)集成問題,如何對這些調(diào)查方向不同或者是呈現(xiàn)方式不同的數(shù)據(jù)進(jìn)行有效集成而不影響經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計的準(zhǔn)確性,是數(shù)據(jù)挖掘技術(shù)的重要任務(wù)。在具體的數(shù)據(jù)集成過程中主要考慮以下幾個方面的問題[5]。
2.2.1模式集成當(dāng)前因為社會經(jīng)濟(jì)活動中經(jīng)濟(jì)數(shù)據(jù)的統(tǒng)計內(nèi)容過于廣泛,很多經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計并不是來自于官方的統(tǒng)計局而是來自一些民間統(tǒng)計組織,或者是由一線社會經(jīng)濟(jì)主體直接提供的經(jīng)濟(jì)數(shù)據(jù),在數(shù)據(jù)挖掘過程中將這些來自多個數(shù)據(jù)源存在多種數(shù)據(jù)呈現(xiàn)模式的經(jīng)濟(jì)數(shù)據(jù)信息進(jìn)行集成就涉及實體識別的問題。例如在數(shù)據(jù)挖掘過程中如何確定一個數(shù)據(jù)庫中“std-id”與另一個數(shù)據(jù)庫中的“std-no”是否表示同一實體,當(dāng)前一般使用數(shù)據(jù)庫與數(shù)據(jù)庫之間的含元數(shù)據(jù)對比來保證實體識別高效率和高質(zhì)量[6]。
2.2.2冗余問題數(shù)據(jù)挖掘本身是對經(jīng)濟(jì)統(tǒng)計數(shù)據(jù)的一種深加工技術(shù),經(jīng)過其加工的經(jīng)濟(jì)統(tǒng)計技術(shù)應(yīng)該在本質(zhì)上達(dá)到最簡狀態(tài)。在數(shù)據(jù)挖掘過程中要將與其他數(shù)據(jù)呈現(xiàn)某種正相關(guān)關(guān)系的數(shù)據(jù)項目進(jìn)行精簡,以保證數(shù)據(jù)庫中數(shù)據(jù)量維持在一個較低的水平,為數(shù)據(jù)管理和應(yīng)用提供便利。在經(jīng)濟(jì)數(shù)據(jù)挖掘活動中人均國民生產(chǎn)總值就是典型的冗余屬性,因為其數(shù)值是可以通過國內(nèi)生產(chǎn)總值和總?cè)丝趯傩杂嬎愠鰜淼模灶愃迫司鶉裆a(chǎn)總值這種冗余屬性在數(shù)據(jù)挖掘過程中就應(yīng)該精簡,應(yīng)用的時候在利用國民生產(chǎn)總值和人口屬性計算得出[7]。對冗余屬性的判斷主要通過相關(guān)度對比來實現(xiàn)。其中n表示元組的個數(shù),分別是屬性A和屬性B的平均值,分別是屬性A和屬性B的標(biāo)準(zhǔn)方差,在這一公式中如果則表示A、B兩個屬性是正相關(guān),也就是說A越大B就越大,值越高二者的正相關(guān)關(guān)系就越密切;如果則表示屬性A、B之間沒有直接關(guān)系,是相互獨立的;如果則表示A、B兩個屬性呈負(fù)相關(guān),屬性B會隨著屬性A的減小而增大,的絕對值越大,二者的負(fù)相關(guān)關(guān)聯(lián)關(guān)系就越密切。
2.3決策樹方法在數(shù)據(jù)挖掘技術(shù)應(yīng)用過程中,經(jīng)過系統(tǒng)的分析和總結(jié)以后,分析數(shù)據(jù)的輸出是一個關(guān)鍵的環(huán)節(jié),其輸出的數(shù)據(jù)形式會對使用者的經(jīng)濟(jì)管理決策產(chǎn)生直接的影響。決策樹是一種較為常見的、直觀的快速分類方法。其應(yīng)用的關(guān)鍵是決策樹的構(gòu)建,具體而言主要分為兩步:第一步是利用訓(xùn)練集建立并精簡一棵決策樹,建立輸出分析的模型;第二步是利用構(gòu)建完畢的決策樹進(jìn)行輸入數(shù)據(jù)的分類,這一分類是一個遞歸的過程,從決策樹的根部開始進(jìn)入到樹干、枝丫,直到輸入數(shù)據(jù)的分類滿足了某種條件而停止。在具體的應(yīng)用中停止分割的條件有兩個:一個是當(dāng)一個節(jié)點上的所有數(shù)據(jù)都屬于同一個類別的時候;另一個是沒有分類屬性可以對輸入數(shù)據(jù)進(jìn)行再分割[8]。在決策樹構(gòu)建完成后,還要根據(jù)使用者的具體要求對決策樹進(jìn)行“剪枝”,剪枝的主要目的是要降低因為使用訓(xùn)練集而對決策樹本身數(shù)據(jù)輸出產(chǎn)生的起伏影響。
3結(jié)語
在熔煉機(jī)組優(yōu)化運(yùn)行的過程中,機(jī)組的運(yùn)行性能指標(biāo)與人員的操作水平、負(fù)荷及運(yùn)行參數(shù)之間有著復(fù)雜的相互關(guān)系,這種關(guān)系在大量的生產(chǎn)歷史數(shù)據(jù)中與機(jī)組各數(shù)據(jù)項之間關(guān)聯(lián),因此可以通過數(shù)據(jù)挖掘的方式把其中的關(guān)聯(lián)關(guān)系定量的反映出來,最終反饋到實際運(yùn)行中。本文結(jié)合工廠的實際情況,分析由工廠的DCS系統(tǒng)采集的實時運(yùn)行數(shù)據(jù),來得到用戶期望的相關(guān)參數(shù)間定量的關(guān)聯(lián)規(guī)則。
2交互式關(guān)聯(lián)規(guī)則挖掘算法
關(guān)聯(lián)規(guī)則挖掘算法在數(shù)據(jù)庫的記錄或?qū)ο笾谐槿£P(guān)聯(lián)性,展示了數(shù)據(jù)間位置依賴關(guān)系,其目的是尋找在大量的數(shù)據(jù)項中隱藏著的聯(lián)系或相關(guān)性。其優(yōu)越性在于能將用戶的定制信息整合到挖掘過程中,以一種友好的方式引入約束,使挖掘出更加符合用戶需要的信息,并且提高了挖掘的效率和有效性。
2.1目標(biāo)數(shù)據(jù)庫的確定
數(shù)據(jù)挖掘應(yīng)熟悉對象的背景知識,明確挖掘的目標(biāo),根據(jù)目標(biāo)確定相關(guān)數(shù)據(jù),以此作為目標(biāo)數(shù)據(jù)庫,來完成對數(shù)據(jù)的預(yù)處理、挖掘和規(guī)則評價。
2.2交互式關(guān)聯(lián)規(guī)則挖掘算法
表示A成立則B成立,其中給出了可信度C和支持度S??尚哦菴是對關(guān)聯(lián)規(guī)則準(zhǔn)確度的衡量,即在出現(xiàn)A的情況下出現(xiàn)B的概率;支持度S是對關(guān)聯(lián)規(guī)則重要性的衡量,即A和B同時出現(xiàn)的概率。
3熔煉機(jī)組數(shù)據(jù)挖掘的實現(xiàn)
本文采用的是冀某工廠于2013年5月運(yùn)行的數(shù)據(jù),采樣頻率為2~3秒/次,采樣模式為實時監(jiān)測值,得到7595組數(shù)據(jù)。在分析階段,對影響機(jī)組的主要可控參數(shù)進(jìn)行了提取及預(yù)處理,參數(shù)主要包括:轉(zhuǎn)速、有功功率、主蒸汽壓力、調(diào)節(jié)級壓力、中壓缸排汽壓力。以機(jī)組轉(zhuǎn)速設(shè)計值為3600r/min為例來分析。對各個可控參數(shù)數(shù)據(jù)進(jìn)行曲線化處理,作為分析它們之間的關(guān)聯(lián)規(guī)則的數(shù)據(jù)表。上述關(guān)聯(lián)規(guī)則表示,在三種負(fù)荷工況下,工廠熔煉機(jī)組有功功率與主蒸汽壓力、調(diào)節(jié)級壓力、中壓缸排汽壓力三者之間最優(yōu)變化區(qū)間的關(guān)聯(lián)。經(jīng)分析,在機(jī)組中應(yīng)用關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)與傳統(tǒng)方法相比,優(yōu)點是其可以對不同的可測參數(shù)進(jìn)行挖掘,方法簡單有效、可操作性強(qiáng);運(yùn)用關(guān)聯(lián)規(guī)則進(jìn)行挖掘,對過程能夠較靈活控制,處理后的目標(biāo)值直觀,便于操作指導(dǎo)和提高運(yùn)行效率。
4結(jié)論
[參考文獻(xiàn)]
[1]董西明.客戶關(guān)系管理及其應(yīng)用[J].學(xué)術(shù)交流,2004(8)
[2]王光玲.CRM—企業(yè)管理理念新發(fā)展[J].經(jīng)濟(jì)論壇,2003(9)
[3]崔京波,陳穎.論CRM及應(yīng)用[J].科學(xué)與管理,2005(6)
[4]田丹.淺析供應(yīng)鏈環(huán)境下的客戶關(guān)系管理(CRM)[J].商情(教育經(jīng)濟(jì)研究),2008(3)
[5]左臻.淺談客戶關(guān)系管理[J].科技情報開發(fā)與經(jīng)濟(jì),2005(5)
[6]徐輝.淺析客戶關(guān)系管理[J].商業(yè)經(jīng)濟(jì),2008(10)
[7]姚德全,于冬梅.客戶關(guān)系管理在企業(yè)發(fā)展中的重要性[J].科技創(chuàng)新與應(yīng)用,2013(8)
參考文獻(xiàn)
[1]郭愈強(qiáng),樊瑋.數(shù)據(jù)挖掘技術(shù)在民航CRM中的應(yīng)用[J],計算機(jī)工程,2005(31):169-171.
[2]劉彬,白萬民.淺析數(shù)據(jù)挖掘技術(shù)在CRM中的應(yīng)用[J].電子世界,2014,01(17):16-17.
[3]楊虎猛,朱汝岳.金融業(yè)分型CRM系統(tǒng)探索與應(yīng)用[J].計算機(jī)應(yīng)用與軟件,2013,07(30):259-261.
[4]徐國慶,段春梅.數(shù)據(jù)挖掘技術(shù)在CRM中的應(yīng)用研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2012,02(12):38-40.
[5]王一鴻.體檢中心CRM構(gòu)建及數(shù)據(jù)挖掘的應(yīng)用研究[D].華東理工大學(xué),2011.
[6]潘光強(qiáng).基于數(shù)據(jù)挖掘的CRM設(shè)計與應(yīng)用研究[D].安徽工業(yè)大學(xué),2011.
參考文獻(xiàn):
[1]廖雯.基于客戶生命周期的CRM策略研究[J].商,2015(17):15-15.
[2]陳杭.電子商務(wù)的營銷資源在CRM策略中有效分配探討[J].現(xiàn)代商業(yè),2015(11):42-43.
[3]金子琦.紛享銷客中國式CRM商業(yè)邏輯大復(fù)盤[J].創(chuàng)業(yè)邦,2015(10):90-91.
[關(guān)鍵詞]數(shù)據(jù)挖掘 風(fēng)險評估 集裝箱
一、引言
隨著我國對外貿(mào)易的快速發(fā)展,進(jìn)境箱量顯著增長?!笆晃濉逼陂g,檢出攜帶疫情及有毒有害物質(zhì)箱數(shù)呈持續(xù)增長趨勢。僅2010年度,共受理進(jìn)境集裝箱申報3699.06萬箱,同比增長14.04%,檢出攜帶疫情或有毒有害物質(zhì)的43.66萬箱,比去年同期提高了28.20%。進(jìn)境檢出疫情箱數(shù)占查驗箱數(shù)的比例(即查驗檢出率)為3.26%,同比提高0.43個百分點。這反映出進(jìn)境集裝箱攜帶疫情及有毒有害物質(zhì)情況十分普遍,進(jìn)境集裝箱檢疫面臨形勢十分嚴(yán)峻。
目前,在進(jìn)境集裝箱檢疫工作中主要采用以人工判斷為主的經(jīng)驗式方法,效率比較低,工作量繁重,經(jīng)驗知識傳承性差。但是在多年來的實踐過程中,我們已經(jīng)積累了大量的經(jīng)驗和數(shù)據(jù)。通過數(shù)據(jù)挖掘技術(shù)在已有的數(shù)據(jù)中發(fā)現(xiàn)未知的模式和知識可以為入境集裝箱風(fēng)險進(jìn)行評估,并為檢疫業(yè)務(wù)決策提供輔助支持。
二、數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。簡而言之,數(shù)據(jù)挖掘其實是一類深層次的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘已廣泛應(yīng)用于生物醫(yī)學(xué)、金融、零售業(yè)、電信業(yè)、海關(guān)監(jiān)管等領(lǐng)域,并產(chǎn)生了巨大的效益。數(shù)據(jù)挖掘技術(shù)同樣能夠?qū)⒋罅康臋z疫數(shù)據(jù)提煉、轉(zhuǎn)化為可以理解和應(yīng)用的模式和知識來指導(dǎo)檢疫業(yè)務(wù)。
數(shù)據(jù)分類(DataClassification)是數(shù)據(jù)挖掘技術(shù)的一個重要分支。從根本上說,數(shù)據(jù)分類就是通過對源數(shù)據(jù)的特點進(jìn)行歸納和描述。要進(jìn)行數(shù)據(jù)分類,必須使用特定的分類工具,方法主要包括:ID3算法、C4.5算法、SPRINT算法、SLIQ算法、EM算法、AQ算法、CN2算法等。數(shù)據(jù)分類是數(shù)據(jù)挖掘的基本功能、重要功能,目前在商業(yè)、工業(yè)、軍事、生活、海關(guān)監(jiān)管上應(yīng)用最多,具有非常高的使用價值。
三、數(shù)據(jù)概念模型
根據(jù)從進(jìn)境集裝箱中檢出疫情及有毒有害物質(zhì)情況的不同,將檢出問題分為7類,分別是:①人類傳染病和動物傳染病病原體;②植物危性病、蟲、雜草以及其它有害生物;③嚙齒動物、蚊、蠅、蟑螂等病媒生物;④土壤、動物尸體等禁止進(jìn)境物;⑤動植物殘留物;⑥生活垃圾及其他有毒有害物質(zhì);⑦其他問題——7類問題,對應(yīng)每一類問題需要建立一個可用于數(shù)據(jù)挖掘的數(shù)據(jù)概念模型,其主要包括:
(1)7大類問題集裝箱同諸如:①來源地;②箱主公司;③承運(yùn)人;④貨運(yùn)方式等特征數(shù)據(jù)存在哪些未知的、潛在有用的模式和知識,明確對每類問題集裝箱產(chǎn)生影響的特征數(shù)據(jù),建立一套對應(yīng)各類問題集裝箱的風(fēng)險數(shù)據(jù)字典;
(2)CIQ數(shù)據(jù)庫中并不包含所有的特征數(shù)據(jù),一些重要的特征數(shù)據(jù)需要通過與場站、貨運(yùn)公司的比對才能獲得。同時,要對數(shù)據(jù)進(jìn)行采集、清洗、轉(zhuǎn)換等步驟,建立可以用于數(shù)據(jù)挖掘的數(shù)據(jù)概念模型。
四、風(fēng)險評估模型
對進(jìn)境集裝箱進(jìn)行風(fēng)險評估主要用到數(shù)據(jù)挖掘中的重要分支——分類技術(shù),建立和完善風(fēng)險評估模型關(guān)系到風(fēng)險評估系統(tǒng)研究的成敗,主要研究內(nèi)容如下:
(1)分類技術(shù)有ID3算法、C4.5算法、SPRINT算法、SLIQ算法等,結(jié)合檢疫工作實際選擇合適的算法進(jìn)行數(shù)據(jù)挖掘,并在實踐中對模型進(jìn)行修正和完善;
(2)選擇和使用SAS公司提供的SAS/BASE、SAS/STAT、SAS/LAB等模塊化分析工具對7類問題集裝箱進(jìn)行逐類數(shù)據(jù)挖掘、建模。
五、典型系統(tǒng)應(yīng)用開發(fā)
基于上述的研究成果,設(shè)計實現(xiàn)一個基于數(shù)據(jù)挖掘技術(shù)的進(jìn)境集裝箱風(fēng)險評估管理系統(tǒng),重點關(guān)注下面系統(tǒng),如圖1所示:
(1)面向檢疫查驗人員設(shè)計并實現(xiàn)一個基于Web技術(shù)的軟件系統(tǒng),通過此軟件,檢疫管理人員可以將已有風(fēng)險評估模型軟件化,系統(tǒng)接收進(jìn)境集裝箱特征數(shù)據(jù),自動對風(fēng)險進(jìn)行預(yù)評估。同時,將用于風(fēng)險評估的數(shù)據(jù)獨立于CIQ數(shù)據(jù)庫存在,為以后進(jìn)一步完善風(fēng)險評估模型提供數(shù)據(jù)庫支持。
(2)面向檢疫查驗人員設(shè)計并實現(xiàn)一個軟件終端,考慮到檢疫查驗一線人員工作環(huán)境分散、移動的特點,重點面向主流嵌入式系統(tǒng)(Apple、Angel、Symban、Windows-Mobile等)和移動終端(如手機(jī)、PDA、iPOD等)展開研發(fā)。
圖 基于數(shù)據(jù)挖掘技術(shù)的風(fēng)險評估系統(tǒng)
六、結(jié)論
針對出入境檢驗檢疫部門在對進(jìn)境集裝箱檢疫查驗中盲目性大、工作效率低等客觀實際,研究一個基于數(shù)據(jù)挖掘技術(shù)的進(jìn)境集裝箱風(fēng)險評估模型,并將其軟件化、實用化,通過軟件自動對進(jìn)境集裝箱進(jìn)行風(fēng)險等級評估,指導(dǎo)日常檢疫查驗工作,降低檢驗查驗的盲目性,提升檢疫查驗人員的工作效率,提高把關(guān)成效。
參考文獻(xiàn):
[1]舒軍生.數(shù)據(jù)挖掘技術(shù)在企業(yè)信用分類管理系統(tǒng)中的應(yīng)用.安徽:安徽大學(xué)碩士論文.2010
[2]高燕. 基于數(shù)據(jù)挖掘技術(shù)的海關(guān)執(zhí)法評估系統(tǒng)的研究與開發(fā).武漢:武漢理工大學(xué)碩士論文.2002
論文摘要:隨著數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的不斷進(jìn)步,數(shù)據(jù)挖掘技術(shù)逐步發(fā)展起來,作為當(dāng)前計算機(jī)信息技術(shù)中的一項較為新興的技術(shù),綜合運(yùn)用了數(shù)理統(tǒng)計、模式識別、計算智能、人工智能等多項先進(jìn)技術(shù),主要是從大量的數(shù)據(jù)中來發(fā)現(xiàn)和挖掘一些隱含的有價值的知識,從大型的數(shù)據(jù)庫數(shù)據(jù)中挖掘一些人們比較感興趣的知識,本文主要講了數(shù)據(jù)挖掘技術(shù)的概念、數(shù)據(jù)挖掘技術(shù)在保護(hù)設(shè)備故障信息中的實現(xiàn)方法以及數(shù)據(jù)挖掘技術(shù)保護(hù)設(shè)備故障信息管理的基本功能等問題。
數(shù)據(jù)挖掘技術(shù)作為當(dāng)前計算機(jī)信息技術(shù)中的一項較為新興的技術(shù),綜合運(yùn)用了數(shù)理統(tǒng)計、模式識別、計算智能、人工智能等多項先進(jìn)技術(shù),主要是從大量的數(shù)據(jù)中來發(fā)現(xiàn)和挖掘一些隱含的有價值的知識,也就是從大型的數(shù)據(jù)庫數(shù)據(jù)中挖掘一些人們比較感興趣的知識,這些被提取的知識通常會表現(xiàn)為模式、規(guī)律、規(guī)則和概念,將數(shù)據(jù)挖掘的所有對象定義成數(shù)據(jù)庫或者是文件系統(tǒng)以及其他的一些組織在一起的數(shù)據(jù)集合,數(shù)據(jù)挖掘技術(shù)也是現(xiàn)在智能理論系統(tǒng)的重要研究內(nèi)容,已經(jīng)開始被應(yīng)用于行政管理、醫(yī)學(xué)、金融、商業(yè)、工業(yè)等不同的領(lǐng)域當(dāng)中,在保護(hù)設(shè)備故障信息管理方面發(fā)揮出了積極的作用。
一、數(shù)據(jù)挖掘技術(shù)的概念
隨著數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的不斷進(jìn)步,數(shù)據(jù)挖掘技術(shù)逐步發(fā)展起來,主要是指從大量的數(shù)據(jù)中發(fā)現(xiàn)和挖掘一些隱含的有價值的有用信息和知識,這些被提取的知識通常會表現(xiàn)為模式、規(guī)律、規(guī)則和概念,將數(shù)據(jù)挖掘的所有對象定義成數(shù)據(jù)庫或者是文件系統(tǒng)以及其他的一些組織在一起的數(shù)據(jù)集合,當(dāng)前數(shù)據(jù)挖掘技術(shù)已經(jīng)逐漸被應(yīng)用于了醫(yī)藥業(yè)、保險業(yè)、制造業(yè)、電信業(yè)、銀行業(yè)、市場營銷等不同的領(lǐng)域,隨著計算技術(shù)、網(wǎng)絡(luò)技術(shù)以及信息技術(shù)的不斷進(jìn)步,在故障診斷過程中所采集到的數(shù)據(jù)可以被廣泛地存儲在不同的數(shù)據(jù)庫當(dāng)中,如果依然采用傳統(tǒng)的數(shù)據(jù)處理方法來對這些海量的信息數(shù)據(jù)進(jìn)行分析處理,不僅會浪費大量的實踐而且也很難挖掘到有效的信息數(shù)據(jù),同時,盡管智能診斷以及專家系統(tǒng)等方式在故障的診斷過程中已經(jīng)被得到了廣泛的應(yīng)用,但是這些方法卻仍然存在著很多推理困難、知識瓶頸等一些尚未完全被解決的問題,采用數(shù)據(jù)挖掘技術(shù)就可以比較有效地來解決這些難題,在故障診斷的過程中發(fā)揮其獨特的優(yōu)勢。從不同的角度進(jìn)行分析,數(shù)據(jù)挖掘技術(shù)可以分為不同的方法,就目前的發(fā)展現(xiàn)狀來看,常用的數(shù)據(jù)挖掘技術(shù)方法主要有遺傳算法、粗集方法、神經(jīng)網(wǎng)絡(luò)方法以及決策樹方法等。
二、數(shù)據(jù)挖掘技術(shù)在保護(hù)設(shè)備故障信息中的實現(xiàn)方法
1.基本原理。在設(shè)備出現(xiàn)故障時采用數(shù)據(jù)挖掘技術(shù)對設(shè)備進(jìn)行一系列的故障診斷,也就是說根據(jù)這一設(shè)備的運(yùn)行記錄,對其運(yùn)行的趨勢進(jìn)行預(yù)測,并對其可能存在的運(yùn)行狀態(tài)進(jìn)行分類,故障診斷的實質(zhì)就是一種模式識別方式,對機(jī)器設(shè)備的故障進(jìn)行診斷的過程也就是該模式匹配和獲取的過程。
2.對故障診斷的數(shù)據(jù)挖掘方法建模。針對機(jī)械故障的診斷來說,首先就應(yīng)當(dāng)獲取一些關(guān)于本機(jī)組的一些運(yùn)行參數(shù),既要包括機(jī)器在正常運(yùn)行以及平穩(wěn)工作時的信息數(shù)據(jù),也應(yīng)當(dāng)包括機(jī)器在出現(xiàn)故障時的一些信息數(shù)據(jù),在現(xiàn)場的監(jiān)控系統(tǒng)中往往就會存在著相應(yīng)的正常工作狀態(tài)下以及出現(xiàn)故障時的不同運(yùn)行參數(shù),而數(shù)據(jù)挖掘的任務(wù)就是從這些雜亂無章的信息樣本庫中找出其中所隱藏著的內(nèi)在規(guī)律,并且從中提取各自故障的不同特征,在對故障的模式進(jìn)行劃分時,我們通??梢越柚怕式y(tǒng)計的方式,在對故障模式進(jìn)行識別時可以采用較為成熟的關(guān)聯(lián)規(guī)則理論,實現(xiàn)變量之間的關(guān)聯(lián)關(guān)系,并最終得到分類所需要用到的一些規(guī)則,從而最終達(dá)到分類的目的,依據(jù)這些規(guī)則,就可以對一些新來的數(shù)據(jù)進(jìn)行判斷,而且可以準(zhǔn)確地對故障進(jìn)行分類,找出故障所產(chǎn)生的原因和解決故障的正確方法。
三、數(shù)據(jù)挖掘技術(shù)保護(hù)設(shè)備故障信息管理的基本功能
1.數(shù)據(jù)傳輸功能。數(shù)據(jù)挖掘技術(shù)保護(hù)設(shè)備故障信息管理與分析系統(tǒng)的主要數(shù)據(jù)來源就是故障信息的分站系統(tǒng),而分站系統(tǒng)中的數(shù)據(jù)是各個子站的一個數(shù)據(jù)匯總,而保護(hù)設(shè)備故障信息管理與分析系統(tǒng)所采用的獲取數(shù)據(jù)的主要方式就是一些專門的通信程序構(gòu)建起系統(tǒng)與分站之間的聯(lián)系,將分站上的一些匯總數(shù)據(jù)傳輸?shù)焦收闲畔⑾到y(tǒng)的數(shù)據(jù)庫中,分析系統(tǒng)所具有的數(shù)據(jù)傳輸功能,在進(jìn)行數(shù)據(jù)的處理時又能做到不影響原先分站數(shù)據(jù)庫的正常運(yùn)行,并且具備抗干擾能力強(qiáng)、計算效率高的優(yōu)點。
2.數(shù)據(jù)的分析功能。系統(tǒng)在正常運(yùn)行時,會從故障信息子站或者是分站采集相關(guān)的數(shù)據(jù)并且對這些采集到的數(shù)據(jù)進(jìn)行分析整理,最終得到有用的數(shù)據(jù)信息,利用數(shù)據(jù)挖掘技術(shù)對龐大的故障數(shù)據(jù)進(jìn)行分析、分類以及整理,能夠有效地找出有用的信息,歸并一些冗余的信息,對信息進(jìn)行有效地存儲和分類。另外,數(shù)據(jù)挖掘技術(shù)還具有信息查詢的功能,可以進(jìn)行不同條件下的查詢,例如按時間段、報告類型、設(shè)備型號以及單位等進(jìn)行查詢,實現(xiàn)查詢后的備份轉(zhuǎn)存等,根據(jù)故障信息系統(tǒng)所提供高的數(shù)據(jù)信息以及本系統(tǒng)庫中所保存的一些整定阻抗值,可以通過邏輯判斷生產(chǎn)繼電保護(hù)動作的分析報告,主要包括對故障過程的簡述、故障切除情況以及保護(hù)動作情況等,可以便于繼電保護(hù)人員直觀的對保護(hù)裝置的動作情況進(jìn)行分析。
四、結(jié)語
隨著企業(yè)自動化程度的不斷提高以及數(shù)據(jù)庫技術(shù)的迅速發(fā)展,很多企業(yè)在一些重要的設(shè)備方面都安裝了監(jiān)測系統(tǒng),對設(shè)備運(yùn)行過程中的一些重要參數(shù)和數(shù)據(jù)進(jìn)行采集,采用數(shù)據(jù)挖掘技術(shù)可以有效地解決設(shè)備故障診斷中的一些知識獲取瓶頸,將數(shù)據(jù)挖掘系統(tǒng)充分應(yīng)用到監(jiān)控系統(tǒng)中,有效解決故障診斷中的一些困難,事實證明,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到故障診斷中是非常有效的,也是值得研究和學(xué)習(xí)的新型技術(shù)手段。
參考文獻(xiàn):
[1]李勛,龔慶武,楊群瑛,羅思需,李社勇.基于數(shù)據(jù)挖掘技術(shù)的保護(hù)設(shè)備故障信息管理與分析系統(tǒng)[j].電力自動化設(shè)備,2011,9
[2]李建業(yè),劉志遠(yuǎn),蔡乾,趙洪波.基于web的故障信息系統(tǒng)[j].電力信息化,2007,s1
>> 基于網(wǎng)絡(luò)數(shù)據(jù)挖掘的個性化電子商務(wù)推薦系統(tǒng)研究 基于大數(shù)據(jù)的社團(tuán)個性化推薦系統(tǒng) 基于swarm平臺和社交網(wǎng)絡(luò)的電子商務(wù)個性化推薦系統(tǒng)仿真模型的理論構(gòu)建 網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書館個性化推薦中的應(yīng)用研究 基于個性化推薦的網(wǎng)絡(luò)營銷 基于數(shù)據(jù)挖掘的電子政務(wù)個性化推薦服務(wù)框架研究 基于數(shù)據(jù)挖掘的個性化智能推薦系統(tǒng)應(yīng)用研究 基于社交網(wǎng)絡(luò)的個性化知識服務(wù)模型研究 基于免疫進(jìn)化的網(wǎng)絡(luò)教學(xué)資源個性化推薦系統(tǒng)研究 移動社會網(wǎng)絡(luò)中基于位置的個性化餐館推薦建模研究 基于IPTV的個性化推薦技術(shù)的研究 個性化好友推薦系統(tǒng)在社交網(wǎng)站上的應(yīng)用研究 基于社交網(wǎng)絡(luò)的社會化推薦算法研究 基于個性化混合推薦算法的網(wǎng)絡(luò)推薦系統(tǒng) 基于數(shù)據(jù)挖掘的個性化推薦在SNS中的應(yīng)用 基于Web使用數(shù)據(jù)挖掘的個性化推薦系統(tǒng)設(shè)計 基于小數(shù)據(jù)的高校圖書館個性化推薦 基于個性化推薦學(xué)習(xí)的網(wǎng)絡(luò)培訓(xùn)教學(xué)課程平臺的設(shè)計與實現(xiàn) 基于網(wǎng)絡(luò)學(xué)習(xí)行為的個性化評價研究 社會化標(biāo)簽系統(tǒng)中基于本體的個性化推薦方法研究 常見問題解答 當(dāng)前所在位置:l
[2]張婷婷. 社會化網(wǎng)絡(luò)中人際關(guān)系與人際傳播研究[D].長沙:湖南大學(xué),碩士學(xué)位論文,2012
[3]王萍. 社會化網(wǎng)絡(luò)的信息擴(kuò)散研究[J]. 情報雜志,2009,28(10):39-42
南京大學(xué)的周志華教授曾專門撰文論述了數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)以及數(shù)據(jù)庫之間的關(guān)系,他提出:數(shù)據(jù)挖掘可以視為機(jī)器學(xué)習(xí)和數(shù)據(jù)庫的交叉,主要利用機(jī)器學(xué)習(xí)界提供的技術(shù)來分析海量數(shù)據(jù),利用數(shù)據(jù)庫界提供的技術(shù)來管理海量數(shù)據(jù)。
組成數(shù)據(jù)挖掘的三大支柱包括統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)和數(shù)據(jù)庫領(lǐng)域內(nèi)的研究成果,其他還包含了可視化、信息科學(xué)等內(nèi)容。不同的教材從不同的方面結(jié)合其基礎(chǔ)學(xué)科知識講述數(shù)據(jù)挖掘技術(shù),不同專業(yè)和技術(shù)背景的學(xué)生或數(shù)據(jù)挖掘研究人員和應(yīng)用人員可以根據(jù)自身的專業(yè)方向選擇不同的數(shù)據(jù)挖掘切入點。下面簡單歸納目前比較主流的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)方面的教材。
數(shù)據(jù)挖掘:概念與技術(shù)
原書名:Data Mining:Concepts and techniques
作者:Jiawei Han
本書主要從數(shù)據(jù)庫的角度(數(shù)據(jù)管理和數(shù)據(jù)計算的角度)講解數(shù)據(jù)挖掘,作者Jiawei Han現(xiàn)任UIUC CS Dept.教授。本書第2版在豐富和全面的第1版基礎(chǔ)上進(jìn)行了更新和改進(jìn),并增添了新的重要課題,例如挖掘流數(shù)據(jù)、挖掘社會網(wǎng)絡(luò)和挖掘空間、多媒體和其他復(fù)雜數(shù)據(jù)。本書對數(shù)據(jù)挖掘基本概念、算法及其相關(guān)技術(shù)有比較全面的闡述,是國內(nèi)大多數(shù)高校指定教材,它不要求太高的數(shù)學(xué)基礎(chǔ),非常適合數(shù)學(xué)功底一般的學(xué)生使用。
數(shù)據(jù)挖掘:實用機(jī)器學(xué)習(xí)技術(shù)(原書第2版)
原書名:Data Mining: Practical Machine Learning Tools and Techniques
作者:Ian H. Witten, Eibe Frank
本書主要從機(jī)器學(xué)習(xí)的角度,也有稱從數(shù)據(jù)挖掘的應(yīng)用實現(xiàn)角度來講解數(shù)據(jù)挖掘,描述了各種算法、模型及其Java實現(xiàn),重點是以應(yīng)用的觀點利用案例來說明數(shù)據(jù)挖掘的算法模型,對于具體算法的原理介紹不是非常詳細(xì)。它對數(shù)據(jù)挖掘的Java軟件包Weka有比較深的介紹。該書作者都是Weka項目組主要成員。圖靈獎獲得者Jim Gray如此評價:假如你需要對數(shù)據(jù)進(jìn)行分析和應(yīng)用,本書以及相關(guān)的Weka工具包是一個絕佳的起步。
數(shù)據(jù)挖掘原理
原書名:Principles of Data Mining
作者:David J. Hand
很多學(xué)科都面臨著一個普遍問題,即如何存儲、訪問異常龐大的數(shù)據(jù)集,并用模型來描述和理解它們。這些問題使得人們對數(shù)據(jù)挖掘技術(shù)的興趣不斷增強(qiáng)。長期以來,很多相互獨立的不同學(xué)科分別致力于數(shù)據(jù)挖掘的各個方面。本書把信息科學(xué)、計算科學(xué)和統(tǒng)計學(xué)在數(shù)據(jù)挖掘方面的應(yīng)用融合在一起,是第一本真正跨學(xué)科的教材。主要從統(tǒng)計學(xué)的角度來解析數(shù)據(jù)挖掘以及其與統(tǒng)計的關(guān)系。其中如建模、測量、評分函數(shù)、模型等術(shù)語都是從統(tǒng)計者的角度出發(fā)。書中并沒有具體說明KDD與DM之間的關(guān)系,比較適于統(tǒng)計系和數(shù)學(xué)系的學(xué)生采用。
機(jī)器學(xué)習(xí)
原書名:Machine Learning
作者:Tom Mitchell
本書是CMU等許多國際知名大學(xué)機(jī)器學(xué)習(xí)課程的教材。目前發(fā)表的各種機(jī)器學(xué)習(xí)專著或論文基本都會引用這本書的內(nèi)容。作者Tom Mitchell是CMU的教授,美國人工智能協(xié)會的主席,《機(jī)器學(xué)習(xí)》雜志和“國際機(jī)器學(xué)習(xí)”年度會議的創(chuàng)始人,他在ML領(lǐng)域久負(fù)盛名。本書也是最經(jīng)典和采用率最高的機(jī)器學(xué)習(xí)教材。本書需要的數(shù)學(xué)基礎(chǔ)也很少,但對必要的背景介紹相當(dāng)豐富,非常適合初學(xué)者。
模式分類(原書第2版)
原書名:Pattern classification
關(guān)鍵詞:數(shù)據(jù)挖掘;圖書采購;策略;SPSS
Data mining technology in book purchase application
Xu Yi
Dalian vocational & technical college, Dalian, 116037, China
Abstract: Data mining technology is a kind of technology which can be hidden in the multitudinous data information of which the useful information to rules, concepts, rules and models and other forms were extracted. The application of data mining technology to the book procurement strategy development work in mining, computer management system of library potential while well improve the management level and the level of reader service.
Key words: data mining; book purchases; tactic; SPSS
在信息高速傳播、知識飛速更新的今天,圖書館只有正確合理地進(jìn)行圖書采購,才能夠更好地實現(xiàn)其“在最恰當(dāng)?shù)臅r機(jī),將最合適的圖書,提供給最需要的讀者”的目標(biāo)。采用目前流行的數(shù)據(jù)挖掘技術(shù),可以很好地對圖書館讀者實際借閱情況進(jìn)行分析,從而得出能夠正確指導(dǎo)圖書采購策略制定的信息,以保證圖書館能夠更好地為讀者服務(wù)。
1 數(shù)據(jù)挖掘簡介
數(shù)據(jù)挖掘是一門涉及人工智能、數(shù)理統(tǒng)計、數(shù)據(jù)庫、可視化、并行計算等多領(lǐng)域的交叉性新興學(xué)科。數(shù)據(jù)挖掘就是將隱藏在大量數(shù)據(jù)信息中的那些對用戶有用的信息提取出來的過程,這些信息通常會以:規(guī)則、概念、規(guī)律以及模式等形式展現(xiàn)出來,而提取的過程往往要采用一些特殊手段的非平凡過程,即數(shù)據(jù)挖掘技術(shù)。提取出來的信息可以幫助決策者分析歷史的和當(dāng)前的數(shù)據(jù),發(fā)現(xiàn)隱藏在其中的聯(lián)系和規(guī)律,從而對未來可能發(fā)生的情況進(jìn)行合理地判斷和預(yù)測[1]。
2 基于數(shù)據(jù)挖掘的圖書采購策略
描述式數(shù)據(jù)挖掘和預(yù)測式數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)的兩種形式。描述式數(shù)據(jù)挖掘又稱概念描述,是數(shù)據(jù)挖掘的最基本形式,以簡明扼要的形式來描述給定的數(shù)據(jù)集,體現(xiàn)了數(shù)據(jù)的特征。我們使用特征化描述方式的數(shù)據(jù)挖掘方法,根據(jù)讀者借書的歷史記錄,發(fā)現(xiàn)并描述讀者的真正需求。實現(xiàn)特征化描述主要有準(zhǔn)備數(shù)據(jù)、相關(guān)分析、歸納特征屬性、表示和使用挖掘結(jié)果幾個基本階段[2]。
圖1 流程圖
2.1 準(zhǔn)備數(shù)據(jù)
獲得有關(guān)數(shù)據(jù)、對數(shù)據(jù)進(jìn)行初步處理和準(zhǔn)備。具體步驟如下:
(1)獲取主要字段:讀者類型、專業(yè)、書名、主題、編著者、出版社、出版時間、價格、索書號、條碼等。
(2)整合數(shù)據(jù)歸納成庫,保證相同字段的數(shù)據(jù)在類型格式上一致。
(3)拆分“主題”字段,限制1本書最多包含3個主題詞,即3個主題字段,其他忽略。
(4)拆分合并后的數(shù)據(jù)庫,按學(xué)科不同分成各學(xué)科的子庫(這在數(shù)據(jù)挖掘過程中稱為數(shù)據(jù)分組),對各個子庫分別進(jìn)行處理。
2.2 相關(guān)分析
對待挖掘數(shù)據(jù)庫中的字段進(jìn)行分析,剔除掉那些相關(guān)性不足的字段。具體步驟如下:
(1)選用恰當(dāng)?shù)姆椒▽傩宰侄芜M(jìn)行分析;
(2)將待挖掘數(shù)據(jù)庫中的相關(guān)性不足字段剔除掉;
(3)整理保留的字段,主要有:讀者類型、主題1、主題2、主題3、編著者、出版社。
2.3 歸納特征屬性
根據(jù)實際情況,只進(jìn)行單因素分析,即只計算比較單一屬性值域讀者需求的關(guān)聯(lián)程度。
2.4 表示和使用結(jié)果
使用條形圖、曲線圖以及餅分圖等圖表形式將分析結(jié)果表現(xiàn)出來。用圖書借閱次數(shù)來表示圖書的人氣系數(shù),人氣系數(shù)越高表明該類型的圖書越受讀者歡迎,計算公式為:
式中P為任一主題總的人氣系數(shù),m為主題在挖掘數(shù)據(jù)庫中出現(xiàn)的次數(shù),rj為主題的權(quán)系數(shù),rj∈{3,2,1},Ki為借閱頻率系數(shù)[3]。
3 數(shù)據(jù)挖掘在圖書采購中的應(yīng)用
這里筆者以所在學(xué)院的圖書館為研究對象進(jìn)行研究。
3.1 統(tǒng)計數(shù)據(jù)
為了能夠較真實地反應(yīng)學(xué)院師生對圖書借閱的情況,筆者設(shè)計了一份調(diào)查問卷,對學(xué)院電氣系和汽車系的圖書借閱者進(jìn)行訪問。該調(diào)查問卷包括單選題和多選題,內(nèi)容涵蓋了職業(yè)、系別、圖書種類等(見表1)。
表1 借閱者借閱圖書類別調(diào)查問卷
3.2 定義變量
對數(shù)據(jù)的定義筆者采用多項選擇的二分法(Multiple dichotomy method),即將所有因素都設(shè)成一個變量,每個變量只有“1”和“0”兩個水平值,代表“是”和“否”。例如用1來代表教師,0代表學(xué)生;專業(yè)方面用1表示電氣系,0表示汽車系;圖書類別中用1表示“經(jīng)常借閱”,0表示“不經(jīng)常借閱”。
3.3 分析數(shù)據(jù)
在這里選用SPSS統(tǒng)計分析軟件對數(shù)據(jù)進(jìn)行分析。
3.3.1 多重反應(yīng)頻數(shù)分析(見表2和表3)
3.3.2 多重反應(yīng)列聯(lián)表分析(見表4~7)
根據(jù)這些分析結(jié)果,圖書采購人員就能夠很好地制定出恰當(dāng)適用的圖書采購計劃[4]。
4 結(jié)束語
以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ),對實際圖書館中讀者的借閱情況進(jìn)行問卷調(diào)查,再利用SPSS軟件對所調(diào)查問卷進(jìn)行系統(tǒng)分析,雖然問卷數(shù)目較少,但對圖書館分析讀者借閱需求指導(dǎo)圖書采購提高服務(wù)能力有一定的幫助。
參考文獻(xiàn)
[1] JiaweiHan, MichelineKamber.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2007.
[2] 吳奕寬.淺論信息在教材圖書采購中的應(yīng)用[J].情報科學(xué),2002,20(1):28-30.
級別:省級期刊
榮譽(yù):中國優(yōu)秀期刊遴選數(shù)據(jù)庫
級別:統(tǒng)計源期刊
榮譽(yù):中國優(yōu)秀期刊遴選數(shù)據(jù)庫
級別:省級期刊
榮譽(yù):中國期刊全文數(shù)據(jù)庫(CJFD)
級別:部級期刊
榮譽(yù):中國優(yōu)秀期刊遴選數(shù)據(jù)庫
級別:CSCD期刊
榮譽(yù):中國優(yōu)秀期刊遴選數(shù)據(jù)庫