公務員期刊網 精選范文 數據挖掘技術研究范文

數據挖掘技術研究精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數據挖掘技術研究主題范文,僅供參考,歡迎閱讀并收藏。

數據挖掘技術研究

第1篇:數據挖掘技術研究范文

關鍵詞:人工智能;數據挖掘;發(fā)展前景

當今社會已經進入了人工智能時代,人工智能的應用,大大改善了我們的生活。大數據時代已經來臨,不論是從數據的使用,挖掘,處理等方面,都為人工智能的應用起到了基礎和保障。

1人工智能

1.1人工智能的定義。人工智能(ArtificialIntelligence),簡稱AI。屬于計算機學科下的分支,顧名思義,它是一門專門研究類人化的智能機器學科,即利用現階段科學的研究方法和技術,研制出具有模仿、延伸和擴展人類智能的機器或智能系統(tǒng),從而實現利用機器模仿人類智能的一切行為。1.2人工智能的研究背景。在1956年的達特矛斯會議上,“人工智能”這一術語正式由麥卡錫提議并采用了,隨后人工智能的研究取得了許多引人注目的成就。在這之后,科研人員進行了許多的研究和開發(fā),人工智能這個話題也取得了飛速的發(fā)展。人工智能是一門極具挑戰(zhàn)性的科學,從事這項工作的人必須了解計算機知識、心理學和哲學理念。人工智能的研究包涵廣泛的科學知識,以及其他領域的知識,如機器學習、計算機視覺等。一般來說,人工智能研究的主要目標是使機器能夠做一些通常需要人工智能完成復雜工作的機器。1.3人工智能的研發(fā)歷程。早期研究領域:人工智能專家系統(tǒng),機器學習,模式識別,自然語言理解,自動定理證明,自動編程,機器人,游戲,人工神經網絡等,現在涉及以下研究領域:數據挖掘,智能決策系統(tǒng),知識工程,分布式人工智能等。數據挖掘的出現使得人工智能的研究在應用領域得到廣泛的發(fā)展。以下簡要介紹其中的幾個重要部分:(1)專家系統(tǒng)。所謂專家系統(tǒng)就是控制計算的智能化程序系統(tǒng),通過研發(fā)人員總結歸納了專業(yè)學科知識和日常經驗,能夠知道計算機完成某個領域內的專業(yè)性活動或者解決某些專業(yè)級別的問題。人工智能技術可以合理利用已知的經驗體系在復雜環(huán)境中,解決和處理復雜問題。(2)機器系統(tǒng)。機器系統(tǒng)簡單說就是機器人通過人造神經系統(tǒng),借助于網絡或者存儲系統(tǒng)汲取系統(tǒng)的知識進行開發(fā)研究。(3)感知仿生。感知仿生系統(tǒng)通過模擬人類的感官,感知生物學特征,通過人工智能機器的感部件對外界外部環(huán)境進行感知,識別,判斷,分析的能力。能夠更好的適應環(huán)境,做出判斷。(4)數據重組和發(fā)掘。是指通過人工智能系統(tǒng),結合當前先進的理念,對大數據的總結歸納,識別存儲,調取等應用。通過數據的加工處理,能夠主動做出判斷和分析。(5)人工智能模式。分布式人工智能是模式之一,該系統(tǒng)利用系統(tǒng)有效的規(guī)避和克服系統(tǒng)資源在某段時間內的局限性,并能有效地改善因資源造成的時間和空間不均衡問題。它具備,模式自動轉換,并行處理,開放啟發(fā)方式,冗余且容錯糾錯的能力。

2數據挖掘

2.1數據挖掘的定義。數據挖掘(DataMining,DM)是揭示數據中存在的模式和數據關系的學科,強調處理大型可觀察數據庫。數據挖掘的出現使得人工智能的研究在應用領域得到了廣泛的發(fā)展。這里包括數據挖掘和智能信息提取過程,前者從大量復雜的現實世界數據中挖掘出未知和有價值的模式或規(guī)則,后者是知識的比較,選擇和總結出來的原則和規(guī)則,形成一個智能系統(tǒng)。2.2數據挖掘的研究現狀。當前數據挖掘應用主要集中在電信、零售、農業(yè)、網絡日志、銀行、電力、生物、天體、化工、醫(yī)藥等方面。看似廣泛,實際應用還遠沒有普及。而據Gartner的報告也指出,數據挖掘會成為未來10年內重要的技術之一。而數據挖掘,也已經開始成為一門獨立的專業(yè)學科。2.3數據挖掘的研究發(fā)展。具體發(fā)展趨勢和應用方向主要有:性能方面:數據挖掘設計的數據量會更大,處理的效率會更高,結果也會更精確。工具方面:挖掘工具越來越強大,算法收斂越來越多,預測算法將吸收新穎性算法(支持向量機(SVM),粗糙集,云模型,遺傳算法等),并實現自動化的實現算法,選擇和自動調諧參數。應用:數據挖掘的應用除了應用于大型專門問題外,還將走向嵌入式,更加智能化。例如進一步研究知識發(fā)現方法,對貝葉斯定理和Boosting方法的研究和改進,以及對商業(yè)工具軟件不斷的生成和改進,著重建立整體系統(tǒng)來解決問題,如Weka等軟件。在先進理論的指導下,按照國內形態(tài)發(fā)展,至少需要20年的時間,才能改進數據挖掘的發(fā)展。

3數據挖掘與人工智能技術的聯系

數據挖掘屬于人工智能中獨立系統(tǒng)。它于人工智能的存在關系屬于,并存聯系,且獨立運行,互不從屬。此設計體系一方面可以有效促進人工智能提升學習能力,增進分析能力,另一方面還對分析,統(tǒng)計,OLSP,以及決策支持系統(tǒng)模塊等起到推動作用。在收挖掘應用領域,處理可以對WEB挖掘,還能夠有效進行文本,數據庫,知識庫,不同領域不同學科的信息進行序列矩陣模式挖掘?;跀祿旧淼姆诸?,辨識,關聯規(guī)則,聚類算法更加博大精深。因此,獨立于人工智能的數據挖掘,更加便于科研團體或者領域對數據的使用和分析。數據挖掘是人工智能領域的一部分。首先,高智能是數據挖掘和人工智能的最終目標,正是由于這個目標,人工智能和數據挖掘有很多關聯。其次,數據挖掘和人工智能是各種技術的整合。數據挖掘和人工智能是許多學科的跨學科學科。最后,數據挖掘的出現逐漸發(fā)展壯大,加強了人工智能,因此可以說,它們兩者是不可分割的。

4人工智能和數據挖掘技術的發(fā)展前景

在當前環(huán)境下,人工智能和數據挖掘技術具有以下發(fā)展前景:(1)在大數據互聯網中的應用。將人工智能的技術應用于互聯網中將會使網絡技術帶上智能的特性,可以為人們的生活提供智能化的幫助,給人們的生活帶來便利。還可以提高網絡運行效率、增加網絡安全性等。(2)智能化服務的研究。人工智能和數據挖掘都很注重對智能化服務的研究,例如很多智能機器人便應運而生,它們已經能勝任許多簡單的工作,可以為人們提供人性化的服務。高度的智能化是數據挖掘和人工智能研究最終追求的目標,也是二者最終合而為一的標志。(3)使知識產生經濟化。在現階段的知識經濟時代,人工智能和數據挖掘勢必受到經濟的影響,這決定了人工智能和數據挖掘將具有經濟特征。人工智能和數據挖掘技術作為無形資產可以直接帶來經濟效益,通過交流,教育,生產和創(chuàng)新的無形資產將成為知識經濟時代的主要資本。可以預期未來的人工智能和數據挖掘技術將更加經濟實用。(4)交叉學科的技術融合。各行各業(yè)的理論和方法都已經開始融入了人工智能和數據挖掘之中。未來的人工智能和數據挖掘技術必將是一個融合眾多領的復合學科。當今,我們已經在逐漸使用人工智能與數據挖掘技術,去攻克更多難題,解決更多問題,造福人類,改善生活,近在眼前。

作者:喻正夫 單位:漢江師范學院

參考文獻:

[1]萬璞,王麗莎.數據挖掘與人工智能技術研究[J].無線互聯科技,2016(10):113-114.

[2]王翔.試論如何利用大數據挖掘技術推動人工智能繼續(xù)發(fā)展[J/OL].科技創(chuàng)新報,2017,14(01).

[3]秦益文.微博數據挖掘中人工智能推理引擎的應用[J].中小企業(yè)管理與科技(中旬刊),2017(02).

[4]蒲東齊.數據挖掘在人工智能上的應用[J].信息與電腦(理論版),2016(19).

[5]李丹丹.數據挖掘技術及其發(fā)展趨勢[J].電腦應用技術,2007(02):38-40.

第2篇:數據挖掘技術研究范文

1.1對克隆代碼的數據挖掘在軟件工程領域中,對克隆代碼的檢查與測試是最為原始的數據挖掘需求之一,直到目前已經逐漸演變出了很多的方式,其主要可以分為以下幾種:

1.1.1將文本對比作為基礎的方式采用計算機軟件系統(tǒng)中的對比程序代碼中所包含的語句行展開進一步的判斷過程,這種方法在進行后期的改進過程中針對的是對字符串的匹配效率進行提升,提升的辦法有很多,最為主要的就是通過Hash函數技術進行匹配效率優(yōu)化,在這個過程中最為常用的工具為Duploc。

1.1.2將標識符對比作為基礎的方式將標識符對比作為基礎的方式,最具代表性的方式是對由分詞所組成的標識符序列構造前綴樹,并將其作為依據然后進行對比,將標識符對比作為基礎的方式的工具主要有CCFinder、Dup等[3]。

1.2計算機軟件數據檢索挖掘數據檢索挖掘與克隆代碼一樣,同樣是計算機軟件工程中最為原始的數據挖掘需求之一,對于計算機軟件數據檢索挖掘來說其主要分為以下三步:第一步,為數據信息的錄入。所謂的數據信息錄入實際上指的是對于要檢索的信息進行錄入的過程,針對使用者的需求將使用者所需要的數據信息輸入到檢索信息錄入框中進行數據的查找。第二步,為數據信息的查找過程。當客戶所需要的信息進入到數據檢索錄入框中時,進行確認后數據挖掘系統(tǒng)將會根據數據信息中所涵蓋的數據信息內容進行數據庫中的查找,并且根據不同的分類,對查找信息的數據信息資料進行羅列[4]。第三步,為數據信息資料內容的導出和查看,在查找到相關的客戶需要數據內容時,客戶可以根據自己本身的實際需要,進行數據信息的導出或者是在線查看,在數據信息資料導出后,需要應用相關的數據信息查看軟件進行查看。并且客戶在導出數據信息時,會在中形成一定的歷史記錄,對客戶及時查找的數據信息進行記錄與保存,當客戶想要再次進行查找時能夠更為方便與快捷的找到其所需要的數據信息內容。

二、結語

第3篇:數據挖掘技術研究范文

關鍵詞:XML;半結構化數據挖掘

中圖分類號:TP311.13

隨著因特網的發(fā)展,數據信息來源種類逐漸增多,相應的信息復雜性也在增加,傳統(tǒng)的數據存儲和處理方式已經不能很好的滿足實際使用與研究的需求,XML作為一種半結構化數據標準,已經開始被越來越廣泛的應用,而對于此類結構化數據的挖掘也為我們的日常研究提供了一個方向。

對于半結構化數據源的挖掘不同于傳統(tǒng)的數據挖掘。傳統(tǒng)的數據庫中的數據類型工整,數據結構性很強,為完全的結構化數據,因此對于此類數據處理較為簡單,只需要按照其規(guī)律進行分析即可。而對于半結構化的數據則因其表現形式的多樣性,所以對其挖掘要比對于單個數據倉庫的數據挖掘要復雜。

1半結構化數據

半結構化數據有兩種,一種是指該數據在物理層面上缺少結構,另外一種是指該數據在邏輯層上缺少結構。在現有的Web環(huán)境中,有一些結構化的數據,為了用于網頁頁面顯示而采用了與HTML語言標記符號嵌套的方式,因此就構成了第一種物理上的半結構化數據。另外網絡中有眾多的Web頁面,頁面上有著豐富的數據內容,這些數據大多都以HTML文件的方式存在,并沒有嚴格的結構和類型定義,這樣的數據都屬于第二類的邏輯層的半結構化數據。網絡頁面上的數據與傳統(tǒng)數據庫中存儲的數據不同,傳統(tǒng)數據庫內的數據都有一定的數據模型,每個特定的數據都可以根據模型來進行描述,而網絡頁面上的數據很復雜,并且不能按照特定的模型進行描述,每一個站點的數據都遵循其獨立的設計規(guī)則,并且它的數據本身具有自我描述的特性和動態(tài)的可變性。因此網絡頁面上的數據具有一定的結構性,但是其因為具有自述層次的存在,因此屬于一種非完全結構化的數據,也稱為半結構化數據。

2半結構化數據的來源

(1)在Internet上因為對所存儲的數據沒有嚴格模式的限制而產生的半機構化數據,常見的有HTML、XML、SGML等類型的文件。

(2)在電子郵件、電子商務文件、文獻資料等文件中,由于沒有嚴格的格式要求,所以存在著大量結構與內容不固定的半結構化數據。

(3)在包含有異構信息源集成的情況下,由于信息源集成范圍廣泛,對于信息源的存取范圍包括各類數據庫、電子圖書館、知識庫和文件系統(tǒng)等,因此也會產生半結構化數據。

3半結構化數據的幾個特點

(1)包含有隱藏的模式信息。雖然說半結構化數據具有一定的結構,但是由于數據和結構混合在一起,所以并沒有明顯的模式定義。

(2)結構不規(guī)則。半結構化數據的一個數據集合可以由不同結構的元素組成,或者在某些情況下使用不同類型的數據來表示相同的信息。

(3)類型約束不嚴格。半結構化數據由于沒有預先確定的表達模式,并且數據在結構上沒有遵循相同的規(guī)則,因此會導致其缺乏對于數據的嚴格約束。

基于以上幾個半結構化數據模型的特點可以看出半結構化數據缺乏嚴格、完整的數據結構,但是這類數據并非沒有結構,但是它們的結構可能是隱藏的、并不完整的,并且可能是需要不斷進行修改的。

半結構化數據的模式與以往的關系數據模式或者面向對象的數據模式最大的區(qū)別在于半結構化數據是現有數據然后再有模式。不對數據的結構進行強制性的約束,只需要描述出數據的結構信息,并且它只描述數據部分結構的非精確模式,在應用中隨著數據對象的不斷更新而動態(tài)修改其描述,據此分析半結構化數據的數據特點和它所產生的原因,半結構化數據源的挖掘是能夠實現的。

半結構化數據源挖掘技術首先要解決的是數據遠模型及其查詢與集成的問題。要解決網頁頁面上的異構數據的集成與查詢,就必須要有一個適當的模型來對這些數據進行清晰的描述,因此如何創(chuàng)建這個半結構化的數據模型就成為了解決問題的關鍵所在。首先我們需要定義一個半結構化數據模型,其次我們還需要一種適用于此模型的半結構化模型挖掘技術用來的從現有的數據中自動挖掘半結構化模型。對于網頁頁面數據的挖掘就必須以此半結構化數據模型和半結構化數據模型挖掘技術為手段來建立相應的數據庫。

在針對多數據源的數據庫進行半結構化數據提取、表示和查詢的處理一般采用包裝的方式來進行。首先把信息源的數據通過包裝轉換成為目標數據庫所使用的格式和類型。同時處理過程中負責監(jiān)視的部分將自動監(jiān)測信息中的數據變化,如果發(fā)現數據有變化則將這些變化上報,這些變化經過分析發(fā)現有新的數據源連接倉庫系統(tǒng)或者信息源發(fā)生變化時,那么系統(tǒng)就會把這些有變化的數據進行過濾、匯總,并把這些信息源進行匯總處理,并將收集到數據庫中。

此系統(tǒng)對半結構化數據進行處理的過程中所面臨的主要問題就是如何將其轉化為更易于處理的結構化信息。但是對這些半結構化數據進行轉換的目標是龐大的網頁頁面數據源,如果依靠人工手段針對每個數據源編寫相應的轉換方式的話工作量非常代價。因此,我們需要一種能夠快速建造并且直至自動維護的轉換工具。目前這類工具還不是很多,并且使用上并不十分完善。但是,隨著近年來XML及其應用技術的發(fā)展為處理半結構化數據提供了很好的工具和方法。

4XML有如下幾個特點

(1)XML語法具有嚴格的標記規(guī)定;

(2)XML對于各元素之間的順序有著嚴格的先后順序,是按照相應的解釋模式來排列的;

(3)XML中的元素可以包含有多個屬性值?;谝陨蠋讉€特點,如今XML已經成為正式規(guī)范,開發(fā)人員已經開始使用XML格式的標記和交換數據。XML在網頁數據挖掘中可以用于建立信息源層的數據集成,即構建數據倉庫),也可以用于將信息處理結果以XML的形勢發(fā)往數據倉庫,也可以基于數據倉庫將數據進行挖掘和分析處理,還可以將半結構化數據挖掘處理的結果送往應用層。

基于XML的網頁頁面信息提取一般包括頁面捕獲、頁面預處理和半結構化數據提取等方面。其中頁面捕獲有多種方法,一種是直接利用OCX控件,根據提供的入口參數URL來獲取頁面超文本內容;另外一種是利用開發(fā)工具所提供的支持網頁文本獲取的功能接口來獲取。

XML為基于Web的應用提供了強大的功能和廣泛的靈活性,它能為開發(fā)者帶來更多的好處,例如Web數據可以按照XML的格式進行唯一性的表示,因此可以進行更有意義的搜索。有了XML之后,搜索軟件可以不必了解每個數據庫都是如何構建的。在使用XML之前由于每個數據庫描述數據的格式幾乎都不相同并且數據來源廣泛,所以針對不同來源數據進行搜索幾乎是不可能的。但是XML語言能夠將不同來源的半結構化數據進行結合,相關應用集成上可以使用中間層服務器對采集上來的半結構化數據進行挖掘,然后將處理后的數據發(fā)送到最終用戶或者其他服務器做進一步的處理。

XML的豐富擴展性和靈活性使它能夠描述不同類型應用中的數據,并且XML文檔因為是對象模式,因此它允許使用腳本或者其它程語言進行數據處理,數據計算不需要返回到服務器就可以操作。在Web中XML可以被用來分離使用者瀏覽的數據頁面,可以用簡單靈活和開放的格式為Web創(chuàng)建功能強大的云應用,通過創(chuàng)建高效的云計算平臺來為用戶服務,而以前此類軟件只能依靠高端數據庫來構建。

5結束語

XML作為一種結構化數據的工作也標準,為廣大組織、開發(fā)者、網站和終端使用者提供了有利的條件,隨著XML作為WEB上進行數據交換的一種標準方式的逐步發(fā)展,基于XML的半結構化數據挖掘將會變得越來越輕松。

參考文獻:

[1]李效東,顧毓清.基于DOM的Web信息提取[J].計算機學報,2002(5):526-533.

[2]宋中山,曾廣平.基于XML的Web數據挖掘技術[J].中南民族大學學報,2005(1):64-67.

第4篇:數據挖掘技術研究范文

關鍵字:數據挖掘技術;計算機;網絡;病毒防御技術

中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2015)02-0001-02

Abstract: In the computer network virus prevention technology, with respect to the application of data mining technology can quickly within its geographical scope of the data collected classification, so as to provide a reference for computer virus-related information determination. In this paper, the analysis of data mining techniques in computer network virus defense techniques.

Key words: data mining technology; computers; networks; virus defense technology

隨著社會的進步,計算機技術迅速發(fā)展革新,人們已經進入暫新的網絡時代,但與此同時,伴隨著計算機技術的發(fā)展,與計算機網絡一直都存在密切關系的計算機網絡病毒技術也保持著同步發(fā)展,甚至推進到更高水平,給計算機網絡系統(tǒng)安全造成極大的威脅,同時給廣大計算機網絡用戶帶來很大損失,因此,計算機網絡病毒防御技術一直是人們比較關注的問題。數據挖掘技術是一種新型計算機技術,用于計算機網絡病毒的防御系統(tǒng)中可以有效的解決目前發(fā)展猖獗的蠕蟲病毒,進一步保障計算機網絡系統(tǒng)的安全。

1 計算機網絡病毒特點

第一,計算機網絡病毒種類的多樣性。計算機網絡病毒的設計和開發(fā)沒有太大難度,簡單的幾個程序編寫指令就可以開發(fā)設計出各種各樣的網絡病毒,尤其是對于一些技術水平比較高的程序編寫員來講,很容易就可以完成計算機網絡病毒程序的編寫和修改,而且網絡病毒的種類增長和繁殖速度特別快[1]。

第二,計算機網絡病毒傳播形式的多樣性。計算機網絡系統(tǒng)的傳播形式有很多種,網絡病毒在網絡系統(tǒng)漏洞中的傳播就是常見的一種病毒傳播方式,計算機網絡病毒程序通過對Internet 遠程主機系統(tǒng)的搜索和掃描,利用系統(tǒng)漏洞到達控制對方計算機的控制。同時也有一種病毒通過對文件夾的搜索掃描,進行病毒復制,以到達入侵網絡系統(tǒng)的目的。

第三,計算機網絡病毒的針對性。在計算機網絡技術發(fā)展初期,計算機網絡病毒主要目標就是干擾網絡技術人員的程序編寫,隨著計算機技術的快速發(fā)展,計算機網絡病毒的開發(fā)技術和功能作用也發(fā)生了很多變化,如今,計算機網絡病毒的設計和開發(fā)已經開始商業(yè)化,針對性的對計算機網絡系統(tǒng)實施破壞,如通過盜用網銀賬號和密碼等方式已到達非法獲取利益的目的。

2 數據挖掘技術的基本認識

數據挖掘技術是通過對所處一定范圍之內的所有數據進行數據收集、數據分類以及數據歸類,進而來判斷是否存在某種潛在的關系和數據規(guī)律,主要環(huán)節(jié)有3個:第一個是準備數據;第二個是尋找數據存在的規(guī)律;第三個是表現數據規(guī)律。數據挖掘技術的基本應用結構如下圖所示:

數據挖掘模式設置好之后,技術系統(tǒng)中的挖掘引擎就會以數據庫中的要求為依據,對準備好的數據進行數據分析和數據歸類,找出各個數據之間存在的關系和相應的數據規(guī)律,以便成為之后數據分析的有利依據,數據挖掘步技術是比較全面的挖掘技術和數據應用技術,工作過程比較繁雜,工作操作步驟較多,其中存在很大部分的準備環(huán)節(jié)和規(guī)劃工作,數據挖掘技術的重點工作是對數據的預處理階段,對數據的預處理階段是數據挖掘技術的基礎,是后期的進行數據分析的必要條件[2]。

3 數據挖掘技術下的計算機網絡病毒防御技術

3.1 數據挖掘技術的構成分析

在計算機網絡病毒進行傳播的時候,為了給數據挖掘技術提供相應的數據依據,需要對有關數據進行掃描,可以對網絡用戶方面數據進行掃描,也可以對系統(tǒng)數據進行掃描。數據挖掘技術在計算機網絡病毒防御中的應用過程比較復雜,步驟繁多,為了便于日常操作應用,掌握每個環(huán)節(jié)的基本特征,可以對預處理模塊、決策模塊、數據收集模塊、數據挖掘模塊以及規(guī)則庫模塊進行分模塊分析研究?;跀祿诰蚣夹g的計算機網絡病毒防御流程如下圖所示:

3.1.1 數據預處理模塊分析

簡化數據挖掘技術中數據挖掘和數據分析之間的處理操作可以通過數據預處理模塊來實現,利用數據預處理模塊可以整體上提高數據挖掘效果,提高數據辨識度和準確度。在完成數據收集后需要把數據導入到預處理模塊,實現數據的分析歸類和數據變換,通過這樣額方式把數據轉換成可以被系統(tǒng)識別和處理的數據內容。以目標 IP地址、源 IP地址、端口信息等這些據數據包當中所包括的信息內容為依據,實施數據集合、數據歸納、數據處理等流程等[3]。

3.1.2 決策模塊分析

在數據挖掘技術中的決策功能模塊中,通過對數據的挖掘對數據庫進行構建,然后對數據進行匹配,同時數據庫還要和規(guī)則庫密切聯系起來。如果數據庫有與規(guī)則庫存在高度聯系的信息出現,證明在決策模塊里有病毒特征存在,很可能會感染到計算機病毒。如果是結果數據庫的數據信息和規(guī)則庫的數據不能相互匹配,那也就是說該數據包中存在有帶有新型特征病的毒帶,也就是出現了新型的規(guī)則類,這樣的情況下就需要把該帶有新型特征的病毒導入到系統(tǒng)的規(guī)則庫當中,規(guī)則庫的一種較新型的規(guī)則類別也就形成了。

3.1.3 數據收集模塊分析

實現數據挖掘的基本要求是提供充分的數據信息,只有通過數據收集才能實現數據收集模塊的功能。數據收集模塊通過對計算機網絡中數據包的抓取和收集來實現數據信息,數據信息被收集后就會具有一定的數據結構和比較重要的功能信息。

3.1.4 數據挖掘模塊分析

數據挖掘技術的一個最關鍵部分就是數據挖掘模塊。數據挖掘模塊中的事件庫和數據挖掘算法是數據挖掘模塊的關鍵部分。數據挖掘對相關數據的收集構成了事件庫,通過對事件庫中數據的分類和數據整理,進而可以獲取較為準確的數據結構。

3.2 以數據挖掘技術為基礎的網絡病毒防御系統(tǒng)

3.2.1 數據挖掘技術中的關聯規(guī)則分析

數據挖掘技術的關聯規(guī)則就是指在同一類別的數據中有可以被發(fā)現的知識存在,通過對兩個或者超過兩個的變量進行取值,如果發(fā)現數據具體一定規(guī)律的話說明這些數據和數據之間存在著某種關聯性。因果關聯、及時序關聯以及簡單關聯是存在數據挖掘技術中的幾種主要關聯關系。要找到數據庫中的關聯網,就需要進行關聯分析,然后結合數據和數據之間的關聯性進行數據挖掘,進而得到數據和數據存在的關聯規(guī)則。

3.2.2 數據挖掘技術中的聚類分析

根據數據的不同特點和類別,對所獲取的數據進行分解,把它們分成多個不同的組別,各組數據之間在特征上都存在不同程度的相似之處,而且每組數據同時又存在著各種不同特征。系統(tǒng)對所有數據進行聚類之后,就可以發(fā)現并識別出整個系統(tǒng)數據分布的疏密情況,這樣不僅可以呈現出組與組之間數據存在的聯系,同時也可以對全局的分布模式有所體現。

3.2.3 數據挖掘技術中的分類分析

對個體進行分類并歸類到預先設定的類別當中就是分類分析。分類的目的就是通過對各種各樣的機器學習方法和各種統(tǒng)計方法的利用,建立數據的分類模型,進而把數據庫中存在的所有數據按照一定的規(guī)律劃分成各個類別,然后依據這個分類規(guī)則結果實現對其他數據的分析和歸類。

4 結束語

計算機網絡已經很大程度上滲透入人們的生活和工作當中,徹底改變了人們的生活和工作方式,同時也促進了計算機網絡技術的進一步發(fā)展,但面對無法徹底避免的計算機網絡病毒,大家一定要提高網絡系統(tǒng)安全意識,把這場抵制計算機網絡病毒入侵的持久戰(zhàn)堅持下去。

參考文獻:

[1] 李智勇. 數據挖掘在計算機網絡病毒防御中的應用探究[J]. 電子測試, 2014 (12): 46-48.

第5篇:數據挖掘技術研究范文

【關鍵詞】WEB數據挖掘技術 網絡營銷 應用

網絡營銷是在電子商務發(fā)展下孕育而生的一種集市場營銷和現代信息技術為一體的新型市場營銷模式。網絡營銷主要是依托互聯網和計算機信息技術,將營銷者與客戶之間的交易、交流行為實現信息化,而這其中則會產生大量的頻繁數據交換,再加之這些數據的種類較為分散,如何能夠有效的管理與應用這些數據便成為網絡營銷者必須關注的問題。在本文研究中,筆者首先闡述看關于網絡營銷及WEB挖掘的基本理論知識以及技術原理,并就網絡營銷中的Web挖掘應用技術及具體應用方法進行全面的探討分析。

一、網絡營銷和WEB數據挖掘技術的概念及類型

(一)網絡營銷概述

網絡營銷是近幾年來產生的一個新興名詞,其是指企業(yè)在市場營銷過程中利用計算機技術和互聯網實現有效信息的獲取、處理與利用,在此基礎上制定有效的市場營銷策略,從而實現市場營銷工作。

通過網絡實施營銷可讓企業(yè)降低運營成本,提升企業(yè)的市場占有率,降低了市場壁壘,尤其對與中小企業(yè)而言可以利用低成本營銷而平等的進入國內、國際市場。對于企業(yè)惡言,網絡營銷增加了企業(yè)與客戶之間的雙向互動交流頻率,而對于消費者而言,通過互聯網平臺不僅擴大了商品選擇的空間個獲得更加低廉的價格,而且滿足了更加便捷的購物需求。

(二)WEB挖掘概述

WEB挖掘屬于是利用數據挖掘技術在獲取WEB活動文檔中的隱藏信息或者具有應用價值的潛在應用模式。WEB挖掘技術主要通過WWW資源、頁面的超鏈接結構、Web頁面內容以及用戶訪問信息等數據信息,利用歸納學習與統(tǒng)計分析方法獲取數據對象間的內在特征。利用WEB挖掘可以發(fā)現更多的潛在的有趣應用模式或者其他隱藏信息資源,并在信息過濾技術的輔助下讓客戶獲得更高層次的規(guī)律與知識。

根據相關技術原理,現將WEB挖掘技術分為以下三大類:

1.WEB結構挖掘。WEB挖掘中的結構挖掘是指利用Web組織結構之間的鏈接關系而計算出網頁結構中的有用模式。在大量的Web超鏈接信息中為Web頁面提供了相關聯的結構與質量方面信息資源,其能夠集中反映出文檔之間的引用、從屬及包含關系,另外通過分析Web文檔之間的超鏈接結構,還可發(fā)現網頁結構中的有用模式,從而有利于找到權威頁面。在WEB結構挖掘領域,應用最多的算法是Page Rank和HITS算法,兩者都是通過使用一定的計算方法而獲得Web頁面之間超鏈接的質量,例如:Google搜索引擎便是應用此類計算方法[1]。

2.WEB使用挖掘。WEB挖掘中的使用挖掘是對網頁中的相應站點數據和日志文件實施挖掘,以此來追尋相應站點的訪問者的行為模式。由于在網頁資源中擁有大量的復雜、異質信息,而每一個信息資源在服務器上都存在一個結構化的Web訪問日志,當網頁資源訪問者提出請求之后服務器將自動將行動數據記錄在訪問日志上。因此,分析不同的Web站點的訪問日志,則有利人們掌握WEB結構以及客戶的行為動態(tài),這樣有助于提升網站的工作效率。

3.WEB內容挖掘。WEB挖掘中的內容挖掘主要是收集有用的Web信息資源(如:數據、內容、文檔等)。Web中含有不同在種類的信息資源,目前網絡信息資源的來源基本上都是來自于WWW 信息資源之中,這其中除了部分人們可以直接搜索、抓取以及實現服務的資源以外,還有部分資源是無法被索引的隱藏數據,因此便需要應用WEB挖掘技術將其挖掘出來。

二、網絡營銷中的WEB挖掘技術分析

(一)路徑分析技術

實施Web數據挖掘,其所需要的路徑分析技術主要是通過對Web服務器的日志文件中訪問頻繁的路徑等其他相關路徑信息進行判定,利用這些信息再對網站及頁面的設計結構進行不斷的完善和改進。利用路徑分析技術實現數據挖掘必須經過三個基本步驟[2],即:首先通過瀏覽過程中產生的站點所形成的序列來構成原始路徑;其次是獲取最大引用序列;最后是確定最大引用序列。

(二)聚類技術

對于Web數據挖掘中的聚類技術,其是將Web訪問信息數據中一些具有相似特征的數據項、訪問者信息等進行集合,然后運用隱式或顯式等方式來對不同的類別資源進行描述。在實踐操作中,聚類分析在對數據分布分析時可單獨作為一個相對獨立的工具來集中觀察、分析每一個類型的特點,具體來說就是幫助企業(yè)通過分析客戶數據庫而發(fā)現一些不同的客戶群,并通過運用消費模式來描述出這些不同客戶群的基本特征,從而幫助企業(yè)能夠更好的了解客戶,保障自己的服務能夠最大限度的滿足客戶需求。

(三)分類分析技術

在數據挖掘中利用分類分析技術可通過詳細分析示例數據并準確描述不同類別或者建立分析模型,然后在利用這個分析模型對其他數據進行細化分類。分類分析技術在網絡營銷中是使用較多的應用技術之一,其能夠利用分類自動推導而對相關數據進行相關的推廣描述,以此來預測未來的數據發(fā)展趨勢。

(四)關聯規(guī)則挖掘技術

WEB挖掘技術中的關聯分析主要是利用同一個事件中出現的不同項的相關性來挖掘其中所隱藏在數據之間的關聯規(guī)則。在網絡營銷活動中,關聯分析主要是用于找尋客戶對網站中各種文件之間訪問現象的相互聯系,從而總結分析出客戶購買行為的關聯因素[3]。通過在Web上實施數據挖掘,以此來構建一個關聯模型,這樣我們便可以更換的優(yōu)化組織站點,降低客戶過濾信息頻率,并根據客戶的購買行為而為客戶提供一定的推薦服務。

三、WEB數據挖掘技術在網絡營銷中的具體應用

(一)有利于確定網絡營銷目標

實施有效的市場營銷活動前首要的工作是確定市場營銷目標,而這需要經過三個既定步驟——細化目標市場、選定目標市場、定位目標市場。在網絡營銷活動中,企業(yè)確定目標市場前必須對于商品目標的應用、銷售市場進行細分,也就是考察商品的市場吸引力、企業(yè)自身的商品營銷經驗及未來發(fā)展目標等等,通過上述細分之后確定商品目標市場,最后在此基礎上定位目標市場。如果企業(yè)在網絡營銷中應用Web 挖掘技術確定市場營銷目標,其可以迅速對客戶數據進行綜合分析,并自動對各個層次的市場實施細分,形成一個詳細的目標市場分類數據資料庫,從而為企業(yè)定位目標市場提供真實、有效的數據依據。

(二)構建市場營銷情報系統(tǒng)

為了降低市場營銷活動的風險,在此之前一般都需要收集大量的市場營銷信息來對目標市場進行細致分析。網絡營銷主要是通過Internet來獲取大量的相關聯信息資源,利用WEB數據挖掘技術可收集大量有效的市場營銷情報,例如:對企業(yè)營銷中所需要的政策法規(guī)、行業(yè)技術、市場環(huán)境、競爭對手、國際行情等動態(tài)信息進行全面收集整理,并建立全面的營銷情況系統(tǒng),這樣有助于企業(yè)及時掌握市場、行業(yè)等發(fā)展新情況,制定并執(zhí)行具有針對性的營銷策略,保證企業(yè)在市場營銷中擁有絕對的主動權[4]。

(三)數據挖掘在客戶關系管理中的應用

1.延長客戶駐留時間。通過網絡平臺實施營銷活動,消除了銷售企業(yè)與客戶之間存在的空間距離,在Internet平臺上所有銷售企業(yè)相對于客戶而言都是一樣的。商家為了能夠讓訪問者盡量對在自己網站上駐留,都需要通過技術手段分析訪問者的瀏覽行為,也就是掌握訪問者的愛好或者需求,這樣有助于商家及時根據訪問者的行為動態(tài)調整頁面設計和推薦商品信息,更新部分訪問者敢興趣的商品信息,一方面能夠滿足訪問者的需求,更重要的是能夠最大限度的延長訪問者的駐留時間。

2.挖掘潛在客戶。企業(yè)通過對Web日志記錄中的訪問規(guī)律進行分析,根據訪問者的相關信息資源進行科學分類,并確定訪問者分類的關鍵屬性及相互之間的關聯。如果有新的訪問者,則可在Web分類中識別出與已分類訪問者之間存在的一些公共描述,然后再對這些新訪問者進行正確分類,最后從新訪問者的分類判斷中決定是否將其作為潛在客戶來對待[5]。如果將其作為潛在客戶對象,則可給予該客戶提供一些個性化的特殊頁面內容,從而吸引客戶的注意力,激發(fā)客戶的消費欲望。

(四)促進優(yōu)化站點設計

在超市中我們經常會發(fā)現他們將有關聯的物品放在一起,這樣有助于提升商品的銷售業(yè)績,而在網絡營銷中的Web站點結構也是類似的,在瀏覽模式的設計過程中需要依據大部分訪問者的瀏覽習慣來安排、鏈接頁面內容;若部分頁面訪問頻率較大時則可適當增加頁面鏈接,這樣方便訪問者順暢瀏覽頁面;在訪問較為頻繁的頁面上放置重要商品信息,吸引客戶的注意力及商品的影響力,從而提升營銷業(yè)績。

四、結語

網絡營銷模式屬于是現代市場營銷進入數字化時代最有力的證明,隨著電子商務體系不斷成熟,網絡營銷必將成為未來社會營銷領域中一種新的發(fā)展潮流與趨勢。在網絡營銷活動中,Web數據挖掘技術有助于企業(yè)預測市場發(fā)展趨勢、客戶消費動態(tài),進一步挖掘有價值的潛在商業(yè)信息資源,從而幫助企業(yè)制定具有前瞻性的營銷策略,保障企業(yè)能夠在激烈的競爭環(huán)境中把握有利發(fā)展機遇。目前,國內外學術界對Web挖掘技術展開了深入的研究,雖然尚未形成一個成熟的理論與應用體系,但是隨著電子商務的不斷發(fā)展,Web挖掘技術必將擁有廣闊的發(fā)展空間。

參考文獻

[1]李巖.基于Web挖掘的專題性智能信息搜索工具關鍵技術研究[D].北京:北京科技大學信息工程學院,2003.

[2]石磊,王偉華等.Web挖掘技術在電子商務中的應用[A].信息時代—科技情報研究學術論文集(第三輯)[C];2008.

[3]朱凌云,趙韓,高先圣.Web挖掘在網絡營銷中的應用研究[J].情報雜志,2006.1.

[4]藺莉,潘浩.Web數據挖掘技術在電子商務中的應用[J].電腦知識與技術,2010,(4):816-818.

[5]付泉.電子商務中數據挖掘技術的研究與應用探討[J].科技廣場,2007(3):114-116.

第6篇:數據挖掘技術研究范文

關鍵詞:工業(yè)大數據;關聯規(guī)則;設備維護;BP神經網絡

1 概述

目前工業(yè)設計、生產制造等環(huán)節(jié)中引入了自動化系統(tǒng),系統(tǒng)運行積累了海量的數據資源,如何從海量數據中挖掘有價值、有用的信息,幫助工業(yè)生產作出正確的決策,已經成為許多學者研究的熱點[1]。大數據挖掘分析可以從海量的、帶有噪聲數據的、不完全的數據記錄中發(fā)現隱含的模式,可以為工業(yè)數據挖掘提供契機。大數據挖掘可以使用相關的算法尋找隱藏的數據知識,其功能主要包括關聯分析、聚類分析、分類預測、偏差檢測等[2]。

(1)關聯分析。工業(yè)系統(tǒng)運行產生的大數據來源于設計、制造和生產等環(huán)節(jié),涉及各類型軟硬件設備,這些數據信息資源存在極大的關聯關系,比如簡單關聯關系、時序關聯關系、設備-軟件關聯關系、日志操作關聯關系等。

(2)分類預測。應用工業(yè)大數據的過程中,許多信息數據保存得較為繁亂,比如設備種類和數量多,設備購置、維修、更換等運行記錄保存日期、位置、版本較多,容易產生不一致。因此,分類預測可以根據工業(yè)企業(yè)管理人員的需求,引入貝葉斯理論等構件一個分類算法,挖掘數據中相同類別的信息,這些類別可以是維修記錄、購置記錄,也可以是時間內容等,并且可以利用預測管理功能,預測設備運行趨勢。

(3)聚類分析。工業(yè)大數據多是設備運行自動產生的數據,相關子數據集缺乏詳細的描述信息,此時可以采用聚類分析方法,將數據劃分為多個簇,簇內保持高度的相似性、同構性,簇間保持較大的差別性,這就可以把相同類別的數據劃分到一組,不同類別的數據劃分到多個簇。

(4)偏差檢測。數據挖掘發(fā)現數據集中的離群點或異常數據是一個重要的功能,比如工業(yè)生產網絡安全監(jiān)測,該功能被稱為偏差檢測。偏差檢測主要包括分類中的反常實例、例外模式、觀測結果對期望值存在的偏離以及量值可以隨時間的變化而變化。偏差檢測包括尋找觀察結果、參照之間的有意義差別,偏差分析的一個非常重要的特征是可以有效地過濾掉大量不感興趣的信息。

2 工業(yè)大數據挖掘分析技術及模式

工業(yè)生產引入自動化系統(tǒng)始于第二次工業(yè)革命,隨著傳感器、移動通信等技術的快速改進,工業(yè)生產正在向著密度更高、效率更高的綜合信息化運行模式發(fā)展,引入了許多先進的計算機系統(tǒng),這些系統(tǒng)運行產生了海量的數據信息資源,導致了人們不能夠繼續(xù)使用傳統(tǒng)的生產模式,必須從多個方面和切入點進行有效研究和發(fā)展,引入大數據挖掘分析技術,一般實現工業(yè)生產科學管理,有效地控制生產設備,形成一個全過程生產模式[3]。目前,工業(yè)大數據挖掘分析技術包括多種技術,最常用的包括K均值、BP神經網絡、遺傳算法和貝葉斯理論等,可以從海量的流量數據中發(fā)掘潛在的有價值的信息,利用這些信息可以指導、創(chuàng)新工業(yè)生產管理模式,構建一個大數據挖掘系統(tǒng)[4]。

(1)基于K均值算法構建聚類分析模式。K均值是常用的主流聚類分析算法,使用工業(yè)數據之前,許多用戶不知道期望的目標,并且無法獲取更多的數據應用背景知識,因此可以利用K均值算法構建一個自動聚類分析的大數據模式,比如可以自動將工業(yè)設計數據劃分為高中低等檔次,可以把高檔設計案例推薦給企業(yè),提高企業(yè)工業(yè)設計能力。

(2)基于BP神經網絡構建分類預測模型。BP神經網絡是一種數據挖掘方法,其可以通過學習獲取相關的風險關鍵特征,然后將待評估的工業(yè)設備運行狀態(tài)數據輸入到系統(tǒng)中,自動分析設備維護次數、更新次數、使用周期,這種工業(yè)設備運行管理模型速度快,評估結果具有較高的準確度。工業(yè)大數據分類預測可以采用BP神經網絡算法構建一個分類預測系統(tǒng),這樣就可以準確地判斷大數據的運行維護記錄,判斷設備日常運行趨勢,能夠提高工業(yè)設備的運行維護效率。

3 工業(yè)大數據挖掘作用及前景

隨著自動化控制、多媒體通信等技術的快速發(fā)展,大數據挖掘技術可以在船舶設計制造、工業(yè)生產安全監(jiān)測等領域得到應用,實現自動化制造和工業(yè)安全生產管理等,進一步實現工業(yè)生產過程的智能化。

3.1 智能制造

目前,隨著工業(yè)4.0、互聯網+等深入發(fā)展和應用,大數據挖掘技術可以有效地提升智能制造的相關產品設計、制造、生產和展示等階段的性能,大數據挖掘在完善產品設計功能、優(yōu)化產品性能、改進產品質量等方面具有重要的作用,可以大大提高工業(yè)產品的生產成功率和降低開發(fā)成本。比如在鋼鐵工業(yè)制造中,帶鋼生產工序較為復雜,涉及多個環(huán)節(jié),每一個環(huán)節(jié)的工藝設置參數較多,造成帶鋼成品很容易產生各類型的缺陷,比如擦傷、邊裂、劃痕、輥印、結疤和氧化鐵皮壓入等,大數據挖掘可以構建一個集成多方面優(yōu)勢的構建一個帶鋼缺缺陷識別模型,能夠利用圖像處理技術分析帶鋼上的各種缺陷類型,及時發(fā)現不合格的產品。

3.2 安全監(jiān)測

工業(yè)生產過程中,安全生產一直是生產監(jiān)管的重要方面,大數據挖掘技術可以在工業(yè)安全生產中發(fā)揮重要的作用。比如電力工業(yè)生產可以利用大數據分析技術監(jiān)控電網的運行狀態(tài),并且將其輸入到虛擬仿真系統(tǒng)中,可以實時觀察電網運行是否存在故障和漏洞。鋼鐵工業(yè)生產環(huán)境多處于高溫、封閉狀態(tài),并且已經不利于人們的行動,可以利用傳感器、視頻攝像頭采集鋼鐵生產作業(yè)環(huán)境的實時狀況,并且構建一個鋼鐵工業(yè)生產現場監(jiān)控系統(tǒng),可以采集鋼鐵工業(yè)生產、加工的實時數據,將其輸入到鋼鐵工業(yè)服務器中,能夠實時的顯示在監(jiān)控終端,比如電視墻、大屏幕上,分析鋼鐵工業(yè)的生產設備、作業(yè)環(huán)境等信息,確保鋼鐵工業(yè)生產的安全性。

4 結束語

工業(yè)生產涉及環(huán)節(jié)較多,每一個環(huán)節(jié)都需要采用不同種類和數量的軟件系統(tǒng)和硬件設備,這些軟硬件資源在運行過程中產生了海量的數據,利用K均值、BP神經網絡等構件大數據挖掘與分析系統(tǒng),能夠有效提升工業(yè)大數據分析和挖掘能力,從海量數據資源中發(fā)現潛在的有價值信息,提高工業(yè)生產決策的準確度,進一步改進工業(yè)生產效率。

參考文獻

[1]陳良臣.大數據挖掘與分析的關鍵技術研究[J].數字技術與應用, 2015(11):93.

[2]鄭茂寬,徐志濤,明新國,等.船舶工業(yè)大數據技術應用與發(fā)展前景分析[C]//長三角地區(qū)船舶工業(yè)發(fā)展論壇,2014.

第7篇:數據挖掘技術研究范文

[關鍵詞] XML Web數據挖掘 電子商務系統(tǒng)

一、數據挖掘與XML

數據挖掘就是從大量隨機的實際應用數據中,通過數據抽取、轉換、分析和其他模型化處理,提取隱含在其中的有用信息和知識的過程。Web數據挖掘過程可粗略地分為數據準備、數據挖掘、結果的解釋評估三個階段,其中每一個階段又包含若干個子階段(參見圖1)。

圖1 數據挖掘過程的一般步驟

XML(eXtensible Markup Language)是一種跨平臺可擴展的數據描述語言,它是標準通用標記語言SGML的一個簡化子集,但克服了SGML的復雜性,將SGML的豐富功能與HTML的易用性結合起來,具有較強的描述數據和管理數據的能力,并憑借其良好的可擴展性和自描述性、形式與內容分離、對多語種支持等特點,給跨平臺跨地域異構數據的集成帶來方便。XML的這種特性為處理電子商務系統(tǒng)中大量的異構數據提供了可行性。

二、實施Web數據挖掘的關鍵問題及解決方法

1.異構數據的轉換

電子商務系統(tǒng)服務器端的用戶文件目前主要是XML、HTML和關系數據等數據類型。從數據處理角度來看,關系數據模型過于嚴謹,無法有效地表示半結構化和非結構化數據;HTML對文檔的要求也過于完整,且不能定義數據的層次,沒有提供編程接口解析它所攜帶的數據,無法真正實現各種應用程序、數據庫及操作系統(tǒng)間的數據交互。XML與關系數據模型和HTML相比,可以表示更多樣化的數據格式,能夠使不同來源的結構化、非結構化數據很容易地進行合并。

采用XML集成多個不同數據源的信息,只需要把來自不同數據源的信息先轉成XML文檔,然后再處理經過解析器解析的數據流即可。任何應用程序只需要知道兩種格式,即本身的和XML的,就可以通過XML為中介實現與其他應用程序的信息交換。

因此,在Web挖掘的數據預處理階段,用XML作為中間數據模型來屏蔽Web數據源的異構性不僅是可行的,而且可以使異構數據源能有效地集成應用,從而較好地解決Web挖掘中的技術難題。

2.XML數據的查詢

XML描述的Web數據所具有的半結構化特性對傳統(tǒng)的數據管理方式提出了挑戰(zhàn),由于XML文檔數據具有特殊的樹型層次結構,使得已有的數據查詢技術(如傳統(tǒng)的基于關系數據庫方式的信息查詢、基于文本的信息檢索)不能很好地應用于XML數據的查詢處理。本文采用文獻提出的基于結構特征編碼模式的XML數據查詢算法―MatchSearch,能夠有效地對經過上述轉換和數據抽取所得的半結構化數據進行多路徑查詢。

MatchSearch算法是基于傳統(tǒng)信息檢索技術中的字符串匹配算法提出的,其重點是對查詢語句的分支進行判斷、處理。實際應用中借鑒MatchSearch算法的基本思想,采用三元編碼模式,將XML文檔中的每個數據成分(元素、屬性、原子值)都用(name, path, branch)形式表示。其中,name表示數據成分的名稱或值,path以壓縮編碼的形式表示從文檔根節(jié)點到當前數據節(jié)點的父節(jié)點的路徑,branch表示當前數據節(jié)點的子節(jié)點數。這種三元編碼形式不僅可以表示數據的內容(由name表示),還可以有效地表示XML數據的結構(由path和 branch表示),因此可以將XML文檔數據轉換為等價的以三元編碼模式表示的字符串形式。同理,基于路徑的XML數據查詢也可以表示成三元編碼形式的字符串。這樣,XML的數據查詢問題就轉化為三元編碼形式的字符串匹配問題。

此外,借鑒MatchSearch算法的基本思想,還可以利用三元編碼模式設計一種雙層的B+樹索引結構,將路徑索引和數值索引合為一體,能夠進一步提高索引的查詢速度。通過與有代表性的查詢優(yōu)化方法的對比實驗,表明該方法能夠有效地提高針對半結構化數據的多路徑查詢速度。

三、面向電子商務XML文檔的Web挖掘應用

電子商務網站上的異構數據經過轉換為XML格式處理后,就可選用相應的Web挖掘技術對數據集實施挖掘分析。

1.基于XML的Web挖掘集成應用模型

由于Web上的電子商務信息多而雜,并且大多是非結構化或半結構化的,這就使得Web挖掘對數據的預處理過程要比普通的數據挖掘更為復雜,工作難度也更大。為此,筆者提出了一個基于XML的Web數據挖掘集成應用模型(如圖1所示)。

圖2基于XML的Web數據挖掘應用模型

該模型給出了基于電子商務服務器端數據實施Web數據挖掘集成應用的基本思想和一般流程:將實現HTML文檔、關系數據向XML格式轉換的工具封裝為XML轉換器,將路徑分析、分類技術等Web數據挖掘技術封裝為Web數據挖掘器,并與處理XML的Java應用編程接口(Java API for XML processing)等模塊集成,以中間件的形式植入電子商務系統(tǒng)解決實際應用問題。

需要說明的是,目前Web數據挖掘的過程并非完全自動的,上述應用模型中有許多細節(jié)工作仍需要人工完成。

2.利用分類技術發(fā)現潛在客戶群體

分類是一種數據分析形式,可以用來抽取描述重要數據集合的模型,一般用于預測數據對象的離散類別。在電子商務系統(tǒng)中應用分類技術,可以通過挖掘客戶群體中某些共同的特性而將客戶分成不同的類別,建立不同種類客戶之間的特征分類模型,進而預測不同行為類別客戶的分布特征。

對一個電子商務網站來說,從眾多的訪問者中發(fā)現潛在客戶群體非常關鍵。那么,如何通過Web挖掘來發(fā)現潛在客戶群體呢?可以應用分類規(guī)則挖掘中的主要方法,如決策樹分類技術,先對客戶通過Web日志文件的處理和分類規(guī)則挖掘,識別出其各類的公共屬性,然后對一個新的客戶,依據分類規(guī)則進行預測,確定是否為潛在的客戶。如果發(fā)現某些訪問者為潛在客戶,就可以對這類客戶實施一定的策略,使他們盡快成為在冊客戶,從而使電子商務網站的訂單數增多,效益增加。

四、結束語

研究表明,數據挖掘工作60%的時間用在數據準備上。這一方面說明數據挖掘技術對數據要求的嚴格,但同時也啟示我們:如果能減少在數據準備階段的工作量,也就意味著可以有效地減少整個數據挖掘過程的工作量。本文所提出的基于XML的Web數據預處理方法被實際應用證實是一種有效的方法。

參考文獻:

[1]陸汝鈐:人工智能[M].北京:科學出版社,2000.

[2]胡侃夏紹瑋:基于大型數據倉庫的數據采掘:研究綜述[J].軟件學報,1998,9(1)

第8篇:數據挖掘技術研究范文

【關鍵詞】 移動學習 教學資源 數據挖掘 聚類

在傳統(tǒng)的教學方式中,一直是以教師為中心的基本教學方法。這種方式,學生只能感知學習內容,而解決實際問題時,由于缺乏實踐經驗,他們通常難以完成。

隨著智能手機、平板電腦等各種智能移動終端已經得到了非常廣泛的發(fā)展與關注,隨之而來的一種新的學習模式一一移動學習,已經開始為人們所關注。與傳統(tǒng)的課堂學習或基于桌面電腦的E-Learning相比,移動學習可以突破時空限制,移動學習者在任何時間、任何地點的“零碎”情境下,只要學習者有學習的意愿,就可以隨時隨地地進行學習。

本研究將以“Visual Basic程序設計”課程為依托,重點對面向移動學習教學資源的開發(fā)和應用兩方面展開研究。首先基于課程進行按知識點的移動學習資源設計,一個知識點可以是一個屬性介紹,也可以是一個算法實現;同時引入數據挖掘技術,基于學生關于學習資源使用情況和學習效果反饋信息,進行聚類分析,深入探究學習者對不同知識點的掌握程度和學習效果,從而推進和改善移動課程資源設計和教學過程設計。

一、移動教學資源

移動學習資源是指支持開展移動學習的各種信息資源,即移動學習資料、移動學習環(huán)境和移動學習支持系統(tǒng)[1]。移動學習資源是移動學習的重要組成部分,是教師組織教學的工具和學習者獲得信息的途徑[2]。學習資源一直被認為是教育技術學最重要的研究對象之一,并一直受到研究者的重點關注,對學習資源的正確的認識和理解,是開發(fā)優(yōu)質教學資源的前提,也是教育技術研究實踐中的一項重要任務。

分析現有的文獻資料可以發(fā)現國內移動學習資源的研究主要是集中在移動學習資源的學習模式、技術支持、開發(fā)與設計等方面,尤其是對于面向移動學習的教學資源的拓展開發(fā)以及如何讓這為學習者服務等研究還在初步階段。

二、教學資源設計

課程的內容分解設計直接決定著教學資源的知識內容,它主要指根據課程目標在確保課程內容完整性的同時,如何將課程內容分解成一定粒度容量的知識內容,以適應學習者的碎片化學習需求。

移動學習課程與網絡課程相比最大的特點就在于內容的碎片化,將一個多小時的內容拆分成多個獨立的知識片段,每個知識片段都會有一個主題,這個知識主題是根據學習者的認知規(guī)律和教學方式對元知識點的邏輯重組,這樣有助于更清晰完整的表達知識框架;此外,移動學習課程按照知識點模塊化組織,當知識點內容發(fā)生變化時,移動學習課程也能夠實現快速的更新升級,從而避免了重復制作課程[3]。

一般來說,知識點是枯燥、抽象的描述,不容易被學習和理解,那么就需要根據知識點的類型選擇合適的方法、步驟和組織形式,綜合運用文字、圖片、音頻和視頻等多媒體素材對知識點進行表現,這樣才能使其更加貼近學習者,更易于被理解。

2009年張馳等提出的基于課程知識點進行片段式的移動學習資源設計,即將工作或學習內容分割成小塊的有用信息,這樣人們就可以通過非線性的方式獲得這些信息;主要包括兩方面內容:①學習內容的微型化②學習形式的微型化[4]。

移動學習資源的研究和開發(fā)還有不足之處,忽視了資源知識點之間的內在關聯,一定程度上影響了學習者進行持續(xù)而系統(tǒng)的有效學習,降低了移動學習效率。

三、數據挖掘在移動學習中的應用

數據挖掘就是從大量的、不完整的數據中,提取隱含在其中有用信息的過程。基于聚類的數據挖掘是一種“無監(jiān)督學習”的方法,事先不知道將要分成哪些類,采用最大化類內的相似性、最小化類間的相似性原則進行歸類,即使得一個簇中的對象具有很高的相似性,而與其他簇中的對象很不相似。聚類分析的目標就是在相似的基礎上收集數據來分類[5]。

在教學中,基于聚類的數據挖掘技術可以根據學生的平時及期末考試成績,挖掘出內在的影響因素,如學生的學習態(tài)度、學習習慣、薄弱章節(jié)等信息。得到的總結分析應用于指導學生學習及日常教學,既節(jié)省了大量的練習時間又能夠獲得良好的學習效果。

3.1數據收集與數據轉換

1) 數據準備

以《Visual Basic程序設計第四版》(龔沛曾著)教材中的第四章“基本控制結構”部分知識點為例,制作移動學習課件,課件時長基本控制在5至30分鐘的范圍內。5分鐘的課件涉及一個較細的知識點,如IIF()函數的使用方法;10分鐘的課件涉及一個較大的知識點,如IF條件語句的語法結構;30分鐘的課件中講授一個更大的知識點或多個緊密關聯的小知識點,如具體算法的實現。

組織學生一段時間的移動學習后,從金陵科技學院“土木工程”、“機械設計與自動化”和“動物科學”三個專業(yè)獲取成績樣本數358份,并根據每個學生各個知識點的得分情況,計算出每個知識點的“成績績點”(成績績點=所有學習者該知識點的得分均值/該知識點的分值),如某知識點考核的總分為10分,學生得分為9分,則該項相應的成績績點為0.9。

2) 數據轉換。

為了使數據變換成適于數據挖掘的形式,也便于維度信息的表述,我們對數據各維度上的信息進行數值化和量化。如:根據長年教授VB課程教師的多年經驗,將各個知識點按照難易度進行了劃分,并將“難”、“中”、“易”分別轉換成3、2和1;課件時長的屬性維度上的信息:將5 分鐘左右、10分鐘左右、30分鐘左右,分別轉換為1、2、3;同時對每個學生每個知識點點擊學習的次數、性別和成績績點分別進行相應的轉換。將經過轉換后的樣本信息建成數據挖掘的樣本數據庫,具體的信息維度設計與量化情況見表1。

具體的數據統(tǒng)計形式如表2,其中每條數據實體為一位學生一個知識點的學習情況。

3.2聚類過程

本文所用的聚類分析方法是K-means算法。這一種得到最廣泛使用的聚類算法,它是將各個聚類子集內的所有數據樣本的均值作為該聚類的代表點,算法的主要思想是通過迭代過程把數據集劃分為不同的類別,使得評價聚類性能的準則函數達到最優(yōu),從而使生成的每個聚類內緊湊,類間獨立。這一算法不適合處理離散型屬性,但是對于連續(xù)型具有較好的聚類效果。主要包括以下步驟:

1)隨機取k個元素作為各個簇的中心。

2)根據每個對象與各個簇中心的歐式距離,分配給最近的簇。歐式距離公式為:

4)根據各個簇元素的平均值,重新計算新的簇的中心,然后轉(2)。這個過程不斷重復直到誤差平方和最小。

(三)算法結果分析

根據K-means算法對轉換后的數據分別進行了2、3、4類歸類后,發(fā)現3類的歸類效果較好。并對3類歸類后的數據進行了統(tǒng)計,統(tǒng)計信息如表3。

從表3的統(tǒng)計結果可以看出:類別一中涉及知識點難度較為簡單,即使在點擊次數不多的情況下,但是成績績點還是相對要高;類別二中涉及的知識點較難,但學習者在多次點擊學習的情況下,還是得到了不錯的績點;類別三中涉及的知識點相對是最難的,但是可以發(fā)現學習者的點擊次數明顯下降,最終的學習績點也很不理想,同時有趣的發(fā)現女生在該類別中所占的比例是明顯多于男生。

通過以上分析可以看出一些難易程度適中的知識點,學生通過一段時間的自學是能夠掌握的很好的。同時,哪些知識點還存在問題,教師可以根據學生的學習情況有的放矢地進行教學,并給出學習建議和指導,同時修改組卷參數以給出符合學生學習水平和特性的試題;學生也可以根據分析結果進行有針對性的學習從而提高了教學和學習效率。

通過本次挖掘結果,學生也意識到要提高自己的學習效率,就要努力改變自己的學習習慣和學習態(tài)度;同時教師可以根據不同章節(jié)的難易度,適當讓學生自學,以提升學生自我學習的能力。

四、結論

本研究首先依據移動學習資源的特點,對課程學習資源進行了設計與制作,隨后引入數據挖掘技術對學生的成績樣本進行了聚類分析,得到了較理想的聚類結果。

移動學習有助于豐富學生的思維方式,有助于培育學生深度學習的學習品質。

同時移動教學資源充分開發(fā)與利用,使學習內容借助資源的具體性與形象性,幫助學生理解掌握抽象的學習內容。

參 考 文 獻

[1]李瑞,陳新,袁曉斌.移動學習資源建設策略探討[J].現代教育科學,2007,(6).

[2]方晶,陳章其.移動學習資源的開發(fā)初探[J].現代教育技術,2007,17(7).

[3]唐江煒.基于知識點的課件制作平臺的設計與實現[D].蘇州:蘇州大學碩士學位論文,2008

第9篇:數據挖掘技術研究范文

[關鍵詞] 數據流 數據流挖掘 模型 算法

近年來,隨著計算機技術和通信網絡技術的蓬勃發(fā)展,由于眾多應用領域的需求,數據流處理問題,特別是基于數據流的挖掘問題已受到越來越多的研究人員關注。

一、數據流以及數據流挖掘

1.數據流。數據流由一系列按序到達的數據組成,也可看作是信息傳輸過程中經編碼處理的數字信號串。若令t表示任一時間戳,at表示在t時刻到達的數據元素,則數據流可以表示為無限集合{…,at-1,,at,at+1,…}。

2.數據流挖掘。數據流挖掘就是在數據流上發(fā)現提取隱含在其中的。人們事先不知道的,但又潛在有用的信息和知識的過程。流數據挖掘方面的研究主要包括多數據流挖掘和單數據流挖掘,挖掘多條數據流的主要目的是分析多條并行到達的數據流之間的關聯,對單數據流的挖掘則涵蓋了分類、頻繁模式挖掘、聚類等多項傳統(tǒng)數據挖掘中的主要任務,挖掘變化的數據流是一項特殊的任務,目前主要是以單數據流為對象進行研究的。

二、數據流挖掘的模型

按算法處理數據流時所選取的時序范圍,數據流模型可分為以下幾類。

1.快照模型:處理數據的范圍限制在兩個預定義的時間戳之間。

2.界標模型:處理數據的范圍從某一個已知的初始時間點到當前時間點為止。

3.滑動窗口模型:處理數據的范圍由某個固定大小的滑動窗口確定,此滑動窗口的終點永遠為當前時刻,其中,滑動窗口的大小可以由一個時間區(qū)間定義,也可以由窗口所包含的數據項數目定義。

典型的數據流挖掘模型如圖所示。

三、數據流挖掘算法

目前數據流挖掘方面的研究成果主要集中在數據流的聚類、分類和頻繁模式挖掘方面。

1.數據流分類算法。數據流分類就是提出一個分類模型(或函數),并通過單遍掃描數據流,持續(xù)地利用分類模型將數據對象(數據流的數據點或元組等)映射到某一個給定的類別中。P.Domingos 和 G..Hulten他們提出了一種Hoeffding決策樹分類算法VFDT(Very Fast Decision Tree),使用恒定的內存大小和時間處理每個樣本,有效地解決了時間、內存和樣本對數據挖掘,特別是高速數據流上的數據挖掘的限制。VFDT使用信息熵選擇屬性,通過建立Hoeffding樹來進行決策支持,并使用 Hoeffding 約束來保證高精度地處理高速數據流。

由于VFDT算法假設數據是從靜態(tài)分布中隨機獲取的,所以不能反映數據隨時間變化的趨勢。因此,P.Domingos和G..Hulten引入了滑動窗口技術,對VFDT算法進行改進,提出了CVFDT (Concept-adapting Very Fast Decision Tree)算法,除了保留VFDT算法在速度和精度方面的優(yōu)點外,增加了對數據產生過程中變化趨勢的檢測和響應,使得算法更好地適應對高速時變流數據的分類。

2.數據流聚類算法。流數據本身所具有的特征使得傳統(tǒng)的聚類算法不可能直接應用于(甚至不能應用于)流數據聚類, 數據流聚類算法就是通過單遍掃描數據流,持續(xù)地將數據流數據對象(數據點、元組等)分組成多個類或簇,在同一個簇中的數據對象之間具有較高的相似度,而不同簇間的數據對象的相似度很小。近年來,學者們提出的應用于大規(guī)模數據集的一趟聚類算法,如Squeezer算法和BIRCH算法,也可以應用于某些數據流問題,也有學者提出了針對流數據的聚類算法,典型的有STREAM算法和CluStream算法。

3.數據流頻繁模式挖掘算法。數據流頻繁模式挖掘就是單遍掃描數據流,來連續(xù)地發(fā)現其中的頻繁項集。頻繁項集是滿足最小支持度的項集(Itemset)。對于數據流上的頻繁項集挖掘的研究方法大多數都采用ε-算法和基于FP-tree模型的有效算法FP-stream。FP-stream算法采用傾斜時間窗口技術來維護頻繁模式以解決時間敏感問題,研究了在數據流中構造、維護和更新 FP-stream 結構的有效算法,提出了計算和維護所有頻率模式并動態(tài)更新它們。建立一個框架來挖掘帶近似支持度的時間敏感模式,為每個模式在多時間粒度上增量維護一個傾斜時間窗口,在這種框架下可以構建和回答感興趣的查詢。

四、結語

由于數據流具有獨特的性質,對其進行挖掘是一個挑戰(zhàn)性的問題,當前的有關算法的研究有很多是在傳統(tǒng)的增量式挖掘技術基礎之上發(fā)展而來的,探索數據流挖掘技術與傳統(tǒng)的靜態(tài)數據挖掘技術之間的本質區(qū)別,提出更有效、新穎、快速挖掘算法是當前研究面臨的重要問題。

參考文獻:

[1]Gibbons P B,Matias Y:New sampling based summary statistic for improving approximate query answers[A].Proc of the ACM SIGMOD Int’l Confon Management of Data [C].Seattle:ACMPress,1998.331~342

[2]金澈清 錢衛(wèi)寧 周傲英:流數據分析與管理綜述.軟件學報,2004,15(8):1172~1181