公務員期刊網(wǎng) 論文中心 正文

主數(shù)據(jù)驅(qū)動下多源數(shù)據(jù)數(shù)字化挖掘探析

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了主數(shù)據(jù)驅(qū)動下多源數(shù)據(jù)數(shù)字化挖掘探析范文,希望能給你帶來靈感和參考,敬請閱讀。

主數(shù)據(jù)驅(qū)動下多源數(shù)據(jù)數(shù)字化挖掘探析

摘要:多源數(shù)據(jù)挖掘過程中,由于缺少參數(shù)分析,導致數(shù)據(jù)挖掘不完整且精準度較低,為了解決這類問題,提出主數(shù)據(jù)管理驅(qū)動下多源數(shù)據(jù)數(shù)字化挖掘方法。分析主數(shù)據(jù)管理驅(qū)動挖掘原理,通過適配器驅(qū)動模塊傳遞數(shù)據(jù),借助接口器支配與處理數(shù)據(jù)。使用克里格數(shù)據(jù)挖掘算法調(diào)整參數(shù)并處理“臟數(shù)據(jù)”后,設計數(shù)據(jù)挖掘流程。實驗結(jié)果顯示,主數(shù)據(jù)管理驅(qū)動挖掘方法挖掘數(shù)量與實際值相差最小為40個,數(shù)據(jù)挖掘完整度較高。在檢測數(shù)據(jù)為8000個時,挖掘精準度達到95%,能夠為多源數(shù)據(jù)歸一化提供技術支持。

關鍵詞:主數(shù)據(jù)管理驅(qū)動;多源數(shù)據(jù);數(shù)字化挖掘方法;歸一化技術

信息技術革命以來,數(shù)據(jù)迎來了爆炸式的增長,企業(yè)檔案屬于企業(yè)生產(chǎn)經(jīng)營管理活動中的符號,如何順應時代潮流,更好地挖掘企業(yè)檔案數(shù)據(jù),對企業(yè)檔案工作人員來說是一個重要挑戰(zhàn)[1]。更好地挖掘企業(yè)檔案數(shù)據(jù),實現(xiàn)資源共享與流通,為企業(yè)未來制定多源信息資源規(guī)劃提供必要的理論支撐。如今,企業(yè)數(shù)據(jù)等多源數(shù)據(jù)的數(shù)字化挖掘逐漸受到重視,其已經(jīng)為許多領域的科學生產(chǎn)、管理、經(jīng)營和決策給出了依據(jù)和幫助[2]。利用統(tǒng)計方法挖掘出有用的統(tǒng)計規(guī)律等信息和知識,即統(tǒng)計方法挖掘知識。挖掘網(wǎng)絡訪問量的計算知識統(tǒng)計方法在網(wǎng)絡訪問中的應用性很強,魯棒性卻很低,容易出現(xiàn)挖掘數(shù)據(jù)遺漏、不全面、準確率低等問題,在此基礎上,提出了主數(shù)據(jù)管理驅(qū)動下多源數(shù)據(jù)數(shù)字化挖掘方法,通過在傳統(tǒng)數(shù)據(jù)數(shù)字化挖掘的基礎上,結(jié)合主數(shù)據(jù)管理驅(qū)動,使得多源數(shù)據(jù)信息獲取、儲存、分配等過程的準確率以及運行效率都得到顯著提高,具有很大的研究價值與實際應用意義。

1主數(shù)據(jù)管理驅(qū)動挖掘原理

利用主數(shù)據(jù)驅(qū)動實現(xiàn)了多源數(shù)據(jù)的建模,并通過服務的方式向外部提供數(shù)據(jù)。作為該驅(qū)動的核心,具有實現(xiàn)異構(gòu)數(shù)據(jù)轉(zhuǎn)換、業(yè)務編排、業(yè)務路由、安全控制、業(yè)務監(jiān)控等功能[3-5]。傳統(tǒng)數(shù)據(jù)挖掘系統(tǒng)中的多源數(shù)據(jù)受驅(qū)動方向雙向同步,而基于主數(shù)據(jù)驅(qū)動管理的業(yè)務系統(tǒng)通過ESB使用或發(fā)布服務,由此適應不同協(xié)議、標準化和成品使用。主數(shù)據(jù)管理驅(qū)動結(jié)構(gòu)如圖1所示。主數(shù)據(jù)驅(qū)動服務接口允許采用SOAP協(xié)議制,以此完成數(shù)據(jù)信息傳遞與分批處理。主數(shù)據(jù)管理驅(qū)動中樞基于業(yè)務流程管理平臺,可實現(xiàn)對主數(shù)據(jù)操作、治理、可視化展示[6-7]。

1.1基于適配器驅(qū)動數(shù)據(jù)傳遞

主數(shù)據(jù)管理驅(qū)動中的適配器,能夠改善現(xiàn)有數(shù)據(jù)的保存與管理問題,使數(shù)據(jù)分配處理,達到所有資源能夠全部被使用的目的[8-10]。主數(shù)據(jù)驅(qū)動中主單片機是整個適配器的核心,在主單片機上主要使用嵌入式操作系統(tǒng)的軟件業(yè)務程序,處理總線上下行數(shù)據(jù)挖掘。適配器驅(qū)動模塊結(jié)構(gòu)如圖2所示。信息處理平臺通過對收集到的原始信息進行組織加工、分類整理,然后將原始信息劃分為相應多源系統(tǒng)的各種資源列表,然后分別分配給多源數(shù)據(jù)驅(qū)動相應數(shù)據(jù)庫[11-13]。信息發(fā)布模塊的任務主要是發(fā)布和查詢各種信息,在信息發(fā)布過程中,信息傳遞能力主要表現(xiàn)為服務方式的多樣化、服務功能的完備性、服務平臺的易用性和技術的維護能力[14]。這是適配器驅(qū)動模塊運行的關鍵環(huán)節(jié),由此為多源數(shù)據(jù)提供數(shù)字化挖掘技術。

1.2基于接口器支配與處理數(shù)據(jù)

接口連接功能模塊是支撐核心功能模塊和管理功能模塊的基礎。其能夠保證在多源數(shù)據(jù)數(shù)字化挖掘過程中,主數(shù)據(jù)的管理驅(qū)動對于多源數(shù)據(jù)的支配與處理的有效性,即保證了數(shù)據(jù)數(shù)字化挖掘的來源合理性。其工作原理是終止UN1,支撐A/D轉(zhuǎn)換和信號轉(zhuǎn)換,處理UN1承載路徑,完成UNI的測試和用戶界面的維護、管理和控制。接口器連接硬件介于使用者和硬件之間,設計彼此交互溝通的相關構(gòu)件,目的是使用戶能方便、高效地進行硬件操作以達到雙向交互,完成相關工作任務。

2多源數(shù)據(jù)數(shù)字化挖掘

2.1基于克里格數(shù)據(jù)挖掘參數(shù)優(yōu)化

克里格方法是一種基于變異函數(shù)理論和結(jié)構(gòu)分析的空間局部估計方法[15-16],是一種在有限區(qū)域內(nèi)對區(qū)域化變量的聚類,對集合無偏最優(yōu)估計。此方法首先定義線性估計量:式(1)中,Z(xi)代表樣本數(shù)據(jù);Z#0(x)代表待估計值;λi代表各個樣點的權(quán)重,也叫做克里格系數(shù);∑i=1n+1λi=1;針對任意一個估計值,實際值與估計值之間均存在一定的誤差,Z#0(x)本質(zhì)上是Z0(x)的一種線性無偏最優(yōu)估計;借助克里格算法進行數(shù)據(jù)挖掘時,關鍵是克里格系數(shù)的確定,具體表示形式如下:式(2)矩陣K中,cij代表原尺度s中樣本i與樣本j間的協(xié)方差。通過克里格數(shù)據(jù)挖掘算法能夠得到數(shù)據(jù)挖掘的基本參數(shù)最優(yōu)化估計值,使得數(shù)據(jù)挖掘的信息準確性得到保證,將數(shù)據(jù)最優(yōu)化后,選取、分析數(shù)據(jù)的繁瑣性降低,是多源數(shù)據(jù)數(shù)字化挖掘的基礎。

2.2數(shù)據(jù)挖掘流程設計

在保證挖掘參數(shù)優(yōu)化條件下,結(jié)合挖掘?qū)ο髥栴}空間和數(shù)據(jù)的獨立性,通過數(shù)據(jù)預處理、數(shù)據(jù)選擇、數(shù)據(jù)分析,判斷數(shù)據(jù)挖掘任務,確定相關大數(shù)據(jù)估計研究方向。利用數(shù)據(jù)挖掘技術,可以從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中的相關數(shù)據(jù)集中提取知識信息,從而使大型數(shù)據(jù)庫具有豐富、可靠的知識歸納功能。數(shù)據(jù)挖掘流程如圖3所示。由圖3可知,先要有一個選擇過程,然后從這個挖掘任務需要挖掘的源數(shù)據(jù)庫中,根據(jù)服務用戶的需要和要求,提取出一組數(shù)據(jù)來進行挖掘操作,這組數(shù)據(jù)是該挖掘任務中需要進行的一系列挖掘操作的對象,如圖表中顯示的目標數(shù)據(jù);但在第一個步驟中,選擇出的目標數(shù)據(jù)并不一定就非常適合進行挖掘操作,可能其中包含了一些噪聲,數(shù)據(jù)應用的值有缺失或某些記錄有重復出現(xiàn)等,這時就需要對這些“臟數(shù)據(jù)”進行一系列的預處理,如圖4所示。由圖4可知,處理“臟數(shù)據(jù)”后,將這些數(shù)據(jù)作為安全數(shù)據(jù)進行挖掘操作,最后對前一個步驟中得到的安全數(shù)據(jù)按照挖掘任務所需格式轉(zhuǎn)換,將數(shù)據(jù)原類型轉(zhuǎn)換為方便操作處理的所需類型,由此完成多源數(shù)據(jù)數(shù)字化挖掘。

3實驗

為每一個測試用戶配置客戶端PC,安裝測試瀏覽器軟件,采用IE內(nèi)核瀏覽器進行系統(tǒng)訪問。在測試過程中,兼容性采用其他相關瀏覽器軟件進行測試。將統(tǒng)計多源數(shù)據(jù)挖掘方法與主數(shù)據(jù)管理驅(qū)動下多源數(shù)據(jù)數(shù)字化挖掘方法的挖掘精準度對比分析。在測試數(shù)據(jù)選擇方面,同時采用真實業(yè)務數(shù)據(jù)和模擬數(shù)據(jù)的方式進行測試,保證所測試的數(shù)據(jù)能夠滿足各種情況下的業(yè)務處理要求,從而保證數(shù)據(jù)管理工作的相關功能能夠適應各種業(yè)務處理。

3.1實驗參數(shù)

利用開放源代碼的性能測試平臺soapUI進行測試分析,設置相關運行參數(shù),通過soapUI對系統(tǒng)HTTP訪問成功率、響應時間進行分析,并對測試參數(shù)進行如下配置:1)設置200個并發(fā)數(shù);2)測試時間設為8小時。安裝soapUITools,在服務器端設備上運行并執(zhí)行測試。

3.2實驗結(jié)果

在測試數(shù)據(jù)選擇方面,同時采用真實業(yè)務數(shù)據(jù)和模擬數(shù)據(jù)的方式進行測試,保證所測試的數(shù)據(jù)能夠滿足各種情況下業(yè)務處理的要求。選擇8000個實際多源數(shù)據(jù),分別用統(tǒng)計挖掘方法與文中挖掘方法進行實驗分析。1)挖掘完整度將文獻[5]方法、文獻[6]方法與文中挖掘方法的數(shù)據(jù)挖掘完整度進行對比分析,結(jié)果如表1所示。由表1可知,使用文中方法在檢測數(shù)據(jù)為4000個時,與實際值相差最大為326個。在檢測數(shù)據(jù)為2000個時,與實際值相差最小為40個,而其他方法與實際值差距較大,由此可知,主數(shù)據(jù)管理驅(qū)動挖掘方法數(shù)據(jù)挖掘完整度較高。2)挖掘精準度將文獻[5]方法、文獻[6]方法與文中挖掘方法的數(shù)據(jù)挖掘精準度進行對比分析,結(jié)果如圖5所示。由圖5可知,在檢測數(shù)據(jù)為8000個時,使用主數(shù)據(jù)管理驅(qū)動挖掘方法達到最高挖掘精準度95%,而其他方法的挖掘精度一直低于文中方法,由此可知,主數(shù)據(jù)管理驅(qū)動挖掘方法數(shù)據(jù)挖掘精準度較高。

4結(jié)束語

針對挖掘全面性不強、數(shù)據(jù)挖掘精準度低的問題,提出了主數(shù)據(jù)管理驅(qū)動下多源數(shù)據(jù)數(shù)字化挖掘方法,利用主數(shù)據(jù)管理驅(qū)動、克里格數(shù)據(jù)挖掘算法實現(xiàn)多源數(shù)據(jù)數(shù)字化挖掘。利用主數(shù)據(jù)驅(qū)動管理,使企業(yè)檔案信息的獲取、存儲、分配等過程中的連接程度、準確性和操作效率顯著提高,具有很大的研究價值和實際應用價值。資源信息化建設一直是科學研究發(fā)展關注的重點,但單獨針對多源數(shù)據(jù)數(shù)字化挖掘問題的研究卻是在當今大數(shù)據(jù)背景下一次全新的挑戰(zhàn)。在資源獲取、信息集成整合以及數(shù)據(jù)應用創(chuàng)新方面制定的可行性措施也并不一定適用于所有的數(shù)據(jù)處理模式,因此,在今后研究進程中,多源數(shù)據(jù)的數(shù)字化挖掘研究過程需更加注重實用性、通用性的研究發(fā)展,以便適應當今社會的需求與發(fā)展。

作者:廖嘉煒 嚴俊斌 宋強 趙小凡 徐炫東 單位:廣東電網(wǎng)有限責任公司廣州供電局

精選范文推薦