公務(wù)員期刊網(wǎng) 論文中心 正文

大數(shù)據(jù)挖掘體系架構(gòu)研究

前言:想要寫(xiě)出一篇引人入勝的文章?我們特意為您整理了大數(shù)據(jù)挖掘體系架構(gòu)研究范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。

大數(shù)據(jù)挖掘體系架構(gòu)研究

摘要:為了解決現(xiàn)代數(shù)據(jù)挖掘過(guò)程中面臨的數(shù)據(jù)復(fù)雜程度較高及數(shù)據(jù)訪問(wèn)量較大的問(wèn)題,文章設(shè)計(jì)了基于云計(jì)算環(huán)境下的大數(shù)據(jù)挖掘體系架構(gòu)。與傳統(tǒng)數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)相比,具有較高的可擴(kuò)展性、面向服務(wù)、大量數(shù)據(jù)處理能力及成本較低的優(yōu)點(diǎn),還能夠支持大范圍的分布式數(shù)據(jù)挖掘,降低企業(yè)和運(yùn)營(yíng)商在數(shù)據(jù)挖掘技術(shù)中的投入,減短研發(fā)周期,有效提高產(chǎn)品的效率。此架構(gòu)能夠幫助企業(yè)實(shí)現(xiàn)數(shù)據(jù)分析和動(dòng)態(tài)資源池的配置,有效滿足企業(yè)的需求。

關(guān)鍵詞:云計(jì)算;挖掘服務(wù);大數(shù)據(jù);挖掘體系架構(gòu)

在互聯(lián)網(wǎng)及物聯(lián)網(wǎng)不斷發(fā)展的過(guò)程中,我國(guó)已經(jīng)處于信息及數(shù)據(jù)超量的信息時(shí)代中。如何對(duì)此產(chǎn)品產(chǎn)生的大量數(shù)據(jù)進(jìn)行挖掘,是現(xiàn)代運(yùn)營(yíng)商需要解決的問(wèn)題。自從云計(jì)算技術(shù)的出現(xiàn),為數(shù)據(jù)挖掘技術(shù)提供了更好的發(fā)展方向。云計(jì)算可以實(shí)現(xiàn)資源動(dòng)態(tài)分析、虛擬化功能,可以為應(yīng)用程序高性能開(kāi)發(fā)提供幫助。本文所設(shè)計(jì)的平臺(tái)能夠降低企業(yè)和運(yùn)營(yíng)商在數(shù)據(jù)挖掘方面的投入,還能夠促進(jìn)挖掘業(yè)務(wù)的推出,有效提高產(chǎn)品的收益。

1基于云計(jì)算的數(shù)據(jù)挖掘策略

1.1數(shù)據(jù)挖掘

數(shù)據(jù)挖掘技術(shù)就是利用識(shí)別技術(shù)、統(tǒng)計(jì)學(xué)、學(xué)習(xí)機(jī)器、人工智能等技術(shù),采取聚類(lèi)、分析預(yù)測(cè)、特征化、關(guān)聯(lián)性數(shù)據(jù)等分類(lèi)方法,從大量、隨機(jī)、不完整、模糊、噪聲數(shù)據(jù)中找出有價(jià)值的數(shù)據(jù)和信息[1]。

1.2云計(jì)算

云計(jì)算是商業(yè)計(jì)算中使用比較多的技術(shù),它就是將各種數(shù)據(jù)儲(chǔ)存在計(jì)算機(jī)資源結(jié)構(gòu)池中,這樣才能滿足系統(tǒng)自行建立信息儲(chǔ)存空間和計(jì)算、服務(wù)空間等。一般云計(jì)算包括軟件即服務(wù)(SoftwareasaService,SaaS)、基礎(chǔ)設(shè)備服務(wù)(InfrastructureasaService,IaaS)、平臺(tái)服務(wù)(PlatformasaService,PaaS)等模塊功能。

1.3數(shù)據(jù)挖掘云化

云計(jì)算的利用提高了數(shù)據(jù)挖掘技術(shù)的效率,同時(shí)也給數(shù)據(jù)挖掘技術(shù)帶來(lái)了新挑戰(zhàn)。很多行業(yè)的發(fā)展也開(kāi)始利用云計(jì)算進(jìn)行數(shù)據(jù)挖掘,傳統(tǒng)的數(shù)據(jù)挖掘平臺(tái)需要進(jìn)一步完善[2]。

2基于云計(jì)算和挖掘服務(wù)的大數(shù)據(jù)挖掘體系結(jié)構(gòu)

傳統(tǒng)的數(shù)據(jù)挖掘分析的數(shù)據(jù)量比較少,而且都是從數(shù)據(jù)倉(cāng)庫(kù)中挖掘,數(shù)據(jù)類(lèi)型較為單一。數(shù)據(jù)云化模型具有高速、高精度、大量數(shù)據(jù)處理功能,它能夠利用數(shù)據(jù)挖掘算法,進(jìn)行范圍的數(shù)據(jù)挖掘分析,數(shù)據(jù)挖掘算法可以進(jìn)行數(shù)據(jù)結(jié)構(gòu)的優(yōu)化,從而擴(kuò)大數(shù)據(jù)挖掘的范圍[3]。

2.1云計(jì)算平臺(tái)

云計(jì)算服務(wù)平臺(tái)包括SaaS,IaaS,Paas等3個(gè)模塊服務(wù),主要是負(fù)責(zé)處理數(shù)據(jù),同時(shí)能夠?qū)崿F(xiàn)儲(chǔ)存和處理數(shù)據(jù)的功能。該平臺(tái)可以和CPU、網(wǎng)絡(luò)支持、儲(chǔ)存等云服務(wù)硬件設(shè)備結(jié)合,利用分布式數(shù)據(jù)挖掘技術(shù)進(jìn)行大量數(shù)據(jù)的處理和計(jì)算。

2.2開(kāi)放接口的設(shè)計(jì)

云計(jì)算平臺(tái)具有數(shù)據(jù)接口開(kāi)放服務(wù),它的優(yōu)勢(shì)就是具有無(wú)態(tài)型功能,用戶可以通過(guò)開(kāi)放接口尋找自己需要的數(shù)據(jù)。在某個(gè)局域網(wǎng)中,可以重復(fù)進(jìn)行緩沖裝置的調(diào)用,從而保證服務(wù)器快速的吞吐量,進(jìn)而減少服務(wù)器工作的負(fù)擔(dān)[4]。

2.3數(shù)據(jù)挖掘?qū)?/p>

數(shù)據(jù)挖掘?qū)泳哂卸喾N封裝結(jié)構(gòu)形式,包括HTTP,XML,Restful等形式,而且可以實(shí)現(xiàn)結(jié)構(gòu)化語(yǔ)言查詢,通過(guò)引擎實(shí)現(xiàn)自動(dòng)解析可以調(diào)動(dòng)云服務(wù)。每個(gè)構(gòu)建行業(yè)的系統(tǒng)都是根據(jù)需求進(jìn)行自身業(yè)務(wù)數(shù)據(jù)調(diào)用,之后整合。數(shù)據(jù)挖掘第三方算法技術(shù)也可以利用工具,比如:Weka分布式和Mathout等算法庫(kù)[5]。

2.4分布式系統(tǒng)架構(gòu)

分布式架構(gòu)系統(tǒng)(Hadhoop)是一種軟件框架,可以在更大的平臺(tái)中進(jìn)行分布式數(shù)據(jù)處理,同時(shí)能夠數(shù)據(jù)提供引擎功能處理。下方HDFS文件框架結(jié)構(gòu)是一種分布式系統(tǒng),自身對(duì)外具有接口,能夠促進(jìn)程序自動(dòng)向離數(shù)據(jù)最近的位置進(jìn)行移動(dòng),分布式儲(chǔ)存系統(tǒng)架構(gòu)移動(dòng)計(jì)算數(shù)據(jù)節(jié)點(diǎn)可以有效減少投入成本[6]。上方HDFS能夠促進(jìn)屬于稀疏數(shù)據(jù)的有效解決,從而減少數(shù)據(jù)實(shí)際體量需求,達(dá)到節(jié)省效果成本。上方HBase是一種MapReduse引擎,它具有兩種引擎方式,包括Trackers和Task,該功能的使用改變了傳統(tǒng)執(zhí)行任務(wù)單一的方式,而且能夠?qū)崿F(xiàn)多個(gè)任務(wù)進(jìn)行拆分的功能,之后實(shí)現(xiàn)節(jié)點(diǎn)數(shù)據(jù)挖掘的有效分配,以此建立大量Reduse的任務(wù),在數(shù)據(jù)庫(kù)中進(jìn)行但數(shù)據(jù)集加載,從而實(shí)現(xiàn)云計(jì)算數(shù)據(jù)挖掘和高效的大數(shù)據(jù)服務(wù)功能。但是該平臺(tái)是一種流處理和批處理模式,無(wú)法進(jìn)行數(shù)據(jù)復(fù)雜、小延遲處理數(shù)據(jù),只能在較低的更新率大量數(shù)據(jù)靜態(tài)中使用,不能有效地實(shí)現(xiàn)計(jì)算內(nèi)存[7]。針對(duì)這種問(wèn)題可以通過(guò)圖片數(shù)據(jù)庫(kù)處理工具來(lái)解決,同時(shí)結(jié)合分布式儲(chǔ)存和計(jì)算機(jī)技術(shù),實(shí)現(xiàn)快速的數(shù)據(jù)處理和查詢,之后進(jìn)行半結(jié)構(gòu)和非結(jié)構(gòu)化的圖形數(shù)據(jù)和內(nèi)存計(jì)算,從而提高處理復(fù)雜數(shù)據(jù)的效率[8]。

3基于云計(jì)算數(shù)據(jù)挖掘機(jī)構(gòu)的實(shí)現(xiàn)

分布式架構(gòu)系統(tǒng)可以實(shí)現(xiàn)訪問(wèn)日志、超級(jí)DNS、計(jì)算CDN云和數(shù)據(jù)動(dòng)態(tài)分布功能,具體內(nèi)容包括以下方面。

3.1云計(jì)算

CDN化CDN的運(yùn)行原理是規(guī)避有效網(wǎng)絡(luò)環(huán)境給數(shù)據(jù)穩(wěn)定性和傳輸?shù)挠绊?,在?jié)點(diǎn)通暢網(wǎng)絡(luò)下進(jìn)行數(shù)據(jù)傳輸,從而使用戶獲得相應(yīng)信息,來(lái)提高數(shù)據(jù)儲(chǔ)存的效率和穩(wěn)定性,同時(shí)能夠快速保證高效的網(wǎng)站反應(yīng)[9]??梢杂行Ы鉀Q靜態(tài)傳輸數(shù)據(jù)中擴(kuò)展問(wèn)題,云計(jì)算平臺(tái)可以在短時(shí)間內(nèi)解決網(wǎng)絡(luò)靜態(tài)數(shù)據(jù)儲(chǔ)存和擴(kuò)展動(dòng)態(tài)內(nèi)容的問(wèn)題[10]。

3.2DNS超級(jí)

DNS是一種域名系統(tǒng),可以通過(guò)云計(jì)算平臺(tái)進(jìn)行數(shù)據(jù)的融合和擴(kuò)展,從而實(shí)現(xiàn)客戶和企業(yè)進(jìn)行Laas和Paas全面服務(wù)。通過(guò)切換智能DNS,在云計(jì)算平臺(tái)中進(jìn)行網(wǎng)站大量IP地址的,通過(guò)服務(wù)器/客戶端結(jié)構(gòu)功能,進(jìn)行云計(jì)算平臺(tái)應(yīng)用功能的優(yōu)化。

3.3動(dòng)態(tài)數(shù)據(jù)分布

CDN可以以較低的成本在網(wǎng)站中全面進(jìn)行鋪設(shè)。在結(jié)構(gòu)設(shè)計(jì)中,入股出現(xiàn)節(jié)點(diǎn)問(wèn)題可以實(shí)現(xiàn)網(wǎng)站的訪問(wèn),普通網(wǎng)站用戶服務(wù)都是聚集在特定的區(qū)域中,具有一定的地域性特點(diǎn),通過(guò)地域性用戶差異建立網(wǎng)站,在互聯(lián)網(wǎng)環(huán)境下實(shí)現(xiàn)云計(jì)算的創(chuàng)建和部署,在最近用戶位置進(jìn)行平臺(tái)訪問(wèn),從而減少網(wǎng)站訪問(wèn)時(shí)間[11]。

3.4訪問(wèn)日志

用戶進(jìn)行數(shù)據(jù)通過(guò)網(wǎng)絡(luò)的瀏覽時(shí),實(shí)現(xiàn)網(wǎng)站可以日志的記錄訪問(wèn)。在網(wǎng)絡(luò)環(huán)境下實(shí)現(xiàn)日志信息訪問(wèn),之后將數(shù)據(jù)保存在數(shù)據(jù)倉(cāng)庫(kù)中,然后實(shí)現(xiàn)數(shù)據(jù)信息的深度挖掘,通過(guò)整合的數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)服務(wù)端的部署。然后根據(jù)訪問(wèn)用戶網(wǎng)站進(jìn)行的信息,建立反饋意見(jiàn)功能,為云計(jì)算的應(yīng)用平臺(tái)提供幫助[12]。

3.5智能調(diào)度系統(tǒng)

該系統(tǒng)可以有效解決知識(shí)組合問(wèn)題,實(shí)現(xiàn)快速調(diào)度。通過(guò)超級(jí)DNS實(shí)現(xiàn)用戶訪問(wèn)行為的索引,從而對(duì)用戶數(shù)據(jù)進(jìn)行深度挖掘,實(shí)現(xiàn)快速網(wǎng)站分發(fā)和智能系統(tǒng)調(diào)度創(chuàng)建,從而提高用戶網(wǎng)站訪問(wèn)效率,提高網(wǎng)站的承載力,減少用戶訪問(wèn)時(shí)間[13]。

4結(jié)語(yǔ)

本文分析的技術(shù)系統(tǒng)還存在一定的問(wèn)題有待以后解決,比如:大數(shù)據(jù)在云設(shè)備中傳輸、程序結(jié)構(gòu)的設(shè)計(jì)等問(wèn)題需要加深研究

[參考文獻(xiàn)]

[1]馮麗慧.云計(jì)算和挖掘服務(wù)融合下的大數(shù)據(jù)挖掘體系架構(gòu)設(shè)計(jì)及應(yīng)用[J].電腦編程技巧與維護(hù),2017(24):49-51.

[2]鄧仲華,劉偉偉,陸穎雋.基于云計(jì)算的大數(shù)據(jù)挖掘內(nèi)涵及解決方案研究[J].情報(bào)理論與實(shí)踐,2015(7):103-108.

[3]劉文學(xué).基于云計(jì)算的大數(shù)據(jù)挖掘內(nèi)涵及解決方案研究[J].工程技術(shù)(全文版),2013(8):279.

[4]李娜,余省威.云計(jì)算環(huán)境下多服務(wù)器多分區(qū)數(shù)據(jù)的高效挖掘方法設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2017(10):43-45.

作者:華英 單位:蘇州市職業(yè)大學(xué)

相關(guān)熱門(mén)標(biāo)簽