公務(wù)員期刊網(wǎng) 論文中心 正文

大數(shù)據(jù)下計算機信息數(shù)據(jù)處理技術(shù)淺析

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了大數(shù)據(jù)下計算機信息數(shù)據(jù)處理技術(shù)淺析范文,希望能給你帶來靈感和參考,敬請閱讀。

大數(shù)據(jù)下計算機信息數(shù)據(jù)處理技術(shù)淺析

摘要:通過圍繞計算機數(shù)據(jù)信息處理的任務(wù),借助于后臺服務(wù)器、數(shù)據(jù)庫、存儲單元等硬件設(shè)施,以及Hadoop文件系統(tǒng)架構(gòu)、SOA服務(wù)體系、HDFS分布式存儲等大數(shù)據(jù)技術(shù),進行計算機數(shù)據(jù)信息處理系統(tǒng)的建構(gòu),提供虛擬機資源調(diào)度、分布式數(shù)據(jù)計算、任務(wù)處理等服務(wù),來完成海量化數(shù)據(jù)資源的搜集、處理與存儲。

關(guān)鍵詞:大數(shù)據(jù);信息數(shù)據(jù)處理;網(wǎng)絡(luò)架構(gòu)

1大數(shù)據(jù)技術(shù)的主要內(nèi)容概述

當前常用的大數(shù)據(jù)技術(shù),包括Hadoop文件系統(tǒng)架構(gòu)、SOA服務(wù)體系、HDFS分布式存儲等。其中Hadoop分布式數(shù)據(jù)處理架構(gòu),屬于大數(shù)據(jù)云計算系統(tǒng)的平臺即服務(wù)層,包括Collect(匯總)、Map(映射)、Reduce(歸約)等組成部分,主要秉持著先進先出的動態(tài)化任務(wù)調(diào)度理念。針對已搜集的海量化數(shù)據(jù)信息,利用Map映射函數(shù)建立兩組數(shù)據(jù)的映射規(guī)則,并向多個主節(jié)點、從節(jié)點的任務(wù)處理需求,動態(tài)分配虛擬主機,實現(xiàn)某一數(shù)據(jù)類型的映射、歸約操作。之后SOA服務(wù)體系為面向服務(wù)的組件模型,通常包含服務(wù)工作流、服務(wù)接口、服務(wù)注冊、服務(wù)訪問和服務(wù)查找等組件。該服務(wù)架構(gòu)通過TCP/IP網(wǎng)絡(luò)通信協(xié)議、定義的I/O接口,將某一應用程序的多個功能服務(wù)單元進行連接,并將多個分布式的服務(wù)組件進行封裝,為用戶提供需要的Web數(shù)據(jù)發(fā)送與接收、業(yè)務(wù)處理等的服務(wù)[1]。最后,HDFS分布式存儲是以分布式形式,對互聯(lián)網(wǎng)中海量化的數(shù)據(jù)信息作出存儲,主要包括數(shù)據(jù)資源管理、存儲等節(jié)點。HDFS的存儲單元為每個數(shù)據(jù)塊(block),而數(shù)據(jù)節(jié)點(DataNode)、元數(shù)據(jù)節(jié)點(Namenode)負責數(shù)據(jù)信息的寫入和讀出,其中數(shù)據(jù)塊的單個最小存儲單位是64Mbits。在HDFS文件系統(tǒng)HDFS框架的中心服務(wù)器,收到外部客戶端的數(shù)據(jù)訪問請求后,可以通過數(shù)據(jù)節(jié)點、元數(shù)據(jù)節(jié)點對數(shù)據(jù)訪問、目錄創(chuàng)建和數(shù)據(jù)存儲等作出控制,實現(xiàn)對不同數(shù)據(jù)資源的處理與存儲。

2大數(shù)據(jù)計算機信息處理的多層網(wǎng)絡(luò)架構(gòu)

基于大數(shù)據(jù)及云計算技術(shù)的計算機信息處理系統(tǒng),通常為包含基礎(chǔ)硬件設(shè)備、資源虛擬化硬件、用戶與映像管理、SOA服務(wù)體系的多層網(wǎng)絡(luò)架構(gòu),不同層級分別負責不同的硬件支持、任務(wù)響應、數(shù)據(jù)處理與存儲工作[2]。1)硬件設(shè)施資源層。物理資源層為多層網(wǎng)絡(luò)架構(gòu)的最底層,包括計算機、后臺服務(wù)器、數(shù)據(jù)庫、存儲器和網(wǎng)絡(luò)交換機等硬件設(shè)備,不同設(shè)備之間經(jīng)由定義的I/O接口進行連接,來為網(wǎng)絡(luò)資源虛擬化池、虛擬化計算機的建構(gòu)提供支持。2)資源虛擬化層。資源虛擬化層是依托于后臺服務(wù)器,對多臺計算機主機、數(shù)據(jù)信息服務(wù)硬件等進行虛擬化,該層級存在網(wǎng)絡(luò)資源池、數(shù)據(jù)資源池、存儲與計算資源池等組成部分。在任務(wù)管理中間層收到前端用戶,發(fā)送的web網(wǎng)絡(luò)訪問、數(shù)據(jù)處理與存儲請求后,會充分借助資源虛擬化層的分布式虛擬硬件,為不同用戶任務(wù)執(zhí)行匹配合適的虛擬化硬件資源。3)映像與用戶管理層。映像與用戶管理層是負責不同數(shù)據(jù)之間映像、映射規(guī)則建立,以及用戶權(quán)限、任務(wù)請求管理的層級。其中用戶管理包括用戶身份、用戶許可、用戶請求等的管理模塊;映像管理包括映像創(chuàng)建、映像部署、映像庫管理和映像周期管理等組成模塊,負責對后臺服務(wù)器端搜集的數(shù)據(jù)信息,建立起兩組數(shù)據(jù)的映射規(guī)則,并作出映像周期的合理控制[3]。4)SOA服務(wù)體系層。SOA體系是是一種精確定義接口、松耦合的服務(wù)架構(gòu),包含服務(wù)工作流、服務(wù)接口、服務(wù)注冊、服務(wù)訪問和服務(wù)查找等組件結(jié)構(gòu)。多種服務(wù)組件為即插即用的排布方式,也即可以先進行用戶安全檢查、再作服務(wù)處理與管理,也可以按相反順序執(zhí)行服務(wù),多種服務(wù)執(zhí)行有明確的接口定義、業(yè)務(wù)代碼。

3計算機數(shù)據(jù)信息處理涉及到的大數(shù)據(jù)關(guān)鍵技術(shù)

3.1數(shù)據(jù)挖掘技術(shù)

大數(shù)據(jù)挖掘技術(shù)是對網(wǎng)絡(luò)海量數(shù)據(jù)資源,進行快速收集、篩選、處理與存取的技術(shù),通常利用關(guān)聯(lián)分析、聚類分析等的數(shù)據(jù)挖掘算法,對存在關(guān)聯(lián)性的、有價值的數(shù)據(jù)內(nèi)容作出挖掘。當前網(wǎng)絡(luò)數(shù)據(jù)信息處理中用到的大數(shù)據(jù)挖掘技術(shù),包含數(shù)據(jù)獲取、數(shù)據(jù)預處理、數(shù)據(jù)清洗、數(shù)據(jù)變換和數(shù)據(jù)評估等內(nèi)容,各功能模塊分別負責多個數(shù)據(jù)挖掘步驟的執(zhí)行。

3.2分布式計算技術(shù)

分布式計算為多種Agent技術(shù)、Webservice技術(shù)等融合的計算技術(shù),其可以通過中間件為不同數(shù)據(jù)傳輸與處理、軟件應用執(zhí)行提供支持。在利用分布式計算技術(shù)對海量數(shù)據(jù)信息進行處理過程中,會將復雜的數(shù)據(jù)處理步驟,分解為若干個小的軟件處理任務(wù),再依托于虛擬化計算機硬件資源,多多種數(shù)據(jù)處理任務(wù)分配相應的元數(shù)據(jù)節(jié)點,不同節(jié)點負責特定的資源調(diào)度、分布式任務(wù)執(zhí)行,因而使用虛擬機進行數(shù)據(jù)批量處理的效率更高、成本更低。

4大數(shù)據(jù)技術(shù)在計算機數(shù)據(jù)處理中的應用流程研究

4.1數(shù)據(jù)采集

大數(shù)據(jù)技術(shù)支持下的數(shù)據(jù)信息處理系統(tǒng),包括數(shù)據(jù)采集、數(shù)據(jù)讀取、數(shù)據(jù)預處理、虛擬化資源調(diào)動、數(shù)據(jù)分析等的執(zhí)行流程,其分布式數(shù)據(jù)處理的組成架構(gòu)如圖1所示。當前局域網(wǎng)絡(luò)中的計算機數(shù)據(jù)信息采集,通常涉及經(jīng)營資本、財務(wù)流轉(zhuǎn)、業(yè)務(wù)執(zhí)行和人力資源管理等的數(shù)據(jù),特別在大量臨時文件、數(shù)字文檔或日志信息采集的過程中,需要先驗證信息來源的安全性準確性?;贖adoop分布式文件系統(tǒng)的數(shù)據(jù)信息采集模塊,主要利用Sqoop、Flume等數(shù)據(jù)采集工具,進行網(wǎng)絡(luò)海量化數(shù)據(jù)資源的采集,再使用SQL語句將現(xiàn)有數(shù)據(jù)信息,傳輸至后臺服務(wù)器、數(shù)據(jù)庫的硬件端口。

4.2數(shù)據(jù)處理

數(shù)據(jù)預處理模塊通常采取均值法、平滑法等處理方式,對廣域網(wǎng)或局域網(wǎng)的網(wǎng)絡(luò)空間中,存在的錯誤、冗余度高數(shù)據(jù)信息作出處理,主動過濾掉帶有噪聲的、重復性的、空值的數(shù)據(jù),對網(wǎng)絡(luò)數(shù)據(jù)預處理的計算公式為R=Qq+Ww+Ee。在完成企事業(yè)單位的數(shù)據(jù)信息采集后,可以依托大數(shù)據(jù)云服務(wù)平臺的虛擬化資源池,設(shè)置設(shè)置時間系數(shù)Q、負荷系數(shù)W、緩存系數(shù)E,并設(shè)定時間系數(shù)Q的A1、A2和A3預設(shè)值,以及負荷系數(shù)W的B1、B2和B3預設(shè)值,緩存系數(shù)E的C1、C2和C3預設(shè)值。然后根據(jù)虛擬化資源池中不同數(shù)據(jù)處理任務(wù)的不同權(quán)重,分配預設(shè)值q、w和e(q<w﹤e)。將多種數(shù)據(jù)信息的處理任務(wù)代入以上公式,得出海量大數(shù)據(jù)的與處理結(jié)果,并將數(shù)據(jù)處理的R值與原始預設(shè)值r作比較,若R≤r則生成并輸出正常的數(shù)據(jù)處理信號。

4.3虛擬化資源任務(wù)調(diào)度

整個大數(shù)據(jù)信息處理過程中的虛擬化資源調(diào)度,主要針對不同數(shù)據(jù)信息的業(yè)務(wù)處理需求,選擇合適的分布式算法、網(wǎng)格算法等模型,在邏輯或物理操作層,向不同任務(wù)分配特定的虛擬化節(jié)點,進行用戶訪問管理、數(shù)據(jù)映射及處理的功能執(zhí)行。虛擬資源管理、任務(wù)分配,主要對虛擬機負載、故障情況進行監(jiān)測與統(tǒng)計,來保障虛擬資源運行的負載均衡與安全。該任務(wù)調(diào)度的執(zhí)行流程為:將m個任務(wù)(Task),調(diào)度到n個元數(shù)據(jù)節(jié)點進行執(zhí)行,假定設(shè)置單個任務(wù)執(zhí)行時間為TET(TaskExecutionTime),則第i個任務(wù)在第j個資源中的執(zhí)行時間為:CET(i,j)=starttime(j)+TET(i,j)在資源虛擬化硬件中,所有數(shù)據(jù)信息處理任務(wù)執(zhí)行完成的總時間為:T=min{T1,T2,T3,…,Ti}4.4數(shù)據(jù)分析數(shù)據(jù)分析是對挖掘到的數(shù)據(jù)處理、任務(wù)執(zhí)行結(jié)果,進行全方位的價值評估。在映像與用戶管理層完成用戶身份、權(quán)限與網(wǎng)絡(luò)安全的審查后,由SOA服務(wù)體系層發(fā)送傳輸?shù)臄?shù)據(jù)信息處理信號,保證整個數(shù)據(jù)分析流程的安全穩(wěn)定性。當后臺服務(wù)器的虛擬化網(wǎng)絡(luò)系統(tǒng),接收到傳送的數(shù)據(jù)信息處理信號后,從虛擬控制器模塊讀取、提取出某一時間段內(nèi)的數(shù)據(jù)信息,存儲于后臺數(shù)據(jù)庫、模塊化存儲單元等設(shè)備中,以便于不同管理主體對數(shù)據(jù)的訪問、調(diào)用和共享。

5結(jié)語

大數(shù)據(jù)資源整合、云服務(wù)信息處理時代的到來,使得不同企事業(yè)單位都開始利用大數(shù)據(jù)技術(shù)、云計算服務(wù)平臺,進行內(nèi)部數(shù)據(jù)收集與傳輸、業(yè)務(wù)處理活動的開展。因此,依托后臺服務(wù)器、網(wǎng)絡(luò)云平臺的分布式計算技術(shù),大數(shù)據(jù)云服務(wù)系統(tǒng)可針對多種數(shù)據(jù)信息處理、虛擬計算機運行負載等的任務(wù),進行用戶身份驗證、數(shù)據(jù)處理與傳輸審計的安全管理,以及實時任務(wù)執(zhí)行監(jiān)測、故障統(tǒng)計,完成多種分布式計算、數(shù)據(jù)分類存儲與管理的工作,以保證系統(tǒng)運行的安全性。

參考文獻

[1]羅田琪.大數(shù)據(jù)時代背景下計算機信息處理技術(shù)的分析[J].電子元器件與信息技術(shù),2021(1):64-65.

[2]熊殿華.基于計算機數(shù)據(jù)處理接口程序的應用研究[J].西安文理學院學報(自然科學版),2016(4):31-33.

[3]邱火旺,陳文富.大數(shù)據(jù)技術(shù)的應用難點與問題分析[J].電腦編程技巧與維護,2019(5):83-84;113.

作者:孫宇軒 單位:韶關(guān)學院信息工程學院