前言:想要寫出一篇引人入勝的文章?我們特意為您整理了畜產(chǎn)品下的大數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)范文,希望能給你帶來靈感和參考,敬請(qǐng)閱讀。
摘要:畜產(chǎn)品安全與人們的生命安全和身體健康息息相關(guān),近年來,畜牧業(yè)作為農(nóng)業(yè)產(chǎn)業(yè)調(diào)結(jié)構(gòu)、轉(zhuǎn)方式、提質(zhì)量、增效益的主導(dǎo)產(chǎn)業(yè)和重要方向,基礎(chǔ)條件和發(fā)展模式發(fā)生深刻變化,進(jìn)入產(chǎn)業(yè)化、規(guī)?;?、集約化的高速增長新階段。在新的要求下,保證產(chǎn)品質(zhì)量成為畜產(chǎn)品發(fā)展的首要要求,也是保障民生的重要內(nèi)容,提高產(chǎn)品質(zhì)量就要從提升畜產(chǎn)品檢驗(yàn)檢測(cè)的工作質(zhì)量上入手。文章對(duì)畜產(chǎn)品大數(shù)據(jù)分析系統(tǒng)的構(gòu)建進(jìn)行了全面的分析,為系統(tǒng)的開發(fā)提供理論的依據(jù)。
關(guān)鍵詞:畜產(chǎn)品;大數(shù)據(jù);數(shù)據(jù)倉庫;監(jiān)測(cè)分析
1畜產(chǎn)品大數(shù)據(jù)的現(xiàn)狀
在大數(shù)據(jù)時(shí)代下,人工智能、云平臺(tái)和高性能計(jì)算等技術(shù)的高速發(fā)展為畜產(chǎn)品智能檢測(cè)分析系統(tǒng)提供了重要的支撐。智能檢測(cè)分析系統(tǒng)的建構(gòu),有利于提升畜產(chǎn)品檢測(cè)的智能化,完善畜產(chǎn)品質(zhì)量安全體系,推進(jìn)農(nóng)業(yè)信息化建設(shè)[1]。將畜產(chǎn)品檢測(cè)與大數(shù)據(jù)技術(shù)相結(jié)合,利用現(xiàn)代信息技術(shù),通過采集海量碎片化的信息數(shù)據(jù),準(zhǔn)確的進(jìn)行篩選、分析,并最終歸納、整理出政府和相關(guān)機(jī)構(gòu)需要的資訊,構(gòu)建一套畜產(chǎn)品檢測(cè)智能分析系統(tǒng),實(shí)行及時(shí)有力的深度分析,整體提升畜產(chǎn)品檢測(cè)監(jiān)管能力和水平,促進(jìn)畜牧業(yè)產(chǎn)業(yè)健康、可持續(xù)發(fā)展。針對(duì)目前畜產(chǎn)品的檢測(cè),其數(shù)據(jù)處理主要存在3個(gè)問題:(1)畜產(chǎn)品檢測(cè)注重檢測(cè)方法的使用和創(chuàng)新,檢測(cè)設(shè)備的培訓(xùn)和升級(jí),檢測(cè)人員的指導(dǎo)和培訓(xùn),而對(duì)檢測(cè)數(shù)據(jù)分析不夠重視,沒有深度發(fā)掘測(cè)試數(shù)據(jù)的潛在價(jià)值。(2)各類檢測(cè)機(jī)構(gòu)眾多且互不統(tǒng)屬,有傳統(tǒng)的人工統(tǒng)計(jì)模式,還有利用軟件進(jìn)行簡(jiǎn)單分析的模式。此外實(shí)驗(yàn)室所用大型儀器,廠家不同,操作軟件也不同,數(shù)據(jù)存儲(chǔ)和處理也不同,測(cè)試數(shù)據(jù)分散,導(dǎo)致數(shù)據(jù)收集困難。(3)畜產(chǎn)品數(shù)據(jù)的數(shù)據(jù)統(tǒng)計(jì)、分析與挖掘還比較滯后,需要向系統(tǒng)化、集成化、智能化的方向發(fā)展,缺乏相對(duì)應(yīng)的畜產(chǎn)品檢測(cè)數(shù)據(jù)分析系統(tǒng)。
2大數(shù)據(jù)平臺(tái)的數(shù)據(jù)處理
2.1數(shù)據(jù)獲取
數(shù)據(jù)獲取是從數(shù)據(jù)源收集數(shù)據(jù),數(shù)據(jù)源分為閉源數(shù)據(jù)和開源數(shù)據(jù)。閉源數(shù)據(jù)指的是和相關(guān)檢測(cè)機(jī)構(gòu)合作獲取的內(nèi)部數(shù)據(jù),這部分?jǐn)?shù)據(jù)可靠性比較高且不向外部公開,僅僅只作為分析統(tǒng)計(jì)使用,不能進(jìn)行商業(yè)的應(yīng)用。開源數(shù)據(jù)是指各檢測(cè)機(jī)構(gòu)通過網(wǎng)絡(luò)的公開檢測(cè)數(shù)據(jù),比較分散,可以利用爬蟲軟件進(jìn)行抓取[2]。對(duì)開源數(shù)據(jù)進(jìn)行收集時(shí),首先是定時(shí),每段時(shí)間對(duì)相關(guān)網(wǎng)站進(jìn)行分析,觀察所檢測(cè)數(shù)據(jù)的更新情況。其次定量,要準(zhǔn)確地識(shí)別出哪些是最新的、哪些是相關(guān)的內(nèi)容。數(shù)據(jù)主要來源于國家、省、市、縣和具有檢測(cè)資質(zhì)的企業(yè)等相關(guān)網(wǎng)站,這些數(shù)據(jù)都比較分散,需要進(jìn)一步進(jìn)行有意義信息的提取,比如:過濾冗余信息,集成互補(bǔ)性信息。這其中還存在很多問題,如信息的質(zhì)量問題,哪些信息是有價(jià)值的、可信賴的。可以從可信溯源(信息的不同來源進(jìn)行分析,省市級(jí)的信息比較重要和真實(shí))、動(dòng)態(tài)輪詢(根據(jù)后期分析和預(yù)測(cè)結(jié)果對(duì)數(shù)據(jù)源之前的重要性權(quán)重進(jìn)行動(dòng)態(tài)更新)做出判斷。采集數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),要區(qū)別對(duì)待。
2.2資源聚合
考慮到不同數(shù)據(jù)來源中數(shù)據(jù)特性的不同,對(duì)于結(jié)構(gòu)化相對(duì)較好、關(guān)聯(lián)相對(duì)簡(jiǎn)單的檢測(cè)機(jī)構(gòu)知識(shí)庫數(shù)據(jù),重點(diǎn)關(guān)注檢測(cè)指標(biāo)實(shí)體(如樣品編號(hào)、測(cè)量對(duì)象、濃度等)的識(shí)別與消歧;對(duì)于采集的非結(jié)構(gòu)化數(shù)據(jù),重點(diǎn)關(guān)注基于所識(shí)別的測(cè)試指標(biāo)實(shí)體,抽取數(shù)據(jù)中的命名實(shí)體及其實(shí)體之間的關(guān)聯(lián)。最后,研究知識(shí)融合方法消除知識(shí)元素間的知識(shí)冗余、知識(shí)沖突,以保證知識(shí)的精準(zhǔn)性與可行度,構(gòu)建可靠的畜產(chǎn)品檢測(cè)知識(shí)圖譜。針對(duì)復(fù)雜、迭代式的信息抽取與知識(shí)融合,使用具有高可擴(kuò)展性、可容錯(cuò)性的MapReduce架構(gòu)(開源Spark系統(tǒng)),實(shí)現(xiàn)并發(fā)處理與調(diào)度。以研究人員為中心,針對(duì)數(shù)據(jù)的局部性,設(shè)計(jì)合理劃分策略,將大的數(shù)據(jù)集分為若干個(gè)容易處理的子數(shù)據(jù)集。根據(jù)劃分的策略,針對(duì)不同子數(shù)據(jù)集的特點(diǎn),設(shè)計(jì)特有的清洗方法,提升局部數(shù)據(jù)質(zhì)量。設(shè)計(jì)整體清洗策略,清洗多個(gè)子數(shù)據(jù)之間存在的錯(cuò)誤、不一致等問題,提升整體數(shù)據(jù)質(zhì)量。由于分區(qū)的清洗策略充分的考慮了數(shù)據(jù)的局部特征與整體特征,將顯著提高清洗效率和效果[3]。
2.3對(duì)多源異構(gòu)數(shù)據(jù)的融合分析
畜產(chǎn)品檢測(cè)數(shù)據(jù)之間存在潛在的信息互補(bǔ)和信息冗余,對(duì)這些大規(guī)模數(shù)據(jù)進(jìn)行融合分析和產(chǎn)品動(dòng)態(tài)畫像的構(gòu)建,能更加全面、有效地分析出畜產(chǎn)品質(zhì)量異常發(fā)生的季節(jié)、地點(diǎn)、產(chǎn)生的原因等。針對(duì)數(shù)據(jù)的融合分析,本課題從兩個(gè)方面進(jìn)行處理:(1)為了過濾掉畜產(chǎn)品數(shù)據(jù)之間的冗余信息,并且對(duì)有意義、高質(zhì)量的互補(bǔ)信息進(jìn)行提取,采用主成分分析(PCA)和知識(shí)圖譜的嵌入向量融合的方法,最終得到更加全面、準(zhǔn)確的畜產(chǎn)品特征表示。(2)為了提高在下游任務(wù)中的性能,采用集成學(xué)習(xí)的思想對(duì)不同弱分類(或預(yù)測(cè))器進(jìn)行決策層的融合,比如在Flume的基礎(chǔ)上結(jié)合Spark實(shí)現(xiàn)梯度提升決策樹(GBDT)以及隨機(jī)森林(RF)算法的快速分布式融合。
3數(shù)據(jù)倉庫系統(tǒng)設(shè)計(jì)
數(shù)據(jù)倉庫能夠以不同的維度(如區(qū)域,時(shí)間等)、不同的粒度級(jí)別存儲(chǔ)數(shù)據(jù),同時(shí)具有方便的擴(kuò)展性,因此課題擬使用基于Hive的MapReduce+Spark雙計(jì)算引擎混合架構(gòu)進(jìn)行數(shù)據(jù)倉庫系統(tǒng)設(shè)計(jì),通過和機(jī)器學(xué)習(xí)技術(shù)結(jié)合,無須人工干預(yù)和停機(jī)就能自動(dòng)調(diào)優(yōu)、修補(bǔ)、升級(jí)、監(jiān)視和保護(hù)數(shù)據(jù)庫,以幫助疫病預(yù)測(cè)和制定戰(zhàn)略決策[4-5],系統(tǒng)設(shè)計(jì)如圖1所示。數(shù)據(jù)倉庫的主模塊包含HDFS、YARN、MapReduc、Spark和Hive。首先系統(tǒng)將多源異構(gòu)數(shù)據(jù)匯聚到HDFS分布式文件系統(tǒng),通過YARN對(duì)Hadoop集群和Spark集群的資源進(jìn)行分配和管理,然后再利用Hive工具進(jìn)行數(shù)據(jù)的管理和索引,再通過上層MapReduce和Spark計(jì)算引擎對(duì)數(shù)據(jù)進(jìn)行查詢分析和計(jì)算。雙引擎的好處在于,可以依據(jù)業(yè)務(wù)計(jì)算需求的不同,通過配置或簡(jiǎn)單命令隨時(shí)切換Hive計(jì)算引擎。MapReduce采用了多進(jìn)程模型,便于細(xì)粒度控制每個(gè)任務(wù)占用的資源,但會(huì)消耗較多的啟動(dòng)時(shí)間,對(duì)實(shí)時(shí)性要求不高或?qū)Ψ€(wěn)定性要求較高的場(chǎng)景下使用MapReduce計(jì)算引擎;而Spark采用了多線程模型,雖然會(huì)出現(xiàn)嚴(yán)重的資源爭(zhēng)用,但有效地減少了中間數(shù)據(jù)傳輸數(shù)量與同步次數(shù),對(duì)實(shí)時(shí)性有一定要求時(shí)使用Spark計(jì)算引擎。此外,根據(jù)項(xiàng)目的實(shí)際需要,添加以下模塊:(1)考慮到業(yè)務(wù)的擴(kuò)展性,添加組件ZooKeeper,按需對(duì)集群節(jié)點(diǎn)進(jìn)行擴(kuò)容。(2)考慮到病情預(yù)警所需要的實(shí)時(shí)性,添加組件SparkStreaming對(duì)數(shù)據(jù)進(jìn)行流處理,為實(shí)時(shí)流處理提供平臺(tái)。(3)考慮到數(shù)據(jù)源多樣性,添加組件Graphx對(duì)圖片類型數(shù)據(jù)進(jìn)行處理。(4)考慮到和機(jī)器學(xué)習(xí)技術(shù)結(jié)合,添加機(jī)器學(xué)習(xí)庫SparkMlib。
4結(jié)語
傳統(tǒng)產(chǎn)業(yè)與現(xiàn)代信息技術(shù)結(jié)合,已經(jīng)成為畜牧業(yè)創(chuàng)新發(fā)展的制高點(diǎn)。大數(shù)據(jù)時(shí)代,畜牧業(yè)在產(chǎn)前、產(chǎn)中、產(chǎn)后各鏈條、各環(huán)節(jié)產(chǎn)生大量的數(shù)據(jù),如何分析、挖掘、開發(fā)和利用大數(shù)據(jù)技術(shù)對(duì)海量數(shù)據(jù)進(jìn)行相關(guān)分析,對(duì)畜牧業(yè)發(fā)展做出準(zhǔn)確預(yù)測(cè),對(duì)畜牧業(yè)生產(chǎn)經(jīng)營管理者進(jìn)行正確指導(dǎo)和選擇合適的技術(shù)行為,是畜牧大數(shù)據(jù)開發(fā)的關(guān)鍵,畜產(chǎn)品檢測(cè)作為畜牧業(yè)安全保障的關(guān)鍵一環(huán),需要加快信息資源整合,讓數(shù)據(jù)轉(zhuǎn)起來、用起來,讓決策有依據(jù),大數(shù)據(jù)分析必不可少。
[參考文獻(xiàn)]
[1]邵航,宋英華,李墨瀟,等.我國食品安全與數(shù)據(jù)科學(xué)交叉研究的科學(xué)計(jì)量學(xué)分析[J].食品科學(xué),2019(10):1-18.
[2]許世衛(wèi).畜牧業(yè)信息監(jiān)測(cè)與大數(shù)據(jù)分析技術(shù)及展望[J].獸醫(yī)導(dǎo)刊,2019(15):6-7.
[3]趙志.教育大數(shù)據(jù)統(tǒng)計(jì)分析平臺(tái)設(shè)計(jì)與研究[D].西安:西安理工大學(xué),2019.
[4]韓太武.第八師動(dòng)物衛(wèi)生監(jiān)督互聯(lián)網(wǎng)+大數(shù)據(jù)智能監(jiān)管平臺(tái)設(shè)計(jì)[D].石河子:石河子大學(xué),2016.
[5]金磐石,朱志,沈麗忠.融合大數(shù)據(jù)技術(shù)架構(gòu)在大型商業(yè)銀行海量數(shù)據(jù)分析的應(yīng)用[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2018(10):46-53.
作者:楊毅 單位:河南牧業(yè)經(jīng)濟(jì)學(xué)院