前言:想要寫出一篇引人入勝的文章?我們特意為您整理了畜產(chǎn)品下的大數(shù)據(jù)分析系統(tǒng)設計范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:畜產(chǎn)品安全與人們的生命安全和身體健康息息相關,近年來,畜牧業(yè)作為農(nóng)業(yè)產(chǎn)業(yè)調結構、轉方式、提質量、增效益的主導產(chǎn)業(yè)和重要方向,基礎條件和發(fā)展模式發(fā)生深刻變化,進入產(chǎn)業(yè)化、規(guī)模化、集約化的高速增長新階段。在新的要求下,保證產(chǎn)品質量成為畜產(chǎn)品發(fā)展的首要要求,也是保障民生的重要內容,提高產(chǎn)品質量就要從提升畜產(chǎn)品檢驗檢測的工作質量上入手。文章對畜產(chǎn)品大數(shù)據(jù)分析系統(tǒng)的構建進行了全面的分析,為系統(tǒng)的開發(fā)提供理論的依據(jù)。
關鍵詞:畜產(chǎn)品;大數(shù)據(jù);數(shù)據(jù)倉庫;監(jiān)測分析
1畜產(chǎn)品大數(shù)據(jù)的現(xiàn)狀
在大數(shù)據(jù)時代下,人工智能、云平臺和高性能計算等技術的高速發(fā)展為畜產(chǎn)品智能檢測分析系統(tǒng)提供了重要的支撐。智能檢測分析系統(tǒng)的建構,有利于提升畜產(chǎn)品檢測的智能化,完善畜產(chǎn)品質量安全體系,推進農(nóng)業(yè)信息化建設[1]。將畜產(chǎn)品檢測與大數(shù)據(jù)技術相結合,利用現(xiàn)代信息技術,通過采集海量碎片化的信息數(shù)據(jù),準確的進行篩選、分析,并最終歸納、整理出政府和相關機構需要的資訊,構建一套畜產(chǎn)品檢測智能分析系統(tǒng),實行及時有力的深度分析,整體提升畜產(chǎn)品檢測監(jiān)管能力和水平,促進畜牧業(yè)產(chǎn)業(yè)健康、可持續(xù)發(fā)展。針對目前畜產(chǎn)品的檢測,其數(shù)據(jù)處理主要存在3個問題:(1)畜產(chǎn)品檢測注重檢測方法的使用和創(chuàng)新,檢測設備的培訓和升級,檢測人員的指導和培訓,而對檢測數(shù)據(jù)分析不夠重視,沒有深度發(fā)掘測試數(shù)據(jù)的潛在價值。(2)各類檢測機構眾多且互不統(tǒng)屬,有傳統(tǒng)的人工統(tǒng)計模式,還有利用軟件進行簡單分析的模式。此外實驗室所用大型儀器,廠家不同,操作軟件也不同,數(shù)據(jù)存儲和處理也不同,測試數(shù)據(jù)分散,導致數(shù)據(jù)收集困難。(3)畜產(chǎn)品數(shù)據(jù)的數(shù)據(jù)統(tǒng)計、分析與挖掘還比較滯后,需要向系統(tǒng)化、集成化、智能化的方向發(fā)展,缺乏相對應的畜產(chǎn)品檢測數(shù)據(jù)分析系統(tǒng)。
2大數(shù)據(jù)平臺的數(shù)據(jù)處理
2.1數(shù)據(jù)獲取
數(shù)據(jù)獲取是從數(shù)據(jù)源收集數(shù)據(jù),數(shù)據(jù)源分為閉源數(shù)據(jù)和開源數(shù)據(jù)。閉源數(shù)據(jù)指的是和相關檢測機構合作獲取的內部數(shù)據(jù),這部分數(shù)據(jù)可靠性比較高且不向外部公開,僅僅只作為分析統(tǒng)計使用,不能進行商業(yè)的應用。開源數(shù)據(jù)是指各檢測機構通過網(wǎng)絡的公開檢測數(shù)據(jù),比較分散,可以利用爬蟲軟件進行抓?。?]。對開源數(shù)據(jù)進行收集時,首先是定時,每段時間對相關網(wǎng)站進行分析,觀察所檢測數(shù)據(jù)的更新情況。其次定量,要準確地識別出哪些是最新的、哪些是相關的內容。數(shù)據(jù)主要來源于國家、省、市、縣和具有檢測資質的企業(yè)等相關網(wǎng)站,這些數(shù)據(jù)都比較分散,需要進一步進行有意義信息的提取,比如:過濾冗余信息,集成互補性信息。這其中還存在很多問題,如信息的質量問題,哪些信息是有價值的、可信賴的??梢詮目尚潘菰?信息的不同來源進行分析,省市級的信息比較重要和真實)、動態(tài)輪詢(根據(jù)后期分析和預測結果對數(shù)據(jù)源之前的重要性權重進行動態(tài)更新)做出判斷。采集數(shù)據(jù)分為結構化數(shù)據(jù)和非結構化數(shù)據(jù),要區(qū)別對待。
2.2資源聚合
考慮到不同數(shù)據(jù)來源中數(shù)據(jù)特性的不同,對于結構化相對較好、關聯(lián)相對簡單的檢測機構知識庫數(shù)據(jù),重點關注檢測指標實體(如樣品編號、測量對象、濃度等)的識別與消歧;對于采集的非結構化數(shù)據(jù),重點關注基于所識別的測試指標實體,抽取數(shù)據(jù)中的命名實體及其實體之間的關聯(lián)。最后,研究知識融合方法消除知識元素間的知識冗余、知識沖突,以保證知識的精準性與可行度,構建可靠的畜產(chǎn)品檢測知識圖譜。針對復雜、迭代式的信息抽取與知識融合,使用具有高可擴展性、可容錯性的MapReduce架構(開源Spark系統(tǒng)),實現(xiàn)并發(fā)處理與調度。以研究人員為中心,針對數(shù)據(jù)的局部性,設計合理劃分策略,將大的數(shù)據(jù)集分為若干個容易處理的子數(shù)據(jù)集。根據(jù)劃分的策略,針對不同子數(shù)據(jù)集的特點,設計特有的清洗方法,提升局部數(shù)據(jù)質量。設計整體清洗策略,清洗多個子數(shù)據(jù)之間存在的錯誤、不一致等問題,提升整體數(shù)據(jù)質量。由于分區(qū)的清洗策略充分的考慮了數(shù)據(jù)的局部特征與整體特征,將顯著提高清洗效率和效果[3]。
2.3對多源異構數(shù)據(jù)的融合分析
畜產(chǎn)品檢測數(shù)據(jù)之間存在潛在的信息互補和信息冗余,對這些大規(guī)模數(shù)據(jù)進行融合分析和產(chǎn)品動態(tài)畫像的構建,能更加全面、有效地分析出畜產(chǎn)品質量異常發(fā)生的季節(jié)、地點、產(chǎn)生的原因等。針對數(shù)據(jù)的融合分析,本課題從兩個方面進行處理:(1)為了過濾掉畜產(chǎn)品數(shù)據(jù)之間的冗余信息,并且對有意義、高質量的互補信息進行提取,采用主成分分析(PCA)和知識圖譜的嵌入向量融合的方法,最終得到更加全面、準確的畜產(chǎn)品特征表示。(2)為了提高在下游任務中的性能,采用集成學習的思想對不同弱分類(或預測)器進行決策層的融合,比如在Flume的基礎上結合Spark實現(xiàn)梯度提升決策樹(GBDT)以及隨機森林(RF)算法的快速分布式融合。
3數(shù)據(jù)倉庫系統(tǒng)設計
數(shù)據(jù)倉庫能夠以不同的維度(如區(qū)域,時間等)、不同的粒度級別存儲數(shù)據(jù),同時具有方便的擴展性,因此課題擬使用基于Hive的MapReduce+Spark雙計算引擎混合架構進行數(shù)據(jù)倉庫系統(tǒng)設計,通過和機器學習技術結合,無須人工干預和停機就能自動調優(yōu)、修補、升級、監(jiān)視和保護數(shù)據(jù)庫,以幫助疫病預測和制定戰(zhàn)略決策[4-5],系統(tǒng)設計如圖1所示。數(shù)據(jù)倉庫的主模塊包含HDFS、YARN、MapReduc、Spark和Hive。首先系統(tǒng)將多源異構數(shù)據(jù)匯聚到HDFS分布式文件系統(tǒng),通過YARN對Hadoop集群和Spark集群的資源進行分配和管理,然后再利用Hive工具進行數(shù)據(jù)的管理和索引,再通過上層MapReduce和Spark計算引擎對數(shù)據(jù)進行查詢分析和計算。雙引擎的好處在于,可以依據(jù)業(yè)務計算需求的不同,通過配置或簡單命令隨時切換Hive計算引擎。MapReduce采用了多進程模型,便于細粒度控制每個任務占用的資源,但會消耗較多的啟動時間,對實時性要求不高或對穩(wěn)定性要求較高的場景下使用MapReduce計算引擎;而Spark采用了多線程模型,雖然會出現(xiàn)嚴重的資源爭用,但有效地減少了中間數(shù)據(jù)傳輸數(shù)量與同步次數(shù),對實時性有一定要求時使用Spark計算引擎。此外,根據(jù)項目的實際需要,添加以下模塊:(1)考慮到業(yè)務的擴展性,添加組件ZooKeeper,按需對集群節(jié)點進行擴容。(2)考慮到病情預警所需要的實時性,添加組件SparkStreaming對數(shù)據(jù)進行流處理,為實時流處理提供平臺。(3)考慮到數(shù)據(jù)源多樣性,添加組件Graphx對圖片類型數(shù)據(jù)進行處理。(4)考慮到和機器學習技術結合,添加機器學習庫SparkMlib。
4結語
傳統(tǒng)產(chǎn)業(yè)與現(xiàn)代信息技術結合,已經(jīng)成為畜牧業(yè)創(chuàng)新發(fā)展的制高點。大數(shù)據(jù)時代,畜牧業(yè)在產(chǎn)前、產(chǎn)中、產(chǎn)后各鏈條、各環(huán)節(jié)產(chǎn)生大量的數(shù)據(jù),如何分析、挖掘、開發(fā)和利用大數(shù)據(jù)技術對海量數(shù)據(jù)進行相關分析,對畜牧業(yè)發(fā)展做出準確預測,對畜牧業(yè)生產(chǎn)經(jīng)營管理者進行正確指導和選擇合適的技術行為,是畜牧大數(shù)據(jù)開發(fā)的關鍵,畜產(chǎn)品檢測作為畜牧業(yè)安全保障的關鍵一環(huán),需要加快信息資源整合,讓數(shù)據(jù)轉起來、用起來,讓決策有依據(jù),大數(shù)據(jù)分析必不可少。
[參考文獻]
[1]邵航,宋英華,李墨瀟,等.我國食品安全與數(shù)據(jù)科學交叉研究的科學計量學分析[J].食品科學,2019(10):1-18.
[2]許世衛(wèi).畜牧業(yè)信息監(jiān)測與大數(shù)據(jù)分析技術及展望[J].獸醫(yī)導刊,2019(15):6-7.
[3]趙志.教育大數(shù)據(jù)統(tǒng)計分析平臺設計與研究[D].西安:西安理工大學,2019.
[4]韓太武.第八師動物衛(wèi)生監(jiān)督互聯(lián)網(wǎng)+大數(shù)據(jù)智能監(jiān)管平臺設計[D].石河子:石河子大學,2016.
[5]金磐石,朱志,沈麗忠.融合大數(shù)據(jù)技術架構在大型商業(yè)銀行海量數(shù)據(jù)分析的應用[J].計算機系統(tǒng)應用,2018(10):46-53.
作者:楊毅 單位:河南牧業(yè)經(jīng)濟學院