公務員期刊網 論文中心 正文

有線電視網絡運營商平臺建設研究

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了有線電視網絡運營商平臺建設研究范文,希望能給你帶來靈感和參考,敬請閱讀。

有線電視網絡運營商平臺建設研究

【摘要】根據企業(yè)實際業(yè)務需求,梳理大數據平臺所需具備的能力以及具體建設目標,按照滿足海量數據存儲、高性能計算、應用豐富等企業(yè)級大數據平臺能力要求,從數據采集與預處理、計算與存儲、平臺運維和管理等方面構建企業(yè)級大數據平臺的功能架構及其配套的硬件架構,為建設企業(yè)級大數據平臺提供參考。

【關鍵詞】大數據;數據平臺;系統(tǒng)架構;數據管理

0前言

江蘇省廣電有線信息網絡股份有限公司(以下簡稱江蘇有線)通過這些年的信息化發(fā)展,各個業(yè)務領域都構建了完善的信息系統(tǒng)支撐,沉淀了巨大的數據資源。數據資源不僅涉及業(yè)務受理信息、行為日志等結構化數據,還包括圖片、音頻、視頻等非結構化數據。從數據質量來說,這些數據涵蓋了全業(yè)務、全用戶和全渠道,信息完整度較好。如何充分利用這些蘊含巨大價值的數據資源,反哺于各個業(yè)務領域,使之成為推動業(yè)務發(fā)展、提升市場競爭能力的強大推動力,是當前迫切需要解決的問題。通過一段時間的探索,江蘇有線大數據資源的開發(fā)利用和數據價值的呈現已初見成效,但面對日益增長的業(yè)務發(fā)展趨勢,以及快速的響應市場能力的需求,傳統(tǒng)的數據倉庫和經營分析系統(tǒng)不足以支撐未來業(yè)務應用的價值化數據需求。主要表現在多個子系統(tǒng)的數據資源未進行融合、開發(fā)和利用,從而使數據價值的挖掘和利用受到了限制;傳統(tǒng)的數據系統(tǒng)平臺架構擴展性難以滿足業(yè)務應用發(fā)展的需求。因此,需要基于主流大數據平臺框架,構建匯聚業(yè)務、終端、用戶收視行為、消費習慣、客戶服務等多維度的數據分析平臺,遵循行業(yè)內統(tǒng)一的數據處理技術,管理等相關標準,提供融合數據存儲、統(tǒng)一數據訪問等跨平臺的數據能力,通過數據資源的開發(fā)和利用,實現價值的發(fā)掘。

1企業(yè)級大數據平臺的建設目標

企業(yè)級大數據平臺作為江蘇有線唯一、統(tǒng)一的數據采集、處理、服務和運營的平臺,按照統(tǒng)一匯聚、統(tǒng)一存儲、集中計算、集中管控的原則,形成總公司及各分公司“多節(jié)點”“網狀網”形態(tài)的數據和服務共享能力,實現數據集中化、能力化、資產化的目標。具體建設目標如下:1)建立江蘇有線統(tǒng)一數據中心。實現企業(yè)內外全網型數據、跨域數據的采集和整合,搭建可管、可控、可用的數據管理和運營體系。對內是數據化經營決策的唯一依據,對外是數據變現經營的唯一載體。2)海量數據的安全存儲。實現江蘇有線PB級客戶、業(yè)務、網絡、行為等結構化和非結構化海量數據的存儲,實現數據安全備份、歷史明細數據隨查隨用、擴容靈活不停機、擴容成本低廉的目標。3)高性能數據計算處理能力。具備離線批量處理、準實時處理、內存處理和交互式探索等多種計算能力,實現高并發(fā)下PB級數據的高效處理和應用。有效提升各類經營指標、統(tǒng)計報表的數據處理效率(月度數據任務處理時間不超過6h),支撐江蘇有線全省經營工作,各分公司、子公司數據化運營的高效開展。4)豐富的數據應用中心。具備海量數據挖掘、靈活的數據可視化/交互能力,打造實時查詢、業(yè)務預測、精準營銷等數據應用,把數據應用能力下放至一線人員使用,快速有效各分公司、子公司和業(yè)務單位在市場經營決策、節(jié)目采購編排、收視率分析、產品設計分析、一線精確化營維工作的開展。5)大數據能力開放體系。以數據開放方式實現數據能力輸出、數據服務共享。對內作為數據中心向其他各類系統(tǒng)輸送統(tǒng)一標準的數據或者平臺的計算和存儲資源;對外是江蘇有線數據資產變現經營的統(tǒng)一數據資源。6)建立數據資產運營體系。建立一體化的數據管控和數據資產運營管理體系,包括數據統(tǒng)一規(guī)劃、統(tǒng)一定義、安全管控、運營模式、運營平臺等,實現企業(yè)數據的有效治理和運營。

2企業(yè)級大數據平臺功能架構

企業(yè)級大數據平臺采用分層架構設計,充分體現協(xié)同一體、敏捷高效、智能精準、開放共享的愿景,以及“小前臺、大中臺、厚后臺”的原則要求,大數據平臺核心部分為PaaS平臺,大數據基礎平臺功能架構包括數據采集與預處理、計算與存儲、平臺運維和管理。大數據平臺功能架構如圖1所示。

2.1數據采集與預處理

為批量數據采集、流式采集、數據預處理、數據分發(fā)、數據同步/加載提供底層技術支撐[1]:1)批量數據采集。基于x86服務器集群,使用FTP、SFTP、HTTP、Sqoop、DataX等協(xié)議或技術,實現結構化、半結構化、非結構化數據批量離線數據采集。2)流式采集?;趚86服務器集群,使用SDTP消息、Kafka消息中間件、Flume等開源技術,將數據按照消息、文件、數據庫適配等方式進行數據接入。3)數據同步/加載。支撐PB級數據同步的同步,加載目標包括結構化與非結構化多種DB/DW(如Hive、Oracle、DB2、MPP數據庫、MySQL數據庫)。

2.2計算與存儲

計算與存儲包括數據存儲、批量計算、實時計算、Redis內存存儲[2]:1)數據存儲。負責存儲數據采集層發(fā)送過來的數據、數據計算/分析結果的數據,數據根據業(yè)務應用場景可存儲在適用的存儲服務器上,如傳統(tǒng)關系型數據庫、Nosql、MPP、HDFS等。使用HDFS/Hbase/Redis/GreenPlum/MySQL/DB2等技術構建海量數據存儲能力。2)批量計算。負責數據收集過程中的批量處理,形成不同數據組織的基礎數據資產,完成基礎數據準備工作。并能夠支持不同分布式計算框架的數據分析工作,使用MapReduce、Hive、Spark、SparkSQL、Impala、Kylin、Mahout、SparkR開源技術構建批量數據加工處理及數據挖掘能力。3)實時計算?;趚86服務器集群,使用Spark-Streaming、Redis、Hbase、Kafka等開源技術,負責實時性要求高的數據加工處理。4)Redis內存存儲?;趚86服務器集群,構建Redis內存存儲集群,實現實時訪問要求高的用戶行為數據、實時位置數據、實時集團上報數據等各類實時計算結果數據存儲,并打通Redis與實時計算引擎、Hadoop、RDB、MPP無縫銜接及交互能力。

2.3平臺運維與管理

1)通過界面進行向導式的部署平臺組件,可視化對HDFS、Hbase、Hive、Spark等Hadoop生態(tài)進行部署和完成相關的配置。2)采用可視化的圖表指標方式,監(jiān)控Hadoop組件、主機CPU、磁盤I/O、網絡I/O等硬件指標。3)具備完善的日志抓取和下載能力。在統(tǒng)一的企業(yè)級管理界面,可以查看平臺所有主機運行日志的詳情,并且可以在大數據平臺界面進行日志的瀏覽或者下載,方便運維人員對問題進行定位。

3企業(yè)級大數據平臺

硬件架構企業(yè)級大數據平臺硬件架構由數據管理平臺、能力服務平臺、數據計算中心和展現平臺等4部分組成[3]。其中數據計算中心是整個系統(tǒng)的核心,用來部署Hadoop集群和關系型數據庫。數據管理平臺、能力服務平臺和展現平臺對應不同的應用部署。外部各業(yè)務系統(tǒng)通過核心交換機接入Hadoop集群交互通信。數據生產集群與數據理平臺、能力服務平臺部署分離,將生產與管理影響降到最小。生產中心主節(jié)點、計算節(jié)點等各類節(jié)點在同一個集群內,提升節(jié)點間通信效率。企業(yè)級大數據平臺硬件架構如圖2所示。為滿足企業(yè)級大數據平臺的數據計算并發(fā)能力,完成對歷史數據的遷移及新數據的存儲,經測算按照30%的能力冗余。企業(yè)級大數據平臺的硬件配置如表1所示。

4企業(yè)級大數據平臺應用

4.1企業(yè)級大數據平臺集群監(jiān)控

通過AmbariDashboard頁面展示集群的整體情況,可以點擊各個圖表查看具體信息。服務級別監(jiān)控管理包括HDFS、MapReduce、Storm、Spark等,通過左邊導航點擊對應的服務,可以查看該服務的使用情況。Heatmaps展示了服務各個角色使用磁盤I/O、網卡I/O、CPU以及JVM等性能狀況。企業(yè)級大數據平臺集群監(jiān)測如圖3所示。

4.2平臺任務開發(fā)與調度管理

通過企業(yè)級大數據平臺數據中臺工具實現便捷式數據可視化開發(fā),即開發(fā)流程采用直觀、可視的方式,從布局設計、數據源配置到組件配置及開發(fā)效果全過程均可查看。主要包括元數據管理、數據采集、數據稽核、數據標準制定、數據加工、數據分發(fā)、業(yè)務流程管理、接口管理、調度一體化等工具。其中,調度監(jiān)控可以實時呈現平臺JOB執(zhí)行情況,且對于執(zhí)行失敗的JOB可以進行查看日志、重做當前、重做后續(xù)等操作。企業(yè)級大數據平臺數據任務執(zhí)行情況監(jiān)控如圖4所示。

5結語

綜上所述,通過企業(yè)級大數據平臺的建設,實現企業(yè)內外全網型數據、跨域數據的采集和整合,搭建可管、可控、可用的數據管理和運營平臺??焖儆行е喂芾韺优c業(yè)務部門在經營管理、市場經營決策、數據化運營、產品設計分析、一線精確化營維等工作的開展。

參考文獻

[1]曹逸知.大數據的發(fā)展與技術應用[J].通訊世界,2019(1):51—52.

[2]范家寧.基于Spark的多數據源大數據治理平臺研究[D].北京:中國地質大學(北京),2020.

[3]劉盛學.電信大數據探索平臺關鍵技術及其實現研究[D].長沙:湖南大學,2018.

作者:丁云強 單位:江蘇省廣電有線信息網絡股份有限公司

相關熱門標簽