公務員期刊網(wǎng) 論文中心 正文

談電網(wǎng)業(yè)務流量監(jiān)控系統(tǒng)建設

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了談電網(wǎng)業(yè)務流量監(jiān)控系統(tǒng)建設范文,希望能給你帶來靈感和參考,敬請閱讀。

談電網(wǎng)業(yè)務流量監(jiān)控系統(tǒng)建設

隨著電力體制改革的不斷深化,業(yè)務管理方式逐漸由傳統(tǒng)的經(jīng)驗管理轉(zhuǎn)向基于數(shù)據(jù)分析的智能化管理。為有效保障電網(wǎng)公司的業(yè)務監(jiān)管工作開展效率,電網(wǎng)大力建設業(yè)務流量監(jiān)控系統(tǒng),由此為實現(xiàn)智能化管理提供了有效的數(shù)據(jù)支持。本文基于業(yè)務流量監(jiān)控系統(tǒng)建設內(nèi)容,對流量采集手段、分析技術等做經(jīng)驗總結(jié)、創(chuàng)新分析,并對未來的業(yè)務監(jiān)控建設方向做了深入分析。隨著各行業(yè)信息化的不斷深入,新建信息系統(tǒng)越來越多,同時隨著數(shù)據(jù)中心網(wǎng)絡規(guī)模擴大,承載應用系統(tǒng)越來越豐富,因此對運維精細化要求不斷提高,網(wǎng)絡流量采集分析已成為精細化運維不可或缺的分析手段,通過流量深度分析,能更快實現(xiàn)故障定位、協(xié)助優(yōu)化系統(tǒng),提升系統(tǒng)運行效率。電網(wǎng)企業(yè)迫切需要在信息化建設中加強信息系統(tǒng)的應用管理,通過業(yè)務流量監(jiān)控設備,為業(yè)務運行監(jiān)控系統(tǒng)提供監(jiān)控數(shù)據(jù),實時監(jiān)控各應用系統(tǒng)運行的狀態(tài)以及各個關鍵業(yè)務的運行情況,全面了解各業(yè)務系統(tǒng)運行情況,保證應用系統(tǒng)有良好的運行狀態(tài)。

1流量采集分析的實際應用

現(xiàn)有的信息系統(tǒng)故障診斷由于缺乏有效的數(shù)據(jù)支持,時間往往被耗費在無序的排查工作中,其中的主要問題在于:一旦發(fā)生問題,多部門同時開始根據(jù)各自經(jīng)驗診斷;缺乏統(tǒng)一視角的證據(jù)支持,沒有入手點;若無法達成共識,則需要進一步線索進行反復排查。通過對業(yè)務流量數(shù)據(jù)的采集,提供網(wǎng)絡性能、端到端業(yè)務性能等指標,將業(yè)務運行監(jiān)控系統(tǒng)采集到的指標,輸出到信息安全運行監(jiān)測預警系統(tǒng),以實現(xiàn)預警系統(tǒng)的全面覆蓋,同時便于快速發(fā)現(xiàn)定位應用性能問題,厘清各部門責任,有針對性的解決問題,減少了問題處理時間,提高了運維部門工作質(zhì)量和效率。

2采集、分析手段

數(shù)據(jù)中心的流量采集難度與業(yè)務流量所經(jīng)路徑、采集點數(shù)量等息息相關,電網(wǎng)的信息系統(tǒng)建設已深入到各個業(yè)務部門,所以其流量采集面臨的挑戰(zhàn)諸多:覆蓋業(yè)務流量經(jīng)過的所有路徑,采集點多,根據(jù)不同的需求,還需對采集后的流量進行差異化處理,且重要的一點是,流量的采集不能對運行的業(yè)務系統(tǒng)產(chǎn)生影響。電網(wǎng)業(yè)務流量采集監(jiān)控系統(tǒng)建設采用無侵入式流量鏡像采集方式獲取端到端業(yè)務流量。本系統(tǒng)部署的數(shù)據(jù)采集方式為:從業(yè)務系統(tǒng)的網(wǎng)臺前端負載均衡部署探針設備,進行流量鏡像采集,業(yè)務流量經(jīng)過交換機的數(shù)據(jù)包復制到鏡像端口,再由鏡像端口接入探針服務器,探針將采集到的數(shù)據(jù)分發(fā)給分析服務器進行處理,由分析服務器對網(wǎng)絡數(shù)據(jù)進行實時監(jiān)測、挖掘分析,并且不影響網(wǎng)絡和業(yè)務系統(tǒng)的正常運行。業(yè)務監(jiān)控系統(tǒng)采用網(wǎng)絡旁路方式采集交換機/路由器鏡像出來的流量。被監(jiān)視業(yè)務系統(tǒng)或應用完全感知不到監(jiān)測系統(tǒng)的存在,系統(tǒng)不向被監(jiān)控系統(tǒng)發(fā)送任何數(shù)據(jù),更不會對業(yè)務系統(tǒng)造成任何額外的計算資源、帶寬資源及緩存資源的開銷。產(chǎn)品安裝、迭代、升級時不需要重啟業(yè)務系統(tǒng)。完全不影響業(yè)務系統(tǒng)的性能,更不存在安全隱患問題。產(chǎn)品部署邏輯示意圖如圖1所示。通過交換機的流量鏡像采集,將應用服務器之間的通訊數(shù)據(jù)抓取出來,并通過對應的協(xié)議解碼功能將通訊中的數(shù)據(jù)解釋出來。將數(shù)據(jù)寫入分析服務器進行業(yè)務分析與重組。系統(tǒng)只需要將探針服務器與交換機對接,分析服務器等監(jiān)控系統(tǒng)用到的設備都可以通過自組網(wǎng)的方式組網(wǎng),不對業(yè)務網(wǎng)絡產(chǎn)生影響。

3探針采集模塊(圖2)

模塊概述:旁路采集需要監(jiān)控的網(wǎng)絡數(shù)據(jù)包,然后根據(jù)7層協(xié)議規(guī)則進行數(shù)據(jù)包深度解析,獲取七元組信息以及應用層業(yè)務相關專屬指標,最后以一定的數(shù)據(jù)格式發(fā)送給Java分析平臺進行業(yè)務統(tǒng)計分析,以及進行業(yè)務端到端的關聯(lián)分析。主要涉及的功能有:數(shù)據(jù)包捕獲,數(shù)據(jù)包預處理,數(shù)據(jù)包解析,解碼數(shù)據(jù)輸出。數(shù)據(jù)包捕獲:通過加載dpdk自定義驅(qū)動程序采集交換機鏡像過來的網(wǎng)絡數(shù)據(jù)包,并給每個數(shù)據(jù)包添加時間戳,然后根據(jù)數(shù)據(jù)包的四元組信息通過對稱hash算法得到hash值,根據(jù)hash值將每個數(shù)據(jù)包同源同宿的均分到各個預處理隊列中,由下一個功能模塊對數(shù)據(jù)包進行處理分析。應用場景:將數(shù)據(jù)包從網(wǎng)卡中采集推送給應用程序處理。數(shù)據(jù)包預處理:從預處理隊列中獲取數(shù)據(jù)包,對數(shù)據(jù)包頭進行解析,獲取數(shù)據(jù)包七元組信息,然后過濾模塊根據(jù)過濾配置規(guī)則和過濾條件對數(shù)據(jù)包進行過濾處理,符合過濾條件的數(shù)據(jù)包根據(jù)hash值再次同源同宿的分發(fā)給解碼隊列。應用場景:對數(shù)據(jù)進行清洗,篩選。數(shù)據(jù)包解析:根據(jù)七層協(xié)議規(guī)則對數(shù)據(jù)包進行深度解析,獲取mac,ip,port,相關的時間指標以及應用協(xié)議中攜帶的業(yè)務關聯(lián)數(shù)據(jù)指標,進行業(yè)務識別和匹配,進行業(yè)務數(shù)據(jù)標記。應用場景:深度解析數(shù)據(jù)包內(nèi)容,獲取數(shù)據(jù)指標,供上層Java分析平臺分析業(yè)務關聯(lián)。解碼數(shù)據(jù)輸出:講解碼后的數(shù)據(jù)結(jié)構字段,一次拼接成字符串流,通過socket或kafka發(fā)送給Java分析平臺。應用場景:將解碼后的基礎數(shù)據(jù)發(fā)送給第三方平臺進行二次深度分析關聯(lián)。

4系統(tǒng)創(chuàng)新點

(1)無侵入式采集客戶感知探測系統(tǒng)通過交換機流量鏡像采集方式獲取業(yè)務系統(tǒng)的端到端業(yè)務流量,實現(xiàn)無侵入式采集網(wǎng)絡原始數(shù)據(jù),對原有業(yè)務系統(tǒng)性能不會產(chǎn)生任何影響。(2)自動適配IT路徑圖的變化傳統(tǒng)部署的IT路徑圖:WEB負載-->web集群->接口匯聚負載->接口匯聚集群->能力中心服務集群->數(shù)據(jù)庫本系統(tǒng)的IT路徑圖:WEB負載-->web集群->接口匯聚負載->接口匯聚NG服務->接口匯聚容器->能力中心服務容器->數(shù)據(jù)庫本系統(tǒng)下,接口匯聚負載和接口匯聚容器之間增加了一個NG轉(zhuǎn)發(fā)服務。接口匯聚集群變成接口匯聚容器,能力中心服務集群變成能力中心服務容器。業(yè)務流量監(jiān)控系統(tǒng)能夠根據(jù)IP交互和業(yè)務資源調(diào)用關系,自動適配IT路徑圖的變化。(3)自動適配協(xié)議的變化探針能夠根據(jù)協(xié)議的內(nèi)容自動識別解碼。(4)IP漂移自動學習發(fā)現(xiàn)由于接口匯聚容器和能力中心服務容器的IP隨時可能發(fā)生變化(比如重啟,自動擴縮容),業(yè)務流量監(jiān)控系統(tǒng)能夠根據(jù)IP交互關系和協(xié)議動態(tài)識別IP所屬網(wǎng)端,實現(xiàn)IP漂移場景下自動發(fā)現(xiàn)新的拓撲圖。

5系統(tǒng)效益

(1)提升系統(tǒng)運行質(zhì)量針對每天流量探測出現(xiàn)的各類告警進行篩選,形成各類BUG故障單、系統(tǒng)性能故障單等,將該系統(tǒng)的數(shù)據(jù)與實體流量監(jiān)測對比,能及時發(fā)現(xiàn)考核風險,并及時定位考核問題。(2)提升業(yè)務運行質(zhì)量通過數(shù)據(jù)采集和分析,發(fā)現(xiàn)業(yè)務運行異常,提交業(yè)務規(guī)則類問題故障單,發(fā)現(xiàn)業(yè)務辦理失敗的問題,提交業(yè)務系統(tǒng)進行修復,同時給業(yè)務系統(tǒng)的預警和故障問題的定位提供了有力的支持和保障,從源頭減少了用戶投訴。(3)實現(xiàn)實時業(yè)務檢測系統(tǒng)通過建模的方式,對于特定類業(yè)務操作、業(yè)務量等進行檢測,通過該手段發(fā)現(xiàn)敏感業(yè)務操作,保障了系統(tǒng)數(shù)據(jù)安全。(4)成本效益本項目創(chuàng)新所帶來的效益不僅包括資本支出方面,也體現(xiàn)在日常運維成本方面。業(yè)務流量監(jiān)控系統(tǒng)降低了業(yè)務系統(tǒng)人工運維成本,給業(yè)務系統(tǒng)的預警和故障問題的定位提供了有力的支持和保障,從源頭減少了客戶投訴,提升了客戶客戶感知滿意度。(5)業(yè)務效益業(yè)務流量監(jiān)控系統(tǒng)有助于推動信息系統(tǒng)平臺的順利上線。通過同時監(jiān)控新老系統(tǒng),新系統(tǒng)和老系統(tǒng)同時運行,可以看到兩個系統(tǒng)相同業(yè)務的性能指標數(shù)據(jù)對比,作為新系統(tǒng)是否正常運行的一個重要評價標準。通過部署與實踐,我們不僅解決了現(xiàn)網(wǎng)遺留問題同時也攻克了不少技術難題。為電網(wǎng)全業(yè)務系統(tǒng)的主動探測探明了道路、掃除了前進障礙,希望在助推電網(wǎng)企業(yè)智能運維aiops方面能做出相應的貢獻,真正實現(xiàn)機器代替人工運維的初衷。同時隨著監(jiān)控技術的不斷發(fā)展,在夯實云平臺監(jiān)控智能化的基礎上,后續(xù)有條件可以進一步開展一系列技術革新探索。數(shù)據(jù)庫端到端關聯(lián)分析:充分挖掘數(shù)據(jù)庫流量,解碼每筆業(yè)務的SQL語句和相應的性能指標,自動學習業(yè)務接口和SQL的關聯(lián)關系。通過業(yè)務資源配置關系,串聯(lián)每筆業(yè)務的數(shù)據(jù)庫端到端關系。從而更加精細地定位系統(tǒng)故障到SQL級別,實現(xiàn)SQL的性能統(tǒng)計分析。

作者:林志達 曹小明 葉思斯 張華兵 單位:中國南方電網(wǎng)公司