公務(wù)員期刊網(wǎng) 論文中心 正文

大數(shù)據(jù)分析下網(wǎng)絡(luò)安全風險挖掘淺析

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了大數(shù)據(jù)分析下網(wǎng)絡(luò)安全風險挖掘淺析范文,希望能給你帶來靈感和參考,敬請閱讀。

大數(shù)據(jù)分析下網(wǎng)絡(luò)安全風險挖掘淺析

摘要:為了保證網(wǎng)絡(luò)安全,提出基于大數(shù)據(jù)分析網(wǎng)絡(luò)安全風險挖掘與估計方法,選取Hadoop平臺的Map和Reduce函數(shù)挖掘網(wǎng)絡(luò)安全事件關(guān)聯(lián)規(guī)則,將所挖掘關(guān)聯(lián)規(guī)則作為網(wǎng)絡(luò)安全事件特征,將網(wǎng)絡(luò)安全事件特征作為徑向基核函數(shù)的支持向量機輸入,通過訓練建立網(wǎng)絡(luò)安全風險估計模型,并采用QPSO方法的尋優(yōu)性能搜尋支持向量機最優(yōu)參數(shù),實驗結(jié)果表明,該方法提升了網(wǎng)絡(luò)安全風險估計精度,對于防御網(wǎng)絡(luò)安全風險具有重要的參考價值。

關(guān)鍵詞:大數(shù)據(jù)分析;網(wǎng)絡(luò)安全風險;關(guān)聯(lián)規(guī)則;支持向量機

1引言

互聯(lián)網(wǎng)技術(shù)發(fā)展極為迅速,互聯(lián)網(wǎng)網(wǎng)絡(luò)環(huán)境具有較高的開放性,部分攻擊者利用網(wǎng)絡(luò)具有的不確定性以及多樣性攻擊網(wǎng)絡(luò),嚴重威脅網(wǎng)絡(luò)運行安全[1-2]。以往的網(wǎng)絡(luò)防御方法僅利用數(shù)據(jù)包中所包含信息獲取風險估計結(jié)果,所獲取風險估計結(jié)果準確率較低。為了保障網(wǎng)絡(luò)運行安全性,令網(wǎng)絡(luò)管理者實時明確網(wǎng)絡(luò)運行狀態(tài),提前明確網(wǎng)絡(luò)安全風險,采用相應(yīng)的防御措施抵御風險,是保障網(wǎng)絡(luò)安全運行的重要基礎(chǔ)[3-5]。目前眾多研究學者針對網(wǎng)絡(luò)安全風險進行大量研究。韓曉露與何春蓉等人分別利用直覺模糊集以及注意力機制評估網(wǎng)絡(luò)安全態(tài)勢[6-7],但網(wǎng)絡(luò)安全風險仍存在告警量過大以及由于數(shù)據(jù)量過大導致誤報率較高的缺陷。從海量網(wǎng)絡(luò)大數(shù)據(jù)中挖掘有用的網(wǎng)絡(luò)安全風險數(shù)據(jù)是網(wǎng)絡(luò)安全風險精準評估的關(guān)鍵。網(wǎng)絡(luò)存在攻擊行為時,將形成大量眾多類型的告警信息,提升數(shù)據(jù)挖掘難度[8],高效的大數(shù)據(jù)挖掘方法對于提升網(wǎng)絡(luò)安全風險評估精度極為重要。為此本文提出了基于大數(shù)據(jù)分析的網(wǎng)絡(luò)安全風險挖掘與估計方法,并對其性能進行了測試與分析。

2大數(shù)據(jù)分析的網(wǎng)絡(luò)安全風險挖掘與估計方法

2.1數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則提取

采集海量網(wǎng)絡(luò)數(shù)據(jù)中的安全事件,由于所采集網(wǎng)絡(luò)安全事件格式存在較大差異,需歸一化處理安全事件,便于挖掘其中所包含的關(guān)聯(lián)規(guī)則。利用所挖掘關(guān)聯(lián)規(guī)則分析網(wǎng)絡(luò)安全風險的相似病毒[9],相似漏洞等攻擊行為,提升網(wǎng)絡(luò)安全風險評估精度。利用大數(shù)據(jù)分析技術(shù)的數(shù)據(jù)挖掘方法提取網(wǎng)絡(luò)安全事件關(guān)聯(lián)規(guī)則。W={w1,w2,…,wn}表示安全事件元素集合,R={r1,r2,…,rn}表示數(shù)據(jù)集,數(shù)據(jù)集R中所包含元素ri均為由W建立的集合,即存在riW。定義1:利用集合R內(nèi)元素建立集合C,數(shù)據(jù)集內(nèi)元素可滿足Cri要求數(shù)量為l時,可得數(shù)據(jù)集R內(nèi)集合C的支持度計算公式如下:(1)(1)定義2:存在集合C與集合D滿足AW∩IDW時,利用表示C→D的置信度。所挖掘數(shù)據(jù)集合內(nèi)可滿足最小置信度以及最小支持度的C→D即大數(shù)據(jù)挖掘方法所需挖掘的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則通過挖掘事務(wù)集內(nèi)頻繁項集合,獲取不同事務(wù)與事務(wù)間所存在的關(guān)聯(lián)規(guī)則。網(wǎng)絡(luò)安全事件具有規(guī)模量極大的特點[10],選取云計算平臺Hadoop平臺實現(xiàn)海量網(wǎng)絡(luò)安全事件關(guān)聯(lián)規(guī)則挖掘。大數(shù)據(jù)分析技術(shù)挖掘關(guān)聯(lián)規(guī)則分為兩部分:(1)挖掘頻繁項集,所挖掘頻繁項集應(yīng)滿足最小支持度;(2)利用數(shù)據(jù)挖掘所獲取的頻繁項集挖掘滿足最小置信度條件的關(guān)聯(lián)規(guī)則。Hadoop平臺利用Map函數(shù)以及Reduce函數(shù)獲取項目集子集以及綜合已獲取子集的支持度,通過分析全部子集支持度獲取所挖掘網(wǎng)絡(luò)安全事件中頻繁項支持度,挖掘網(wǎng)絡(luò)安全事件數(shù)據(jù)集中所包含頻繁項集。Hadoop平臺挖掘關(guān)聯(lián)規(guī)則過程如下:將最小支持度β以及原始網(wǎng)絡(luò)安全事件數(shù)據(jù)集R作為Hadoop平臺運算輸入;將可滿足最小支持度的頻繁項作為Hadoop平臺運算輸出。Map任務(wù):(1)依據(jù)所輸入文件路徑利用最小支持度的頻繁項集分割原始網(wǎng)絡(luò)安全數(shù)據(jù)集為大小為n的數(shù)據(jù)子集,格式化處理所分割的各子集,獲取<key,value>鍵值對,其中value與key分別表示數(shù)據(jù)信息以及字符偏移量。(2)將所獲取不同子集中的<key,value>鍵值對依據(jù)Map函數(shù)讀取,將數(shù)據(jù)信息value利用split函數(shù)解析,將解析結(jié)果傳送至集合內(nèi);(3)利用輸出key表示全部子集,設(shè)子集value值等于1;(4)調(diào)用全部可選的Combin函數(shù),全部Map端在網(wǎng)絡(luò)安全數(shù)據(jù)中生成相同key值的鍵值對,通過Combin函數(shù)合并全部相同的鍵值對,改善通過網(wǎng)絡(luò)將所獲取的鍵值對發(fā)送至Reduce端造成運算效率低的缺陷;Reduce任務(wù):(1)排序Combin函數(shù)所發(fā)送的鍵值對,合并相同key值的鍵值對,獲取<key,L(value)>,所獲取鍵值對利用Re-duce函數(shù)讀取,累加鍵值對中L()內(nèi)的值。網(wǎng)絡(luò)安全數(shù)據(jù)集R內(nèi)key集合的支持數(shù)量,所獲取結(jié)果即Reduce端具有頻繁候選項集的全局支持度;(2)將高于最小支持度的候選項集基于最小支持度發(fā)送至存儲數(shù)據(jù)外部表內(nèi),利用所獲取外部表查詢挖掘所獲取的頻繁項集,設(shè)置該頻繁項為MapReduce程序的輸入以及輸入相關(guān)文件。將最小置信度δ以及滿足最小置信度δ的關(guān)聯(lián)規(guī)則分別作為挖掘網(wǎng)絡(luò)安全事件關(guān)聯(lián)規(guī)則的輸入與輸出,運算過程如下:(1)選取Map函數(shù)啟動setup法連接數(shù)據(jù)庫;(2)分割存儲數(shù)據(jù)所建立外部表內(nèi)的頻繁項集,完成分割后獲取數(shù)量為n的數(shù)據(jù)子集,將全部數(shù)據(jù)格式化處理至<key,value>鍵值對;(3)解析value內(nèi)頻繁項集內(nèi)元素,完成解析后獲取相應(yīng)value值用(C,D,SValue)表示,將所獲取的(C,D)存儲至集合中;(4)求解頻繁項集內(nèi)元素子集C,讀取元素子集C支持度sup(C),利用表示C→D的置信度。(5)當所獲取置信度高于已設(shè)定閾值時,所獲取的頻繁項集內(nèi)部包含該子集外的全部元素與該子集存在關(guān)聯(lián)規(guī)則,利用所獲取差集與子集建立key值,該key值的置信度值即value。通過以上過程挖掘網(wǎng)絡(luò)安全事件關(guān)聯(lián)規(guī)則,利用支持向量機方法基于所挖掘關(guān)聯(lián)規(guī)則實現(xiàn)網(wǎng)絡(luò)安全風險估計。

2.2網(wǎng)絡(luò)安全風險估計方法

將所挖掘關(guān)聯(lián)規(guī)則作為網(wǎng)絡(luò)安全事件特征,利用所挖掘關(guān)聯(lián)規(guī)則估計網(wǎng)絡(luò)安全風險。利用樣本輸入xi以及樣本輸出yi所組成的(xi,yi)表示網(wǎng)絡(luò)安全事件訓練樣本集,該樣本集滿足xiRn,yiRn。網(wǎng)絡(luò)安全事件樣本集(xi,yi)內(nèi)網(wǎng)絡(luò)安全事件樣本利用非線性映射函數(shù)φ()映射至高維特征空間內(nèi),可得網(wǎng)絡(luò)安全事件評估的最優(yōu)線性回歸函數(shù)表達式如下:(2)式中,b與w分別表示偏置量以及權(quán)值。利用結(jié)構(gòu)風險最小化原則獲取LSSVM回歸模型的解,可得公式如下:(3)(4)式中,ei與C分別表示回歸函數(shù)與實際結(jié)果的誤差以及懲罰函數(shù)。將公式(4)的約束優(yōu)化問題引入拉格朗日乘子可得公式如下:(5)式中,ai表示拉格朗日乘子。依據(jù)Mercer條件定義核函數(shù)公式如下:(6)選取徑向基核函數(shù)設(shè)置為網(wǎng)絡(luò)安全風險估計的核函數(shù),可得徑向基核函數(shù)表達式如下:(7)獲取最終支持向量機回歸模型如下:(8)式中,σ為徑向基核函數(shù)寬度。支持向量機參數(shù)決定其估計精度,選取合適的參數(shù)有助于提升網(wǎng)絡(luò)安全風險估計精度。選取QPSO算法對支持向量機的參數(shù)尋優(yōu)。QPSO算法設(shè)置存在數(shù)量為m的粒子于維度為D的搜索空間內(nèi),粒子原始位置用xi(xi1,xi2,…,xid)表示,PB(pb1,pb2,…,pbd)表示當前最優(yōu)位置,GB(bg1,bg2,…,bgd)表示全局最優(yōu)位置。粒子進化表達式如下:(8)式中,mbest與β分別表示粒子群內(nèi)最優(yōu)粒子值以及算法收斂速度。迭代次數(shù)為t時,算法收斂速度計算公式如下:(9)網(wǎng)絡(luò)安全風險評估過程如下:(1)依據(jù)網(wǎng)絡(luò)安全風險評估規(guī)模設(shè)置粒子群內(nèi)粒子數(shù)量,粒子群內(nèi)粒子維度分別表示用于估計網(wǎng)絡(luò)安全風險支持向量機的參數(shù)C與σ。(2)設(shè)置優(yōu)化支持向量機參數(shù)的粒子群算法的參數(shù)以及最大迭代次數(shù);(3)獲取粒子的適應(yīng)度函數(shù);(4)計算粒子的最優(yōu)個體位置以及全局最優(yōu)位置,建立網(wǎng)絡(luò)安全信息庫;(5)更新粒子群內(nèi)各粒子位置;(6)依據(jù)以上過程重復(fù)迭代計算,判斷是否滿足終止條件,滿足終止條件時,轉(zhuǎn)至步驟(7),否則轉(zhuǎn)回至步驟(3);(7)將通過以上過程所獲取的最優(yōu)粒子作為支持向量機參數(shù),完成網(wǎng)絡(luò)安全風險估計模型建立,利用所建立網(wǎng)絡(luò)安全風險估計模型獲取網(wǎng)絡(luò)安全風險估計結(jié)果。

3實例分析

選取某通信網(wǎng)絡(luò)運行時間為60min的通信數(shù)據(jù)作為測試對象,共采集樣本數(shù)據(jù)5846544條,采用本文方法評估網(wǎng)絡(luò)安全風險。選取直覺模糊集方法(參考文獻[6])以及注意力機制方法(參考文獻[7])作為對比方法。本文方法采用大數(shù)據(jù)分析技術(shù)挖掘海量網(wǎng)絡(luò)通信數(shù)據(jù)間所存在的關(guān)聯(lián)規(guī)則,統(tǒng)計不同最小置信度以及最小支持度時所挖掘的關(guān)聯(lián)規(guī)則數(shù)量,統(tǒng)計結(jié)果如圖1所示。圖1實驗結(jié)果可以看出,最小置信度以及最小支持度分別為0.7以及0.3時,可挖掘數(shù)量較多的關(guān)聯(lián)規(guī)則,設(shè)置采用本文方法挖掘海量網(wǎng)絡(luò)數(shù)據(jù)時,β值以及б值分別為0.7以及0.3。本文方法具有較高的關(guān)聯(lián)規(guī)則挖掘性能,應(yīng)用于海量網(wǎng)絡(luò)通信數(shù)據(jù)時,仍具有較高的挖掘效率。完成關(guān)聯(lián)規(guī)則挖掘后,利用QPSO算法的尋優(yōu)性能獲取支持向量機最優(yōu)參數(shù),QPSO算法在不同迭代次數(shù)時收斂情況如圖2所示。圖2實驗結(jié)果可以看出,本文方法采用QP-SO算法尋找支持向量機評估網(wǎng)絡(luò)安全風險的最優(yōu)參數(shù),僅需40次左右的迭代次數(shù)即可快速獲取最優(yōu)支持向量機參數(shù)。本文方法所選取QPSO算法具有較高的尋優(yōu)效率,可在較短時間內(nèi)快速獲取支持向量機的最優(yōu)參數(shù),提升網(wǎng)絡(luò)安全風險估計性能。通過QPSO算法獲取支持向量機算法最優(yōu)參數(shù)為C=130,σ=135。采用QPSO算法所獲取的支持向量機最優(yōu)參數(shù)建立網(wǎng)絡(luò)安全風險評估模型,采用所建立安全風險評估模型評估網(wǎng)絡(luò)運行5h的安全風險事件數(shù)量,將本文方法與另兩種方法對比,對比結(jié)果如圖3所示。圖3實驗結(jié)果可以看出,采用本文方法評估網(wǎng)絡(luò)安全風險結(jié)果與實際網(wǎng)絡(luò)安全風險結(jié)果極為接近,波動趨勢具有較高的吻合性。對比結(jié)果說明本文方法可有效預(yù)測網(wǎng)絡(luò)安全風險,預(yù)測結(jié)果極為可靠,可作為網(wǎng)絡(luò)管理員管理網(wǎng)絡(luò)安全的有效依據(jù)。經(jīng)過多次測試,對比三種方法的網(wǎng)絡(luò)安全風險評估性能,對比結(jié)果如圖4所示。圖4實驗結(jié)果可以看出,采用本文方法評估網(wǎng)絡(luò)安全風險,可有效改善所需歷史數(shù)據(jù)較多、對缺失數(shù)據(jù)較為敏感等缺陷,應(yīng)用于網(wǎng)絡(luò)安全風險評估時具有較高可靠性。采用本文方法評估測試網(wǎng)絡(luò)于2020年1月3日7:00-24:00共17個小時的安全風險情況見表1。針對表1給出的實驗網(wǎng)絡(luò)安全事件情況表,采用本文方法對其風險事件攻擊類型進行評估,結(jié)果見表2。分析表2可得,本文方法可評估安全風險事件,可有效確定網(wǎng)絡(luò)安全風險事件的具體攻擊行為,驗證本文方法具有較高的安全風險事件評估有效性。

4結(jié)束語

網(wǎng)絡(luò)安全風險估計是目前網(wǎng)絡(luò)安全防御體系中的重要部分。伴隨網(wǎng)絡(luò)中數(shù)據(jù)量的提升,對網(wǎng)絡(luò)安全風險估計提出更高要求。充分考慮網(wǎng)絡(luò)運行過程中的攻擊形勢,將大數(shù)據(jù)分析技術(shù)應(yīng)用于網(wǎng)絡(luò)安全風險估計中,利用大數(shù)據(jù)分析技術(shù)所具有的可處理海量數(shù)據(jù)的優(yōu)勢,充分挖掘網(wǎng)絡(luò)安全事件中所存在的關(guān)聯(lián)規(guī)則,估計網(wǎng)絡(luò)安全風險。通過實驗驗證所研究方法可實現(xiàn)網(wǎng)絡(luò)安全風險的有效估計,可保障海量數(shù)據(jù)運行環(huán)境下的網(wǎng)絡(luò)安全的有效防護。

作者:魏利梅 單位:山西警察學院