公務(wù)員期刊網(wǎng) 論文中心 正文

計算機(jī)安全審核中大數(shù)據(jù)技術(shù)的應(yīng)用

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了計算機(jī)安全審核中大數(shù)據(jù)技術(shù)的應(yīng)用范文,希望能給你帶來靈感和參考,敬請閱讀。

計算機(jī)安全審核中大數(shù)據(jù)技術(shù)的應(yīng)用

摘要:筆者以計算機(jī)信息安全為研究對象,分析大數(shù)據(jù)技術(shù)在信息安全系統(tǒng)中的具體應(yīng)用,并嘗試將系統(tǒng)優(yōu)化,結(jié)合Apriori算法的應(yīng)用理念,通過算法的應(yīng)用流程展現(xiàn)大數(shù)據(jù)技術(shù)在計算機(jī)中的具體應(yīng)用,分析大數(shù)據(jù)技術(shù)維護(hù)信息安全的能力,實現(xiàn)網(wǎng)絡(luò)安全的目標(biāo)。

關(guān)鍵詞:Apriori算法;遺傳算法;信息安全

引言

在大數(shù)據(jù)時代,網(wǎng)絡(luò)信息安全問題來自多重因素,具體包括網(wǎng)絡(luò)環(huán)境的開放性、人為操作的失誤問題、黑客入侵、垃圾信息干擾等。為保障網(wǎng)絡(luò)信息安全,可以采取的防護(hù)措施包括:增強(qiáng)計算機(jī)應(yīng)用人員的安全防護(hù)意識、搭建防火墻、提升黑客的防護(hù)能力等。在防護(hù)措施中,以大數(shù)據(jù)技術(shù)為主導(dǎo),具有良好的應(yīng)用效果。

1計算機(jī)安全審核系統(tǒng)搭建

安全審核系統(tǒng)中包括多個模塊,如圖1所示,筆者分別從主機(jī)網(wǎng)絡(luò)、集中式與分布式、智能3個方面建設(shè)安全審核系統(tǒng)。由圖1可知,主機(jī)網(wǎng)絡(luò)安全審核包括基于主機(jī)的安全審核和基于網(wǎng)絡(luò)的安全審核。集中式安全審核系統(tǒng)和分布式審核系統(tǒng),包括集中式安全審核和分布式安全審核?;谥悄?a href="http://www.mug-factory.cn/lunwen/jsjaqlw/151238.html" target="_blank">技術(shù)的分布式安全審核系統(tǒng)包括AAFID系統(tǒng)結(jié)構(gòu)和AAFID的過濾器。主機(jī)視角開展的信息安全審核:依據(jù)系統(tǒng)日志識別入侵信息,針對入侵類型開展系統(tǒng)修復(fù)。網(wǎng)絡(luò)安全審核:分析網(wǎng)絡(luò)傳輸數(shù)據(jù)信息,保障數(shù)據(jù)安全。集中式與分布式開展的安全審核:將多個系統(tǒng)中的數(shù)據(jù),實行數(shù)據(jù)采集與整合方式,加以數(shù)據(jù)分析,此方式極易引起網(wǎng)絡(luò)傳輸容量不足、計算能力不佳等問題;在分布式信息審核系統(tǒng)中,借助網(wǎng)絡(luò)檢測器,融合于系統(tǒng)環(huán)節(jié)中,實現(xiàn)了采集數(shù)據(jù)完整傳輸至主機(jī)的技術(shù)目標(biāo),良好解決了集中計算產(chǎn)生的并發(fā)性能不足、傳輸效率不佳等問題,提升了安全審核的效率。分布式信息審核運(yùn)行劣勢為:引起中心系統(tǒng)單點失效問題、系統(tǒng)擴(kuò)展能力不佳。由此發(fā)現(xiàn),安全審核功能,在一定程度上保障了數(shù)據(jù)信息的完整性與安全性,能夠為系統(tǒng)運(yùn)行提供數(shù)據(jù)保障。

2大數(shù)據(jù)技術(shù)的應(yīng)用

2.1系統(tǒng)優(yōu)化

大數(shù)據(jù)應(yīng)用系統(tǒng)的模塊包括數(shù)據(jù)收集(采集)、數(shù)據(jù)保存(存儲)、數(shù)據(jù)分析(挖掘)和數(shù)據(jù)應(yīng)用(展示)。安全審核系統(tǒng)如圖2所示。由圖2可知,大數(shù)據(jù)計算支持的安全審核系統(tǒng)中,數(shù)據(jù)收集模塊由日志、用戶行為等8個部分組成,以此保障數(shù)據(jù)收集來源,有效獲取多種結(jié)構(gòu)的數(shù)據(jù),包括結(jié)構(gòu)化、半結(jié)構(gòu)、非結(jié)構(gòu)3種,并且從系統(tǒng)各模塊中獲取相關(guān)數(shù)據(jù),包括流量類、行為類、檢測類數(shù)據(jù)信息。當(dāng)數(shù)據(jù)收集完成時,應(yīng)將數(shù)據(jù)完整保存在分布式層級中。存儲數(shù)據(jù)選擇的技術(shù)有多種,具體包括MySQL、HDFS等,此類數(shù)據(jù)庫能夠有效保存數(shù)據(jù)。在數(shù)據(jù)分析模塊中,采用的大數(shù)據(jù)技術(shù)為Mahout、遺傳算法等計算方式,針對數(shù)據(jù)異常事件加以分析。

2.2Apriori算法

2.2.1算法理念A(yù)priori算法屬于應(yīng)用較為廣泛的數(shù)據(jù)分析計算方式,此算法理念為:假定數(shù)據(jù)庫中含有n項數(shù)據(jù),并用數(shù)據(jù)集符號S加以表示,即S={S1,S2,...,Sn}。與其相關(guān)聯(lián)的數(shù)據(jù)T,作為數(shù)據(jù)庫事務(wù)中的數(shù)據(jù)集合。為此,數(shù)據(jù)庫中任意事務(wù)F,均作為數(shù)據(jù)集S的分項子集,存在T∈S的關(guān)系式。其中X、Y存在關(guān)聯(lián)關(guān)系,并且滿足X被包含于I、Y,包含于Y、X與Y的交集結(jié)果為空集[1]。在總事務(wù)占比中,以D作為符號,X與Y之間的關(guān)聯(lián)支持度數(shù)值為P(X合并Y),在X占比置信度的計算中,X與Y關(guān)聯(lián)關(guān)系的置信度數(shù)值為P(X|Y)。集合處理期間,針對數(shù)據(jù)集的多重性,有效集成數(shù)據(jù),使之形成項集。如果數(shù)據(jù)集基數(shù)為m個,即稱為m項集。如果數(shù)據(jù)集中存在支持度較高的一項,并且其設(shè)定的支持度最小閾值以min為表示方式,將此數(shù)據(jù)集作為頻率較高的項集,即將序列全部的高頻項集有序整合,形成新的項集,并以Lm為表示方式。Apriori算法開展的數(shù)據(jù)分析流程為:①以迭代方式,查詢數(shù)據(jù)庫中現(xiàn)存的高頻數(shù)據(jù)集,此程序中計算數(shù)值的支持度>設(shè)定閾值;②依據(jù)用戶日志中提取的置信度的最小值分析數(shù)據(jù)價值。

2.2.2算法流程由數(shù)據(jù)分析可知:在Apriori算法的運(yùn)行理念中,將每層搜索的數(shù)據(jù),配合迭代的計算方式,有效獲取了高頻數(shù)據(jù)集,以數(shù)據(jù)分析技術(shù)為基礎(chǔ),獲取高頻數(shù)據(jù)集,以此確定數(shù)據(jù)集之間存在的關(guān)聯(lián)關(guān)系。如圖3所示,為Apriori算法的信息核算流程。Apriori算法的圖解流程:①初始化操作,在數(shù)據(jù)庫中搜索全部數(shù)據(jù),并確定高頻項集合S1;②將Sn-2(其中n不小于2)以自連接方式獲取n階數(shù)據(jù),設(shè)定候選項目集合為Cn;③在備選高頻項目中,將任意子集作為剔除對象,如果n階備選項目中存在關(guān)系式為Cn-1∈Cn,并且Cn-1∉Sn-1,此種關(guān)系說明備選數(shù)據(jù)中不包含項頻數(shù),可將其剔除;④在②、③中執(zhí)行流程,對于尚未發(fā)現(xiàn)高階層次的項目數(shù)據(jù),獲取數(shù)據(jù)分析序列。Apriori算法的應(yīng)用實例如下,獲取了6組數(shù)據(jù)。序列1的數(shù)據(jù)集為:1、2、3、4、5、6、7。序列2的數(shù)據(jù)集為:2、5、6、9。序列3的數(shù)據(jù)集為:2、4、5。序列4的數(shù)據(jù)集為:1、3、7。序列5的數(shù)據(jù)集為:1、2、6。序列6的數(shù)據(jù)集為:2、3、6、7。結(jié)合實例的Apriori算法流程:遍歷數(shù)據(jù)集,獲取1階項目數(shù)據(jù)集,即S1={1=3,2=5,……,9=1},S2={12,13,14,15,……,46,47,49},令S2自主連接,獲取C3項目數(shù)據(jù)集[2]。

2.2.3遺傳算法遺傳算法的組成元素包括基因、染色體、適應(yīng)度等,此類元素通過交叉與變異,逐漸形成算法元素。(1)基因。在遺傳學(xué)論述中,基因指DN段,基因含有基數(shù)較大的遺傳信息,基因作為遺傳算法中的基礎(chǔ)性計算單位。在遺傳算法中開展基因計算流程,可選擇二進(jìn)制與整數(shù)的計算方式。(2)染色體。染色體包含多組基因,作為信息承載的介質(zhì)。染色體編碼形式包括浮點數(shù)與二進(jìn)制兩種方式。浮點數(shù)編碼形式指:假設(shè)種群基數(shù)為m,符號表示為xii,表示數(shù)據(jù)更迭期間,i個數(shù)據(jù)個體,基因長度設(shè)為n,則個體表示為xii屬于Rn,以xii作為n維行向量的表示方式,即可表示為xii={xii1,xii2,...,xii3}。在更迭期間,數(shù)據(jù)種群xii表示方式矩陣為主,即n×m。在種群中的矩陣以X0為表示方式,則有X0={x01,x02,...,x0n},在矩陣中尚未發(fā)現(xiàn)兩行相同的數(shù)據(jù),表示種群存在互異性。在二進(jìn)制程序中,如若種群基數(shù)為m,表示方式為xii,代表數(shù)據(jù)更迭期間存在第i個數(shù)據(jù)個體,并且每個數(shù)據(jù)個體位數(shù)表示方式為1。其中,基因基數(shù)的計算可表示為L=ml。數(shù)據(jù)個體xii以ml作為表示方式,獲取其行向量數(shù)值,即xii={xii1,xii2,...,xii3},最終以二進(jìn)制編碼為計算方式,將編程轉(zhuǎn)化為實際,應(yīng)采取的計算流程為:11/212)tjljfxiikmkmkvkx−=(,)=+(−)(−)(∑×(1)(3)種群。進(jìn)化論中的種群概念指多組物種通過排列方式形成的群體結(jié)構(gòu)。此概念融合于遺傳算法流程中,以此可知,遺傳算法種群表示的是某代染色體數(shù)量總和。在計算過程中,設(shè)定種群初始數(shù)值不小于100[3]。

2.2.4算法改良在進(jìn)行全局?jǐn)?shù)據(jù)搜索時,遺傳算法性能良好,得到廣泛應(yīng)用。Apriori算法的應(yīng)用優(yōu)勢在于計算流程實現(xiàn)過程較為簡單,不足在于數(shù)據(jù)量基數(shù)較大時,數(shù)據(jù)處理能力不佳。為改善Apriori算法的應(yīng)用性能,采取以遺傳算法與Apriori算法相結(jié)合的方式。數(shù)據(jù)中的有限數(shù)據(jù)集以D為表示方式,即D={d1,d2,...,dn},此類數(shù)據(jù)集在系統(tǒng)中獲取了良好運(yùn)行,依據(jù)Apriori算法的運(yùn)行理念,開展強(qiáng)項集合的計算分析。在強(qiáng)項結(jié)合求解期間,借助遺傳算法理念,解決算法讀取數(shù)據(jù)問題,有效增強(qiáng)了算法性能。算法設(shè)計應(yīng)遵循改良思想開展,采取二進(jìn)制編碼思想,將安全關(guān)聯(lián)的相關(guān)信息,以二進(jìn)制行為表示,并關(guān)聯(lián)信息連接。同時,依據(jù)計算機(jī)安全審核所具有的關(guān)聯(lián)能力,定義染色體的排列狀態(tài),采取二進(jìn)制編碼形式測定網(wǎng)絡(luò)的數(shù)據(jù)流量。在完成編碼的基礎(chǔ)上,開展適應(yīng)度關(guān)系式設(shè)定。在遺傳算法中,針對Apriori算法對數(shù)據(jù)庫讀取過程存在效率不足、運(yùn)行緩慢等問題,應(yīng)在算法改良期間,予以解決。為此,在適應(yīng)度關(guān)系式中,應(yīng)包括兩個變量,即支持度、置信度。關(guān)系式為:f(x)=aS(x)+bB(x)。其中,ab表示常用數(shù)值,S(x)代表支持度數(shù)值,B(x)指置信度數(shù)值。

2.2.5性能分析在試驗過程中,運(yùn)行系統(tǒng)為Windows7,內(nèi)存為16GB,仿真系統(tǒng)為Python3.7。在試運(yùn)行期間,數(shù)據(jù)來源為近階段安全審核系統(tǒng)中現(xiàn)存的數(shù)據(jù)。安全審核系統(tǒng)所具有的數(shù)據(jù)保存容量為500MB。其中,種群基數(shù)設(shè)定為150,變異率設(shè)定為0.13,交叉率設(shè)定為0.9。性能分析方式如下。第一,劃分次數(shù)對分析數(shù)據(jù)效率產(chǎn)生的影響。經(jīng)試運(yùn)行發(fā)現(xiàn),改進(jìn)算法與經(jīng)典算法對比時,在劃分次數(shù)累加時,改進(jìn)算法所用的運(yùn)算時間較短,劃分次數(shù)對數(shù)據(jù)分析結(jié)果產(chǎn)生的影響較小。第二,數(shù)據(jù)分析基數(shù)對分析數(shù)據(jù)效率產(chǎn)生的影響。經(jīng)試運(yùn)行發(fā)現(xiàn),在數(shù)據(jù)分析時間增加時,數(shù)據(jù)分析基數(shù)提升,改進(jìn)算法數(shù)據(jù)分析所需的時間相對較少,由此說明,在調(diào)整數(shù)據(jù)分析基數(shù)中,其運(yùn)算效率不變,尚未對其產(chǎn)生不良影響。

3結(jié)語

在物聯(lián)網(wǎng)背景下,安全技術(shù)逐漸成為信息領(lǐng)域的關(guān)鍵性技術(shù)。本文以安全審核技術(shù)為基礎(chǔ),搭建具有信息安全防護(hù)與審核能力的應(yīng)用型平臺,以此完善大數(shù)據(jù)技術(shù)的審核系統(tǒng),分別從數(shù)據(jù)收集、數(shù)據(jù)有效保存、數(shù)據(jù)信息分析、數(shù)據(jù)應(yīng)用4個角度開展審核系統(tǒng)設(shè)計,并且借助Apriori算法提升系統(tǒng)安全審核能力,保障信息安全。

參考文獻(xiàn)

[1]趙培琨.大數(shù)據(jù)時代計算機(jī)網(wǎng)絡(luò)信息安全及防護(hù)策略[J].計算機(jī)產(chǎn)品與流通,2020(5):36,52.

[2]董偉.大數(shù)據(jù)技術(shù)在計算機(jī)安全審核中應(yīng)用研究[J].現(xiàn)代計算機(jī),2020(10):23-29.

[3]侯毅.大數(shù)據(jù)環(huán)境下計算機(jī)信息安全技術(shù)探討[J].中國新通信,2020,22(6):135.

作者:古力米熱·阿吾旦 單位:新疆財經(jīng)大學(xué)