公務(wù)員期刊網(wǎng) 論文中心 正文

通信網(wǎng)絡(luò)數(shù)據(jù)云存儲(chǔ)數(shù)據(jù)庫探究

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了通信網(wǎng)絡(luò)數(shù)據(jù)云存儲(chǔ)數(shù)據(jù)庫探究范文,希望能給你帶來靈感和參考,敬請(qǐng)閱讀。

通信網(wǎng)絡(luò)數(shù)據(jù)云存儲(chǔ)數(shù)據(jù)庫探究

摘要:云端數(shù)據(jù)加密在保障數(shù)據(jù)安全的同時(shí),也給數(shù)據(jù)檢索工作帶來了困難。為此,提出一種通信網(wǎng)絡(luò)數(shù)據(jù)云存儲(chǔ)數(shù)據(jù)庫可驗(yàn)證密文檢索方法。首先分析云存儲(chǔ)數(shù)據(jù)庫加密形式,選取字符型數(shù)據(jù)作為加密檢索對(duì)象;然后預(yù)處理字符型數(shù)據(jù),建立密文索引結(jié)構(gòu),再對(duì)用戶檢索詞進(jìn)行處理,包括去停用詞、查詢切分、查詢擴(kuò)展、檢索詞加密等過程,最后通過計(jì)算密文檢索詞塊和字符型數(shù)據(jù)文檔密文索引之間的相似匹配度來實(shí)現(xiàn)密文檢索。對(duì)比結(jié)果表明應(yīng)用所提出的方法,密文檢索精度更高,檢索時(shí)間更短,檢索效率更高。

關(guān)鍵詞:云存儲(chǔ)數(shù)據(jù)庫;檢索詞處理;密文檢索;通信網(wǎng)絡(luò);可驗(yàn)證數(shù)據(jù)

0引言

云存儲(chǔ)服務(wù)與企業(yè)本地存儲(chǔ)服務(wù)最大不同在于能給用戶提供海量的存儲(chǔ)空間,且更易于管理。然而,存儲(chǔ)在云端的大數(shù)據(jù)也存在一個(gè)較大的缺陷,即安全性難以得到保證。為解決上述云存儲(chǔ)技術(shù)存在的問題,通常做法是將云端數(shù)據(jù)加密[1]。然而,在提高云端數(shù)據(jù)庫安全性的同時(shí),也會(huì)導(dǎo)致數(shù)據(jù)喪失有序性、可比性,從而帶來數(shù)據(jù)檢索和計(jì)算的困難,嚴(yán)重影響了云存儲(chǔ)數(shù)據(jù)庫的運(yùn)行效率[2]。針對(duì)云存儲(chǔ)數(shù)據(jù)庫密文檢索問題,國(guó)內(nèi)外的研究者提出了很多方案。LangrehrR等[3]提出基于矩陣Diffie-Hellman假設(shè),通過Naor變?cè)O(shè)計(jì)基于身份的嚴(yán)格安全簽名方案;賈強(qiáng)等[4]提出了一種面向密文大型數(shù)據(jù)集的可搜索加密方案,將安全索引按照分塊參數(shù)分類,完成關(guān)鍵詞檢索;BonehD等[5]提出一種基于公鑰加密的可搜索加密方法,實(shí)現(xiàn)了多用戶密文檢索;曹素珍等[6]針對(duì)非結(jié)構(gòu)化數(shù)據(jù),根據(jù)查詢關(guān)鍵字和密文文件的相關(guān)度對(duì)密文文件進(jìn)行排序,從而實(shí)現(xiàn)對(duì)密文數(shù)據(jù)的高效搜索。MagdyS等[7]以數(shù)值型數(shù)據(jù)為研究對(duì)象,提出一種保序加密的數(shù)據(jù)庫加密檢索策略。在前人研究的基礎(chǔ)上,本研究提出一種通信網(wǎng)絡(luò)數(shù)據(jù)云存儲(chǔ)數(shù)據(jù)庫可驗(yàn)證密文檢索方法。該方法首先檢索出包含關(guān)鍵字的密文,然后根據(jù)相似度計(jì)算結(jié)果對(duì)密文信息進(jìn)行排序處理,最后根據(jù)排序結(jié)果將密文數(shù)據(jù)推薦給用戶。文章還進(jìn)行測(cè)試,證明所研究方法的檢索性能,在保證數(shù)據(jù)安全性的前提下,提高了密文檢索效率和質(zhì)量。

1云存儲(chǔ)數(shù)據(jù)庫可驗(yàn)證密文檢索方法

1.1云存儲(chǔ)數(shù)據(jù)庫加密形式分析

目前,根據(jù)數(shù)據(jù)庫中數(shù)據(jù)形式的不同,將數(shù)據(jù)分為2大類,即數(shù)值型數(shù)據(jù)和字符型數(shù)據(jù)。2種數(shù)據(jù)形式不同,因此加密方法也不同。下面針對(duì)這2種數(shù)據(jù)類型的加密形式進(jìn)行分析。數(shù)值型數(shù)據(jù)是指包括整型、浮點(diǎn)型等基本類型數(shù)據(jù)。這類數(shù)據(jù)在云端數(shù)據(jù)庫中存儲(chǔ)的最多,數(shù)值型數(shù)據(jù)加密流程如圖1(a)所示。字符型數(shù)據(jù)是指不具計(jì)算能力的文字?jǐn)?shù)據(jù),具體包括中文字符、英文字符以及其他語言形式的數(shù)據(jù),字符型數(shù)據(jù)一般長(zhǎng)度范圍是0至254個(gè)字符,其加密流程如圖1(b)所示。數(shù)值型數(shù)據(jù)相比較字符型數(shù)據(jù)在云端數(shù)據(jù)庫當(dāng)中規(guī)模更大,因此對(duì)該類型的數(shù)據(jù)密度檢索研究有很多,已經(jīng)較為成熟;字符型數(shù)據(jù)結(jié)構(gòu)組成更為復(fù)雜,因此加密后的密文更加復(fù)雜,導(dǎo)致密文檢索效率和質(zhì)量都不高,因此本研究選擇字符型數(shù)據(jù)作為后續(xù)密文檢索分析研究的對(duì)象。

1.2字符型數(shù)據(jù)預(yù)處理

根據(jù)圖1(b)可知字符型數(shù)據(jù)的加密處理方式為用“索引-文件”形式,由此字符型數(shù)據(jù)預(yù)處理為提取字符型數(shù)據(jù)文檔所有關(guān)鍵詞,然后對(duì)所有關(guān)鍵詞進(jìn)行加密處理,組成關(guān)鍵詞密文結(jié)合,最后為字符型數(shù)據(jù)文檔密文建立索引。例如,某文件A有4個(gè)邏輯塊,分別存放在物理塊23、19、26、29中,該索引文件結(jié)構(gòu)如圖2所示。

1.3檢索詞處理

字符型數(shù)據(jù)文檔密文檢索的實(shí)質(zhì)是檢索詞與字符型數(shù)據(jù)文檔密文索引之間的匹配計(jì)算,而存儲(chǔ)在云端數(shù)據(jù)庫當(dāng)中數(shù)據(jù)為密文形式,且為了保證數(shù)據(jù)的安全性,在檢索時(shí)密文數(shù)據(jù)還不能轉(zhuǎn)換成明文數(shù)據(jù)后進(jìn)行檢索,因此只能將檢索詞同樣也轉(zhuǎn)換成相應(yīng)的密文形式,才能進(jìn)行字符型數(shù)據(jù)文檔密文索引之間的匹配計(jì)算。這樣既保證了數(shù)據(jù)安全,也能實(shí)現(xiàn)檢索[8]。具體步驟如下。步驟1:去停用詞。用戶的檢索詞屬于字符型數(shù)據(jù),而字符數(shù)據(jù)的顯著特點(diǎn)之一就是存在很多沒有意義的詞,這些詞出現(xiàn)在語句中僅起到停頓、語氣輔助或結(jié)構(gòu)連接等作用。這些沒有意義的詞就被稱為停用詞。停用詞的存在會(huì)嚴(yán)重干擾檢索的準(zhǔn)確性和檢索效率,因此需要去除[9]。步驟2:查詢切分。查詢切分是指將一個(gè)由若干漢字序列組成的長(zhǎng)查詢語句切分成一個(gè)一個(gè)單獨(dú)的查詢?cè)~,以利于計(jì)算機(jī)系統(tǒng)檢索[10]。步驟3:查詢擴(kuò)展。查詢擴(kuò)展是指尋找原始檢索詞的同義詞或近義詞,擴(kuò)展原始檢索詞搜索范圍,然后來達(dá)到保證檢索全面的目的。在這一環(huán)節(jié)中,采用一種基于語義關(guān)聯(lián)樹的查詢擴(kuò)展方法來完善檢索范圍。步驟4:檢索詞加密。為了能夠?qū)崿F(xiàn)檢索詞和密文文檔之間的相匹配度計(jì)算,需要將擴(kuò)展后的檢索詞加密成密文,在這一環(huán)節(jié)利用SM4分組加密算法,依據(jù)混淆原則和擴(kuò)散原則進(jìn)行加密處理,具體過程參見圖1(b)。

1.4密文排序檢索

基于上述研究,分析文排序檢索基本流程見圖3。在密文排序檢索中,關(guān)鍵步驟有2個(gè),即匹配度計(jì)算和重要性排序。(1)匹配度計(jì)算:匹配度計(jì)算是指計(jì)算密文檢索詞塊和字符型數(shù)據(jù)文檔密文索引之間的相似匹配度。通過密文檢索詞塊和字符型數(shù)據(jù)文檔密文索引的數(shù)量積來表達(dá)相似度,如式(1),式中,n為檢索詞和字符型數(shù)據(jù)文檔密文索引的數(shù)量,qi為第i個(gè)檢索詞,pi為第i個(gè)字符型數(shù)據(jù)文檔密文索引,Y為檢索詞與字符型數(shù)據(jù)文檔密文索引之間的相似度。(2)重要性排序:由于檢索詞的擴(kuò)展,檢索出來密文文檔是海量的,但是一般情況下,不可能所有文檔都是用戶需要的,而是與檢索詞匹配越高的密文文檔越是他需要的,因此還需要將檢索出來的密文文檔進(jìn)行重要性排序處理如式(2):式中,F(xiàn)D(i)為重要性評(píng)分,a為檢索詞在字符型數(shù)據(jù)文檔密文索引文檔Di中出現(xiàn)的頻率,N為已有密文文檔的總數(shù)目,b為包含檢索詞的密文文檔總數(shù)目。

2仿真實(shí)驗(yàn)分析

2.1仿真測(cè)試環(huán)境

為檢驗(yàn)通信網(wǎng)絡(luò)數(shù)據(jù)云存儲(chǔ)數(shù)據(jù)庫可驗(yàn)證密文檢索方法的性能,在MATLAB工具上進(jìn)行仿真測(cè)試,仿真測(cè)試條件如表1所示。

2.2仿真測(cè)試模型

為云存儲(chǔ)數(shù)據(jù)庫可驗(yàn)證密文檢索仿真測(cè)試實(shí)驗(yàn)搭建系統(tǒng)模型。模型結(jié)構(gòu)如圖4所示。

2.3檢索文本庫

仿真測(cè)試中用到的云存儲(chǔ)數(shù)據(jù)庫中數(shù)據(jù)分布情況如表2所示。2.4檢索評(píng)估指標(biāo)(1)檢索精度。評(píng)價(jià)檢索效果的最重要的指標(biāo)之一,通過查準(zhǔn)率P和查全率R進(jìn)行測(cè)定如式(3)、式(4):式中,A為正類檢索,B為負(fù)類檢索,C為正類檢索中的負(fù)類。(2)檢索效率。通過完成一次檢索任務(wù)所耗費(fèi)的時(shí)間如式(5):T=t1+t2+t3(5)式中,T為一次檢索任務(wù)所耗費(fèi)的時(shí)間,t1為字符型數(shù)據(jù)預(yù)處理時(shí)間,t2為檢索詞輸入和處理時(shí)間,t3為密文排序檢索時(shí)間。2.5檢索性能分析在相同仿真測(cè)試環(huán)境下,從引言中提到的5種前人研究方法中選取文獻(xiàn)[3]提出的基于矩陣Diffie-Hellman假設(shè),通過Naor變?cè)O(shè)計(jì)基于身份的嚴(yán)格安全簽名方案;文獻(xiàn)[4]提出的面向密文大型數(shù)據(jù)集的可搜索加密方案;文獻(xiàn)[5]提出的基于公鑰加密的可搜索加密方法,作為對(duì)比項(xiàng),進(jìn)行密文檢索操作。結(jié)果如表3所示。由表3可知,與前3種檢索方法相比,所研究方法密文檢索精度和效率都要更好,證明了所研究密文檢索方法的性能。

3總結(jié)

綜上所述,伴隨云端數(shù)據(jù)存儲(chǔ)服務(wù)的廣泛應(yīng)用,其數(shù)據(jù)庫中的數(shù)據(jù)安全問題也愈加凸顯。為此,如何在保證數(shù)據(jù)安全的前提下,實(shí)現(xiàn)密文檢索成為云存儲(chǔ)技術(shù)領(lǐng)域研究的重點(diǎn)。為此,進(jìn)行通信網(wǎng)絡(luò)數(shù)據(jù)云存儲(chǔ)數(shù)據(jù)庫可驗(yàn)證密文檢索研究。該研究通過將檢索詞轉(zhuǎn)換成為密文檢索詞來達(dá)到不解密云端數(shù)據(jù)庫中數(shù)據(jù)的目的,保證了云端數(shù)據(jù)的安全。經(jīng)仿真測(cè)試,證明了所研究方法的檢索性能,為云端數(shù)據(jù)檢索服務(wù)提供了參考和借鑒。由于此次研究?jī)H針對(duì)云存儲(chǔ)數(shù)據(jù)庫中的文本庫進(jìn)行檢索測(cè)試,雖然提高了密文檢索精度和效率,但是未對(duì)云端數(shù)據(jù)庫中還存在圖片、音視頻等數(shù)據(jù)庫檢索,在今后的研究中還需要進(jìn)一步擴(kuò)大研究和實(shí)驗(yàn)范圍,以提高研究方法的可靠性和廣泛性。

作者:黃少琪 陸奕奕 單位:中國(guó)電信股份有限公司上海分公司