前言:想要寫出一篇引人入勝的文章?我們特意為您整理了云計算短信內容審計研究范文,希望能給你帶來靈感和參考,敬請閱讀。
1引言
開發(fā)完善的垃圾短信過濾系統一直是電信運營商和學術界研究的重點。隨著手機用戶數量的增長,垃圾短信數量也呈現出爆炸增長的勢頭,使得廣大消費者長時間飽受垃圾短信的騷擾。垃圾短信不僅占用了有限的網絡資源,造成運營商投入更多的人力、物力資源對其進行處理,而且以欺詐為目的的短信使很多用戶損失大量財產。目前用戶投訴總量的30%以上都是針對垃圾短信,因此電信運營商有義不容辭的責任抑制垃圾短信蔓延。中國移動、中國聯通和中國電信公司推出了過濾垃圾短信專用客戶端。主要做法是根據發(fā)送號碼特征及語義特征自動過濾垃圾信息,將要過濾的號碼加入短信黑名單。而針對號碼特征及語義特征過濾受到手機的存儲和運算能力的限制,還需要進一步的改善。即使使用傳統的服務器來分析并將發(fā)送源號碼屏蔽,也由于垃圾短信數據量呈現指數級的增長使得分析垃圾短信變得越來越慢,無法實時對發(fā)送垃圾短信的號碼起到屏蔽的作用。云計算作為一種全新的IT服務模式,將其應用到垃圾短信的過濾中,不僅提供幾乎無限的存儲空間,使得數據存儲和管理能夠順利的完成,而且提供了無限強大的計算能力,使得在超大規(guī)模的數據中實時挖掘出有用的數據成為可能。云計算的這些特點正好彌補手機和傳統服務器的不足,為過濾垃圾短信提供了必要條件??傊?,垃圾短信的泛濫使人們的日常生活受到了嚴重的影響,已成為一種社會危害,治理垃圾短信勢在必行。[1]
2云計算的關鍵技術
2.1數據存儲技術
云計算采用分布式存儲來存儲數據保證了高可用、高可靠和經濟性;為同一份數據存儲多個副本的冗余存儲方式保證存儲數據的可靠性。云計算的數據存儲技術必須具有高吞吐量和高傳輸率的特點,因為云計算系統能夠并行地為大量用戶提供服務來同時滿足超大規(guī)模用戶的需求。本文所采用的云計算的數據存儲技術采用Apache開源組織的一個分布式計算開源框架Hadoop,HDFS(HadoopdistributedFileSystem,Hadoop分布式文件系統)作為Hadoop的核心技術之一,HDFS是分布式計算中數據存儲管理的基礎。它所具有的高容錯高可靠性、高可擴展性、高獲得性、高吞吐率等特征為海量數據提供了不怕故障的存儲,為超大數據集(LargeDataSet)的應用處理帶來了很多便利。HDFS放寬了一部分POSIX約束,來實現流式讀取文件系統數據的目的。因此,超大規(guī)模的數據存儲、數據加密和安全性保證以及提高I/O速率等方面將是云計算的數據存儲技術未來的主要發(fā)展方向。
2.2編程模型
云計算要求編程模型必須相當簡單的原因是讓用戶能夠輕松享受云計算帶來的各種服務,特定的功能可以通過用戶利用該編程模式編寫簡單的程序來實現,同時用戶和編程人員無需對后臺復雜的并行執(zhí)行和任務調度的細節(jié)進行了解,只需了解如何調用相應的接口。Map—Reduce是目前云計算大量采用的編程模式,用于大規(guī)模數據集(大于1TB)的并行運算。它極大的方便編程人員在不會分布式并行編程的情況下,將自己的程序運行在分布式系統上。它的實現是map函數和Reduce函數組成,基于Map—Reduce的編程思想已被大部分的IT廠商采用來實現自己的編程模式。
3系統的設計
網絡側處理垃圾短信力有不逮,以往從客戶端限制垃圾短信的方式又存在缺陷,比如黑白名單技術,由于垃圾短信發(fā)送號碼一直改變而收效甚微;關鍵字技術讓所有用戶都能準確到位的表達需求又不現實。因此,必須要有一個技術手段去解決問題,而如果能將“政策+技術”、“云+端”結合的模式來保障手機安全,將會起到事半功倍的效果。在技術層面,以往應對垃圾短信問題往往在于“云”的角度,但實際上垃圾短信最終都體現在手機上,用戶的參與至關重要———必須由“端”去識別這些垃圾短信。這就決定了只有通過“云+端”的結合才能在技術層面取得突破,首先用戶對垃圾短信進行舉報,“云”把大量用戶上報的內容,使用HA-DOOP的MAP-REDUCE統計分析,定位問題,然后把它變成策略,最終分發(fā)到所有用戶的手機上??梢哉f,在“云+端”的模式中,所有的用戶都是系統的一部分,在為系統貢獻支持的同時,也分享了解決方案。系統的處理流程為:手機終端用戶將自己認為是垃圾的短信和垃圾短信發(fā)送的手機號碼通過通信接口上報到云端過濾平臺,云端利用規(guī)則挖掘引擎判斷此短信是否為垃圾短信,若是則賦予垃圾短信的發(fā)送手機號碼一定的閥值。假如垃圾短信發(fā)送的手機號碼達到了規(guī)定的閥值,則將發(fā)送垃圾短信的源號碼通過接口程序發(fā)送到移動側的短信中心和BOSS系統,移動側可以直接將垃圾短信發(fā)送的手機號碼攔截或者通過人工審核再進行攔截,被攔截的手機號碼則失去短信發(fā)送功能,通過以上流程可以真正的過濾掉垃圾短信。
3.1手機系統設計
手機終端裝有過濾垃圾短信軟件,首先通過此軟件對短信進行分詞,分詞完成之后與垃圾詞庫里的詞進行比對得出短信的性質(是垃圾短信還是非垃圾短信),如果是垃圾短信,則用戶可以將此短信上報到“云”端。手機終端的功能包括:⑴過濾:手機終端可以根據黑名單、省市、號碼段、時間段進行過濾。能夠下載云端的垃圾詞庫。⑵實時舉報:系統判斷為垃圾過后立即上報。通話記錄顯示來電地區(qū)、響鈴時間、來電時間等信息,用戶可根據此判斷是否響一聲來電,點擊一下按鈕即可上報。短信也可以很方便的上報。
3.2云端系統架構
云端主要有規(guī)則挖掘引擎,攔截分析系統,管理平臺,通信接口群等組成?!霸啤倍耸紫壤梅衷~算法對短信進行分詞處理,然后利用貝葉斯算法判斷短信的性質,最后攔截分析系統依據一定規(guī)則對上報的數據進行分析和判斷,通過FTP的方式將發(fā)送垃圾短信的源號碼發(fā)送到移動側,由移動相關系統來關閉這批號碼的短信功能。同時更新垃圾詞庫,根據用戶的需求來下發(fā)相應的垃圾詞庫到手機終端。云端系統的處理流程為:手機終端用戶通過上行接口將垃圾短信暫存到JMS中,上報數據分析器從JMS中提取數據對其進行分析(判斷是否為垃圾短信),如果是垃圾短信,則賦予發(fā)送垃圾短信的源號碼一定的積分,否則不賦予垃圾積分,并將分析結果存到業(yè)務數據庫中,下行接口定時給手機終端用戶發(fā)送提醒短信,以防用戶上當受騙,數據分析引擎每天定時查看發(fā)送垃圾短信源號碼的積分,依據某種規(guī)則對其號碼進行分析判斷是否達到被攔截的條件,并將分析結果傳送給移動側,報表模塊定時從業(yè)務數據庫中提取屬于某個時間段的垃圾短信并生成報表數據,同時將結果存到報表數據庫中,以供報表平臺展示,外部數據傳輸將報表數據庫中的數據和業(yè)務數據庫中的短信內容傳到移動側,由移動側系統采取下一步措施;管理模板由管理人員定義系統的相關參數(例如JMS隊列長度等)及攔截閥值規(guī)則。
4結論
本文在基于Apache開源組織的分布式計算開源框架Hadoop的基礎已經初步實現從大量的短信數據中分析垃圾短信的內容特征以及垃圾短信發(fā)送號碼。
4.1亟待完成工作
4.1.1分詞算法的效率在垃圾短信過濾系統中非常重要。進一步確認使用動態(tài)規(guī)劃法后效率的提高程度。
4.1.2由于目前下發(fā)到手機終端的垃圾詞庫需要人為的干預,通過貝葉斯算法自動產生垃圾詞下發(fā)到終端。
4.2法律整治建議
徹底治理垃圾短信除了技術方面外還需要多管齊下:歐美國家在治理垃圾短信方面,已積累了很多成功的經驗,值得我們學習和借鑒。
4.2.1在我國,目前與電信行業(yè)相關的法律法規(guī)有《中華人民共和國電信條例》和《中華人民共和國互聯網信息服務管理辦法》,而這些法律法規(guī)都不是專門性的。所以需要盡快的制定有針對性的法律法規(guī)能從根本上治理垃圾短信。
4.2.2要盡快落實SIM卡實名制。SIM卡實名制被認為是解決垃圾、不良短信的一種長效和有效的機制,可以真正的從源頭上實現對短信的可管理、可監(jiān)督。這種機制已在很過國家通過實踐證明,利用手機垃圾短信違法犯罪的現象明顯比沒有實施SIM卡實名制的數量少很多。
4.2.3建立完善的監(jiān)管機制。相關部門需要建立處理垃圾短信的用戶的投訴處理平臺,以方便用戶快捷的投訴,使運營商能夠即時的處理用戶的投訴來達到遏制利用垃圾短信違法犯罪目的。
作者:劉云玉 原晉鵬 單位:黔南民族師范學院