公務(wù)員期刊網(wǎng) 論文中心 正文

大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)文學(xué)輿情控制系統(tǒng)研究

前言:想要寫(xiě)出一篇引人入勝的文章?我們特意為您整理了大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)文學(xué)輿情控制系統(tǒng)研究范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。

大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)文學(xué)輿情控制系統(tǒng)研究

[摘要]文章通過(guò)對(duì)網(wǎng)絡(luò)文學(xué)現(xiàn)狀、輿情控制的必要性;網(wǎng)絡(luò)文學(xué)輿情特征;網(wǎng)絡(luò)文學(xué)輿情監(jiān)控系統(tǒng)設(shè)計(jì)三個(gè)方面進(jìn)行探討,以期人們能夠快速、全面地把握信息內(nèi)容和發(fā)展趨勢(shì)。

[關(guān)鍵詞]網(wǎng)絡(luò)文學(xué);輿情控制;大數(shù)據(jù)環(huán)境

1網(wǎng)絡(luò)文學(xué)現(xiàn)狀,輿情控制的必要性

20世紀(jì)90年代中后期,信息時(shí)代的來(lái)臨和網(wǎng)絡(luò)的普及,互聯(lián)網(wǎng)、手機(jī)、衛(wèi)星等信息傳播工具的出現(xiàn),極大地豐富了小說(shuō)的發(fā)表和傳播渠道,同時(shí)也讓小說(shuō)的生產(chǎn)、傳播方式發(fā)生了很大的變化。特別是對(duì)于互聯(lián)網(wǎng)和手機(jī)這樣的新媒體,每個(gè)人都可以成為小說(shuō)的生產(chǎn)者和傳播者。這時(shí)一些別有用心的人利用網(wǎng)絡(luò)文學(xué)傳播虛假信息,散布反動(dòng)言論,欺騙網(wǎng)民、誤導(dǎo)輿論。還有一些低級(jí)庸俗、淫穢色情、虛假欺詐等輿情信息在網(wǎng)上不斷出現(xiàn),危害網(wǎng)絡(luò)與信息安全。網(wǎng)絡(luò)文學(xué)輿論對(duì)人們意識(shí)形態(tài)的影響已成為極其重要的因素。2015年7月23日,中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)在京《第36次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》。數(shù)據(jù)顯示,截至2015年6月,我國(guó)網(wǎng)民規(guī)模達(dá)6.68億,半年共計(jì)新增網(wǎng)民1894萬(wàn)人?;ヂ?lián)網(wǎng)普及率為48.8%,較2014年年底提升了0.9個(gè)百分點(diǎn)。其中將互聯(lián)網(wǎng)使用于觀看網(wǎng)絡(luò)文學(xué)的有28467萬(wàn)戶,占總用戶數(shù)量的42.6%。為了更好地了解輿情關(guān)注的熱點(diǎn),讓網(wǎng)絡(luò)文學(xué)更好的為民眾服務(wù),另外,保護(hù)網(wǎng)絡(luò)文學(xué)用戶遠(yuǎn)離輿情信息的侵?jǐn)_,建設(shè)和諧的社會(huì)主義國(guó)家,政府部門(mén)有必要采取有力措施對(duì)網(wǎng)絡(luò)信息進(jìn)行必要的監(jiān)控。因此,深入分析研究網(wǎng)絡(luò)文學(xué)輿情監(jiān)控領(lǐng)域中的信息技術(shù)成為一項(xiàng)緊迫而重要的課題。

2網(wǎng)絡(luò)文學(xué)輿情特征

網(wǎng)絡(luò)文學(xué)從一開(kāi)始就呈現(xiàn)了與傳統(tǒng)文學(xué)不同的特點(diǎn)。網(wǎng)絡(luò)文學(xué)有以下特點(diǎn):文字信息為主。網(wǎng)絡(luò)文學(xué),與網(wǎng)絡(luò)新聞、網(wǎng)絡(luò)視頻、網(wǎng)絡(luò)報(bào)紙等不同,網(wǎng)絡(luò)文學(xué)主要以文字為主,幾乎沒(méi)有其他形式的信息表達(dá)。傳播途徑相對(duì)固定。網(wǎng)絡(luò)文學(xué)雖然比傳統(tǒng)文學(xué)傳播途徑靈活,但是比起其他的網(wǎng)絡(luò)信息,網(wǎng)絡(luò)文學(xué)的傳播相對(duì)固定,只有可記錄的一些網(wǎng)站和地址可以。

3網(wǎng)絡(luò)文學(xué)輿情監(jiān)控系統(tǒng)設(shè)計(jì)

根據(jù)網(wǎng)絡(luò)文學(xué)輿情監(jiān)控的特征可設(shè)計(jì)一個(gè)多層次結(jié)構(gòu)的監(jiān)控體系??煞譃閿?shù)據(jù)接入層、信息預(yù)處理層、趨勢(shì)分析層、應(yīng)用層設(shè)計(jì)、系統(tǒng)管理。

3.1數(shù)據(jù)接入層設(shè)計(jì)

要對(duì)網(wǎng)絡(luò)文學(xué)輿情進(jìn)行監(jiān)控就要獲取網(wǎng)絡(luò)上的信息,而數(shù)據(jù)接入層就是完成這項(xiàng)工作的。由于網(wǎng)絡(luò)文學(xué)的性質(zhì),文本為主和點(diǎn)相對(duì)固定決定了數(shù)據(jù)接入層設(shè)計(jì)的結(jié)構(gòu)。數(shù)據(jù)接入層分為采集、傳輸和儲(chǔ)存三個(gè)部分。

3.1.1數(shù)據(jù)的采集由于網(wǎng)絡(luò)文學(xué)點(diǎn)雖然多但是相對(duì)固定,所以不需要不間斷的到網(wǎng)絡(luò)各處尋找相關(guān)數(shù)據(jù)。建立網(wǎng)絡(luò)監(jiān)控,監(jiān)控網(wǎng)絡(luò)節(jié)點(diǎn)的、更新、修改,一旦發(fā)現(xiàn)情況,就對(duì)傳輸程序給以信息。同時(shí),監(jiān)控點(diǎn)以外也有可能網(wǎng)絡(luò)文學(xué)。可以應(yīng)用已經(jīng)成熟的爬蟲(chóng)等算法,對(duì)全網(wǎng)、搜索引擎進(jìn)行概率性搜索。以其結(jié)果建立新的監(jiān)控節(jié)點(diǎn),或提出報(bào)警。

3.1.2數(shù)據(jù)傳輸當(dāng)發(fā)現(xiàn)監(jiān)控節(jié)點(diǎn)更新或修改等情況以后,進(jìn)入數(shù)據(jù)傳輸環(huán)節(jié)。數(shù)據(jù)傳輸環(huán)節(jié)就是將找到的網(wǎng)絡(luò)文學(xué)數(shù)據(jù)傳回服務(wù)器。由于這時(shí)在網(wǎng)絡(luò)傳輸數(shù)據(jù)有可能遇到網(wǎng)絡(luò)擁堵、站點(diǎn)暫時(shí)無(wú)法連接、頁(yè)面缺失等不同的狀況。應(yīng)對(duì)這些情況需要建立循環(huán)隊(duì)列下載、斷點(diǎn)續(xù)傳、設(shè)置有效時(shí)效等手段來(lái)保證下載數(shù)據(jù)的準(zhǔn)確性和有效性。

3.1.3數(shù)據(jù)存儲(chǔ)當(dāng)數(shù)據(jù)采集來(lái)了以后就需要將數(shù)據(jù)進(jìn)行存儲(chǔ)了。首先要選擇存儲(chǔ)介質(zhì),由于數(shù)據(jù)量大、難以采集,所以要選擇容量大穩(wěn)定可靠的存儲(chǔ)介質(zhì)。磁盤(pán)陣列是個(gè)比較好的選擇。其次儲(chǔ)存格式,由于幾乎所有數(shù)據(jù)都是文本,所以建立比較簡(jiǎn)單的儲(chǔ)存結(jié)構(gòu)就行了。一般由文件頭(Head)和數(shù)據(jù)(Data)組成。文件頭包含網(wǎng)絡(luò)文學(xué)的出處、地址、路徑、采集時(shí)間等必要信息。數(shù)據(jù)為網(wǎng)絡(luò)文學(xué)采集下來(lái)的原始信息,主要有一個(gè)或多個(gè)原始網(wǎng)頁(yè)。

3.2信息預(yù)處理

信息采集來(lái)了以后就要進(jìn)行信息處理了。對(duì)于一篇是什么意思計(jì)算機(jī)是不知道的。要讓計(jì)算機(jī)找出那些不合適的文學(xué)作品就要教會(huì)計(jì)算機(jī)找到一些敏感的詞匯并進(jìn)行分析和判斷。于是信息預(yù)處理又分為分詞、去噪、加權(quán)等操作。

3.2.1分詞當(dāng)計(jì)算機(jī)發(fā)現(xiàn)“ISIS(TheIslamicStateofIraqandGrea-terSyria)”這個(gè)詞很容易和恐怖分子聯(lián)系起來(lái),但是當(dāng)計(jì)算機(jī)看見(jiàn)“恐怖分子”時(shí),完全可能理解成“看起來(lái)好恐怖,分子真多”,所以如果面對(duì)中文信息不采用分詞技術(shù),那么會(huì)導(dǎo)致信息數(shù)據(jù)的無(wú)法使用?,F(xiàn)在比較成熟的分詞方法有不少,這里選取基于特征掃描的字符串匹配的分詞方法。字符串匹配的分詞方法又叫作機(jī)械分詞方法,它是按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞)。這類(lèi)方法簡(jiǎn)單、分詞效率較高,但漢語(yǔ)語(yǔ)言現(xiàn)象復(fù)雜豐富,詞典的完備性、規(guī)則的一致性等問(wèn)題使其難以適應(yīng)開(kāi)放的大規(guī)模文本的分詞處理。識(shí)別出一個(gè)詞,根據(jù)掃描方向的不同分為正向匹配和逆向匹配。根據(jù)不同長(zhǎng)度優(yōu)先匹配的情況,分為最大(最長(zhǎng))匹配和最小(最短)匹配。

3.2.2去噪網(wǎng)頁(yè)中的“噪音”是影響基于網(wǎng)頁(yè)內(nèi)容的工作的質(zhì)量的一個(gè)重要因素,快速準(zhǔn)確的清除網(wǎng)頁(yè)中的噪音內(nèi)容是提高這些工作質(zhì)量的關(guān)鍵技術(shù)之一。這里使用了一種網(wǎng)頁(yè)凈化的方法,該方法以一組啟發(fā)式規(guī)則為基礎(chǔ),利用信息檢索的技術(shù)以及網(wǎng)頁(yè)的特征,提取網(wǎng)頁(yè)的主題以及和主題相關(guān)的內(nèi)容,從而達(dá)到網(wǎng)頁(yè)凈化的目的。3.2.3加權(quán)同樣的一個(gè)詞放在不同的環(huán)境下,對(duì)整篇文章內(nèi)容的影響是不一樣的,對(duì)于上面劃詞確定下來(lái)的關(guān)鍵詞、敏感詞要進(jìn)行加權(quán)才能表現(xiàn)出它的性質(zhì)。

3.3分析和結(jié)論

有了以上的工作以后,我們就可以對(duì)數(shù)據(jù)進(jìn)行分析并得出結(jié)論了。對(duì)數(shù)據(jù)的分析手段有很多,這里我們采用相似性統(tǒng)計(jì)分析的統(tǒng)計(jì)學(xué)手段對(duì)其進(jìn)行分析。相似性統(tǒng)計(jì)分析是在相似性檢索的基礎(chǔ)上再對(duì)檢索出來(lái)的結(jié)果進(jìn)行的一系列的統(tǒng)計(jì)分析操作。相似性檢索的算法主要是基于特征詞提取和倒排索引技術(shù),具體描述如下:

(1)對(duì)資料庫(kù)中的每篇文檔進(jìn)行自動(dòng)分詞和提取特征詞。

(2)對(duì)資料庫(kù)中的文檔按特征詞建立倒排索引庫(kù),建立索引的相關(guān)屬性,包括詞頻、位置以及文本長(zhǎng)度等。

(3)根據(jù)每篇文檔中包含特征詞的多少、位置、詞頻、文檔的長(zhǎng)度等信息來(lái)計(jì)算庫(kù)中文檔與待檢索文檔的相關(guān)度,相關(guān)度超過(guò)一定閾值的文檔即可作為相關(guān)文檔處理,并給出相關(guān)系數(shù)。

4結(jié)論

本文論述了大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)文學(xué)輿情監(jiān)控系統(tǒng)的研究與實(shí)現(xiàn)。文章首先分析了網(wǎng)絡(luò)文學(xué)輿情監(jiān)控的必要性,以及目前現(xiàn)狀。針對(duì)網(wǎng)絡(luò)文學(xué)輿情監(jiān)控系統(tǒng)的體系結(jié)構(gòu)和主要功能模塊進(jìn)行了設(shè)計(jì),為系統(tǒng)各模塊的功能、性能及技術(shù)實(shí)現(xiàn)設(shè)計(jì)了詳細(xì)的解決方案。并且,對(duì)網(wǎng)絡(luò)文學(xué)輿情監(jiān)控系統(tǒng)的技術(shù)主體技術(shù)進(jìn)行了深入研究。將多種技術(shù)有效結(jié)合,對(duì)復(fù)雜的網(wǎng)絡(luò)文學(xué)信息進(jìn)行多屬性、多角度的分析,分別給出直觀的分析結(jié)果,以便人們能夠快速、全面地把握信息內(nèi)容和發(fā)展趨勢(shì)。

參考文獻(xiàn):

[1]索紅光,王玉偉.一種用于文本聚類(lèi)的改進(jìn)k-means算法[J].山東大學(xué)學(xué)報(bào):理學(xué)版,2008(1):61-64.

[2]唐籍濤.網(wǎng)絡(luò)輿情監(jiān)控中新詞識(shí)別問(wèn)題的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2012,22(1).

[3]萬(wàn)小軍,等.一種自動(dòng)分析互聯(lián)網(wǎng)上熱點(diǎn)主題傳播過(guò)程的方法及系統(tǒng)[P].中國(guó)專(zhuān)利:CN101231641A,

作者:蔡禮淵 單位:成都工業(yè)學(xué)院信息與計(jì)算科學(xué)系

相關(guān)熱門(mén)標(biāo)簽