公務(wù)員期刊網(wǎng) 論文中心 正文

話題型微博情感分析策略

前言:想要寫(xiě)出一篇引人入勝的文章?我們特意為您整理了話題型微博情感分析策略范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。

話題型微博情感分析策略

本文重點(diǎn)討論的是話題型微博的語(yǔ)言特點(diǎn)以及對(duì)其進(jìn)行情感分析時(shí)可以采取的策略

話題型微博的語(yǔ)言特點(diǎn)

除了一些名人,微博的主人用的大都是網(wǎng)名,發(fā)表意見(jiàn)可以無(wú)所顧忌;微博的傳播往往是蒲公英式,一個(gè)微博主發(fā)出一條引人矚目的微博,就會(huì)形成一個(gè)主題,體現(xiàn)為標(biāo)簽,其他的微博會(huì)圍繞這個(gè)主題發(fā)表意見(jiàn),下一輪微博還可能會(huì)針對(duì)上一輪微博發(fā)表意見(jiàn),以此類推,于是就形成了一個(gè)帶有鮮明主題的話題型微博群。話題型微博群規(guī)模的大小取決于人們對(duì)該主題的關(guān)注程度。與一般的微博(謝麗星等,2012)不同,話題型微博的文本結(jié)構(gòu)形式?jīng)Q定了它的語(yǔ)言特點(diǎn):句子簡(jiǎn)短,負(fù)面傾向多,語(yǔ)句口語(yǔ)化程度強(qiáng),表達(dá)情感強(qiáng)烈而理性評(píng)價(jià)淡化,評(píng)價(jià)對(duì)象在句中不直接出現(xiàn),語(yǔ)言不夠規(guī)范,等等。下面分別論述。

(一)句子簡(jiǎn)短,單句多

微博有字?jǐn)?shù)限制,因而往往短小。話題型微博又因?yàn)橛幸粋€(gè)明確的話題,人們是圍繞這個(gè)話題發(fā)表意見(jiàn),寫(xiě)微博,只要表達(dá)了心情、態(tài)度,三言兩語(yǔ)也可,只字片語(yǔ)也行,所以與一般文體相比,話題型微博中句子相對(duì)簡(jiǎn)短,單句居多。表1顯示了我們對(duì)400篇語(yǔ)言輿情評(píng)論文和20篇話題型微博平均句長(zhǎng)的統(tǒng)計(jì)結(jié)果。從表1可以看出,評(píng)論文平均句長(zhǎng)是38個(gè)字,而話題型微博平均句長(zhǎng)只有20個(gè)字,幾乎只有評(píng)論文的一半。20個(gè)字,大約有10個(gè)詞,很難形成復(fù)句。

(二)觀點(diǎn)負(fù)面傾向多

話題型微博的形成是基于一定的社會(huì)話題和社會(huì)事件,而當(dāng)今社會(huì)引起關(guān)注的話題負(fù)面性較多,這就使得話題型微博在表達(dá)觀點(diǎn)時(shí),以否定傾向居多。表2是我們對(duì)400篇評(píng)論文和20篇話題型微博中觀點(diǎn)句的統(tǒng)計(jì)結(jié)果。表2數(shù)據(jù)顯示,語(yǔ)言輿情評(píng)論文觀點(diǎn)句中,負(fù)面傾向的只占49.81%,將近一半,而話題型微博中負(fù)面傾向句卻占到了觀點(diǎn)句的80.02%,可以看出,話題型微博的負(fù)面傾向更加明顯。

(三)表達(dá)情感強(qiáng)烈而理性評(píng)價(jià)淡化

由于傳播空間的相對(duì)自由和匿名評(píng)論的相對(duì)隱秘,因而網(wǎng)友在表達(dá)觀點(diǎn)時(shí)會(huì)采用一些比較極端和激烈的形式,又因微博字?jǐn)?shù)的限制,無(wú)法以邏輯鮮明的論述方式進(jìn)行理性表達(dá),所以在話題型微博中,觀點(diǎn)句的表達(dá)往往感情色彩強(qiáng)烈,而理性評(píng)價(jià)淡化,臟話、粗話等表現(xiàn)力強(qiáng)的不雅語(yǔ)匯大量出現(xiàn),這也成為話題型微博觀點(diǎn)句在表達(dá)情感和態(tài)度時(shí)一種較廣泛的表達(dá)方式。

(四)口語(yǔ)色彩濃重,情感因子顆粒度加大

微博雖然用的是書(shū)面形式,但交際的實(shí)時(shí)性、互動(dòng)性,使得它具有濃重的口語(yǔ)色彩,人們往往會(huì)使用一些口語(yǔ)化詞語(yǔ)把自己內(nèi)心的真實(shí)感受直接表達(dá)出來(lái),體現(xiàn)句子觀點(diǎn)的情感因子顆粒度加大,往往不再是詞,而是短語(yǔ)。例如:(1)#假和尚摟女子#得瑟,使勁得瑟,被抓了吧(2)#90后暴打老人#我滴媽~!這還真特么爭(zhēng)氣一群欠收拾的(3)#90后暴打老人#什么玩意了。(4)#官員財(cái)產(chǎn)公示#有個(gè)鬼用,公示出來(lái)的也要有人信吖?其中的“得瑟、我滴媽、欠收拾、什么玩意、有個(gè)鬼用”口語(yǔ)色彩濃重,明確表達(dá)了說(shuō)話人的觀點(diǎn),其中除了“得瑟”是詞,其余都是短語(yǔ),甚至是短句。

(五)隱晦表達(dá)觀點(diǎn)

在話題型微博中,除了用一些很“給力”的詞語(yǔ)明確表達(dá)觀點(diǎn)外,人們還會(huì)采用一種隱晦的、非直接的方式,以言外之意表達(dá)觀點(diǎn)。如:(1)#食用油漲價(jià)#我可以說(shuō)臟話嗎?這是一個(gè)疑問(wèn)句,字面上看沒(méi)有表達(dá)任何觀點(diǎn),然而在“食用油漲價(jià)”這一語(yǔ)境下,可以理解為說(shuō)話者表達(dá)的是一種想用說(shuō)臟話來(lái)發(fā)泄的沖動(dòng),因而也就間接地表達(dá)了對(duì)話題不滿的情緒和貶斥的態(tài)度。(2)#三亞春節(jié)宰客#當(dāng)?shù)氐恼块T(mén)這么做的用意是什么?掩耳盜鈴?越抹越黑?還是讓游客永遠(yuǎn)不去三亞?應(yīng)該去測(cè)測(cè)智商了!“應(yīng)該去測(cè)測(cè)智商”表達(dá)了說(shuō)話者對(duì)“當(dāng)?shù)卣块T(mén)”的不滿。(3)#假和尚摟女子#狐貍尾巴總會(huì)露出來(lái)的“狐貍尾巴總會(huì)露出來(lái)的”是對(duì)假和尚做壞事最終會(huì)被曝光的一種諷刺。(4)#韓寒方舟子之爭(zhēng)#我真叫您教主了,正話反話都讓您說(shuō)了,您這邏輯是美術(shù)老師教的吧“您這邏輯是美術(shù)老師教的吧”,這個(gè)句子中也沒(méi)有情感詞,但根據(jù)標(biāo)簽的語(yǔ)境可以看出,是諷刺當(dāng)事人的邏輯性缺失。

(六)評(píng)價(jià)對(duì)象省略

由于話題型微博的話題標(biāo)簽與文本存在著密切的關(guān)聯(lián),網(wǎng)友在微博時(shí),往往可以直接對(duì)整個(gè)話題或話題的某一部分進(jìn)行評(píng)價(jià)和表達(dá)態(tài)度,因而標(biāo)簽或者標(biāo)簽的一部分甚至標(biāo)簽外事物也就成為了評(píng)價(jià)對(duì)象。所以,話題型微博的評(píng)價(jià)對(duì)象常在文本中省略,觀點(diǎn)句更加短小精悍,甚至短小到一個(gè)短語(yǔ)、一個(gè)詞,也可以被人理解,不會(huì)造成傳播上的歧義。如:(1)#菲軍艦惡意撞擊#抗議!(2)#菲軍艦惡意撞擊#真可惡(3)#菲軍艦惡意撞擊#…欺人太甚(4)#菲軍艦惡意撞擊#可悲啊……上面這些觀點(diǎn)句都缺省了評(píng)價(jià)對(duì)象,在表達(dá)評(píng)價(jià)時(shí)只用了極簡(jiǎn)短的話語(yǔ),但讀者仍然能夠理解它們?cè)u(píng)價(jià)的對(duì)象:(1)的評(píng)價(jià)對(duì)象是整個(gè)標(biāo)簽“菲軍艦惡意撞擊”這件事,(2)是標(biāo)簽中的“菲軍艦”,(3)是標(biāo)簽中的“菲(律賓)”,(4)是標(biāo)簽之外的“中國(guó)”。

(七)語(yǔ)言不夠規(guī)范

含有大量非規(guī)范性的語(yǔ)言文字,也是話題型微博語(yǔ)言的一個(gè)特點(diǎn)。這種非規(guī)范性可能有幾個(gè)方面的原因:一方面,是非人為的原因造成的輸入失誤或常識(shí)上的漢字書(shū)寫(xiě)錯(cuò)誤;另一方面,微博表達(dá)自由,加之敏感話題在法律上的限制,會(huì)人為地加入一些噪聲、非規(guī)范詞、非規(guī)范符號(hào)和非規(guī)范語(yǔ)言格式。例如:(1)#瘋狂的大蔥#找點(diǎn)空閑,找點(diǎn)時(shí)間!帶著錢(qián)包常去url.cn/1T8Gpq淘寶小店去看看!(2)#假和尚摟女子#真TM不要Face。(3)#假和尚摟女子#不過(guò)這二和尚佛景不遜達(dá)摩釋迦,他們真的能做到‘色即是空,空即是色’???。。?!?4)#彭宇承認(rèn)撞了南京老太#我很愿意相信這是真的,但是!例(1)加入網(wǎng)站鏈接等噪聲;例(2)中英文混用,TM是“他媽”的拼音縮寫(xiě),不要Face是“不要臉”;例(3)標(biāo)點(diǎn)符號(hào)和中文內(nèi)容混用;“但是”作為一個(gè)連詞,功能一般是連接句子,往往不會(huì)作為句尾結(jié)束的標(biāo)志,但在例(4)中放在句尾,這種微博觀點(diǎn)句的表達(dá),是一種不完整的表達(dá)方式。上述話題型微博的語(yǔ)言特點(diǎn)就決定了在進(jìn)行情感分析時(shí)所采取的對(duì)應(yīng)策略。

話題型微博情感分析所采取的策略

情感分析及評(píng)價(jià)對(duì)象抽取,目前主要有兩種基本方法。一種是基于句型、句法、語(yǔ)義的詞典及規(guī)則方法(劉鴻宇等,2010;王素格等,2009;楊江,2011;朱嫣嵐等,2006),一種是基于標(biāo)注語(yǔ)料的機(jī)器學(xué)習(xí)方法(樊娜等,2010;王根等,2007;張博,2011;Peng等,2002)。我們認(rèn)為,情感分析,分析的是語(yǔ)言的意義,要想在對(duì)語(yǔ)言進(jìn)行深層理解的基礎(chǔ)上完成情感分析,規(guī)則的方法更有優(yōu)勢(shì),所以主要采取的是基于語(yǔ)義的詞典加規(guī)則的方法,統(tǒng)計(jì)方法只在建立詞典確立詞條屬性、建立規(guī)則庫(kù)確定規(guī)則優(yōu)先級(jí)時(shí)發(fā)揮作用。針對(duì)話題型微博,我們主要采用了加大情感因子顆粒度,構(gòu)建基于短語(yǔ)的情感詞典,通過(guò)短語(yǔ)規(guī)則確定句子極性、重點(diǎn)研究否定形式、建立基于話題的OBJ表單等策略。

(一)構(gòu)建基于短語(yǔ)的情感詞典

識(shí)別觀點(diǎn)句,學(xué)界的通常做法是以情感詞作為依據(jù),帶有情感詞的是觀點(diǎn)句,否則就是非觀點(diǎn)句(這種以詞定句的做法顯然有問(wèn)題,擬另文討論)。也有一些學(xué)者注意到了短語(yǔ)在情感分析中的作用(李鈍等,2008;TheresaWilson等,2005)。話題型微博中的觀點(diǎn)句由于情感表達(dá)強(qiáng)烈而理性評(píng)價(jià)淡化,各種臟話、粗話、口語(yǔ)詞語(yǔ)大量使用,加之很多非直接性的表達(dá),使得影響句子的情感因子的顆粒度加大,僅僅依靠傳統(tǒng)的情感詞典,依靠句子中是否有情感詞來(lái)進(jìn)行觀點(diǎn)句的判斷,會(huì)造成很多錯(cuò)判,因此我們?cè)诨厩楦性~典的基礎(chǔ)上,用人工方式增加了情感短語(yǔ),構(gòu)建了一部基于短語(yǔ)的情感詞典。情感短語(yǔ)詞典突破了以詞為主要收錄對(duì)象的局限,將明確表達(dá)觀點(diǎn)的情感短語(yǔ)甚至短句都收錄其中,如“不得好死、不咋的、扯犢子、就好了、瞎折騰個(gè)屁、不是找抽嗎、什么玩意兒、沒(méi)一個(gè)好東西、好不到哪兒去、以為自己是誰(shuí)啊、可以說(shuō)臟話嗎、這是人的行為嗎、良心讓狗吃了”等等。當(dāng)然,一些明確表達(dá)觀點(diǎn)的口語(yǔ)詞、網(wǎng)絡(luò)用語(yǔ)和臟話也必須收錄到情感詞典中,如“得瑟、傻逼、狗逼、操蛋、犯賤、傻B、欠揍、找死”等,這樣包含這些情感短語(yǔ)和情感詞的觀點(diǎn)句就能夠被準(zhǔn)確地識(shí)別出來(lái),從而在不降低準(zhǔn)確率的前提下,提高系統(tǒng)對(duì)觀點(diǎn)句的召回率。

(二)通過(guò)短語(yǔ)規(guī)則確定觀點(diǎn)句及其極性

話題型微博語(yǔ)言簡(jiǎn)單,短句多,長(zhǎng)句少;單句多,復(fù)句少。針對(duì)這種特點(diǎn),我們建立了短語(yǔ)規(guī)則庫(kù),試圖解決情感短語(yǔ)詞典不能處理的那部分句子是否觀點(diǎn)句以及句子的極性問(wèn)題,主要是長(zhǎng)距離搭配形成的情感短語(yǔ)或者是有歧義的短語(yǔ)搭配。如:(1)#六六叫板小三#這種事是3方的責(zé)任;不能單獨(dú)怪哪一方;(2)#90后暴打老人#我們指責(zé)的不應(yīng)該是90后,人之初性本善,這是國(guó)家、學(xué)校、家長(zhǎng)教育的責(zé)任。單純“責(zé)任”一詞,不一定表示評(píng)價(jià),但(1)(2)中的“是……的責(zé)任”是一個(gè)表達(dá)負(fù)面評(píng)價(jià)的遠(yuǎn)距離搭配,中間可以加進(jìn)各種不同成分,基本都是評(píng)價(jià)對(duì)象。(3)#蘋(píng)果封殺360#這不是騰訊和360的問(wèn)題,這是中國(guó)跟美國(guó)的問(wèn)題。(4)#國(guó)旗下討伐教育制度#絕對(duì)不是教育制度的問(wèn)題是教師的問(wèn)題啊這兩個(gè)句子中都有“是……的問(wèn)題”這樣的搭配,但句(3)中的“是……問(wèn)題”不表示評(píng)價(jià),不是情感短語(yǔ),句(4)中的“是……問(wèn)題”就表示對(duì)“教師”的評(píng)價(jià),是情感短語(yǔ)。這樣的長(zhǎng)距離、有選擇搭配,也只能靠短語(yǔ)規(guī)則來(lái)解決其觀點(diǎn)句的判定問(wèn)題。短語(yǔ)規(guī)則主要采取關(guān)鍵詞匹配的模板形式。例句(1)(2)的識(shí)別規(guī)則為:是/v#[!,/w]的/u責(zé)任/n=#4:-1“=”前面是匹配模式,后面是操作。該規(guī)則表示,當(dāng)“是”后越過(guò)一些不包括逗號(hào)的成分而出現(xiàn)“責(zé)任”時(shí),就將該句判定為觀點(diǎn)句,并給出負(fù)面傾向的極性。

(三)建立否定形式規(guī)則庫(kù)

話題型微博觀點(diǎn)句具有負(fù)面傾向居多的特點(diǎn)。負(fù)面觀點(diǎn)句的表達(dá)主要靠?jī)煞N手段,一種是具有負(fù)面傾向的情感詞或情感短語(yǔ),一種是運(yùn)用否定形式表達(dá)。利用情感短語(yǔ)以及短語(yǔ)規(guī)則識(shí)別出來(lái)的觀點(diǎn)句,其傾向極性都在詞典或規(guī)則上明確標(biāo)注著,所以觀點(diǎn)句的傾向極性識(shí)別不成問(wèn)題。問(wèn)題較大的是有否定形式的觀點(diǎn)句,一般的否定會(huì)改變句子的傾向極性。如:(1)#韓寒方舟子之爭(zhēng)#急急忙忙起訴,絕非上策。(2)#菲軍艦惡意撞擊#我們的政府不夠強(qiáng)硬,每次都是強(qiáng)烈抗議,別人鳥(niǎo)你么?(3)#90后當(dāng)教授#現(xiàn)在的教授真是越來(lái)越不值錢(qián)了!!(4)#官員財(cái)產(chǎn)公示#沒(méi)有公平,沒(méi)有正義,處處充斥著欺詐。遇到這種情況,只需規(guī)則的操作部分在情感詞的極性值上乘以-1,就可以解決句子的極性判斷問(wèn)題。但否定形式的情況極其復(fù)雜,并不都是一個(gè)簡(jiǎn)單的“乘-1”就能解決的問(wèn)題。如:(5)#官員財(cái)產(chǎn)公示#太不和諧了吧(6)#洗碗工留剩菜被開(kāi)除#有些事情合情并不一定合理(7)#假和尚摟女子#沒(méi)有不沾腥的和尚。。。。(8)#官員財(cái)產(chǎn)公示#所謂的民主,就是你是民,我是主??梢钥吹剑?5)中,因?yàn)槌潭雀痹~“太”的存在,在改變傾向極性的同時(shí),加強(qiáng)了情感強(qiáng)度;(6)中,因?yàn)橛小耙欢ā?,否定程度弱化?(7)中,否定詞語(yǔ)連用,就變成了對(duì)“沾腥”的肯定;(8)中的“所謂”一般不會(huì)看作是否定詞,但它確確實(shí)實(shí)改變了“民主”的極性。針對(duì)這些情況,我們?cè)谡Z(yǔ)料中盡可能全面地搜集了可以改變句子極性的詞語(yǔ),形成了一個(gè)否定形式詞集,并就各種否定類型建立規(guī)則庫(kù),以保證這類觀點(diǎn)句傾向極性的準(zhǔn)確判斷。規(guī)則的基本形式同短語(yǔ)規(guī)則。

(四)建立基于話題的OBJ表單

話題型微博語(yǔ)言話題集中,評(píng)價(jià)對(duì)象往往省略,它的評(píng)價(jià)對(duì)象或者是標(biāo)簽,或者是標(biāo)簽的一部分,或者在句子的上文或下文,因此在句內(nèi)根本無(wú)法提取到評(píng)價(jià)對(duì)象。針對(duì)這種情況,我們?cè)谠u(píng)價(jià)對(duì)象提取模塊中建立了一個(gè)基于話題的OBJ表單。例如下面4個(gè)觀點(diǎn)句,標(biāo)簽話題都是“六六叫板小三”,句中都沒(méi)有評(píng)價(jià)對(duì)象。但仔細(xì)分析,這4個(gè)觀點(diǎn)句的評(píng)價(jià)對(duì)象依次為整個(gè)標(biāo)簽、六六和小三、六六、小三。這說(shuō)明,對(duì)于話題型微博來(lái)說(shuō),評(píng)價(jià)對(duì)象缺省的觀點(diǎn)句,可以通過(guò)回溯話題標(biāo)簽的方式,在標(biāo)簽中提取評(píng)價(jià)對(duì)象。(1)#六六叫板小三#無(wú)聊…(2)#六六叫板小三#都賤貨!(3)#六六叫板小三#維護(hù)自己的愛(ài)情,做的對(duì),給力(4)#六六叫板小三#破壞別人家庭,變態(tài)。OBJ表單必須建立在話題的基礎(chǔ)上?!傲邪逍∪边@一話題下的“無(wú)聊”是評(píng)價(jià)“六六叫板小三”這件事的,“官員調(diào)研”這一話題下也有“無(wú)聊”,則是評(píng)價(jià)“官員調(diào)研”這一現(xiàn)象的,“蘋(píng)果封殺360”這一話題下的“無(wú)聊”則是評(píng)價(jià)“蘋(píng)果封殺360”這一事件的。應(yīng)說(shuō)明的是,建立OBJ表單比較適合話題型微博,換一種文體,也許不一定有效。

系統(tǒng)及其工作流程

運(yùn)用上述策略,我們構(gòu)建了一個(gè)基于情感短語(yǔ)詞典以及語(yǔ)義規(guī)則的情感分析系統(tǒng)CUCsas。系統(tǒng)包括分詞標(biāo)注模塊、短語(yǔ)和句子規(guī)則解釋器、評(píng)價(jià)對(duì)象提取規(guī)則解釋器和一個(gè)OBJ模塊。其中的分詞標(biāo)注模塊與一般的不同,為做情感分析,在原有分詞詞典和規(guī)則庫(kù)的基礎(chǔ)上,又加進(jìn)了幾部與情感分析相關(guān)的詞典,主要的三部是:一部用戶詞典Usrsas,專門(mén)儲(chǔ)存情感分析需要切分出來(lái)的詞和短語(yǔ)并賦予詞性;一部添加了情感短語(yǔ)、帶有“po(褒)、ne(貶)”標(biāo)記的情感詞典Dicsas,用于給待分析語(yǔ)料中的情感因子進(jìn)行標(biāo)記;一部褒貶值詞典Dicsvl,Dicsas中的所有詞語(yǔ)在這里都要根據(jù)語(yǔ)感人工賦給一個(gè)從1至-1之間的情感值,用于計(jì)算情感因子的情感度。短語(yǔ)和句子規(guī)則解釋器對(duì)短語(yǔ)和句子規(guī)則進(jìn)行解釋,實(shí)現(xiàn)對(duì)句子的情感度計(jì)算;評(píng)價(jià)對(duì)象提取規(guī)則解釋器對(duì)評(píng)價(jià)對(duì)象提取規(guī)則進(jìn)行解釋,實(shí)現(xiàn)一般情況下評(píng)價(jià)對(duì)象的提取。OBJ模塊是對(duì)評(píng)價(jià)對(duì)象提取規(guī)則的補(bǔ)充,實(shí)現(xiàn)對(duì)復(fù)雜情況的處理,例如句中評(píng)價(jià)對(duì)象省略的情況。該系統(tǒng)工作流程見(jiàn)圖1。

實(shí)驗(yàn)結(jié)果及其分析

運(yùn)行系統(tǒng)CUCsas,以中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)2012年主辦的第一屆中文微博情感分析評(píng)測(cè)提供的評(píng)測(cè)語(yǔ)料為對(duì)象,對(duì)20篇話題型微博語(yǔ)料進(jìn)行了觀點(diǎn)句識(shí)別、觀點(diǎn)句極性識(shí)別和觀點(diǎn)句評(píng)價(jià)對(duì)象提取的實(shí)驗(yàn)。表3是實(shí)驗(yàn)結(jié)果(也是評(píng)測(cè)結(jié)果)。上述成績(jī)?cè)诒敬螀⒓釉u(píng)測(cè)的34支隊(duì)伍提交的53組結(jié)果中,任務(wù)1觀點(diǎn)句識(shí)別獲得第二名(第一名微平均F值為0.784),任務(wù)2觀點(diǎn)句極性識(shí)別獲得第三名(第一名微平均F值為0.850),任務(wù)3觀點(diǎn)句評(píng)價(jià)對(duì)象識(shí)別(包括寬松和嚴(yán)格)獲得第一名(嚴(yán)格評(píng)測(cè)微平均第二名的成績(jī)?yōu)?.225)。雖然相對(duì)成績(jī)還可以,但我們深知,這三項(xiàng)任務(wù)的絕對(duì)成績(jī)即正確率還不高:任務(wù)1的最好成績(jī)F值還不到80%;任務(wù)二相對(duì)較好,達(dá)到85%;任務(wù)3,我們的成績(jī)最好,但即使寬松評(píng)測(cè),F(xiàn)值還不足40%??磥?lái),情感分析,離實(shí)用化的要求還有相當(dāng)一段距離,任重道遠(yuǎn)。我們對(duì)系統(tǒng)分析結(jié)果中識(shí)別錯(cuò)誤的句子進(jìn)行了分析和歸納,產(chǎn)生錯(cuò)誤主要有以下幾個(gè)原因。(1)在觀點(diǎn)句及其極性的識(shí)別上,由于規(guī)則方法本身的限制,使得我們建立的情感詞典和規(guī)則庫(kù)很難覆蓋全部語(yǔ)言現(xiàn)象和微博全部的語(yǔ)料,例如“#彭宇承認(rèn)撞了南京老太#這事兒還有人信啊…”,這條微博沒(méi)有被系統(tǒng)識(shí)別為觀點(diǎn)句,因而極性識(shí)別和評(píng)價(jià)對(duì)象提取也都沒(méi)有再繼續(xù)進(jìn)行。但是從這條微博內(nèi)容來(lái)看,明顯帶有說(shuō)話人對(duì)彭宇這件事情的強(qiáng)烈不滿和質(zhì)疑,應(yīng)該是觀點(diǎn)句。再回溯到我們建立的情感詞典,其中“誰(shuí)信呢”作為一條情感短語(yǔ)已收錄其中,但是這條微博變換了語(yǔ)言形式。如果能在情感詞典中建立一個(gè)“還有人信啊”的短句條目,那么這條微博也能在系統(tǒng)中進(jìn)行正確分析。(2)對(duì)微博語(yǔ)料進(jìn)行預(yù)處理時(shí),由于分詞錯(cuò)誤使得一些詞不能與情感詞典中的詞條匹配,因而造成了觀點(diǎn)句識(shí)別上的流失,例如“#皮鞋果凍#以前敢吃,現(xiàn)在不敢吃了,想想都好惡心”,在分詞的時(shí)候,因?yàn)椤昂脨骸北环衷谝黄穑皭盒摹眱蓚€(gè)字被切開(kāi),因而無(wú)法到情感詞典進(jìn)行匹配。(3)微博語(yǔ)言表達(dá)上的隱晦、非直接性,使得系統(tǒng)在處理深層語(yǔ)用時(shí)也會(huì)出錯(cuò),例如“#皮鞋果凍#JS有點(diǎn)良心吧”這一觀點(diǎn)句,系統(tǒng)分析結(jié)果顯示為肯定傾向,但是從這句話的深層語(yǔ)義分析,是表示對(duì)“JS(奸商)”的一種諷刺,是勸誡他們應(yīng)該有點(diǎn)良心,應(yīng)該是否定傾向。(4)由于微博語(yǔ)料的非規(guī)范性,錯(cuò)別字和標(biāo)點(diǎn)符號(hào)的誤用現(xiàn)象比較普遍,這也在很大程度上影響了規(guī)則的匹配,造成一些觀點(diǎn)句評(píng)價(jià)對(duì)象的提取錯(cuò)誤。例如,“#彭宇承認(rèn)撞了南京老太#———老百姓太不容易了,希望我們的黨能領(lǐng)導(dǎo)人民好好走下去?!边@一觀點(diǎn)句,由于“老百姓”前面有一個(gè)標(biāo)點(diǎn)符號(hào),因而在進(jìn)行規(guī)則匹配時(shí)候,這個(gè)標(biāo)點(diǎn)符號(hào)也被算到評(píng)價(jià)對(duì)象中來(lái),評(píng)價(jià)對(duì)象就成為了“———老百姓”,在嚴(yán)格評(píng)測(cè)中就是個(gè)錯(cuò)誤。另外,對(duì)觀點(diǎn)句極性的認(rèn)識(shí)不同,也造成系統(tǒng)分析結(jié)果與評(píng)測(cè)答案不一致,如“#菲軍艦惡意撞擊#轉(zhuǎn)向舵是不會(huì)失效的,更不會(huì)這么巧”這句微博,系統(tǒng)認(rèn)為是觀點(diǎn)句,因?yàn)檫@句微博體現(xiàn)了對(duì)菲軍艦撞擊原因的質(zhì)疑,但是評(píng)測(cè)答案認(rèn)為這句微博是非觀點(diǎn)句。

幾點(diǎn)啟示

(一)規(guī)則方法不是完全無(wú)用

我們針對(duì)話題型微博的語(yǔ)言特點(diǎn),采用基于短語(yǔ)情感詞典及語(yǔ)義規(guī)則的方法構(gòu)建了一個(gè)情感分析系統(tǒng),在中國(guó)計(jì)算機(jī)學(xué)會(huì)組織的第一屆中文微博語(yǔ)言情感分析評(píng)測(cè)中取得了相對(duì)較好的成績(jī),這是我們始料未及的。毋庸置疑,從上個(gè)世紀(jì)90年代以后,統(tǒng)計(jì)方法就成為語(yǔ)言信息處理的主流,規(guī)則方法被冷落,甚至被嗤之以鼻。但事實(shí)證明,規(guī)則方法也不是全無(wú)用處,如能和語(yǔ)料庫(kù)方法結(jié)合,它在處理某些領(lǐng)域語(yǔ)言時(shí)可能還有一定優(yōu)勢(shì)。

(二)語(yǔ)言計(jì)算要加強(qiáng)對(duì)語(yǔ)言的分析

語(yǔ)言畢竟是人說(shuō)出來(lái)的話,是一個(gè)十分復(fù)雜的系統(tǒng),語(yǔ)言的復(fù)雜性,無(wú)論怎么強(qiáng)調(diào)都不過(guò)分。那么在對(duì)語(yǔ)言進(jìn)行計(jì)算,尤其是在對(duì)語(yǔ)言做“情感分析”這樣的內(nèi)容計(jì)算時(shí),如果不顧及語(yǔ)言本身的特點(diǎn),一味統(tǒng)計(jì),很難取得理想的效果。我們相信,參加這次評(píng)測(cè)的那些兄弟團(tuán)隊(duì),在計(jì)算上都是一流的高手,如果能在有效的統(tǒng)計(jì)手段中加進(jìn)對(duì)語(yǔ)言的深層分析,肯定能取得更加理想的成績(jī)。

(三)語(yǔ)言計(jì)算要注重語(yǔ)域

語(yǔ)域是哈利迪提出的一個(gè)概念,大致相當(dāng)于語(yǔ)篇類型。語(yǔ)言的復(fù)雜性不僅體現(xiàn)在它結(jié)構(gòu)、內(nèi)容的復(fù)雜,還在于不同的場(chǎng)合、不同的交際主題與目的、不同的交際對(duì)象,就會(huì)形成不同的語(yǔ)域。各語(yǔ)域之間在語(yǔ)言結(jié)構(gòu)形式及表達(dá)手段上都有很大不同。因此,想要使用一種方法就能放之四海而皆準(zhǔn),構(gòu)建一個(gè)系統(tǒng)就能包打天下,就能解決所有語(yǔ)域的問(wèn)題,根本是不可能的?;仡櫽?jì)算語(yǔ)言學(xué)的歷史,上個(gè)世紀(jì)60~80年代計(jì)算語(yǔ)言學(xué)的發(fā)展時(shí)期(馮志偉,2011),人們主要是基于句型、句法、語(yǔ)義提出一些理論、一些方法,然后在受限語(yǔ)言(某個(gè)應(yīng)用領(lǐng)域如火車(chē)時(shí)刻查詢,或幾十、上百個(gè)句子)中去實(shí)現(xiàn),以驗(yàn)證這種理論和方法的可行性,因此出現(xiàn)了計(jì)算語(yǔ)言學(xué)百家爭(zhēng)鳴、理論方法眾多的研究局面。90年代后,計(jì)算語(yǔ)言學(xué)提出了新的研究目標(biāo),進(jìn)入了大規(guī)模真實(shí)文本處理時(shí)期,新的目標(biāo)決定了新的方法、手段,于是語(yǔ)料庫(kù)方法盛行,統(tǒng)計(jì)方法成為主流。計(jì)算語(yǔ)言學(xué)發(fā)展到今天,時(shí)間又過(guò)去了20年,研究實(shí)踐告訴我們:我們還是對(duì)語(yǔ)言的復(fù)雜性估計(jì)不足。處理大規(guī)模真實(shí)文本,處理非結(jié)構(gòu)化的大數(shù)據(jù),應(yīng)該是計(jì)算語(yǔ)言學(xué)的終極目標(biāo),在做具體的語(yǔ)言工程、處理具體的語(yǔ)言內(nèi)容時(shí),還要關(guān)注不同的語(yǔ)域,針對(duì)不同的受限語(yǔ)言采取不同的分析方法和計(jì)算策略。表面看起來(lái),從上世紀(jì)60~80年代的“受限語(yǔ)言”,到今天的“關(guān)注不同語(yǔ)域”,似乎畫(huà)了一個(gè)圓,又回到了原點(diǎn),但這不是簡(jiǎn)單的回歸,而是一種螺旋式上升,是計(jì)算語(yǔ)言學(xué)的語(yǔ)言處理又進(jìn)入了一個(gè)新境界。(本文作者:侯敏、滕永林、李雪燕、陳毓麒、鄭雙美、侯明午、周紅照 單位:中國(guó)傳媒大學(xué)/國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究有聲媒體中心)