前言:想要寫出一篇引人入勝的文章?我們特意為您整理了自然語言處理下的微信納稅服務(wù)平臺范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:移動互聯(lián)網(wǎng)時代,信息種類豐富,獲取途徑多樣,稅務(wù)信息對專業(yè)性和準(zhǔn)確性的要求尤為嚴(yán)格。針對由此產(chǎn)生的檢索難度上升、檢索精準(zhǔn)度下降的問題,結(jié)合國家稅務(wù)總局“互聯(lián)網(wǎng)+稅務(wù)”行動計劃,提出基于主流即時通信軟件的納稅服務(wù)平臺,以人工智能技術(shù)輔助稅務(wù)信息的檢索。利用以自然語言處理為核心的智能信息檢索技術(shù),對檢索人輸入文本進(jìn)行文本提取、特征項提取、利用夾角余弦法進(jìn)行語義相似度計算并檢索輸出,實(shí)現(xiàn)稅務(wù)信息的智能問答功能,提供納稅人辦稅所需的各項稅務(wù)服務(wù)信息。最終實(shí)現(xiàn)以納稅人為中心,以實(shí)際問題為導(dǎo)向的稅務(wù)服務(wù),助推稅務(wù)服務(wù)的現(xiàn)代化、信息化、智能化發(fā)展。
關(guān)鍵詞:微信納稅平臺;互聯(lián)網(wǎng)+稅務(wù);自然語言處理;人工智能;智能信息檢索;語義相似度計算
引言
稅收是國家財政收入的主要來源,隨著社會發(fā)展,財稅體制也進(jìn)行著不斷探索與改革。我國現(xiàn)行增值稅、消費(fèi)稅等十余項稅種[1],辦稅指南信息涉及信息報告、發(fā)票辦理、申報納稅、優(yōu)惠辦理、證明辦理、出口退(免)稅、國際稅收、清稅注銷、信用評價、權(quán)益保護(hù)、涉稅專業(yè)服務(wù)等多方面,針對不同納稅主體的不同稅務(wù)服務(wù)信息需求,精準(zhǔn)推送報送資料、辦理渠道、辦理時限、注意事項及相關(guān)政策依據(jù)等納稅服務(wù)信息,簡化優(yōu)化納稅人辦稅流程,需要特別關(guān)注。同時,伴隨互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展成熟,即時通信軟件已經(jīng)成為常見的日常通信手段,根據(jù)2017年11月騰訊官方的《2017微信數(shù)據(jù)報告》,截至當(dāng)時微信日登錄用戶已超9億,較前一年增長[2]17%。龐大的用戶基數(shù)為基于微信開發(fā)的各項服務(wù)平臺提供了可能,催生出多種產(chǎn)業(yè)在互聯(lián)網(wǎng)時代下新的運(yùn)營發(fā)展模式,充分利用網(wǎng)絡(luò)資源,構(gòu)建智能化、一體化的服務(wù)平臺。而目前,陜西省渭南市國地稅稅務(wù)服務(wù)系統(tǒng)主要采用稅務(wù)服務(wù)大廳現(xiàn)場咨詢和稅務(wù)系統(tǒng)官網(wǎng)查詢,在稅務(wù)大廳放置的二維碼雖然也可以為納稅人提供在移動端查詢獲取各自所需的辦稅信息的渠道,如圖1所示,但是,經(jīng)粗略統(tǒng)計,省稅務(wù)局“辦稅指南二維碼”上就有110個二維碼,納稅人在掃描二維碼獲取所需稅務(wù)服務(wù)信息時時常會遇到“選擇困難癥”而無所適從,無法及時高效地獲取有效稅務(wù)服務(wù)信息。針對上述情況,本文提出了基于自然語言處理的微信納稅服務(wù)平臺,通過智能檢索實(shí)現(xiàn)模糊匹配的自動問答系統(tǒng),在大大降低了對用戶專業(yè)性的需求、減少了納稅人大量時間成本的同時,也能針對用戶需求,為智能推送定制化的稅務(wù)服務(wù)信息提供依據(jù)和渠道,以降低征納成本、提高稅務(wù)服務(wù)質(zhì)量、構(gòu)建智能化稅務(wù)服務(wù)體系。
1自然語言處理
信息的檢索本質(zhì)上是用戶的信息檢索需求和數(shù)據(jù)庫存儲信息之間的匹配過程[3]。隨著互聯(lián)網(wǎng)技術(shù)的跨越式發(fā)展,綜合利用互聯(lián)網(wǎng)技術(shù)、通信技術(shù)、數(shù)據(jù)庫技術(shù)進(jìn)行信息的檢索得到了廣泛關(guān)注,如何在海量的多媒體信息中過濾掉無用部分,檢索到有用信息,相關(guān)檢索技術(shù)的研究取得了豐碩成果,其中就包含了對于自然語言的處理。自然語言處理就是計算機(jī)對人類所使用的口頭或書面形式的自然語言進(jìn)行各種處理、加工的技術(shù),這種技術(shù)能夠?qū)⒆匀徽Z言翻譯為計算機(jī)語言,以便計算機(jī)更容易地接受和執(zhí)行人類以自然語言形式輸入的指令,是發(fā)展人工智能技術(shù)的基礎(chǔ)[3]。將自然語言處理應(yīng)用于信息的檢索,使得檢索技術(shù)邁向了智能檢索的方向,檢索的效率和準(zhǔn)確性將得到進(jìn)一步的提升。智能信息檢索的核心在于文本相似度的計算。文本相似度計算主要從分詞、去停用詞、特征項提取、權(quán)值計算、相似度度量等方面著手,以取得更高效、更精確的處理結(jié)果[4]。
1.1分詞處理
中文區(qū)分于英文的最大特點(diǎn)在于中文沒有明確的分割符,而是通過字與字之間的不同組合來表達(dá)詞義,甚至在不同語境中,相同的字詞還會表示不同的語義,極大提升了自然語言理解的復(fù)雜性。進(jìn)行分詞處理可以將文本優(yōu)化為更具結(jié)構(gòu)化的表示后再進(jìn)行后續(xù)處理。目前主流的中文分詞方法主要有基于字串匹配的分詞方法、基于統(tǒng)計的分詞方法和基于理解的分詞方法[5⁃7]。
1.2去停用詞
停用詞是指文本中大量出現(xiàn)的但沒有實(shí)際意義或?qū)渥诱Z義理解作用不大的詞,如嘆詞、連詞、冠詞等均屬其中。停用詞對句子語義的貢獻(xiàn)非常小,在分詞結(jié)束后過濾掉這些停用詞能夠更好地優(yōu)化算法。
1.3特征項提取
文本的特征項是能夠表征文本含義的單元。從特征項的層級來說,由低到高可以分為字、詞、短語等。在多數(shù)情況下,層級高的特征項能夠表述更完整的文本含義,但相對來說,也會對分詞等處理提出更高要求。同時,文本的特征表示,能夠幫助計算機(jī)將自然語言轉(zhuǎn)化為易于計算的特征向量[8],對于計算機(jī)處理和理解自然語言有極大簡化作用。當(dāng)前,獨(dú)熱編碼(One⁃HotEncoding)、詞頻⁃逆文件頻率(TF⁃IDF)技術(shù)[9⁃10]等多種方法都可以應(yīng)用在文本的特征項提取中。
1.4語義相似度計算
通過特征項提取,文本已經(jīng)被轉(zhuǎn)化為空間向量表示,文本的語義相似度計算也就被轉(zhuǎn)化為了向量之間的相似度度量。一般向量計算相似度有如下方法:向量內(nèi)積、歐氏距離、夾角余弦和絕對值距離等[11]。
2微信納稅服務(wù)平臺
在互聯(lián)網(wǎng)技術(shù)極大發(fā)展的時代背景下,開發(fā)基于即時通信軟件的納稅服務(wù)平臺是適應(yīng)更多人使用習(xí)慣、合乎信息時展條件下稅務(wù)服務(wù)信息化、智能化發(fā)展要求的一項工作。本文提出的基于自然語言處理的微信納稅服務(wù)平臺的主要功能是提供稅務(wù)部門與納稅主體之間的稅務(wù)服務(wù)信息交互渠道,以人工智能技術(shù)輔導(dǎo)納稅人對所需稅務(wù)服務(wù)信息的智能模糊檢索,提供稅務(wù)業(yè)務(wù)描述、辦理流程、政策依據(jù)、辦理時限、報送資料、辦理地址等信息的自助問答,切入其痛點(diǎn),也可為未來針對性推送繳稅提醒、相關(guān)法律法規(guī)更新、稅務(wù)信息查詢等服務(wù)信息提供渠道和依據(jù),充分利用互聯(lián)網(wǎng)+的服務(wù)模式優(yōu)勢,使納稅人能更方便、快捷、高效地獲取稅務(wù)服務(wù)信息。本文提出的基于微信客戶端的納稅服務(wù)平臺的系統(tǒng)體系結(jié)構(gòu)如圖2所示。用戶提交給納稅服務(wù)平臺的消息將會首先傳遞到騰訊服務(wù)器,再轉(zhuǎn)發(fā)至納稅服務(wù)平臺的服務(wù)器,在服務(wù)器接收到請求后,將進(jìn)行消息格式的解析,根據(jù)用戶消息內(nèi)容和設(shè)定的服務(wù)器邏輯,計算需要返回的消息,再封裝經(jīng)由微信后臺轉(zhuǎn)發(fā)至用戶的微信移動客戶端,國家納稅指南Web服務(wù)器、陜西省稅務(wù)服務(wù)器作為已有服務(wù)器,可以為微信智能納稅服務(wù)平臺服務(wù)器提供Web服務(wù)。納稅服務(wù)平臺進(jìn)行智能模糊檢索時的技術(shù)方案如圖3所示,主要由微信納稅服務(wù)平臺界面、文本提取模塊、文本特征項提取模塊、數(shù)據(jù)庫、語義相似度計算模塊和索引模塊組成。在特征項提取模塊,微信納稅服務(wù)平臺使用One⁃Hot編碼進(jìn)行特征項的提取,將文本轉(zhuǎn)化為計算機(jī)能夠理解和處理的二進(jìn)制編碼;而在語義相似度計算模塊,微信納稅服務(wù)平臺使用夾角余弦法計算向量的相似度。索引模塊的主要功能就是對計算得到的語義相似度值進(jìn)行正向排序,將其中相似度值最高的三項作為檢索結(jié)果順序輸出,若相似度值高于設(shè)置的閾值0.8,視為精確檢索,將唯一輸出此項檢索結(jié)果,而當(dāng)相似度值低于所設(shè)閾值0.1時,則視為檢索失敗。微信納稅服務(wù)平臺的檢索結(jié)果展示如圖4所示。
3結(jié)語
當(dāng)前,經(jīng)濟(jì)活動越來越頻繁、經(jīng)濟(jì)形態(tài)越來越復(fù)雜,稅務(wù)服務(wù)的模式和手段也必須搭上互聯(lián)網(wǎng)技術(shù)發(fā)展的順風(fēng)車,進(jìn)行更專業(yè)化、多元化、智能化的轉(zhuǎn)變,僅僅依靠傳統(tǒng)方式,提供稅務(wù)服務(wù)的效率和成本都將無法達(dá)到信息時代的更高要求。本文提出的基于自然語言處理的微信納稅服務(wù)平臺是新形勢下稅務(wù)服務(wù)智能化的一種嘗試,通過智能檢索技術(shù)與主流即時通信軟件的結(jié)合,依靠其互聯(lián)網(wǎng)范圍的極大用戶基數(shù),對稅務(wù)服務(wù)拓展的深度及廣度都大有裨益,形成稅務(wù)服務(wù)發(fā)展的新格局。在本文提出的微信服務(wù)平臺基礎(chǔ)上,智能納稅服務(wù)平臺仍有更深層次的研究需要。目前,文本信息雖然仍是主流,但其他多媒體信息也開始大規(guī)模應(yīng)用于日常生活,將多媒體信息納入智能檢索系統(tǒng)為智能模糊檢索提供了新的方向。同時,隨著互聯(lián)網(wǎng)信息安全技術(shù)的進(jìn)一步研究,更多的個人稅務(wù)信息查詢及涉稅操作將有望在互聯(lián)網(wǎng)進(jìn)行,有效提升稅務(wù)服務(wù)效率,極大減少稅務(wù)服務(wù)的人力及時間成本,加快推進(jìn)稅務(wù)服務(wù)的智能化進(jìn)程。
參考文獻(xiàn)
[1]劉巖,吳艷華.中國稅收[M].長春:東北師范大學(xué)出版社,2014.
[2]Anon.2017微信數(shù)據(jù)報告[EB/OL].[2017⁃12⁃28].
[3]周碧英.基于自然語言的文本智能檢索技術(shù)研究[D].西安:西北大學(xué),2013.
[4]譚靜.基于向量空間模型的文本相似度算法研究[D].成都:西南石油大學(xué),2015.
[5]周俊,鄭中華,張煒.基于改進(jìn)最大匹配算法的中文分詞粗分方法[J].計算機(jī)工程與應(yīng)用,2014,50(2):124⁃128.
[6]莫建文,鄭陽,首照宇,等.改進(jìn)的基于詞典的中文分詞方法[J].計算機(jī)工程與設(shè)計,2013,34(5):1802⁃1807.
[7]葛銳.漢語分詞技術(shù)初探[J].軟件,2013,34(3):140⁃141.
[8]李曉鵬.文本表示算法的研究和應(yīng)用[D].北京:北京郵電大學(xué),2016.
[9]宋章浩.中文文本分類中TF⁃IDF方法的改進(jìn)與應(yīng)用[J].科技展望,2014(22):259.
[10]賈惠娟.一種改進(jìn)的文本相似度算法在政務(wù)系統(tǒng)中的應(yīng)用[J].信息技術(shù)與信息化,2016(7):49⁃52.
[11]李春婷.基于語義相似度的文本聚類算法研究[D].重慶:重慶郵電大學(xué),2017.
[12]鄔啟為.基于向量空間的文本聚類方法與實(shí)現(xiàn)[D].北京:北京交通大學(xué),2014.
作者:李文峰 宗佳佳 唐善成 張鏷月 李大娟 陳熊熊 單位:西安科技大學(xué)