公務(wù)員期刊網(wǎng) 論文中心 正文

金融學(xué)文本大數(shù)據(jù)挖掘方法淺議

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了金融學(xué)文本大數(shù)據(jù)挖掘方法淺議范文,希望能給你帶來靈感和參考,敬請(qǐng)閱讀。

金融學(xué)文本大數(shù)據(jù)挖掘方法淺議

摘要:通過回顧歷史文獻(xiàn)可知,傳統(tǒng)研究主要研究文本分析常用方法,對(duì)于文本大數(shù)據(jù)挖掘?qū)嵤┻^程關(guān)注較少。本文闡述了文本大數(shù)據(jù)挖掘的主要方法,闡述在此過程中獲取、預(yù)處理、表示文檔和抽取文檔特征的方法,總結(jié)文本大數(shù)據(jù)挖掘信息來源,結(jié)合文本信息來源分析金融學(xué)領(lǐng)域文本數(shù)據(jù)挖掘應(yīng)用發(fā)展趨勢(shì),從而為金融學(xué)領(lǐng)域文本大數(shù)據(jù)應(yīng)用提供參考。

關(guān)鍵詞:金融學(xué)研究;文本大數(shù)據(jù);數(shù)據(jù)挖掘;深度學(xué)習(xí)

在針對(duì)金融學(xué)領(lǐng)域進(jìn)行實(shí)證研究時(shí),傳統(tǒng)研究方法通常選擇結(jié)構(gòu)化數(shù)據(jù)作為研究依據(jù),常見類型如股票市場(chǎng)數(shù)據(jù)、財(cái)務(wù)報(bào)表等。大數(shù)據(jù)技術(shù)發(fā)展后,計(jì)算機(jī)技術(shù)逐漸成熟,在實(shí)證研究中可獲取更加多樣化的數(shù)據(jù),非結(jié)構(gòu)化文本大數(shù)據(jù)得到應(yīng)用,例如:P2P網(wǎng)絡(luò)借貸文本、財(cái)經(jīng)媒體報(bào)道、網(wǎng)絡(luò)搜索指數(shù)、上市公司披露文本、社交網(wǎng)絡(luò)文本等。本文探討了相關(guān)文本可讀性、相似性、語氣語調(diào)與語義特征等。

1.在金融學(xué)研究中文本大數(shù)據(jù)的挖掘方法

傳統(tǒng)研究方法通常采用人工閱讀方法對(duì)文本信息進(jìn)行識(shí)別,因?yàn)槲谋緮?shù)量龐大、信息構(gòu)成復(fù)雜,人工識(shí)別效率較低,而且信息識(shí)別質(zhì)量不穩(wěn)定,信息識(shí)別效果受到閱讀者專業(yè)素養(yǎng)、理解能力等多方面因素影響。計(jì)算機(jī)技術(shù)發(fā)展后逐漸被應(yīng)用于分析文本大數(shù)據(jù),利用計(jì)算機(jī)技術(shù)獲取語料,對(duì)文本資料進(jìn)行預(yù)處理、文本表示、抽取特征等操作。完成上述步驟后,在研究分析中使用文檔特征,從而開展深入分析[1]。在分析文本大數(shù)據(jù)時(shí),主要采取如下流程:(1)從眾多信息來源中獲取語料,對(duì)語料文檔進(jìn)行解析,明確文本定位,清洗數(shù)據(jù),獲得文本分詞,標(biāo)注詞性,將其中停用詞清除。(2)構(gòu)建詞云、詞嵌入、詞袋模型與主題模型。(3)分析文本情緒、可讀性、相似性,分析語義關(guān)聯(lián)性。(4)監(jiān)督機(jī)器學(xué)習(xí)、詞典語法處理[2]。

1.1獲取語料

獲取語料的方法主要分為兩種:(1)人工獲??;(2)利用網(wǎng)絡(luò)工具爬取或抓取。其中人工獲取語料投入成本較高,耗時(shí)較長(zhǎng),需要投入大量人力,因此網(wǎng)絡(luò)抓取的可行性相對(duì)較高[3]。網(wǎng)絡(luò)抓取方法可有效應(yīng)對(duì)大量文本量,在一定程度上降低文本大數(shù)據(jù)獲取難度。在網(wǎng)絡(luò)抓取語料時(shí),需要借助編程語言,通過直接抓取或爬取的方法獲取文本大數(shù)據(jù)。采用此種語料獲取模式具有兩方面顯著優(yōu)勢(shì),不僅獲取文本信息耗時(shí)較短,效率較高,而且可直接使用編程語言整理內(nèi)容和規(guī)范形式,為后續(xù)文本分析工作奠定基礎(chǔ)[4]。

1.2預(yù)處理環(huán)節(jié)

獲取目標(biāo)語料后,前期需要預(yù)處理文本,解析、定位文本,清洗數(shù)據(jù),標(biāo)注分詞與詞性,最后去除停用詞。金融市場(chǎng)通常要求企業(yè)采用PDF格式作為信息披露文檔格式,文本預(yù)處理中首先需要解析富格式文檔,獲取文檔信息。定位文本和清洗數(shù)據(jù)環(huán)節(jié)中,利用計(jì)算機(jī)程序定位文本信息[5]。在該類研究中,MD&A研究熱度較高,使用正則表達(dá)式進(jìn)行財(cái)務(wù)報(bào)告正文MD&A定位首尾信息部分,提取上述信息。此外,文本信息中除核心內(nèi)容結(jié)構(gòu)外,還包括超文本標(biāo)記語文、腳本語等代碼信息、圖片信息、廣告信息等,該類信息在文本分析中屬于噪聲內(nèi)容,需要?jiǎng)h除和清洗相關(guān)信息,從文本中篩選有價(jià)值的核心內(nèi)容[6]。文本分詞處理與文本語言密切相關(guān)。英文文本使用空格劃分單詞,即自然存在分詞形式,也可采取提取詞干、還原詞形等方法劃分單詞。中文文本中不使用空格分詞,根據(jù)中文語言習(xí)慣,詞語為最小語言單位,可獨(dú)立使用。基于此種背景,分析文本時(shí)需要專門分詞處理中文文本,例如:使用Python開源“jieba”中的中文分詞處理模塊處理文本,股票論壇帖子文本、年度業(yè)績(jī)說明會(huì)以及企業(yè)財(cái)務(wù)報(bào)告均可使用該類工具處理,完成分詞。在針對(duì)中文文本進(jìn)行分詞處理時(shí),其中實(shí)施難度較高的部分是識(shí)別新詞、歧義詞與控制切分顆粒度。在處理歧義詞時(shí),需要科學(xué)選擇分詞方法,采用“jieba”針對(duì)文本進(jìn)行分詞處理時(shí),選擇分詞模式是否科學(xué)直接影響分詞精準(zhǔn)度。分詞處理新詞時(shí),需要用戶在相應(yīng)模塊中自行添加新詞,完善自定義詞典,從而使分詞軟件識(shí)別新詞[7]。語義信息被識(shí)別的關(guān)鍵依據(jù)是詞性等語法特征,詞語切分后標(biāo)記詞語詞性操作被稱為詞性標(biāo)注。詞性標(biāo)注操作可幫助計(jì)算機(jī)進(jìn)行詞語種類識(shí)別,避免詞語歧義,對(duì)語法結(jié)構(gòu)進(jìn)行有效識(shí)別,從而促進(jìn)計(jì)算機(jī)順利進(jìn)行語義分析。詞性標(biāo)注時(shí),中英文操作方法不同,詞性劃分英文單詞要求比較嚴(yán)謹(jǐn),利用詞尾變化反映詞性變化。在英文詞匯中,許多固定詞尾可提示詳細(xì)詞性信息。在處理中文詞語中,并無明確詞性指示,詞性識(shí)別依據(jù)主要為語法、語義等。簡(jiǎn)言之,英文詞性識(shí)別標(biāo)記注重形式,漢語詞性標(biāo)記以語義為主。在處理文本信息時(shí),需要將文本信息中停用詞去除,從而保證文本挖掘信息具有較高精度。所謂停用詞,即自身詞義表達(dá)有限,然而對(duì)于句子語法結(jié)構(gòu)完整性而言非常重要的詞語。停用詞導(dǎo)致文本數(shù)據(jù)具有更繁瑣維度,導(dǎo)致分析文本的成本較高。英文中動(dòng)詞、連詞、冠詞均為常見停用詞。中文處理方法比較復(fù)雜,必須結(jié)合語言習(xí)慣分析停用詞,不僅需要處理特殊符號(hào)、標(biāo)點(diǎn)符號(hào),還需要處理連詞、俚語。除此之外,應(yīng)根據(jù)具體研究?jī)?nèi)容確定停用詞。在進(jìn)行文本情緒研究時(shí),特定標(biāo)點(diǎn)符號(hào)、語氣詞等會(huì)影響文本表達(dá)的情感信息,對(duì)于此類信息需要予以保留,從而保證文本情感程度得到準(zhǔn)確分析。

1.3文檔表示環(huán)節(jié)

文本數(shù)據(jù)為高維度數(shù)據(jù),具有稀疏特點(diǎn),使用計(jì)算機(jī)處理文本數(shù)據(jù)時(shí)難度較高,預(yù)處理實(shí)施后,必須通過特定方式表示文檔信息,通過此種處理降低后續(xù)計(jì)算機(jī)分析和人工研究難度。詞云、詞嵌入、詞袋模型、主題模型均為核心表示方法[8]。詞語技術(shù)具有可視化特點(diǎn),是文本大數(shù)據(jù)技術(shù)之一。所謂本文可視化,即使用視覺符號(hào)顯示復(fù)雜內(nèi)容,展示文本規(guī)律。根據(jù)生物特性,人們習(xí)慣于通過視覺獲取文本信息,實(shí)現(xiàn)文本可視化可提高信息提取效率。使用詞云技術(shù)可有效描述文本中詞匯使用頻率,采用醒目形式顯示高頻詞匯。詞袋模型的構(gòu)建基礎(chǔ)是無嚴(yán)格語序要求的文字詞組存在[9],以此種假設(shè)為前提,文本相當(dāng)于眾多詞語集合,采用向量化方法表達(dá)文本,在此過程中只計(jì)算各個(gè)詞語出現(xiàn)頻率。在詞袋模型中含有兩種構(gòu)建方法:(1)獨(dú)熱表示法;(2)詞頻-逆文檔頻率法。前者的應(yīng)用優(yōu)勢(shì)是可行性較高,操作難度較低。例如:現(xiàn)有如下兩個(gè)文檔:(1)文檔一:“經(jīng)濟(jì)學(xué)中文本大數(shù)據(jù)使用”;(2)文檔二:“金融學(xué)中文本大數(shù)據(jù)使用”。以文檔一、文檔二為基礎(chǔ)建設(shè)詞表,根據(jù)詞序?qū)嵤┰~袋化處理,確定詞袋向量。對(duì)于出現(xiàn)的詞,以“1”表示,未出現(xiàn)的詞以“0”表示。但是在實(shí)際操作中,不同詞語在文檔中出現(xiàn)頻率存在差異,通常文本中高頻詞數(shù)量較少,許多詞匯使用頻率較低。為體現(xiàn)文檔中不同詞語的作用,對(duì)單詞詞語賦予權(quán)重。TF-IDF是計(jì)算文檔中特定詞語權(quán)重的有效方法。含有詞語i文檔數(shù)描述為dfi,集合中文檔總量描述為N,逆文檔頻率描述為idfi,第j個(gè)文件中詞語i頻率描述為tfi,j,第j個(gè)文檔內(nèi)詞語數(shù)量描述為aj,第i個(gè)文檔內(nèi)詞語i權(quán)重描述為tf-idfi,j,則公式應(yīng)表示為[10]其中的前提條件是不低于1,0定義為其他情況。較之獨(dú)熱表示法,TF-IDF方法的特點(diǎn)是對(duì)每個(gè)單詞賦予不同權(quán)重。在賦予其權(quán)重的基本方法時(shí)文本中該詞匯出現(xiàn)頻率越高,其重要性越高,與此同時(shí)語料庫中該詞匯出現(xiàn)頻率越高,則其重要性相應(yīng)降低。詞嵌入處理中,主要是在低緯度連續(xù)向量空間嵌入指定高維空間,該高維空間維數(shù)包括全部詞數(shù)量。在金融學(xué)領(lǐng)域中進(jìn)行文本研究時(shí),詞嵌入技術(shù)通常采用Word2vec技術(shù),該技術(shù)中主要使用CBOW技術(shù)與Skip-Gram神經(jīng)網(wǎng)絡(luò)模型,針對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,促使其有效捕獲詞語中包含的上下文信息,對(duì)詞語進(jìn)行向量化映射,得到的向量語義信息更加豐富,信息密度更大,信息維度更低。主題模型中應(yīng)用頻率較高的是LDA模型,應(yīng)用此種模型進(jìn)行文本分析屬于無監(jiān)督機(jī)器學(xué)習(xí)法,通過此種方法才能夠大量集中語料中提取主題信息。在應(yīng)用該方法時(shí),將生成文檔的過程分為兩步,首先假定各文檔具有對(duì)應(yīng)主題,從這些主題中抽取一個(gè)主題,然后假定文檔具有對(duì)應(yīng)詞匯,對(duì)比之前抽取的主題,從詞語中選取一個(gè)與主題對(duì)應(yīng)的詞語。完成上述迭代后,將其與文檔中各詞語擬合,從而獲得各文檔主題、主題中詞語分布情況。LDA模型主要優(yōu)勢(shì)是,與手動(dòng)編碼相比,該模型性能更完善,可有效分類大規(guī)模文檔。該模型做出的文本主題分類支持復(fù)制,準(zhǔn)確性較高,而采用人工手段分類文本時(shí)較易受到主觀性影響。此外,使用此種模型時(shí),無需人工分類進(jìn)行關(guān)鍵詞、規(guī)則設(shè)定。LDA模型的缺點(diǎn)是在主題預(yù)設(shè)個(gè)數(shù)時(shí),受到研究者主觀因素影響,選擇主題個(gè)數(shù)的數(shù)量受此影響顯著,因此生成主題過程與歸類文本主題時(shí)較易受到相關(guān)影響。

1.4抽取文本特征的方法

文本特征是指文本可讀性、相似性、文本情緒以及語義關(guān)聯(lián)性。其中文本可讀性即讀者在閱讀文本時(shí)是否可較容易地理解文本信息。在編輯文本時(shí)應(yīng)保證文本具有較高可讀性,保證投資者通過閱讀文本可有效理解文本信息,即確保文本對(duì)投資者投資行為產(chǎn)生積極影響。有研究者在文本分析中使用迷霧指數(shù),該類研究認(rèn)為,迷霧指數(shù)與年報(bào)可讀性呈負(fù)相關(guān)。年報(bào)文本字?jǐn)?shù)、電子文檔規(guī)格也是影響年報(bào)可讀性的重要因素。在使用迷霧指數(shù)評(píng)價(jià)文本可讀性時(shí),常見的問題是,隨機(jī)排序句子中詞語將導(dǎo)致文本難以理解,然而正常文本和經(jīng)過隨機(jī)排序處理的文本在分析計(jì)算時(shí),顯示相同迷霧指數(shù)。不僅如此,在進(jìn)行商業(yè)文本測(cè)量時(shí)采用迷霧指數(shù)作為依據(jù)具有顯著缺陷,例如,當(dāng)對(duì)企業(yè)披露信息進(jìn)行可讀性分析時(shí),難以有效劃分年報(bào)可讀性與該企業(yè)實(shí)際復(fù)雜性?;诖朔N背景,在針對(duì)年報(bào)文本可讀性進(jìn)行評(píng)價(jià)時(shí),需要結(jié)合企業(yè)業(yè)務(wù)復(fù)雜性等影響,提出非文本因素[11]。在提取文本情緒時(shí),通常采用有監(jiān)督機(jī)器學(xué)習(xí)法與詞典法進(jìn)行提取操作。詞典法即在文本情緒、語氣語調(diào)研究中使用情緒詞典輔助分析。詞典確定后,該類研究即支持復(fù)制。不僅如此,建設(shè)詞典時(shí)還需要融合大量金融學(xué)專業(yè)知識(shí),從而使詞典與金融文本分析需求一致。使用現(xiàn)有多種類詞典、文獻(xiàn)等分析媒體報(bào)道情緒,針對(duì)財(cái)務(wù)報(bào)告進(jìn)行語氣語調(diào)分析,以及進(jìn)行電話會(huì)議等進(jìn)行語氣語調(diào)分析等。中文大數(shù)據(jù)分析時(shí),通常是以英文詞典、詞庫等為模板,構(gòu)建中文情緒詞典。使用該類詞典輔助分析股票成交量、收益率,評(píng)估股市崩盤風(fēng)險(xiǎn)高低。在詞典法應(yīng)用中需要結(jié)合加權(quán)法進(jìn)行文本情緒分析[12]。有監(jiān)督機(jī)器學(xué)習(xí)法包括支持向量機(jī)、樸素貝葉斯等方法。采用此類方法時(shí),重點(diǎn)環(huán)節(jié)在于對(duì)分類效果進(jìn)行檢驗(yàn)和評(píng)價(jià)。交叉驗(yàn)證法是常見檢驗(yàn)方法。有監(jiān)督機(jī)器學(xué)習(xí)法的缺點(diǎn)是必須人工編碼設(shè)置訓(xùn)練集,工作量較大,并且人工編碼較易受到主觀因素影響,分類效果魯棒性較差,并且研究難以復(fù)制。其優(yōu)點(diǎn)是分類精確度較好。

2.文本大數(shù)據(jù)分析

大數(shù)據(jù)分析主要是進(jìn)行財(cái)務(wù)報(bào)告等公司披露文本信息、搜索指數(shù)、社交網(wǎng)絡(luò)文本以及財(cái)經(jīng)媒體報(bào)道等進(jìn)行分析。通過文本挖掘從海量文本中抽取核心特征,分析其可行性、相似性、語義特征、語氣語調(diào)等,然后分析股票市場(chǎng)行為與文本特征等相關(guān)性。分析披露文本信息時(shí),主要是利用文本信息對(duì)企業(yè)財(cái)務(wù)、經(jīng)營(yíng)、管理層長(zhǎng)效經(jīng)營(yíng)信息等進(jìn)行研究。在進(jìn)行此類研究時(shí),重點(diǎn)是分析文本可讀性、相似性,以及分析語氣語調(diào)。披露文本可讀性較高時(shí),有利于投資者有效獲取公司信息,影響投資行為。迷霧指數(shù)理論認(rèn)為,財(cái)務(wù)報(bào)告具有較高可讀性的企業(yè)通常具有更長(zhǎng)久的利潤(rùn)。此外,有研究者提出,財(cái)務(wù)報(bào)告可讀性直接影響盈余預(yù)測(cè)離散性和可靠性。財(cái)務(wù)報(bào)告可讀性較低時(shí),公司為減輕此種消極影響,可采取自愿披露措施緩解消極影響。管理者通過控制財(cái)務(wù)報(bào)告可讀性可對(duì)投資者行為做出影響[13]。在針對(duì)企業(yè)發(fā)展情況和股票市場(chǎng)發(fā)展趨勢(shì)進(jìn)行分析時(shí),披露文本語氣語調(diào)具有重要參考價(jià)值。相關(guān)研究認(rèn)為,MD&A語氣內(nèi)含有增量信息,該類信息為企業(yè)長(zhǎng)效經(jīng)營(yíng)能力進(jìn)行預(yù)測(cè),同時(shí)可根據(jù)該類信息分析企業(yè)破產(chǎn)風(fēng)險(xiǎn)。管理者情緒狀態(tài)可表現(xiàn)在電話會(huì)議語氣中,此種語氣分散情況與經(jīng)營(yíng)決策具有相關(guān)性,同時(shí)語氣對(duì)投資者感知、分析師評(píng)價(jià)產(chǎn)生影響。分析財(cái)經(jīng)媒體報(bào)道時(shí),主要關(guān)注媒體情緒,分析媒體報(bào)道著眼點(diǎn),針對(duì)經(jīng)濟(jì)政策進(jìn)行分析,了解其不確定性,此外還需要研究媒體報(bào)道偏向信息、假新聞等。進(jìn)行社交網(wǎng)絡(luò)文本研究時(shí),主要是分析策略性信息披露情況與文本情緒。搜索指數(shù)研究方面,主要通過搜索指數(shù)了解投資者關(guān)注度。

3結(jié)語

綜上所述,在金融學(xué)領(lǐng)域中針對(duì)文本進(jìn)行大數(shù)據(jù)挖掘時(shí),主要分析流程是獲取語料、預(yù)處理文本、文檔表示以及抽取文檔特征。在分析文本大數(shù)據(jù)時(shí),可通過分析上市公司披露文本信息、研究財(cái)經(jīng)報(bào)道、分析社交網(wǎng)絡(luò)文本和搜索指數(shù)等,評(píng)價(jià)文本的可讀性、相似性,分析語義語氣,了解文本情緒,獲取有價(jià)值的文本信息。

作者:胡丹 單位:鄭州升達(dá)經(jīng)貿(mào)管理學(xué)院