欧美三级超在线视频,亚洲AⅤ综合无码二区,亚洲乱亚洲乱妇41p国产成人

前言：想要寫出一篇引人入勝的文章？我們特意為您整理了金融學(xué)文本大數(shù)據(jù)挖掘方法淺議范文，希望能給你帶來靈感和參考，敬請(qǐng)閱讀。

金融學(xué)文本大數(shù)據(jù)挖掘方法淺議

摘要：通過回顧歷史文獻(xiàn)可知，傳統(tǒng)研究主要研究文本分析常用方法，對(duì)于文本大數(shù)據(jù)挖掘?qū)嵤┻^程關(guān)注較少。本文闡述了文本大數(shù)據(jù)挖掘的主要方法，闡述在此過程中獲取、預(yù)處理、表示文檔和抽取文檔特征的方法，總結(jié)文本大數(shù)據(jù)挖掘信息來源，結(jié)合文本信息來源分析金融學(xué)領(lǐng)域文本大數(shù)據(jù)挖掘應(yīng)用發(fā)展趨勢(shì)，從而為金融學(xué)領(lǐng)域文本大數(shù)據(jù)應(yīng)用提供參考。

關(guān)鍵詞：金融學(xué)研究；文本大數(shù)據(jù)；數(shù)據(jù)挖掘；深度學(xué)習(xí)

在針對(duì)金融學(xué)領(lǐng)域進(jìn)行實(shí)證研究時(shí)，傳統(tǒng)研究方法通常選擇結(jié)構(gòu)化數(shù)據(jù)作為研究依據(jù)，常見類型如股票市場(chǎng)數(shù)據(jù)、財(cái)務(wù)報(bào)表等。大數(shù)據(jù)技術(shù)發(fā)展后，計(jì)算機(jī)技術(shù)逐漸成熟，在實(shí)證研究中可獲取更加多樣化的數(shù)據(jù)，非結(jié)構(gòu)化文本大數(shù)據(jù)得到應(yīng)用，例如：P2P網(wǎng)絡(luò)借貸文本、財(cái)經(jīng)媒體報(bào)道、網(wǎng)絡(luò)搜索指數(shù)、上市公司披露文本、社交網(wǎng)絡(luò)文本等。本文探討了相關(guān)文本可讀性、相似性、語氣語調(diào)與語義特征等。

1.在金融學(xué)研究中文本大數(shù)據(jù)的挖掘方法

傳統(tǒng)研究方法通常采用人工閱讀方法對(duì)文本信息進(jìn)行識(shí)別，因?yàn)槲谋緮?shù)量龐大、信息構(gòu)成復(fù)雜，人工識(shí)別效率較低，而且信息識(shí)別質(zhì)量不穩(wěn)定，信息識(shí)別效果受到閱讀者專業(yè)素養(yǎng)、理解能力等多方面因素影響。計(jì)算機(jī)技術(shù)發(fā)展后逐漸被應(yīng)用于分析文本大數(shù)據(jù)，利用計(jì)算機(jī)技術(shù)獲取語料，對(duì)文本資料進(jìn)行預(yù)處理、文本表示、抽取特征等操作。完成上述步驟后，在研究分析中使用文檔特征，從而開展深入分析[1]。在分析文本大數(shù)據(jù)時(shí)，主要采取如下流程：（1）從眾多信息來源中獲取語料，對(duì)語料文檔進(jìn)行解析，明確文本定位，清洗數(shù)據(jù)，獲得文本分詞，標(biāo)注詞性，將其中停用詞清除。（2）構(gòu)建詞云、詞嵌入、詞袋模型與主題模型。（3）分析文本情緒、可讀性、相似性，分析語義關(guān)聯(lián)性。（4）監(jiān)督機(jī)器學(xué)習(xí)、詞典語法處理[2]。

1.1獲取語料

獲取語料的方法主要分為兩種：（1）人工獲??；（2）利用網(wǎng)絡(luò)工具爬取或抓取。其中人工獲取語料投入成本較高，耗時(shí)較長(zhǎng)，需要投入大量人力，因此網(wǎng)絡(luò)抓取的可行性相對(duì)較高[3]。網(wǎng)絡(luò)抓取方法可有效應(yīng)對(duì)大量文本量，在一定程度上降低文本大數(shù)據(jù)獲取難度。在網(wǎng)絡(luò)抓取語料時(shí)，需要借助編程語言，通過直接抓取或爬取的方法獲取文本大數(shù)據(jù)。采用此種語料獲取模式具有兩方面顯著優(yōu)勢(shì)，不僅獲取文本信息耗時(shí)較短，效率較高，而且可直接使用編程語言整理內(nèi)容和規(guī)范形式，為后續(xù)文本分析工作奠定基礎(chǔ)[4]。

1.2預(yù)處理環(huán)節(jié)

獲取目標(biāo)語料后，前期需要預(yù)處理文本，解析、定位文本，清洗數(shù)據(jù)，標(biāo)注分詞與詞性，最后去除停用詞。金融市場(chǎng)通常要求企業(yè)采用PDF格式作為信息披露文檔格式，文本預(yù)處理中首先需要解析富格式文檔，獲取文檔信息。定位文本和清洗數(shù)據(jù)環(huán)節(jié)中，利用計(jì)算機(jī)程序定位文本信息[5]。在該類研究中，MD＆A研究熱度較高，使用正則表達(dá)式進(jìn)行財(cái)務(wù)報(bào)告正文MD＆A定位首尾信息部分，提取上述信息。此外，文本信息中除核心內(nèi)容結(jié)構(gòu)外，還包括超文本標(biāo)記語文、腳本語等代碼信息、圖片信息、廣告信息等，該類信息在文本分析中屬于噪聲內(nèi)容，需要?jiǎng)h除和清洗相關(guān)信息，從文本中篩選有價(jià)值的核心內(nèi)容[6]。文本分詞處理與文本語言密切相關(guān)。英文文本使用空格劃分單詞，即自然存在分詞形式，也可采取提取詞干、還原詞形等方法劃分單詞。中文文本中不使用空格分詞，根據(jù)中文語言習(xí)慣，詞語為最小語言單位，可獨(dú)立使用。基于此種背景，分析文本時(shí)需要專門分詞處理中文文本，例如：使用Python開源“jieba”中的中文分詞處理模塊處理文本，股票論壇帖子文本、年度業(yè)績(jī)說明會(huì)以及企業(yè)財(cái)務(wù)報(bào)告均可使用該類工具處理，完成分詞。在針對(duì)中文文本進(jìn)行分詞處理時(shí)，其中實(shí)施難度較高的部分是識(shí)別新詞、歧義詞與控制切分顆粒度。在處理歧義詞時(shí)，需要科學(xué)選擇分詞方法，采用“jieba”針對(duì)文本進(jìn)行分詞處理時(shí)，選擇分詞模式是否科學(xué)直接影響分詞精準(zhǔn)度。分詞處理新詞時(shí)，需要用戶在相應(yīng)模塊中自行添加新詞，完善自定義詞典，從而使分詞軟件識(shí)別新詞[7]。語義信息被識(shí)別的關(guān)鍵依據(jù)是詞性等語法特征，詞語切分后標(biāo)記詞語詞性操作被稱為詞性標(biāo)注。詞性標(biāo)注操作可幫助計(jì)算機(jī)進(jìn)行詞語種類識(shí)別，避免詞語歧義，對(duì)語法結(jié)構(gòu)進(jìn)行有效識(shí)別，從而促進(jìn)計(jì)算機(jī)順利進(jìn)行語義分析。詞性標(biāo)注時(shí)，中英文操作方法不同，詞性劃分英文單詞要求比較嚴(yán)謹(jǐn)，利用詞尾變化反映詞性變化。在英文詞匯中，許多固定詞尾可提示詳細(xì)詞性信息。在處理中文詞語中，并無明確詞性指示，詞性識(shí)別依據(jù)主要為語法、語義等。簡(jiǎn)言之，英文詞性識(shí)別標(biāo)記注重形式，漢語詞性標(biāo)記以語義為主。在處理文本信息時(shí)，需要將文本信息中停用詞去除，從而保證文本挖掘信息具有較高精度。所謂停用詞，即自身詞義表達(dá)有限，然而對(duì)于句子語法結(jié)構(gòu)完整性而言非常重要的詞語。停用詞導(dǎo)致文本數(shù)據(jù)具有更繁瑣維度，導(dǎo)致分析文本的成本較高。英文中動(dòng)詞、連詞、冠詞均為常見停用詞。中文處理方法比較復(fù)雜，必須結(jié)合語言習(xí)慣分析停用詞，不僅需要處理特殊符號(hào)、標(biāo)點(diǎn)符號(hào)，還需要處理連詞、俚語。除此之外，應(yīng)根據(jù)具體研究?jī)?nèi)容確定停用詞。在進(jìn)行文本情緒研究時(shí)，特定標(biāo)點(diǎn)符號(hào)、語氣詞等會(huì)影響文本表達(dá)的情感信息，對(duì)于此類信息需要予以保留，從而保證文本情感程度得到準(zhǔn)確分析。

1.3文檔表示環(huán)節(jié)

文本數(shù)據(jù)為高維度數(shù)據(jù)，具有稀疏特點(diǎn)，使用計(jì)算機(jī)處理文本數(shù)據(jù)時(shí)難度較高，預(yù)處理實(shí)施后，必須通過特定方式表示文檔信息，通過此種處理降低后續(xù)計(jì)算機(jī)分析和人工研究難度。詞云、詞嵌入、詞袋模型、主題模型均為核心表示方法[8]。詞語技術(shù)具有可視化特點(diǎn)，是文本大數(shù)據(jù)技術(shù)之一。所謂本文可視化，即使用視覺符號(hào)顯示復(fù)雜內(nèi)容，展示文本規(guī)律。根據(jù)生物特性，人們習(xí)慣于通過視覺獲取文本信息，實(shí)現(xiàn)文本可視化可提高信息提取效率。使用詞云技術(shù)可有效描述文本中詞匯使用頻率，采用醒目形式顯示高頻詞匯。詞袋模型的構(gòu)建基礎(chǔ)是無嚴(yán)格語序要求的文字詞組存在[9]，以此種假設(shè)為前提，文本相當(dāng)于眾多詞語集合，采用向量化方法表達(dá)文本，在此過程中只計(jì)算各個(gè)詞語出現(xiàn)頻率。在詞袋模型中含有兩種構(gòu)建方法：（1）獨(dú)熱表示法；（2）詞頻-逆文檔頻率法。前者的應(yīng)用優(yōu)勢(shì)是可行性較高，操作難度較低。例如：現(xiàn)有如下兩個(gè)文檔：（1）文檔一：“經(jīng)濟(jì)學(xué)中文本大數(shù)據(jù)使用”；（2）文檔二：“金融學(xué)中文本大數(shù)據(jù)使用”。以文檔一、文檔二為基礎(chǔ)建設(shè)詞表，根據(jù)詞序?qū)嵤┰~袋化處理，確定詞袋向量。對(duì)于出現(xiàn)的詞，以“1”表示，未出現(xiàn)的詞以“0”表示。但是在實(shí)際操作中，不同詞語在文檔中出現(xiàn)頻率存在差異，通常文本中高頻詞數(shù)量較少，許多詞匯使用頻率較低。為體現(xiàn)文檔中不同詞語的作用，對(duì)單詞詞語賦予權(quán)重。TF-IDF是計(jì)算文檔中特定詞語權(quán)重的有效方法。含有詞語i文檔數(shù)描述為dfi，集合中文檔總量描述為N，逆文檔頻率描述為idfi，第j個(gè)文件中詞語i頻率描述為tfi,j，第j個(gè)文檔內(nèi)詞語數(shù)量描述為aj，第i個(gè)文檔內(nèi)詞語i權(quán)重描述為tf-idfi,j，則公式應(yīng)表示為[10]其中的前提條件是不低于1，0定義為其他情況。較之獨(dú)熱表示法，TF-IDF方法的特點(diǎn)是對(duì)每個(gè)單詞賦予不同權(quán)重。在賦予其權(quán)重的基本方法時(shí)文本中該詞匯出現(xiàn)頻率越高，其重要性越高，與此同時(shí)語料庫中該詞匯出現(xiàn)頻率越高，則其重要性相應(yīng)降低。詞嵌入處理中，主要是在低緯度連續(xù)向量空間嵌入指定高維空間，該高維空間維數(shù)包括全部詞數(shù)量。在金融學(xué)領(lǐng)域中進(jìn)行文本研究時(shí)，詞嵌入技術(shù)通常采用Word2vec技術(shù)，該技術(shù)中主要使用CBOW技術(shù)與Skip-Gram神經(jīng)網(wǎng)絡(luò)模型，針對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，促使其有效捕獲詞語中包含的上下文信息，對(duì)詞語進(jìn)行向量化映射，得到的向量語義信息更加豐富，信息密度更大，信息維度更低。主題模型中應(yīng)用頻率較高的是LDA模型，應(yīng)用此種模型進(jìn)行文本分析屬于無監(jiān)督機(jī)器學(xué)習(xí)法，通過此種方法才能夠大量集中語料中提取主題信息。在應(yīng)用該方法時(shí)，將生成文檔的過程分為兩步，首先假定各文檔具有對(duì)應(yīng)主題，從這些主題中抽取一個(gè)主題，然后假定文檔具有對(duì)應(yīng)詞匯，對(duì)比之前抽取的主題，從詞語中選取一個(gè)與主題對(duì)應(yīng)的詞語。完成上述迭代后，將其與文檔中各詞語擬合，從而獲得各文檔主題、主題中詞語分布情況。LDA模型主要優(yōu)勢(shì)是，與手動(dòng)編碼相比，該模型性能更完善，可有效分類大規(guī)模文檔。該模型做出的文本主題分類支持復(fù)制，準(zhǔn)確性較高，而采用人工手段分類文本時(shí)較易受到主觀性影響。此外，使用此種模型時(shí)，無需人工分類進(jìn)行關(guān)鍵詞、規(guī)則設(shè)定。LDA模型的缺點(diǎn)是在主題預(yù)設(shè)個(gè)數(shù)時(shí)，受到研究者主觀因素影響，選擇主題個(gè)數(shù)的數(shù)量受此影響顯著，因此生成主題過程與歸類文本主題時(shí)較易受到相關(guān)影響。

1.4抽取文本特征的方法

文本特征是指文本可讀性、相似性、文本情緒以及語義關(guān)聯(lián)性。其中文本可讀性即讀者在閱讀文本時(shí)是否可較容易地理解文本信息。在編輯文本時(shí)應(yīng)保證文本具有較高可讀性，保證投資者通過閱讀文本可有效理解文本信息，即確保文本對(duì)投資者投資行為產(chǎn)生積極影響。有研究者在文本分析中使用迷霧指數(shù)，該類研究認(rèn)為，迷霧指數(shù)與年報(bào)可讀性呈負(fù)相關(guān)。年報(bào)文本字?jǐn)?shù)、電子文檔規(guī)格也是影響年報(bào)可讀性的重要因素。在使用迷霧指數(shù)評(píng)價(jià)文本可讀性時(shí)，常見的問題是，隨機(jī)排序句子中詞語將導(dǎo)致文本難以理解，然而正常文本和經(jīng)過隨機(jī)排序處理的文本在分析計(jì)算時(shí)，顯示相同迷霧指數(shù)。不僅如此，在進(jìn)行商業(yè)文本測(cè)量時(shí)采用迷霧指數(shù)作為依據(jù)具有顯著缺陷，例如，當(dāng)對(duì)企業(yè)披露信息進(jìn)行可讀性分析時(shí)，難以有效劃分年報(bào)可讀性與該企業(yè)實(shí)際復(fù)雜性?；诖朔N背景，在針對(duì)年報(bào)文本可讀性進(jìn)行評(píng)價(jià)時(shí)，需要結(jié)合企業(yè)業(yè)務(wù)復(fù)雜性等影響，提出非文本因素[11]。在提取文本情緒時(shí)，通常采用有監(jiān)督機(jī)器學(xué)習(xí)法與詞典法進(jìn)行提取操作。詞典法即在文本情緒、語氣語調(diào)研究中使用情緒詞典輔助分析。詞典確定后，該類研究即支持復(fù)制。不僅如此，建設(shè)詞典時(shí)還需要融合大量金融學(xué)專業(yè)知識(shí)，從而使詞典與金融文本分析需求一致。使用現(xiàn)有多種類詞典、文獻(xiàn)等分析媒體報(bào)道情緒，針對(duì)財(cái)務(wù)報(bào)告進(jìn)行語氣語調(diào)分析，以及進(jìn)行電話會(huì)議等進(jìn)行語氣語調(diào)分析等。中文大數(shù)據(jù)分析時(shí)，通常是以英文詞典、詞庫等為模板，構(gòu)建中文情緒詞典。使用該類詞典輔助分析股票成交量、收益率，評(píng)估股市崩盤風(fēng)險(xiǎn)高低。在詞典法應(yīng)用中需要結(jié)合加權(quán)法進(jìn)行文本情緒分析[12]。有監(jiān)督機(jī)器學(xué)習(xí)法包括支持向量機(jī)、樸素貝葉斯等方法。采用此類方法時(shí)，重點(diǎn)環(huán)節(jié)在于對(duì)分類效果進(jìn)行檢驗(yàn)和評(píng)價(jià)。交叉驗(yàn)證法是常見檢驗(yàn)方法。有監(jiān)督機(jī)器學(xué)習(xí)法的缺點(diǎn)是必須人工編碼設(shè)置訓(xùn)練集，工作量較大，并且人工編碼較易受到主觀因素影響，分類效果魯棒性較差，并且研究難以復(fù)制。其優(yōu)點(diǎn)是分類精確度較好。

2.文本大數(shù)據(jù)分析

大數(shù)據(jù)分析主要是進(jìn)行財(cái)務(wù)報(bào)告等公司披露文本信息、搜索指數(shù)、社交網(wǎng)絡(luò)文本以及財(cái)經(jīng)媒體報(bào)道等進(jìn)行分析。通過文本挖掘從海量文本中抽取核心特征，分析其可行性、相似性、語義特征、語氣語調(diào)等，然后分析股票市場(chǎng)行為與文本特征等相關(guān)性。分析披露文本信息時(shí)，主要是利用文本信息對(duì)企業(yè)財(cái)務(wù)、經(jīng)營(yíng)、管理層長(zhǎng)效經(jīng)營(yíng)信息等進(jìn)行研究。在進(jìn)行此類研究時(shí)，重點(diǎn)是分析文本可讀性、相似性，以及分析語氣語調(diào)。披露文本可讀性較高時(shí)，有利于投資者有效獲取公司信息，影響投資行為。迷霧指數(shù)理論認(rèn)為，財(cái)務(wù)報(bào)告具有較高可讀性的企業(yè)通常具有更長(zhǎng)久的利潤(rùn)。此外，有研究者提出，財(cái)務(wù)報(bào)告可讀性直接影響盈余預(yù)測(cè)離散性和可靠性。財(cái)務(wù)報(bào)告可讀性較低時(shí)，公司為減輕此種消極影響，可采取自愿披露措施緩解消極影響。管理者通過控制財(cái)務(wù)報(bào)告可讀性可對(duì)投資者行為做出影響[13]。在針對(duì)企業(yè)發(fā)展情況和股票市場(chǎng)發(fā)展趨勢(shì)進(jìn)行分析時(shí)，披露文本語氣語調(diào)具有重要參考價(jià)值。相關(guān)研究認(rèn)為，MD＆A語氣內(nèi)含有增量信息，該類信息為企業(yè)長(zhǎng)效經(jīng)營(yíng)能力進(jìn)行預(yù)測(cè)，同時(shí)可根據(jù)該類信息分析企業(yè)破產(chǎn)風(fēng)險(xiǎn)。管理者情緒狀態(tài)可表現(xiàn)在電話會(huì)議語氣中，此種語氣分散情況與經(jīng)營(yíng)決策具有相關(guān)性，同時(shí)語氣對(duì)投資者感知、分析師評(píng)價(jià)產(chǎn)生影響。分析財(cái)經(jīng)媒體報(bào)道時(shí)，主要關(guān)注媒體情緒，分析媒體報(bào)道著眼點(diǎn)，針對(duì)經(jīng)濟(jì)政策進(jìn)行分析，了解其不確定性，此外還需要研究媒體報(bào)道偏向信息、假新聞等。進(jìn)行社交網(wǎng)絡(luò)文本研究時(shí)，主要是分析策略性信息披露情況與文本情緒。搜索指數(shù)研究方面，主要通過搜索指數(shù)了解投資者關(guān)注度。

3結(jié)語

綜上所述，在金融學(xué)領(lǐng)域中針對(duì)文本進(jìn)行大數(shù)據(jù)挖掘時(shí)，主要分析流程是獲取語料、預(yù)處理文本、文檔表示以及抽取文檔特征。在分析文本大數(shù)據(jù)時(shí)，可通過分析上市公司披露文本信息、研究財(cái)經(jīng)報(bào)道、分析社交網(wǎng)絡(luò)文本和搜索指數(shù)等，評(píng)價(jià)文本的可讀性、相似性，分析語義語氣，了解文本情緒，獲取有價(jià)值的文本信息。

作者:胡丹單位:鄭州升達(dá)經(jīng)貿(mào)管理學(xué)院

金融學(xué)文本大數(shù)據(jù)挖掘方法淺議

相關(guān)熱門標(biāo)簽

相關(guān)文章閱讀

相關(guān)期刊推薦

金融學(xué)季刊

廣東金融學(xué)院學(xué)報(bào)

上海立信會(huì)計(jì)金融學(xué)院學(xué)報(bào)

上海金融學(xué)院學(xué)報(bào)

精選范文推薦