公務(wù)員期刊網(wǎng) 精選范文 神經(jīng)網(wǎng)絡(luò)文本分類范文

神經(jīng)網(wǎng)絡(luò)文本分類精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的神經(jīng)網(wǎng)絡(luò)文本分類主題范文,僅供參考,歡迎閱讀并收藏。

神經(jīng)網(wǎng)絡(luò)文本分類

第1篇:神經(jīng)網(wǎng)絡(luò)文本分類范文

關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);語言模型;分析

1 卷積神經(jīng)網(wǎng)絡(luò)語言模型

CNN語言模型基本結(jié)構(gòu)包括輸入層、卷積層、池化層及后續(xù)的分類層。輸入層是表示語言的矩陣,該矩陣可以是通過Google word2vec或GloVe預訓練得到的詞嵌入表示,也可以是從原始數(shù)據(jù)重新訓練的語言的向量表示。輸入層之后是通過線性濾波器對輸入矩陣進行卷積操作的卷積層。在NLP問題中,輸入矩陣總是帶有固定順序的結(jié)構(gòu),因為矩陣的每一行都表示離散的符號,例如單詞或者詞組等。因此,使用等寬的濾波器是非常合理的設(shè)置。在這種設(shè)置下,僅需要考慮濾波器的高度既可以實現(xiàn)不同尺寸的濾波器做卷積操作。由此可知,在處理NLP問題時,卷積神經(jīng)網(wǎng)絡(luò)的濾波器尺寸一般都是指濾波器的高度。

然后,將卷積層輸出的特征映射輸入池化層,通過池化函數(shù)為特征映射進行降維并且減少了待估計參數(shù)規(guī)模。一般的,CNN池化操作采用1-max池化函數(shù)。該函數(shù)能夠?qū)⑤斎氲奶卣饔成浣y(tǒng)一生成維度相同的新映射。通過池化操作,可以將卷積層生成的特征連接成更抽象的高級特征,所得到的高級特征尺寸與輸入的句子不再存在直接關(guān)系。

最后,將得到的高級特征輸入softmax分類層進行分類操作。在softmax層,可以選擇應(yīng)用dropout策略作為正則化手段,該方法是隨機地將向量中的一些值設(shè)置為0。另外還可以選擇增加l2范數(shù)約束,l2范數(shù)約束是指當它超過該值時,將向量的l2范數(shù)縮放到指定閾值。在訓練期間,要最小化的目標是分類的交叉熵損失,要估計的參數(shù)包括濾波器的權(quán)重向量,激活函數(shù)中的偏置項以及softmax函數(shù)的權(quán)重向量。

2 卷積神經(jīng)網(wǎng)絡(luò)語言模型應(yīng)用分析

CNN語言模型已經(jīng)廣泛應(yīng)用于諸如文本分類,關(guān)系挖掘以及個性化推薦等NLP任務(wù),下面將對這些應(yīng)用進行具體的介紹與分析。

2.1 CNN在文本分類中的應(yīng)用分析

kim提出了利用CNN進行句子分類的方法。該方法涉及了較小規(guī)模的參數(shù),并采用靜態(tài)通道的CNN實現(xiàn)了效果很優(yōu)異的句子分類方法。通過對輸入向量的調(diào)整,進一步提高了性能實現(xiàn)了包括情感極性分析以及話題分類的任務(wù)。在其基礎(chǔ)上為輸入的詞嵌入設(shè)計了兩種通道,一種是靜態(tài)通道,另一種是動態(tài)通道。在卷積層每一個濾波器都通過靜態(tài)與動態(tài)兩種通道進行計算,然后將計算結(jié)果進行拼接。在池化層采用dropout正則化策略,并對權(quán)值向量進行l(wèi)2約束。最后將該算法應(yīng)用于MR、SST-1與SST-2、Subj、TREC、CR以及MPQA等數(shù)據(jù)集。MR數(shù)據(jù)集為電影評論數(shù)據(jù)集,內(nèi)容為一句話的電影評論,其分類包括積極情感極性與消極情感極性兩類。SST-1與SST-2數(shù)據(jù)集為斯坦福情感樹庫是MR數(shù)據(jù)集的擴展,但該數(shù)據(jù)集已經(jīng)劃分好了訓練集、驗證集及測試集并給出了細粒度的標記,標記包括非常積極、積極、中性、消極、非常消極等情感極性。Subj數(shù)據(jù)集為主觀性數(shù)據(jù)集,其分類任務(wù)是將句子分為主觀句與客觀句兩類。TREC數(shù)據(jù)集為問題數(shù)據(jù)集,其分類任務(wù)是將所有問題分為六類,例如關(guān)于數(shù)字、人物或位置等信息的問題。CR數(shù)據(jù)集為評論數(shù)據(jù)集,包括客戶對MP3、照相機等數(shù)碼產(chǎn)品的評論,其分類任務(wù)是將其分為積極評價與消極評價兩類。MPQA數(shù)據(jù)集是意見極性檢測任務(wù)數(shù)據(jù)集。通過實驗證明,該方法在這幾個典型數(shù)據(jù)集上都能取得非常優(yōu)異的效果。

2.2 CNN在關(guān)系挖掘中的應(yīng)用分析

Shen等人提出了一種新的潛在語義模型,以詞序列作為輸入,利用卷積-池化結(jié)構(gòu)為搜索查詢和Web文檔學習低維語義向量表示。為了在網(wǎng)絡(luò)查詢或網(wǎng)絡(luò)文本中捕捉上下文結(jié)構(gòu),通過輸入單詞序列上下文時間窗口中的每個單詞來獲取詞匯級的n-gram語法特征,將這些特征聚合成句子級特征向量。最后,應(yīng)用非線性變換來提取高級語義信息以生成用于全文字符串的連續(xù)向量表示。該模型的不同之處在于,輸入層與卷積層之間加入了word-n-gram層與letter-trigram層,它們能夠?qū)⑤斎氲脑~序列轉(zhuǎn)變?yōu)閘etter-trigram表示向量。在卷積層通過上下文特征窗口發(fā)現(xiàn)相鄰單詞的位置特征,并變現(xiàn)為n-gram形式。然后通過max池化將word-n-gram特征合并為句子級的高級特征。在池化層之后增加了語義層來提取更高級的語義表示向量。

2.3 CNN在個性化推薦中的應(yīng)用分析

Weston等人提出了一種能夠利用標簽(hashtag)有監(jiān)督的學習網(wǎng)絡(luò)帖子短文本特征表示的卷e嵌入模型(Convolutional Embedding Model)。該方法利用提出的CNN模型在55億詞的大數(shù)據(jù)文本上通過預標注的100,000標簽進行訓練。該方法除了標簽預測任務(wù)本身能取得好的效果外,學習到的特征對于其它的文本表示任務(wù)也能起到非常有效的作用。該模型與其它的詞嵌入模型類似,輸入層為表示文本的矩陣,但是,在用查找表表示輸入文本的同時將標簽也使用查找表來表示。對于給定的文檔利用10萬條最頻繁出現(xiàn)的標簽通過評分函數(shù)對任何給定的主題標簽進行排序。

其中,econv(w)表示CNN的輸入文檔,elt(t)是候選標簽t的詞嵌入表示。因此,通過對分數(shù)f(w,t)進行排序可以獲取所有候選主題標簽中排序第一的話題進行推薦。實驗數(shù)據(jù)集采用了兩個大規(guī)模語料集,均來自流行的社交網(wǎng)絡(luò)文本并帶有標簽。第一個數(shù)據(jù)集稱作people數(shù)據(jù)集,包括搜集自社交網(wǎng)絡(luò)的2億1000萬條文本,共含有55億單詞。第二個數(shù)據(jù)集被稱作pages,包括3530萬條社交網(wǎng)絡(luò)文本,共含有16億單詞,內(nèi)容包括企業(yè)、名人、品牌或產(chǎn)品。

3 結(jié)束語

卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于語言模型已經(jīng)取得了非常大的發(fā)展,對于自然語言處理中的各項任務(wù)均取得了優(yōu)異的結(jié)果。本文通過對幾項典型工作的分析,探討了不同卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)在不同任務(wù)中的表現(xiàn)。通過綜合分析可以得出以下結(jié)論。首先,CNN的輸入采用原始數(shù)據(jù)訓練的向量表示一般效果會優(yōu)于預訓練的詞嵌入表示;其次,在卷積層濾波器的尺寸一般采用寬度與輸入矩陣寬度相等的設(shè)置;最后,為了優(yōu)化結(jié)果可以采用dropout正則化處理。

第2篇:神經(jīng)網(wǎng)絡(luò)文本分類范文

關(guān)鍵詞:主題模型;特征表達;多示例多標記學習;場景分類;文本分類

中圖分類號: TP181

文獻標志碼:A

Multiinstance multilabel learning method based on topic model

YAN Kaobi1, LI Zhixin1,2*, ZHANG Canlong1,2

1.Guangxi Key Laboratory of MultiSource Information Mining and Security, Guangxi Normal University, Guilin Guangxi 541004, China

2.Guangxi Experiment Center of Information Science, Guilin Guangxi 541004, China

Abstract: Concerning that most of the current methods for MultiInstance MultiLabel (MIML) problem do not consider how to represent features of objects in an even better way, a new MIML approach combined with Probabilistic Latent Semantic Analysis (PLSA) model and Neural Network (NN) was proposed based on topic model. The proposed algorithm learned the latent topic allocation of all the training examples by using the PLSA model. The above process was equivalent to the feature learning for getting a better feature expression. Then it utilized the latent topic allocation of each training example to train the neural network. When a test example was given, the proposed algorithm learned its latent topic distribution, then regarded the learned latent topic allocation of the test example as an input of the trained neural network to get the multiple labels of the test example. The experimental results on comparison with two classical algorithms based on decomposition strategy show that the proposed method has superior performance on two realworld MIML tasks.

英文關(guān)鍵詞Key words:

topic model; feature expression; multiinstance multilabel learning; scene classification; text categorization

0引言

傳統(tǒng)的監(jiān)督學習問題通常定義為單示例單標記學習問題,一個對象用一個示例來表示,同時關(guān)聯(lián)一個標記。定義X為示例空間,Y為標記集合。單示例單標記學習的目的是從一個給定的數(shù)據(jù)集{(xi,yi)|1≤i≤N}中學習一個函數(shù)f:xy,其中:xi∈X是一個示例,yi∈Y是示例xi的一個標記。在機器學習技術(shù)[1]日益成熟的條件下,傳統(tǒng)的單示例單標記學習方法已經(jīng)取得了很大的成功。

然而,在現(xiàn)實世界中,一個對象通常是多義性的復雜對象,如果仍用傳統(tǒng)的單示例單標記學習方法,不但不能很好地表達出對象豐富的內(nèi)容信息,而且不能得到對象準確的語義標記集合,因此對于這種多義性對象,可以采用多標記學習方法來處理。在多標記學習[2]方法下,一個對象用一個示例來表示,但是關(guān)聯(lián)多個標記。多標記學習的目的是從一個給定的數(shù)據(jù)集{(xi,yi)|1≤i≤N}中學習一個函數(shù)f:x2y,其中:xi∈X是一個示例,yiY是示例xi的一個標記集合{(yi1,yi2,…,yili)},li是標記集合yi中標記的個數(shù)。雖然多標記學習已經(jīng)取得了很大的成就,但是只用一個示例來表示多義性對象不能有效地表達出多義性對象的復雜內(nèi)容。

事實上,在多標記學習中,一個標記對應(yīng)著對象不同的區(qū)域,如果能夠?qū)σ粋€確定的區(qū)域(不是一個整體的對象)和一個特定的標記直接建立對應(yīng)的模型,將會有效地減少噪聲對分類準確性的影響,因此可以采用多示例學習的方法來表示多義性對象的復雜內(nèi)容。多示例學習[3]的任務(wù)是從一個給定的數(shù)據(jù)集{(xi,yi)|1≤i≤N}中學習一個函數(shù)f:2xy,其中:xiX是一個包的示例集合{(xi1,xi2,…,xini)},ni是包xi中示例的個數(shù),yi∈Y是包xi上的一個標記。然而,多示例學習主要用于單標記問題,對于多標記問題需要分解為多個單標記問題進行處理。

為了克服多標記學習和多示例學習方法的缺點,將二者結(jié)合起來形成一種多示例多標記學習方法[4],來處理帶有復雜內(nèi)容的多義性對象將會更加合理和有效。多示例多標記學習的目的是從一個給定的數(shù)據(jù)集{(xi,yi)|1≤i≤N}中學習一個函數(shù)f:2x2y,其中,xiX是一個包的示例集合{(xi1,xi2,…,xini)},ni是示例集合xi中示例的個數(shù),yiY是包xi的一個標記集合{(yi1,yi2,…,yili)},li是標記集合Yi中標記的個數(shù)。

近年來,多示例多標記學習已經(jīng)取得了很大的進展,同時也面臨著三個主要的難題。首先,由于圖像分割技術(shù)[5]的限制,很難劃分出具有完整語義標記的示例;其次,在劃分示例后,傳統(tǒng)的做法是提取示例的底層特征,然后建立特征向量和語義標記之間的映射模型,由于特征提取[5]和機器學習技術(shù)[1]的限制,如何自動提取示例的高層特征及建立映射模型也是一個難點;最后,由于標記之間復雜的相關(guān)性[6],如何建立能夠捕獲標記之間相關(guān)性的模型[7]也是一個難點,同時文獻[8]指出了大數(shù)據(jù)問題也是多示例多標記學習面臨的一個新問題。如果能夠克服這些主要難題,可以建立一個完美的多示例多標記模型,該模型可以直接學習示例和標記之間的映射關(guān)系,同時可以捕獲到標記之間的相關(guān)性。

1相關(guān)研究

1.1多示例學習

多示例學習中,一個樣本被看成是一個包含多個示例的包,當需要對一個包進行標記的時候,如果包中至少有一個示例具有對應(yīng)的標記含義,則將這個包標記為正包,否則標記為負包。雖然多示例學習框架被限制在單標記問題上,但是多示例學習方法已經(jīng)取得了很多研究成果,針對不同的問題提出了不同的多示例學習方法,此外多示例學習還可以用于圖像檢索。

1.2多標記學習

對于多義性對象,可以采用多標記學習的方法來處理。文獻[6]對多標記學習作了一個全面的綜述報告;文獻[9]提出了一種基于神經(jīng)網(wǎng)絡(luò)的多標記學習方法。從現(xiàn)有的多標記算法可以看出,可以采用兩個策略來處理多標記學習問題:一是將多標記問題分解為多個單標記問題。但是在很多情況下標記之間是有相關(guān)性的,例如天空和海洋可能會同時出現(xiàn)在同一個場景中,如果仍然用這個策略來處理多標記學習問題,將會丟失這種對提升多分類性能很有幫助的信息。二是直接對示例和標記集合之間建立模型。在一些復雜的模型中,不但可以直接建立示例和標記集合的對應(yīng)關(guān)系,同時也可以得到標記之間的一些相關(guān)性。

1.3多示例多標記學習

對于多示例多標記學習,文獻[4]中對多示例多標記學習作了一個全面的介紹,并且提出了MIMLBOOST和MIMLSVM算法。MIMLBOOST算法首先將多示例多標記問題轉(zhuǎn)化為多示例問題,然后再采用MIBOOST[10]來處理多示例問題;MIMLSVM算法首先將多示例多標記學習問題轉(zhuǎn)化為多標記問題,然后采用MLSVM[11]算法來處理多標記問題。傳統(tǒng)的監(jiān)督學習方法、多示例學習方法和多標記學習方法都可以通過分解策略從多示例多標記學習中得到,但是采用這種分解策略會丟失很多蘊藏在訓練樣本中的信息,同時也不能考慮到標記之間存在關(guān)聯(lián)性的問題。后來,文獻[12]提出了一種直接學習示例和標記之間映射關(guān)系的MIMLRBF算法;文獻[7]提出了一種聯(lián)合多示例和多標記的新穎算法,該算法不但可以直接對示例集合和標記集合之間進行建模,同時還可以捕獲到標記之間的關(guān)聯(lián)性;文獻[8]則提出了一種針對大數(shù)據(jù)問題的快速多示例多標記算法。然而,上述文獻中提到的方法都沒有考慮如何來更好地表示對象的特征這一因素。針對這一問題,本文考慮將特征學習模型融入多示例多標記學習中,以學習到一個更好的特征表達方式,從根源上提升分類算法的準確性。概率潛在語義分析模型可以學習到樣本中潛在的主題這一高層特征,本文結(jié)合這一特性提出一種新的多示例多標記學習方法PLSANNMIML,以解決多示多標記學習中如何更好地表示對象特征這一問題。

2PLSANNMIML方法

2.1概率潛在語義分析

Hofmann[13]首次提出用概率潛在語義模型對文本進行建模的方法。當用概率潛在語義分析模型處理圖像數(shù)據(jù)時,可以把圖像看成是文檔,用概率潛在語義分析模型對圖像進行建模來發(fā)現(xiàn)圖像潛在的主題分布。

假設(shè)D={d1,d2,…,di}代表一個圖像數(shù)據(jù)集,W={w1,w2,…,wj}代表一個視覺詞匯表,這種用概率潛在語義分析模型對圖像進行建模的模型是一個發(fā)現(xiàn)共現(xiàn)矩陣隱變量的模型,而該共現(xiàn)矩陣的值由nij=(wj,di)組成,其中nij=(wj,di)是一個視覺詞wj出現(xiàn)在圖像di中的數(shù)量。設(shè)Z={z1,z2,…,zk}代表沒有觀測到的潛在主題變量, P(di)代表觀測到一張具體圖像的概率, P(zk|di)代表一張?zhí)囟▓D像在潛在主題空間下的概率分布, P(wj|zk)代表一個視覺詞出現(xiàn)在一個確定主題變量下的條件概率。這種生成模型可以用如下步驟表示:

1)以一定的概率P(di)選擇一張圖像di;

2)以一定的概率P(zk|di)選擇一個主題zk;

3)以一定的概率P(wj|zk)生成一個詞wj。

經(jīng)過上面的過程,當?shù)玫揭粋€觀測點(wj,di)時,潛在的主題變量zk被忽略,產(chǎn)生下面的聯(lián)合概率模型:

L=logP(wj,di)=∑d∈D∑w∈Wn(wj,di)logP(wj,di)

(1)

在遵循似然原則的條件下,采用期望最大化算法[12]最大化似然函數(shù)的對數(shù),從而得到P(wj|zk)和P(zk|di),似然函數(shù)的對數(shù)表現(xiàn)形式如式(2)所示:

L=logP(wj,di)=∑d∈D∑w∈Wn(wj,di)logP(wj,di)

(2)

2.2神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)[14]由于其在信息處理中具有非線性的自適應(yīng)能力,已經(jīng)在人工智能領(lǐng)域中取得了廣泛的應(yīng)用。算法通過具有三層結(jié)構(gòu)的前向神經(jīng)網(wǎng)絡(luò)模型[15]來得到樣本的標記集合,每層由不同的神經(jīng)元組成,第一層叫輸入層,中間層叫隱藏層,最后一層叫輸出層。在每一層中的每個神經(jīng)元都連接著下一層的所有神經(jīng)元,但在同一層中的神經(jīng)之間是沒有連接的,當信息從一層傳到下一層時,前層中的每個神經(jīng)元都會有一個激活函數(shù)對信息進行變換,該函數(shù)選擇的是S型的激活函數(shù),其定義是:f(x)=1-ex1+ex。在訓練神經(jīng)網(wǎng)絡(luò)時,采用的是反向傳播學習算法[15]來學習神經(jīng)網(wǎng)絡(luò)中神經(jīng)元的權(quán)值。

2.3PLSANNMIML方法

算法主要包括訓練和測試兩個階段,流程如圖1所示。

2.3.1訓練階段

訓練過程包括兩個步驟:首先通過概率潛在語義分析模型從所有的訓練樣本中學習到每個樣本的特定主題分布P(zk|di)和每個主題的特定詞分布P(wj|zk),每個樣本就可以用P(zk|di)來表示;其次再用每個樣本的特定主題分布來訓練神經(jīng)網(wǎng)絡(luò),具體細節(jié)如下所示:

式(3)描述的是神經(jīng)網(wǎng)絡(luò)在樣本xi上的誤差函數(shù)。訓練過程中算法采用概率潛在語義分析模型將xi轉(zhuǎn)化為主題向量zk。假定標記空間Y有Q個標記,神經(jīng)網(wǎng)絡(luò)具有與主題向量zk維數(shù)相同的輸入和Q個輸出,其中Q個輸出對應(yīng)著Q個標記,向量w是在神經(jīng)網(wǎng)絡(luò)中需要學習的權(quán)值向量。

Ei(w)=∑Qq(ciq-diq)2

(3)

其中:ciq是訓練時樣本xi在第q個類上的實際輸出;而diq是樣本xi在第q個類上的目標輸出,如果q∈yi則diq的值為1,否則其值為-1。通過結(jié)合誤差反向傳播策略[14],采用隨機梯度下降法來最小化式(3)中的誤差函數(shù),其過程如下:

假定xji是單元j的第i個輸入, wji是關(guān)聯(lián)輸入xji的權(quán)值大小,netj=∑iwjixji是單元j的網(wǎng)絡(luò)輸出,oj=f(netj)是單元j的實際輸出,tj是單元j的目標輸出,根據(jù)隨機梯度下降算法可以得到每個權(quán)值的更新公式如下:

wji=wji-ηEiwji

(4)

其中η是學習速率的大小。計算式Eiwji的值時,分兩種情況討論:

當j是輸出層的單元時,推導出式(5):

Eiwji=-(tj-oj)oj(1-oj)

(5)

當j是隱藏層的單元時,推導出式(6):

Eiwji=-oj(1-oj)xji∑k∈S[(tj-oj)oj(1-oj)]wkj

(6)

其中S是單元j的輸出所能連接到的單元的集合。

2.3.2測試階段

給定一個測試樣本pX,算法首先利用在訓練階段得到的每個主題的特定詞分布P(wj|zk)來學習到測試樣本的特定主題分布P(zk|dt),然后將學習到的主題分布輸入到已經(jīng)訓練好的神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)將會有Q個輸出,采用文獻[9]介紹的方法選擇閾值,通過選擇合適的閾值,得到標記的相關(guān)集合。

3實驗結(jié)果與分析

3.1實驗步驟

根據(jù)選擇的模型,算法涉及到三個需要確定的參數(shù)變量,分別是詞的數(shù)量、主題的數(shù)量和神經(jīng)網(wǎng)絡(luò)中隱層神經(jīng)元的數(shù)量,分別用Words、Topics、Neurons來表示。由于這三個參數(shù)對算法的性能有很重要的作用,因此首先需要確定這三個參數(shù)的最優(yōu)值。在確定參數(shù)的最優(yōu)值時,采用漢明損失(Hamming loss)和1錯誤率(oneerror)這兩個評價指標來評估參數(shù)對算法性能的影響。確定算法的最優(yōu)參數(shù)后,算法對現(xiàn)實世界中的兩種多示例多標記學習任務(wù)進行實驗,并與現(xiàn)有的多示例多標記算法MIMLBOOST和MIMLSVM進行比較。

實驗涉及到兩個數(shù)據(jù)集,每個數(shù)據(jù)集都有2000個樣本。實驗時先把每個數(shù)據(jù)集劃分為三部分:1000個樣本的訓練集合、500個樣本的驗證集和500個樣本的測試集。

其中500個樣本的驗證集用于確定算法的最優(yōu)參數(shù)。當確定算法的最優(yōu)參數(shù)后,再將1000個樣本的訓練集和500個樣本的驗證集合并形成一個1500個樣本的訓練集,最終每個數(shù)據(jù)集對應(yīng)著一個1500個樣本的訓練集和一個500個樣本的測試集。表1是對實驗中所用數(shù)據(jù)集的具體描述。

【答:文本數(shù)據(jù)集每個包劃分出的示例都不相同,一個平均值表示的是一次實驗時每個包的示例的平均數(shù),表格中平均數(shù)有個范圍是對數(shù)據(jù)集進行不同的劃分,進行多次實驗時的一個平均值范圍,所以是3.56±2.71,也與后面表中的實驗數(shù)據(jù)一致。上面場景數(shù)據(jù)集,每幅圖片都劃分成9個示例,所以平均數(shù)不變,也可以寫成9.00±0.00;

3.1.1場景數(shù)據(jù)集

實驗使用的場景數(shù)據(jù)集包含2000幅自然場景圖像,整個數(shù)據(jù)集包含的類標記有沙漠、山、海洋、日落、樹。數(shù)據(jù)集中每幅圖像的標記都是人工標記的,數(shù)據(jù)集中超過22%的圖像具有多個標記,平均每幅圖像的標記數(shù)量是1.24±0.44。對圖像劃分示例后,通過提取每個示例的顏色和紋理特征將其中的每個示例表示為一個18維的向量,并用這個特征向量代表這個示例。

3.1.2文本數(shù)據(jù)集

實驗使用的文本數(shù)據(jù)集又名為Reuters21578數(shù)據(jù)集。實驗時先對這個數(shù)據(jù)集進行預處理,形成一個具有2000個文檔的數(shù)據(jù)集。整個文檔數(shù)據(jù)集包含7個類標記,大約15%的文檔具有多個標記,平均每個文檔的標記數(shù)量是1.15±044。當進行示例劃分時,采用滑動窗口的技術(shù)[16]來形成文檔的示例,每個示例對應(yīng)著一個被大小為50的滑動窗口所覆蓋的文本段,最后采用基于詞頻[17]的詞袋模型表示方法來表示生成的示例。

3.2實驗結(jié)果

圖2是采用部分場景數(shù)據(jù)集作為實驗數(shù)據(jù),觀測不同參數(shù)值配置對算法性能的影響。圖2(a)~(f)中參數(shù)變量的取值范圍為[3,21],并且參數(shù)變量取整數(shù)值;

算法中,學習速率η的值設(shè)置為0.1。通過改變參數(shù)的配置,采用漢明損失和1錯誤率來評估參數(shù)對算法性能影響,進行了多組實驗來確定算法的最優(yōu)參數(shù)值。

實驗開始時,如圖2(a)和(b)中顯示,先確定Neurons和Topics這兩個參數(shù)的值,其值設(shè)置為Neurons=3,Topics=3,Words的變化范圍為[3,21]。從圖2(a)和(b)中可以看到,當Words取值為7時,漢明損失和1錯誤率指標取得最小值,算法的分類性能最好。

在圖2(c)和(d)中,參數(shù)Neurons的值與圖2(a)和(b)中的值相同,但是Words的值設(shè)置為7,Topics的變化范圍為[3,21]。從圖2(c)和(d)中可以看出,當Topics取值為9時,漢明損失和1錯誤率指標取得最小值,算法的分類性能最好。

在圖2(e)和(f)中,根據(jù)前面的實驗結(jié)果,參數(shù)Words的值設(shè)置為7,Topics的值設(shè)置為9,Neurons變化范圍為[3,21]。從圖2(e)和(f)中可以看出,當Neurons取值為9時,漢明損失和1錯誤率指標取得最小值,算法的分類性能最好。確定算法的最優(yōu)參數(shù)值后,算法對現(xiàn)實世界中的兩種多示例多標記學習任務(wù)進行實驗,并和MIMLBOOST和MIMLSVM進行比較,采用文獻[12]中提到的五種多標記學習評價指標來評估算法的性能。表2和表3分別是各個算法在場景數(shù)據(jù)集和文本數(shù)據(jù)集上進行實驗的結(jié)果,同時表4還給出了各個算法在這兩個數(shù)據(jù)集進行實驗時所需要的時間。在表2和表3中,表示數(shù)值越小算法性能越好,而表示數(shù)值越大算法性能越好。

從表2、3中的數(shù)據(jù)可以看出,對于表中的所有評價指標,PLSANNMIML算法在場景數(shù)據(jù)集和文本數(shù)據(jù)集上具有更好的性能。

從表4中可以看出,PLSANNMIML方法在時間上也具有更好的性能,在訓練和測試階段,算法需要的時間都比MIMLSVM算法稍微少些,而且遠遠要少于MIMLBOOST算法所需要的時間。從所有的實驗結(jié)果可以看出,PLSANNMIML方法在現(xiàn)實世界中的兩種多示例多標記學習任務(wù)中具有更優(yōu)越的性能。

4結(jié)語

現(xiàn)有的大部分多示例多標記學習算法都沒有考慮怎么樣更好地表示對象的特征這一因素,因此提出了一種結(jié)合概率潛在語義分析和神經(jīng)網(wǎng)絡(luò)的多示例多標記學習方法。概率潛在語義分析模型可以學習到樣本中的潛在語義這一高層特征,而神經(jīng)網(wǎng)絡(luò)在多標記問題中具有良好的分類性能。對現(xiàn)實世界中的兩種多示例多標記學習任務(wù)進行實驗表明,PLSANNMIML算法對其他的多示例多標記學習算法而言具有很強的競爭力,解決了在多示例多標記學習算法中怎么更好地表示對象的特征這一問題;同時也存在著不足之處,算法依然采用的是分解策略來處理多示例多標記學習問題,同時還忽略了標記之間的相關(guān)性。下一步將在融入特性學習模型的基礎(chǔ)上尋找其他策略來處理多示例多標記問題,同時也要考慮標記之間的相關(guān)性。

參考文獻:

[1]

BISHOP C M. Pattern recognition and machine learning: information science and statistics [M]. New York: Springer, 2006: 67-459.

[2]

ZHOU Z, ZHANG M,ZHANG S, et al. Multiinstance multilabel learning [J]. Artificial Intelligence, 2012, 176(1): 2291-2320.

[3]

ZHOU Z. Multiinstance learning: a survey [R/OL]. Nanjing: Nanjing University, National Laboratory for Novel Software Technology, 2004 [20150206]. http:///zhouzh/zhouzh.files/publication/techrep04.pdf.Nanjing, China, Mar. 2004.

[4]

ZHOU Z, ZHANG M, HUANG S, et al. Multiinstance multilabel learning [J]. Artificial Intelligence, 2012, 176(1): 2291-2320.

[5]

PRATT W K. Digital image processing [M]. DENG L, ZHANG Y, translated. Beijing: China Machine Press, 2005:345-398. (PRATT W K. 數(shù)字圖像處理[M].鄧魯華,張延恒,譯. 北京:機械工業(yè)出版社,2005:345-398.)

[6]

LI Z, ZHUO Y, ZHANG C, et al. Survey on multilabel learning [J]. Application Research of Computers, 2014, 31(6): 1601-1605. (李志欣,卓亞琦,張燦龍,等.多標記學習研究綜述[J].計算機應(yīng)用研究,2014,31(6):1601-1605.)

[7]

ZHA Z, HUA X, MEI T, et al. Joint multilabel multiinstance learning for image classification [C]// CVPR 2008: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2008: 1-8.

[8]

HUANG S, ZHOU Z. Fast multiinstance multilabel learning [C]// AAAI 2014: Proceedings of the 28th AAAI Conference on Artificial Intelligence. Menlo Park: AAAI Press, 2014: 1868-1874.

[9]

ZHANG M, ZHOU Z. Multilabel neural networks with applications to functional genomics and text categorization [J]. IEEE Transactions on Knowledge and Data Engineering, 2006, 18(10): 1338-1351.

[10]

XU X, FRANK E. Logistic regression and boosting for labeled bags of instances [C]// PAKDD 2004: Proceedings of the 8th PacificAsia Conference on Knowledge Discovery and Data Mining, LNCS 3056. Berlin: Springer, 2004: 272-281.

[11]

BOUTELL M R, LUO J, SHEN X, et al. Learning multilabel scene classification [J]. Pattern Recognition, 2004, 37(9): 1757-1771.

[12]

ZHANG M, WANG Z. MIMLRBF: RBF neural networks for multiinstance multilabel learning [J]. Neurocomputing, 2009, 72(16/17/18):3951-3956.

[13]

HOFMANN T. Unsupervised learning by probabilistic latent semanticanalysis [J]. Machine Learning, 2001, 42(1/2): 177-196.

[14]

SCHMIDHUBER J. Deep learning in neural networks: an overview [J]. Neural Networks, 2015, 61: 85-117.

[15]

HAYKIN S. Neural networks [M]. YE S, SHI Z, translated. 2nd ed. Beijing: China Machine Press, 2004: 109-176. (HAYKIN S. 神經(jīng)網(wǎng)絡(luò)原理[M].葉世偉,史忠植,譯.2版.北京:機械工業(yè)出版社,2004:109-176.)

[16]

SEBASTIANI F. Machine learning in automated text categorization [J]. ACM Computing Surveys, 2001, 34(1): 1-47.

第3篇:神經(jīng)網(wǎng)絡(luò)文本分類范文

整澆樓蓋主梁的不動鉸支分析

錨桿靜壓樁在地基加固中的應(yīng)用

多層砌體結(jié)構(gòu)內(nèi)廊圈梁設(shè)計

淺談地震區(qū)框架柱軸壓比限值

洛陽某主干道石灰土穩(wěn)定層裂縫分析與對策

淺談市政施工用電的保護系統(tǒng)

輥壓機粉磨技術(shù)在水泥廠的應(yīng)用

居住區(qū)水暖管網(wǎng)管理系統(tǒng)的一種實現(xiàn)方法

DSS的系統(tǒng)分析和設(shè)計方法初探

模糊控制分區(qū)方法研究

核子秤的一種特殊使用方法

HDL技術(shù)簡介與應(yīng)用

無窮小的階在計算中的應(yīng)用

傅立葉級數(shù)展開CAI課件的設(shè)計與實現(xiàn)

高校選修課成績管理系統(tǒng)的研制

海螺模式的啟示

談直觀教學在《機械設(shè)計基礎(chǔ)》課中的運用

城市特色文化研究

淺談多媒體CAI課件制作工具

自蔓延高溫合成機理研究方法的分析

商品混凝土澆筑杯口基礎(chǔ)方案的探討

粗糙集和神經(jīng)網(wǎng)絡(luò)在文本分類中的應(yīng)用研究

數(shù)據(jù)通信模擬實驗系統(tǒng)的設(shè)計與實現(xiàn)

逆向工程技術(shù)在模型制作中的應(yīng)用

雙轉(zhuǎn)子軸系五主軸軸承試驗機主體結(jié)構(gòu)設(shè)計與計算

關(guān)于水泥機立窯除塵技術(shù)的探討

基于P2P構(gòu)架的大型異構(gòu)網(wǎng)絡(luò)管理模型研究

沖擊電流計特性研究實驗中對偏轉(zhuǎn)線圈運動狀態(tài)的數(shù)學分析

一種新的拉曼散射——表面增強拉曼散射

基于WinCe的PLC通訊系統(tǒng)的設(shè)計

洛陽市技術(shù)創(chuàng)新能力問題分析及戰(zhàn)略研究

企業(yè)內(nèi)部審計的現(xiàn)狀和對策

高分子材料應(yīng)用技術(shù)專業(yè)教改的思路與實踐

我校電子商務(wù)專業(yè)教學研究初探

對“測試技術(shù)基礎(chǔ)”教學的探討

新建本科院校體育教學模式初探

淺析網(wǎng)絡(luò)會計軟件的隱患

元認知型學習策略在外語寫作教學中的應(yīng)用

論大學英語分級教學模式對學生自主學習習慣的影響

連續(xù)梁抗剪性能與裂縫分析

中天山特長隧道施工GPS控制網(wǎng)的建立及橫向貫通誤差預計分析

微分求積法求解功能梯度材料梁的彎曲問題

一種裝置點火單元可靠性評估方法研究

基于S7-200的AS-i網(wǎng)絡(luò)設(shè)計與數(shù)據(jù)傳輸

基于GA-BP算法的水電機組故障診斷模型

基于MSP430單片機的小功率鋰電池組保護器設(shè)計

GIS管理系統(tǒng)中圖形對象實體點選的處理方法

一種簡單有效的碰撞檢測算法的實現(xiàn)

基于CLucene的WORD文檔全文檢索系統(tǒng)研究與開發(fā)

第4篇:神經(jīng)網(wǎng)絡(luò)文本分類范文

關(guān)鍵詞: 云計算;數(shù)據(jù)挖掘;分布式

中圖分類號:TP393.08 文獻標識碼:A 文章編號:1671-7597(2012)0220104-01

0 引言

信息技術(shù)的出現(xiàn)導致各種格式(如記錄、文檔、圖像、聲音、航空數(shù)據(jù)等)的海量數(shù)據(jù)存儲在數(shù)據(jù)倉庫中,如何從海量的數(shù)據(jù)中找到有價值的信息是當前的一個熱點,對人類社會具有非常重要的社會價值和經(jīng)濟利益,數(shù)據(jù)挖掘就是實現(xiàn)這一功能的技術(shù)。數(shù)據(jù)挖掘從早期的單獨算法對單系統(tǒng)、單機器進行對向量數(shù)據(jù)的挖掘,到與數(shù)據(jù)庫相結(jié)合,支持多個算法的挖掘,以及和預測模型相集成,支持Web數(shù)據(jù)、半結(jié)構(gòu)化的數(shù)據(jù)的網(wǎng)絡(luò)化計算,發(fā)展到了分布式數(shù)據(jù)挖掘。分布式數(shù)據(jù)挖掘(Distributed Data Mining,DDM)作為一種成熟的挖掘技術(shù)已被廣泛應(yīng)用到各個領(lǐng)域,是數(shù)據(jù)挖掘領(lǐng)域的熱點之一?!胺植肌钡暮x包括數(shù)據(jù)的分布和計算的分布兩層含義。在分布式計算環(huán)境中,用戶、數(shù)據(jù)、計算硬件、數(shù)據(jù)挖掘軟件均可能在地域上分散。分布式數(shù)據(jù)挖掘旨在解決分散的同構(gòu)和異構(gòu)數(shù)據(jù)庫的挖掘問題;同時,數(shù)據(jù)的分布性帶來處理的并行性,則可能解決海量數(shù)據(jù)挖掘的可伸縮性(Scalability)瓶頸[1]。

隨著科學技術(shù)的飛速發(fā)展,人類社會信息正以每18個月產(chǎn)生的數(shù)量等于過去幾千年的總和的速度不斷增加[1]。尤其是隨著物聯(lián)網(wǎng)產(chǎn)業(yè)的迅猛發(fā)展,越來越多的應(yīng)用終端被接入網(wǎng)絡(luò),隨之帶來的龐大的數(shù)據(jù)量極大的增加了人們從海量數(shù)據(jù)中發(fā)現(xiàn)有用知識的難度。物聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)具有數(shù)量大,高度分散的特點,傳統(tǒng)的分布式數(shù)據(jù)挖掘已經(jīng)無法解決現(xiàn)有數(shù)據(jù)處理瓶頸問題[2]。作為新興商業(yè)計算模型的云計算,為分布式數(shù)據(jù)挖掘提供了許多新的解決思路和方案。云計算是數(shù)據(jù)管理技術(shù)發(fā)展的必然趨勢,能對分布在大量計算機上存儲的資源池上進行操作,使基于云計算平臺的應(yīng)用能根據(jù)需要獲取所需的存儲空間,軟件服務(wù)和計算能力。目前,IT巨頭正在相繼開發(fā)云計算平臺、云計算終端和服務(wù)器。

1 數(shù)據(jù)挖掘算法分類

數(shù)據(jù)挖掘算法有很多,從不同的視角,數(shù)據(jù)挖掘技算法可以有根據(jù)發(fā)現(xiàn)知識的種類分類、根據(jù)挖掘的數(shù)據(jù)庫的種類分類和根據(jù)采用的技術(shù)分類的幾種常見分類標準[3]。

1)根據(jù)發(fā)現(xiàn)的知識種類,數(shù)據(jù)挖掘算法有:關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、分類或預測模型知識發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、數(shù)據(jù)聚類、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等多種算法。

2)根據(jù)挖掘的數(shù)據(jù)庫的種類,數(shù)據(jù)挖掘有基于各種數(shù)據(jù)庫的挖掘算法:關(guān)系型、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、交易型、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、遺留數(shù)據(jù)庫等,已經(jīng)基于數(shù)據(jù)倉庫、基于Web的挖掘算法等。

3)根據(jù)挖掘方法采用的技術(shù),可分為:統(tǒng)計分析、機器學習方法、模式識別、面向數(shù)據(jù)庫或數(shù)據(jù)倉庫的技術(shù)、可視化技術(shù)和神經(jīng)網(wǎng)絡(luò)等挖掘算法。其中,常用的統(tǒng)計方法可細分為回歸分析、判別分析、聚類分析(系統(tǒng)聚類、動態(tài)聚類等)、探索性分析等。機器學習方法可細分為:歸納學習方法(決策樹、規(guī)則歸納等)、基于范例學習、遺傳算法等。數(shù)據(jù)庫方法主要是多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。

基于云計算分布式數(shù)據(jù)挖掘算法是在這些數(shù)據(jù)挖掘算法的基礎(chǔ)上,采用云計算平臺實現(xiàn)的數(shù)據(jù)挖掘算法,也可以采用這樣的分類標準進行分類。然而,由于有各式各樣的數(shù)據(jù)存在,每一種挖掘算法都應(yīng)用到具體的數(shù)據(jù)類型上,對數(shù)據(jù)類型的要求是有限制的,一種算法不可能會適應(yīng)所有數(shù)據(jù)類型的挖掘應(yīng)用。因此,在考慮不同數(shù)據(jù)類型的挖掘和具體的應(yīng)用時,如何選擇合適的挖掘算法是非常重要的。當然,在實際應(yīng)用中,往往結(jié)合多方面的因素,考慮算法的優(yōu)缺點,采用多種算法實現(xiàn)有效的挖掘。

2 不同數(shù)據(jù)類型對應(yīng)的挖掘算法

隨著信息量的劇增,數(shù)據(jù)的種類也不斷增多。從粗粒度來看,數(shù)據(jù)挖掘常應(yīng)用到如下幾種數(shù)據(jù)形式:文本型(Textual)、關(guān)系型(Relational)、

事務(wù)型(Transactional)、面向?qū)ο笮停∣bjected-Oriented)、主動型(Active)、空間型(Spatial)、時間型(Temporal)、多媒體(Multi-Media)、異質(zhì)(Heterogeneous)數(shù)據(jù)庫和遺留(Legacy)系統(tǒng)等。從挖掘的數(shù)據(jù)特性出發(fā),專家和相關(guān)研究人員將數(shù)據(jù)挖掘歸為如下幾種技術(shù):[4,5]

1)分類。分類算法適用于以元組構(gòu)成的關(guān)系型數(shù)據(jù)形式,關(guān)系型中的一個數(shù)據(jù)屬性可以看作分類輸出的目標屬性,其他屬性作為分類算法數(shù)據(jù)模式(輸入)。這類算法的主要目的是對訓練的數(shù)據(jù)集進行挖掘,以發(fā)現(xiàn)另外的數(shù)據(jù)為目標得出數(shù)據(jù)分類的原理,這個原理可以用于后加入數(shù)據(jù)的分類。如果預測的變量是離散的,這類問題成為分類;如果預測的變量是連續(xù)的,這類問題成為回歸?;谠朴嬎愠S玫姆植际酵诰蛩惴▽崿F(xiàn)關(guān)系型數(shù)據(jù)的挖掘主要有基于K-最鄰近方法的分類算法、云計算環(huán)境下樸素貝葉斯文本分類算法、基于神經(jīng)網(wǎng)絡(luò)、基于范例的推理、決策樹和徑向基函數(shù)等分類算法。

2)聚類分析。聚類分析和分類算法相似適用于關(guān)系型數(shù)據(jù)的挖掘。聚類是在事先不規(guī)定分組規(guī)則的情況下,將數(shù)據(jù)按照其自身特征劃分成不同的群組進行挖掘,以期從潛在的數(shù)據(jù)中發(fā)現(xiàn)新的、有意義的數(shù)據(jù)分布模式。聚類方法主要有劃分聚類、層次聚類、基于密度的聚類、基于網(wǎng)格的聚類和基于模型的聚類。云計算聚類算法常用的有基于云計算的并行k均值聚類算法等。

3)關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則適用于事務(wù)型、交易型和關(guān)系型數(shù)據(jù),但對關(guān)系型數(shù)據(jù)要求按事務(wù)分組。最適合處理的變量類型是布爾型和數(shù)值型。布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的、種類化的,而數(shù)值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來。關(guān)聯(lián)規(guī)則挖掘主要是發(fā)現(xiàn)大量數(shù)據(jù)中項集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系,關(guān)聯(lián)規(guī)則研究有助于發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品(項)之間的聯(lián)系以應(yīng)用于商品貨架布局、貨存安排以及根據(jù)購買模式對用戶進行分類。云計算環(huán)境下的常用關(guān)聯(lián)規(guī)則分布式挖掘算法有:Apriori算法,已經(jīng)出現(xiàn)了多種對Apriori算法改進的版本。

4)基于模式的相似性查找。該算法適用于于文本型和時間型數(shù)據(jù),進行文本相似性搜索和時間相似性。時間序列數(shù)據(jù)是一類重要的復雜數(shù)據(jù)對象,對時間序列數(shù)據(jù)庫進行挖掘能發(fā)現(xiàn)時間序列中所蘊涵的知識,數(shù)據(jù)挖掘技術(shù)在時間序列中的主要應(yīng)用有規(guī)則發(fā)現(xiàn)、周期模式挖掘、相似性搜索和序列模式發(fā)現(xiàn)等方面。文本數(shù)據(jù)是最常見的一種數(shù)據(jù),基于文本相似型的挖掘可以實現(xiàn)文本雷同度與相似性的研究。常用的算法有基于云模型的時間序列分段聚合近似方法、基于模糊聚類的文本挖掘算法、基于云計算的ARMA算法和基于離散傅立葉變換的時間序列相似性查找算法等。

5)時間序列或趨勢發(fā)現(xiàn)和分析。該技術(shù)主要用于時間型數(shù)據(jù),通過對不同時間點以前時間數(shù)據(jù)值的變化,發(fā)現(xiàn)或預測未來可能的變化和趨勢,如股票的預測就是這種一個好的時間序列趨勢析例子。常用的算法有神經(jīng)網(wǎng)絡(luò)算法、支持向量機算法等。

此外,除了上面提到的常用數(shù)據(jù)類型的挖掘,對空間數(shù)據(jù)的挖掘多采用空間聚類分析和空間OLAP等方法;對多媒體數(shù)據(jù)的挖掘多采用基于規(guī)則的決策樹分類算法;對于應(yīng)用在智能終端上的普適數(shù)據(jù)多采用機器學習和統(tǒng)計的挖掘算法。

3 結(jié)束語

本文首先介紹了云計算和分布式數(shù)據(jù)挖掘的相關(guān)知識,隨著Internet的普及和數(shù)據(jù)的海量增加,二者相結(jié)合能解決分布式數(shù)據(jù)挖掘的瓶頸問題,是今后的一個發(fā)展方向。本文重點針對不同的數(shù)據(jù)類型采用的基于云計算的分布式挖掘算法進行了對比,為基于云平臺的分布式數(shù)據(jù)挖掘系統(tǒng)的開發(fā)提供了支持。云計算為海量和復雜數(shù)據(jù)對象的數(shù)據(jù)挖掘提供了基礎(chǔ)設(shè)施,為網(wǎng)絡(luò)環(huán)境下面向大眾的數(shù)據(jù)挖掘服務(wù)帶來了機遇。

參考文獻:

[1]張誠、郭毅,專訪中國科學院計算技術(shù)研究所-何清博士,數(shù)字通信,2011,3:5-7.

[2]陳磊、王鵬、董靜宜、任超,基于云計算架構(gòu)的分布式數(shù)據(jù)挖掘研究,成都信息工程學院學報,2010,12:777-579.

[3]邵峰晶、于忠清著,數(shù)據(jù)挖掘原理與算法,北京:水利水電出版社,2003.08.

第5篇:神經(jīng)網(wǎng)絡(luò)文本分類范文

關(guān)鍵詞:文本自動分類技術(shù),分詞,特征提取,向量映射,機器學習

1. 引言

文本自動分類最初是應(yīng)信息檢索(Information Retrieval)系統(tǒng)的要求出現(xiàn)的。文本自動分類系統(tǒng)的目的就是對文本集進行有序組織,把相似的、相關(guān)的文本組織在一起。它作為知識的組織工具,為信息檢索提供了更高效的搜索策略和更準確的查詢結(jié)果?,F(xiàn)有文本自動分類技術(shù)主要有基于知識庫(專家系統(tǒng))方法和歸納學習方法(基于詞典的方法)。目前比較常用的是基于詞典的方法,即通過已知類別的訓練集構(gòu)造出一個分類函數(shù)或分類模型(分類器),并利用此分類模型將未知的文檔映射到給定的類別空間。本文根據(jù)中文文本分類所要用到的算法和技術(shù),給出了一個可行的中文文本分類系統(tǒng)的基本構(gòu)架,并給出了詳細的系統(tǒng)設(shè)計方案。其中文本分類的關(guān)鍵是如何構(gòu)造分類函數(shù)(也稱為分類器),將未知文本與給定的類別模板進行匹配。目前有許多種分類器的構(gòu)造方法,如統(tǒng)計方法、機器學習方法、神經(jīng)網(wǎng)絡(luò)方法等。其中基于關(guān)鍵詞匹配的機器學習算法是網(wǎng)頁文本自動分類的主流。機器學習算法主要有Naive Bayes算法、KNN(k-近鄰算法)、SVM(支持向量機)等。本系統(tǒng)在文本處理的過程中,將采用SVM分類算法,將文本映射到向量空間進行表示。

2. 系統(tǒng)設(shè)計目標

(1)本系統(tǒng)的主要目的是實現(xiàn)一個面向中文的文本分類系統(tǒng)。主要處理兩類事務(wù):

對樣本數(shù)據(jù)進行學習,生成分類器的內(nèi)部表示。在這個事務(wù)的處理過程中,系統(tǒng)要協(xié)調(diào)分詞模塊對訓練樣本進行預處理,生成規(guī)范的文本表示。接著要協(xié)調(diào)特征提取模塊提取適當數(shù)量的特征生成基礎(chǔ)詞典。然后調(diào)用向量映射模塊將文本表示為向量,最后提供給支持向量機進行學習。

    利用生成好的分類器對未知測試文本進行分類。在這個事務(wù)的處理過程中,系統(tǒng)要打開上一個事物生成的中間數(shù)據(jù)——基礎(chǔ)詞典,協(xié)調(diào)向量映射模塊利用詞典把文本表示成向量,然后用分類器對文本進行分類。

(2)對應(yīng)系統(tǒng)的兩類事物,系統(tǒng)的輸入也分為兩類:

訓練文本集:已經(jīng)由人工分好類的一系列中文文本的集合,每類文本賦予一個分類標簽。這些文本可以是原始文本數(shù)據(jù),也可以是經(jīng)過預處理后,只剩下詞干的預處理格式。

    測試文本集:待分類的一系列中文文本的集合,這類文本可以沒有分類標簽,也可以有分類標簽。如果沒有分類標簽則用系統(tǒng)進行分類。如果有分類標簽則可用來驗證系統(tǒng)分類的準確度。

(3)系統(tǒng)的中間數(shù)據(jù)。通過前面對系統(tǒng)兩類事務(wù)流程的描述,可以看到有如下數(shù)據(jù)輸出:

基礎(chǔ)詞典。這個數(shù)據(jù)集是向量空間模型中基礎(chǔ)維的表示。它包含了系統(tǒng)用來將文本表示為向量時選取的特征詞根。同時它也存儲了特征詞根在訓練文本中的基本統(tǒng)計數(shù)據(jù):詞根出現(xiàn)的文檔數(shù)目;詞根在每類中出現(xiàn)的文檔數(shù)目。

訓練文本的向量表示。這個數(shù)據(jù)集是訓練文本用基礎(chǔ)詞典在向量空間模型下映射的向量表示。它可以被支持向量機讀取并學習。

分類器模型。這個數(shù)據(jù)集是支持向量機學習后生成的分類器。它包含了能將文本進行分類的源數(shù)據(jù)。

       分類標簽。這個數(shù)據(jù)集是系統(tǒng)對測試文本集分類后的分類標簽。

3.系統(tǒng)設(shè)計思想

在一個中文文本分類系統(tǒng)的實現(xiàn)過程中,有分詞、特征提取、向量表示和機器學習四個主要步驟。在每個步驟中多存在著許多不同的策略和實現(xiàn)方案。在本系統(tǒng)的實現(xiàn)過程中,希望能夠兼容不同的策略,并提供一定的方案由用戶進行擴展。

出于對上面要求的考慮,主要采用Bridge(橋梁模式)和Listenner(監(jiān)聽器模式)。

在流程耦合度低處,使用Bridge模式(如圖1),為每個步驟提供一個抽象化(Abstraction)角色,同時提供不同實現(xiàn)和不同策略實現(xiàn)化(Implementor)角色。通過這個模式的應(yīng)用做到了對不同策略的兼容和提供可擴展性的接口。

                                                    圖1:Bridge模式

在流程耦合度較高處,使用監(jiān)聽器模式,將特定步驟抽象成監(jiān)聽器,進而將步驟獨立出來。再通過監(jiān)聽器的不同實現(xiàn)完成不同策略的異構(gòu)。

4.總體設(shè)計

本系統(tǒng)由分詞模塊、特征提取、向量映射模塊,SVM學習模塊和SVM分類模塊五部分組成??傮w框架設(shè)計如圖2:

                                                        圖2:系統(tǒng)總體設(shè)計圖

本系統(tǒng)主要流程就是對數(shù)據(jù)的加工處理,每個模塊都有自己的輸入和輸出,各模塊間相互獨立,以各自的輸入、輸出數(shù)據(jù)進行鏈接。流程1為分類系統(tǒng)的訓練過程,流程2為分類系統(tǒng)的分類過程。詞條字典、訓練文檔向量表示、測試向量文檔表示是流程中間數(shù)據(jù),SVM分類器和分類標簽是最終數(shù)據(jù)輸出結(jié)果。

5.各模塊功能描述

分詞模塊:對中文文本進行分詞

輸入輸出:模塊輸入為中文文本,輸出為文本分詞表。

特征提取模塊:對給出文本建立向量空間模型,并進行特征提取和維度壓縮,生成字典

輸入輸出:模塊輸入為分詞表,輸出為詞條字典。

向量映射模塊:按照詞條字典把中文文本映射為向量表示形式。

輸入輸出:模塊輸入為文本分詞列表和詞條字典,輸出為文檔向量表示。

SVM學習模塊:用SVM對向量和字典進行學習,生成學習模型。

輸入輸出:模塊輸入向量表示的文本訓練集,輸出為訓練SVM分類器。

SVM分類模塊:用SVM學習模塊的訓練得分類器對測試文本進行分類。

輸入輸出:模塊輸入為SVM分類器和測試文本的向量表示,輸出為分類標簽。

6.結(jié)束語

中文文本的自動分類是中文信息處理領(lǐng)域中的重要研究課題。本文對中文文本分類技術(shù)做了初步的探討,給出一個基于中文文本自動分類系統(tǒng)分析。首先,分析系統(tǒng)的輸入、輸出以及中間過程,從而明確系統(tǒng)的設(shè)計目標。接著進一步解析系統(tǒng)內(nèi)部的組織結(jié)構(gòu),形成統(tǒng)一的設(shè)計思想。最后,結(jié)合這些分析給出一個系統(tǒng)的框架的設(shè)計。按照該系統(tǒng)的設(shè)計思想和進一步的詳細設(shè)計可以搭建一個相對系統(tǒng)化、功能較為全面、具有較高效率的中文文本自動分類系統(tǒng)平臺。由于整個系統(tǒng)涵蓋的范圍較大,設(shè)計到的技術(shù)細節(jié)多,在很多實現(xiàn)細節(jié)上采用了比較簡單的方法,以便于整個系統(tǒng)的順利實現(xiàn)。今后在很多方面還需要繼續(xù)進行深入的研究,以提高整個文本自動分類過程的識別準確率。

   本文作者創(chuàng)新點:對中文文本自動分類系統(tǒng)進行分析給出一個系統(tǒng)框架設(shè)計,按系統(tǒng)設(shè)計思想和進一步的詳細設(shè)計可搭建相對較高效率的中文文本自動分類系統(tǒng)平臺。

作者對本文版權(quán)全權(quán)負責,無抄襲

第6篇:神經(jīng)網(wǎng)絡(luò)文本分類范文

關(guān)鍵詞:圖書館;亂架檢測;圖像分割;字符識別;深度學習

中圖分類號:TB

文獻標識碼:A

doi:10.19311/ki.16723198.2016.25.087

1概述

利用現(xiàn)代智能處理技術(shù)特別是用計算機代替人們自動的去處理大量的圖像信息,能夠解決人類器官的分辨能力容易受到環(huán)境、情緒、疲勞等因素的影響,從而部分代替人工勞動,大大提高生產(chǎn)效率。近年來,將傳統(tǒng)的工作進行數(shù)字化和自動化加工逐漸成為圖書館行業(yè)越來越重視的工作內(nèi)容之一。但是目前的圖書館數(shù)字化工作仍存在眾多沒有解決的問題。

圖書亂架的整理工作是圖書館日常維護工作的一個重要組成部分。由于書籍眾多,當出現(xiàn)不同種類的圖書放置在一起時,工作人員很難人工將錯誤放置的圖書進行正確地歸類,即使能夠做到,也會花費很長的時間和大量的精力,導致人力資源的浪費。

2006年,深度學習(Deep Learning)開始在學術(shù)界和工業(yè)界引領(lǐng)發(fā)展前沿,其中深度學習認為:1)多隱層的人工神經(jīng)網(wǎng)絡(luò)學習得到的特征對數(shù)據(jù)有更本質(zhì)的刻畫,有利于分類和檢測;2)深度神經(jīng)網(wǎng)絡(luò)在訓練上的難度,可以通過“逐層預訓練”來有效克服?;谏疃葘W習的圖像視覺識別技術(shù)已經(jīng)在許多行業(yè)中得到了應(yīng)用,如檢驗零件的質(zhì)量;識別工件及物體的形狀和排列形態(tài)等。

本文結(jié)合圖書館日常管理中遇到的圖書亂架這一實際問題,以書脊視覺圖像為切入點,引入深度學習中的SoftMax回歸,設(shè)計出一種包括單冊圖像分割、字符識別、語義特征提取以及歸類判別等環(huán)節(jié)的圖書亂架檢測算法,其有效性已在實驗中得到較好的驗證。

2書脊圖像的定位分割

由于獲取的圖像有可能會出現(xiàn)模糊,因此需要對圖像進行預處理。將拍攝的書脊圖像近似看成平穩(wěn)過程,使用Wiener濾波器進行幅度相位去模糊。Wiener濾波器的基本原理是將原始圖像f和對原始圖像的估計f^看作隨機變量,按照使f和對估計值f^之間的均方誤差達到最小的準則進行圖像復原。

然后使用Canny算子進行邊緣檢測,并進行縱向和橫向的直線跟蹤,對兩條直線之間的區(qū)域進行判斷,如果是書脊區(qū)域,就進行分割,然后定位第二本書,直到處理完整幅圖像。

圖1(a)為利用Canny算子進行邊緣檢測出來的結(jié)果,得到了所有書籍的邊緣;圖1(b)是對書籍進行分割定位的結(jié)果,把定位到的目標用直線標出,以供后續(xù)處理。

3書脊圖像的字符識別

由于漢字的類別較大、結(jié)構(gòu)復雜和類似字多,造成漢字的識別難度比較大。傳統(tǒng)的僅用一種特征來識別漢字的方法已不能滿足漢字識別的要求。因此,本文采用了二次識別的方法對漢字字符進行識別,第一次分類利用漢字的筆畫穿過數(shù)目特征,第二次是對那些首次仍不能區(qū)別開的漢字利用漢字四角的能量值密度特征進行區(qū)分。

本文的漢字特征選擇了筆畫穿過數(shù)目和能量值密度這兩個特征。筆畫穿過數(shù)目是指對漢字圖像的水平、垂直兩個方向進行掃描,然后統(tǒng)計這兩個方向上掃描線出國漢字筆畫的次數(shù)即得到漢字的筆畫直方圖,得到筆畫穿過次數(shù)的特征向量。

在進行漢字特征匹配時,首先對待識別的漢字筆畫穿過數(shù)目特征進行提取,記該特征為C。識別時,首先計算待識別漢字與標準庫中漢字的距離d,d定義為待識別漢字的筆畫穿過數(shù)目矩陣C與標準庫中漢字的筆畫穿過數(shù)目矩陣B的對應(yīng)值差值的絕對值之和,其表達式為

d=∑ni=1∑mj=1cij-bij

式中cij為矩陣C中的元素,bij表示矩陣B中的元素。

給定一個閾值σ,若距離dσ,則該字不能被識別,否則把該字放入二級識別隊列中,如果二級隊列中只有一個字,就判別這個字為要識別的字,若二級隊列中不只一個漢字,則要對二級識別隊列中的漢字進行二級識別。

在二級識別里用能量值密度作為特征,提取這些漢字的能量值密度。設(shè)一閾值為ε,計算待識別漢字的能量值密度矩陣和標準庫漢字的能量值密度矩陣中對應(yīng)值的絕對值之和,差值最小的漢字判別為要識別的漢字。

4語義特征提取

利用識別出來的字符,對其進行語義特征的提取,以判斷書籍屬于哪一類。首先通過在原始文本語義空間提取文本的局部分布信息,構(gòu)造拉普拉斯矩陣和局部密度矩陣,然后通過奇異值分解SVD和廣義特征值分解GEVD求解特征變換矩陣,最后實現(xiàn)文本數(shù)據(jù)的降維空間聚類。

給定m個文本數(shù)據(jù)的原始特征語義空間描述X=(x1,x2,…,xm)T,這里xi為文本i的特征向量描述,包含文本類別信息相關(guān)的關(guān)鍵詞、主題詞以及文本中出現(xiàn)的高頻詞等描述信息,并且xi中的每一個特征元素記錄了這些詞條的重要程度和出現(xiàn)的頻度。

對X按列進行基于歐幾里得距離的kNN近鄰算法獲取點向量xi的k個鄰近點N(xi),并采用高斯核將鄰接點向量的歐幾里得距離轉(zhuǎn)化為相似度:

sij=exp(-xi-xj2),xj∈N(xi)

得到文本集X的相似矩陣S,該矩陣為對稱矩陣。通過矩陣S構(gòu)造對角矩陣D,其中dii=∑jsij,令L=D-S,為譜圖數(shù)據(jù)的拉普拉斯矩陣,為對稱矩陣。利用局部密度矩陣D求取文本向量均值=∑ixidii∑idii,并將文本歸一化i=xi-,對歸一化的進行奇異值分解,降低文本的語義維度,簡化數(shù)據(jù)描述。并通過非監(jiān)督判別分析得到降維文本語義空間,即判別語義特征提取,獲取分類判別能力最強的前l(fā)個語義特征。

在特征提取后的降維空間采用k-means聚類,進行文本分類,即語義特征的提取。

5書籍亂架放置的判別

進行了語義特征提取之后,為了檢測書籍的亂架放置。因此,需要將提取到的語義特征進行分類。為了盡可能準確地進行分類,采用深度學習的方法進行模型的訓練。其中訓練過程分為兩個階段:貪心的逐層預訓練和整個模型的全局微調(diào)。

在逐層訓練預階段,每次只訓練模型的一層,然后將當前層的輸出作為下一層的輸入,進行下一層的訓練,直到預訓練完所有的層。

在模型的全局微調(diào)階段,由于亂架放置的書籍的種類可能是多個,所以采用softmax回歸多類分類器。Softmax回歸多分類器是logistic回歸模型在多分類問題上的推廣,在多分類問題中,類標簽y可以取兩個以上的值。假設(shè)共有k個類別,則softmax regression的系統(tǒng)方程為

hθ(x(i))=p(y(i)=1|x(i);θ)p(y(i)=2|x(i);θ)p(y(i)=k|x(i);θ)=1∑kj=1eθTjx(i)eθT1x(i)eθT2x(i)eθTkx(i)

其中,x(i)為第i個輸入樣本,θ為系統(tǒng)參數(shù),p為樣本取特定類別時的概率。

此時,系統(tǒng)的損失函數(shù)方程為:

J(θ)=-1m∑mi=1∑kj=11y(i)=jlogeθTjx(i)∑kl=1eθTlx(i)

其中,1?是一個指示性函數(shù),即當大括號中的值為真時,該函數(shù)的結(jié)果就為1,否則其結(jié)果為0。θ為代價最小化時所需要滿足的系統(tǒng)參數(shù)。實際實現(xiàn)時,首先使用具有先驗歸屬標記的書籍信息樣本按照以上方式對書籍歸屬學習器進行訓練,得到訓練好的歸屬規(guī)則學習器。將提取的書籍信息輸入到歸屬規(guī)則學習器,學習器輸出到歸屬規(guī)則庫進行書籍類別的判別,將判別出來的結(jié)果輸入到亂架判決器,進行亂架檢測,如果檢測出來有書籍分錯類,則會輸出亂架警報。

6實驗結(jié)果與分析

利用書脊檢測出來的結(jié)果,進行字符檢測并對檢測出來的字符進行語義識別,判斷某一本書是不是放錯了類別,如果放錯,則框出放錯的書籍并發(fā)出警報。

圖2(a)中都是科技類的書籍,并沒有其他類的書籍,所以輸入的這張圖片并不會輸出亂架報警;圖2(b)中除了科技類的書籍之外,還有一本建筑類的書籍混雜其中,所以系統(tǒng)會把這本書檢測出來并用交叉直線醒目地標示出來。

中除了科技類的書籍之外,還有一本美術(shù)類的書籍混雜其中,所以系統(tǒng)會把這本書檢測出來并用直線標示出來。

圖2和圖3只是筆者為了演示系統(tǒng)的運行效果而給出的個例圖示,限于篇幅所限不能窮盡所有曾經(jīng)檢測處理過的案例。筆者曾經(jīng)對科技類、哲學類和藝術(shù)類為主體的大容量樣本集的亂架圖像進行了分析,每個樣本集的分析耗約為300~320秒,大大高于人工檢測的速度。亂架檢測實驗的樣本集實驗結(jié)果列于表1之中。

7結(jié)論

在圖書館系統(tǒng)中利用機器視覺的方法進行書籍定位和檢測是視覺研究的一個重要方向。本文給出了一種綜合運用相關(guān)視覺圖像技術(shù)對亂架圖書進行自動檢測的系統(tǒng)設(shè)計。實驗表明,該方法可通過程序設(shè)計完全有計算機自動實現(xiàn),平均檢出率超過90%,速度快穩(wěn)定性好,處理時間大大小于人工檢測時間,并且能夠在很大程度上降低圖書管理員的勞動強度,有助于提高大型圖書館的架上書籍整理效率。

參考文獻

[1]李因易.圖像處理技術(shù)在圖書館藏書清點中的應(yīng)用研究[D].貴陽:貴州大學,2006.

[2]方建軍,杜明芳,龐睿.基于小波分析和概率Hough變換的書脊視覺識別[J].計算機工程與科學,2014,(36):126131.

[3]何耘嫻.印刷體文檔圖像的中文字符識別[D].秦皇島:燕山大學,2011.

[4]D.-J. Lee,Y.Chang,J. K.Archibald,C.Pitzak.Matching book-spine images for library shelf-reading process automation[C].in Automation Science and Engineering,2008.CASE 2008. IEEE International Conference on, 2008:738743.

[5]戴臻.內(nèi)容文本分類中的語義特征提取算法研究[D].長沙:中南大學,2010.

[6]Y.Bengio, Learning deep architectures for AI[J].Foundations and trends in Machine Learning, 2009,(9):1127.

[7]Y. Bengio.Deep Learning of Representations for Unsupervised and Transfer Learning[J].in ICML Unsupervised and Transfer Learning,2012:1736.

[8]P.Baldi. Autoencoders, Unsupervised Learning,and Deep Architectures[J].in ICML Unsupervised and Transfer Learning,2012:3750.

第7篇:神經(jīng)網(wǎng)絡(luò)文本分類范文

關(guān)鍵詞:短文本挖掘;新聞事件挖掘

中圖分類號:TP274+.2文獻標識碼:A文章編號:1007-9599 (2010) 06-0000-01

Text Mining of News

Zhang Jing

(Tangshan Normal University,Studies Affairs Office,Tangshan063000,China)

Abstract: With the massive popularity of the Internet,causing a large amount of text data accumulated,much of it is a short text data.How to find information from the mass of information flow theme of unexpected events,and track information about emergencies,text mining technology is especially important.This article describes the text mining text mining in the application of information,analysis the research of mining news events.

Keywords:Short text mining;News mining

一、引言

近年來,隨著互連網(wǎng)的飛速發(fā)展和信息傳播手段的不斷進步,造成了大量的文本數(shù)據(jù)累積,其中很大一部分是短文本數(shù)據(jù)。這些數(shù)據(jù)中有很大一部分是只包含50―100個詞的短文本數(shù)據(jù),如文章摘要、電子郵件、圖片標題、產(chǎn)品描述等。網(wǎng)頁上的大部分信息都是短文本信息。文本挖掘技術(shù)對于從這些海量短文中自動獲取知識具有重要意義。本文介紹了文本挖掘在新聞文本挖掘中的應(yīng)用,分析了新聞事件挖掘的研究現(xiàn)狀。

二、文本挖掘概念

文本挖掘是采用計算語言學的原理對文本信息進行抽取的研究和實踐文本挖掘可以對文檔集合的內(nèi)容進行總結(jié)、分類、聚類、關(guān)聯(lián)分析以及趨勢預測等。Web文本挖掘和通常的平面文本挖掘有類似之處,但是文檔中的標記給文檔提供了額外的信息,可以借此提高文本挖掘的性能。

三、文本挖掘在新聞文本挖掘中的應(yīng)用

“新聞的處理,是一種對事實的選擇、安排、解釋等意義化過程”,作為文字傳播的一種特殊形態(tài),新聞在語言表達上有著較為明顯的個性特征,如篇章短小精干、表達客觀公正、語言準確簡潔等。新聞專題是指圍繞某一個突發(fā)的新聞事件或某一個廣泛受關(guān)注的問題提供詳細、深入的資料。這樣的專題信息目的明確、信息豐富,讓人一目了然地清楚整個新聞事件的前因后果和來龍去脈,能夠較好地滿足讀者的需要。但通常情況下,這些新聞專題都是經(jīng)過專業(yè)人員加工處理的,即人工歸納到一起。新聞事件挖掘的目的是,是借鑒文本挖掘技術(shù)、文本分類和聚類技術(shù),實現(xiàn)對新聞資料的自動組織、生成專題,以滿足網(wǎng)絡(luò)用戶檢索新聞信息的需要。專題的生成涉及到新聞事件的探測以及對新聞事件的跟蹤。

四、新聞事件挖掘的研究現(xiàn)狀

目前對于新聞事件的挖掘主要包括以下幾類問題:

(一)主題發(fā)現(xiàn)與跟蹤(Topic Detection and Tracking,TDT)

主題發(fā)現(xiàn)與跟蹤旨在開發(fā)一系列基于事件的信息組織技術(shù),以實現(xiàn)對新聞媒體信息流中新話題的自動識別以及對已知話題的動態(tài)跟蹤。該研究作為一項1997年開始的公開測評而成為自然語言處理的一項研究熱點。TDT包括五項子任務(wù),即:主題分割、話題跟蹤、新事件發(fā)現(xiàn)和報道關(guān)聯(lián)發(fā)現(xiàn)。

主題分割主要采用相同詞語數(shù)目和詞語密度的方法,其優(yōu)點在于簡潔性和高效性,不受領(lǐng)域的限制。目前已有TextTiling算法等方法用于主題的分割。采用遺傳算法對TextTiling算法中的參數(shù)進行優(yōu)化,使得同一主題內(nèi)的段落之間的總差異應(yīng)盡可能地小,而不同主題間的總差異應(yīng)盡可能地大。也有研究采用遺傳算法來直接尋找主題的最優(yōu)劃分。駱衛(wèi)華提出了基于分治多層聚類的話題發(fā)現(xiàn)算法,其核心思想是把全部數(shù)據(jù)分割成具有一定相關(guān)性的分組,對各個分組分別進行聚類,得到各個分組內(nèi)部的話題(微類),然后對所有的微類在進行聚類,得到最終的話題。

(二)熱點趨勢檢測(Emerging Trend Detection,ETD)

熱點趨勢檢測用來自動識別熱點主題,從而識別主題趨勢的變化。熱點趨勢檢測主要包括三個部分:主題結(jié)構(gòu)的識別,主題出現(xiàn)的檢測和主題特征分析。總結(jié)了目前研究的ETD系統(tǒng)和商業(yè)的ETD系統(tǒng),其使用方法大多數(shù)以關(guān)鍵詞的詞頻分析為基礎(chǔ),形成相關(guān)主題的發(fā)展趨勢。例如,采用關(guān)鍵詞項詞頻分析的方法,尋找芯片封裝領(lǐng)域內(nèi)的技術(shù)發(fā)展規(guī)律。對于這類問題需要優(yōu)化關(guān)鍵詞的選擇,看哪一個或者哪一些關(guān)鍵詞與該主題上的關(guān)系最為密切。也有的研究使用序列模式挖掘來識別短語,生成短語的歷史圖,使用形狀查詢來識別指定趨勢的短語。

(三)事件預測規(guī)則的發(fā)現(xiàn)

該問題主要采用文本挖掘技術(shù),同傳統(tǒng)的人工智能方法相結(jié)合,對于時序文檔集的關(guān)聯(lián)規(guī)則的進行挖掘,提供相應(yīng)事件發(fā)生的預測規(guī)則。

很多研究根據(jù)互聯(lián)網(wǎng)上的新聞稿來生成股票價格指數(shù)的規(guī)則。Wuthrich使用專家的先驗知識,通過對過去的新聞中出現(xiàn)的關(guān)鍵詞組的權(quán)重和對應(yīng)的值產(chǎn)生可能性的規(guī)則,再利用這些規(guī)則對當天的新聞進行股票指數(shù)的預測。將關(guān)鍵詞組轉(zhuǎn)換成權(quán)重,采用基于規(guī)則、最近鄰和神經(jīng)網(wǎng)絡(luò)的方法。Feldman等人使用多種分布模型對路透社的2萬多篇新聞進行了挖掘,得到主題、國家、組織、人、股票交易之間的相對分布,揭示了一些有趣的趨勢。而Mittermayer則自動對新聞稿進行預處理,將它們分成不同的新聞類型,其每一類都對股票價格升降有特定的影響,從而得到對應(yīng)的交易指導規(guī)則。

五、結(jié)論

文本挖掘是挖掘的核心技術(shù),將其文本聚類與分類等技術(shù)應(yīng)用到新聞主題的檢測與跟蹤中,能自動在線檢測內(nèi)容不斷更新的網(wǎng)絡(luò)新聞主題,提高了處理的速度,能及時提取更多有價值的信息給用戶,這是一個具有十分重要意義的課題,這項研究還需要進一步的深入。短文本挖掘技術(shù)是文本挖掘中的一個新興的方向,針對于短文本特點的方法有待于人們的進一步研究。

參考文獻:

[1]鐘彬彬,劉遠超,徐志明.基于GA的文本子主題切分中的參數(shù)優(yōu)化研究[J].計算機工程與應(yīng)用,2005,21:97-99

第8篇:神經(jīng)網(wǎng)絡(luò)文本分類范文

關(guān)鍵詞:數(shù)據(jù)挖掘原理與算法;實例;教學探索

0.引言

隨著經(jīng)濟、科技和信息技術(shù)的飛速發(fā)展,特別是網(wǎng)絡(luò)技術(shù)的發(fā)展,數(shù)據(jù)的產(chǎn)生和存儲能力有了很大程度的提高。數(shù)據(jù)挖掘的出現(xiàn),為人們提供了一條解決“數(shù)據(jù)豐富而知識貧乏”困境的有效途徑Ⅲ。所以很多高校,包括世界上一些著名高校都開設(shè)了數(shù)據(jù)挖掘課程。課程的基礎(chǔ)理論部分一般包括數(shù)據(jù)預處理、關(guān)聯(lián)規(guī)則、分類、聚類、時間序列挖掘、Web挖掘等內(nèi)容。該課程使學生學會分析研究數(shù)據(jù)挖掘中數(shù)據(jù)預處理、常用算法、結(jié)果的可視化等技術(shù),并培養(yǎng)學生的數(shù)據(jù)抽象能力,幫助學生形成科學思維和專業(yè)素養(yǎng),使他們畢業(yè)后在就業(yè)上有更多的選擇。

筆者將探討基于實例教學的數(shù)據(jù)挖掘課程的教學內(nèi)容安排,強調(diào)淡化學科背景,加強算法的應(yīng)用性訓練,將實際的例子貫穿于教學中,并重新組織授課內(nèi)容、安排實踐環(huán)節(jié),教會學生學以致用。

1.教學現(xiàn)狀分析

1.1課程本質(zhì)

數(shù)據(jù)挖掘原理與算法涉及的學科領(lǐng)域很寬泛。其最終目的是在數(shù)據(jù)中挖掘出可供人們利用的知識和信息,因此數(shù)據(jù)挖掘技術(shù)要從數(shù)據(jù)庫技術(shù)、統(tǒng)計學、機器學習、神經(jīng)網(wǎng)絡(luò)、知識系統(tǒng)、信息檢索、高性能計算和可視化等領(lǐng)域汲取營養(yǎng)。另外,每個學科都在進行著日新月異的發(fā)展變化,數(shù)據(jù)挖掘技術(shù)遇到的挑戰(zhàn)也為相關(guān)學科領(lǐng)域的深入研究提供了新的契機。由于課程難度較大,很多高校把這門課程作為研究生的專業(yè)課程,也有院校將此課作為本科生高年級選修課開設(shè)腳。但是本科生開設(shè)這門課程的普通院校較少,我們能借鑒的教學經(jīng)驗有限。

1.2數(shù)據(jù)挖掘課程教學環(huán)節(jié)的弊端

①某些學校對本科生開設(shè)的數(shù)據(jù)挖掘課程,其教學過程對理論的探討過多,與應(yīng)用存在距離,沒有體現(xiàn)出這門課程面向應(yīng)用的特質(zhì),缺少對學生工程能力的訓練,存在學生在學了這門課程后不知道能干什么的現(xiàn)象。

②教學形式呆板單一。傳統(tǒng)的教師講、學生聽的教學模式,很難引起學生的探究興趣,不利于發(fā)揮他們自身的能動性和創(chuàng)新動機。

2.選擇恰當實例貫穿數(shù)據(jù)挖掘課程的教學過程

煙臺大學計算機學院所開設(shè)的數(shù)據(jù)挖掘課程在教學上安排了6章內(nèi)容,涉及3個實例(其中兩個是實際生活中的項目課題):第1個是用于房產(chǎn)信息調(diào)查的房產(chǎn)客戶關(guān)系管理系統(tǒng);第2個是用于煙臺大學督評中心評教文本分類的中文文本數(shù)據(jù)挖掘系統(tǒng);第3個是用于國家葡萄酒檢測中心的數(shù)據(jù)分析的葡萄酒成分數(shù)據(jù)挖掘系統(tǒng)。

2.1房產(chǎn)客戶關(guān)系管理系統(tǒng)

在講述房產(chǎn)客戶關(guān)系管理系統(tǒng)時內(nèi)容涵蓋緒論、知識發(fā)現(xiàn)過程和關(guān)聯(lián)規(guī)則3章,重點講授內(nèi)容包括:

(1)數(shù)據(jù)倉庫。住房管理數(shù)據(jù)倉庫中的數(shù)據(jù)是按主題組織的,可從歷史觀點提供信息。數(shù)據(jù)挖掘技術(shù)能按知識工程的方法完成高層次需求,可以發(fā)現(xiàn)蘊藏在數(shù)據(jù)內(nèi)部的知識模式。挖掘后形成的知識表示模式可為企業(yè)決策提供支持。

(2)通過對客戶信息進行分析,闡述關(guān)聯(lián)規(guī)則的參數(shù):support、confidence、expected confidence,并簡單介紹關(guān)聯(lián)規(guī)則中的多維、多層次等拓展知識。

(3)關(guān)聯(lián)規(guī)則挖掘。①講授關(guān)聯(lián)規(guī)則挖掘的Apriori算法;②講述布爾關(guān)聯(lián)規(guī)則的概念,對處理后形成的交易數(shù)據(jù)庫進行布爾關(guān)聯(lián)規(guī)則挖掘,將問題轉(zhuǎn)化為尋找以決策屬性為結(jié)果的規(guī)則;③將關(guān)聯(lián)規(guī)則挖掘應(yīng)用于客戶關(guān)系管理的最終目的是努力將潛在客戶轉(zhuǎn)變?yōu)楝F(xiàn)實客戶,將滿意客戶轉(zhuǎn)變?yōu)橹艺\的終生客戶,提高客戶滿意程度,降低市場銷售及宣傳成本,增加利潤率。

(4)設(shè)minsup=10%,minconf=70%。在統(tǒng)計的各類人群中獵取咨詢的渠道主要是雜志、報紙、互聯(lián)網(wǎng)和電視。經(jīng)試驗統(tǒng)計后得到以下有關(guān)知識:①滿足age>50 AND職業(yè)=“工人”的客戶占所統(tǒng)計總?cè)藬?shù)的9.7%;其中滿足age>50 AND職業(yè)=“工人”AND渠道=“TV”的客戶占92%。②符合學歷=“大?!盇ND職業(yè)=“工人”的客戶占所統(tǒng)計總?cè)藬?shù)的24.8%,其中滿足學歷=“大?!盇ND職業(yè)=“工人”AND渠道=“newspaper”的客戶占82%。③被統(tǒng)計人群中滿足income=“5000-9000”AND職業(yè)=“教師、醫(yī)生、公務(wù)員”的客戶占所統(tǒng)計總?cè)藬?shù)的32.7%;其中滿足income=“4000-6000”AND職業(yè)=“教師、醫(yī)生、公務(wù)員”AND渠道=“雜志”的客戶占83%。④被統(tǒng)計人群中滿足學歷=“本科”AND income≥“10000”的客戶占所統(tǒng)計總?cè)藬?shù)的占11.6%;其中符合學歷=“本科”ANDincome≥“8000”AND職業(yè)=“公司經(jīng)理”AND渠道=“雜志”的客戶占86.5%。

(5)教師要分析Apriori算法的瓶頸和改進,介紹Close算法和FP-樹算法,并且要求學生們掌握這3種經(jīng)典算法。

2.2中文文本數(shù)據(jù)挖掘系統(tǒng)

中文文本數(shù)據(jù)挖掘系統(tǒng)圍繞評教分類模型的建立講述特征選擇和主要分類算法。根據(jù)煙臺大學教學督評中心提供的學生對教師的中文評教文本,利用分類的方法找出其評價的傾向性,結(jié)合教材,重點講授了以下內(nèi)容:

1)特征選擇。

①介紹有監(jiān)督、無監(jiān)督和半監(jiān)督的特征選擇方法。②介紹使用分詞軟件后,統(tǒng)計詞頻,去掉小于閾值的低頻詞。③對比詞頻率、IG值(信息增益)、期望值差異對分類結(jié)果的影響留取特征詞。

部分數(shù)據(jù)示例如下:用特征選擇的方法對重要的屬性進行抽取,略去對分類影響不大的屬性,達到降維的目的,把特征選擇作為預處理。我們選用517條主觀評價作為訓練樣本,其中233條留言是一般評價,采用以下3種方式進行特征選擇:詞頻率、IG值(信息增益)、期望值差異。不同方式特征選擇對分類準確性的影響如表1所示。

2)分類。

在介紹常用的分類基礎(chǔ)知識和決策樹、ID3、樸素貝葉斯分類、最近鄰分類算法之后,又介紹了基于潛在語義分析的降維技術(shù),講授了支持向量機(SVM)適用于文本分類的原因。布置給學生的任務(wù)是用爬蟲獲取網(wǎng)評,作傾向性分析。

評教文本分類統(tǒng)計后的結(jié)論是:將降維技術(shù)和支持向量機算法結(jié)合在評教模型的建立過程中,研究討論的主要內(nèi)容有:①各個指標取不同值對分類的影響,這些指標主要集中在特征抽取和選擇、保留詞性和降維維數(shù)等幾方面;②對分詞后的文本進行特征選擇,篩去了詞頻數(shù)小于4的文本;③降維至30維,并適當設(shè)置SVM中的可變參數(shù),找到合適的訓練一測試樣本的比例,最后綜合出一個現(xiàn)有條件下的最佳分類模型。

2.3葡萄酒成份數(shù)據(jù)挖掘系統(tǒng)

葡萄酒成份數(shù)據(jù)挖掘系統(tǒng)介紹數(shù)值數(shù)據(jù)的預處理和聚類2章內(nèi)容。對葡萄酒成份的分析是根據(jù)所提供的酒中各成份的含量數(shù)據(jù),采用聚類或分類的方法確定某種葡萄酒的種類,比如是紅葡萄酒、白葡萄酒還是甜葡萄酒。圍繞這個問題我們介紹了如下內(nèi)容:

1)數(shù)值數(shù)據(jù)的預處理。

①介紹葡萄酒中各個屬性的含義和取值范圍;②講授數(shù)據(jù)的離散化技術(shù),如等深、等寬、聚類技術(shù);③講授本例中使用的m一估值計算對數(shù)值屬,1生的離散化技術(shù);④講述本例中如何避免0值出現(xiàn)及去噪聲技術(shù)。

葡萄酒中各成份的含量數(shù)據(jù)如表2所示。

2)聚類。

在介紹聚類的基本知識和常用算法(如k均值、k中心點、DBSCAN技術(shù))之后,講解了:①本課題使用的層次聚類算法。在測試結(jié)果時通過測試樣本和分類樣本的不同比例,對結(jié)果進行了對比。②講述了用樸素貝葉斯分類計數(shù)對這一問題的分類處理,同時對比了聚類和分類算法在同一問題上的結(jié)論差異。利用樸素的貝葉斯分類器可以完成預測目標,根據(jù)訓練樣本建立分類器,對待測樣本進行預測,準確率可達到90%以上。③引導學生思考對問題的處理可以聯(lián)合使用各種算法,并分析各種算法對結(jié)果的影響,從而找出解決問題的最佳方案。

2.4利用已知算法和實例講授Web挖掘技術(shù)

因特網(wǎng)規(guī)模龐大、結(jié)構(gòu)復雜、動態(tài)變化性大,蘊含大量的信息。將Web上豐富的信息轉(zhuǎn)變成有用的知識正是Web挖掘的意義所在。用之前中文文本分類的方法引導學生在一些購物網(wǎng)站中下載對商品評論的中文文本,抽取特征詞,進行傾向性分析,使學生熟悉支持向量機的分類方法,分詞軟件的使用及文本挖掘的整個過程。

3.結(jié)語

文章在前期制定應(yīng)用型本科生數(shù)據(jù)挖掘課程教學大綱的基礎(chǔ)上,針對數(shù)據(jù)挖掘課程內(nèi)容多學科交叉的特點,在教學中提出淡化學科背景,注重算法應(yīng)用與實踐,以客戶關(guān)系管理、葡萄酒數(shù)據(jù)分析、中文評教文本分類等實例作為授課內(nèi)容主線,讓實例教學始終圍繞著典型的算法和前沿知識展開的教學方式。在今后的教學工作中,我們還應(yīng)該不斷站在學科發(fā)展的前列,經(jīng)常更新實例,使其更好地融入教學,將教與學有機統(tǒng)一,取得更好的教學效果。因此我們還有大量的工作需要探索研究。

參考文獻:

[1]宋成,李晉宏,項目驅(qū)動的數(shù)據(jù)挖掘教學模式探討[J],中國電力教育,2011(27):116-177.

[2]劉云霞,統(tǒng)計學專業(yè)本科生開設(shè)“數(shù)據(jù)挖掘”課程的探討[J],吉林工程技術(shù)師范學院學報,2010(6),20-22.

[3]徐金寶,對應(yīng)用型本科生開設(shè)數(shù)據(jù)挖掘課程的嘗試[J],計算機教育,2007(7):27-29.

[4]高園園,呂慶文,數(shù)據(jù)挖掘課程的教學思考[J],醫(yī)學信息,2009,22(11):23-24.

第9篇:神經(jīng)網(wǎng)絡(luò)文本分類范文

關(guān)鍵詞:數(shù)據(jù)挖掘;無監(jiān)督學習;有監(jiān)督學習;半監(jiān)督學習;遷移學習

中圖分類號:TP274文獻標識碼:A文章編號:1007-9599 (2010) 06-0000-07

Summarization of Data Mining Learning Method

Xu Rui

(Guizhou Mobile Corp. Guiyang550004,China)

Abstract: As a new domain of information technology,data mining takes full advantages of database,statistical analysis and artificial intelligence,etc.It is quit important to be familiar with data mining for decision-makers,since it is a new direction of enterprise informationization.In this article,the author summarized some common learning method of data mining,especially the new domain:transfer learning.Finally,the article briefly described difference among these learning methods.

Keywords:Data mining;Unsupervised learning;Supervised learning;Semi-supervised learning;Transfer learning

企業(yè)信息化建設(shè)經(jīng)歷了辦公自動化,信息管理系統(tǒng),企業(yè)資源計劃三個階段,隨著企業(yè)數(shù)據(jù)的快速增長,科學決策的廣泛應(yīng)用,數(shù)據(jù)挖掘和商業(yè)智能成為企業(yè)信息化建設(shè)的新的突破點。數(shù)據(jù)挖掘綜合統(tǒng)計學、人工智能、數(shù)據(jù)庫技術(shù)等多學科知識,從海量的數(shù)據(jù)中迅速發(fā)掘有價值的信息。作為一個新興領(lǐng)域,數(shù)據(jù)挖掘的研究與應(yīng)用發(fā)展迅速,但數(shù)據(jù)挖掘并不為企業(yè)決策者充分認識。本文將從學習的角度,重點介紹數(shù)據(jù)挖掘領(lǐng)域常見的算法。

一、引言

數(shù)據(jù)挖掘算法依據(jù)其任務(wù)特點,常被分為四類:預測建模、聚類分析、關(guān)聯(lián)分析以及異常檢測。另一方面,依據(jù)算法所適應(yīng)的問題類型來分,又可以分為無監(jiān)督學習(Unsupervised Learning)、有監(jiān)督學習(Supervised Learning)、半監(jiān)督學習(Semi-supervised Learning)以及遷移學習(Transfer Learning)。比如針對網(wǎng)頁的挖掘,普通用戶關(guān)注返回結(jié)果與自己需求的相關(guān)性以及結(jié)果展現(xiàn)的可理解性,會更加希望網(wǎng)絡(luò)搜索引擎進一步將相關(guān)的結(jié)果根據(jù)不同的類別分成不同的組(無監(jiān)督學習);搜索引擎工程師期望借助由專家進行類別標記的網(wǎng)頁,建立準確的引擎,對網(wǎng)頁進行分類(有監(jiān)督學習);為有效提高搜索結(jié)果的準確性,搜索引擎通常還會根據(jù)用戶的搜索習慣或者交互式的反饋,對結(jié)果進行篩選(半監(jiān)督學習);而篩選的結(jié)果有時還會用來提供給其他具有類似習慣的用戶(遷移學習)。

二、無監(jiān)督學習

聚類分析通常又被叫做無監(jiān)督學習。無監(jiān)督學習可以理解為學習過程中只使用到了訓練樣本的原始屬性,而未涉及到訓練樣本的類別屬性。比如電信行業(yè)根據(jù)客戶消費信息的相似性,將客戶歸為不同的類別組,并對不同的類別組設(shè)計有區(qū)別的營銷策略和增值服務(wù),在公司內(nèi)部編制不同的財務(wù)成本計算方法。在這一過程中使用的數(shù)據(jù)都是各營業(yè)廳收集的原始數(shù)據(jù),得出的結(jié)論主要基于對原始數(shù)據(jù)的相似性歸類的結(jié)果,在這一歸類過程中不輔以任何人為的諸如添加類別標簽等指導。

無監(jiān)督學習方法,或者說聚類算法,通過研究描述數(shù)據(jù)的屬性在不同數(shù)據(jù)間的相似性,將數(shù)據(jù)劃分為若干有意義的組或者是簇。無監(jiān)督學習通常要達到兩個目標:1.簇內(nèi)數(shù)據(jù)盡可能相似;2.簇間數(shù)據(jù)盡可能相異。為此,無監(jiān)督學習方法的設(shè)計要關(guān)注兩個關(guān)鍵點:(1)如何評價數(shù)據(jù)之間的相似性或者相異性;(2)以及如何同時滿足所要達到的兩個目標。

(一)相似性度量標準

假設(shè)用于無監(jiān)督學習的數(shù)據(jù)表示形式為X={X1,X2,…},其中X表示用于學習的樣本集。對于每個樣本Xi,又可以表示為一組屬性的集合Xi={xi1,xi2,…,xik},其中k表示描述每個樣本的屬性數(shù)量(或者說維度)。相似度(或相異度)的評價即是設(shè)計一個樣本之間的距離評價函數(shù)d(Xi,Xj)。

對于區(qū)間標度類數(shù)據(jù),通??梢杂妹魇暇嚯x(式2-1)、歐式距離(式2-1中p為2)、曼哈頓距離(式2-1中p為1)。

(2-1)

對于只有0和1兩種狀態(tài)的二元變量,可以根據(jù)兩個變量Xi,Xj共同出現(xiàn)時0、1取值的異同,建立距離函數(shù)。若令q表示Xi,Xj都取值為1的次數(shù);t表示兩者都取值為0的次數(shù);r表示Xi取值為1,Xj取值為0的次數(shù);s表示Xi取值為0,Xj取值為1的次數(shù)。則兩者的距離函數(shù)可以設(shè)計為如式2-2,計算兩個函數(shù)的不匹配率。

(2-2)

但是二元變量常常是非對稱的,意思是人們常常關(guān)注與取值為1的情況,而其他情況表示為0。比如疾病診斷中,常常把患者疾病檢測呈陽性標記為1,而結(jié)果呈陰性標記為0。這是Xi,Xj都取值為0的情況(負匹配)被認為不重要的,而只關(guān)注兩者同時為1的情況(正匹配)。這種情況下通常用Jaccard系數(shù)來表示兩者的距離函數(shù),如式2-3。

(2-3)

多元變量是二元變量的推廣,區(qū)別在于可以取得多個狀態(tài)值。因此,相似地,多元變量的距離函數(shù)也通常采用兩個對象之間的不匹配率來計算,即Xi、Xj屬性取值不相同狀態(tài)占全部屬性的數(shù)目。如果多個狀態(tài)值之間有序,比如說比賽的排名次序,狀態(tài)的先后次序也是在設(shè)計距離函數(shù)是非常重要的。這種情況下通常,先將各個取值映射到[0.0,1.0]的區(qū)間內(nèi),一種簡單的方法就是將[0.0,1.0]劃分為M-1個區(qū)間,M為取值的總數(shù)目;然后根據(jù)每一個排序后的屬性到0.0的區(qū)間大小來度量。映射到[0.0,1.0]區(qū)間后,可以采用先前介紹的距離函數(shù)來進行評價。

由于一個樣本的屬性常常會包含多種變量類型,可能是區(qū)間標度的或者二元、多元的,甚至是非對稱的。一種常見的處理方法是將各個屬性首先進行歸一化處理,將每個屬性的取值映射到[0.0,1.0]的區(qū)間。比如,區(qū)間標量變量,距離函數(shù)通過除以最大區(qū)間差(屬性最大取值減去屬性最小取值)來實現(xiàn)映射。對于全部歸一化的屬性集合,樣本利用式2-4的方法進行計算。其中,Iij(k)是指示函數(shù),若xik或xjk缺失,或者非對稱二元變量情況下取值同為0,則Iij(k)取值為0;否則取值為1。

(2-4)

文本挖掘中,由于文檔對象較為復雜,切以向量形式表示,依靠傳統(tǒng)的距離度量計算方式不能獲得較好的效果。一種常見的方法是利用描述相似性的余弦度量來建立距離函數(shù),如式2-5。其中XiT表示Xi的轉(zhuǎn)置,||X||表示X的歐幾里德范數(shù)。

(2-5)

(二)學習策略

常見的聚類算法可以劃分為如下幾類:

1.劃分方法(partitioning methods):劃分方法將給定的N個對象構(gòu)建出數(shù)據(jù)的k(k≤N)個劃分,要求(1)每個劃分至少包含一個對象且(2)每個對象屬于且只屬于某一組。但是在模糊劃分技術(shù),第二點唯一性要求可以放寬。

常見的劃分方法為K均值(k-means)算法。算法的基本方法是首先初始化K個點作為初始的質(zhì)心,然后迭代式地將每個點指派到距其最近的質(zhì)心,形成K個簇,并計算出新的簇的質(zhì)心;迭代過程持續(xù)到質(zhì)心不再發(fā)生變化。

2.層次方法(hierarchical methods):層次方法創(chuàng)建給定數(shù)據(jù)對象集的層次分解,利用自頂向下或者自底向上的策略不斷的建立簇之間的樹狀關(guān)系。

以自底向上策略為例,首先將全部個體點作為獨立的簇,然后迭代式的合并最接近的兩個簇,并更新簇之間的關(guān)系矩陣;迭代過程持續(xù)到數(shù)據(jù)最終合并為一個簇。

3.基于密度的方法(density-based methods):基于密度方法設(shè)計的核心思想是鄰域中密度較大的點聚集在一起。這種方法可以有效的發(fā)現(xiàn)任意形狀的簇,而不僅僅是球狀的簇。

DBSCAN是一種常見的基于密度的方法。算法核心思想是通過檢查每個樣本點半徑不超過ε的鄰域來搜索簇,并利用密度可達關(guān)系將密度較大的臨近的簇合并起來。如果一個點的ε的鄰域中包含大于某個閾值的樣本數(shù),則將此樣本作為這個簇的核心對象,而鄰域內(nèi)的所有點對核心對象來說都是“直接密度可達”的;將直接密度可達的樣本鏈接起來,則說這些點都是密度可達;通過合并密度可達的核心對象所代表的簇,算法最終可以尋找出任意形狀的簇,并剔除噪聲點。

三、有監(jiān)督學習

有監(jiān)督學習‎常被認為是分類的另外一種說法(也有學者認為只是分類過程的第一步),這是因為建立分類模型時,總是要求用來學習的樣本具有完整的類別標簽,來指導(或者說監(jiān)督)整個學習過程。通常來說,完整的分類過程由兩步組成:(1)對于有類別標簽數(shù)據(jù)的學習,以及(2)對未知類別標簽數(shù)據(jù)的預測。根據(jù)對訓練集的使用方式,有監(jiān)督學習一般分為兩大類:模板匹配法和判別函數(shù)法。判別函數(shù)法依據(jù)判別函數(shù)的不同,又可以進一步分為概率統(tǒng)計分類法、線性分類法和非線性分類法。

(一)模版匹配法

將待分類的樣本和標準模板進行比較,看與哪個模版匹配程度更相似,從而確定待分類樣本的類別,這就是模版匹配的主要思想。比如K近鄰算法,算法的思想為:對于一個待分類的樣本,首先計算它與訓練集中所有樣本的距離,并以距離從小到大的順序選出從空間上最靠近待分類樣本的K個訓練樣本,最后依據(jù)這K個樣本中出現(xiàn)頻率最高的類別作為該待分類樣本的類別。再比如,在模式識別應(yīng)用中,經(jīng)常會在后臺數(shù)據(jù)庫中保存一定量的模版,通過尋找與待分類樣本差異最小的模版,來確定待分類樣本的類別。模版匹配法思想較為簡單,實現(xiàn)起來非常容易,特別是K近鄰算法,經(jīng)常應(yīng)用于在線算法(要求算法效率非常高)的分類算法部分。但是模版匹配算法有一個明顯的缺點就是當存儲的訓練模版非常大時,算法的存儲和計算將成為算法提高效率的瓶頸。

(二)概率統(tǒng)計分類法

基于概率統(tǒng)計的方法主要指基于Bayes決策理論的分類算法。算法的核心思想就是依據(jù)Bayes后驗概率公式,計算出待分類樣本屬于每一種類別的可能性,并找出最有可能的類別判為待分類樣本的預測類別。

任何決策都有誤判的情況,Bayes決策也不例外,如何做出最合理的判決,常常與具體問題結(jié)合。其中最具有代表性的是基于最小錯誤率的Bayes決策以及基于最小風險的Bayes決策。本節(jié)將首先介紹Bayes決策理論。

1.Bayes決策理論。

Bayes理論基于樣本中每個類別的先驗概率P(Ci)以及每個類的條件概率密度P(X|Ci)的統(tǒng)計,利用Bayes公式(式2-6)計算待分類樣本分屬各類別的概率(后驗概率),依據(jù)X屬于哪個類別具有最高的概率,就把X劃分到哪個類。

(2-6)

公式中,先驗概率P(X)針對某個類別出現(xiàn)的概率而言,可以通過統(tǒng)計訓練集中每個類別所占比例計算;類條件概率密度P(X|Ci)是指在某類別空間中,出現(xiàn)特征向量X的概率,具體應(yīng)用中一般假設(shè)P(X|Ci)服從正態(tài)分布,亦即滿足式2-7,其中u為均值向量; 的協(xié)方差矩陣。

(2-7)

2.最小錯誤率的Bayes決策。

由Bayes公式可以看出,后驗概率的大小只于先驗概率和類條件概率密度的乘積P(X|Ci)P(Ci)有關(guān)。對于每次分類,總錯誤率為當X劃分為某一類時,出錯的可能性的總和。

對于兩類問題,若P(X|+)P(+)>P(X|-)P(-),亦即P(+|X)>P(-|X),可以知道,將X分為“+”類的總錯誤率(1-P(X|+)P(+))將小于將X分為“-”類的總出錯率(1-P(X|-)P(-))。對于多類的問題,依據(jù)同樣的道理,可以證明將X分為使P(Ci|X)最高的類別,可以保證決策具有最小的錯誤率。

3.最小風險的Bayes決策。

現(xiàn)實生活中,不一定總錯誤率越小就代表決策越好,比如藥廠判別藥品質(zhì)量,若將正常藥品判別為劣質(zhì)藥品,造成的損失遠小過將劣質(zhì)藥品判為正常藥品的代價。此時需要對每種錯誤賦予一個風險權(quán)值,用以評價做出某種決策風險的大小。

對于某一觀測值X,當將其分為Ci類時,總風險可以表示為:

(2-8)

式中,λij表示待分類樣本X實際屬于Cj但將其錯誤分為Ci所帶來的損失。對于X,當計算出每個類別的風險函數(shù)后,選擇具有最小風險的類別作為X的分類類別。

相對于最小錯誤率的Bayes決策,最小風險的Bayes決策具有更廣泛的適應(yīng)面,但是風險權(quán)值λij的制定相對較為復雜,需要根據(jù)具體問題,權(quán)衡各種損失的大小。

4.基于概率統(tǒng)計分類法的其他問題。

在實際應(yīng)用中,類條件概率密度P(X|Ci)并不一定確切知道,潛在的值必須從可用的數(shù)據(jù)中估計。有時可能知道概率密度的類型(如高斯分布,t分布等),但不知道具體參數(shù),此時一般采取最大似然估計或者最大后驗概率來估計;另一方面有時可能知道一些估計的參數(shù),比如均值和方差,但是卻不知道具體的分布類型,此時可以采取最大熵估計或者采用著名的EM算法(期望最大算法)來估計類條件概率密度。

(三)線性分類法

Bayes決策分類有其不足的地方,其分類過程依賴于統(tǒng)計,因此更多適應(yīng)于有統(tǒng)計知識的場合,也就是說服從一定分布的分類問題,但是現(xiàn)實中還有很多問題并不能滿足這個要求,分類問題的研究進而轉(zhuǎn)向如何采用非統(tǒng)計的方法來進行分類。

任何一個樣本點都可以表示成特征空間的一個點,任何不相同的兩個點之間都有一定距離,如果能夠找到一個面(線性或者非線性)將屬于不同類別的樣本隔開,則表示這個面的函數(shù)就可以作為分類的依據(jù)。這就是幾何分類法的思想,可以簡單理解為利用幾何方法把特征空間分解為不同類別的子空間。有時為了更好的找劃分空間的函數(shù),常常會利用映射、投影等方法對特征空間進行轉(zhuǎn)化。

依據(jù)劃分子空間的面是否為平面,即決策函數(shù)是否為線性,可以將幾何分類方法分為兩類:線性分類法以及非線性分類法。

線性分類就是通過一個或者多個超平面,將特征空間按類別劃分為獨立子空間。用來表示超平面的決策函數(shù)可以表示為g(X)=WTX+W0,其中W表示權(quán)值向量,W0被稱為偏置(bias)。從圖像上來理解,g(X)表示圖2-1中的斜線。對于g(X)>0的點,即圖中斜線右邊的點,被劃分為正類;相反地,途中斜線左邊的點,被劃分為負類。

從系統(tǒng)實現(xiàn)角度來看,一個線性分類器可以表示成一個具有d個輸入單元,每個單元與結(jié)果具有連接權(quán)值的一個模型(圖2-2)。每個輸入特征向量乘以相應(yīng)的權(quán)值,并輸出這些乘積的累加和。利用一個Sigmoid函數(shù)(圖中的output unit函數(shù)),將結(jié)果映射到{0,1}或者{-1,1}。

1.線性判別函數(shù)的形式。

對于二類問題,直接用g(X)=WTX+w0形成劃分平面,平面兩側(cè)各屬于一類,如圖2-1中的例子。

對于多類別問題,情況比較復雜,通常有以下兩種策略。

假設(shè)擁有d個類別的問題:

(1)如果對于任何一個類別Ci,利用g(X)=WTX+w0能夠區(qū)分屬于Ci以及不屬于Ci的樣本,此時分類的函數(shù)就是由每個類別的判別函數(shù)組成。此時分類函數(shù)總共有d個。若待分類樣本滿足gi(X)>0,則將其分到Ci類。若同時有多個類別使得X滿足gi(X)>0,則選取具有最大函數(shù)值的類別作為X的類別。

(2)如果任兩個類別Ci、Cj,可以通過gij(X)=WijTX+wij0區(qū)分開,則此時分類函數(shù)總共有d(d-1)/2個。對于任意的Cj,若待分類樣本滿足gij(X)>0恒成立,則將其劃分為Ci類。

2.線性判別函數(shù)系數(shù)的確定。

線性判別函數(shù)設(shè)計的關(guān)鍵問題是權(quán)值的確定,也即使判別函數(shù)系數(shù)的確定。依據(jù)一定的評價準則,線性判別函數(shù)不斷修正權(quán)值的大小,從而達到滿足評價準則的系數(shù)值。

最常見的確定線性判別函數(shù)的算法包括感知器算法、最小二乘法(LSM)以及支持向量機。

(1)感知器算法:感知器算法的原理是每次依據(jù)分錯的樣本(用Y(W)表示),依據(jù)式2-8,不斷的調(diào)整權(quán)值。感知器算法實際上就是單層神經(jīng)網(wǎng)絡(luò),通過訓練樣本的不斷指導,不斷的修正自己的權(quán)值。實際上分錯的樣本越少,則g(X)距離真實的判別邊界越近。

(2-9)

(2)最小二乘法:在某些情況下,盡管線性分類器不是最優(yōu)的,但其效率和簡單常??梢詮浹a這些問題。因此需要利用最優(yōu)化的數(shù)學方法,計算較優(yōu)的性能。最小二乘法正是最優(yōu)化算法在線性分類器中的應(yīng)用。利用最小二乘的結(jié)論公式:W=(XTX)-1XTy,利用矩陣計算的方法解出相應(yīng)的權(quán)值,并使得訓練集樣本距離超平面的均方和最小。

(3)支持向量機:感知器算法可能會收斂到不同的解,但對于要求嚴格的問題中,一個給兩測類別留了更多可自由活動的空間的決策函數(shù)顯然產(chǎn)生錯誤的危險更小。支持向量機理論提供了求出這樣平面的方法,通過解決優(yōu)化問題:

(2-10)

使得超平面兩側(cè)擁有最大的間隔。其中滿足|WTX+w0|=1的向量叫做支持向量。

(四)非線性分類法

線性分類器具有簡單、直觀的特點,但是在現(xiàn)實生活中會經(jīng)常遇到線性不可分的情況,比如最著名的異或(XOR)布爾函數(shù),就無法用一個平面將兩各類別分開。最常見的非線性分類的方法有神經(jīng)網(wǎng)絡(luò)、多項式分類器以及決策樹分類器。

1.神經(jīng)網(wǎng)絡(luò)。

一個簡單的神經(jīng)網(wǎng)絡(luò)由三部分組成:輸入層(input)、隱含層(hidden)以及輸出層(output),如圖2-3。

作為一個可以適應(yīng)復雜問題的啟發(fā)式的統(tǒng)計模式識別技術(shù),神經(jīng)網(wǎng)絡(luò)具有強大的功能,戈爾莫戈羅夫證明只要給出足夠數(shù)量的隱含層的神經(jīng)單元、適當?shù)姆蔷€性函數(shù)以及權(quán)值,任何判決都可以利用三層神經(jīng)網(wǎng)絡(luò)來實現(xiàn)。一個常見的神經(jīng)網(wǎng)絡(luò)的算法就是利用反向傳播算法。限于篇幅,這里只介紹算法的核心思想。

反向傳播算法的基本思想主要分為三步:

第一步,初始化所有權(quán)值。

第二步,前向計算:從輸入層開始,從前往后地依次計算每個神經(jīng)元的輸出,計算方式為帶限界的加權(quán)和。

第三步,后向計算與權(quán)值修正:依據(jù)輸出的結(jié)果,從輸出曾開始從后往前地依次計算出來權(quán)值修正的大小,并對全部權(quán)值進行修正。

反向傳播算法可以對空間進行較為復雜的劃分,并且可以充分利用并行的高性能計算來完成分類的工作。但是人工神經(jīng)網(wǎng)絡(luò)需要較大的訓練集來保證結(jié)果的正確性。

2.多項式分類器。

對于一個多項式分類器,其核心思想就是進行樣本空間的轉(zhuǎn)化,將其轉(zhuǎn)化為線性分類器問題。比如針對XOR問題,原特征空間可以表示為X=[x1,x2],若引入新的特征空間,令X’=[x1,x2,x1x2]=[y1,y2,y3],則完成了從二維空間到三維空間的轉(zhuǎn)化。而對于新的空間,可以建立超平面g(x)=y1+y2-2y3-1/4正確區(qū)分兩個類別。

然而多項式分類器適用于低維空間的非線性分類問題,對于維度較大的問題,由于產(chǎn)生的新特征空間將過于龐大,增加了計算的復雜性。

3.決策樹。

決策樹算法的核心思想就是利用一系列的查詢來逐步地確定類別,圖2-4展現(xiàn)了一個判斷水果類型的決策樹。

建立一棵決策樹的過程可以看作是從不同的屬性空間,層次性的分開各個類別的數(shù)據(jù)。建立的過程如下:

(1)首先,選擇一個屬性,對訓練集進行劃分。

(2)其次,對劃分的每一個子訓練集,判斷是否滿足停止準則,比如限制樹的高度,確定根結(jié)點的純度等。

(3)最后,如果有子訓練集不滿足停止條件,算法將對該子訓練集重復這三個步驟,直到所有的訓練子集都滿足。

決策樹使用比較簡單,進行規(guī)則的匹配和查詢就可以了,而且結(jié)果非常直觀。但是對于算法實現(xiàn)的細節(jié),比如停止準則的確定,進行劃分的特征的選擇等會影響分類的結(jié)果。限于篇幅,這里就不一一介紹。

四、半監(jiān)督學習

區(qū)別于有監(jiān)督學習要求訓練集具有完整的類別標簽,半監(jiān)督學習只需要小部分訓練樣本具有類別標簽,甚至可以通過向外部的指示器(Oracle)交互式地獲得部分樣本的標簽。

同時區(qū)別于無監(jiān)督學習,不要求訓練集具有類別標簽,只是通過研究樣本屬性之間的相似度進行學習,半監(jiān)督學習通常依靠部分有標簽的樣本進行指導,還可以有效地提高聚類的效果。

通常半監(jiān)督學習被認為是分類問題的特殊形式,因為半監(jiān)督學習多關(guān)注與如何有效地利用無類別標簽數(shù)據(jù)來提高分類器的性能。但是半監(jiān)督學習的研究仍然涉及到聚類、回歸等方面。

最常見的半監(jiān)督學習方法是產(chǎn)生式模型方法(Generative Models),通常來說數(shù)據(jù)的分布可以描述為P(X,y)=P(X|y)P(y),該方法假設(shè)P(X|y)服從特定的混合分布模型(比如高斯混合分布模型)。通過大量的無標簽樣本,確定組成該混合模型的各個組成部分的參數(shù),利用有標簽樣本的信息,來進一步確定樣本的分布。針對產(chǎn)生式模型的研究,在理論方面集中在以下兩個方面:

1.混合模型可識別性研究:給定某一參數(shù)向量,能否可以確定唯一的多分布混合的方式。可以知道的是高斯分布的混合模型是可識別的;與此同時,文獻‎[11]證明Bernoulli混合模型是不可識別的;文獻‎[12]在混合模型可識別性方面做了進一步的研究。

2.模型正確性研究:如果對于模型的假設(shè)是正確的,可以證明,通過充分學習無標簽的樣本有助于提升分類的精度;但是如果模型估計錯誤,無標簽樣本不會對模型精度帶來提升,甚至導致精度下降。通常會利用組合算法或者樣本降權(quán)‎的策略來減少模型選擇錯誤帶來的風險。在應(yīng)用方面,常見的方法包括利用EM算法辨別混合組件、利用聚類算法劃分樣本空間并利用有標簽的數(shù)據(jù)標記各子空間的標簽;應(yīng)用領(lǐng)域主要包括文本分類、文字對齊、人臉識別等。

自主訓練方法(Self-training)是半監(jiān)督學習最早的研究方向之一。該方法使用一個有監(jiān)督學習算法從一小批有標簽樣本開始學習,迭代地給無標簽樣本賦予標簽,并加入到訓練樣本中來。這種思想最早可以追溯到1965年。由于是一種包裹式算法,算法的性能更多依賴于所選擇的有監(jiān)督學習算法的性能。自主學習方法被用于多種自然語言處理任務(wù)中,比如語義歧義的識別甚至是情感識別;同時Rosenberg等人還將自主學習應(yīng)用到圖像對象識別系統(tǒng)中。

協(xié)同訓練(Co-training)最初是Blum和Mitchel針對諸如網(wǎng)頁分類等具有兩個充分冗余的視圖的半監(jiān)督學習問題提出來的半監(jiān)督學習算法。最初假設(shè)樣本包含兩個充分冗余的視圖,由于這一要求在實際應(yīng)用中往往無法滿足,Nigam和Ghani在文獻‎[24]中通過實驗證明,在屬性集充分大時,可以隨機把屬性集劃分為兩個視圖,同樣可以取得不錯的效果。由于充分大屬性集要求過于嚴格,隨機劃分屬性集的效果不是非常穩(wěn)定,因此,許多研究者試圖尋找不需要充分冗余視圖的協(xié)同算法。Goldman和Zhou在文獻‎[25]的研究建立在噪聲學習理論和統(tǒng)計技術(shù)之上,利用不同決策樹分類器劃分樣本空間為若干等價類。每個分類器不斷從樣例空間的等價類內(nèi)找出最置信的一批樣本給予標簽,提交給另一個分類器作為訓練樣本。他們在文獻‎[3]中進行了擴展,使該算法可以使用多個不同類型分類器。為了進一步放松約束條件,周志華等人提出了Tri-training算法。該算法首先使用重復取樣的方法訓練三個分類器,然后不斷的利用其中兩個分類器,共同選出高置信的無標簽的樣本進行標記,來更新第三個模型。對比Goldman的方法,Tri-training算法顯著減少了大量耗時的統(tǒng)計測試技術(shù)。為進一步減少噪聲的影響,李明等人又在Tri-training的基礎(chǔ)上提出了Co-forest方法,可以更好地發(fā)揮協(xié)同學習的作用。

直推式支持向量機(Transductive Support Vector Machines,TSVM)又被叫做半監(jiān)督支持向量機(Semi-Supervised Support Vector Machines,S3VM)目的是利用支持向量機技術(shù),將決策邊界建立在遠離高密度區(qū)的空間區(qū)域,來建立P(X)與決策邊界的聯(lián)系。由于尋找準確的直推式支持向量機的解是NP難問題,許多算法都主要用于發(fā)掘近似解。其他類似的避免高密度區(qū)域進行判別的算法還包括基于高斯過程的方法(如文獻‎[18]),以及基于信息論的方法(如文獻‎[19])。

基于圖的半監(jiān)督方法(Graph-based semi-supervised methods)通常將數(shù)據(jù)集描述為一張圖,圖中的結(jié)點為數(shù)據(jù)集中的樣本(有標簽或者無標簽的),結(jié)點之間的連線通常定義為樣本之間的相似度。圖方法通常利用矩陣理論或者圖算法,來尋找平滑的函數(shù)能夠最大程度上匹配有標簽樣本的分布。圖的半監(jiān)督學習算法的關(guān)鍵在于建圖、以及損失函數(shù)的確定。

除了半監(jiān)督分類算法,其他半監(jiān)督算法還包括譜聚類(Spectral Clustering),半監(jiān)督聚類(Semi-supervised Clustering)‎,半監(jiān)督回歸(Semi-supervised Regression),主動學習(Active Learning),多示例學習(Multi-Instance Learning)等。

五、遷移學習

與半監(jiān)督學習類似的,遷移學習的提出也是針對訓練樣本不足的分類情況。但是半監(jiān)督學習依靠具有獨立同分布的訓練樣本和待分類樣本,而遷移學習則通過借助其他領(lǐng)域的訓練樣本來建立分類器,為本領(lǐng)域的待分類樣本進行類別標簽預測。

傳統(tǒng)的學習方法通常依賴各自領(lǐng)域的訓練樣本,建立本領(lǐng)域的知識模型來進行領(lǐng)域內(nèi)的學習任務(wù),如圖2-5(a)。但是遷移學習的訓練樣本來自其他領(lǐng)域(比如有類別標簽樣本較為豐富的領(lǐng)域),通過該領(lǐng)域樣本的學習,抽取出來相關(guān)的知識用于本領(lǐng)域的分類任務(wù),如圖2-5(b)。但是與傳統(tǒng)學習方式相同的是,遷移學習的目標也是分類的經(jīng)驗風險最小化,只是優(yōu)化經(jīng)驗風險時會利用到源領(lǐng)域的知識。

遷移學習依賴于源領(lǐng)域的知識和目標領(lǐng)域知識分布相似,如果兩者的分布不一致,往往會引起分類性能的下降,這種現(xiàn)象叫做負遷移。負遷移成為使用遷移學習的最大風險,為了保證遷移學習的效果,如何降低負遷移成為遷移學習關(guān)注的一個領(lǐng)域。

依據(jù)有類別標簽的樣本存在的學習領(lǐng)域,文獻‎[8]將遷移學習領(lǐng)域分為兩類:歸納式遷移學習(Inductive Transfer Learning)和直推式遷移學習(Transductive Transfer Learning)。

(一)歸納式遷移學習

歸納式遷移學習的假設(shè)為目標領(lǐng)域包含有部分的帶有類別標簽的樣本。因此該領(lǐng)域的研究重點在于如何遷移其他領(lǐng)域的知識,以更好的利用目標領(lǐng)域中帶有類別標簽的樣本。依據(jù)遷移的手段可以分為:

1.樣本遷移:歸納式遷移學習的樣本遷移方法假設(shè)目標領(lǐng)域和源領(lǐng)域使用相同的特征空間和標簽集合,通過調(diào)整權(quán)值和重采樣技術(shù),實現(xiàn)源領(lǐng)域部分樣本的重用。因此,此方式的核心思想是利用目標領(lǐng)域內(nèi)的帶有類別標簽的樣本指導從源領(lǐng)域進行采樣,使得訓練樣本在分布上與目標領(lǐng)域近似。

以Tradaboost‎[9]為例,訓練的數(shù)據(jù)來自于源領(lǐng)域和目標領(lǐng)域,每次訓練結(jié)束對訓練結(jié)果進行評價。對于目標領(lǐng)域,類似于Adaboost方法提升被分錯的樣本的權(quán)值;而對源領(lǐng)域,則降低被分錯樣本的權(quán)值。下一輪訓練則利用調(diào)整后的樣本權(quán)值進行重采樣。最后依據(jù)分類的置信度輸出判定的類別標簽。

2.代表特征遷移:歸納式遷移學習的代表特征遷移方式假設(shè)源領(lǐng)域和目標領(lǐng)域由于任務(wù)的相關(guān)性,會共享某些特征。該方法的核心思想為通過空間映射方法(比如特征選擇,特征變換,核空間等)提升目標領(lǐng)域和源領(lǐng)域在特征領(lǐng)域的相似性,同時增強樣本的類別可區(qū)分性。利用優(yōu)化技術(shù),使得目標領(lǐng)域映射、源領(lǐng)域映射、參數(shù)矩陣三個角度都達到優(yōu)化。

3.模型遷移:歸納式遷移學習的模型遷移方式假設(shè)由于各個領(lǐng)域之間的任務(wù)具有一定相關(guān)性,在一定程度上可以共享相互之間模型的參數(shù)。學習算法通過改變各個領(lǐng)域?qū)W習目標函數(shù),使得各目標函數(shù)在形式上類似,甚至具有相同的重要參數(shù),這時通過共享相同模型參數(shù),實現(xiàn)目標領(lǐng)域的學習的優(yōu)化。

4.關(guān)系知識遷移:歸納式遷移學習的關(guān)系知識遷移方法假設(shè)目標領(lǐng)域和源領(lǐng)域在樣本關(guān)系方面具有相似性。該方法首先學習源領(lǐng)域的關(guān)系知識,比如學生和導師以及文章三者關(guān)系;其次,建立源領(lǐng)域相關(guān)對象與目標領(lǐng)域相關(guān)對象之間映射關(guān)系,比如源領(lǐng)域的學生、導師和文章分別對應(yīng)目標領(lǐng)域的演員、導演和電影;最后,將從源領(lǐng)域的關(guān)系知識直接或者經(jīng)過變換遷移到目標領(lǐng)域。

該種方法具有一定的針對性,一般用于具有樣本相關(guān)性的模型中,通過遷移關(guān)系知識,提升目標領(lǐng)域的關(guān)系模型建立的效率和性能。

(二)直推式遷移學習

直推式遷移學習的假設(shè)為目標領(lǐng)域中不包含任何具有類別標簽的樣本。類似與歸納式遷移學習,直推式遷移學習也包含樣本空間和特征空間兩個研究的角度。

1.樣本遷移:由于目標領(lǐng)域不包含帶有類別標簽的樣本,因此樣本遷移方法是依據(jù)源領(lǐng)域和目標領(lǐng)域在分布上的差異,給源領(lǐng)域的樣本賦予不同的權(quán)值,盡可能接近目標領(lǐng)域的分布。特別地,一些基于采樣的直推式遷移學習方法假設(shè)目標領(lǐng)域和源領(lǐng)域具有相同的后驗概率,通過重采樣方法生成新的訓練集。

2.代表特征遷移:直推式遷移學習中的代表特征遷移方法依然假設(shè)目標領(lǐng)域和源領(lǐng)域具有相同的后驗概率。該方法的核心思想是通過找到一組特征能夠減少目標領(lǐng)域和源領(lǐng)域之間的距離。

直推式的代表特征遷移往往只是針對特定的問題。比如具有相同詞典的文本挖掘,文本的屬性向量相同或者類似,并以詞典分布作為依據(jù),通過協(xié)同聚類方式遷移類別標簽。

(三)遷移學習相關(guān)問題

依據(jù)文獻‎[8],依據(jù)目標領(lǐng)域是否具有帶有類別標簽的樣本,遷移學習可以分為歸納式遷移學習(Inductive Transfer Learning)和直推式遷移學習(Transductive Transfer Learning)兩個方向。而根據(jù)源領(lǐng)域是否具有類別標簽樣本,以及目標領(lǐng)域和源領(lǐng)域?qū)W習任務(wù)的相似性,遷移學習還涉及到以下幾類學習問題:

自助學習(Self-taught Learning):該問題假設(shè)目標領(lǐng)域和源屬于不同的分布,而且類別標簽集也不相同;特別地,源領(lǐng)域有類別標簽的樣本較少。該方法通過找出共同的屬性集合,來實現(xiàn)目標領(lǐng)域的學習。比如圖像識別里面,各個識別任務(wù)可能不一樣,例如識別動物和識別風景。但通過聚類發(fā)現(xiàn)識別動物時依據(jù)對象邊緣的特征,可以有效地區(qū)分不同的動物;將該特征可以遷移到對不同風景的識別中。因此自助學習常常使用協(xié)同聚類方法找出可以遷移的特征基。

其他相關(guān)的研究方向還有:多任務(wù)學習(Multi-task Learning)、無監(jiān)督遷移學習(Unsupervised Transfer Learning)、領(lǐng)域自適應(yīng)學習(Domain Adaptation)以及樣本選擇偏差/方差遷移(Sample Selection Bias/Covariance Shift)等。在此不一一介紹。相關(guān)領(lǐng)域關(guān)系如圖2-6所示。

六、總結(jié)

本章從學習角度介紹了數(shù)據(jù)挖掘領(lǐng)域常見的四類算法。有監(jiān)督學習和無監(jiān)督學習是數(shù)據(jù)挖掘傳統(tǒng)的學習方法,依據(jù)樣本是否使用了外在的類別標簽作為指導,分別應(yīng)用于不同的任務(wù)場景。由于現(xiàn)實生活中有類別標簽的數(shù)據(jù)往往較少或者獲取難度較大,近年來提出了包括半監(jiān)督學習以及遷移學習等方法,利用無類別標簽樣本或者類似學習任務(wù)來提升有監(jiān)督學習的效果和性能。

有監(jiān)督學習、半監(jiān)督學習、遷移學習主要的目的是為了提高分類任務(wù)的性能,圖2-7通過犀牛和大象的圖片分類任務(wù)來形象的區(qū)分了三者的核心思想。有監(jiān)督學習,如圖2-7(a),通過學習具有類別標簽的大象和犀牛的圖片建立學習模型;半監(jiān)督學習,如圖2-7(b),利用具有類別標簽的兩中動物的圖片以及不具備類別標簽的兩種動物的圖片建立學習模型;遷移學習,如圖2-7(c),通過學習羊與馬的圖片,建立源領(lǐng)域模型,并遷移到目標領(lǐng)域大象和犀牛的學習問題中。

參考文獻:

[1]Chapelle O,SchÄolkopf B,Zien A. Semi-Supervised Learning.MIT Press,Cambridge.MA,2006

[2]Rosenberg C,Hebert M,Schneiderman H.Semi-supervised self-training of object detection models.in Seventh IEEE Workshop on Applications of Computer Vision,2005

[3]Zhou Y,Goldman S.Democratic co-learning.in Proceedings of the 16th IEEE International Conference on Tools with Artificial Intelligence(ICTAI 2004),2004

[4]Bennett K,Demiriz A. Semi-supervised support vector machines.Advances in Neural Information Processing Systems,1999

[5]Zhu X.Semi-supervised learning with graphs.Ph.D.thesis.Carnegie Mellon University,2005

[6]Zhou Z,Xu J.On the relation between multi-instance learning and semi-supervised learning.in Proceedings of the 24th International Conference on Machine Learning,2007

[7]Duda R,Hart P,Stock D.模式分類(原書第二版).李宏東,姚天翔

[8]Pan J and Yang Q. A Survey on Transfer puter Sciences Technical Report HKUST-CS08-08,2008

[9]Dai W,Yang Q,Xue G,and Yu Y.Boosting for transfer learning.In Proceedings of the 24th International Conference on Machine Learning,2007

[10]Raina R,Battle A,Lee H,etc.Self-taught Learning:Transfer Learning from Unlabeled Data.Proceedings of the 24th International Conference on Machine Learning,2007

[11]McCallum A,Nigam K.A comparison of event models for naive bayes text classification.in AAAI-98 Workshop on Learning for Text Categorization,1998

[12]Corduneanu A,Jaakkola T. Using unlabeled data to improve text classification.Tech.Report AIM-2001-030.MIT AI Memo,2001

[13]Castelli V,Cover T.The relative value of labeled and unlabeled samples in pattern recognition with an unknown mixing parameter.in IEEE Transactions on Information Theory,1996

[14]Nigam K,McCallum A,Thrun S,Mitchell T.Text classification from labeled and unlabeled documents using em.in Machine Learning,2000

[15]Dara R,Kremer S,Stacey D.Clustering unlabeled data with soms improves classification of labeled real-world data. in World Congress on Computational Intelligence(WCCI),2002

[16]Culp M.An iterative algorithm for extending learners to a semi-supervised setting.in The 2007 Joint Statistical Meetings(JSM),2007

[17]Zhou Z,Li M.Tri-training:exploiting unlabeled data using three classifiers. in IEEE Transactions on Knowledge and Data Engineering,2005

[18]Zhu X,Lafferty J,Ghahramani Z.Semi-supervised learning: From gaussian fields to gaussian processes.Tech.Rep.CMU-CS-03-175,Carnegie Mellon University,2003

[19]Szummer M,Jaakkola T.Information regularization with partially labeled data.in Advances in Neural Information Processing Systems,2002

[20]Grira N,Crucianu M,Boujemaa N. Unsupervised and semi-supervised clustering:a brief survey.Tech.Rep.FP6.A Review of Machine Learning Techniques for Processing Multimedia Content,2004

[21]Zhou Z,Li M.Semi-supervised regression with co-training.in International Joint Conference on Artificial Intelligence(IJCAI),2005

[22]McCallum A,Nigam K.Employing em in pool-based active learning for text classification.in Proceedings of the 15th International Conference on Machine Learning,1998

[23]Blum A,Mitchell bining labeled and unlabeled data with co-training.In Proceedings of the Workshop on Computational Learning Theory (COLT),1998

[24]Nigam K,Ghani R.Analyzing the effectiveness and applicability of co-training.in Proceedings of the 9th ACM International Conference on Information and Knowledge Management(CIKM'00),2000

[25]Goldman S,Zhou Y. Enhancing supervised learning with unlabeled data.in Proceeding of the 17th International Conference on Machine Learning(ICML'00),2000

[26]Zhou Z,Li M.Tri-training: exploiting unlabeled data using three classifiers. in IEEE Transactions on Knowledge and Data Engineering,2005