前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的神經(jīng)網(wǎng)絡(luò)中偏置的作用主題范文,僅供參考,歡迎閱讀并收藏。
關(guān)鍵詞:學(xué)生綜合素質(zhì)評(píng)價(jià);BP神經(jīng)網(wǎng)絡(luò);算法設(shè)計(jì)
中圖分類(lèi)號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2009)24-6786-03
BP neural Network Based on the Overall Quality of the Student Evaluation of Algorithm Design
ZHANG Wen-sheng
(Xiamen Gongshang Lvyou Xuexiao, Xiamen 3610012,China)
Abstract: In this paper, the overall quality of the students a variety of evaluation methods carried out in-depth analysis to explore the use of BP neural network theory to evaluate the feasibility of the overall quality, and BP neural network based on the overall quality of the student evaluation of algorithm design.
Key words: evaluation of the overall quality of students; BP neural network; algorithm design
學(xué)校德育教育是提高學(xué)生綜合素質(zhì)的重要一環(huán),在學(xué)校工作中占有舉足輕重的地位。德育涉及大量定性和定量的數(shù)據(jù)處理,為了體現(xiàn)其科學(xué)性和公平性,采用先進(jìn)的計(jì)算機(jī)技術(shù)進(jìn)行學(xué)生綜合素質(zhì)量化評(píng)估勢(shì)在必行。
1 問(wèn)題的提出
據(jù)調(diào)查,目前在學(xué)校里對(duì)學(xué)生素質(zhì)評(píng)價(jià)的方法,主要有以下幾種:
1) 定性描述法
在學(xué)期或?qū)W年結(jié)束時(shí),班主任根據(jù)學(xué)生在班級(jí)、學(xué)校和社會(huì)活動(dòng)中的行為表現(xiàn),運(yùn)用文字對(duì)學(xué)生的綜合素質(zhì)進(jìn)行描述,作為對(duì)學(xué)生的評(píng)價(jià)。這種方法在評(píng)價(jià)學(xué)生綜合素質(zhì)時(shí)起過(guò)一定的作用,但是,由于教師對(duì)學(xué)生綜合素質(zhì)評(píng)價(jià)的內(nèi)容不明確,要求不統(tǒng)一,帶有一定的主觀片面性和模糊性。
2) 等級(jí)劃分法
班主任根據(jù)平時(shí)對(duì)學(xué)生的觀察和了解,對(duì)學(xué)生的綜合素質(zhì)行為劃分出優(yōu)、良、中、差四個(gè)等級(jí)。它只能說(shuō)明每個(gè)學(xué)生綜合素質(zhì)發(fā)展的程度,在班集體中所處的地位,但缺乏具體內(nèi)容,學(xué)生對(duì)于自己或他人的優(yōu)點(diǎn)和缺點(diǎn)、以及個(gè)人今后的努力方向都不明確。
3) 自我總結(jié)法
這種方法是以學(xué)生為主,在教師的指導(dǎo)下總結(jié)自己的收獲,存在的問(wèn)題、以及今后的努力方向,并寫(xiě)成書(shū)面材料,然后寫(xiě)在操行表的自我總結(jié)欄內(nèi)。這種方法是以學(xué)生的自我評(píng)價(jià)為主,它對(duì)于提高學(xué)生的自我評(píng)價(jià)能力,具有一定的促進(jìn)作用。但是,由于沒(méi)有老師和同學(xué)們參加評(píng)價(jià),其評(píng)價(jià)結(jié)果缺乏客觀性。
4) 小組評(píng)議法
是以班級(jí)小組評(píng)議為主。通過(guò)開(kāi)評(píng)議會(huì)的形式,對(duì)全組成員分別進(jìn)行評(píng)議,肯定成績(jī),提出缺點(diǎn),最后把大家的意見(jiàn)集中起來(lái),作為對(duì)學(xué)生的評(píng)價(jià)結(jié)果。它具有一定的客觀性,可是,沒(méi)有教師參加評(píng)議,影響了評(píng)價(jià)結(jié)果的可信度。
上述各種方法的都有一定的長(zhǎng)處,也有一定的缺點(diǎn)。例如,對(duì)學(xué)生的綜合素質(zhì)的結(jié)構(gòu),沒(méi)有明確統(tǒng)一的規(guī)定和具體要求;不能同時(shí)吸收各方面的意見(jiàn)參加評(píng)價(jià);沒(méi)有制定較為符合需要的綜合素質(zhì)量表和采用科學(xué)的測(cè)量手段等等。所以,評(píng)價(jià)的結(jié)果往往帶有主觀片面性,評(píng)語(yǔ)內(nèi)容的不確定性,以及處在同一等級(jí)的同學(xué)之間存在差異的模糊性。于是最近又提出了對(duì)學(xué)生綜合素質(zhì)定量進(jìn)行測(cè)量和評(píng)價(jià)。
5) 定量分?jǐn)?shù)法
將構(gòu)成學(xué)生綜合素質(zhì)的各種因素?cái)?shù)量化,并制定出綜合素質(zhì)量表。在具體的進(jìn)行測(cè)量和評(píng)價(jià)時(shí),把學(xué)生綜合素質(zhì)所含每種因素的發(fā)展程度分為優(yōu)、良、中、差四個(gè)等級(jí),每個(gè)等級(jí)分別對(duì)應(yīng)一定的標(biāo)準(zhǔn)值。對(duì)不同因素確定不同的權(quán)重大小,再綜合學(xué)生每個(gè)因素所取得的標(biāo)準(zhǔn)值,最后得出學(xué)生的綜合素質(zhì)分。
用定量的方法對(duì)學(xué)生的綜合素質(zhì)發(fā)展程度進(jìn)行評(píng)價(jià)時(shí),不同因素需要確定不同的權(quán)重大小。權(quán)重的大小對(duì)評(píng)估結(jié)果十分重要,它反映了各指標(biāo)的相對(duì)重要性。由于對(duì)不同的因素的權(quán)重是人為給定的,而學(xué)生綜合素質(zhì)的各項(xiàng)因素對(duì)學(xué)生的整體素質(zhì)存在不可確定的影響程度,因些在對(duì)學(xué)生的測(cè)量和評(píng)定過(guò)程中必然受到主觀因素及模糊隨機(jī)性的影響。并且這種方法需要消耗大量的人力和時(shí)間。
為了探討這個(gè)問(wèn)題,我們根據(jù)BP神經(jīng)網(wǎng)絡(luò)的基本概念和原理,用神經(jīng)網(wǎng)絡(luò)自我學(xué)習(xí)的方法,對(duì)中學(xué)生綜合素質(zhì)進(jìn)行測(cè)量和評(píng)價(jià)。BP神經(jīng)網(wǎng)絡(luò)能利用經(jīng)驗(yàn)樣本對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,達(dá)到神經(jīng)網(wǎng)絡(luò)的自我學(xué)習(xí),在網(wǎng)絡(luò)中自動(dòng)建立一個(gè)多輸入變量與輸出變量間的非線性映射過(guò)程,無(wú)需建立具體的數(shù)學(xué)模型和規(guī)則,可以處理那些難以用模型或規(guī)則描述的過(guò)程或系統(tǒng)。神經(jīng)網(wǎng)絡(luò)具有自組織、自學(xué)習(xí)、自適應(yīng)的特點(diǎn),能通過(guò)連接權(quán)重的不斷調(diào)整,克服權(quán)重確定的困難,弱化人為因素,自動(dòng)適應(yīng)信息、學(xué)習(xí)新知識(shí),最終通過(guò)學(xué)習(xí)訓(xùn)練對(duì)實(shí)際學(xué)習(xí)樣本提出合理的求解規(guī)則,對(duì)學(xué)生的綜合素質(zhì)的整體評(píng)定具有十分重要的意義。首先我們來(lái)了解BP神經(jīng)網(wǎng)絡(luò)的基本原理。
2BP神經(jīng)網(wǎng)絡(luò)的基本原理
1) 神經(jīng)元網(wǎng)絡(luò)基本概念
神經(jīng)網(wǎng)絡(luò)是單個(gè)并行處理元素的集合,從生物學(xué)神經(jīng)系統(tǒng)得到啟發(fā)。在自然界,網(wǎng)絡(luò)功能主要由神經(jīng)節(jié)決定,可以通過(guò)改變連接點(diǎn)的權(quán)重來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)完成特定的功能。如圖1所示。這里,網(wǎng)絡(luò)將根據(jù)輸出和目標(biāo)的比較而進(jìn)行調(diào)整,直到網(wǎng)絡(luò)輸出和目標(biāo)匹配。
2) 神經(jīng)元網(wǎng)絡(luò)結(jié)構(gòu)
圖2所示為一個(gè)單標(biāo)量輸入且無(wú)偏置的神經(jīng)元。
神經(jīng)元輸出計(jì)算公式為:a=f(wp+b)。神經(jīng)元中的w和b都是可調(diào)整的標(biāo)量參數(shù)??梢赃x擇特定的傳輸函數(shù),通過(guò)調(diào)整權(quán)重 和偏置參量 訓(xùn)練神經(jīng)網(wǎng)絡(luò)做一定的工作,或者神經(jīng)網(wǎng)絡(luò)自己調(diào)整參數(shù)以得到想要的結(jié)果。
3) BP結(jié)構(gòu)及算法描述
在實(shí)際應(yīng)用中,神經(jīng)網(wǎng)絡(luò)用得最廣泛的是反向傳播網(wǎng)絡(luò)(BP網(wǎng)絡(luò)),典型的BP網(wǎng)絡(luò)是三層網(wǎng)絡(luò),包括輸入層、隱含層和輸出層,各層之間實(shí)行全連接。
BP網(wǎng)絡(luò)是采用Widrow-Hoff學(xué)習(xí)算法和非線性可微傳輸函數(shù)的多層網(wǎng)絡(luò)。網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程由正向和反向傳播兩部分組成。在正向傳播過(guò)程中,每一層神經(jīng)元的狀態(tài)只影響到下一層神經(jīng)元網(wǎng)絡(luò),如果輸出層不能得到期望輸出,就是實(shí)際輸出值與期望輸出值之間有誤差,那么轉(zhuǎn)入反向傳播過(guò)程,將誤差信號(hào)沿原來(lái)的連接通路返回,通過(guò)修改各層神經(jīng)元的權(quán)值,逐次地向輸入層傳播去進(jìn)行計(jì)算,再經(jīng)過(guò)正向傳播過(guò)程,這兩個(gè)過(guò)程的反復(fù)運(yùn)用,使得誤差信號(hào)最小。實(shí)際上,誤差達(dá)到人們所希望的要求時(shí),網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程就結(jié)束了。
4) 反向傳播算法
反向傳播學(xué)習(xí)算法最簡(jiǎn)單的應(yīng)用是沿著性能函數(shù)最速增加的方向一梯度的負(fù)方向更新權(quán)重和偏置。這種遞歸算法可以寫(xiě)成:
xk+1=xk-ak*gk
這里xk是當(dāng)前權(quán)重和偏置向量,gk是當(dāng)前梯度,ak是學(xué)習(xí)速率。在神經(jīng)元中,學(xué)習(xí)速度又稱為“學(xué)習(xí)速率”,它決定每一次循環(huán)訓(xùn)練中所產(chǎn)生的權(quán)值變化量(即該值的存在是神經(jīng)元網(wǎng)絡(luò)的一個(gè)必須的參數(shù))。大的學(xué)習(xí)速度可能導(dǎo)致系統(tǒng)的不穩(wěn)定,但小的學(xué)習(xí)速度將會(huì)導(dǎo)致訓(xùn)練較長(zhǎng),收斂速度很慢,通常情況下取值在0-01~0,8之間。
3 基于BP神經(jīng)網(wǎng)絡(luò)的學(xué)生綜合素質(zhì)量化評(píng)估模型
從上述對(duì)神經(jīng)元網(wǎng)絡(luò)基本概念的研究,我們可以看出BP神經(jīng)網(wǎng)絡(luò)主要根據(jù)所提供的數(shù)據(jù),通過(guò)學(xué)習(xí)和訓(xùn)練,找出輸入與輸出之間的內(nèi)在聯(lián)系,從而求取問(wèn)題的解,而不是完全依據(jù)對(duì)問(wèn)題的經(jīng)驗(yàn)知識(shí)和規(guī)則,因而具有自適應(yīng)功能,這對(duì)于弱化權(quán)重確定中的人為因素是十分有益的;其次能夠處理那些有噪聲或不完全的數(shù)據(jù),具有泛化功能和很強(qiáng)的容錯(cuò)能力;由于實(shí)際對(duì)學(xué)生量化評(píng)估往往是非常復(fù)雜的,各個(gè)因素之間相互影響,呈現(xiàn)出復(fù)雜的非線性關(guān)系,人工神經(jīng)網(wǎng)絡(luò)為處理這類(lèi)非線性問(wèn)題提供了強(qiáng)有力的工具。因此與其它評(píng)定方法相比,基于神經(jīng)網(wǎng)絡(luò)的評(píng)價(jià)方法越來(lái)越顯示出它的優(yōu)越性。結(jié)合學(xué)校對(duì)學(xué)生進(jìn)行綜合素質(zhì)評(píng)估考核的具體問(wèn)題,我們提出以下設(shè)計(jì)。
3.1量化評(píng)估內(nèi)容的確定
1) 確定學(xué)生的綜合素質(zhì)結(jié)構(gòu)
學(xué)生的綜合素質(zhì)結(jié)構(gòu),主要是根據(jù)一定歷史階段的社會(huì)要求、學(xué)校對(duì)學(xué)生的傳統(tǒng)要求,以及各個(gè)不同年齡階段學(xué)生心理和生理發(fā)展的特征來(lái)確定的,它具有一定的社會(huì)性、科學(xué)性、可行性。以教育部提出的職業(yè)學(xué)校學(xué)生發(fā)展目標(biāo)為依據(jù),評(píng)定內(nèi)容包括:道德品質(zhì)與公民素養(yǎng)、學(xué)習(xí)能力、交流與合作能力、運(yùn)動(dòng)與健康、審美與表現(xiàn)、職業(yè)技能等6個(gè)層次。每個(gè)層次又包括各種因素,各層次和因素之間又是相互聯(lián)系和相互促進(jìn)的,它既反映了社會(huì)的、學(xué)校的具體要求,又符合學(xué)生綜合素質(zhì)發(fā)展和形成的規(guī)律。當(dāng)然,在實(shí)際評(píng)價(jià)學(xué)生中,可以根據(jù)學(xué)校的實(shí)際特點(diǎn)進(jìn)一步確定各要素,進(jìn)一步構(gòu)成學(xué)生綜合素質(zhì)評(píng)價(jià)的綜合評(píng)價(jià)指標(biāo)體系。
2) 學(xué)生綜合素質(zhì)評(píng)價(jià)的結(jié)構(gòu)設(shè)計(jì)
用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)生綜合素質(zhì)評(píng)價(jià)結(jié)構(gòu)的設(shè)計(jì)如圖3所示。對(duì)學(xué)生的綜合素質(zhì)進(jìn)行量化評(píng)估時(shí),從輸入層輸入評(píng)價(jià)學(xué)生綜合素質(zhì)的n個(gè)評(píng)價(jià)指標(biāo)因素信息,經(jīng)隱含層處理后傳入輸入層,其輸出值y即為學(xué)生評(píng)估結(jié)果。這n個(gè)評(píng)價(jià)指標(biāo)因素的設(shè)置,要考慮到能符合學(xué)生綜合素質(zhì)發(fā)展和形成的規(guī)律,能全面評(píng)價(jià)學(xué)生的綜合素質(zhì)狀況。
網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)選擇十分重要,由于輸入層與隱含層神經(jīng)元個(gè)數(shù)的增加會(huì)增加網(wǎng)絡(luò)的表達(dá)能力,不僅會(huì)降低系統(tǒng)的性能,同時(shí)也會(huì)影響其收斂速度和增加噪聲干擾。所以首先必須確定輸入層神經(jīng)元的數(shù)目。為使模型即有理論價(jià)值又有可操作性,本例對(duì)應(yīng)于對(duì)學(xué)生綜合素質(zhì)考核結(jié)構(gòu)的六個(gè)因素,本文采用6個(gè)輸入神經(jīng)元,分別為道德品質(zhì)與公民素養(yǎng)、學(xué)習(xí)能力、交流與合作能力、運(yùn)動(dòng)與健康、審美與表現(xiàn)、職業(yè)技能等評(píng)價(jià)指標(biāo)。由于目前隱單元數(shù)尚無(wú)一般的指導(dǎo)原則,為了兼顧網(wǎng)絡(luò)的學(xué)習(xí)能力和學(xué)習(xí)速度,隱含層神經(jīng)元的個(gè)數(shù)選擇采用試算法,在網(wǎng)絡(luò)訓(xùn)練過(guò)程中進(jìn)行調(diào)整。筆者首先選定15,用訓(xùn)練樣本來(lái)學(xué)習(xí),然后減少隱含層單元數(shù)后再進(jìn)行學(xué)習(xí),通過(guò)觀察訓(xùn)練誤差變化的大小來(lái)調(diào)整隱單元數(shù)。其原則是:若在減少隱單元數(shù)進(jìn)行訓(xùn)練時(shí)過(guò)程平衡(即逐步收斂并達(dá)到較小的誤差)且誤差無(wú)顯著增加,則說(shuō)明減少隱單元數(shù)是合適的;否則表明隱單元數(shù)不宜減少,而應(yīng)增加隱單元數(shù)直到滿意為止。選擇一個(gè)輸入神經(jīng)元為學(xué)生綜合素質(zhì)最終評(píng)價(jià)結(jié)果,分別以0、0,5、1對(duì)應(yīng)于學(xué)生評(píng)議等級(jí)的優(yōu)、良、中三種不同的評(píng)價(jià)結(jié)果。經(jīng)過(guò)多次實(shí)驗(yàn),最后得到適宜的網(wǎng)絡(luò)模型為6-4-1網(wǎng)絡(luò)模式。
3.2 量化評(píng)估模型
1) 指標(biāo)體系的規(guī)范化處理
根據(jù)神經(jīng)網(wǎng)絡(luò)計(jì)算規(guī)則,為了保證輸出在線性部分,不到兩端去,應(yīng)保證輸入輸出在0-1之間,反傳達(dá)時(shí)也一樣,輸出應(yīng)在0~1之間。因此要將原始數(shù)據(jù)歸一預(yù)處理,變換為[0,1]區(qū)間的數(shù)值,得到規(guī)范化數(shù)據(jù),作為輸入輸出節(jié)點(diǎn)的樣本數(shù)據(jù)。原始數(shù)據(jù)采用我校高一年一個(gè)班級(jí)的50名學(xué)生的學(xué)生綜合素質(zhì)各項(xiàng)指標(biāo)因素樣本數(shù)據(jù),將實(shí)際數(shù)據(jù)分為兩組:前40名學(xué)生的各項(xiàng)指標(biāo)因素成績(jī)樣本數(shù)據(jù)作為學(xué)習(xí)樣本,后10名學(xué)生的成績(jī)數(shù)據(jù)作為測(cè)試樣本。
2) 學(xué)習(xí)算法
本模型采用6-4-1BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其中輸入層為6個(gè)指標(biāo)值和一個(gè)閾值。模型初始化時(shí)對(duì)所有的連接權(quán)賦予(0,1)上分布的隨機(jī)數(shù),閾值取1。權(quán)值的修正依據(jù)帶慣性因子的delta規(guī)則。根據(jù)多次試驗(yàn)的結(jié)果,其中,慣性因子α=0.075,學(xué)習(xí)率η=0.85,將樣本數(shù)據(jù)40組為一次循環(huán),每次循環(huán)記錄40組樣本中最大的學(xué)習(xí)誤差。經(jīng)過(guò)多次的學(xué)習(xí),最后觀察網(wǎng)絡(luò)輸入與期望輸出的相對(duì)誤差,當(dāng)誤差小于0.005時(shí),學(xué)習(xí)結(jié)束??梢缘玫饺绻龃髽颖镜膫€(gè)數(shù),精度還會(huì)進(jìn)一步提高。
本文探討了神經(jīng)網(wǎng)絡(luò)在學(xué)生綜合素質(zhì)評(píng)價(jià)上的應(yīng)用方法,可取得較為理想的結(jié)果,它可以解決用傳統(tǒng)統(tǒng)計(jì)方法不能或不易解決的問(wèn)題。但是由于它是一種黑盒方法,無(wú)法表達(dá)和分析評(píng)估系統(tǒng)的輸入與輸出間的關(guān)系,因此也難于對(duì)所得結(jié)果作任何解釋,對(duì)求得的結(jié)果作統(tǒng)計(jì)檢驗(yàn);再者,采用神經(jīng)網(wǎng)絡(luò)作評(píng)價(jià)系統(tǒng)時(shí),由沒(méi)有一個(gè)便于選定最合適的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的標(biāo)準(zhǔn)方法,只能花大量時(shí)間采用湊試法,從許多次實(shí)驗(yàn)中找出“最合適”的一種;還有樣本數(shù)據(jù)需要足夠的多,才能得到較為理想的結(jié)果。
參考文獻(xiàn):
[1] 高長(zhǎng)梅,趙承志,白昆榮.學(xué)校德育工作全書(shū)(上)[M].北京:人民日?qǐng)?bào)出版社,2005.
[2] 聞新,周露,李翔,張寶偉.MATLAB神經(jīng)網(wǎng)絡(luò)仿真與應(yīng)用[M].北京:科學(xué)出版社,2008.
[3] J.P.Marques de sa,Pattern Recognition―Concepts,Methods and Applications[M].北京:清華大學(xué)出版社,2006.
關(guān)鍵詞關(guān)鍵詞:深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);古玩圖片;圖像識(shí)別
DOIDOI:10.11907/rjdk.162768
中圖分類(lèi)號(hào):TP317.4
文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):16727800(2017)005017405
0引言
隨著電子商務(wù)的發(fā)展,大批藝術(shù)品交易網(wǎng)站隨之興起,藏品交易規(guī)模也越來(lái)越大。而當(dāng)前的古玩網(wǎng)上交易平臺(tái)還不能夠?qū)崿F(xiàn)對(duì)現(xiàn)有藏品圖片的自動(dòng)分類(lèi),客戶在尋找目標(biāo)藏品時(shí)不得不在眾多圖片中一一瀏覽。因此需要一種有效的方法來(lái)完成面向圖像內(nèi)容的分類(lèi)。
在基于內(nèi)容的圖像檢索領(lǐng)域,常使用人工設(shè)計(jì)的特征-如根據(jù)花瓶、碗、盤(pán)子的不同形態(tài)特征:目標(biāo)輪廓的圓度、質(zhì)心、寬高比等[1],繼而使用BP神經(jīng)網(wǎng)絡(luò)、SVM分類(lèi)器等對(duì)特征進(jìn)行學(xué)習(xí)分類(lèi)。文獻(xiàn)[2]基于植物葉片的形狀特征,如葉片形狀的狹長(zhǎng)度、矩形度、球狀性、圓形度、偏心率、周長(zhǎng)直徑比等,利用BP神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)植物葉片進(jìn)行分類(lèi)。文獻(xiàn)[3]研究印品圖像的各類(lèi)形狀缺陷,利用圖像缺陷形狀的輪廓長(zhǎng)度、面積和圓形度等幾何特征,導(dǎo)入SVM分類(lèi)器進(jìn)行訓(xùn)練,得到分類(lèi)器模型實(shí)現(xiàn)分類(lèi)。文獻(xiàn)[4]提出了一種基于Zernike矩的水果形狀分類(lèi)方法,通過(guò)提取圖像中具有旋轉(zhuǎn)不變性的Zernike矩特征,并運(yùn)用PCA方法確定分類(lèi)需要的特征數(shù)目,最后將這些特征輸入到SVM分類(lèi)器中,完成水果形狀的分類(lèi)。上述方法都要求對(duì)目標(biāo)形狀分割的準(zhǔn)確性,而分割過(guò)程中由于存在目標(biāo)陰影、目標(biāo)分割不完整問(wèn)題,會(huì)影響到人工特征的準(zhǔn)確選取。除了上述人工特征外,最常用的特征是HOG[5,6]、SIFT[7,8]等。HOG的核心思想是所檢測(cè)的局部物體外形能夠被光強(qiáng)梯度或邊緣方向的分布所描述。HOG表示的是邊緣結(jié)構(gòu)特征,因此可以描述局部形狀信息。SIFT在圖像的空間尺度中尋找極值點(diǎn),并提取出其位置、尺度、旋轉(zhuǎn)不變量。SIFT特征對(duì)于旋轉(zhuǎn)、尺度縮放、亮度變化保持不變。但是,這兩種特征在實(shí)際應(yīng)用中,描述子生成過(guò)程冗長(zhǎng)、計(jì)算量太大。而且在上述方法征設(shè)計(jì)需要啟發(fā)式的方法和專(zhuān)業(yè)知識(shí),很大程度上依靠個(gè)人經(jīng)驗(yàn)。
卷積神經(jīng)網(wǎng)絡(luò)不需要手動(dòng)設(shè)計(jì)提取特征,可以直接將圖片作為輸入,隱式地學(xué)習(xí)多層次特征,進(jìn)而實(shí)現(xiàn)分類(lèi)[9]。相比目前常用的人工設(shè)計(jì)特征然后利用各分類(lèi)器,具有明顯的優(yōu)勢(shì)。近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)已成為語(yǔ)音、圖像識(shí)別領(lǐng)域研究熱點(diǎn)。它的權(quán)值共享特點(diǎn)使得網(wǎng)絡(luò)復(fù)雜度降低,權(quán)值數(shù)量減少。而且,卷積神經(jīng)網(wǎng)絡(luò)直接將圖片作為輸入,避免了復(fù)雜的特征設(shè)計(jì)和提取,具有一定的平移、縮放和扭曲不變性[10]。本文采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)古玩圖片進(jìn)行分類(lèi)。首先,將背景分離后的圖片作為網(wǎng)絡(luò)的輸入,相比原圖作為輸入,此方法的網(wǎng)絡(luò)結(jié)構(gòu)更加簡(jiǎn)單。然后,卷積層通過(guò)不同的卷積核對(duì)輸入圖片進(jìn)行卷積得到不同特征圖,采樣層進(jìn)一步對(duì)特征圖進(jìn)行二次提取,最終提取到合適的特征輸入分類(lèi)器進(jìn)行分類(lèi),而在卷積層、采樣層征圖的大小、數(shù)目都會(huì)影響到網(wǎng)絡(luò)的分類(lèi)能力。因此,本文通過(guò)優(yōu)化網(wǎng)絡(luò)參數(shù),使網(wǎng)絡(luò)達(dá)到較好的分類(lèi)效果。
1卷積神經(jīng)網(wǎng)絡(luò)
1989年,LECUN等[11]提出了卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Networks,CNN),CNN是一種帶有卷積結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò),一般至少有2個(gè)非線性可訓(xùn)練的卷積層、2個(gè)非線性的固定采樣層和1個(gè)全連接層,一共至少5個(gè)隱含層[12]。百度于2012年底將深度學(xué)習(xí)技術(shù)成功應(yīng)用于自然圖像OCR識(shí)別和人臉識(shí)別,此后深度學(xué)習(xí)模型被成功應(yīng)用于一般圖片的識(shí)別和理解。從百度經(jīng)驗(yàn)來(lái)看,深度學(xué)習(xí)應(yīng)用于圖像識(shí)別不但大大提升了準(zhǔn)確性,而且避免了人工特征抽取的時(shí)間消耗,從而大大提高了在線計(jì)算效率[13]。
卷積神經(jīng)網(wǎng)絡(luò)作為一種高效的深度學(xué)習(xí)方法[14],在許多圖像識(shí)別方面取得了很好的成效[1519]。該網(wǎng)絡(luò)作為一種多隱層神經(jīng)網(wǎng)絡(luò),可以提取圖像的多層次特征進(jìn)行識(shí)別。
卷積神經(jīng)網(wǎng)絡(luò)主要包括卷積層和采樣層,卷積層通過(guò)可學(xué)習(xí)的卷積核對(duì)輸入圖片進(jìn)行卷積得到特征圖,卷積操作即加強(qiáng)了輸入圖片的某種特征,并且降低噪聲。卷積之后的結(jié)果通過(guò)激活函數(shù)(通常選擇Sigmoid函數(shù)或Tanh函數(shù))作用輸出構(gòu)成該層的特征圖。特征圖上的每一個(gè)神經(jīng)元只與輸入圖片的一個(gè)局部區(qū)域連接,每個(gè)神經(jīng)元提取的是該局部區(qū)域的特征,所有神經(jīng)元綜合起來(lái)就得到了全局特征,與神經(jīng)元相連接的局部區(qū)域即為局部感受野[20]。而在卷積層中一般存在多張?zhí)卣鲌D,同一張?zhí)卣鲌D使用相同的卷積核,不同特征圖使用不同的卷積核[21],此特點(diǎn)稱為權(quán)值共享,即同一張?zhí)卣鲌D上的所有神經(jīng)元通過(guò)相同的卷積核連接局部感受野。卷積神經(jīng)網(wǎng)絡(luò)的局部感受野和嘀倒蠶硤氐憒蟠蠹跎倭送絡(luò)訓(xùn)練的參數(shù)個(gè)數(shù),降低了網(wǎng)絡(luò)模型的復(fù)雜度。
采樣層對(duì)卷積層提取到的特征圖進(jìn)行局部非重疊采樣,即把特征圖分為互不重疊的N×N個(gè)子區(qū)域,對(duì)每個(gè)子區(qū)域進(jìn)行采樣。卷積神經(jīng)網(wǎng)絡(luò)的采樣方式一般有兩種:最大值采樣和均值采樣。最大值采樣即選取區(qū)域內(nèi)所有神經(jīng)元的最大值作為采樣值,均值采樣為區(qū)域內(nèi)所有神經(jīng)元的平均值作為采樣值。最大值采樣偏向于提取目標(biāo)的特征信息,而均值采樣偏向于提取背景的特征信息[22]。采樣后的特征平面在保留了區(qū)分度高特征的同時(shí)大大減少了數(shù)據(jù)量,它對(duì)一定程度的平移、比例縮放和扭曲具有不變性。
卷積神經(jīng)網(wǎng)絡(luò)通過(guò)卷積層和采樣層的循環(huán)往復(fù)提取到圖像由低層次到高層次的特征,最后一般通過(guò)全連接層將所有特征圖展開(kāi)得到一維向量,然后輸入到分類(lèi)器進(jìn)行分類(lèi)。
卷積神經(jīng)網(wǎng)絡(luò)在處理二維圖像時(shí),卷積層中每個(gè)神經(jīng)元的輸入與上一層的局部感受野相連接,并提取該局部的特征,權(quán)值共享特點(diǎn)又使得各神經(jīng)元保持了原來(lái)的空間關(guān)系,將這些感受不同局部區(qū)域的神經(jīng)元綜合起來(lái)就得到了全局信息。采樣層對(duì)特征圖進(jìn)行局部特征提取,不會(huì)改變神經(jīng)元之間的空間關(guān)系,即二維圖像經(jīng)過(guò)卷積層、采樣層仍然保持二維形式。因此,卷積神經(jīng)網(wǎng)絡(luò)有利于提取形狀方面的特征。雖然卷積神經(jīng)網(wǎng)絡(luò)的局部感受野、權(quán)值共享和子采樣使網(wǎng)絡(luò)大大減少了需要訓(xùn)練參數(shù)的個(gè)數(shù),但是該網(wǎng)絡(luò)作為多隱層神經(jīng)網(wǎng)絡(luò)還是十分復(fù)雜的。對(duì)于不同的數(shù)據(jù)庫(kù),為了達(dá)到比較好的分類(lèi)效果,網(wǎng)絡(luò)的層數(shù)、卷積層特征圖個(gè)數(shù)以及其它參數(shù)的設(shè)置都需要探究。
2基于卷積神經(jīng)網(wǎng)絡(luò)的古玩圖片分類(lèi)
2.1特征提取及傳遞
不同古玩的主要區(qū)別在于形狀不同,而花瓶、盤(pán)子和碗在古玩中最常見(jiàn),因此將這3類(lèi)圖片作為實(shí)驗(yàn)對(duì)象,對(duì)于其它種類(lèi)的古玩圖片的分類(lèi),該網(wǎng)絡(luò)同樣適用。卷積神經(jīng)網(wǎng)絡(luò)采用如下圖所示的5層網(wǎng)絡(luò)結(jié)構(gòu),并對(duì)網(wǎng)絡(luò)各層的特征圖數(shù)目、大小均作了修改。對(duì)于網(wǎng)絡(luò)的輸入,先將原圖像進(jìn)行目標(biāo)與背景分割,然后進(jìn)行灰度化、統(tǒng)一分辨率的處理,最后輸入到卷積神經(jīng)網(wǎng)絡(luò)。由于訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的根本目的是提取不同古玩的特征,而背景不是目標(biāo)的一部分,對(duì)古玩識(shí)別來(lái)說(shuō)并不提供任何有用的信息,反而對(duì)特征的提取造成干擾,所以去除背景噪聲后,網(wǎng)絡(luò)結(jié)構(gòu)會(huì)更加簡(jiǎn)單,同時(shí)也利于網(wǎng)絡(luò)對(duì)特征的學(xué)習(xí)。但是因?yàn)檫M(jìn)行了去背景的預(yù)處理,網(wǎng)絡(luò)也失去了對(duì)復(fù)雜背景下圖片的識(shí)別能力,所以使用該網(wǎng)絡(luò)進(jìn)行古玩圖片分類(lèi)前都要進(jìn)行目標(biāo)分割的預(yù)處理過(guò)程。
卷積神經(jīng)網(wǎng)絡(luò)對(duì)古玩圖片的特征提取過(guò)程如下:
(1)輸入網(wǎng)絡(luò)的圖片為100×100大小的預(yù)處理圖,卷積神經(jīng)網(wǎng)絡(luò)的輸入層之后為卷積層,卷積層通過(guò)卷積核與輸入圖像進(jìn)行卷積得到特征平面,卷積核大小為5×5。如圖2所示,特征平面上每個(gè)神經(jīng)元與原圖像5×5大小的局部感受野連接。卷積核移動(dòng)步長(zhǎng)為1個(gè)像素,因此卷積層C1的特征平面大小為96×96。這種卷積操作在提取到輸入圖像的某一方面特征時(shí),必然會(huì)損失掉圖像的其他特征,而采取多個(gè)卷積核卷積圖像得到多個(gè)特征平面則會(huì)一定程度上彌補(bǔ)這個(gè)缺陷。因此,在卷積層C1中使用了6個(gè)不同的卷積核與輸入圖像進(jìn)行卷積,得到6種不同的特征平面圖。如圖3所示,同一張?zhí)卣鲌D上的所有神經(jīng)元共享一個(gè)卷積核(權(quán)值共享),圖中連接到同一個(gè)特征圖的連接線表示同一個(gè)卷積核,6個(gè)不同的卷積核卷積輸入圖片得到6張不同的特征平面圖。卷積之后的結(jié)果并非直接儲(chǔ)存到C1層特征圖中,而是通過(guò)激活函數(shù)將神經(jīng)元非線性化,從而使網(wǎng)絡(luò)具有更強(qiáng)的特征表達(dá)能力。激活函數(shù)選擇Sigmoid函數(shù)。
卷積層中所使用的卷積核尺寸若過(guò)小,就無(wú)法提取有效表達(dá)的特征,過(guò)大則提取到的特征過(guò)于復(fù)雜。對(duì)于卷積層征圖個(gè)數(shù)的設(shè)置,在一定范圍內(nèi),特征圖的個(gè)數(shù)越多,卷積層提取到越多有效表達(dá)原目標(biāo)信息的特征,但是特征圖個(gè)數(shù)如果過(guò)多,會(huì)使提取到的特征產(chǎn)生冗余,最終使分類(lèi)效果變差。卷積層的各平面由式(1)決定: Xlj=f(∑i∈MjXl-1j*klij+blj)(1)
式(1)中,Mj表示選擇輸入的特征圖集合,l是當(dāng)前層數(shù),f是激活函數(shù),klij表示不同輸入特征圖對(duì)應(yīng)的卷積核,blj為輸出特征圖對(duì)應(yīng)的加性偏置。
(2)卷積層C1后的采樣層S1由6個(gè)特征平面組成,采樣層對(duì)上一層特征圖進(jìn)行局部平均和二次特征提取。采樣過(guò)程如圖4所示,特征平面上的每個(gè)神經(jīng)元與上一層4×4大小的互不重合的鄰域連接進(jìn)行均值采樣,最終每個(gè)平面的大小為24×24。采樣層的各平面由式(2)決定:
Xlj=f(βljdown(Xl-1j)+blj)(2)
式(2)中,down(.)表示一個(gè)下采樣函數(shù),l是當(dāng)前層數(shù),f是激活函數(shù),βlj表示輸出特征圖對(duì)應(yīng)的乘性偏置,blj為輸出特征圖對(duì)應(yīng)的加性偏置。
(3)卷積層C2與C1層操作方式一樣,唯一區(qū)別的是C2層每個(gè)特征圖由6個(gè)不同的卷積核與上一層6個(gè)特征圖分別卷積求和得到,因此C2層一共有6×6個(gè)不同的卷積核,卷積核大小為5×5,C2層每個(gè)平面大小為20×20,共6個(gè)特征平面。
(4)采樣層S2與S1層操作一樣,對(duì)上一層4×4大小鄰域進(jìn)行均值采樣,輸出6個(gè)5×5大小的特征平面。本文所用的網(wǎng)絡(luò)共包括2個(gè)卷積層、2個(gè)采樣層、1個(gè)全連接層,由于輸入圖片已經(jīng)過(guò)背景分離的預(yù)處理,采樣層S2特征圖大小為5×5,所以圖1所示5層網(wǎng)絡(luò)已經(jīng)有很好的表達(dá)能力。如果直接將原圖作為輸入,那么網(wǎng)絡(luò)的層數(shù)以及特征圖的個(gè)數(shù)將比圖1所示的網(wǎng)絡(luò)更加復(fù)雜。
(5)全連接層將上一層6個(gè)5×5大小的二維平面展開(kāi)成為1×150大小的一維向量輸入Softmax[23]分類(lèi)器,輸出層一共有3個(gè)神經(jīng)元(即分類(lèi)的種類(lèi)數(shù)目),分類(lèi)器將提取到的特征向量映射到輸出層的3個(gè)神經(jīng)元上,即實(shí)現(xiàn)分類(lèi)。
2.2網(wǎng)絡(luò)訓(xùn)練
訓(xùn)練方式為有監(jiān)督地訓(xùn)練,網(wǎng)絡(luò)對(duì)盤(pán)子、花瓶和碗共三類(lèi)圖片進(jìn)行分類(lèi),所以分類(lèi)器輸出一個(gè)3維向量,稱為分類(lèi)標(biāo)簽。在分類(lèi)標(biāo)簽的第k維中1表示分類(lèi)結(jié)果,否則為0。訓(xùn)練過(guò)程主要分為兩個(gè)階段:
第一階段:向前傳播A段。
將預(yù)處理過(guò)的圖片輸入卷積神經(jīng)網(wǎng)絡(luò)計(jì)算得到分類(lèi)標(biāo)簽。
第二階段:向后傳播階段。
計(jì)算輸出的分類(lèi)標(biāo)簽和實(shí)際分類(lèi)標(biāo)簽之間的誤差。根據(jù)誤差最小化的原則調(diào)整網(wǎng)絡(luò)中的各個(gè)權(quán)值。分類(lèi)個(gè)數(shù)為3,共有N個(gè)訓(xùn)練樣本。那么第n個(gè)樣本的誤差為:
En=12∑3k=1(tnk-ynk)2(3)
式(3)中,tn表示第n個(gè)樣本的網(wǎng)絡(luò)輸出標(biāo)簽,tnk對(duì)應(yīng)標(biāo)簽的第k維,yn表示第n個(gè)樣本的實(shí)際分類(lèi)標(biāo)簽,ynk對(duì)應(yīng)標(biāo)簽的第k維。為了使誤差變小,利用權(quán)值更新公式(4)更新各層神經(jīng)元的權(quán)值,一直訓(xùn)練直到網(wǎng)絡(luò)誤差曲線收斂。
W(t+1)=W(t)+η?δ(t)?X(t)(4)
式(4)中,W(t)表示算第n個(gè)樣本時(shí)的權(quán)值,W(t+1)表示計(jì)算第n+1個(gè)樣本的權(quán)值,η為學(xué)習(xí)速率,選取經(jīng)驗(yàn)值,δ為神經(jīng)元的誤差項(xiàng),X表示神經(jīng)元的輸入。
3實(shí)驗(yàn)結(jié)果及分析
實(shí)驗(yàn)在MatlabR2012a平臺(tái)上完成,CPU 2.30GHz,內(nèi)存4GB,所采用的圖像由相關(guān)古玩網(wǎng)站提供,分辨率統(tǒng)一格式化為100×100。由于盤(pán)子、花瓶和碗在各種古玩種類(lèi)中它們之間的形狀差別比較明顯,本文實(shí)驗(yàn)對(duì)這三類(lèi)古玩圖片進(jìn)行分類(lèi)。對(duì)古玩圖片進(jìn)行了水平翻轉(zhuǎn)處理,增加圖片數(shù)據(jù)量,以加強(qiáng)網(wǎng)絡(luò)對(duì)古玩圖片分類(lèi)的魯棒性。實(shí)驗(yàn)數(shù)據(jù)如表1所示,圖5列出了3類(lèi)圖片的部分樣本,實(shí)驗(yàn)所用圖片均與圖5所示圖片類(lèi)似,背景比較單一,少數(shù)圖片下方有類(lèi)似陰影。
為了形象表示網(wǎng)絡(luò)各層提取的不同特征,圖6展示了當(dāng)網(wǎng)絡(luò)輸入為盤(pán)子時(shí)的各層特征圖。卷積層C1中6張?zhí)卣鲌D分別提取到了輸入圖片的不同特征,而由于權(quán)值共享,同一張?zhí)卣鲌D中神經(jīng)元的空間關(guān)系保持不變,所以6張?zhí)卣鲌D都抓住了盤(pán)子的圓形特征。采樣層S1對(duì)C1進(jìn)行均值采樣,相當(dāng)于模糊濾波,所以S1層各特征圖看起來(lái)模糊了一些。卷積層C2中每張?zhí)卣鲌D由6個(gè)不同的卷積核卷積S1層各特征圖疊加而成,S2層與S1層處理方式相同。
為了說(shuō)明將背景分離后的圖片作為輸入的網(wǎng)絡(luò)與原圖輸入的網(wǎng)絡(luò)之間的差異,設(shè)計(jì)了如表3所示的兩種網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)CNN4只需要4層網(wǎng)絡(luò)層就可以達(dá)到0.19%的錯(cuò)誤率,而原圖作為輸入的CNN8共6層網(wǎng)絡(luò)層,在網(wǎng)絡(luò)達(dá)到收斂的情況下,錯(cuò)誤率為5.24%。由此可以說(shuō)明,將背景分離后圖片作為輸入的網(wǎng)絡(luò)結(jié)構(gòu)更加簡(jiǎn)單。
網(wǎng)絡(luò)的訓(xùn)練采用了批量訓(xùn)練方式,即將樣本分多批,當(dāng)一批樣本前向傳播完之后才進(jìn)行權(quán)值更新,每批大小為100,訓(xùn)練集共2 200張圖片,網(wǎng)絡(luò)迭代次數(shù)為1時(shí)共進(jìn)行22次權(quán)值更新,所以權(quán)值更新的計(jì)算次數(shù)與迭代次數(shù)有如下關(guān)系:
計(jì)算次數(shù)=22×迭代次數(shù)(5)
圖7為網(wǎng)絡(luò)在訓(xùn)練集上的誤差曲線圖,橫坐標(biāo)為誤差反向傳播的計(jì)算次數(shù),縱坐標(biāo)為訓(xùn)練集上的均方誤差??梢钥闯?,當(dāng)網(wǎng)絡(luò)訓(xùn)練次數(shù)達(dá)到270次(計(jì)算次數(shù)約6 000)時(shí),訓(xùn)練集誤差趨于平緩,網(wǎng)絡(luò)已經(jīng)基本擬合。訓(xùn)練好的網(wǎng)絡(luò)可以用來(lái)對(duì)測(cè)試集圖片進(jìn)行分類(lèi),表4為不同迭代次數(shù)下訓(xùn)練的網(wǎng)絡(luò)在測(cè)試集上的分類(lèi)錯(cuò)誤率,可以看出迭代次數(shù)在達(dá)到270次后,網(wǎng)絡(luò)在測(cè)試集的錯(cuò)誤率收斂,此時(shí)只有2張圖片出現(xiàn)分類(lèi)錯(cuò)誤。
表5給出了圖像分類(lèi)算法中常用的人工特征+BP神經(jīng)網(wǎng)絡(luò)、人工特征+SVM分類(lèi)器以及Hog特征+SVM分類(lèi)器與CNN方法的性能比較。人工設(shè)計(jì)的特征包括圖片中目標(biāo)輪廓的最大長(zhǎng)寬比、質(zhì)心、圓度等特征。從準(zhǔn)確率方面來(lái)看,CNN方法的準(zhǔn)確率高于其他方法,Hog特征方法的準(zhǔn)確率遠(yuǎn)遠(yuǎn)高于人工特征的方法,說(shuō)明了特征的好壞對(duì)圖像分類(lèi)效果有著很大程度上的影響,CNN提取到的特征比Hog和人工設(shè)計(jì)的特征更具代表性。從測(cè)試時(shí)間來(lái)看,Hog方法與CNN方法相差不多,采用人工特征的方法時(shí)間最長(zhǎng)。綜合兩個(gè)方面,CNN方法在測(cè)試時(shí)間和HOG方法相近的情況下,準(zhǔn)確率最高。
4結(jié)語(yǔ)
針對(duì)網(wǎng)上古玩圖片分類(lèi)問(wèn)題,為了克服現(xiàn)有算法中人工設(shè)計(jì)特征困難以及往往依賴個(gè)人專(zhuān)業(yè)經(jīng)驗(yàn)的不足,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的方法。將背景分離后的目標(biāo)圖片作為網(wǎng)絡(luò)輸入,可以實(shí)現(xiàn)自動(dòng)提取特征進(jìn)行分類(lèi),背景分離后圖片作為網(wǎng)絡(luò)輸入使得網(wǎng)絡(luò)結(jié)構(gòu)更加簡(jiǎn)單,并且設(shè)置了合適的特征圖個(gè)數(shù)以使網(wǎng)絡(luò)在古玩圖片集上取得較好的分類(lèi)準(zhǔn)確率。實(shí)驗(yàn)數(shù)據(jù)表明,該方法能夠解決網(wǎng)上古玩圖片的分類(lèi)問(wèn)題,并且分類(lèi)準(zhǔn)確率達(dá)到99%,其準(zhǔn)確率優(yōu)于常用的Hog特征以及人工特征方法。另外該方法不僅可以應(yīng)用于網(wǎng)上古玩圖片,還可應(yīng)用于鞋類(lèi)、服裝等其它商品圖像的分類(lèi)。
參考文獻(xiàn)參考文獻(xiàn):
[1]K KAVITHA,M.V.SUDHAMANI.Object based image retrieval from database using combined features[C].in Signal and Image Processing (ICSIP),2014.
[2]董紅霞,郭斯羽,一種結(jié)合形狀與紋理特征的植物葉片分類(lèi)方法[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(23):185188.
[3]舒文娉,劉全香,基于支持向量機(jī)的印品缺陷分類(lèi)方法[J].包裝工程,2014,35(23):138142.
[4]應(yīng)義斌,桂江生,饒秀勤,基于Zernike矩的水果形狀分類(lèi)[J].江蘇大學(xué)學(xué)報(bào):自然科學(xué)版,2007,28(1):3639.
[5]ZHU Q,YEH M C,CHENG K T,et al.Fast human detection using acascade of histograms of oriented gradients[C].Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2006.
[6]M VILLAMIZAR,J SCANDALIANS,A SANFELIU bining colorbased invariant gradient detector with Hog descriptors for robust image detection in scenes under cast shadows[C].In Robotics and Automation,ICRA IEEE International Conference on.Barcelona,Spain:IEEE,2009.
[7]CHEN J,LI Q,PENG Q,et al.CSIFT based localityconstrained linear coding for image classification[J].Formal Pattern Analysis & Applications,2015,18(2):441450.
[8]AHMAD YOUSEF K M,ALTABANJAH M,HUDAIB E,et al.SIFT based automatic number plate recognition[C].International Conference on Information and Communication Systems.IEEE,2015.
[9]LAWRENCE S,GLIES C L,TSOI A C,et al.Face recognition:a convolutional neuralnetwork approach[J].IEEE Transactions on Neural Networks,1997,8(1):98113.
[10]TREVOR HASTIE,ROBERT TIBSHIRANI,J FRIEDMAN.The elements of statistical learning[M].New York:Springer,2001.
[11]Y LECUN,L BOUOU,Y BENGIO.Gradientbased learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):22782324.
[12]DAHL J V,KOCH K C,KLEINHANS E,et al.Convolutional networks and applications in vision[C].International Symposium on Circuits and Systems (ISCAS 2010),2010:253256.
[13]余凱,賈磊,陳雨強(qiáng),等.深度學(xué)習(xí)的昨天、今天和明天[J].計(jì)算機(jī)研究與發(fā)展,2013(09):17991804.
[14]MAIRAL J,KONIUSZ P,HARCHAOUI Z,et al.Convolutional kernel networks[DB/OL].http:///pdf/1406.3332v2.pdf.
[15]Z世杰,楊東坡與劉金環(huán),基于卷積神經(jīng)網(wǎng)絡(luò)的商品圖像精細(xì)分類(lèi)[J].山東科技大學(xué)學(xué)報(bào):自然科學(xué)版,2014(6):9196.
[16]程文博等,基于卷積神經(jīng)網(wǎng)絡(luò)的注塑制品短射缺陷識(shí)別[J].塑料工業(yè),2015(7):3134,38.
[17]鄧柳,汪子杰,基于深度卷積神經(jīng)網(wǎng)絡(luò)的車(chē)型識(shí)別研究[J].計(jì)算機(jī)應(yīng)用研究,2016(4):14.
[18]T JONATAN,S MURPHY,Y LECUN,et al.Realtime continuous pose recovery of human hands using convolutional networks[J].ACM Transaction on Graphics,2014,33(5):3842.
[19]S SKITTANON,A C SURENARAN,J C PLATT,et al.Convolutional networks for speech detection[C].Interspeech.Lisbon,Portugal:ISCA,2004.
[20]HUBEL D H,WIESEL T N.Integrative action in the cat's lateral geniculate body[J].Journal of Physiology,1961,155(2):385398.
[21]JAKE BOUVRIE.Notes on convolutional neural networks[DB/OL].http:///5869/1/cnn_tutorial.pdf.
關(guān)鍵詞:數(shù)據(jù)挖掘;網(wǎng)絡(luò)入侵;安全防護(hù)系統(tǒng);信息安全;檢測(cè)技術(shù)
中圖分類(lèi)號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-2374(2010)04-0001-02
隨著信息技術(shù)的發(fā)展,網(wǎng)絡(luò)已經(jīng)承載了越來(lái)越多的公司核心業(yè)務(wù)。信息安全問(wèn)題成為了一個(gè)業(yè)界和用戶必須面對(duì)的問(wèn)題。網(wǎng)絡(luò)用戶通常將防火墻當(dāng)作保障信息安全的手段,而網(wǎng)絡(luò)攻擊者也在變換著攻擊的技術(shù)和方式,隨著攻擊者的手法與工具日益繁多,對(duì)于一些信息敏感的部門(mén)來(lái)講,只用防火墻已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足安全需求。在這種情況下,需要采用具有深度的,多樣化的防護(hù)方式來(lái)進(jìn)行網(wǎng)絡(luò)安全部署。結(jié)合當(dāng)今越來(lái)越復(fù)雜的網(wǎng)絡(luò)環(huán)境,設(shè)備的配置需要頻繁升級(jí)和維護(hù),系統(tǒng)的操作和管理也為網(wǎng)絡(luò)工作人員帶來(lái)了較大的工作量,而安全隱患經(jīng)常產(chǎn)生在管理員疏忽大意的時(shí)候。所以,針對(duì)網(wǎng)絡(luò)入侵的檢測(cè)技術(shù)和設(shè)備越來(lái)越受到人們的關(guān)注,而且開(kāi)始在安全需求較高的網(wǎng)絡(luò)中發(fā)揮關(guān)鍵作用。
一、網(wǎng)絡(luò)攻擊導(dǎo)致流量異常的分類(lèi)及特點(diǎn)
可以將網(wǎng)絡(luò)入侵行為分為四類(lèi),分別是:DOS拒絕服務(wù)攻擊、R2L遠(yuǎn)程網(wǎng)絡(luò)用戶攻擊、U2L用戶獲取超級(jí)權(quán)限攻擊以及PROBE探測(cè)攻擊。和本文相關(guān)的(造成網(wǎng)絡(luò)流量異常情況的)是以下兩類(lèi)異常攻擊,現(xiàn)對(duì)其特點(diǎn)進(jìn)行分析:
(一)拒絕服務(wù)攻擊
對(duì)于拒絕服務(wù)攻擊而言,這種攻擊手段嚴(yán)重危害網(wǎng)絡(luò)安全,其主要模式是利用了網(wǎng)絡(luò)和服務(wù)器的固有弱點(diǎn)而故意制造許多無(wú)意義的數(shù)據(jù)流量,從而擠占了網(wǎng)絡(luò)為正常使用者提供的請(qǐng)求服務(wù)。攻擊的手段是將大量ICMP 數(shù)據(jù)報(bào)文、非法的 IP 報(bào)文等由攻擊者直接向攻擊目標(biāo)不間斷發(fā)送,導(dǎo)致主機(jī)處理能力耗盡。
(二)掃描探測(cè)攻擊
這屬于一種很普遍的攻擊行為,比如蠕蟲(chóng)病毒爆發(fā)時(shí)首先要進(jìn)行大量端口掃描或主機(jī)掃描,蠕蟲(chóng)病毒最大的特點(diǎn)是快速繁殖和自動(dòng)攻擊,結(jié)合蠕蟲(chóng)病毒的攻擊特點(diǎn)與攻擊方式,可以查看網(wǎng)絡(luò)主機(jī)的SYN 位以及SYN/ACK 位,若發(fā)現(xiàn)其報(bào)文數(shù)量有明顯差異,則可將其作為一個(gè)蠕蟲(chóng)病毒的源頭。本文的入侵檢測(cè)也是基于對(duì)網(wǎng)絡(luò)攻擊特征的總結(jié)。
二、基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)防護(hù)系統(tǒng)構(gòu)建
(一)入侵檢測(cè)系統(tǒng)整體架構(gòu)
本文構(gòu)建的入侵檢測(cè)系統(tǒng)的建模依據(jù)是網(wǎng)絡(luò)上出現(xiàn)異常的數(shù)據(jù)流量,下面是組成模塊的功能描述。
1.信息采集模塊。此模塊的主要功能是對(duì)信息數(shù)據(jù)進(jìn)行捕獲,數(shù)據(jù)來(lái)源為網(wǎng)絡(luò)應(yīng)用系統(tǒng)的計(jì)算機(jī)網(wǎng)卡。模塊將捕獲的信息數(shù)據(jù)制作一份拷貝,傳輸?shù)揭呀?jīng)分配好的緩沖區(qū),這份拷貝是為系統(tǒng)中別的模塊訪問(wèn)而準(zhǔn)備的。入侵檢測(cè)系統(tǒng)在網(wǎng)絡(luò)中進(jìn)行配置部署期間便會(huì)直接獲取數(shù)據(jù)信息,因此本模塊的使用時(shí)期為入侵檢測(cè)系統(tǒng)初步測(cè)試期間。當(dāng)系統(tǒng)一旦正式投運(yùn),模塊將不再具備效能??梢钥闯?此模塊的主要作用是通過(guò)數(shù)據(jù)的提取來(lái)為后續(xù)的數(shù)據(jù)挖掘過(guò)程提供數(shù)據(jù)資源。
2.信息整理模塊。模塊的功能是對(duì)報(bào)文進(jìn)行處理,并將處理之后的報(bào)文信息傳遞到其對(duì)應(yīng)的IP匯聚項(xiàng)。此模塊與數(shù)據(jù)庫(kù)間的連接,使得模塊能夠按照一定的周期向數(shù)據(jù)庫(kù)中傳輸經(jīng)過(guò)匯聚的數(shù)據(jù)信息,從而為對(duì)入侵檢測(cè)下一步的流程處理提供了數(shù)據(jù)源。
3.數(shù)據(jù)挖掘模塊。本模塊的首要任務(wù)是調(diào)試神經(jīng)網(wǎng)絡(luò)系統(tǒng)的系統(tǒng)參數(shù),使其盡可能優(yōu)化,這一步是在離線的情況下完成。通過(guò)定時(shí)從數(shù)據(jù)庫(kù)將源IP匯聚信息提取出來(lái)進(jìn)行基于神經(jīng)網(wǎng)絡(luò)技術(shù)的分析,來(lái)判別數(shù)據(jù)流中是否夾雜著攻擊行為。模塊還可以根據(jù)攻擊信息而生成相應(yīng)的報(bào)告。
4.報(bào)警記錄模塊。報(bào)警模塊的功能是在發(fā)生攻擊行為時(shí)用對(duì)話框產(chǎn)生報(bào)警信號(hào),同時(shí)向系統(tǒng)管理員提交報(bào)警信息。
系統(tǒng)的神經(jīng)網(wǎng)絡(luò)參數(shù)可以隨時(shí)用人工操作的方式在在線分析時(shí)進(jìn)行調(diào)整,從而使參數(shù)能夠盡可能的準(zhǔn)確和優(yōu)化。通過(guò)模塊所提供的相關(guān)功能界面,網(wǎng)絡(luò)安全管理員能夠?qū)崟r(shí)監(jiān)控和配置對(duì)整個(gè)入侵檢測(cè)系統(tǒng)。整個(gè)系統(tǒng)模型如圖1所示:
本入侵檢測(cè)系統(tǒng)可以分為兩大組成部分,在數(shù)據(jù)輸入數(shù)據(jù)庫(kù)之前的模塊屬于信息采集和整理,這部分的主要功能是匯聚和手機(jī)網(wǎng)絡(luò)上的實(shí)施數(shù)據(jù),傳輸?shù)綌?shù)據(jù)庫(kù)中以備進(jìn)一步的挖掘處理;在數(shù)據(jù)庫(kù)處理后輸出的部分則屬于對(duì)匯聚數(shù)據(jù)進(jìn)行分析,主要操作為將數(shù)據(jù)庫(kù)中提取出的匯聚信息進(jìn)行網(wǎng)絡(luò)流量異常分析,用數(shù)據(jù)挖掘的方式來(lái)確定數(shù)據(jù)中是否存在異常的網(wǎng)絡(luò)攻擊行為,數(shù)據(jù)分析模塊的信息數(shù)據(jù)完全來(lái)自數(shù)據(jù)采集模塊的輸出。
(二)數(shù)據(jù)挖掘算法的實(shí)現(xiàn)
本系統(tǒng)選取一個(gè)三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),將樣本X加入到輸入層中,用NETn表示來(lái)自輸入層所有神經(jīng)元Om的輸入總和,得到輸出結(jié)果On。將系統(tǒng)權(quán)系數(shù)定義為Wmn,采用采用sigmoid函數(shù)作為激發(fā)函數(shù)作用于所有的神經(jīng)元。
sigmoid函數(shù)表示為:f(x)=1/(1-e-x)
以下是具體的算法流程:
1.將權(quán)系數(shù)初始值進(jìn)行確定。
2.通過(guò)對(duì)所有樣本的分析計(jì)算,對(duì)以下流程進(jìn)行重復(fù),直到系統(tǒng)收斂為止。
(1) 按照前后順序,對(duì)各層單元On進(jìn)行計(jì)算:
NETn=∑Om*Wmn
On=1/(1-e-NETn)
(2) 得出輸出層的δn:
δn=(y-On)*On*(1-On)
(3) 按照從后向前的順序,計(jì)算各層的δn值:
δn=On*(1-On)*∑δ1*Wnl
(4)計(jì)算各權(quán)值修正量,并保存起來(lái)。
SWmn(t)=a*SWmn(t-1)+b*δn*Om
最后,對(duì)權(quán)值進(jìn)行修正:
Wmn(t+1)=Wmn(t)+SWmn(t)
用以下步驟實(shí)現(xiàn)本算法:
系統(tǒng)的權(quán)值由隨機(jī)數(shù)產(chǎn)生并把偏置量置為1,偏置量權(quán)值同其他輸入值。
將首個(gè)樣本值輸入進(jìn)神經(jīng)網(wǎng)絡(luò)系統(tǒng),經(jīng)過(guò)計(jì)算處理后求得其輸出值,用實(shí)際的分類(lèi)值作參考與此輸出值進(jìn)行比較,將其間的差異進(jìn)行后反向傳遞,從而去調(diào)整之前確定的權(quán)值,之后到達(dá)步驟2;
向神經(jīng)網(wǎng)絡(luò)系統(tǒng)中輸入第二個(gè)樣本值,將上一步調(diào)整后的權(quán)值作為其權(quán)值,運(yùn)算處理的過(guò)程則同第一步,從而再次進(jìn)行權(quán)值的調(diào)整,之后到達(dá)下一步;
繼續(xù)將第三個(gè)樣本值輸入,其余過(guò)程則類(lèi)似第二步,之后到達(dá)下一步;
……
(n)向神經(jīng)網(wǎng)絡(luò)系統(tǒng)中將第 n 個(gè)樣本值輸入,調(diào)整權(quán)值,之后到達(dá)下一步;
(n+1)將首個(gè)樣本值第2次向神經(jīng)網(wǎng)絡(luò)系統(tǒng)中輸入,調(diào)整之前確定的權(quán)值,之后到達(dá)(n+2)步;
……
有多種方法可以用來(lái)停止神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),如將權(quán)值調(diào)整的次數(shù)規(guī)定為一個(gè)特定的值,比如800次;此外,還可以規(guī)定一個(gè)誤差值,當(dāng)樣本值在經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)系統(tǒng)處理后的輸出與實(shí)際的分類(lèi)值的差的絕對(duì)值小于這個(gè)誤差值時(shí),就停止神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)。
(三)安全防護(hù)系統(tǒng)的應(yīng)用模式
可以把此系統(tǒng)劃分為數(shù)據(jù)挖掘模塊和數(shù)據(jù)采集整理模塊兩大部分。在通常采用的做法中,數(shù)據(jù)挖掘技術(shù)在入侵檢測(cè)流程里的角色為:在確定了攻擊行為特征屬性后,以數(shù)據(jù)流的具體走向?yàn)闇?zhǔn),向數(shù)據(jù)挖掘模塊輸入來(lái)自數(shù)據(jù)采集整理模塊的攻擊特征屬性,由數(shù)據(jù)挖掘模塊判定是否確定出現(xiàn)了具體的網(wǎng)絡(luò)攻擊行為。
需要注意的是,雖然在入侵檢測(cè)系統(tǒng)里引入數(shù)據(jù)挖掘技術(shù)可以起到明顯的效果,但是數(shù)據(jù)挖掘的算法本身具有“通用算法”的特點(diǎn),是基于一般知識(shí)的。而將數(shù)據(jù)挖掘算法應(yīng)用到信息安全領(lǐng)域時(shí),由于網(wǎng)絡(luò)隨時(shí)可能產(chǎn)生眾多無(wú)意義的信息,因此為了將此類(lèi)干擾信息降至最低,必須以具有針對(duì)性的網(wǎng)絡(luò)協(xié)議進(jìn)行約束和過(guò)濾。只有在具備了完備的特征屬性的數(shù)據(jù)輸入的基礎(chǔ)上,數(shù)據(jù)挖掘技術(shù)才能發(fā)揮效力,如果由于大量無(wú)意義信息的存在而導(dǎo)致產(chǎn)生了不合理的特征屬性,則會(huì)對(duì)數(shù)據(jù)挖掘功能造成某種程度的誤導(dǎo),致使入侵檢測(cè)失去效能。
三、結(jié)語(yǔ)
網(wǎng)絡(luò)上承載著大量的數(shù)據(jù)和應(yīng)用,隨之而來(lái)的是許多安全審計(jì)數(shù)據(jù)信息。通過(guò)對(duì)這些信息進(jìn)行處理和提取,從中萃取出網(wǎng)絡(luò)入侵行為的特征量,是網(wǎng)絡(luò)安全防范最核心的問(wèn)題。對(duì)安全審計(jì)信息的處理和操作即為網(wǎng)絡(luò)入侵檢測(cè),數(shù)據(jù)挖掘技術(shù)的引入,能夠幫助系統(tǒng)在在大量數(shù)據(jù)中迅速判斷提取出隱藏的潛在知識(shí)信息,因此數(shù)據(jù)挖掘在入侵檢測(cè)中的應(yīng)用是一個(gè)被廣泛關(guān)注的應(yīng)用問(wèn)題。
參考文獻(xiàn)
[1]蔣建春,馮登國(guó).網(wǎng)絡(luò)入侵檢測(cè)原理與技術(shù)[M].國(guó)防工業(yè)出版社,2008.
[2]Rebecca G.Brace.入侵檢測(cè)[M].北京:人民郵電出版社,2008.
[3]Axels son S.Research in Intrusion Detection Systems:A Survey Technical Report[R].1998,12(17),Dept.of Computer Eng. Chalmers Univ.of Tech,SE-412 96 Goteborg,Sweden,2006,(12).
關(guān)鍵詞:人工神經(jīng)網(wǎng)絡(luò) 盈利能力 評(píng)價(jià) 預(yù)測(cè) 上市公司
一、人工神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,以下簡(jiǎn)稱ANN),是一種對(duì)生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)與功能進(jìn)行模仿的數(shù)學(xué)計(jì)算模型。神經(jīng)網(wǎng)絡(luò)依靠大量的人工“神經(jīng)元”聯(lián)結(jié)組合而成,每個(gè)“神經(jīng)元”代表一種激勵(lì)函數(shù),它屬于一種特定的輸出函數(shù)。對(duì)每?jī)蓚€(gè)“神經(jīng)元”間的連接都賦予一個(gè)權(quán)重(Weight),它代表通過(guò)該連接信號(hào)的加權(quán)值,這與活體生物的神經(jīng)網(wǎng)絡(luò)相類(lèi)似。網(wǎng)絡(luò)的激勵(lì)函數(shù)、連接方式與權(quán)重值的不同決定了網(wǎng)絡(luò)輸出的不同。同時(shí),ANN是一種自適應(yīng)系統(tǒng),它能根據(jù)外界信息的變化改變自身的內(nèi)部結(jié)構(gòu),通過(guò)對(duì)輸入、輸出變量的不同關(guān)系的分析,掌握其中的內(nèi)在規(guī)律,建立不同的非線性統(tǒng)計(jì)性數(shù)據(jù)模型,這一建模的過(guò)程也被稱為“訓(xùn)練”。
如圖1所示,a1、a2、……、an為輸入向量的各個(gè)分量;W1、W2、……、Wn為神經(jīng)元各個(gè)連接的權(quán)重,b為偏置,f為非線性傳遞函數(shù),t為神經(jīng)元輸出,t=f(WA′+b),其中,W為權(quán)向量,A為輸入向量,A′為A向量的轉(zhuǎn)置。
盈利能力是衡量企業(yè)經(jīng)營(yíng)業(yè)績(jī)的重要指標(biāo),是為維持企業(yè)生存、推動(dòng)企業(yè)發(fā)展的根本動(dòng)力,備受企業(yè)的管理者、所有者、債權(quán)人、政府監(jiān)管部門(mén)等利益相關(guān)者的關(guān)注。因此,必須對(duì)企業(yè)的盈利能力進(jìn)行準(zhǔn)確、合理的評(píng)價(jià)與預(yù)測(cè)。由于企業(yè)的盈利能力不僅涉及到一系列定量的指標(biāo),還包括了大量定性的指標(biāo),這些指標(biāo)本身就非常復(fù)雜,再加上會(huì)計(jì)信息本身所特有的模糊性,對(duì)盈利能力的評(píng)價(jià)與預(yù)測(cè)造成了很大的難度。ANN具備大量公式同時(shí)運(yùn)行、大量數(shù)據(jù)同時(shí)計(jì)算、運(yùn)算程序分布式存儲(chǔ)、運(yùn)算結(jié)果綜合式處理、自我適應(yīng)、自我組織與自我學(xué)習(xí)的能力,它自從被提出以來(lái)就在實(shí)務(wù)界得到廣泛的運(yùn)用,特別是隨著近年來(lái)計(jì)算機(jī)電子技術(shù)的發(fā)展與進(jìn)步,ANN逐步完成了軟件模擬與硬件實(shí)現(xiàn)的無(wú)縫對(duì)接,在信號(hào)處理、模式識(shí)別、專(zhuān)家系統(tǒng)、優(yōu)化組合、知識(shí)控制、機(jī)器人控制等領(lǐng)域發(fā)揮著越來(lái)越重要的作用。ANN非常適合應(yīng)用于擁有很多不同的輸入向量(即所要處理的問(wèn)題需要同時(shí)考慮多種條件與因素),且輸入向量具備不精確、模糊性特征的信息處理問(wèn)題。筆者根據(jù)衡量企業(yè)盈利能力的各項(xiàng)評(píng)價(jià)指標(biāo)的特征,結(jié)合ANN的優(yōu)點(diǎn),構(gòu)建了一個(gè)ANN企業(yè)盈利能力綜合評(píng)價(jià)與預(yù)測(cè)模型。
二、基于人工神經(jīng)網(wǎng)絡(luò)的企業(yè)盈利能力評(píng)價(jià)與預(yù)測(cè)模型設(shè)計(jì)
(一)指標(biāo)的選擇
企業(yè)盈利能力指標(biāo)從不同的角度出發(fā)可以分為以下幾個(gè)方面:第一類(lèi)是應(yīng)用最廣泛的商品經(jīng)營(yíng)盈利能力分析指標(biāo),在計(jì)算時(shí)以企業(yè)的利潤(rùn)表為分析基礎(chǔ),包括收入利潤(rùn)率分析與成本利潤(rùn)率分析;第二類(lèi)為資本經(jīng)營(yíng)盈利能力分析指標(biāo),在計(jì)算時(shí)不僅要運(yùn)用企業(yè)的利潤(rùn)表,還涉及到資產(chǎn)負(fù)債表,主要是對(duì)凈資產(chǎn)收益率的計(jì)算、分析與評(píng)價(jià);第三類(lèi)為資產(chǎn)經(jīng)營(yíng)盈利能力分析指標(biāo),主要是指企業(yè)的總資產(chǎn)報(bào)酬率指標(biāo)進(jìn)行分析和評(píng)價(jià)。盈利能力評(píng)價(jià)指標(biāo)的選取是否科學(xué)、合理,與最終所建立的ANN企業(yè)盈利能力綜合評(píng)價(jià)模型的有效性直接相關(guān),因此,評(píng)價(jià)指標(biāo)的選擇應(yīng)堅(jiān)持科學(xué)性、全面性、可行性、可比性、客觀性、重點(diǎn)性等原則。筆者在建立ANN企業(yè)盈利能力綜合評(píng)價(jià)模型時(shí)將運(yùn)用以下幾個(gè)指標(biāo):銷(xiāo)售凈利率X0,銷(xiāo)售毛利率X1,總資產(chǎn)報(bào)酬率X2,凈資產(chǎn)報(bào)酬率X3,每股收益X4。
(二)模型設(shè)計(jì)的原理
將筆者已選擇的幾項(xiàng)企業(yè)盈利能力評(píng)價(jià)指標(biāo)相應(yīng)數(shù)值作為ANN的輸入矢量:X=(X0,X1,X2,X3,X4)T,網(wǎng)絡(luò)的期望輸出t表示企業(yè)盈利能力綜合評(píng)價(jià)結(jié)果的相應(yīng)的分值。發(fā)揮ANN所特有的自適應(yīng)、自組織、自學(xué)習(xí)能力對(duì)該網(wǎng)絡(luò)運(yùn)用大量的樣本進(jìn)行訓(xùn)練與學(xué)習(xí),不斷降低相對(duì)誤差,最終使之符合預(yù)定精度,以完成ANN企業(yè)盈利能力綜合評(píng)價(jià)模型的構(gòu)造。
(三)模型的建立
第一步,選取合適的ANN結(jié)構(gòu)。著名ANN基礎(chǔ)理論專(zhuān)家S.K.Doherty的研究表明,只含有一個(gè)隱含層的三層(輸入層、隱含層、輸出層)前饋ANN具備以任意精度逼近任何非線性函數(shù)關(guān)系的特點(diǎn)。因此本文在對(duì)企業(yè)的盈利能力進(jìn)行綜合評(píng)價(jià)時(shí)將建立一個(gè)三層前饋型ANN模型,由于筆者選取了5個(gè)企業(yè)盈利能力綜合評(píng)價(jià)指標(biāo),則輸入層神經(jīng)元個(gè)數(shù)就是5。雖然到目前為止,隱含層神經(jīng)元個(gè)數(shù)的確定方法在理論界尚未形成統(tǒng)一的意見(jiàn),但根據(jù)以往學(xué)者研究的經(jīng)驗(yàn),隱含層神經(jīng)元個(gè)數(shù)n與輸入層神經(jīng)元個(gè)數(shù)m應(yīng)滿足如下關(guān)系:n>1/2m。故本文的隱含層神經(jīng)元個(gè)數(shù)確定為3。輸出層為唯一的神經(jīng)元――企業(yè)盈利能力綜合值。
第二步,網(wǎng)絡(luò)參數(shù)初始化。為隱含層與輸入層之間的連接賦予權(quán)值Wij、閾值(k,輸出層與隱含層之間的連接權(quán)值w′ij)、閾值(′k,以較小的隨機(jī)數(shù)確定)。
第三步,本文的樣本數(shù)據(jù)均來(lái)自國(guó)泰安數(shù)據(jù)庫(kù)(下文簡(jiǎn)稱CSMAR)。筆者對(duì)所選取的樣本數(shù)據(jù)進(jìn)行等比例縮放以使所有的盈利能力指標(biāo)數(shù)據(jù)落在[0,1]區(qū)間內(nèi),以便于ANN對(duì)數(shù)據(jù)進(jìn)行處理,對(duì)相互間差異很大的各指標(biāo)的實(shí)際數(shù)值進(jìn)行歸一化處理,有利于神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)精度的提高與應(yīng)用范圍的拓展,計(jì)算公式為: X′i =(Xi-Xmin)/(Xmax-Xmin)。
第四步,輸入層神經(jīng)元的輸入X′已給出,計(jì)算輸入層的輸出Y′:Y′i= f(xj),其中神經(jīng)元的激活函數(shù)為非線性函數(shù),sigmoid函數(shù)最為常用,即 f(u)=1/(1+e-u)(該函數(shù)的一個(gè)特征為:f′(u)=f(u)[1-f(u)]。
第五步,計(jì)算隱含層神經(jīng)元輸入X′′:X′′j=∑w′ijy′i-θ′j和輸出Y′′:Y′′j= f(X′′j)。
第六步,計(jì)算輸出層神經(jīng)元的輸入X′′′:X′′′k=∑w′iky′k-θ′k和輸出Y′′′:y′′′k=f(X′k)。
第七步,對(duì)于給定的一組樣本數(shù)據(jù)(X,T),計(jì)算網(wǎng)絡(luò)的誤差uk=(tk-yk)f′k(x′′′k),若該誤差不滿足要求,則計(jì)算隱含層的一般誤差Vj=[∑(ukw′jk)]f′j(X′′′j)
第八步,修正權(quán)值和閾值:Wjk(N+1)=Wjk(N)+ηWjk(N),其中W′jk(N)=Vj,η為步長(zhǎng)。
Wjk(N+1)=W′jk(N)+ηW′jk(N),θ′ k(N+1)=θ′k(N)+θ′ k(N),θj(N+1)=θj(N)+ θi(N)。
第九步,在進(jìn)行完以上步驟后,取下一個(gè)列模式作為輸入信號(hào),把所有的訓(xùn)練模式運(yùn)行一遍,若達(dá)到了預(yù)定精度,則停止訓(xùn)練,否則重新運(yùn)行,直到達(dá)標(biāo)為止。
三、基于人工神經(jīng)網(wǎng)絡(luò)的企業(yè)盈利能力評(píng)價(jià)與預(yù)測(cè)實(shí)例分析
本文以滬市52家上市公司為樣本,對(duì)其2013年一季報(bào)進(jìn)行分析,數(shù)據(jù)來(lái)自CSMAR數(shù)據(jù)庫(kù)中的“公司研究系列―中國(guó)上市公司財(cái)務(wù)指標(biāo)分析數(shù)據(jù)庫(kù)―盈利能力”,從中挑選出本文所要用到的五個(gè)指標(biāo),即輸入層。接著結(jié)合模型建立過(guò)程與ANN基本理論,確定本次訓(xùn)練需要使用的各參數(shù),隱藏層到輸出層的權(quán)矩陣為(-7.1692,-8.3074,-8.0133)T,輸入層到隱藏層的權(quán)矩陣為:
本文以MATLAB7.0作為編制ANN計(jì)算程序的應(yīng)用軟件,以樣本中52家上市公司盈利預(yù)測(cè)作為網(wǎng)絡(luò)的期望輸出。樣本包含52組數(shù)據(jù),筆者選取其中的36組作為用于訓(xùn)練網(wǎng)絡(luò)的樣本,其余的16組樣本用于模擬待測(cè)評(píng)的對(duì)象,也可以用來(lái)檢驗(yàn),把上述52組數(shù)據(jù)經(jīng)過(guò)歸一化處理到[0,1]區(qū)間內(nèi)后輸入到已編制好的計(jì)算機(jī)程序中進(jìn)行訓(xùn)練和仿真。
各參數(shù)設(shè)置為:顯示迭代過(guò)程為5,訓(xùn)練精度為le-5,最大訓(xùn)練次數(shù) 25 000,經(jīng)過(guò)52次循環(huán)學(xué)習(xí)后網(wǎng)絡(luò)訓(xùn)練結(jié)果與企業(yè)的盈利預(yù)測(cè)基本相似,52家公司的盈利能力預(yù)測(cè)的相對(duì)誤差都控制在了5%以內(nèi);同時(shí),在36組訓(xùn)練樣本運(yùn)行完畢后,無(wú)論是36組訓(xùn)練樣本還是16組檢驗(yàn)樣本的模擬仿真結(jié)果排序都與期望輸出排序順序達(dá)到了高度一致,驗(yàn)證了ANN系統(tǒng)對(duì)企業(yè)盈利能力評(píng)價(jià)與預(yù)測(cè)結(jié)果的準(zhǔn)確性。值得注意的是,在實(shí)務(wù)的具體運(yùn)用中,通過(guò)反復(fù)訓(xùn)練,不斷調(diào)整網(wǎng)絡(luò)權(quán)值與閾值,同時(shí)對(duì)學(xué)習(xí)精度進(jìn)行適當(dāng)提高,擴(kuò)大訓(xùn)練樣本數(shù)量的方法,可以實(shí)現(xiàn)ANN誤差的進(jìn)一步降低,精度的進(jìn)一步提高,從而獲得與實(shí)際更加接近的仿真結(jié)果?;谝陨线^(guò)程構(gòu)建的ANN企業(yè)盈利能力評(píng)價(jià)模型無(wú)疑具有更準(zhǔn)確的運(yùn)行結(jié)果與更廣泛的應(yīng)用空間。
【摘要】2016年是“十三五”的開(kāi)局之年,也是全面建成小康社會(huì)決勝階段的開(kāi)局之年,設(shè)施農(nóng)業(yè)產(chǎn)業(yè)將面臨更多的機(jī)遇和挑戰(zhàn)。在以往的研究中,針對(duì)物聯(lián)網(wǎng)對(duì)設(shè)施農(nóng)業(yè)影響的研究比較多,本文將以人工智能在設(shè)施農(nóng)業(yè)領(lǐng)域應(yīng)用為視角,分析人工智能對(duì)設(shè)施農(nóng)業(yè)的潛在發(fā)展優(yōu)勢(shì)。
施農(nóng)業(yè)是集種植、農(nóng)業(yè)裝備等多領(lǐng)域?yàn)橐惑w的系統(tǒng)工程,是一種在人為可控環(huán)境下進(jìn)行的高效農(nóng)業(yè)生產(chǎn)方式,具有成套的生產(chǎn)技術(shù)、完整的設(shè)施裝備和生產(chǎn)規(guī)范[1]。近幾年,隨著信息技術(shù)的發(fā)展,物聯(lián)網(wǎng)技術(shù)逐漸被應(yīng)用到農(nóng)業(yè)生產(chǎn)和科研中,這是現(xiàn)代農(nóng)業(yè)依托新型信息化應(yīng)用的一次進(jìn)步[2]。本文結(jié)合人工智能研究成果,著重介紹人工智能技術(shù)在設(shè)施農(nóng)業(yè)種植領(lǐng)域方面的應(yīng)用前景,根據(jù)設(shè)施農(nóng)業(yè)產(chǎn)前、產(chǎn)中、產(chǎn)后3個(gè)階段,對(duì)現(xiàn)有研究成果進(jìn)行了闡述。
人工智能概述
“人工智能”一詞是1956年在Dartmouth學(xué)會(huì)上提出。從那以后,研究者們發(fā)展了眾多理論和原理,人工智能的概念也隨之?dāng)U展。人工智能(Artificial Intelligence),英文縮寫(xiě)為AI,它是研究用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的新型科學(xué)技術(shù)[3]。
作為計(jì)算機(jī)科學(xué)的一個(gè)重要分支,人工智能技術(shù)著眼于探索智能的實(shí)質(zhì),模擬智能行為,最終制造出能以人類(lèi)智能相似的方式做出反應(yīng)的智能機(jī)器。著名的美國(guó)斯坦福大學(xué)人工智能研究中心尼爾遜教授對(duì)人工智能下了這樣一個(gè)定義:“人工智能是關(guān)于知識(shí)的學(xué)科,即怎樣表示知識(shí)以及怎樣獲得知識(shí)并使用知識(shí)的科學(xué)。”而另一位美國(guó)麻省理工學(xué)院的溫斯頓教授認(rèn)為:“人工智能就是研究如何使計(jì)算機(jī)去做過(guò)去只有人才能做的智能工作?!盄些說(shuō)法反映了人工智能學(xué)科的基本思想和基本內(nèi)容。人工智能自誕生以來(lái),理論和技術(shù)日益成熟,應(yīng)用領(lǐng)域不斷擴(kuò)大,可以設(shè)想,未來(lái)應(yīng)用了人工智能的科技產(chǎn)品,將會(huì)是人類(lèi)智慧的“容器”。
隨著人工智能技術(shù)的日益成熟,人們意識(shí)到人類(lèi)已經(jīng)具備了設(shè)計(jì)和建造智慧型設(shè)施農(nóng)業(yè)所需的硬件和軟件技術(shù)條件,結(jié)合設(shè)施農(nóng)業(yè)高投入高產(chǎn)出,資金、技術(shù)、勞動(dòng)力密集型的特點(diǎn),完成工廠化農(nóng)業(yè)生產(chǎn)已經(jīng)不是夢(mèng)想[4]。依靠人工智能技術(shù),作物可以在適宜的溫度、濕度、光照、水肥等設(shè)施環(huán)境下,生產(chǎn)優(yōu)質(zhì)、高產(chǎn)的農(nóng)產(chǎn)品,擺脫對(duì)自然環(huán)境的依賴,實(shí)現(xiàn)設(shè)施生產(chǎn)的高度智能化,提高農(nóng)業(yè)生產(chǎn)的效率,降低勞動(dòng)成本[5]。
人工智能在設(shè)施農(nóng)業(yè)領(lǐng)域的應(yīng)用
人工智能技術(shù)在產(chǎn)前階段的應(yīng)用
在設(shè)施農(nóng)業(yè)產(chǎn)前階段,憑借人工智能技術(shù)可對(duì)土壤、灌溉水量需求、作物品種質(zhì)量鑒別等方面做出分析和評(píng)估,為農(nóng)民做出科學(xué)指導(dǎo),對(duì)后續(xù)的農(nóng)業(yè)生產(chǎn)起到很好的保障作用。
土壤分析是農(nóng)業(yè)產(chǎn)前階段最重要的工作之一,是實(shí)現(xiàn)定量施肥、宜栽作物選擇、經(jīng)濟(jì)效益分析等工作的重要前提[6]。在土壤分析等農(nóng)業(yè)生產(chǎn)智能分析系統(tǒng)中,應(yīng)用最廣泛的技術(shù)就是人工神經(jīng)網(wǎng)絡(luò)(簡(jiǎn)稱ANN)。ANN是模擬人腦神經(jīng)元連接的,由大量簡(jiǎn)單處理單元經(jīng)廣泛并互連形成的一種網(wǎng)絡(luò)系統(tǒng),它可以實(shí)現(xiàn)對(duì)人腦系統(tǒng)的簡(jiǎn)化、抽象和模擬,具有人腦功能的許多基本特征。目前可以通過(guò)該技術(shù)分析土壤性質(zhì)特征,并將其與宜栽作物品種間建立關(guān)聯(lián)模型。土壤性質(zhì)特征的探測(cè)主要是借助非侵入性的探地雷達(dá)成像技術(shù),然后利用神經(jīng)網(wǎng)絡(luò)技術(shù)在無(wú)人指導(dǎo)的情況下對(duì)土壤進(jìn)行分類(lèi)研究,進(jìn)而建立起土壤類(lèi)別與宜栽作物的關(guān)聯(lián)關(guān)系;土壤表層的黏土含量也可通過(guò)人工智能方法預(yù)測(cè),該技術(shù)通過(guò)分析電磁感應(yīng)土壤傳感器獲取的信號(hào),使用深度加權(quán)方法從中提取土壤表層質(zhì)地信息,然后使用ANN預(yù)測(cè)土壤表層的黏土含量。
傳統(tǒng)農(nóng)業(yè)對(duì)灌溉用水的使用量往往依靠經(jīng)驗(yàn),無(wú)法根據(jù)環(huán)境變化進(jìn)行精確調(diào)節(jié),對(duì)多目標(biāo)灌溉規(guī)劃問(wèn)題也無(wú)能為力。人工智能技術(shù)可幫助人們選擇合適的水源對(duì)作物進(jìn)行灌溉,保證作物用水量,大大減輕灌溉問(wèn)題對(duì)作物產(chǎn)量造成的不良影響。在美國(guó),有專(zhuān)家研制出一個(gè)隱層的反饋前向ANN模型和一個(gè)位于科羅拉多州地區(qū)阿肯色河流域的消費(fèi)使用模型,使用它們可勘察區(qū)域氣候變化對(duì)灌溉用水供應(yīng)和需求可能產(chǎn)生的影響。在灌溉項(xiàng)目研究中,為了選擇最好的折中灌溉規(guī)劃策略,還可基于多目標(biāo)線性規(guī)劃優(yōu)化,利用神經(jīng)網(wǎng)絡(luò)將非支配的灌溉規(guī)劃策略加以分類(lèi),將這些策略分為若干個(gè)小類(lèi)別。結(jié)果表明,在對(duì)多目標(biāo)灌溉規(guī)劃問(wèn)題加以建模時(shí),綜合模型方法是有效的。
人工智能技術(shù)在產(chǎn)中階段的應(yīng)用
在設(shè)施農(nóng)業(yè)產(chǎn)中階段,主要應(yīng)用是農(nóng)業(yè)專(zhuān)家系統(tǒng)、人工神經(jīng)網(wǎng)絡(luò)技術(shù)、農(nóng)業(yè)機(jī)器人等。這些技術(shù)能夠幫助農(nóng)民更科學(xué)地種植農(nóng)作物并對(duì)溫室大棚進(jìn)行合理的管理,指導(dǎo)農(nóng)民科學(xué)種植,提高作物產(chǎn)量。這些人工智能技術(shù)的使用推進(jìn)了農(nóng)業(yè)現(xiàn)代化的發(fā)展,提高了農(nóng)業(yè)生產(chǎn)的效率,使農(nóng)業(yè)生產(chǎn)更加機(jī)械化、自動(dòng)化、規(guī)范化。
專(zhuān)家系統(tǒng)是指應(yīng)用于某一專(zhuān)門(mén)領(lǐng)域,擁有該領(lǐng)域相當(dāng)數(shù)量的專(zhuān)家級(jí)知識(shí),能模擬專(zhuān)家的思維,能達(dá)到專(zhuān)家級(jí)水平,能像專(zhuān)家一樣解決困難和復(fù)雜問(wèn)題的計(jì)算機(jī)(軟件)系統(tǒng)。國(guó)際上農(nóng)業(yè)專(zhuān)家系統(tǒng)的研究始于20世紀(jì)70年代末期的美國(guó),1983年日本千葉大學(xué)研制出MTCCS(番茄病蟲(chóng)害診斷專(zhuān)家系統(tǒng)),到了20世紀(jì)80年代中期,農(nóng)業(yè)專(zhuān)家系統(tǒng)不再是單一的病蟲(chóng)害診斷系統(tǒng),美國(guó)、日本、中國(guó)等國(guó)家也相繼轉(zhuǎn)向開(kāi)發(fā)涉及農(nóng)業(yè)生產(chǎn)管理、經(jīng)濟(jì)分析、生態(tài)環(huán)境等方面的農(nóng)業(yè)專(zhuān)家系統(tǒng)。農(nóng)業(yè)科研人員把人工智能中的專(zhuān)家系統(tǒng)技術(shù)應(yīng)用到農(nóng)業(yè)生產(chǎn)中,開(kāi)發(fā)出了農(nóng)業(yè)專(zhuān)家系統(tǒng)。它可代替農(nóng)業(yè)專(zhuān)家走進(jìn)生產(chǎn)溫室,在各地區(qū)具體指導(dǎo)農(nóng)民科學(xué)種植農(nóng)作物,這是科技普及的一項(xiàng)重大突破。
在設(shè)施生產(chǎn)中可以使用機(jī)器人來(lái)代替農(nóng)民進(jìn)行作物采收,不僅可以降低勞動(dòng)成本,也可以提高工作效率。Wolfgang Heinemann等人研發(fā)出的具有獨(dú)特設(shè)計(jì)結(jié)構(gòu)的采收機(jī)器人,該機(jī)器人可以在無(wú)需人類(lèi)干擾的情況下自動(dòng)采收白蘆筍。為了保證機(jī)器人能夠精確行進(jìn),它使用了2個(gè)獨(dú)立的速度控制輪和級(jí)聯(lián)控制結(jié)構(gòu)(其中包含了一個(gè)內(nèi)部的定位誤差控制器和一個(gè)外部的橫向偏置控制器)。借助PID算法①,機(jī)器人系統(tǒng)可以分析自己的運(yùn)動(dòng)軌跡,優(yōu)化驅(qū)動(dòng)電機(jī)的控制參數(shù),保證系統(tǒng)能夠穩(wěn)定自主的運(yùn)行。
在中國(guó),應(yīng)用人工智能技術(shù)的智能雜草識(shí)別噴霧系統(tǒng)已經(jīng)得到了長(zhǎng)足發(fā)展。圖像分析系統(tǒng)通過(guò)分析田間圖像的顏色模型,根據(jù)色差分量②顏色特征實(shí)現(xiàn)雜草實(shí)時(shí)識(shí)別,并基于Canny算子對(duì)識(shí)別到的雜草進(jìn)行邊緣檢測(cè),提取其特征參數(shù),配合超生測(cè)距等技術(shù)可以精確控制噴頭位置及用藥量[7]。該技術(shù)的應(yīng)用可以大大提高除草劑的經(jīng)濟(jì)性,對(duì)保護(hù)環(huán)境也大有益處。
人工智能技術(shù)在產(chǎn)后階段的應(yīng)用
人工智能技術(shù)在設(shè)施農(nóng)業(yè)產(chǎn)后階段也有相當(dāng)多的應(yīng)用前景。
在農(nóng)產(chǎn)品分類(lèi)方面人工智能技術(shù)能提供很好的支持。張嘏偉[8]等提出了一種基于圖像識(shí)別的番茄分類(lèi)方法,該方法根據(jù)番茄的表面缺陷、顏色、形狀和大小,使用遺傳算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò)對(duì)番茄進(jìn)行分類(lèi),并與BP訓(xùn)練神經(jīng)網(wǎng)絡(luò)③進(jìn)行了比較。結(jié)果表明,遺傳算法在訓(xùn)練次數(shù)和準(zhǔn)確性上都具有優(yōu)勢(shì)。謝靜[9]等對(duì)圖像識(shí)別分類(lèi)中的圖像預(yù)處理方法進(jìn)行了研究,包括圖像噪聲去除方法、圖像分割方法、邊緣提取方法等。提出了使用改進(jìn)的canny算法④和當(dāng)量直徑法相結(jié)合來(lái)檢測(cè)水果大小的新思路,并使用模糊聚類(lèi)方法處理gabor濾波器提取水果表面缺陷特征,對(duì)水果表面缺陷進(jìn)行了分類(lèi)。
隨著社會(huì)的發(fā)展,人民生活水平的提高,廣大消費(fèi)者及國(guó)家都對(duì)食品安全問(wèn)題越來(lái)越重視,農(nóng)產(chǎn)品質(zhì)量檢測(cè)方法也在不斷進(jìn)步。圖像識(shí)別、電子鼻等技術(shù)都應(yīng)用在了農(nóng)產(chǎn)品檢測(cè)中。李洪濤[10]等利用人工嗅覺(jué)裝置,模擬人的嗅覺(jué)形成過(guò)程分析、識(shí)別和檢測(cè)農(nóng)產(chǎn)品在腐敗過(guò)程中釋放的不同特征氣體。其制作了小型化的傳感器陣列并利用半導(dǎo)體制冷片搭建了一個(gè)PID溫度控制系統(tǒng),保證傳感器正常工作的溫度及濕度。在當(dāng)前技術(shù)的發(fā)展下,科學(xué)家們以彩色計(jì)算機(jī)視覺(jué)系統(tǒng)為重要技術(shù)手段,綜合運(yùn)用圖像處理、人工神經(jīng)網(wǎng)絡(luò)、遺傳算法、模擬退火算法以及決策樹(shù)、專(zhuān)家系統(tǒng)等人工智能領(lǐng)域的技術(shù),研究出了眾多實(shí)現(xiàn)農(nóng)產(chǎn)品品質(zhì)檢測(cè)和自動(dòng)分級(jí)的新方法。
草莓、葡萄等農(nóng)產(chǎn)品很容易破損和受傷,依靠人工采摘和搬運(yùn),不僅增加了勞動(dòng)成本,也影響農(nóng)產(chǎn)品采摘后的品質(zhì)。結(jié)合磁流變(MR)流體技術(shù),工程師們?cè)O(shè)計(jì)出了一種可用于搬運(yùn)農(nóng)產(chǎn)品的磁機(jī)器人手爪,該手爪經(jīng)過(guò)精確設(shè)計(jì),可以搬運(yùn)胡蘿卜、草莓、西蘭花和葡萄等不同形狀食品,而且不會(huì)在食物表面留下任何淤痕和凹陷。為了讓機(jī)器人手爪更為快速、準(zhǔn)確地工作,在磁流變手爪的基礎(chǔ)上結(jié)合力傳感技術(shù)開(kāi)發(fā)出了更為靈活、智能的新型手爪。該手爪可在410~530 ms內(nèi)抓握50~700 g重量的農(nóng)作物,還能顯著減少細(xì)菌的交叉感染。
人工智能發(fā)展前景
近年來(lái),人工智能技術(shù)已經(jīng)取得了長(zhǎng)足的進(jìn)步,語(yǔ)音識(shí)別、自然語(yǔ)言識(shí)別、計(jì)算機(jī)視覺(jué)、自動(dòng)推理、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)以及機(jī)器人學(xué)都在蓬勃發(fā)展。人工智能的未來(lái)就是在智能感知的前提下,結(jié)合大數(shù)據(jù)技術(shù)自主學(xué)習(xí),橢人們做出決策、代替重復(fù)性工作。在農(nóng)業(yè)方面出現(xiàn)全天候全自動(dòng)平臺(tái),實(shí)現(xiàn)農(nóng)業(yè)生產(chǎn)的全自動(dòng)化[11]。物聯(lián)網(wǎng)技術(shù)在設(shè)施農(nóng)業(yè)中已經(jīng)得到普及,在溫室大棚中的大量智能傳感器是機(jī)器感知的基礎(chǔ),而感知?jiǎng)t是智能實(shí)現(xiàn)的前提之一,通過(guò)感知,農(nóng)業(yè)數(shù)據(jù)源源不斷地匯集在一起。云計(jì)算的發(fā)展為大數(shù)據(jù)存儲(chǔ)和大規(guī)模并行計(jì)算提供了可能[12],而數(shù)據(jù)則是機(jī)器學(xué)習(xí)的書(shū)本。設(shè)施農(nóng)業(yè)是物聯(lián)網(wǎng)、云計(jì)算、人工智能三大技術(shù)結(jié)合應(yīng)用的領(lǐng)域之一,它們的結(jié)合顛覆了傳統(tǒng)農(nóng)業(yè)生產(chǎn)方式。
面對(duì)眾多的新技術(shù)、新成果,把它們投入到生產(chǎn)中去才是關(guān)鍵。如何讓技術(shù)能夠適應(yīng)中國(guó)復(fù)雜的農(nóng)業(yè)生產(chǎn)環(huán)境,同時(shí)還要面對(duì)不同知識(shí)水平的用戶,這些都是人工智能技術(shù)、云計(jì)算技術(shù)等高新技術(shù)在農(nóng)業(yè)生產(chǎn)中所面臨的問(wèn)題。設(shè)施農(nóng)業(yè)高產(chǎn)出高投入的特點(diǎn),正適合應(yīng)用這些新技術(shù),這樣既可以讓新技術(shù)有實(shí)踐的機(jī)會(huì),又可以讓其他涉農(nóng)用戶對(duì)新技術(shù)有直觀的感知,這對(duì)技術(shù)進(jìn)步和技術(shù)推廣都很有幫助[13]。
人工智能技術(shù)雖然前景光明,但其應(yīng)用的研究才剛剛起步,離目標(biāo)還很遠(yuǎn)。未來(lái),人工智能技術(shù)可以更好地為人們服務(wù),改善人們的生活,并帶來(lái)巨大的社會(huì)和經(jīng)濟(jì)效益[14]。在人工智能的引領(lǐng)下,農(nóng)業(yè)已邁入數(shù)字和信息化的嶄新時(shí)代,借助其技術(shù)優(yōu)勢(shì)來(lái)提高農(nóng)業(yè)生產(chǎn)的經(jīng)濟(jì)效益,是全面實(shí)現(xiàn)農(nóng)業(yè)生產(chǎn)現(xiàn)代化、智能化、信息化的必由之路。
參考文獻(xiàn)
[1]李雪,肖淑蘭,趙文忠,等.信息技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用分析[J].東北農(nóng)業(yè)大學(xué)學(xué)報(bào),2008,39(3):125-128.
[2]施連敏,陳志峰,蓋之華,等.物聯(lián)網(wǎng)在智慧農(nóng)業(yè)中的應(yīng)用[J].農(nóng)機(jī)化研究,2013(6):250-252.
[3]劉現(xiàn),鄭回勇,施能強(qiáng),等.人工智能在農(nóng)業(yè)生產(chǎn)中的應(yīng)用進(jìn)展[J].福建農(nóng)業(yè)學(xué)報(bào),2013,28(6):609-614.
[4]姜芳,曾碧翼.設(shè)施農(nóng)業(yè)物聯(lián)網(wǎng)技術(shù)的應(yīng)用探討與發(fā)展建議[J].農(nóng)業(yè)網(wǎng)絡(luò)信息,2013(5):10-12.
[5]陳超,張敏,宋吉軒,等.我國(guó)設(shè)施農(nóng)業(yè)現(xiàn)狀與發(fā)展對(duì)策分析[J].河北農(nóng)業(yè)科學(xué),2008,12(11):99-101.
[6]鄒承俊.物聯(lián)網(wǎng)技術(shù)在蔬菜溫室大棚生產(chǎn)中的應(yīng)用[J].物聯(lián)網(wǎng)技術(shù),2013(8):18-24.
[7]石禮娟.基于可見(jiàn)光/近紅外光譜的稻米質(zhì)量快速無(wú)損檢測(cè)研究[D].武漢:華中農(nóng)業(yè)大學(xué),2011.
[8]張嘏偉.計(jì)算機(jī)視覺(jué)系統(tǒng)在番茄品質(zhì)識(shí)別與分類(lèi)中的研究[D].保定:河北農(nóng)業(yè)大學(xué),2005.
[9]謝靜.基于計(jì)算機(jī)視覺(jué)的蘋(píng)果自動(dòng)分級(jí)方法研究[D].合肥:安徽農(nóng)業(yè)大學(xué),2011.
[10]李洪濤.基于農(nóng)產(chǎn)品品質(zhì)檢測(cè)的專(zhuān)用電子鼻系統(tǒng)的設(shè)計(jì)與研究[D].杭州:浙江大學(xué),2010.
[11]張震,劉學(xué)瑜.我國(guó)設(shè)施農(nóng)業(yè)發(fā)展現(xiàn)狀與對(duì)策[J].農(nóng)業(yè)經(jīng)濟(jì)問(wèn)題,2015(5):64-70.
[12]施連敏.物聯(lián)網(wǎng)在智慧農(nóng)業(yè)中的應(yīng)用[J].農(nóng)機(jī)化研究,2013(6):250-252.
關(guān)鍵詞:數(shù)據(jù)挖掘;無(wú)監(jiān)督學(xué)習(xí);有監(jiān)督學(xué)習(xí);半監(jiān)督學(xué)習(xí);遷移學(xué)習(xí)
中圖分類(lèi)號(hào):TP274文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1007-9599 (2010) 06-0000-07
Summarization of Data Mining Learning Method
Xu Rui
(Guizhou Mobile Corp. Guiyang550004,China)
Abstract: As a new domain of information technology,data mining takes full advantages of database,statistical analysis and artificial intelligence,etc.It is quit important to be familiar with data mining for decision-makers,since it is a new direction of enterprise informationization.In this article,the author summarized some common learning method of data mining,especially the new domain:transfer learning.Finally,the article briefly described difference among these learning methods.
Keywords:Data mining;Unsupervised learning;Supervised learning;Semi-supervised learning;Transfer learning
企業(yè)信息化建設(shè)經(jīng)歷了辦公自動(dòng)化,信息管理系統(tǒng),企業(yè)資源計(jì)劃三個(gè)階段,隨著企業(yè)數(shù)據(jù)的快速增長(zhǎng),科學(xué)決策的廣泛應(yīng)用,數(shù)據(jù)挖掘和商業(yè)智能成為企業(yè)信息化建設(shè)的新的突破點(diǎn)。數(shù)據(jù)挖掘綜合統(tǒng)計(jì)學(xué)、人工智能、數(shù)據(jù)庫(kù)技術(shù)等多學(xué)科知識(shí),從海量的數(shù)據(jù)中迅速發(fā)掘有價(jià)值的信息。作為一個(gè)新興領(lǐng)域,數(shù)據(jù)挖掘的研究與應(yīng)用發(fā)展迅速,但數(shù)據(jù)挖掘并不為企業(yè)決策者充分認(rèn)識(shí)。本文將從學(xué)習(xí)的角度,重點(diǎn)介紹數(shù)據(jù)挖掘領(lǐng)域常見(jiàn)的算法。
一、引言
數(shù)據(jù)挖掘算法依據(jù)其任務(wù)特點(diǎn),常被分為四類(lèi):預(yù)測(cè)建模、聚類(lèi)分析、關(guān)聯(lián)分析以及異常檢測(cè)。另一方面,依據(jù)算法所適應(yīng)的問(wèn)題類(lèi)型來(lái)分,又可以分為無(wú)監(jiān)督學(xué)習(xí)(Unsupervised Learning)、有監(jiān)督學(xué)習(xí)(Supervised Learning)、半監(jiān)督學(xué)習(xí)(Semi-supervised Learning)以及遷移學(xué)習(xí)(Transfer Learning)。比如針對(duì)網(wǎng)頁(yè)的挖掘,普通用戶關(guān)注返回結(jié)果與自己需求的相關(guān)性以及結(jié)果展現(xiàn)的可理解性,會(huì)更加希望網(wǎng)絡(luò)搜索引擎進(jìn)一步將相關(guān)的結(jié)果根據(jù)不同的類(lèi)別分成不同的組(無(wú)監(jiān)督學(xué)習(xí));搜索引擎工程師期望借助由專(zhuān)家進(jìn)行類(lèi)別標(biāo)記的網(wǎng)頁(yè),建立準(zhǔn)確的引擎,對(duì)網(wǎng)頁(yè)進(jìn)行分類(lèi)(有監(jiān)督學(xué)習(xí));為有效提高搜索結(jié)果的準(zhǔn)確性,搜索引擎通常還會(huì)根據(jù)用戶的搜索習(xí)慣或者交互式的反饋,對(duì)結(jié)果進(jìn)行篩選(半監(jiān)督學(xué)習(xí));而篩選的結(jié)果有時(shí)還會(huì)用來(lái)提供給其他具有類(lèi)似習(xí)慣的用戶(遷移學(xué)習(xí))。
二、無(wú)監(jiān)督學(xué)習(xí)
聚類(lèi)分析通常又被叫做無(wú)監(jiān)督學(xué)習(xí)。無(wú)監(jiān)督學(xué)習(xí)可以理解為學(xué)習(xí)過(guò)程中只使用到了訓(xùn)練樣本的原始屬性,而未涉及到訓(xùn)練樣本的類(lèi)別屬性。比如電信行業(yè)根據(jù)客戶消費(fèi)信息的相似性,將客戶歸為不同的類(lèi)別組,并對(duì)不同的類(lèi)別組設(shè)計(jì)有區(qū)別的營(yíng)銷(xiāo)策略和增值服務(wù),在公司內(nèi)部編制不同的財(cái)務(wù)成本計(jì)算方法。在這一過(guò)程中使用的數(shù)據(jù)都是各營(yíng)業(yè)廳收集的原始數(shù)據(jù),得出的結(jié)論主要基于對(duì)原始數(shù)據(jù)的相似性歸類(lèi)的結(jié)果,在這一歸類(lèi)過(guò)程中不輔以任何人為的諸如添加類(lèi)別標(biāo)簽等指導(dǎo)。
無(wú)監(jiān)督學(xué)習(xí)方法,或者說(shuō)聚類(lèi)算法,通過(guò)研究描述數(shù)據(jù)的屬性在不同數(shù)據(jù)間的相似性,將數(shù)據(jù)劃分為若干有意義的組或者是簇。無(wú)監(jiān)督學(xué)習(xí)通常要達(dá)到兩個(gè)目標(biāo):1.簇內(nèi)數(shù)據(jù)盡可能相似;2.簇間數(shù)據(jù)盡可能相異。為此,無(wú)監(jiān)督學(xué)習(xí)方法的設(shè)計(jì)要關(guān)注兩個(gè)關(guān)鍵點(diǎn):(1)如何評(píng)價(jià)數(shù)據(jù)之間的相似性或者相異性;(2)以及如何同時(shí)滿足所要達(dá)到的兩個(gè)目標(biāo)。
(一)相似性度量標(biāo)準(zhǔn)
假設(shè)用于無(wú)監(jiān)督學(xué)習(xí)的數(shù)據(jù)表示形式為X={X1,X2,…},其中X表示用于學(xué)習(xí)的樣本集。對(duì)于每個(gè)樣本Xi,又可以表示為一組屬性的集合Xi={xi1,xi2,…,xik},其中k表示描述每個(gè)樣本的屬性數(shù)量(或者說(shuō)維度)。相似度(或相異度)的評(píng)價(jià)即是設(shè)計(jì)一個(gè)樣本之間的距離評(píng)價(jià)函數(shù)d(Xi,Xj)。
對(duì)于區(qū)間標(biāo)度類(lèi)數(shù)據(jù),通??梢杂妹魇暇嚯x(式2-1)、歐式距離(式2-1中p為2)、曼哈頓距離(式2-1中p為1)。
(2-1)
對(duì)于只有0和1兩種狀態(tài)的二元變量,可以根據(jù)兩個(gè)變量Xi,Xj共同出現(xiàn)時(shí)0、1取值的異同,建立距離函數(shù)。若令q表示Xi,Xj都取值為1的次數(shù);t表示兩者都取值為0的次數(shù);r表示Xi取值為1,Xj取值為0的次數(shù);s表示Xi取值為0,Xj取值為1的次數(shù)。則兩者的距離函數(shù)可以設(shè)計(jì)為如式2-2,計(jì)算兩個(gè)函數(shù)的不匹配率。
(2-2)
但是二元變量常常是非對(duì)稱的,意思是人們常常關(guān)注與取值為1的情況,而其他情況表示為0。比如疾病診斷中,常常把患者疾病檢測(cè)呈陽(yáng)性標(biāo)記為1,而結(jié)果呈陰性標(biāo)記為0。這是Xi,Xj都取值為0的情況(負(fù)匹配)被認(rèn)為不重要的,而只關(guān)注兩者同時(shí)為1的情況(正匹配)。這種情況下通常用Jaccard系數(shù)來(lái)表示兩者的距離函數(shù),如式2-3。
(2-3)
多元變量是二元變量的推廣,區(qū)別在于可以取得多個(gè)狀態(tài)值。因此,相似地,多元變量的距離函數(shù)也通常采用兩個(gè)對(duì)象之間的不匹配率來(lái)計(jì)算,即Xi、Xj屬性取值不相同狀態(tài)占全部屬性的數(shù)目。如果多個(gè)狀態(tài)值之間有序,比如說(shuō)比賽的排名次序,狀態(tài)的先后次序也是在設(shè)計(jì)距離函數(shù)是非常重要的。這種情況下通常,先將各個(gè)取值映射到[0.0,1.0]的區(qū)間內(nèi),一種簡(jiǎn)單的方法就是將[0.0,1.0]劃分為M-1個(gè)區(qū)間,M為取值的總數(shù)目;然后根據(jù)每一個(gè)排序后的屬性到0.0的區(qū)間大小來(lái)度量。映射到[0.0,1.0]區(qū)間后,可以采用先前介紹的距離函數(shù)來(lái)進(jìn)行評(píng)價(jià)。
由于一個(gè)樣本的屬性常常會(huì)包含多種變量類(lèi)型,可能是區(qū)間標(biāo)度的或者二元、多元的,甚至是非對(duì)稱的。一種常見(jiàn)的處理方法是將各個(gè)屬性首先進(jìn)行歸一化處理,將每個(gè)屬性的取值映射到[0.0,1.0]的區(qū)間。比如,區(qū)間標(biāo)量變量,距離函數(shù)通過(guò)除以最大區(qū)間差(屬性最大取值減去屬性最小取值)來(lái)實(shí)現(xiàn)映射。對(duì)于全部歸一化的屬性集合,樣本利用式2-4的方法進(jìn)行計(jì)算。其中,Iij(k)是指示函數(shù),若xik或xjk缺失,或者非對(duì)稱二元變量情況下取值同為0,則Iij(k)取值為0;否則取值為1。
(2-4)
文本挖掘中,由于文檔對(duì)象較為復(fù)雜,切以向量形式表示,依靠傳統(tǒng)的距離度量計(jì)算方式不能獲得較好的效果。一種常見(jiàn)的方法是利用描述相似性的余弦度量來(lái)建立距離函數(shù),如式2-5。其中XiT表示Xi的轉(zhuǎn)置,||X||表示X的歐幾里德范數(shù)。
(2-5)
(二)學(xué)習(xí)策略
常見(jiàn)的聚類(lèi)算法可以劃分為如下幾類(lèi):
1.劃分方法(partitioning methods):劃分方法將給定的N個(gè)對(duì)象構(gòu)建出數(shù)據(jù)的k(k≤N)個(gè)劃分,要求(1)每個(gè)劃分至少包含一個(gè)對(duì)象且(2)每個(gè)對(duì)象屬于且只屬于某一組。但是在模糊劃分技術(shù),第二點(diǎn)唯一性要求可以放寬。
常見(jiàn)的劃分方法為K均值(k-means)算法。算法的基本方法是首先初始化K個(gè)點(diǎn)作為初始的質(zhì)心,然后迭代式地將每個(gè)點(diǎn)指派到距其最近的質(zhì)心,形成K個(gè)簇,并計(jì)算出新的簇的質(zhì)心;迭代過(guò)程持續(xù)到質(zhì)心不再發(fā)生變化。
2.層次方法(hierarchical methods):層次方法創(chuàng)建給定數(shù)據(jù)對(duì)象集的層次分解,利用自頂向下或者自底向上的策略不斷的建立簇之間的樹(shù)狀關(guān)系。
以自底向上策略為例,首先將全部個(gè)體點(diǎn)作為獨(dú)立的簇,然后迭代式的合并最接近的兩個(gè)簇,并更新簇之間的關(guān)系矩陣;迭代過(guò)程持續(xù)到數(shù)據(jù)最終合并為一個(gè)簇。
3.基于密度的方法(density-based methods):基于密度方法設(shè)計(jì)的核心思想是鄰域中密度較大的點(diǎn)聚集在一起。這種方法可以有效的發(fā)現(xiàn)任意形狀的簇,而不僅僅是球狀的簇。
DBSCAN是一種常見(jiàn)的基于密度的方法。算法核心思想是通過(guò)檢查每個(gè)樣本點(diǎn)半徑不超過(guò)ε的鄰域來(lái)搜索簇,并利用密度可達(dá)關(guān)系將密度較大的臨近的簇合并起來(lái)。如果一個(gè)點(diǎn)的ε的鄰域中包含大于某個(gè)閾值的樣本數(shù),則將此樣本作為這個(gè)簇的核心對(duì)象,而鄰域內(nèi)的所有點(diǎn)對(duì)核心對(duì)象來(lái)說(shuō)都是“直接密度可達(dá)”的;將直接密度可達(dá)的樣本鏈接起來(lái),則說(shuō)這些點(diǎn)都是密度可達(dá);通過(guò)合并密度可達(dá)的核心對(duì)象所代表的簇,算法最終可以尋找出任意形狀的簇,并剔除噪聲點(diǎn)。
三、有監(jiān)督學(xué)習(xí)
有監(jiān)督學(xué)習(xí)常被認(rèn)為是分類(lèi)的另外一種說(shuō)法(也有學(xué)者認(rèn)為只是分類(lèi)過(guò)程的第一步),這是因?yàn)榻⒎诸?lèi)模型時(shí),總是要求用來(lái)學(xué)習(xí)的樣本具有完整的類(lèi)別標(biāo)簽,來(lái)指導(dǎo)(或者說(shuō)監(jiān)督)整個(gè)學(xué)習(xí)過(guò)程。通常來(lái)說(shuō),完整的分類(lèi)過(guò)程由兩步組成:(1)對(duì)于有類(lèi)別標(biāo)簽數(shù)據(jù)的學(xué)習(xí),以及(2)對(duì)未知類(lèi)別標(biāo)簽數(shù)據(jù)的預(yù)測(cè)。根據(jù)對(duì)訓(xùn)練集的使用方式,有監(jiān)督學(xué)習(xí)一般分為兩大類(lèi):模板匹配法和判別函數(shù)法。判別函數(shù)法依據(jù)判別函數(shù)的不同,又可以進(jìn)一步分為概率統(tǒng)計(jì)分類(lèi)法、線性分類(lèi)法和非線性分類(lèi)法。
(一)模版匹配法
將待分類(lèi)的樣本和標(biāo)準(zhǔn)模板進(jìn)行比較,看與哪個(gè)模版匹配程度更相似,從而確定待分類(lèi)樣本的類(lèi)別,這就是模版匹配的主要思想。比如K近鄰算法,算法的思想為:對(duì)于一個(gè)待分類(lèi)的樣本,首先計(jì)算它與訓(xùn)練集中所有樣本的距離,并以距離從小到大的順序選出從空間上最靠近待分類(lèi)樣本的K個(gè)訓(xùn)練樣本,最后依據(jù)這K個(gè)樣本中出現(xiàn)頻率最高的類(lèi)別作為該待分類(lèi)樣本的類(lèi)別。再比如,在模式識(shí)別應(yīng)用中,經(jīng)常會(huì)在后臺(tái)數(shù)據(jù)庫(kù)中保存一定量的模版,通過(guò)尋找與待分類(lèi)樣本差異最小的模版,來(lái)確定待分類(lèi)樣本的類(lèi)別。模版匹配法思想較為簡(jiǎn)單,實(shí)現(xiàn)起來(lái)非常容易,特別是K近鄰算法,經(jīng)常應(yīng)用于在線算法(要求算法效率非常高)的分類(lèi)算法部分。但是模版匹配算法有一個(gè)明顯的缺點(diǎn)就是當(dāng)存儲(chǔ)的訓(xùn)練模版非常大時(shí),算法的存儲(chǔ)和計(jì)算將成為算法提高效率的瓶頸。
(二)概率統(tǒng)計(jì)分類(lèi)法
基于概率統(tǒng)計(jì)的方法主要指基于Bayes決策理論的分類(lèi)算法。算法的核心思想就是依據(jù)Bayes后驗(yàn)概率公式,計(jì)算出待分類(lèi)樣本屬于每一種類(lèi)別的可能性,并找出最有可能的類(lèi)別判為待分類(lèi)樣本的預(yù)測(cè)類(lèi)別。
任何決策都有誤判的情況,Bayes決策也不例外,如何做出最合理的判決,常常與具體問(wèn)題結(jié)合。其中最具有代表性的是基于最小錯(cuò)誤率的Bayes決策以及基于最小風(fēng)險(xiǎn)的Bayes決策。本節(jié)將首先介紹Bayes決策理論。
1.Bayes決策理論。
Bayes理論基于樣本中每個(gè)類(lèi)別的先驗(yàn)概率P(Ci)以及每個(gè)類(lèi)的條件概率密度P(X|Ci)的統(tǒng)計(jì),利用Bayes公式(式2-6)計(jì)算待分類(lèi)樣本分屬各類(lèi)別的概率(后驗(yàn)概率),依據(jù)X屬于哪個(gè)類(lèi)別具有最高的概率,就把X劃分到哪個(gè)類(lèi)。
(2-6)
公式中,先驗(yàn)概率P(X)針對(duì)某個(gè)類(lèi)別出現(xiàn)的概率而言,可以通過(guò)統(tǒng)計(jì)訓(xùn)練集中每個(gè)類(lèi)別所占比例計(jì)算;類(lèi)條件概率密度P(X|Ci)是指在某類(lèi)別空間中,出現(xiàn)特征向量X的概率,具體應(yīng)用中一般假設(shè)P(X|Ci)服從正態(tài)分布,亦即滿足式2-7,其中u為均值向量; 的協(xié)方差矩陣。
(2-7)
2.最小錯(cuò)誤率的Bayes決策。
由Bayes公式可以看出,后驗(yàn)概率的大小只于先驗(yàn)概率和類(lèi)條件概率密度的乘積P(X|Ci)P(Ci)有關(guān)。對(duì)于每次分類(lèi),總錯(cuò)誤率為當(dāng)X劃分為某一類(lèi)時(shí),出錯(cuò)的可能性的總和。
對(duì)于兩類(lèi)問(wèn)題,若P(X|+)P(+)>P(X|-)P(-),亦即P(+|X)>P(-|X),可以知道,將X分為“+”類(lèi)的總錯(cuò)誤率(1-P(X|+)P(+))將小于將X分為“-”類(lèi)的總出錯(cuò)率(1-P(X|-)P(-))。對(duì)于多類(lèi)的問(wèn)題,依據(jù)同樣的道理,可以證明將X分為使P(Ci|X)最高的類(lèi)別,可以保證決策具有最小的錯(cuò)誤率。
3.最小風(fēng)險(xiǎn)的Bayes決策。
現(xiàn)實(shí)生活中,不一定總錯(cuò)誤率越小就代表決策越好,比如藥廠判別藥品質(zhì)量,若將正常藥品判別為劣質(zhì)藥品,造成的損失遠(yuǎn)小過(guò)將劣質(zhì)藥品判為正常藥品的代價(jià)。此時(shí)需要對(duì)每種錯(cuò)誤賦予一個(gè)風(fēng)險(xiǎn)權(quán)值,用以評(píng)價(jià)做出某種決策風(fēng)險(xiǎn)的大小。
對(duì)于某一觀測(cè)值X,當(dāng)將其分為Ci類(lèi)時(shí),總風(fēng)險(xiǎn)可以表示為:
(2-8)
式中,λij表示待分類(lèi)樣本X實(shí)際屬于Cj但將其錯(cuò)誤分為Ci所帶來(lái)的損失。對(duì)于X,當(dāng)計(jì)算出每個(gè)類(lèi)別的風(fēng)險(xiǎn)函數(shù)后,選擇具有最小風(fēng)險(xiǎn)的類(lèi)別作為X的分類(lèi)類(lèi)別。
相對(duì)于最小錯(cuò)誤率的Bayes決策,最小風(fēng)險(xiǎn)的Bayes決策具有更廣泛的適應(yīng)面,但是風(fēng)險(xiǎn)權(quán)值λij的制定相對(duì)較為復(fù)雜,需要根據(jù)具體問(wèn)題,權(quán)衡各種損失的大小。
4.基于概率統(tǒng)計(jì)分類(lèi)法的其他問(wèn)題。
在實(shí)際應(yīng)用中,類(lèi)條件概率密度P(X|Ci)并不一定確切知道,潛在的值必須從可用的數(shù)據(jù)中估計(jì)。有時(shí)可能知道概率密度的類(lèi)型(如高斯分布,t分布等),但不知道具體參數(shù),此時(shí)一般采取最大似然估計(jì)或者最大后驗(yàn)概率來(lái)估計(jì);另一方面有時(shí)可能知道一些估計(jì)的參數(shù),比如均值和方差,但是卻不知道具體的分布類(lèi)型,此時(shí)可以采取最大熵估計(jì)或者采用著名的EM算法(期望最大算法)來(lái)估計(jì)類(lèi)條件概率密度。
(三)線性分類(lèi)法
Bayes決策分類(lèi)有其不足的地方,其分類(lèi)過(guò)程依賴于統(tǒng)計(jì),因此更多適應(yīng)于有統(tǒng)計(jì)知識(shí)的場(chǎng)合,也就是說(shuō)服從一定分布的分類(lèi)問(wèn)題,但是現(xiàn)實(shí)中還有很多問(wèn)題并不能滿足這個(gè)要求,分類(lèi)問(wèn)題的研究進(jìn)而轉(zhuǎn)向如何采用非統(tǒng)計(jì)的方法來(lái)進(jìn)行分類(lèi)。
任何一個(gè)樣本點(diǎn)都可以表示成特征空間的一個(gè)點(diǎn),任何不相同的兩個(gè)點(diǎn)之間都有一定距離,如果能夠找到一個(gè)面(線性或者非線性)將屬于不同類(lèi)別的樣本隔開(kāi),則表示這個(gè)面的函數(shù)就可以作為分類(lèi)的依據(jù)。這就是幾何分類(lèi)法的思想,可以簡(jiǎn)單理解為利用幾何方法把特征空間分解為不同類(lèi)別的子空間。有時(shí)為了更好的找劃分空間的函數(shù),常常會(huì)利用映射、投影等方法對(duì)特征空間進(jìn)行轉(zhuǎn)化。
依據(jù)劃分子空間的面是否為平面,即決策函數(shù)是否為線性,可以將幾何分類(lèi)方法分為兩類(lèi):線性分類(lèi)法以及非線性分類(lèi)法。
線性分類(lèi)就是通過(guò)一個(gè)或者多個(gè)超平面,將特征空間按類(lèi)別劃分為獨(dú)立子空間。用來(lái)表示超平面的決策函數(shù)可以表示為g(X)=WTX+W0,其中W表示權(quán)值向量,W0被稱為偏置(bias)。從圖像上來(lái)理解,g(X)表示圖2-1中的斜線。對(duì)于g(X)>0的點(diǎn),即圖中斜線右邊的點(diǎn),被劃分為正類(lèi);相反地,途中斜線左邊的點(diǎn),被劃分為負(fù)類(lèi)。
從系統(tǒng)實(shí)現(xiàn)角度來(lái)看,一個(gè)線性分類(lèi)器可以表示成一個(gè)具有d個(gè)輸入單元,每個(gè)單元與結(jié)果具有連接權(quán)值的一個(gè)模型(圖2-2)。每個(gè)輸入特征向量乘以相應(yīng)的權(quán)值,并輸出這些乘積的累加和。利用一個(gè)Sigmoid函數(shù)(圖中的output unit函數(shù)),將結(jié)果映射到{0,1}或者{-1,1}。
1.線性判別函數(shù)的形式。
對(duì)于二類(lèi)問(wèn)題,直接用g(X)=WTX+w0形成劃分平面,平面兩側(cè)各屬于一類(lèi),如圖2-1中的例子。
對(duì)于多類(lèi)別問(wèn)題,情況比較復(fù)雜,通常有以下兩種策略。
假設(shè)擁有d個(gè)類(lèi)別的問(wèn)題:
(1)如果對(duì)于任何一個(gè)類(lèi)別Ci,利用g(X)=WTX+w0能夠區(qū)分屬于Ci以及不屬于Ci的樣本,此時(shí)分類(lèi)的函數(shù)就是由每個(gè)類(lèi)別的判別函數(shù)組成。此時(shí)分類(lèi)函數(shù)總共有d個(gè)。若待分類(lèi)樣本滿足gi(X)>0,則將其分到Ci類(lèi)。若同時(shí)有多個(gè)類(lèi)別使得X滿足gi(X)>0,則選取具有最大函數(shù)值的類(lèi)別作為X的類(lèi)別。
(2)如果任兩個(gè)類(lèi)別Ci、Cj,可以通過(guò)gij(X)=WijTX+wij0區(qū)分開(kāi),則此時(shí)分類(lèi)函數(shù)總共有d(d-1)/2個(gè)。對(duì)于任意的Cj,若待分類(lèi)樣本滿足gij(X)>0恒成立,則將其劃分為Ci類(lèi)。
2.線性判別函數(shù)系數(shù)的確定。
線性判別函數(shù)設(shè)計(jì)的關(guān)鍵問(wèn)題是權(quán)值的確定,也即使判別函數(shù)系數(shù)的確定。依據(jù)一定的評(píng)價(jià)準(zhǔn)則,線性判別函數(shù)不斷修正權(quán)值的大小,從而達(dá)到滿足評(píng)價(jià)準(zhǔn)則的系數(shù)值。
最常見(jiàn)的確定線性判別函數(shù)的算法包括感知器算法、最小二乘法(LSM)以及支持向量機(jī)。
(1)感知器算法:感知器算法的原理是每次依據(jù)分錯(cuò)的樣本(用Y(W)表示),依據(jù)式2-8,不斷的調(diào)整權(quán)值。感知器算法實(shí)際上就是單層神經(jīng)網(wǎng)絡(luò),通過(guò)訓(xùn)練樣本的不斷指導(dǎo),不斷的修正自己的權(quán)值。實(shí)際上分錯(cuò)的樣本越少,則g(X)距離真實(shí)的判別邊界越近。
(2-9)
(2)最小二乘法:在某些情況下,盡管線性分類(lèi)器不是最優(yōu)的,但其效率和簡(jiǎn)單常??梢詮浹a(bǔ)這些問(wèn)題。因此需要利用最優(yōu)化的數(shù)學(xué)方法,計(jì)算較優(yōu)的性能。最小二乘法正是最優(yōu)化算法在線性分類(lèi)器中的應(yīng)用。利用最小二乘的結(jié)論公式:W=(XTX)-1XTy,利用矩陣計(jì)算的方法解出相應(yīng)的權(quán)值,并使得訓(xùn)練集樣本距離超平面的均方和最小。
(3)支持向量機(jī):感知器算法可能會(huì)收斂到不同的解,但對(duì)于要求嚴(yán)格的問(wèn)題中,一個(gè)給兩測(cè)類(lèi)別留了更多可自由活動(dòng)的空間的決策函數(shù)顯然產(chǎn)生錯(cuò)誤的危險(xiǎn)更小。支持向量機(jī)理論提供了求出這樣平面的方法,通過(guò)解決優(yōu)化問(wèn)題:
(2-10)
使得超平面兩側(cè)擁有最大的間隔。其中滿足|WTX+w0|=1的向量叫做支持向量。
(四)非線性分類(lèi)法
線性分類(lèi)器具有簡(jiǎn)單、直觀的特點(diǎn),但是在現(xiàn)實(shí)生活中會(huì)經(jīng)常遇到線性不可分的情況,比如最著名的異或(XOR)布爾函數(shù),就無(wú)法用一個(gè)平面將兩各類(lèi)別分開(kāi)。最常見(jiàn)的非線性分類(lèi)的方法有神經(jīng)網(wǎng)絡(luò)、多項(xiàng)式分類(lèi)器以及決策樹(shù)分類(lèi)器。
1.神經(jīng)網(wǎng)絡(luò)。
一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)由三部分組成:輸入層(input)、隱含層(hidden)以及輸出層(output),如圖2-3。
作為一個(gè)可以適應(yīng)復(fù)雜問(wèn)題的啟發(fā)式的統(tǒng)計(jì)模式識(shí)別技術(shù),神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的功能,戈?duì)柲炅_夫證明只要給出足夠數(shù)量的隱含層的神經(jīng)單元、適當(dāng)?shù)姆蔷€性函數(shù)以及權(quán)值,任何判決都可以利用三層神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)。一個(gè)常見(jiàn)的神經(jīng)網(wǎng)絡(luò)的算法就是利用反向傳播算法。限于篇幅,這里只介紹算法的核心思想。
反向傳播算法的基本思想主要分為三步:
第一步,初始化所有權(quán)值。
第二步,前向計(jì)算:從輸入層開(kāi)始,從前往后地依次計(jì)算每個(gè)神經(jīng)元的輸出,計(jì)算方式為帶限界的加權(quán)和。
第三步,后向計(jì)算與權(quán)值修正:依據(jù)輸出的結(jié)果,從輸出曾開(kāi)始從后往前地依次計(jì)算出來(lái)權(quán)值修正的大小,并對(duì)全部權(quán)值進(jìn)行修正。
反向傳播算法可以對(duì)空間進(jìn)行較為復(fù)雜的劃分,并且可以充分利用并行的高性能計(jì)算來(lái)完成分類(lèi)的工作。但是人工神經(jīng)網(wǎng)絡(luò)需要較大的訓(xùn)練集來(lái)保證結(jié)果的正確性。
2.多項(xiàng)式分類(lèi)器。
對(duì)于一個(gè)多項(xiàng)式分類(lèi)器,其核心思想就是進(jìn)行樣本空間的轉(zhuǎn)化,將其轉(zhuǎn)化為線性分類(lèi)器問(wèn)題。比如針對(duì)XOR問(wèn)題,原特征空間可以表示為X=[x1,x2],若引入新的特征空間,令X’=[x1,x2,x1x2]=[y1,y2,y3],則完成了從二維空間到三維空間的轉(zhuǎn)化。而對(duì)于新的空間,可以建立超平面g(x)=y1+y2-2y3-1/4正確區(qū)分兩個(gè)類(lèi)別。
然而多項(xiàng)式分類(lèi)器適用于低維空間的非線性分類(lèi)問(wèn)題,對(duì)于維度較大的問(wèn)題,由于產(chǎn)生的新特征空間將過(guò)于龐大,增加了計(jì)算的復(fù)雜性。
3.決策樹(shù)。
決策樹(shù)算法的核心思想就是利用一系列的查詢來(lái)逐步地確定類(lèi)別,圖2-4展現(xiàn)了一個(gè)判斷水果類(lèi)型的決策樹(shù)。
建立一棵決策樹(shù)的過(guò)程可以看作是從不同的屬性空間,層次性的分開(kāi)各個(gè)類(lèi)別的數(shù)據(jù)。建立的過(guò)程如下:
(1)首先,選擇一個(gè)屬性,對(duì)訓(xùn)練集進(jìn)行劃分。
(2)其次,對(duì)劃分的每一個(gè)子訓(xùn)練集,判斷是否滿足停止準(zhǔn)則,比如限制樹(shù)的高度,確定根結(jié)點(diǎn)的純度等。
(3)最后,如果有子訓(xùn)練集不滿足停止條件,算法將對(duì)該子訓(xùn)練集重復(fù)這三個(gè)步驟,直到所有的訓(xùn)練子集都滿足。
決策樹(shù)使用比較簡(jiǎn)單,進(jìn)行規(guī)則的匹配和查詢就可以了,而且結(jié)果非常直觀。但是對(duì)于算法實(shí)現(xiàn)的細(xì)節(jié),比如停止準(zhǔn)則的確定,進(jìn)行劃分的特征的選擇等會(huì)影響分類(lèi)的結(jié)果。限于篇幅,這里就不一一介紹。
四、半監(jiān)督學(xué)習(xí)
區(qū)別于有監(jiān)督學(xué)習(xí)要求訓(xùn)練集具有完整的類(lèi)別標(biāo)簽,半監(jiān)督學(xué)習(xí)只需要小部分訓(xùn)練樣本具有類(lèi)別標(biāo)簽,甚至可以通過(guò)向外部的指示器(Oracle)交互式地獲得部分樣本的標(biāo)簽。
同時(shí)區(qū)別于無(wú)監(jiān)督學(xué)習(xí),不要求訓(xùn)練集具有類(lèi)別標(biāo)簽,只是通過(guò)研究樣本屬性之間的相似度進(jìn)行學(xué)習(xí),半監(jiān)督學(xué)習(xí)通常依靠部分有標(biāo)簽的樣本進(jìn)行指導(dǎo),還可以有效地提高聚類(lèi)的效果。
通常半監(jiān)督學(xué)習(xí)被認(rèn)為是分類(lèi)問(wèn)題的特殊形式,因?yàn)榘氡O(jiān)督學(xué)習(xí)多關(guān)注與如何有效地利用無(wú)類(lèi)別標(biāo)簽數(shù)據(jù)來(lái)提高分類(lèi)器的性能。但是半監(jiān)督學(xué)習(xí)的研究仍然涉及到聚類(lèi)、回歸等方面。
最常見(jiàn)的半監(jiān)督學(xué)習(xí)方法是產(chǎn)生式模型方法(Generative Models),通常來(lái)說(shuō)數(shù)據(jù)的分布可以描述為P(X,y)=P(X|y)P(y),該方法假設(shè)P(X|y)服從特定的混合分布模型(比如高斯混合分布模型)。通過(guò)大量的無(wú)標(biāo)簽樣本,確定組成該混合模型的各個(gè)組成部分的參數(shù),利用有標(biāo)簽樣本的信息,來(lái)進(jìn)一步確定樣本的分布。針對(duì)產(chǎn)生式模型的研究,在理論方面集中在以下兩個(gè)方面:
1.混合模型可識(shí)別性研究:給定某一參數(shù)向量,能否可以確定唯一的多分布混合的方式??梢灾赖氖歉咚狗植嫉幕旌夏P褪强勺R(shí)別的;與此同時(shí),文獻(xiàn)[11]證明Bernoulli混合模型是不可識(shí)別的;文獻(xiàn)[12]在混合模型可識(shí)別性方面做了進(jìn)一步的研究。
2.模型正確性研究:如果對(duì)于模型的假設(shè)是正確的,可以證明,通過(guò)充分學(xué)習(xí)無(wú)標(biāo)簽的樣本有助于提升分類(lèi)的精度;但是如果模型估計(jì)錯(cuò)誤,無(wú)標(biāo)簽樣本不會(huì)對(duì)模型精度帶來(lái)提升,甚至導(dǎo)致精度下降。通常會(huì)利用組合算法或者樣本降權(quán)的策略來(lái)減少模型選擇錯(cuò)誤帶來(lái)的風(fēng)險(xiǎn)。在應(yīng)用方面,常見(jiàn)的方法包括利用EM算法辨別混合組件、利用聚類(lèi)算法劃分樣本空間并利用有標(biāo)簽的數(shù)據(jù)標(biāo)記各子空間的標(biāo)簽;應(yīng)用領(lǐng)域主要包括文本分類(lèi)、文字對(duì)齊、人臉識(shí)別等。
自主訓(xùn)練方法(Self-training)是半監(jiān)督學(xué)習(xí)最早的研究方向之一。該方法使用一個(gè)有監(jiān)督學(xué)習(xí)算法從一小批有標(biāo)簽樣本開(kāi)始學(xué)習(xí),迭代地給無(wú)標(biāo)簽樣本賦予標(biāo)簽,并加入到訓(xùn)練樣本中來(lái)。這種思想最早可以追溯到1965年。由于是一種包裹式算法,算法的性能更多依賴于所選擇的有監(jiān)督學(xué)習(xí)算法的性能。自主學(xué)習(xí)方法被用于多種自然語(yǔ)言處理任務(wù)中,比如語(yǔ)義歧義的識(shí)別甚至是情感識(shí)別;同時(shí)Rosenberg等人還將自主學(xué)習(xí)應(yīng)用到圖像對(duì)象識(shí)別系統(tǒng)中。
協(xié)同訓(xùn)練(Co-training)最初是Blum和Mitchel針對(duì)諸如網(wǎng)頁(yè)分類(lèi)等具有兩個(gè)充分冗余的視圖的半監(jiān)督學(xué)習(xí)問(wèn)題提出來(lái)的半監(jiān)督學(xué)習(xí)算法。最初假設(shè)樣本包含兩個(gè)充分冗余的視圖,由于這一要求在實(shí)際應(yīng)用中往往無(wú)法滿足,Nigam和Ghani在文獻(xiàn)[24]中通過(guò)實(shí)驗(yàn)證明,在屬性集充分大時(shí),可以隨機(jī)把屬性集劃分為兩個(gè)視圖,同樣可以取得不錯(cuò)的效果。由于充分大屬性集要求過(guò)于嚴(yán)格,隨機(jī)劃分屬性集的效果不是非常穩(wěn)定,因此,許多研究者試圖尋找不需要充分冗余視圖的協(xié)同算法。Goldman和Zhou在文獻(xiàn)[25]的研究建立在噪聲學(xué)習(xí)理論和統(tǒng)計(jì)技術(shù)之上,利用不同決策樹(shù)分類(lèi)器劃分樣本空間為若干等價(jià)類(lèi)。每個(gè)分類(lèi)器不斷從樣例空間的等價(jià)類(lèi)內(nèi)找出最置信的一批樣本給予標(biāo)簽,提交給另一個(gè)分類(lèi)器作為訓(xùn)練樣本。他們?cè)谖墨I(xiàn)[3]中進(jìn)行了擴(kuò)展,使該算法可以使用多個(gè)不同類(lèi)型分類(lèi)器。為了進(jìn)一步放松約束條件,周志華等人提出了Tri-training算法。該算法首先使用重復(fù)取樣的方法訓(xùn)練三個(gè)分類(lèi)器,然后不斷的利用其中兩個(gè)分類(lèi)器,共同選出高置信的無(wú)標(biāo)簽的樣本進(jìn)行標(biāo)記,來(lái)更新第三個(gè)模型。對(duì)比Goldman的方法,Tri-training算法顯著減少了大量耗時(shí)的統(tǒng)計(jì)測(cè)試技術(shù)。為進(jìn)一步減少噪聲的影響,李明等人又在Tri-training的基礎(chǔ)上提出了Co-forest方法,可以更好地發(fā)揮協(xié)同學(xué)習(xí)的作用。
直推式支持向量機(jī)(Transductive Support Vector Machines,TSVM)又被叫做半監(jiān)督支持向量機(jī)(Semi-Supervised Support Vector Machines,S3VM)目的是利用支持向量機(jī)技術(shù),將決策邊界建立在遠(yuǎn)離高密度區(qū)的空間區(qū)域,來(lái)建立P(X)與決策邊界的聯(lián)系。由于尋找準(zhǔn)確的直推式支持向量機(jī)的解是NP難問(wèn)題,許多算法都主要用于發(fā)掘近似解。其他類(lèi)似的避免高密度區(qū)域進(jìn)行判別的算法還包括基于高斯過(guò)程的方法(如文獻(xiàn)[18]),以及基于信息論的方法(如文獻(xiàn)[19])。
基于圖的半監(jiān)督方法(Graph-based semi-supervised methods)通常將數(shù)據(jù)集描述為一張圖,圖中的結(jié)點(diǎn)為數(shù)據(jù)集中的樣本(有標(biāo)簽或者無(wú)標(biāo)簽的),結(jié)點(diǎn)之間的連線通常定義為樣本之間的相似度。圖方法通常利用矩陣?yán)碚摶蛘邎D算法,來(lái)尋找平滑的函數(shù)能夠最大程度上匹配有標(biāo)簽樣本的分布。圖的半監(jiān)督學(xué)習(xí)算法的關(guān)鍵在于建圖、以及損失函數(shù)的確定。
除了半監(jiān)督分類(lèi)算法,其他半監(jiān)督算法還包括譜聚類(lèi)(Spectral Clustering),半監(jiān)督聚類(lèi)(Semi-supervised Clustering),半監(jiān)督回歸(Semi-supervised Regression),主動(dòng)學(xué)習(xí)(Active Learning),多示例學(xué)習(xí)(Multi-Instance Learning)等。
五、遷移學(xué)習(xí)
與半監(jiān)督學(xué)習(xí)類(lèi)似的,遷移學(xué)習(xí)的提出也是針對(duì)訓(xùn)練樣本不足的分類(lèi)情況。但是半監(jiān)督學(xué)習(xí)依靠具有獨(dú)立同分布的訓(xùn)練樣本和待分類(lèi)樣本,而遷移學(xué)習(xí)則通過(guò)借助其他領(lǐng)域的訓(xùn)練樣本來(lái)建立分類(lèi)器,為本領(lǐng)域的待分類(lèi)樣本進(jìn)行類(lèi)別標(biāo)簽預(yù)測(cè)。
傳統(tǒng)的學(xué)習(xí)方法通常依賴各自領(lǐng)域的訓(xùn)練樣本,建立本領(lǐng)域的知識(shí)模型來(lái)進(jìn)行領(lǐng)域內(nèi)的學(xué)習(xí)任務(wù),如圖2-5(a)。但是遷移學(xué)習(xí)的訓(xùn)練樣本來(lái)自其他領(lǐng)域(比如有類(lèi)別標(biāo)簽樣本較為豐富的領(lǐng)域),通過(guò)該領(lǐng)域樣本的學(xué)習(xí),抽取出來(lái)相關(guān)的知識(shí)用于本領(lǐng)域的分類(lèi)任務(wù),如圖2-5(b)。但是與傳統(tǒng)學(xué)習(xí)方式相同的是,遷移學(xué)習(xí)的目標(biāo)也是分類(lèi)的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化,只是優(yōu)化經(jīng)驗(yàn)風(fēng)險(xiǎn)時(shí)會(huì)利用到源領(lǐng)域的知識(shí)。
遷移學(xué)習(xí)依賴于源領(lǐng)域的知識(shí)和目標(biāo)領(lǐng)域知識(shí)分布相似,如果兩者的分布不一致,往往會(huì)引起分類(lèi)性能的下降,這種現(xiàn)象叫做負(fù)遷移。負(fù)遷移成為使用遷移學(xué)習(xí)的最大風(fēng)險(xiǎn),為了保證遷移學(xué)習(xí)的效果,如何降低負(fù)遷移成為遷移學(xué)習(xí)關(guān)注的一個(gè)領(lǐng)域。
依據(jù)有類(lèi)別標(biāo)簽的樣本存在的學(xué)習(xí)領(lǐng)域,文獻(xiàn)[8]將遷移學(xué)習(xí)領(lǐng)域分為兩類(lèi):歸納式遷移學(xué)習(xí)(Inductive Transfer Learning)和直推式遷移學(xué)習(xí)(Transductive Transfer Learning)。
(一)歸納式遷移學(xué)習(xí)
歸納式遷移學(xué)習(xí)的假設(shè)為目標(biāo)領(lǐng)域包含有部分的帶有類(lèi)別標(biāo)簽的樣本。因此該領(lǐng)域的研究重點(diǎn)在于如何遷移其他領(lǐng)域的知識(shí),以更好的利用目標(biāo)領(lǐng)域中帶有類(lèi)別標(biāo)簽的樣本。依據(jù)遷移的手段可以分為:
1.樣本遷移:歸納式遷移學(xué)習(xí)的樣本遷移方法假設(shè)目標(biāo)領(lǐng)域和源領(lǐng)域使用相同的特征空間和標(biāo)簽集合,通過(guò)調(diào)整權(quán)值和重采樣技術(shù),實(shí)現(xiàn)源領(lǐng)域部分樣本的重用。因此,此方式的核心思想是利用目標(biāo)領(lǐng)域內(nèi)的帶有類(lèi)別標(biāo)簽的樣本指導(dǎo)從源領(lǐng)域進(jìn)行采樣,使得訓(xùn)練樣本在分布上與目標(biāo)領(lǐng)域近似。
以Tradaboost[9]為例,訓(xùn)練的數(shù)據(jù)來(lái)自于源領(lǐng)域和目標(biāo)領(lǐng)域,每次訓(xùn)練結(jié)束對(duì)訓(xùn)練結(jié)果進(jìn)行評(píng)價(jià)。對(duì)于目標(biāo)領(lǐng)域,類(lèi)似于Adaboost方法提升被分錯(cuò)的樣本的權(quán)值;而對(duì)源領(lǐng)域,則降低被分錯(cuò)樣本的權(quán)值。下一輪訓(xùn)練則利用調(diào)整后的樣本權(quán)值進(jìn)行重采樣。最后依據(jù)分類(lèi)的置信度輸出判定的類(lèi)別標(biāo)簽。
2.代表特征遷移:歸納式遷移學(xué)習(xí)的代表特征遷移方式假設(shè)源領(lǐng)域和目標(biāo)領(lǐng)域由于任務(wù)的相關(guān)性,會(huì)共享某些特征。該方法的核心思想為通過(guò)空間映射方法(比如特征選擇,特征變換,核空間等)提升目標(biāo)領(lǐng)域和源領(lǐng)域在特征領(lǐng)域的相似性,同時(shí)增強(qiáng)樣本的類(lèi)別可區(qū)分性。利用優(yōu)化技術(shù),使得目標(biāo)領(lǐng)域映射、源領(lǐng)域映射、參數(shù)矩陣三個(gè)角度都達(dá)到優(yōu)化。
3.模型遷移:歸納式遷移學(xué)習(xí)的模型遷移方式假設(shè)由于各個(gè)領(lǐng)域之間的任務(wù)具有一定相關(guān)性,在一定程度上可以共享相互之間模型的參數(shù)。學(xué)習(xí)算法通過(guò)改變各個(gè)領(lǐng)域?qū)W習(xí)目標(biāo)函數(shù),使得各目標(biāo)函數(shù)在形式上類(lèi)似,甚至具有相同的重要參數(shù),這時(shí)通過(guò)共享相同模型參數(shù),實(shí)現(xiàn)目標(biāo)領(lǐng)域的學(xué)習(xí)的優(yōu)化。
4.關(guān)系知識(shí)遷移:歸納式遷移學(xué)習(xí)的關(guān)系知識(shí)遷移方法假設(shè)目標(biāo)領(lǐng)域和源領(lǐng)域在樣本關(guān)系方面具有相似性。該方法首先學(xué)習(xí)源領(lǐng)域的關(guān)系知識(shí),比如學(xué)生和導(dǎo)師以及文章三者關(guān)系;其次,建立源領(lǐng)域相關(guān)對(duì)象與目標(biāo)領(lǐng)域相關(guān)對(duì)象之間映射關(guān)系,比如源領(lǐng)域的學(xué)生、導(dǎo)師和文章分別對(duì)應(yīng)目標(biāo)領(lǐng)域的演員、導(dǎo)演和電影;最后,將從源領(lǐng)域的關(guān)系知識(shí)直接或者經(jīng)過(guò)變換遷移到目標(biāo)領(lǐng)域。
該種方法具有一定的針對(duì)性,一般用于具有樣本相關(guān)性的模型中,通過(guò)遷移關(guān)系知識(shí),提升目標(biāo)領(lǐng)域的關(guān)系模型建立的效率和性能。
(二)直推式遷移學(xué)習(xí)
直推式遷移學(xué)習(xí)的假設(shè)為目標(biāo)領(lǐng)域中不包含任何具有類(lèi)別標(biāo)簽的樣本。類(lèi)似與歸納式遷移學(xué)習(xí),直推式遷移學(xué)習(xí)也包含樣本空間和特征空間兩個(gè)研究的角度。
1.樣本遷移:由于目標(biāo)領(lǐng)域不包含帶有類(lèi)別標(biāo)簽的樣本,因此樣本遷移方法是依據(jù)源領(lǐng)域和目標(biāo)領(lǐng)域在分布上的差異,給源領(lǐng)域的樣本賦予不同的權(quán)值,盡可能接近目標(biāo)領(lǐng)域的分布。特別地,一些基于采樣的直推式遷移學(xué)習(xí)方法假設(shè)目標(biāo)領(lǐng)域和源領(lǐng)域具有相同的后驗(yàn)概率,通過(guò)重采樣方法生成新的訓(xùn)練集。
2.代表特征遷移:直推式遷移學(xué)習(xí)中的代表特征遷移方法依然假設(shè)目標(biāo)領(lǐng)域和源領(lǐng)域具有相同的后驗(yàn)概率。該方法的核心思想是通過(guò)找到一組特征能夠減少目標(biāo)領(lǐng)域和源領(lǐng)域之間的距離。
直推式的代表特征遷移往往只是針對(duì)特定的問(wèn)題。比如具有相同詞典的文本挖掘,文本的屬性向量相同或者類(lèi)似,并以詞典分布作為依據(jù),通過(guò)協(xié)同聚類(lèi)方式遷移類(lèi)別標(biāo)簽。
(三)遷移學(xué)習(xí)相關(guān)問(wèn)題
依據(jù)文獻(xiàn)[8],依據(jù)目標(biāo)領(lǐng)域是否具有帶有類(lèi)別標(biāo)簽的樣本,遷移學(xué)習(xí)可以分為歸納式遷移學(xué)習(xí)(Inductive Transfer Learning)和直推式遷移學(xué)習(xí)(Transductive Transfer Learning)兩個(gè)方向。而根據(jù)源領(lǐng)域是否具有類(lèi)別標(biāo)簽樣本,以及目標(biāo)領(lǐng)域和源領(lǐng)域?qū)W習(xí)任務(wù)的相似性,遷移學(xué)習(xí)還涉及到以下幾類(lèi)學(xué)習(xí)問(wèn)題:
自助學(xué)習(xí)(Self-taught Learning):該問(wèn)題假設(shè)目標(biāo)領(lǐng)域和源屬于不同的分布,而且類(lèi)別標(biāo)簽集也不相同;特別地,源領(lǐng)域有類(lèi)別標(biāo)簽的樣本較少。該方法通過(guò)找出共同的屬性集合,來(lái)實(shí)現(xiàn)目標(biāo)領(lǐng)域的學(xué)習(xí)。比如圖像識(shí)別里面,各個(gè)識(shí)別任務(wù)可能不一樣,例如識(shí)別動(dòng)物和識(shí)別風(fēng)景。但通過(guò)聚類(lèi)發(fā)現(xiàn)識(shí)別動(dòng)物時(shí)依據(jù)對(duì)象邊緣的特征,可以有效地區(qū)分不同的動(dòng)物;將該特征可以遷移到對(duì)不同風(fēng)景的識(shí)別中。因此自助學(xué)習(xí)常常使用協(xié)同聚類(lèi)方法找出可以遷移的特征基。
其他相關(guān)的研究方向還有:多任務(wù)學(xué)習(xí)(Multi-task Learning)、無(wú)監(jiān)督遷移學(xué)習(xí)(Unsupervised Transfer Learning)、領(lǐng)域自適應(yīng)學(xué)習(xí)(Domain Adaptation)以及樣本選擇偏差/方差遷移(Sample Selection Bias/Covariance Shift)等。在此不一一介紹。相關(guān)領(lǐng)域關(guān)系如圖2-6所示。
六、總結(jié)
本章從學(xué)習(xí)角度介紹了數(shù)據(jù)挖掘領(lǐng)域常見(jiàn)的四類(lèi)算法。有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)是數(shù)據(jù)挖掘傳統(tǒng)的學(xué)習(xí)方法,依據(jù)樣本是否使用了外在的類(lèi)別標(biāo)簽作為指導(dǎo),分別應(yīng)用于不同的任務(wù)場(chǎng)景。由于現(xiàn)實(shí)生活中有類(lèi)別標(biāo)簽的數(shù)據(jù)往往較少或者獲取難度較大,近年來(lái)提出了包括半監(jiān)督學(xué)習(xí)以及遷移學(xué)習(xí)等方法,利用無(wú)類(lèi)別標(biāo)簽樣本或者類(lèi)似學(xué)習(xí)任務(wù)來(lái)提升有監(jiān)督學(xué)習(xí)的效果和性能。
有監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)主要的目的是為了提高分類(lèi)任務(wù)的性能,圖2-7通過(guò)犀牛和大象的圖片分類(lèi)任務(wù)來(lái)形象的區(qū)分了三者的核心思想。有監(jiān)督學(xué)習(xí),如圖2-7(a),通過(guò)學(xué)習(xí)具有類(lèi)別標(biāo)簽的大象和犀牛的圖片建立學(xué)習(xí)模型;半監(jiān)督學(xué)習(xí),如圖2-7(b),利用具有類(lèi)別標(biāo)簽的兩中動(dòng)物的圖片以及不具備類(lèi)別標(biāo)簽的兩種動(dòng)物的圖片建立學(xué)習(xí)模型;遷移學(xué)習(xí),如圖2-7(c),通過(guò)學(xué)習(xí)羊與馬的圖片,建立源領(lǐng)域模型,并遷移到目標(biāo)領(lǐng)域大象和犀牛的學(xué)習(xí)問(wèn)題中。
參考文獻(xiàn):
[1]Chapelle O,SchÄolkopf B,Zien A. Semi-Supervised Learning.MIT Press,Cambridge.MA,2006
[2]Rosenberg C,Hebert M,Schneiderman H.Semi-supervised self-training of object detection models.in Seventh IEEE Workshop on Applications of Computer Vision,2005
[3]Zhou Y,Goldman S.Democratic co-learning.in Proceedings of the 16th IEEE International Conference on Tools with Artificial Intelligence(ICTAI 2004),2004
[4]Bennett K,Demiriz A. Semi-supervised support vector machines.Advances in Neural Information Processing Systems,1999
[5]Zhu X.Semi-supervised learning with graphs.Ph.D.thesis.Carnegie Mellon University,2005
[6]Zhou Z,Xu J.On the relation between multi-instance learning and semi-supervised learning.in Proceedings of the 24th International Conference on Machine Learning,2007
[7]Duda R,Hart P,Stock D.模式分類(lèi)(原書(shū)第二版).李宏?yáng)|,姚天翔
[8]Pan J and Yang Q. A Survey on Transfer puter Sciences Technical Report HKUST-CS08-08,2008
[9]Dai W,Yang Q,Xue G,and Yu Y.Boosting for transfer learning.In Proceedings of the 24th International Conference on Machine Learning,2007
[10]Raina R,Battle A,Lee H,etc.Self-taught Learning:Transfer Learning from Unlabeled Data.Proceedings of the 24th International Conference on Machine Learning,2007
[11]McCallum A,Nigam K.A comparison of event models for naive bayes text classification.in AAAI-98 Workshop on Learning for Text Categorization,1998
[12]Corduneanu A,Jaakkola T. Using unlabeled data to improve text classification.Tech.Report AIM-2001-030.MIT AI Memo,2001
[13]Castelli V,Cover T.The relative value of labeled and unlabeled samples in pattern recognition with an unknown mixing parameter.in IEEE Transactions on Information Theory,1996
[14]Nigam K,McCallum A,Thrun S,Mitchell T.Text classification from labeled and unlabeled documents using em.in Machine Learning,2000
[15]Dara R,Kremer S,Stacey D.Clustering unlabeled data with soms improves classification of labeled real-world data. in World Congress on Computational Intelligence(WCCI),2002
[16]Culp M.An iterative algorithm for extending learners to a semi-supervised setting.in The 2007 Joint Statistical Meetings(JSM),2007
[17]Zhou Z,Li M.Tri-training:exploiting unlabeled data using three classifiers. in IEEE Transactions on Knowledge and Data Engineering,2005
[18]Zhu X,Lafferty J,Ghahramani Z.Semi-supervised learning: From gaussian fields to gaussian processes.Tech.Rep.CMU-CS-03-175,Carnegie Mellon University,2003
[19]Szummer M,Jaakkola T.Information regularization with partially labeled data.in Advances in Neural Information Processing Systems,2002
[20]Grira N,Crucianu M,Boujemaa N. Unsupervised and semi-supervised clustering:a brief survey.Tech.Rep.FP6.A Review of Machine Learning Techniques for Processing Multimedia Content,2004
[21]Zhou Z,Li M.Semi-supervised regression with co-training.in International Joint Conference on Artificial Intelligence(IJCAI),2005
[22]McCallum A,Nigam K.Employing em in pool-based active learning for text classification.in Proceedings of the 15th International Conference on Machine Learning,1998
[23]Blum A,Mitchell bining labeled and unlabeled data with co-training.In Proceedings of the Workshop on Computational Learning Theory (COLT),1998
[24]Nigam K,Ghani R.Analyzing the effectiveness and applicability of co-training.in Proceedings of the 9th ACM International Conference on Information and Knowledge Management(CIKM'00),2000
[25]Goldman S,Zhou Y. Enhancing supervised learning with unlabeled data.in Proceeding of the 17th International Conference on Machine Learning(ICML'00),2000
[26]Zhou Z,Li M.Tri-training: exploiting unlabeled data using three classifiers. in IEEE Transactions on Knowledge and Data Engineering,2005
級(jí)別:統(tǒng)計(jì)源期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:部級(jí)期刊
榮譽(yù):中國(guó)期刊全文數(shù)據(jù)庫(kù)(CJFD)
級(jí)別:北大期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:北大期刊
榮譽(yù):百種重點(diǎn)期刊
級(jí)別:統(tǒng)計(jì)源期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)