前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的對計算機視覺的理解主題范文,僅供參考,歡迎閱讀并收藏。
關(guān)鍵詞:動態(tài)場景;自適應(yīng)預(yù)測;多特征融合;計算機視覺;運動目標
接受信息的關(guān)鍵手段之一就是視覺系統(tǒng),隨著科學技術(shù)水平的不斷發(fā)展,以及計算機和信號處理理論的誕生,讓機器擁有人類視覺功能已經(jīng)不再是夢。對所采集視頻中的運動目標進行跟蹤、檢測,并對其目標行為進行分析,就是運動目標分析的內(nèi)容,運動目標分析是計算機視覺領(lǐng)域關(guān)鍵內(nèi)容之一,其屬于圖像理解與圖像分析的范疇。而在運動目標分析系統(tǒng)中,跟蹤與檢測運動目標則為中級和低級處理部分,是分析與理解行為的高等層分析模塊的基礎(chǔ)。檢測與跟蹤運動目標技術(shù)主要包括了:機器人視覺導(dǎo)航、軍事領(lǐng)域、運動圖像編碼、交通管制、視覺監(jiān)視等。
1目標檢測算法
連續(xù)圖像序列由視頻中提取出,由前景區(qū)域與背景區(qū)域共同組成了整個畫面。前景區(qū)域包含了如運動的人體、車輛等動態(tài)要素,它是指人們較為感興趣的區(qū)域。而背景區(qū)域主要包含例如樹木、建筑物等靜態(tài)要素,它的像素值僅發(fā)生微弱變化或者不產(chǎn)生變化。在連續(xù)圖像序列中,采用一系列算法分隔開背景區(qū)域和前景區(qū)域,將運動目標信息有效提取,則為運動目標檢測。以靜態(tài)場景為基礎(chǔ)的運動目標檢測算法包括了光流法、背景差分法、幀間查分法等,文章主要針對背景差分法進行介紹。
背景差分法通常適用于靜態(tài)場景,其是將背景圖像與當前幀圖像進行差分,運動目標依靠閥值化進行檢測,因為該算法僅能夠在背景變化緩慢或者不發(fā)生變化的情況下應(yīng)用,因此就有著一定的局限性。假設(shè)當前幀圖像為fk(x,y),背景圖像B(x,y)可通過一定的方法得出,而這時背景差分圖像則為:
(1)
而假設(shè)二值化閥值為Th,二值化圖像B(x,y)則為:
(2)
運動目標檢測結(jié)果可通過數(shù)學形態(tài)學處理獲得。
2 背景模型的實時更新
要更新背景圖像可采用一階KALMAN濾波來實現(xiàn),為了克服氣候變化、光照變化等外部環(huán)境變化對運動檢測產(chǎn)生的影響,采用一階KALMAN濾波更新背景圖像公式如下:
Bk+1(p)=Bk(p)+g(Ik(p)-Bk(p)) (3)
而增益因子則為:g=?琢1(1-Mk(p))+?琢2Mk(p) (4)
公式中?琢1和?琢2是權(quán)值系數(shù);M是第k時刻二值化后目標圖像中p像素的值;B為背景圖像;I為當前幀圖像。要想將運動目標從背景序列圖像中有效分割出來,就必須要達到?琢2足夠小的條件,且?琢1應(yīng)等于或者大于10?琢2,若?琢1值過大,就會將算法自身的去噪特性喪失,在序列背景圖像中也會存儲越來越多的運動變化。
3 更新車輛目標模型
核與活動輪廓算法具有效率高、技術(shù)復(fù)雜度低等特點,它以非參數(shù)核概率密度估計理論為基礎(chǔ),在視頻運動目標跟蹤中廣泛應(yīng)用。彩色圖像序列通過攝像機獲取,人臉目標模型可以采用RGB顏色空間來進行描述。在跟蹤車輛的過程中,噪聲、遮擋、光照等干擾或多或少存在,因干擾因素的存在,車輛像素特征也會發(fā)生相應(yīng)的微弱變化。若不對目標模型進行更新,會對跟蹤精度產(chǎn)生影響,所以,采用的矩形模板會包括一定背景。而在實施跟蹤的過程中,要對車輛目標模型進行更換。如果其過程物遮擋,當BHATTACHARYYA系數(shù)滿足?籽>Tudm條件時,更新車輛目標模型,更新模型為:
(5)
公式中Tudm是模板更新閥值;qk-1是更新之前的車輛目標模型。通過視頻跟蹤,在近場景和遠場景拍攝到的視頻中,多尺度圖像空間由各個幀圖像構(gòu)成。例如:將將書本作為跟蹤對象,由遠及近從書本的正上方拍攝六十幀圖像,為了能使矩形框正好能夠包含書本,對每幀圖像張書本手工劃定矩形框,并對框內(nèi)圖像的信息量進行統(tǒng)計。最后,隨書本尺度的變化,給出圖像信息量變化曲線。
4 計算機視覺原理
計算機視覺是一門研究怎樣使機器進行觀察的科學,更切確地說,就是指利用電腦和攝影機代替人眼對目標進行識別、跟蹤和測量等機器視覺,并進一步做圖形處理,用電腦處理成為傳送給儀器檢測或更適合人眼觀察的圖像。計算機視覺研究相關(guān)的理論和技術(shù)作為一個科學學科,嘗試創(chuàng)建能夠從圖像或者多維數(shù)據(jù)中獲取信息的人工智能系統(tǒng)。這里所指的信息指Shannon定義的,可以用來幫助做一個決定的信息。因為感知可以看作是從感官信號中提取信息,所以計算機視覺也可以看作是研究如何使人工系統(tǒng)從圖像或多維數(shù)據(jù)中感知的科學。
計算機視覺就是由計算機來代替大腦完成處理和解釋,用各種成象系統(tǒng)代替視覺器官作為輸入敏感手段。使計算機能象人那樣通過視覺觀察和理解世界,具有自主適應(yīng)環(huán)境的能力就是計算機視覺的最終研究目標,而需要經(jīng)過長期的努力才能達到這個目標。所以,在實現(xiàn)最終目標以前,通過努力的中期目標是建立一種視覺系統(tǒng),這個系統(tǒng)能依靠反饋的某種程度的智能和視覺敏感完成一定的任務(wù)。例如:計算機視覺的一個重要應(yīng)用領(lǐng)域就是自主車輛的視覺導(dǎo)航,但要實現(xiàn)自主導(dǎo)航的系統(tǒng),卻還沒有條件實現(xiàn)象人那樣能識別和理解任何環(huán)境。所以,人們通過不懈的努力,研究在高速公路上具有道路跟蹤能力,有效避免與前方車輛碰撞的視覺輔助駕駛系統(tǒng)。人類視覺系統(tǒng)是有史以來,人們所知道的功能最強大和完善的視覺系統(tǒng)。這里要指出的一點是在計算機視覺系統(tǒng)中計算機起代替人腦的作用。計算機視覺可以而且應(yīng)該根據(jù)計算機系統(tǒng)的特點來進行視覺信息的處理,但并不等于計算機必須按人類視覺的方法完成視覺信息的處理??梢哉f,對人類視覺處理機制的研究將給計算機視覺的研究提供指導(dǎo)和啟發(fā),所以,用計算機信息處理的方法研究人類視覺的機理,建立人類視覺的計算理論,與此同時也是一個十分重要和讓人感興趣的研究領(lǐng)域。這方面的研究被稱為計算視覺。計算視覺可被認為是計算機視覺中的一個研究領(lǐng)域。計算機視覺領(lǐng)域的不完善性與多樣性為其突出特點。
5 結(jié)束語
對視頻中的運動目標進行跟蹤、識別、檢測,并對目標行為進行研究、分析,這就是基于視覺運動目標分析。以計算機視覺為基礎(chǔ),分析運動目標,包括了目標行為的理解與分析、目標跟蹤、運動目標檢測、預(yù)處理圖像等,它是計算機視覺領(lǐng)域重要內(nèi)容之一。理解與分析運動目標的行為,既是計算機視覺的根本目的之一,也是檢測與跟蹤運動目標的最終目標。從理論層考慮,理解與分析運動目標的行為可以分為人工智能理論研究與模式識別。簡要闡述基于計算機視覺的運動目標分析,而所面臨的是對運動目標行為的理解。
參考文獻
[1]楊可,劉明軍,毛欣,夏維建,劉偉,周旋,吳煒,周凱.基于計算機視覺的電纜終端表面溫升分析系統(tǒng)[J].電視技術(shù),2013(7).
[2]葉闖,沈益青,李豪,曹思汗,王柏祥.基于人類視覺特性(HVS)的離散小波變換(DWT)數(shù)字水印算法[J].浙江大學學報:理學版,2013(2).
[3]何青海,馬本學,瞿端陽,李宏偉,王寶.基于機器視覺棉葉螨自動監(jiān)測與分級方法研究[J].農(nóng)機化研究,2013(4).
[4]賈挺猛,茍一,鮑官軍,董茂,楊慶華.基于機器視覺的葡萄樹枝骨架提取算法研究[J].機電工程,2013(4).
關(guān)鍵詞:計算機視覺;研討式教學;小組探討;課前回顧
作者簡介:陳芳林(1983-),男,湖南株洲人,國防科學技術(shù)大學機電工程與自動化學院,講師;周宗潭(1969-),男,河南洛陽人,國防科學技術(shù)大學機電工程與自動化學院,教授。(湖南 長沙 410073)
中圖分類號:G643.2 文獻標識碼:A 文章編號:1007-0079(2013)26-0065-02
進入21世紀,創(chuàng)新型人才的培養(yǎng)成為各國政府和高等教育界關(guān)注的一個焦點。世界各國研究型大學的共同特點是在研究生教育階段致力于培養(yǎng)富有創(chuàng)新意識和創(chuàng)新能力的高級人才。[1]研討式教學是培養(yǎng)研究生創(chuàng)新精神、科研能力的有效途徑,教師講解與學生探討兩部分相結(jié)合是研討式教學采用的主要模式。[2]將課程分成兩部分之后,教師講解的時間就必須壓縮,教師一方面需要思考如何在較短的時間內(nèi)完成課程的講解,同時還需要考慮課程講解要與學生探討部分緊密結(jié)合。因此,如何上好研討式教學教師講解這部分課,越來越受高等院校的重視。本文針對筆者教授工科研究生課程“計算機視覺”的實踐與經(jīng)驗,闡述了筆者對于如何上好研討式教學教師講解這部分課的個人體會。總結(jié)為兩點:第一,首先要充分做好課程準備;第二,上課環(huán)節(jié)采取回顧—案例—小結(jié)的講解方式。下面從課程準備、課前回顧、課程講解、課后小結(jié)四個方面分別闡述(如圖1所示)。
一、“計算機視覺”課程準備
要上好一門研討式教學的課程,一定要結(jié)合該門課程的特點,量身定制課程內(nèi)容,進行精心準備。本節(jié)先介紹“計算機視覺”課程的特點,然后結(jié)合該門課程的特點,介紹筆者對于“計算機視覺”的課程準備。
1.“計算機視覺”課程特點
“計算機視覺”是“數(shù)字圖像處理”和“模式識別”等課程的后續(xù)課程。該課程重點在于圖像或者圖像序列的分析理解。課程知識在機器人導(dǎo)航、偵查、測繪、測量、精密加工和目標跟蹤等多個領(lǐng)域都有廣泛的應(yīng)用。[3]近年來基于視覺信息的控制反饋也開始受到廣泛關(guān)注。國內(nèi)高校一般都為研究生開設(shè)了此門課程。
計算機視覺技術(shù)應(yīng)用廣泛、算法原理涉及面廣:涉及到概率與數(shù)理統(tǒng)計、信號與系統(tǒng)、圖像等基礎(chǔ)知識?!坝嬎銠C視覺”是一門重要的控制類、電子類及計算機類專業(yè)研究生的選修課程,它內(nèi)容廣泛、綜合性強,研討能力的培養(yǎng)顯得非常關(guān)鍵。
2.課程準備
首先,結(jié)合“計算機視覺”課程內(nèi)容廣泛、技術(shù)日益更新和豐富的特點,將課程36學時分為12次課,每次課為3小時,每堂課教師講解一個專題。這種設(shè)計,一方面可以更廣地涉及計算機視覺的各個領(lǐng)域;另一方面以專題的形式來講解,可以將學生帶入到該專題,介紹基本背景、理論、知識和方法,讓學生有一個初步的了解,方便課后學生對感興趣的專題進一步深入挖掘與研究。
其次,在課程開始之前,教師仔細統(tǒng)籌,安排好每次課的專題,這樣既方便學生一開始對整個課程有一個整體的了解,也方便學生選擇課堂研討的題目與內(nèi)容。根據(jù)12個專題,將各個專題講解的內(nèi)容與課件在開課之前準備好,這樣有利于把握各個專題之間的前后承接關(guān)系。例如,“區(qū)域”與“分割”是既有區(qū)分又有聯(lián)系的兩個專題,在課程開始之前,將課件準備好,就有利于宏觀把握,在“區(qū)域”專題提到的分割算法,就不需要在“分割”專題再次重復(fù),而在“分割”專題可以結(jié)合前面“區(qū)域”專題進行互相補充,以幫助學生融會貫通。
最后,在每個專題上課之前,再對課件進行精雕細琢,主要是對內(nèi)容分好層次,對方法進行分類,力圖在較短的時間內(nèi),讓學生對該專題有較全面的認識。例如,在講解圖像分割時,由于圖像分割方法非常多,可以將分割方法分為若干個大類,每個大類只講1~2個方法。這樣既可以盡可能涉及更廣的領(lǐng)域,又可以提高講解的效率。
二、“計算機視覺”課前回顧
課前回顧是指每堂課的前面一小段時間用來回顧上一堂課的內(nèi)容。雖然課前回顧時間非常短,一般為3~8分鐘,但是課前回顧是課堂教學中的一個重要環(huán)節(jié)。課前回顧可以幫助學生加強將要學習的內(nèi)容與已學過內(nèi)容之間的聯(lián)系。通過課前回顧,學生可以回憶前續(xù)課程所講解的概念、理論、算法的步驟等內(nèi)容,有助于解決新問題或者理解新知識。
課前回顧最重要的是既要復(fù)習前續(xù)課程的內(nèi)容,又要注意將前續(xù)內(nèi)容與當前內(nèi)容聯(lián)系起來。由于講解時間有限,要使研討式教學的教師講解部分效率高,教師幫助學生回憶上堂課的概念、模型、算法等內(nèi)容,就變得非常重要。如果不做課前回顧,那么當講到某處新知識時,往往需要停下來,將前續(xù)課程再講一遍,否則學生無法理解新的知識,這樣就降低了教學的效率。
課前回顧的時間,一般以3~8分鐘為宜。課前回顧的形式可以多樣化,如講解課后作業(yè)、回顧概念、提問等。筆者認為應(yīng)根據(jù)當天課程與前續(xù)課程的關(guān)系,采取合適的方式。各種方式結(jié)合使用,提高課前回顧的效率。
三、“計算機視覺”課程講解——案例教學
案例教學已經(jīng)成功地應(yīng)用于數(shù)學、計算機科學等領(lǐng)域的教學。通過案例,學生可以很快地掌握相應(yīng)的概念、算法的步驟等,從而提高教師講解部分的效率。[4]例如,在講解馬爾科夫隨機場時,筆者通過案例式教學,將馬爾科夫隨機場用一個生活中的例子來向?qū)W生解釋。首先,將馬爾科夫隨機場分解成兩個重要的概念,分別是隨機場與馬爾科夫性,然后將它們對應(yīng)到例子中,幫助學生理解。
隨機場包含兩個要素:位置(site)和相空間(phase space)。當給每一個“位置”中按照某種分布隨機賦予“相空間”的一個值之后,其全體就叫做隨機場(如圖2(a))。[5]這個概念非常抽象,難以理解。筆者應(yīng)用案例式教學,拿莊稼地來打比方?!拔恢谩焙帽仁且划€畝農(nóng)田,“相空間”好比是種的各種莊稼。給不同的地種上不同的莊稼,就好比給隨機場的每個“位置”,賦予“相空間”里不同的值。所以,可以形象地理解隨機場就是在哪塊地里種什么莊稼的布局(如圖2(b))。
馬爾科夫性指的是一個隨機變量序列按時間先后順序依次排開時,第N+1時刻的分布特性,與N時刻以前的隨機變量的取值無關(guān)。為了更直觀地理解馬爾科夫性,筆者仍然拿莊稼地打比方,如果任何一塊地里種的莊稼的種類僅僅與它鄰近的地里種的莊稼的種類有關(guān),與其他地方的莊稼的種類無關(guān),這種性質(zhì)就是馬爾科夫性。
符合上述兩個特征,那么這些地里種的莊稼的集合,就是一個馬爾科夫隨機場。通過案例式教學,筆者發(fā)現(xiàn)可以加深加快學生對課程內(nèi)容的理解,提高教師講解環(huán)節(jié)的效率。
四、課后小結(jié)
課后小結(jié)指的是一堂課將要結(jié)束時,教師對本堂課進行一個簡短的總結(jié)。許多成功的教師都會在其教學中堅持課后小結(jié)這個環(huán)節(jié),給學生一個總體的印象,以幫助學生消化本次課程的內(nèi)容。
研討式教學教師講解部分的課后小結(jié)與普通教學方式應(yīng)有所區(qū)別。筆者認為這主要是因為通過課后小結(jié)可以將本次課程所講內(nèi)容與學生的研討環(huán)節(jié)結(jié)合起來,而不僅僅是對內(nèi)容進行簡單的總結(jié)。
為了達到課后小結(jié)使本次課程內(nèi)容與學生探討環(huán)節(jié)建立聯(lián)系的目的,筆者在教學中常采用如下方式:首先,像普通教學方式一樣,總結(jié)本次課程內(nèi)容;然后,在此基礎(chǔ)上,拋出若干問題,這些問題,不需要學生馬上解答,而是留給學生課后思考,提供他們選擇研討主題的素材;最后,介紹其他在本次課程中沒有涉及到的前沿知識、方法與理論,拓寬學生的視野,從而增加學生選擇探討主題的覆蓋面。
通過應(yīng)用這種方式,筆者發(fā)現(xiàn)學生的思維更開闊,在探討環(huán)節(jié),學生往往可以選擇一些比較新穎的主題(例如視頻中不動點的檢測等),而不僅僅局限于教師所講內(nèi)容,從而提高了研討式教學的效果。
五、結(jié)論
在“計算機視覺”課程中引入研討式教學,通過總體設(shè)計規(guī)劃好整門課程內(nèi)容,課堂講解注意采用回顧—案例—小結(jié)的方式,筆者對如何上好研討式教學教師講解這部分課進行了個人經(jīng)驗的總結(jié)。通過本次教學改革,筆者體會到如果要提高教學效果,一定要注意教師講解與學生探討兩個環(huán)節(jié)的緊密結(jié)合。
參考文獻:
[1]侯婉瑩.我國研究型大學本科生科研研究[D].濟南:山東大學,
2009.
[2]張晴,李騰,韋艷,等.研討式教學模式的理論研究[J].中國科技縱橫,2011,(10).
[3]D.H .巴拉德.計算機視覺[M].北京:科學出版社,1987.
【關(guān)鍵詞】Opencv;計算機視覺技術(shù);系統(tǒng);研究
隨著計算機技術(shù)的快速發(fā)展,計算機設(shè)備逐漸被應(yīng)用到社會生活的各個方面,尤其是在當前計算機視覺技術(shù)和圖像處理技術(shù)快速發(fā)展的時期,各個科技領(lǐng)域中的計算機視覺技術(shù)已經(jīng)逐漸成熟。計算機視覺技術(shù)主要是利用計算機智能化來替代人眼,即對于客觀存在的三維立體化世界的理解和識別,整個實現(xiàn)過程均是以計算機技術(shù)作為基礎(chǔ)。隨著計算機視覺技術(shù)的不斷發(fā)展,現(xiàn)今其已逐漸成為了一門神經(jīng)生理學、計算機工程、信號學、物理學、應(yīng)用數(shù)學等綜合性學科。計算機視覺技術(shù)系統(tǒng)其在高性能計算機基礎(chǔ)之上來實現(xiàn)對大量數(shù)據(jù)的獲取,并且通過智能算法來對獲取數(shù)據(jù)進行處理,從而完成對數(shù)據(jù)集成。
一、視頻中運動物體檢測原理
對于視頻中的運動物體檢測主要分為兩中方法,其一為宏觀檢測法;其二為微觀檢測法。宏觀檢測法是對獲得的整幅圖像進行檢測,而微觀檢測法則是對所需要的區(qū)域進行圖像檢測。視覺技術(shù)在檢測運動物體的時候,首先對圖像進行采集,并對采集的信息數(shù)據(jù)進行預(yù)處理,將圖像進行分割,然后分別提取運動物體的影象,從而實現(xiàn)參數(shù)的更新。圖像采集過程中采用背景差分法,實現(xiàn)對背景圖像的提取,其通過一定算法采用人為手段獲取沒有背景的圖像。另外在進行運動物體檢測的時候還可以采用幀間差分法,其主要是實時獲取幀圖,然后實現(xiàn)一幀一幀圖像比值的比較,從而獲取具有差值的圖像。運動物體進行檢測的時候需連續(xù)獲取幀圖,將這些幀圖組合起來,其實就是物體的運動軌跡,然后同分割技術(shù)就能勾勒出物體的輪廓。隨著計算機視覺技術(shù)的不斷深入研究,發(fā)現(xiàn)此兩種方法單獨使用仍然存在的一些缺點,于是研究人員將二種檢測方法進行融合,形成一種綜合檢測方法。綜合檢測法將兩者檢測方法的優(yōu)勢進行了融合,并將其靈活的應(yīng)用到了生產(chǎn)和生活之中,取得了十分不錯的效用。
二、基于Opencv的計算機視覺技術(shù)探究
(一)基于Opencv的運動物體檢測
運動物體在進行檢測的時候,基于Opencv的檢測原理主要為:根據(jù)物體某項特定信息,例如,顏色、輪廓、性狀等,在復(fù)雜背景中利用這些特定的信息將物體分離出來。整個圖像的分離過程首先是進行視頻流捕捉,然后是進行視頻的格式轉(zhuǎn)換,再將圖像進行預(yù)處理,從而提取前景物體,減少環(huán)境因素對圖像處理的誤差,最后根據(jù)物體特征提取,并完成對運動物體的跟蹤。從圖像中提取所需的目標物體,其實質(zhì)就是對整個屋里輪廓進行檢測和分割,根據(jù)每個圖像的幀差異來進行提取。
(二)基于Opencv圖像預(yù)處理
視覺技術(shù)應(yīng)用于復(fù)雜的環(huán)境之中,由于存在著光照的變化,其場景中所出現(xiàn)的環(huán)境因素對視頻采集設(shè)備性能影響很大。環(huán)境因素會使得獲取的圖像信息的質(zhì)量降低,并且在圖像中無法避免的存在著噪點,這對于運動物體的檢測和圖像采集會造成很大的影響。當獲取視頻幀圖像之后需對其數(shù)據(jù)進行預(yù)處理,通常有平滑度濾波處理、圖像填充、圖像背景更新等。
1.平滑度濾波處理
由于在進行視頻圖像采集的時候存在著噪點,那么我們就需要對其進行噪點處理,以求減小噪聲。濾波平滑度濾波處理,其具有線性和非線性兩種方式,其中線性方式進行處理器運算簡單、運算速度快,但是在進行處理之后的圖像都會呈現(xiàn)不清晰的情況。而非線性方式盡心給處理之后,雖然能夠很好的減小噪點,確保信號的局部特點,但是其運算的速度會較慢。
2.圖像填充
對于幀圖像進行處理,通常采用檢測邊緣填充法或者是腐蝕膨脹法來完成,其中填充法是指當檢測出目標物體之后,利用邊緣檢測方法來對物體進行辨識,然后利用形態(tài)學的漫水填充法進行填充。圖像的腐蝕膨脹則主要是由于攝像機的性能等問題造成的。
3.實時背景更新
在進行圖像差分之前,需要對背景圖樣進行確定,并且需要對其進行初始化處理。以方便以后在進行檢測時候能夠?qū)崟r背景圖進行差分計算,只有這樣,才能夠獲得極佳的前景效果。在進行圖像差分時,首先需要根據(jù)指定法來確定第一幀背景的圖像,并將其指定為第一張背景圖片,然后在檢測過程中根據(jù)算法對背景實施更新。整個圖像在進行更新時,其主要的流程為:判斷并讀取圖像是否為第一幀;將Opencv處理的圖像轉(zhuǎn)化為單通道灰度值;將實時采集的圖像進行高斯平滑度處理,去除噪點;最后使用形態(tài)學濾波處理噪點。
(三)提取前景運動物體圖像
檢測運動物體的時候,只有在檢測流程中確保精確度,才能夠獲取滿意的前景跟蹤效果。此過程中主要分為兩個步驟,第一步為二值化圖像之后進行分割;第二步,圖像分析前處理,進行充分填充,確保前景圖的完整性。其中,前景圖的提取主要分為下面幾個步驟:首先對前景圖像和背景圖像進行差分,然后對差分的圖像進行二值化,再對背景中的前景圖像邊緣進行檢測,根據(jù)輪廓進行填充圖像。由于攝像頭存在于不同的場景和環(huán)境之中,不論是室外或者是室內(nèi)隨著場景的變化都會對圖像的采集產(chǎn)生影響。那么在前景圖中提取目標就需要在檢測系統(tǒng)中采用有效手段來完成背景實時更新。
閥值二值化分割法可以對檢測的物體進行前景和背景差圖分割,從而使目標物體能夠分離出圖像,且閥值分割先要確定每個像素的點是否處于灰度范圍值之內(nèi)。將圖像中的像素灰度與確定的閥值進行比較,其結(jié)果解釋所有像素點分為2類,一類像素的灰度小于閥值,另外一類就是大于閥值。閥值二值化分割時,確定分割的閥值T,然后分割圖像。選取合適的閥值進行分割,可以有效的減少光照因素影響,常用的動態(tài)閥值主要有直方圖來法與最大類方差法這另種分割方法。
三、計算機視覺三維技術(shù)
計算機視覺技術(shù)的核心為分割問題、運動分析、3D立體場景重構(gòu)等,立體視覺主要是從多幅圖像的參照中獲取目標物體的三維幾何信息。計算機視覺所模擬出的3D立體畫面只需要攝像機從不同的角度同一時間針進行圖像捕獲,將2D信息進行3D重構(gòu),進而將計算機程序重建于真實的三維場景之中,以恢復(fù)物體的真實空間信息。
(一)視覺系統(tǒng)
視覺系統(tǒng)捕獲圖像的過程,實則可以看成為對大量信息進行處理過程,整個系統(tǒng)處理可以分為三個層次,其一,理論層次;其二,描述層次;其三,實現(xiàn)層次。在攝像機視覺系統(tǒng)之中,輸入的是2D圖像,但是輸出為3D信息,而這就可以實現(xiàn)對圖像的位置、距離等信息的如實描述。視覺系統(tǒng)分為三個進階層次,第一階段為基礎(chǔ)框架;第二階段為2.5D表達;第三階段為三維階段。在第二階段中實現(xiàn)的2.5D表達,其原理是將不完整的3D圖像信息進行表達,即以一個點為坐標,從此點看去某一些物體的部分被遮擋。第三階段的三維階段,則是人眼觀察之后可以從不同的角度來觀察物體的整體框架,從而實現(xiàn)了將2.5D圖像信息的疊加重合運算,進一步處理之后得到了3D圖像。
(二)雙目視覺
人們從不同角度觀看同一時間內(nèi)的同一物體的時候,可以利用算法測量物體間的距離。此法被稱為雙目立體感覺,其依據(jù)的原理是視覺差原理,利用兩臺攝像機或者一臺攝像機,對兩幅不同的圖像進行不同角度觀察,并且對其觀察的數(shù)據(jù)進行對比分析。實現(xiàn)雙目立體視覺與平面視覺圖像獲取,其主要的步驟為:
(1)圖像獲取
從兩臺不同的攝像機,捕獲幀圖像,由于環(huán)境因素會造成圖像差異困難。為了更好的跟蹤目標、檢測,當捕獲圖像之后,需要對圖像進行預(yù)處理。
(2)攝像標定方式
獲得真實坐標系中的場景點中的與平面成像點占比見的對應(yīng)關(guān)系,借用三維立體空間中的三維坐標,標定之后確定攝像機的位置以及屬性參數(shù),并建立起成像的模型。
(3)特征提取方式
所謂的特征提取方式主要是為了提升檢測、跟蹤目標的準確性,需要對目標物體進行特征提取,從而實現(xiàn)對圖像分割提取。
(4)深度計算
深度信息主要是根據(jù)幾何光學原理,從三維世界進行客觀分析,因為距離會產(chǎn)生不同的位置,會使得成像位置與兩眼視網(wǎng)膜上有所不同。簡單來說,客觀景物的深度可以反映出雙目的視覺差,而利用視覺差的信息結(jié)合三角原理進行計算,可呈現(xiàn)出深度的圖像信息。
(三)攝像機模型
攝像機在標定過程中確定了其建立的基礎(chǔ)為攝像機的模型,攝像機模型在標定過程中關(guān)系到三個不同坐標系的轉(zhuǎn)換,分別為2D圖像平面坐標系、攝像機自身坐標系以及真實的世界坐標系。攝像機在攝像的時候起本質(zhì)是2D圖像坐標轉(zhuǎn)換,首先要定義攝像機的自身坐標系,將坐標系的原點設(shè)置為光心,X、Y、Z成立三維坐標系。其次則是建立平面的圖像坐標系,用以透視模型表示,其原點也在廣心的位置,稱之為主點。實際應(yīng)用中,物理的距離光心的位置d≠f焦距,而且會遠遠大于焦距,為了解決如此問題就提出了平面概念。在光軸z上設(shè)置一個虛擬的圖像平面,然后在此位置于平面關(guān)于光心對稱。接著,在設(shè)置的虛擬2D坐標系中,光軸和原點重合,并且攝像機與垂直平面的垂直方向相同,真實圖像上的點影射到攝像機坐標系。
(四)3D重構(gòu)算法
視頻流的采集,主要是采用Kinect設(shè)備、彩色攝像頭、紅外發(fā)射攝像頭、紅外接收攝像頭。使用微軟提供API控制Kinect設(shè)備,在操作之前需調(diào)用NUI初始化函數(shù),將函數(shù)的參數(shù)設(shè)置為用戶信息深度圖數(shù)據(jù)、彩色圖數(shù)據(jù)、骨骼追蹤圖數(shù)據(jù)、深度圖數(shù)據(jù)。上述的視頻流的打開方式不同,既可以是一種打開方式,也可以是多種打開方式,尤其在進行Kinect傳輸數(shù)據(jù)處理的時候,需遵循三條步驟的運行管線。此三條管線分別為:第一條為處理彩色和深度數(shù)據(jù),第二條為根據(jù)用索引添加顏色信息,并將其放入到深度圖之中,第三條為骨骼追蹤數(shù)據(jù)。
四、總結(jié)
隨著計算技術(shù)的快速發(fā)展,視覺技術(shù)逐漸被廣泛的應(yīng)用于我們?nèi)粘5难芯恐?。本文通過對視覺技術(shù)的相關(guān)問題進行分析,探究了圖像處理、分割、前景提取、運動物體觀測以及重構(gòu)3D圖等問題,為實現(xiàn)視覺技術(shù)更加深入研究做出了相應(yīng)的貢獻;為廣大參與計算機視覺技術(shù)研究同仁提供一個研究的思路,為實現(xiàn)視覺技術(shù)的騰飛貢獻薄力。
參考文獻
[1]張海科.基于Opencv的人手識別與跟蹤定位技術(shù)研究與實現(xiàn)[D].云南大學,2013.
生活中,每個人都問過別人“這件衣服是從哪買的?”“這雙鞋是什么牌子的?”這一問題很快會被AI技術(shù)解決,只需要拿出手機對著物品拍照,就會得到商品的各種信息,并且能一鍵買買買。這就是美國著名圖片社交網(wǎng)站Pinterest(拼趣)即將推出的應(yīng)用圖片識別購買業(yè)務(wù)。
Pinterest總裁Tim Kendall表示,“Pinterest可以即刻在存儲750多億張圖片的巨大網(wǎng)絡(luò)空間內(nèi)進行搜索,從而為用戶找到與所拍攝照片相似的配對圖片,以及查找到哪些地方能夠買到他們所需的商品?!?/p>
目前,Pinterest的估值已經(jīng)達到了110億美元,該公司的專注點正在向營收增長和創(chuàng)收方面轉(zhuǎn)變。相比Facebook、Twiter等社交網(wǎng)站,Pinterest已經(jīng)率先找到了一條清晰的創(chuàng)收道路。
從興趣到產(chǎn)品
亞里士多德曾經(jīng)說過,古往今來人們開始探索,都應(yīng)起源于對自然萬物的驚異??萍嫉倪M步也是如此,就像微軟研發(fā)主管和項目負責人Mitch Goldberg所說:“我們想通過該應(yīng)用向人們展示識別技術(shù)的無限魅力?!?/p>
今年2月,微軟旗下的Garage實驗室了一款名為“Fetch!”的應(yīng)用,它可通過機器學習系統(tǒng)識別照片中寵物狗的品種并用文字對該品種進行簡單的介紹。
隨著計算機視覺領(lǐng)域開始利用深層神經(jīng)網(wǎng)絡(luò)這種模仿人類大腦生物過程的系統(tǒng)來從事機器學習,識別的精確度實現(xiàn)了巨大飛躍。也就是說通過機器學習技術(shù),F(xiàn)etch!識別的準確度會越來越高,隨著大量圖片的涌入,F(xiàn)etch! 可以自我修復(fù)錯誤,從而更加精確地識別每一只狗的樣貌、形態(tài)、動作。除了測試狗類品種以外,你還可以把朋友的照片上傳至平臺,看看他們能夠?qū)?yīng)出哪種寵物。
微軟的這款產(chǎn)品基于目前最為熱門的一種圖像識別技術(shù)――“深度神經(jīng)網(wǎng)絡(luò)”,同樣基于這種技術(shù),微軟還有另一款有趣的產(chǎn)品:。去年5月,有超過5.75億圖片被提交到,超過8500萬來自世界各地的使用者訪問了這個網(wǎng)站,只為尋找一個簡單問題的答案――顏齡機器人認為我看起來像幾歲?如果是合照,并且顏齡機器人識別出的自己比周圍人年齡小,則更能引發(fā)用戶的興趣,這種“損人利己”的識別應(yīng)用著實在社交媒體上火了一把。
另一讓計算機視覺研究技術(shù)人員特別感興趣的領(lǐng)域是生物識別,當下最為火爆的莫過于人臉識別技術(shù)了。早期的人臉識別技術(shù)多為安防領(lǐng)域,如海關(guān)識別走私犯、商店識別小偷等。近年來,深度學習的研究與應(yīng)用使得人臉識別和人工智能的核心技術(shù)得到了極大的提升,攝像頭等圖像硬件的發(fā)展為人臉識別提供了很好的圖像基礎(chǔ),如今人臉識別技術(shù)應(yīng)用更加廣泛,比如公司可以使用刷臉打卡來杜絕代人打卡簽到現(xiàn)象。
其實早在2012年,谷歌就開發(fā)出了安卓系統(tǒng)的“刷臉解鎖”技術(shù),但因安全問題未解決,該技術(shù)一直未能得到普及。
而今年3月,電商巨頭亞馬遜提交了一項針購物付費的專利技術(shù),即消費者在亞馬遜網(wǎng)站購物時可以通過自拍或者視頻來進行付費,無須再輸入賬號密碼。在消費時系統(tǒng)會提示用戶表現(xiàn)出特定的行為、情緒或手勢來證明消費者就是本人,而不是拿著照片的冒名頂替者。
亞馬遜表示,這項技術(shù)能使消費者更加安全地進行網(wǎng)上購物,因為很多用戶為了省事會把所有賬戶都用同一個密碼,或者把密碼記在手機里,一旦遭遇“撞庫”或者手機被盜,后果不堪設(shè)想,而刷臉技術(shù)則沒有這個風險。
除了識別人臉,在識別其他生物方面也有了突破性進展,比如識別寄生蟲。瘧疾,是一種由瘧原蟲造成的全球性急性寄生蟲傳染病,據(jù)統(tǒng)計,2015年有大約有2.14億人受瘧疾的影響。
一直以來,醫(yī)療工作者是通過肉眼觀察采樣玻片來確定采樣對象是否被瘧原蟲感染,這不但是對醫(yī)療工作者經(jīng)驗的考驗,而且工作效率也十分低下,而貧困地區(qū)一直都缺乏有經(jīng)驗的醫(yī)療工作者。
今年2月,根據(jù)MIT Technology Review報道,Intellectual Ventures Laboratory(智能事業(yè)實驗室)開發(fā)出了能夠檢測和評估瘧疾感染的便攜式顯微鏡。這種顯微鏡采用的是一個名為“Autoscope”的系統(tǒng),通過計算機視覺和深度神經(jīng)網(wǎng)絡(luò)技術(shù),采用深度學習算法來鑒別瘧原蟲。這款便攜式顯微鏡今年在泰國實地測試,成功鑒別出了 170塊玻片中的瘧原蟲如果這項技術(shù)得到普及之后,只要診所有一臺Autoscope顯微鏡和一些載玻片,就可解決瘧疾的診斷問題,這將使瘧疾診斷不再依賴于有限的專業(yè)醫(yī)療人員。
技術(shù)轉(zhuǎn)化為產(chǎn)品
新技術(shù)的出現(xiàn),讓計算機不但“看見”這個世界,更能“看懂”這個世界,可以代替人眼甚至超越人眼。
人的視野是有限的,并且會受到周邊條件的影響,駕駛員在開車時會有視野盲區(qū),還會受到光線的影響,并且大霧、暴雨等極端天氣也會嚴重影響駕駛員的視線。而計算機視覺技術(shù)就不一樣了,視野會更開闊,受限制更小。根據(jù)汽車媒體《Leftlane》報道,福特公司最新的無人駕駛汽車研究計劃是由激光感應(yīng)(LiDAR)和雷達、攝像頭形成一張周圍環(huán)境的高清3D地圖,不但讓無人駕駛汽車看到攝像頭視野范圍之外的物體,而且并不受光線限制。在夜間試駕后,福特工程師Wayne Williams說:“坐在汽車里,我能感到它在走,但是我往車外看,只能看到一片漆黑。結(jié)果令人驚喜,車輛準確地沿著蜿蜒的道路行駛?!?/p>
識別場景這一領(lǐng)域技術(shù)的發(fā)展,使得計算機不但能當機器的眼睛,還能變成人類的眼睛。
對于雙目失明的人來說,能親自感知這個世界是夢寐以求的事,而微軟2016 Build開發(fā)者大會上Seeing AI項目正是要幫助盲人實現(xiàn)這一愿望。
Seeing AI項目是通過計算機視覺和自然語言去形容一個人的周圍環(huán)境、朗讀文本、回答問題以及識別人的面部表情,可以在手機上使用,也可以在Pivothead的智能眼鏡上使用。如果投入使用,將有助于為視障人士營造更公平的環(huán)境,是一款能夠真正改變?nèi)藗兩畹漠a(chǎn)品,就像此項目的高級項目經(jīng)理Anne Taylor所說的,這是“為真正重要的場景尋求解決方案”。也許不久微軟能開發(fā)出一種仿生眼,直接發(fā)送視覺信號到大腦,讓盲人真正看到這個世界。
國內(nèi)人工智能產(chǎn)業(yè)鏈解構(gòu)
基礎(chǔ)技術(shù)、人工智能技術(shù)和人工智能應(yīng)用構(gòu)成了人工智能產(chǎn)業(yè)鏈的三個核心環(huán)節(jié),我們將主要從這三個方面對國內(nèi)人工智能產(chǎn)業(yè)進行梳理,并對其中的人工智能應(yīng)用進行重點解構(gòu)。
人工智能的基礎(chǔ)技術(shù)主要依賴于大數(shù)據(jù)管理和云計算技術(shù),經(jīng)過近幾年的發(fā)展,國內(nèi)大數(shù)據(jù)管理和云計算技術(shù)已從一個嶄新的領(lǐng)域逐步轉(zhuǎn)變?yōu)榇蟊娀?wù)的基礎(chǔ)平臺。而依據(jù)服務(wù)性質(zhì)的不同,這些平臺主要集中于三個服務(wù)層面,即基礎(chǔ)設(shè)施即服務(wù)(IaaS)、平臺即服務(wù)(PaaS)和軟件即服務(wù)(SaaS)?;A(chǔ)技術(shù)提供平臺為人工智能技術(shù)的實現(xiàn)和人工智能應(yīng)用的落地提供基礎(chǔ)的后臺保障,也是一切人工智能技術(shù)和應(yīng)用實現(xiàn)的前提。
對于許多中小型企業(yè)來說,SaaS 是采用先進技術(shù)的最好途徑,它消除了企業(yè)購買、構(gòu)建和維護基礎(chǔ)設(shè)施和應(yīng)用程序的需要;而 IaaS通過三種不同形態(tài)服務(wù)的提供(公有云、私有云和混合云)可以更快地開發(fā)應(yīng)用程序和服務(wù),縮短開發(fā)和測試周期;作為 SaaS 和 IaaS 中間服務(wù)的 PaaS 則為二者的實現(xiàn)提供了云環(huán)境中的應(yīng)用基礎(chǔ)設(shè)施服務(wù)。
人工智能技術(shù)平臺
與基礎(chǔ)技術(shù)提供平臺不同,人工智能技術(shù)平臺主要專注于機器學習、模式識別和人機交互三項與人工智能應(yīng)用密切相關(guān)的技術(shù),所涉及的領(lǐng)域包括機器視覺、指紋識別、人臉識別、視網(wǎng)膜識別、虹膜識別、掌紋識別、專家系統(tǒng)、自動規(guī)劃、智能搜索、定理證明、博弈、自動程序設(shè)計、智能控制、機器人學習、語言和圖像理解和遺傳編程等。
機器學習:通俗的說就是讓機器自己去學習,然后通過學習到的知識來指導(dǎo)進一步的判斷。我們用大量的標簽樣本數(shù)據(jù)來讓計算機進行運算并設(shè)計懲罰函數(shù),通過不斷的迭代,機器就學會了怎樣進行分類,使得懲罰最小。這些學到的分類規(guī)則可以進行預(yù)測等活動,具體應(yīng)用覆蓋了從通用人工智能應(yīng)用到專用人工智能應(yīng)用的大多數(shù)領(lǐng)域,如:計算機視覺、自然語言處理、生物特征識別、證券市場分析和DNA 測序等。
模式識別:模式識別就是通過計算機用數(shù)學技術(shù)方法來研究模式的自動處理和判讀,它偏重于對信號、圖像、語音、文字、指紋等非直觀數(shù)據(jù)方面的處理,如語音識別,人臉識別等,通過提取出相關(guān)的特征來實現(xiàn)一定的目標。文字識別、語音識別、指紋識別和圖像識別等都屬于模式識別的場景應(yīng)用。
人機交互:人機交互是一門研究系統(tǒng)與用戶之間交互關(guān)系的學問。系統(tǒng)可以是各種各樣的機器,也可以是計算機化的系統(tǒng)和軟件。在應(yīng)用層面,它既包括人與系統(tǒng)的語音交互,也包含了人與機器人實體的物理交互。
而在國內(nèi),人工智能技術(shù)平臺在應(yīng)用層面主要聚焦于計算機視覺、語音識別和語言技術(shù)處理領(lǐng)域,其中的代表企業(yè)包括科大訊飛、格靈深瞳、捷通華聲(靈云)、地平線、SenseTime、永洪科技、曠視科技、云知聲等。
人工智能應(yīng)用
人工智能應(yīng)用涉及到專用應(yīng)用和通用應(yīng)用兩個方面,這也是機器學習、模式識別和人機交互這三項人工智能技術(shù)的落地實現(xiàn)形式。其中,專用領(lǐng)域的應(yīng)用涵蓋了目前國內(nèi)人工智能應(yīng)用的大多數(shù)應(yīng)用,包括各領(lǐng)域的人臉和語音識別以及服務(wù)型機器人等方面;而通用型則側(cè)重于金融、醫(yī)療、智能家居等領(lǐng)域的通用解決方案,目前國內(nèi)人工智能應(yīng)用正處于由專業(yè)應(yīng)用向通用應(yīng)用過度的發(fā)展階段。
(1)計算機視覺在國內(nèi)計算機視覺領(lǐng)域,動靜態(tài)圖像識別和人臉識別是主要研究方向
圖像識別:是計算機對圖像進行處理、分析和理解,以識別各種不同模式的目標和對像的技術(shù)。識別過程包括圖像預(yù)處理、圖像分割、特征提取和判斷匹配。
人臉識別:是基于人的臉部特征信息進行身份識別的一種生物識別技術(shù)。用攝像機或攝像頭采集含有人臉的圖像或視頻流,并自動在圖像中檢測和跟蹤人臉,進而對檢測到的人臉進行臉部的一系列相關(guān)技術(shù),通常也叫做人像識別、面部識別。
目前,由于動態(tài)檢測與識別的技術(shù)門檻限制,靜態(tài)圖像識別與人臉識別的研究暫時處于領(lǐng)先位置,其中既有騰訊、螞蟻金服、百度和搜狗這樣基于社交、搜索大數(shù)據(jù)整合的互聯(lián)網(wǎng)公司,也有三星中國技術(shù)研究院、微軟亞洲研究院、Intel中國研究院這類的傳統(tǒng)硬件與技術(shù)服務(wù)商;同時,類似于 Face++ 和FaceID 這類的新興技術(shù)公司也在各自專業(yè)技術(shù)和識別準確率上取得了不錯的突破。
而在難度最大的動態(tài)視覺檢測領(lǐng)域,格靈深瞳、東方網(wǎng)力和 Video++ 等企業(yè)的著力點主要在企業(yè)和家庭安防,在一些常見的應(yīng)用場景也與人臉識別技術(shù)聯(lián)動使用。
(2)語音/語義識別
語音識別的關(guān)鍵基于大量樣本數(shù)據(jù)的識別處理,因此,國內(nèi)大多數(shù)語音識別技術(shù)商都在平臺化的方向上發(fā)力,希望通過不同平臺以及軟硬件方面的數(shù)據(jù)和技術(shù)積累不斷提高識別準確率。
在通用識別率上,各企業(yè)的成績基本維持在 95% 左右,真正的差異化在于對垂直領(lǐng)域的定制化開發(fā)。類似百度、科大訊飛這樣的上市公司憑借著深厚的技術(shù)、數(shù)據(jù)積累占據(jù)在市場前列的位置,并且通過軟硬件服務(wù)的開發(fā)不斷進化著自身的服務(wù)能力;此外,在科大訊飛之后國內(nèi)第二家語音識別公有云的云知聲在各項通用語音服務(wù)技術(shù)的提供上也占據(jù)著不小的市場空間。值得注意的是,不少機器人和通用硬件制造商在語音、語義的識別上也取得了不錯的進展,例如智臻智能推出的小 i 機器人的語義識別、圖靈機器人的個性化語音助手機器人和服務(wù)、被 Google 投資的出門問問的軟硬件服務(wù)。
(3)智能機器人
由于工業(yè)發(fā)展和智能化生活的需要,目前國內(nèi)智能機器人行業(yè)的研發(fā)主要集中于家庭機器人、工業(yè)企業(yè)服務(wù)和智能助手三個方面其中,工業(yè)及企業(yè)服務(wù)類的機器人研發(fā)企業(yè)依托政策背景和市場需要處于較為發(fā)達的發(fā)展階段,代表性企業(yè)包括依托中科院沈陽自動化研究所的新松機器人、聚焦智能醫(yī)療領(lǐng)域的博實股份,以及大疆、優(yōu)愛寶機器人、Slamtec 這類專注工業(yè)生產(chǎn)和企業(yè)服務(wù)的智能機器人公司。在以上三個分類中,從事家庭機器人和智能助手的企業(yè)占據(jù)著絕大多數(shù)比例,涉及到的國內(nèi)企業(yè)近 300 家。
(4)智能家居
與家庭機器人不同,智能家居和物聯(lián)企業(yè)的主要著力點在于智能設(shè)備和智能中控兩個方面。在這其中,以海爾和美的為代表的傳統(tǒng)家電企業(yè)依托自身渠道、技術(shù)和配套產(chǎn)品優(yōu)勢建立起了實體化智能家居產(chǎn)品生態(tài). 而以阿里、騰訊、京東、小米和樂視等互聯(lián)網(wǎng)企業(yè)為代表的公司則通過各自平臺內(nèi)的數(shù)據(jù)和終端資源提供不同的軟硬件服務(wù)。
值得關(guān)注的是,科沃斯、broadlink、感居物聯(lián)、風向標科技、歐瑞博、物聯(lián)傳感和華為等技術(shù)解決方案商在通用硬件和技術(shù)、系統(tǒng)級解決方案上已成為諸多智能家居和物聯(lián)企業(yè)的合作伙伴。綜合來看,智能家居和物聯(lián)企業(yè)由于市場分類、技術(shù)種類和數(shù)據(jù)積累的不同各自提供著差異化的解決方案。在既定市場中,沒有絕對意義上的排斥競爭,各企業(yè)之間的合作融合度較強。
(5)智能醫(yī)療
目前國內(nèi)智能醫(yī)療領(lǐng)域的研究主要集中于醫(yī)療機器人、醫(yī)療解決方案和生命科學領(lǐng)域。由于起步較晚和技術(shù)門檻的限制,目前國內(nèi)醫(yī)用機器人的研發(fā)水平和普及率相較于國際一線水平仍存在一定的差距,從事企業(yè)主要集中與手術(shù)機器人和康復(fù)機器人兩大領(lǐng)域,以新松機器人、博實股份、妙手機器人、和技創(chuàng)等企業(yè)為代表。
在醫(yī)療解決方案方面,以騰訊、阿里巴巴、百度和科大訊飛為代表的公司通過和政府、醫(yī)療機構(gòu)的合作,為腦科學、疾病防治與醫(yī)療信息數(shù)據(jù)等領(lǐng)域提供智能解決方案。而在生命科學領(lǐng)域,研究的著眼點在以基因和細胞檢測為代表的前沿研究領(lǐng)域。
綜合來看,國內(nèi)人工智能產(chǎn)業(yè)鏈的基礎(chǔ)技術(shù)鏈條已經(jīng)構(gòu)建成熟,人工智能技術(shù)和應(yīng)用則集中在人臉和圖像識別、語音助手、智能生活等專用領(lǐng)域的場景化解決方案上。就趨勢來看,未來國內(nèi)人工智能領(lǐng)域的差異化競爭和突破將主要集中在人工智能相關(guān)技術(shù)的突破和應(yīng)用場景升級兩個層面。
未來國內(nèi)人工智能行業(yè)發(fā)展的五大趨勢
(1)機器學習與場景應(yīng)用將迎來下一輪爆發(fā)
根據(jù) Venture Scanner 的統(tǒng)計,截至 2015 年 9 月,全球人工智能領(lǐng)域獲得投資的公司中,按照平均融資額度排名的五大業(yè)務(wù)依次是:機器學習(應(yīng)用類)、智能機器人、計算機視覺(研發(fā)類)、機器學習(研發(fā)類)和視頻內(nèi)容識別等。
自 2009 年以來,人工智能已經(jīng)吸引了超過 170 億美元的投資。過去四年間,人工智能領(lǐng)域的民間投資以平均每年 62% 的增長速率增加,這一速率預(yù)計還會持續(xù)下去。而在 2015 年,全球人工智能領(lǐng)域的投資占到了年度總投資的 5%,盡管高于 2013 年的2% ,但相比其他競爭領(lǐng)域仍處于落后位置。
目前中國地區(qū)人工智能領(lǐng)域獲得投資最多的五大細分領(lǐng)域是計算機視覺(研發(fā)類)、自然語言處理、私人虛擬助理、智能機器人和語音識別。從投資領(lǐng)域和趨勢來看,未來國內(nèi)人工智能行業(yè)的資本將主要涌向機器學習與場景應(yīng)用兩大方向。
(2)專用領(lǐng)域的智能化仍是發(fā)展核心
基于 GPU(圖形處理器)計算速度(每半年性能增加一倍)和基礎(chǔ)技術(shù)平臺的飛速發(fā)展,企業(yè)對于人工智能神經(jīng)網(wǎng)絡(luò)的構(gòu)建取得了前所未有的突破。但是,由于人工智能各領(lǐng)域技術(shù)和算法的復(fù)雜性,未來 20 年內(nèi)人工智能的應(yīng)用仍將集中于人臉和圖像識別、語音助手和智能家居等專用領(lǐng)域。
通過上述產(chǎn)業(yè)鏈環(huán)節(jié)構(gòu)成和投資分類可以看出,優(yōu)勢企業(yè)的核心競爭力主要集中于特定領(lǐng)域的專用技術(shù)研發(fā);其中,計算機視覺和語音識別領(lǐng)域的研發(fā)和應(yīng)用已處于國際一流水平,專業(yè)應(yīng)用機器人的研發(fā)也有望近 10 年內(nèi)迎來突破性發(fā)展??梢灶A(yù)見的是,在由專業(yè)領(lǐng)域向通用領(lǐng)域過渡的過程中,自然語言處理與計算機視覺兩個方向?qū)蔀槿斯ぶ悄芡ㄓ脩?yīng)用最大的兩個突破口。
(3)產(chǎn)業(yè)分工日漸明晰,企業(yè)合作大于競爭
隨著專用領(lǐng)域應(yīng)用開發(fā)的成熟和差異化技術(shù)門檻的存在,國內(nèi)人工智能產(chǎn)業(yè)將逐漸分化為底層基礎(chǔ)構(gòu)建、通用場景應(yīng)用和專用應(yīng)用研發(fā)三個方向。
在底層基礎(chǔ)構(gòu)建方面,騰訊、阿里巴巴、百度、華為等企業(yè)依托自身數(shù)據(jù)、算法、技術(shù)和服務(wù)器優(yōu)勢為行業(yè)鏈條的各公司提供基礎(chǔ)資源支持的同時,也會將自身優(yōu)勢轉(zhuǎn)化為通用和專業(yè)應(yīng)用領(lǐng)域的研究,從而形成自身生態(tài)內(nèi)的人工智能產(chǎn)業(yè)鏈閉環(huán)。
在通用場景應(yīng)用方面,以科大訊飛、格靈深瞳和曠視科技為代表的企業(yè)將主要以計算機視覺和語音識別為方向,為安防、教育和金融等領(lǐng)域提供通用解決方案。而在專用應(yīng)用研發(fā)方面則集中了大部分硬件和創(chuàng)業(yè)企業(yè),這其中既包括以小米和 broadlink 為代表的智能家居解決方案商,也包含了出門問問、linkface 和優(yōu)必選這類的差異化應(yīng)用提供商。
總的來說,由通用領(lǐng)域向?qū)I(yè)領(lǐng)域的進化離不開產(chǎn)業(yè)鏈條各核心環(huán)節(jié)企業(yè)的相互配合,專用領(lǐng)域的競爭盡管存在,但各分工層級間的協(xié)作互通已成為多數(shù)企業(yè)的共識。
(4)系統(tǒng)級開源將成為常態(tài)
任何一個人工智能研究分支都涉及到異常龐大的代碼計算,加上漏洞排查與跨領(lǐng)域交叉,任何一家企業(yè)都無法做到在封閉環(huán)境內(nèi)取得階段性突破的可能??梢钥吹降内厔菔?,Google、微軟、Facebook 和雅虎等視人工智能為未來核心競爭力的頂級企業(yè)都先后開放了自身的人工智能系統(tǒng)。
需要明確的一點是,開源并不代表核心技術(shù)和算法的完全出讓,底層系統(tǒng)的開源將會讓更多企業(yè)從不同維度參與到人工智能相關(guān)領(lǐng)域的研發(fā),這為行業(yè)層面新產(chǎn)品的快速迭代和共同試錯提供了一個良性且規(guī)范化的共生平臺。于開放企業(yè)而言,這也確保了它們與行業(yè)最新前沿技術(shù)的同步。
(5)算法突破將拉開競爭差距
作為人工智能實現(xiàn)的核心,算法將成為未來國內(nèi)人工智能行業(yè)最大的競爭門檻。以 Google 為例,Google 旗下的搜索算法實驗室每天都要進行超過 200 次的改進,以完成由關(guān)鍵字匹配到知識圖譜、語義搜索的算法創(chuàng)新。
在未來競爭的重點機器學習領(lǐng)域,監(jiān)督學習、非監(jiān)督學習和增強學習三個方面算法的競爭將進入白熱化階段。而正是算法層面的突破造就了騰訊優(yōu)圖、科大訊飛和格靈深瞳等企業(yè)在圖像識別和計算機視覺領(lǐng)域取得了突破性進展和國際一線的技術(shù)水平。
但就目前國內(nèi)人工智能算法的總體發(fā)展而言,工程學算法雖已取得階段性突破,但基于認知層面的算法水平還亟待提高,這也是未來競爭的核心領(lǐng)域。
總的來看,雖然基礎(chǔ)技術(shù)的成熟帶來了存儲容量和機器學習等人工智能技術(shù)的提升,但由于現(xiàn)階段運算能力以及大規(guī)模 CPU 和GPU 并行解決方案的局限,目前國內(nèi)人工智能的發(fā)展主要集中于計算機視覺、語音識別、智能生活等方向上。
雖然專用化領(lǐng)域的場景應(yīng)用仍是目前研發(fā)和投資的核心,但隨著技術(shù)、數(shù)據(jù)的積累演化以及超算平臺的應(yīng)用,由專用化領(lǐng)域的場景應(yīng)用向語音、視覺等領(lǐng)域的通用化解決方案應(yīng)該在未來 20 年內(nèi)成為發(fā)展的主流。
Abstract: Surface roughness is key indexes to evaluate surface quality. Surface quality has influence on service life and usability. Two basic measuring methods are introduced: contact measuring and non-contact measuring. Non-contact measuring method based on the computer vision technology is discussed in detail.
關(guān)鍵詞: 表面粗糙度;非接觸;光學測量
Key words: surface roughness;non-contact;optics measurement
中圖分類號:TH6文獻標識碼:A文章編號:1006-4311(2011)08-0050-02
0引言
隨著科學技術(shù)的進步和社會的發(fā)展,人們對于機械產(chǎn)品表面質(zhì)量的要求越來越高。表面粗糙度是評價工件表面質(zhì)量的一個重要指標,國內(nèi)外很多學者在表面粗糙度檢測方面做了大量研究工作。目前測量表面粗糙度的主要方法有:接觸式測量和非接觸式測量。
1接觸式測量
接觸式測量就是測量裝置的探測部分直接接觸被測表面,能夠直觀地反映被測表面的信息,接觸式測量方法主要是觸針法,該方法經(jīng)過幾十年的充分發(fā)展,以其穩(wěn)定、可靠的特點被廣泛應(yīng)用。但接觸式測量存在很大的缺陷,具體表現(xiàn)在:①對高精度表面及軟質(zhì)金屬表面有劃傷破壞作用;②受觸針尖端圓弧半徑的限制,其測量精度有限;③因觸針磨損及測量速度的限制,無法實現(xiàn)在線實時測量[1]。
2非接觸式測量
為了克服接觸式測量方法的不足,人們對非接觸式測量方法進行了廣泛研究。研究表明,非接觸式測量方法具有非接觸、無損傷、快速、測量精度高、易于實現(xiàn)在線測量、響應(yīng)速度快等優(yōu)點。目前已有的非接觸式測量方法包括各種光學測量方法、超聲法、掃描隧道顯微鏡法、基于計算機視覺技術(shù)的表面粗糙度檢測方法等。這里我們只對基于光學散射原理的測量方法、基于光學干涉原理的測量方法和基于計算機視覺技術(shù)的測量方法做簡單介紹。
2.1 基于光學散射原理的測量方法當一束光以一定的角度照射到物體表面后,加工表面的粗糙不平將引起發(fā)生散射現(xiàn)象。研究表明:表面粗糙度和散射光強度分布有一定的關(guān)系。對于表面粗糙度數(shù)值較小的表面,散射光能較弱,反射光能較強;反之,表面粗糙度數(shù)值較大的表面,散射光能較強,反射光能較弱。
基于光學散射原理測量表面粗糙度的研究方法和理論較多。四川聯(lián)合大學和哈爾濱理工大學相繼提出了一種稱之為散射特征值的參數(shù),表征被測物體表面上反射光和散射光的分散度,散射特征值與被測物體表面的粗糙度有很好的對應(yīng)關(guān)系[2]。哈爾濱理工大學利用已知表面粗糙度參數(shù)值的標準樣塊測得其散射特征值,建立―關(guān)系曲線,從而實現(xiàn)利用散射特征值測量火炮內(nèi)膛表面粗糙度[3]。
基于光學散射原理的表面粗糙度檢測方法,具有結(jié)構(gòu)簡單、體積小、易于集成產(chǎn)品、動態(tài)響應(yīng)好、適于在線測量等優(yōu)點。該方法的缺點是測量精度不高,用于超光滑表面粗糙度的測量還有待進一步改進。
2.2 基于光學干涉原理的測量方法當相干光照射到工件表面同一位置時,由于光波的相互位相關(guān)系,將產(chǎn)生光波干涉現(xiàn)象。一般的干涉法測量是利用被測面和標準參考面反射的光束進行比較,對干涉條紋做適當變換,通過測量干涉條紋的相對變形來定量檢測表面粗糙度。該方法的測量精度取決于光的波長。但是由于干涉條紋的分辨率是以光波波長的一半為極限的,僅從條紋的狀態(tài)無法判斷表面是凸起還是凹陷,因此,作為一種具有較好分辨率、寬測量范圍的表面粗糙度在線檢測技術(shù),這種干涉法測量技術(shù)還有待于進一步發(fā)展[4]。
基于光學干涉原理,1984年美國洛克西德導(dǎo)彈公司huang采用共模抑制技術(shù)研制成功了光學外差輪廓儀,光外差干涉檢測技術(shù)是一種具有納米級測量準確度的高精度光學測量方法,適用于精加工、超精加工表面的測量,而且可以進行動態(tài)時間的研究;華中理工大學采用光外差干涉方法研制出2D-SROP-1型表面粗糙度輪廓儀[5]。美國的維易科(VEECO)精密儀器有限公司,采用共光路干涉法研制了WYKO激光干涉儀和光學輪廓儀,可用來測量干涉條紋位相[6]。
基于光學干涉原理測量表面粗糙度分辨率高,適于測量超光滑表面粗糙度,但由于該方法的測量精度受光波波長的影響很大,所以其測量范圍受到一定影響。
2.3 基于計算機視覺技術(shù)的測量方法基于計算機視覺的粗糙度測量方法是指使用攝像機抓取圖像,然后將該圖像傳送至處理單元,通過數(shù)字化處理,根據(jù)像素分布和灰度、紋理、形狀、顏色等信息,選用合理的算法計算工件的粗糙度參數(shù)值。近年來,隨著計算機技術(shù)和工業(yè)生產(chǎn)的不斷發(fā)展,該方法受到越來越多的關(guān)注。
北京理工大學的王仲春等人采用顯微鏡對檢測表面進行放大,并通過對CCD采集加工表面微觀圖像進行處理實現(xiàn)了表面粗糙度的檢測[7]。哈爾濱理工大學吳春亞、劉獻禮等為解決機械加工表面粗糙度的快速、在線檢測,設(shè)計了一種表面粗糙度圖像檢測方法,建立了圖像灰度變化信息與表面粗糙度之間的關(guān)系模型[8]。英國學者Hossein Ragheb和Edwin R.Hancock通過數(shù)碼相機拍攝的表面反射圖來估計表面粗糙度參數(shù),運用Vernold Harvey修正的B K散射理論模型獲得了比Oren Nayar模型更好的粗糙度估計結(jié)果[9]。澳大利亞學者Ghassan A.Al-Kindi和Bijan Shirinzadeh對基于顯微視覺的不同機械加工表面粗糙度參數(shù)獲取的可行性進行了評估,討論了照射光源與表面輻照度模型對檢測的影響,結(jié)果顯示盡管從視覺數(shù)據(jù)和觸針數(shù)據(jù)所獲得的粗糙度參數(shù)存在一定差異,但是基于視覺的方法仍是一種可靠的粗糙度參數(shù)估計方法[10-11]。
可以看出,基于計算機視覺技術(shù)的測量方法主要有統(tǒng)計分析、特征映射和神經(jīng)網(wǎng)絡(luò)等黑箱估計法。通過這些方法獲得的表面粗糙度參數(shù)的估計值受諸多因素的影響,難以給出其準確的物理解釋。真正要定量地計算出粗糙度參數(shù),需要科學的計算。
但是隨著機械加工自動化水平的提高,基于計算機視覺技術(shù)的檢測方法處理內(nèi)容豐富、處理精度高、處理速度快、易于集成等優(yōu)點將受到越來越多的重視。
3結(jié)束語
接觸式測量測量速度較慢,容易劃傷工件表面,并且不適用于連續(xù)生產(chǎn)材料表面的檢測。非接觸式測量具有無損傷、快速、測量精度高、易于實現(xiàn)在線測量等優(yōu)點,已成為表面粗糙度檢測的重點研究方向。非接觸測量以光學法為主,隨著計算機技術(shù)和工業(yè)生產(chǎn)的迅猛發(fā)展,基于計算機視覺技術(shù)的表面粗糙度非接觸式檢測方法受到越來越多的重視。
參考文獻:
[1]劉斌,馮其波,匡萃方.表面粗糙度測量方法綜述[J].光學儀器,2004,26(5):54-55.
[2]苑惠娟等.非接觸式表面粗糙度測量儀[J].哈爾濱科學技術(shù)大學學報,1995,19(6):30-34.
[3]強熙富,張詠,許文海.擴展激光散射法測量粗糙度的測量范圍的研究[J].計量學報,1990,11(2):81-85.
[4]王文卓,李大勇,陳捷.表面粗糙度非接觸式測量技術(shù)研究概況[J].機械工程師,2004,11:6-9.
[5]王菊香.2D-SROP-1型表面粗糙度輪廓儀[J].工業(yè)計量,1994,(4):27-29.
[6]徐德衍等.光學表面粗糙度研究的進展與方向[J].光學儀器,1996,18(1):32-41.
[7]王仲春,高岳,黃粵熙等.顯微成像檢測表面粗糙度[J].光學技術(shù),1998,5:46-48.
[8]吳春亞,劉獻禮,王玉景等.機械加工表面粗糙度的圖像檢測方法[J].哈爾濱理工大學學報,2007,12(3):148-151.
[9]Hossein Ragheb,Edwin R.Hancock.The modified Beckmann Kirchhoff scattering theory for rough surface analysis[J].Pattern Recognition,2007,40:2004-2020.
16歲那年,李飛飛跟隨父母來到美國。在國內(nèi),李飛飛的父母都有優(yōu)越的工作。來到美國,因為語言上的障礙,一下子陷入了困境。懂事的李飛飛明白,想要改變現(xiàn)狀,她現(xiàn)在最需要的是過英語這關(guān)。
為了練習口語,李飛飛找到一家餐館打工。一開始老板不肯收她,原因是她不會說英語。她求餐館里的一個中國同胞幫她翻譯,老板給她開一半的工資就行。老板考慮之后答應(yīng)先讓她干一個星期再看。李飛飛非常珍惜這份工作,干活特別賣力,她不錯過任何一個練習口語的機會。只要有人說話,她就跟著小聲說。
她很聰明,根據(jù)表情基本可以判斷出他們說話的內(nèi)容,不懂的就找機會問。下班回家跟著電視繼續(xù)學,她把練習口語調(diào)到了瘋狂模式。一個星期之后,她已經(jīng)會說些簡單的口語了。老板沒有解雇她,因為她的好學精神打動了老板。
李飛飛了解到申請在美國讀大學,如果成績十分優(yōu)異,可以領(lǐng)取獎學金。她只要有空就復(fù)習功課,白天上班很辛苦,晚上很容易犯困。有時候困得眼睛快睜不開時,就用冰塊敷眼睛。每天到凌晨,父母再三催她去睡覺她才肯放下課本。經(jīng)過一年的努力之后,她申請了多所大學,最終選擇了普林斯頓,因為這所大學給她近乎全額的獎學金。
大學期間,父母雙雙失業(yè),家里的經(jīng)濟出現(xiàn)危機。李飛飛只要有空就去做兼職,在餐廳洗過盤子,送過快餐。有個朋友知道她的處境,介紹她去給一家主人遛狗。她從小就害怕狗,但是為了不錯過這個賺錢的機會,她還是硬著頭皮答應(yīng)了。第一次主人把一條身體強壯、氣勢強悍的羅威納犬牽到她面前時,她差點嚇哭了,不過還是強做鎮(zhèn)靜之后接過主人遞過來的狗鏈。
1999年,22歲的李飛飛一路磕磕絆絆以十分優(yōu)異的成績從普林斯頓大學畢業(yè)。多家金融公司遞來了橄欖枝,包括高盛集團的offer。她卻做了一個讓大家意外的決定:到加州理工學院攻讀博士學位。
一天,李w飛看到孩子拿著幾張圖片辨認上面的物品,兩歲的孩子能正確地認出貓和狗,還有冰箱等。她突發(fā)奇想,如果電腦也可以跟人一樣自己辨別圖片上顯示的是什么,將會給人帶來很多方便。
2000年,李飛飛開始研究計算機視覺領(lǐng)域。她希望計算機看到一張圖片就像人的頭腦一樣能夠分析。她和同事為來自互聯(lián)網(wǎng)的十億張圖片進行分類、打標簽,從而為計算機提供樣本。其中理論基礎(chǔ)是如果機器觀察到足夠多的事物,它們就能夠在現(xiàn)實世界進行識別。在研究過程中,經(jīng)費出現(xiàn)了問題,她傾其所有,甚至想過邊打工邊維持。讓她感到欣慰的是有三位恩師傾力指導(dǎo),還有不少學生真心追隨。他們對她的專業(yè)素養(yǎng)高度肯定,甚至覺得整個CV領(lǐng)域因她而不同。
通過不懈努力,她在人工智能和計算機視覺方面取得成就。她的研究成果使得計算機能夠更好地理解圖片,而不僅限于展示圖片。這為無人車自動駕駛提供了可能,通過計算機學習人腦然后自動做出決定。
前不久,她的名為《如何教計算機理解圖片》的TED演講引起了許多人的關(guān)注。她也收獲了各種獎勵和榮譽。
關(guān)鍵詞:數(shù)據(jù)融合傳感器無損檢測精確林業(yè)應(yīng)用
多傳感器融合系統(tǒng)由于具有較高的可靠性和魯棒性,較寬的時間和空間的觀測范圍,較強的數(shù)據(jù)可信度和分辨能力,已廣泛應(yīng)用于軍事、工業(yè)、農(nóng)業(yè)、航天、交通管制、機器人、海洋監(jiān)視和管理、目標跟蹤和慣性導(dǎo)航等領(lǐng)域。筆者在分析數(shù)據(jù)融合技術(shù)概念和內(nèi)容的基礎(chǔ)上,對該技術(shù)在林業(yè)工程中的應(yīng)用及前景進行了綜述。
一、數(shù)據(jù)融合
1.1概念的提出
1973年,數(shù)據(jù)融合技術(shù)在美國國防部資助開發(fā)的聲納信號理解系統(tǒng)中得到了最早的體現(xiàn)。
70年代末,在公開的技術(shù)文獻中開始出現(xiàn)基于多系統(tǒng)的信息整合意義的融合技術(shù)。1984年美國國防部數(shù)據(jù)融合小組(DFS)定義數(shù)據(jù)融合為:“對多源的數(shù)據(jù)和信息進行多方的關(guān)聯(lián)、相關(guān)和綜合處理,以更好地進行定位與估計,并完全能對態(tài)勢及帶來的威脅進行實時評估”。
1998年1月,Buchroithner和Wald重新定義了數(shù)據(jù)融合:“數(shù)據(jù)融合是一種規(guī)范框架,這個框架里人們闡明如何使用特定的手段和工具來整合來自不同渠道的數(shù)據(jù),以獲得實際需要的信息”。
Wald定義的數(shù)據(jù)融合的概念原理中,強調(diào)以質(zhì)量作為數(shù)據(jù)融合的明確目標,這正是很多關(guān)于數(shù)據(jù)融合的文獻中忽略但又是非常重要的方面。這里的“質(zhì)量”指經(jīng)過數(shù)據(jù)融合后獲得的信息對用戶而言較融合前具有更高的滿意度,如可改善分類精度,獲得更有效、更相關(guān)的信息,甚至可更好地用于開發(fā)項目的資金、人力資源等。
1.2基本內(nèi)容
信息融合是生物系統(tǒng)所具備的一個基本功能,人類本能地將各感官獲得的信息與先驗知識進行綜合,對周圍環(huán)境和發(fā)生的事件做出估計和判斷。當運用各種現(xiàn)代信息處理方法,通過計算機實現(xiàn)這一功能時,就形成了數(shù)據(jù)融合技術(shù)。
數(shù)據(jù)融合就是充分利用多傳感器資源,通過對這些多傳感器及觀測信息的合理支配和使用,把多傳感器在空間或時間上的冗余或互補信息依據(jù)某些準則進行組合,以獲得被測對象的一致性解釋或描述。數(shù)據(jù)融合的內(nèi)容主要包括:
(1)數(shù)據(jù)關(guān)聯(lián)。確定來自多傳感器的數(shù)據(jù)反映的是否是同源目標。
(2)多傳感器ID/軌跡估計。假設(shè)多傳感器的報告反映的是同源目標,對這些數(shù)據(jù)進行綜合,改進對該目標的估計,或?qū)φ麄€當前或未來情況的估計。
(3)采集管理。給定傳感器環(huán)境的一種認識狀態(tài),通過分配多個信息捕獲和處理源,最大限度地發(fā)揮其性能,從而使其操作成本降到最低。傳感器的數(shù)據(jù)融合功能主要包括多傳感器的目標探測、數(shù)據(jù)關(guān)聯(lián)、跟蹤與識別、情況評估和預(yù)測。
根據(jù)融合系統(tǒng)所處理的信息層次,目前常將信息融合系統(tǒng)劃分為3個層次:
(l)數(shù)據(jù)層融合。直接將各傳感器的原始數(shù)據(jù)進行關(guān)聯(lián)后,送入融合中心,完成對被測對象的綜合評價。其優(yōu)點是保持了盡可能多的原始信號信息,但是該種融合處理的信息量大、速度慢、實時性差,通常只用于數(shù)據(jù)之間配準精度較高的圖像處理。
(2)特征層融合。從原始數(shù)據(jù)中提取特征,進行數(shù)據(jù)關(guān)聯(lián)和歸一化等處理后,送入融合中心進行分析與綜合,完成對被測對象的綜合評價。這種融合既保留了足夠數(shù)量的原始信息,又實現(xiàn)了一定的數(shù)據(jù)壓縮,有利于實時處理,而且由于在特征提取方面有許多成果可以借鑒,所以特征層融合是目前應(yīng)用較多的一種技術(shù)。但是該技術(shù)在復(fù)雜環(huán)境中的穩(wěn)健性和系統(tǒng)的容錯性與可靠性有待進一步改善。
(3)決策層融合。首先每一傳感器分別獨立地完成特征提取和決策等任務(wù),然后進行關(guān)聯(lián),再送入融合中心處理。這種方法的實質(zhì)是根據(jù)一定的準則和每個決策的可信度做出最優(yōu)的決策。其優(yōu)點是數(shù)據(jù)通訊量小、實時性好,可以處理非同步信息,能有效地融合不同類型的信息。而且在一個或幾個傳感器失效時,系統(tǒng)仍能繼續(xù)工作,具有良好的容錯性,系統(tǒng)可靠性高,因此是目前信息融合研究的一個熱點。但是這種技術(shù)也有不足,如原始信息的損失、被測對象的時變特征、先驗知識的獲取困難,以及知識庫的巨量特性等。
1.3處理模型
美國數(shù)據(jù)融合工作小組提出的數(shù)據(jù)融合處理模型,當時僅應(yīng)用于軍事方面,但該模型對人們理解數(shù)據(jù)融合的基本概念有重要意義。模型每個模塊的基本功能如下:
數(shù)據(jù)源。包括傳感器及其相關(guān)數(shù)據(jù)(數(shù)據(jù)庫和人的先驗知識等)。
源數(shù)據(jù)預(yù)處理。進行數(shù)據(jù)的預(yù)篩選和數(shù)據(jù)分配,以減輕融合中心的計算負擔,有時需要為融合中心提供最重要的數(shù)據(jù)。目標評估。融合目標的位置、速度、身份等參數(shù),以達到對這些參數(shù)的精確表達。主要包括數(shù)據(jù)配準、跟蹤和數(shù)據(jù)關(guān)聯(lián)、辨識。
態(tài)勢評估。根據(jù)當前的環(huán)境推斷出檢測目標與事件之間的關(guān)系,以判斷檢測目標的意圖。威脅評估。結(jié)合當前的態(tài)勢判斷對方的威脅程度和敵我雙方的攻擊能力等,這一過程應(yīng)同時考慮當前的政治環(huán)境和對敵策略等因素,所以較為困難。
處理過程評估。監(jiān)視系統(tǒng)的性能,辨識改善性能所需的數(shù)據(jù),進行傳感器資源的合理配置。人機接口。提供人與計算機間的交互功能,如人工操作員的指導(dǎo)和評價、多媒體功能等。
二、多傳感器在林業(yè)中的應(yīng)用
2.1在森林防火中的應(yīng)用
在用MODIS(ModerateResolutionImagingSpectroradiometer)數(shù)據(jù)測定森林火點時的20、22、23波段的傳感器輻射值已達飽和狀態(tài),用一般圖像增強處理方法探測燃燒區(qū)火點的結(jié)果不理想。余啟剛運用數(shù)據(jù)融合技術(shù),在空間分辨率為1000m的熱輻射通道的數(shù)據(jù)外加入空間分辨率為250m的可見光通道的數(shù)據(jù),較好地進行了不同空間分辨率信息的數(shù)據(jù)融合,大大提高了對火點位置的判斷準確度。為進一步提高衛(wèi)星光譜圖像數(shù)據(jù)分析的準確性與可靠性,利用原有森林防火用的林區(qū)紅外探測器網(wǎng),將其與衛(wèi)星光譜圖像數(shù)據(jù)融合,可以使計算機獲得GPS接收機輸出的有關(guān)信息通過與RS實現(xiàn)高效互補性融合,從而彌補衛(wèi)星圖譜不理想的缺失區(qū)數(shù)據(jù)信息,大大提高燃燒區(qū)火點信息準確度和敏感性。
2.2森林蓄積特征的估計
HampusHolmstrom等在瑞典南部的試驗區(qū)將SPOT-4×S衛(wèi)星數(shù)據(jù)和CARABAS-IIVHFSAR傳感器的雷達數(shù)據(jù)進行了融合,采用KNN(knearestneighbor)方法對森林的蓄積特征(林分蓄積、樹種組成與年齡)進行了估計。
KNN方法就是采用目標樣地鄰近k個(k=10)最近樣地的加權(quán)來估計目標樣地的森林特征。研究者應(yīng)用衛(wèi)星光譜數(shù)據(jù)、雷達數(shù)據(jù)融合技術(shù)對試驗區(qū)的不同林分的蓄積特征進行估計,并對三種不同的數(shù)據(jù)方法進行誤差分析。試驗表明,融合后的數(shù)據(jù)作出的估計比單一的衛(wèi)星數(shù)據(jù)或雷達數(shù)據(jù)的精度高且穩(wěn)定性好。
2.3用非垂直航空攝像數(shù)據(jù)融合GIS信息更新調(diào)查數(shù)據(jù)
森林資源調(diào)查是掌握森林資源現(xiàn)狀與變化的調(diào)查方法,一般以地面調(diào)查的方法為主,我國5年復(fù)查一次。由于森林資源調(diào)查的工作量巨大,且要花費大量的人力、物力和資金。國內(nèi)外許多學者都在探索航空、航天的遙感調(diào)查與估計方法。
TrevorJDavis等2002年提出采用非垂直的航空攝影數(shù)據(jù)融合對應(yīng)的GIS數(shù)據(jù)信息實現(xiàn)森林調(diào)查數(shù)據(jù)的快速更新,認為對森林資源整體而言,僅某些特殊地區(qū)的資源數(shù)據(jù)需要更新。在直升飛機側(cè)面裝上可視的數(shù)字攝像裝置,利用GPS對測點進行定位,對特殊地區(qū)的攝像進行拍攝,同時與對應(yīng)的GIS數(shù)據(jù)進行融合,做出資源變化的估計或影像的修正。
試驗表明,融合后的數(shù)據(jù)可以同高分辨率矯正圖像相比,該方法花費少,精度高,能充分利用影像的可視性,應(yīng)用于偏遠、地形復(fù)雜、不易操作、成本高的區(qū)域,同時可避免遙感圖像受云層遮蓋。
三、數(shù)據(jù)融合在林業(yè)中的應(yīng)用展望
3.1在木材檢測中的應(yīng)用
3.1.1木材缺陷及其影響
木材是天然生長的有機體,生長過程中不可避免地有尖削度、彎曲度、節(jié)子等生長缺陷,這些缺陷極大地影響了木材及其制品的優(yōu)良特性,以及木材的使用率、強度、外觀質(zhì)量,并限制了其應(yīng)用領(lǐng)域。在傳統(tǒng)木制品生產(chǎn)過程中,主要依靠人的肉眼來識別木材缺陷,而木材板材表面缺陷在大小、形狀和色澤上都有較大的差異,且受木材紋理的影響,識別起來非常困難,勞動強度大,效率低,同時由于熟練程度、標準掌握等人為因素,可能造成較大的誤差。另外在集成材加工中,板材缺陷的非雙面識別嚴重影響了生產(chǎn)線的生產(chǎn)節(jié)拍。因此必須開發(fā)一種能夠?qū)Π宀碾p面缺陷進行在線識別和自動剔除技術(shù),以解決集成材加工中節(jié)子人工識別誤差大、難以實現(xiàn)雙面識別、剔除機械調(diào)整時間長等問題。
3.1.2單一傳感器在木材檢測中的應(yīng)用
對木材及人造板進行無損檢測的方法很多,如超聲波、微波、射線、機械應(yīng)力、震動、沖擊應(yīng)力波、快速傅立葉變換分析等檢測方法。超聲技術(shù)在木材工業(yè)中的應(yīng)用研究主要集中在研究聲波與木材種類、木材結(jié)構(gòu)和性能之間的關(guān)系、木材結(jié)構(gòu)及缺陷分析、膠的固化過程分析等。
隨著計算機視覺技術(shù)的發(fā)展,人們也將視覺傳感器應(yīng)用于木材檢測中。新西蘭科學家用視頻傳感器研究和測量了紙漿中的纖維橫切面的寬度、厚度、壁面積、壁厚度、腔比率、壁比率等,同時準確地測量單個纖維和全部纖維的幾何尺寸及其變化趨勢,能夠區(qū)分不同紙漿類型,測定木材纖維材料加固結(jié)合力,并動態(tài)地觀察木材纖維在材料中的結(jié)合機理。
新西蘭的基于視覺傳感器的板材缺陷識別的軟件已經(jīng)產(chǎn)業(yè)化,該軟件利用數(shù)碼相機或激光掃描儀采集板材的圖像,自動識別板材節(jié)子和缺陷的位置,控制板材的加工。該軟件還具有進行原木三維模型真實再現(xiàn)的計算機視覺識別功能,利用激光掃描儀自動采集原木的三維幾何數(shù)據(jù)。
美國林產(chǎn)品實驗室利用計算機視覺技術(shù)對木材刨花的尺寸大小進行分級,確定各種刨花在板中的比例和刨花的排列方向;日本京都大學基于視覺傳感器進行了定向刨花板內(nèi)刨花定向程度的檢測,從而可以通過調(diào)整定向鋪裝設(shè)備優(yōu)化刨花的排列方向來提高定向刨花板的強度。
在制材加工過程中,利用計算機視覺技術(shù)在線實時檢測原木的形狀及尺寸,選擇最佳下鋸方法,提高原木的出材率。同時可對鋸材的質(zhì)量進行分級,實現(xiàn)木材的優(yōu)化使用;在膠合板的生產(chǎn)過程中,利用計算機視覺技術(shù)在線實時檢測單板上的各種缺陷,實現(xiàn)單板的智能和自動剪切,并可測量在剪切過程中的單板破損率,對單板進行分等分級,實現(xiàn)自動化生產(chǎn)過程。Wengert等在綜合了大量的板材分類經(jīng)驗的基礎(chǔ)上,建立了板材分級分類的計算機視覺專家系統(tǒng)。在國內(nèi)這方面的研究較少,王金滿等用計算機視覺技術(shù)對刨花板施膠效果進行了定量分析。
X射線對木材及木質(zhì)復(fù)合材料的性能檢測已得到了廣泛的應(yīng)用,目前該技術(shù)主要應(yīng)用于對木材密度、含水率、纖維素相對結(jié)晶度和結(jié)晶區(qū)大小、纖維的化學結(jié)構(gòu)和性質(zhì)等進行檢測,并對木材內(nèi)部的各種缺陷進行檢測。
3.1.3數(shù)據(jù)融合在木材檢測中的應(yīng)用展望
單一傳感器在木材工業(yè)中已得到了一定程度的應(yīng)用,但各種單項技術(shù)在應(yīng)用上存在一定的局限性。如視覺傳感器不能檢測到有些與木材具有相同顏色的節(jié)子,有時會把木板上的臟物或油脂當成節(jié)子,造成誤判,有時也會受到木材的種類或粗糙度和濕度的影響,此外,這種技術(shù)只能檢測部分表面缺陷,而無法檢測到內(nèi)部缺陷;超聲、微波、核磁共振和X射線技術(shù)均能測量密度及內(nèi)部特征,但是它們不能測定木材的顏色和瑕疵,因為這些缺陷的密度往往同木板相同。因此,一個理想的檢測系統(tǒng)應(yīng)該集成各種傳感技術(shù),才能準確、可靠地檢測到木材的缺陷。
基于多傳感器(機器視覺及X射線等)數(shù)據(jù)融合技術(shù)的木材及木制品表面缺陷檢測,可以集成多個傳統(tǒng)單項技術(shù),更可靠、準確地實時檢測出木材表面的各種缺陷,為實現(xiàn)木材分級自動化、智能化奠定基礎(chǔ),同時為集裁除鋸、自動調(diào)整、自動裁除節(jié)子等為一身的新型視頻識別集成材雙面節(jié)子數(shù)控自動剔除成套設(shè)備提供技術(shù)支持。
3.2在精確林業(yè)中的應(yīng)用
美國華盛頓大學研究人員開展了樹形自動分析、林業(yè)作業(yè)規(guī)劃等研究工作;Auburn大學的生物系統(tǒng)工程系和USDA南方林業(yè)實驗站與有關(guān)公司合作開展用GPS和其他傳感器研究林業(yè)機器系統(tǒng)的性能和生產(chǎn)效率。
目前單項的GPS、RS、GIS正從“自動化孤島”形式應(yīng)用于林業(yè)生產(chǎn)向集成技術(shù)轉(zhuǎn)變。林業(yè)生產(chǎn)系統(tǒng)作為一個多組分的復(fù)雜系統(tǒng),是由能量流動、物質(zhì)循環(huán)、信息流動所推動的具有一定的結(jié)構(gòu)和功能的復(fù)合體,各組分間的關(guān)系和結(jié)合方式影響系統(tǒng)整體的結(jié)構(gòu)和功能。因此應(yīng)該在計算機集成系統(tǒng)框架下,有效地融合GPS、GIS、RS等數(shù)據(jù),解決這些信息在空間和時間上的質(zhì)的差異及空間數(shù)據(jù)類型的多樣性,如地理統(tǒng)計數(shù)據(jù)、柵格數(shù)據(jù)、點數(shù)據(jù)等。利用智能DSS(決策支持系統(tǒng))以及VRT(可變量技術(shù))等,使林業(yè)生產(chǎn)成為一個高效、柔性和開放的體系,從而實現(xiàn)林業(yè)生產(chǎn)的標準化、規(guī)范化、開放性,建立基于信息流融合的精確林業(yè)系統(tǒng)。
南京林業(yè)大學提出了“精確林業(yè)工程系統(tǒng)”。研究包括精確林業(yè)工程系統(tǒng)的領(lǐng)域體系結(jié)構(gòu)、隨時空變化的數(shù)據(jù)采集處理與融合技術(shù)、精確控制林業(yè)生產(chǎn)的智能決策支持系統(tǒng)、可變量控制技術(shù)等,實現(xiàn)基于自然界生物及其所賴以生存的環(huán)境資源的時空變異性的客觀現(xiàn)實,以最小資源投入、最小環(huán)境危害和最大產(chǎn)出效益為目標,建立關(guān)于林業(yè)管理系統(tǒng)戰(zhàn)略思想的精確林業(yè)微觀管理系統(tǒng)。
[參考文獻]
機器和人類、現(xiàn)實和科幻、邪惡和美好的分界從來沒有像今天這樣如此模糊。眺望未來30年,智能革命的壯闊波瀾,將改寫人類社會對智商的理解和定義。
從AlphaGo說起:Have to win
關(guān)于這場圍棋大賽,先引用一段博士老板Alan Yuille教授(美國頂級機器智能科學家,霍金理論物理學博士)的判斷:
Go is a complex game but still it is finite so with enough computer power,and clever algorithm,the computers will have to win(if not this year,then next year)。(圍棋是一套復(fù)雜但有內(nèi)在邏輯和明確計算量的游戲,所以只要計算機遵循圍棋的推演路徑并擁有充裕的運算能力就必然能夠贏得人類、取得勝利,AlphaGo的勝利對于計算機而言只不過是時間問題。)
AlphaGo戰(zhàn)勝人類,美國學術(shù)界早有準備
伴隨著摩爾定律的不斷實現(xiàn)和幾十年來人工智能的軟硬件技術(shù)積累,人工智能其實已經(jīng)悄然改變了我們生活中的許多方面,當我們還在感慨電影中各種AI的強大時,未來已經(jīng)悄然而來,AlphaGo只是這場人工智能大浪潮中的一朵璀璨浪花。
在過去的5年里,人工智能已經(jīng)在語音識別、計算機視覺、語言理解、醫(yī)療健康等領(lǐng)域取得了巨大進展,并在某些領(lǐng)域里超過了人類,比如語音識別、人臉識別等等方面。
以計算機視覺為例,人工智能已經(jīng)發(fā)展出了突破肉眼精度的圖像識別技術(shù)并已被廣泛的應(yīng)用于公安、金融、信息安全等領(lǐng)域,產(chǎn)生了巨大的價值。而這些進展之所以沒有引起社會轟動,是因為社會中大部分非專業(yè)人員會通過直覺和自身感受而推論出機器識別“人臉”、識別“蘋果”等圖像信息是一件容易的任務(wù),是一件不同年齡、不同教育背景、不同文化背景的人都能勝任的任務(wù),在這其中體現(xiàn)不出人工智能的“智能”來。
但站在人工智能發(fā)展的角度,從圍棋和圖像識別的復(fù)雜性和不確定型來說,圖像的變化比棋盤的變化要大得多。
圍棋是有可遵循的邏輯、可衡量的計算量的游戲,對于人類大腦的難度在于龐大的計算量和對棋盤宏觀形勢的敏感度;而圖像識別則會在信息抓取和邏輯分析層面呈現(xiàn)出更廣泛意義上的隨機性和不確定性。
通過機器學習將圖像中的信息進行分類解析、最終提取有價值的結(jié)構(gòu)化數(shù)據(jù)是極難的科研課題,從學術(shù)界到工業(yè)界的轉(zhuǎn)化耗費了幾十年的時光。
然而相比于計算機視覺、語言語音理解等其他的進步,AlphaGo的劃時代意義在于它不僅僅縮短了機器與人的智能距離,還將顛覆人與人智商差異的感知。
未來人與人的智商差距不再會是不可彌補的先天差距,而將成為一種可以通過工具而后天獲取的能力,這帶來的會是人類自我價值評估的一次大顛覆,智商對于人的意義將會在一定程度上有所下降。這就像從前算術(shù)不好的,現(xiàn)在用計算器就能補上;未來下棋不好的,可能只是加個AlphaGo就能補上。“智商”這個詞的定義可能會被迫從形容人和動物差異,變成由人和機器的差異所定義。
第一個十年的變化:The rich get richer(富人更富,強者更強)
從短期來看,讓我們暢想一下在這場大浪潮中,誰會成為最大的受益者呢?
當我們回顧推動人工智能發(fā)展的關(guān)鍵因素時,有三個要素極為重要:數(shù)據(jù)、算法和計算。
AlphaGo這次在全社會范圍內(nèi)對人工智能進行了一場大面積的認知普及,會使得擁有成熟商業(yè)模式和海量數(shù)據(jù)優(yōu)勢的BAT等巨頭重金投入這片市場,彼此間的互相追趕將在市場中形成像google收購deep mind一樣的并購風潮。
同時伴隨著計算能力的不斷提升和算法的持續(xù)優(yōu)化,這將帶來人工智能史上的第一次大規(guī)模應(yīng)用實踐,各巨頭的業(yè)務(wù)將因為人工智能帶來的效率提升而加速拓展,他們相較其它競爭者的優(yōu)勢也會因此不斷加大,這就正如今天的google相對于其他公司一樣。
當資本成為這場競逐游戲的驅(qū)動力時,獲得先發(fā)優(yōu)勢的公司雪球也必將越滾越大,優(yōu)勢將在成長中愈發(fā)明顯,The rich get richer。
未來的思考:人類將重新理解知識、智慧、人性
從遠期來看,人工智能的進步將改寫人類對自我、知識和教育的理解。
倘若,90%的醫(yī)生、律師、教師、程序員能被機器所代替,人們將需要重新開始討論“人”的自我定義和“知識”的新時代價值。
當舊時代下的知識已成為機器人僅需拷貝和執(zhí)行的簡單命令,而“為什么要學法律、學編程等”的疑問及背后對自我價值的疑惑就必將引發(fā)社會教育結(jié)構(gòu)的變革。
過往人與人之間通過知識組合的不同而形成的差異將被人工智能抹平,“高考”等考試測評手段作為廣義上的游戲(game),就像圍棋一樣,將不再能作為準確評價智慧和學識的方式而被修正。
當在體力勞動和腦力勞動里獨立的人類相對于機器都不再具備經(jīng)濟優(yōu)勢時,人的存在形態(tài)、存在價值和機器的交互融合將成為未來前沿學術(shù)研究的重要課題,這會是一次人類社會的集體迷思、也會是人類價值的再次追尋。
人類的希望?
有人曾說,機器和人的差異是藝術(shù)的創(chuàng)作和欣賞。但這對于人工智能而言,已經(jīng)并不是什么特別難的事情,大概在10年前就已有成熟的學術(shù)成果來用計算機創(chuàng)作梵高風格的作品,在這背后的藝術(shù)風格提煉、學習和再造并不是什么新鮮的技術(shù)。
也有人說,機器和人的差異是情感。但我不確定現(xiàn)今的人類社會對情感的定義是否像對智商一樣,有著廣泛的共識而能成為人類獨特性的特征。情感誕生于本能和動物性,只是在人身上閃爍出了更加多彩的光芒,悲歡喜樂、嬉笑怒罵,這本就是人性中最難以捉摸而妙不可言的部分。
所以,機器和人的區(qū)別最終會是什么呢?在這個恐怕哲學家也難以回答的終極問題下,我想起了最近讀到的這樣一句話,“如果機器認為這場戰(zhàn)斗必敗,那么機器會選擇投降;如果人認為這場戰(zhàn)斗必敗,那么有人會選擇義無反顧的戰(zhàn)斗,直至戰(zhàn)死為止?!?/p>
或許,這句話里已經(jīng)輕輕道出了我們與機器的區(qū)別。