電氣與自動化外文翻譯外文文獻英文文獻中英對照計算機視覺中的學習:幾點想法.doc_第1頁
電氣與自動化外文翻譯外文文獻英文文獻中英對照計算機視覺中的學習:幾點想法.doc_第2頁
電氣與自動化外文翻譯外文文獻英文文獻中英對照計算機視覺中的學習:幾點想法.doc_第3頁
電氣與自動化外文翻譯外文文獻英文文獻中英對照計算機視覺中的學習:幾點想法.doc_第4頁
電氣與自動化外文翻譯外文文獻英文文獻中英對照計算機視覺中的學習:幾點想法.doc_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

計算機視覺中的學習:幾點想法maria petroucommunications and signal processing group,electrical and electronic engineering department,imperial college,london sw7 2az, uk摘要:歸納的能力是學習的最重要的品質,并且歸納總結可以通過模型識別系統(tǒng)了解知識的規(guī)律而不是它的表面,一個叫知識庫的東西已經被提上日程了,通過它所有的知識都能過被組織起來,一個通過使用這個知識庫和效用理論方面的知識的翻譯場景系統(tǒng)也被提上日程了,同時有人認為,全部一致的標簽解決方案是一個人造認知體系既不可能,也不可取。1 引言通?!皩W習”這個詞在現(xiàn)代社會有很多種解釋,特別是從計算機語言來看。它已經被用來解釋很多事物,從傳輸數(shù)據(jù)到怎樣去識別視覺結構,這些領域最有價值參數(shù)的定義都將可以得到解釋。所以,我們應該試著去理解這個世界的現(xiàn)象,就像它出現(xiàn)在認知領域相關數(shù)學方程式中的問題一樣。在下面的部分,我們首先要從電腦視角去了解學習的意義,同時去探究這個世界的兩種定義之間的可能聯(lián)系。2 學習的主要特征和認知任務有關的第一算法的部分內容已經被提上日程,它們的主要內容主要是有關的神經網絡的。神經網絡的支持者們經常評論他們所開發(fā)的神經網絡的歸納能力。歸納是學習的主要特點之一。事實上,我們在教我們的孩子時常常用童話故事和比喻,通常假定他們有能力把它們推廣到實際情況中去。為了能確保我們能夠教會我們的孩子,我們時常希望把生活中可能遇到的情況都交給他們,我想這種情形是十分可笑的。因此我們可以肯定推斷歸納總結的能力是學習中最重要的能力。l. rueda, d. mery, and j. kittler (eds.): ciarp 2007, lncs 4756, pp. 112, 2007.c springer-verlag berlin heidelberg 2007這意味著這種利用訓練樣本區(qū)間跨越特征空間的經典模型識別方法并不是這個世界認知意識的真正的學習方法。為了能夠更好的推廣,這種建立在規(guī)律上的神經網絡通常在很大程度上依賴于有足夠的訓練樣本才能填充足夠的特征空間。神經網絡的這種訓練方法通常被用來去靠近與分段線性部分特征空間中的類邊界。當一個未知的模式到來時,它能夠和已經確定的填充空間聯(lián)系起來,從而能夠把模型出現(xiàn)的地方填充起來。一些舊的和一些最近剛開發(fā)的方法是通過選擇在類邊界中其主要作用的模型實現(xiàn)的,而不是使用高一級的歸納能力,這些方法都是一些簡單可行的方法。所以,神經網絡和模式識別方法并不是這個世界認知意識上的學習方法。問題在于:是這種被認知科學家和心理學家理解意義上的學習就是算法,還是某種超越目前掌握的數(shù)學形式?反對學習就是算法的證據(jù)是人類的學習能力來自于一些簡單的例子。同樣相反的觀點是人類花大量的時間去學習,我們所見證的是一個簡單的學習是這些新方法的應用的表現(xiàn),比如一些通用的規(guī)則, 元知識一直慢慢刻畫在潛意識里了。我要澄清一下,“學習”在這里不是指取得一個大學學位。這的確是一個很漫長的過程,這是需要大約三分之一的壽命的一個人。學習這里喻指生存技能,操作技能在日常生活中。由于人類成長期在大約12 - 15歲之間,我們可以假定自然認為人類兒童已經準備好怎樣面對生活在那個階段。所以,我們可以說,人類作為獨立的實體生命“學習”他們要學習的東西要經過12 - 15年的時間,這將是他們生命中很長的一段時間。所以,人類似乎是一個很慢的學習者。他們花很多時間去了解元知識的規(guī)則。正是這些被人們從數(shù)學算法的角度掌握的規(guī)則使人們能夠很快的掌握知識,這就是我們經常的見到的例子。我們也許會從以上的觀點得出以下結論:- 歸納總結的一個重要特征是學習;- 在算法學習中,概括必須得到足夠的訓練,從而能夠填充整個類空間部分,或者是類邊界的部分地方;- 我們都有真實的歸納命題能力,只有當由訓練的例子學會知識變成如何間接地提取物體的身份而不是對象的類。如果這樣的學習發(fā)生,完全未知的東西可能會得到正確的解釋,即使在沒有先前的例子的情況下。這個結論意味著我們必須教導計算機怎樣去做,為的是建造一個認知系統(tǒng),這是關系,而不是事實。例如,背字典的一種語言,沒有教一個人的語言。這個人必須去學習單詞之間的關系,以掌握這門語言。這是同意溫斯頓的創(chuàng)新實驗教計算機認識拱門,但不給計算機所有它可能遇到拱門。他把這個例子和柜臺拱的例子教給它,教它識別組件之間的關系,如“支持”和“被支持”之間的關系。3 知識和元知識至少有50個學習方面的理論的已經被認知科學家寫出來了。在計算機科學中,我們往往會區(qū)分兩種形式的學習: 試驗式的學習和證明式的學習。歸納學習也被計算機科學家使用了,但是我們不應該像那樣去處理,因為它意味著學習者已經學會了邏輯法則。所以,歸納學習可能被認為是已學中的應用元知識規(guī)則實驗的能力,學習意味著嘗試和給出結果,并從中得出結論。它最簡單的形式就像全自動的過程一樣。全自動分割算法,例如,將工作如下:進行分割,評估結果質量,調整參數(shù),然后再試一次。直接的結論是:實驗式的學習需要反饋回路。還要求一個可用的標準進行系統(tǒng)工作怎樣的一個判斷依據(jù)。這個標準的成為獨立知識或信息用于進行信息分段,是非常重要的,否則結果將是一個預言式的幻想而已。在半自動系統(tǒng),則是由人來決定。報告的結果則包括文學的聲明類型:“最好的閾值是通過嘗試與錯誤發(fā)現(xiàn)的?!斑@種方法是一種非常合理的學習方式。就像一個受到監(jiān)督式學習的雨傘,它對于幫助人類學習來說就像一個教師。飛往完全自動化的方法是相當于假設計算機可能通過學習元知識階段,需要構建規(guī)則,現(xiàn)在學習收益很快,利用這些元規(guī)則。例如,如果我們知道農業(yè)等行業(yè)傾向于有直的邊界,可以分辨部分輸出捕捉到的圖像的好與壞,它是通過空氣傳播的傳感器捕捉到的,根據(jù)它是否產生了地區(qū)邊界直。那個領域的知識是一個元知識是直的邊界。部分可能操作只使用紋理和邊緣信息。邊界推斷何以直,可用于作為標準來驅動系統(tǒng)使用其反饋回路,以制定出一個更好的分割。問題于是變?yōu)?系統(tǒng)如何獲得這元知識?早些時候,那一定是元知識必須要由人類的孩子(或計算機學習者)痛苦地緩慢掌握通過大量觀察農業(yè)領域的例子。雖然沒有發(fā)現(xiàn)可以將這些元知識移植到人類孩子的大腦中的有效方法。從老師的大腦中,計算機的優(yōu)勢在這里:更像一個老師,就是我們人類,我們可插入把元知識進入系統(tǒng)當正在進行的標準算法的自我評估。從這個的論點,我們得出結論:- 可能在出現(xiàn)時不僅有未注冊的關系,而且特點,類對象都有。- 在交互系統(tǒng)中,元知識被人類老師人為地插入到計算機學習者大腦中。- 在自動化系統(tǒng), 元知識被用來對計算機的學習者提供人類的老師績效考核的標準的形式。出現(xiàn)了兩個問題是:- 什么把知識和元知識連接起來?- 開始的時候如何學習元知識?4 論證式學習為了回答上述問題,我們得到了一個從我們前面提到的第二種類型學習的機會,即通過示范學習線索。這里的示范者是老師。接下來是一個故事,我從我奶奶聽到。請記住,兒童的傳統(tǒng)的教學方式一直被通過故事和比喻。這個故事提供的線索,是我們正在尋找的內容?!昂芫靡郧坝幸粋€陶工,他得到一個學徒并且可以讓他有學習陶藝技術的機會。陶工把他的陶壺放在烤箱里。兩個小時后,他把火滅了坐下來休息,抽起煙來,就像他是一個老人一樣。然后,他把盆拿出烤箱。它們看上去真是太完美了。學徒后來決定做自己的盆。他讓他們拿出粘土,放在烤箱里。兩個小時之后,他也把他們拿出來。但是這些壺都壞了。他重復同樣的工作但卻得到同樣的結果。他找到那個陶工并問他說:“你沒真正的教我。這樣事情不可能發(fā)生如果你真的教我的話?!薄半y道你停止吸煙后,您關掉火了?”“不,我不吸煙。”“那是因為你拿出了烤箱盆出得太早了。”我相信這個故事是有關我為了教我們要注意細節(jié)而講的。事實上,如果陶工的徒弟看了陶工來回幾十次表演的時候注意一些輕微變化,而且始終與前稍作停,他可能學到做陶盤至關重要的過程。另一方面,如果老師給出了明確的信息的話,那么這個老師可能就是一個更好的老師了。所以,這個故事告訴我們,我們學習新知識是從很少的例子當中獲得的,如果想快速獲得的話只有當有人向我們解釋他么不是怎樣做到的才行。一個孩子一直問“為什么”,這才是一個孩子如何才能學習好的辦法。這告訴我們“我們不能撇清學習認識到每個對象的學習,為什么它是這樣的”。有人可能會想到下面的老師和學生之間的交流和學習:“這是什么?”“這是一個窗口。”“為什么?”“因為它讓光進來,并允許人們看到了。”“那怎樣做呢?”“通過具有一個寬闊的視野?!薄斑@是是真的嗎?”這種學習順序如圖1所示。這個數(shù)字建議在我們的大腦,知識是由一個網絡,形成一系列復雜的結構,我稱之為知識之塔。名詞的網絡是一個對象名稱,標簽網絡,例如: 窗口,煙囪,門等動詞或行動網絡,是網絡功能,例如: 看出來,進入,退出等表象網絡是一個功能所需的基本形狀網絡實現(xiàn),如: “這是人類以自己的視野對外認識的水平?!币虼?,知識的洪流是上面那段談話內容一樣。當系統(tǒng)循環(huán)結束時,我們可以證明,我們正在研究的對象其功能用途的特點可以實現(xiàn)這項任務,因此,對于人工視覺科學家來說,他們的任務是去建立網絡及其相互連接層之間的模型。我們有我們所掌握的各種工具:馬爾可夫隨機域,推理規(guī)則,貝葉斯網絡,模糊推理等我從一開始就排除任何確定性的辦法,或者是因為事情是真正隨機的性質(或至少有一個顯著的隨機成分),或者當為制定清晰的決策規(guī)則和決定時因為我們的模式和我們的知識是太粗糙和不完美而不能勝任。5 馬爾可夫隨機場 最近的一些工作發(fā)現(xiàn)的證據(jù)表明,網絡名詞(最貼切的說法是“思想”,如果從網絡心理加以描述)是一個隨機網絡拓撲,而由一些想法組成的關系網絡,它們是拓撲無尺度的。例如,像“叉刀”,“門窗口”比“門”或“窗口”出現(xiàn)地更加頻繁。這表明,這些網絡相互之間的連接總是不斷變化的,而且實際上并不總是對稱的。例如,想法“門”的可能引發(fā)的“窗口”的想法比“窗口”引發(fā)的想法“門”的想法更加頻繁。這種不對稱的相互作用表明馬爾可夫隨機場(馬爾科夫場)不適用于它們在圖像處理應用上的一貫的形式。一個在網格上定義的馬爾可夫隨機場鄰里之間的相互作用的例子如下圖2b所示。馬爾可夫隨機場以及它提供給鄰近的相互作用的重力,不能由吉布斯聯(lián)合概率密度函數(shù)來表示。例如,在中心的細胞被頂部左鄰重力-1影響,而他自己,作為頂部左下角的單元格的右邊的鄰居,通過重力-1來影響它。當一個試圖釋放這樣一個隨機場時,這種不對稱會導致系統(tǒng)的不穩(wěn)定,因為創(chuàng)建的本地模式不是全部一致的(不是全可由吉布斯分布可表達出來的)。這種馬爾可夫隨機場的一些發(fā)散是不收斂的,而是在一些可能的狀態(tài)之間搖擺。 (最佳化的吉布斯分布偶爾會收斂到正確的解釋,但更多的往往不是這樣,他們幻想他們得到了錯誤解釋。)因此,通過使用一個非吉卜賽中期馬爾科夫場,在每一個知識水平的人們都可以來建立網絡模型,如圖表1所示。層與層之間的相互依賴性,也可能通過這樣的網絡來建立模型,但也許使用貝葉斯模型比較適合,因為層與層之間的相關性是因果關系或診斷關系,而不是點對點對等關系。然而問題是:“我們去哪兒得到這些知識來構建網絡?”母親教她的孩子從哪里得來?孩子的母親沒有最簡單的真理或普遍的知識可以教給她的孩子:她明白一些東西,然后才告訴他的孩子,然后她想起別的東西,根據(jù)她自己的想法,這些想法是相互交織的并且由她自己的感覺來組織的,她會再次給孩子講講。因此,所有的母親(老師)的作用是傳授給孩子她自己關于這些想法和概念之間的聯(lián)系。如果母親告訴孩子:“這是一支鉛筆,那是一個橡膠。鉛筆幫助我們而橡皮幫助我們抹去我們寫的東西。”孩子會在自己的大腦中會有像他的母親同樣的反應。鉛筆橡皮現(xiàn)象將在孩子的大腦中產生一個關于名詞的網絡很強的記憶,就像在孩子的動詞網絡。所以,有一件事情我們可以做的是建立屬于我們自己關于這些想法和功能之間聯(lián)系的模型。然后讓孩子或計算機提出正確的問題。對于每一個答案,相應的連接強度會提高。我們可能會把這些優(yōu)勢變成概率。然后,一個全新的場景可能會顯示到計算機上。該兒童或計算機必須能夠使用他已經學會的這些連接去解釋這種新的景象。實際上,這是通過使用手動標注的圖像實現(xiàn)的。 數(shù)學家heesch和彼得魯做這些是去解釋建筑物室外的場景:他們使用了數(shù)百張地面的圖像學習區(qū)域配置的馬氏相依理論,確定了居委會是一個地區(qū)被分成六個地區(qū),這些地區(qū)履行下列幾何約束中的一個:它在上面,下面,向左邊,向右邊,它被裝載,或把這個區(qū)域考慮在內。一個未知的場面被貼上標簽,通過使用一個初級的,建立在個人工具基礎上的一個標簽來完成,這個個人工具由各個區(qū)域和組成,以及放寬對分割區(qū)域定義的馬爾科夫場,用圖的著色與繪圖按各當?shù)貤l件概率地區(qū)的標簽標記,這個標簽是建立在當前周圍標簽之上的。全部一致是不存在的,當標簽之間的相互依存是不對稱的時候。我們可以直觀地理解為在室外環(huán)境中物體之間的相互作用太弱而不可能對一個區(qū)域的影響產生顯著效果。例如,如果屬于該房子的該區(qū)域是一個門, 這一區(qū)域就在圖1的另一端。雙頭箭頭代表上下文交互。連續(xù)的細箭頭表示查詢。虛線箭頭代表的答案,即信息的傳遞。在認知視覺工作中興趣的水平就是名詞的水平,在這里我們要把標簽分配到每個對象。與名詞網絡上下文內涵有關的例子有“門”,“窗口”,“陽臺”。與語境網絡的功能內涵節(jié)點有關的例子是“讓空氣進來”,“讓光進來”,“允許一人進入”。與描述網絡上下文內涵節(jié)點有關的例子是“有一個玻璃面板”,“在水平面”,“有一個把手來打開它”。視野可能是汽車,灌木,一個窗口,房子,或一棵樹。從可能性的角度來看這些選擇的差別是很小的:標簽之間的相關函數(shù),指在一定距離之外的物體,變得平坦而且不能提供有用的信息。所以,沒有一個模型是相關的或有用的。6 貝葉斯推理 貝葉斯方法迄今為止已被用在兩個方面:要么是在概率松弛的形式(pr)方面或在推理珍珠貝氏網絡的形式。概率松弛起源于華爾茲寫的關于約束傳播著作,他用簡潔的制約條件和一勞永逸地方法解決所有的不符和條件的標號,這些標號導致其他不可能的問題。通過考慮每一個對象的環(huán)境信息,概率松弛不斷更新單個物體的各種標簽的概率。由于該上下文信息是有效對等的,概率松弛對于建立因果關系的方面的模型不是一個好的工具。對于馬科夫場來說它是一個替代的工具,在上一節(jié)討論了在同一層建模的影響。概率松弛,像馬爾科夫松弛一樣,是不能保證得到一個獨特的全方位的解決方案,除非有特殊條件。我們曾討論過,雖然這是一個不現(xiàn)實的問題,那就是:場景標號不必是全部一致的,但在本地要一致。這項聲明似乎與以前的聲明是矛盾德,概率松弛是華爾茲的算法,這個算法可以在60秒之內解決標號不一致的問題。這一矛盾,然而,只是表面的。在60年代標號不符的問題,是指單固體物體的標號,通過在子部分上貼上標簽,而不是包含許多不同對象的場景,在這些對象之間的約束是遠遠弱于其他相同的固態(tài)物體內的子模塊之間的限制。 貝葉斯方法的第二種形式是推理珍珠貝氏網絡。這里的關系可能是因果關系,因此這些網絡對中間層推論來說是合適的。貝葉斯方法依賴于條件概率。如何為這種方法選擇一個條件概率一直是一個問題。條件概率可能要通過數(shù)百個例子才能慢慢地被我們掌握。 stassopoulou等人通過繪制類邊界的圖來解決了條件概率的學習問題,這個類邊界通過從這個網絡到另一個網絡來表達,通常這種網絡被用來作為學習條件概率的一種方法。另外,有的條件概率可能會從其他已經受過訓練的網絡轉移過來:老師的網絡。這種轉移相當于讓他們具備一些來自其他參數(shù)的一些參數(shù)(如高斯)。形式和參數(shù)的任意選擇通常導致對臨時或不合理的做法的批評。現(xiàn)在情況是,老師只是將自己的獲得的知識的轉移到學生(或電腦)身上。這種做法使我們獲得了新的理論,例如像所謂的“效用理論”。 效用理論是一種決策理論。在圖像對象中向物體分配標簽就是一個決定。在貝葉斯框架內,在bayesian的結構理論中,我們做出這個決定是通過最大限度地把我們所獲得信息全部輸入到這個標簽中。在效用理論中,這種可能性函數(shù)被叫做“效用函數(shù)”,這表示主觀偏好或每個標簽可能帶來的后果。效用函數(shù)乘以每個標簽的貝葉斯概率再加上上面所有可能性,這就導致只有一個可以傳遞到最后的標簽。所以,這種方法避免了馬爾科夫場和pr的迭代。效用函數(shù)可用來鑒定一些人對這個世界已經獲得的元知識。就是這樣的知識,可以通過演算和從很多例子中學到,但現(xiàn)在通過我們現(xiàn)有的工具基礎,它們是不能通過條件和偏見這些形式來表達的。就是這樣的知識告訴我們,當我們想要從一個經常推遲約定的人手中購買一輛車時要慎重,那樣就不會立即產生維修記錄。沒有人使用“實用功能”這個術語的這種想法已經有一段時間了。例如,在九十年代中期,心理學家都在談論所謂的p map和m map。p map主要是關于在我們生活中我們可能遇到情況的一些知識。一個p -map可以或多或少的幫助我們抽樣調查一個場景,無論這些地方重不重要,我們做一個m-map都是很特別的。人們可能會把p-map看作是今天的實用功能而m-map主要是建立在我們已有的工具之上的,這里的m-map是指標簽的貝葉斯部分。在計算機視覺方面,實用的理論已被marengoni 用于選擇本應被應用于空間圖像方面的特色功能。此外,人們可以把米勒等人的工作當作是用一個可以給那些不尋常的轉換設置障礙的實用功能,這些轉換必須和電腦認為的轉換一致。在假定轉換和標簽測量都是獨立的情況下,通過最大限度的尋找所觀察到的形式的概率密度函數(shù)和標簽以及所觀察到事物的密度方程之間的可能性,作者有效地提取了一些樣本。7 建立“為什么”和“怎樣”模型來回答“是什么”讓我們來考慮一下在圖1中提到的知識塔。為了在以后的情景中能夠識別物體我們首先要給學習的問題建立一個方程,在這個場景中可以使用分層表述形式來說明知識和效用理論。讓我們假定我們可以最大可能的把標簽分到每一個場景中,在通常情況下標簽lj以及它的可能性pij將被分配給oi ,表達式如下: pij = p(lj |mi)p(mi) = p(mi|lj)p(lj) (1)這里mi代表我們在oi基礎上所制造的所有工具,p(mi)和p(lj)分別是測量和標簽之間的先驗概率。概率松弛理論將根據(jù)來自鄰近地區(qū)的上下文收到的資料來更新這些概率。在這里我們可以不遵守那些規(guī)則。相反,我們將使用來從其他層知識的信息來平衡這個公式。我們設定圖一中的在“動詞”水平線上的單位用fk來表示,而在描述水平線上的單元用dl表示,而后我們lji把給oi,表達式如下: (2)其中ujk表示對帶標簽lj的物體的重要程度,lj用來滿足fk ; vkl表示特征量dl對于一個物體有滿足fk可能性的重要性,cik是指dl適用于oi。假定效用函數(shù)的值表示我們手中的證據(jù),區(qū)域oi可以滿足作為區(qū)域lj的角色的特征,例如,分給oi的標簽是一個“陽臺”,效用函數(shù)必須能夠表示出是否這個陽臺有足夠大空間以至于可以站下一個人,是否靠近墻,是否有個門面對它。所有這些因素在一起就容許一個物體來扮演陽臺的角色。一個學習計劃要能夠學到ujk和vkl的值,要么是通過一些例子(這個過程表較緩慢的并且有點痛苦),要么選擇相信一個已經親身經歷過這個過程而且了解那些值的老師,這樣就可以把他們直接輸入電腦處理器中。電腦處理器必須有一個輸入處理系統(tǒng)的裝置來計算出cil的值。 圖2(a)中,在邊線上相鄰的點和馬爾科夫參數(shù)都是一致的,如果這個區(qū)域被釋放,將會出現(xiàn)和上下不一樣的彼此相似的標簽水平帶,在圖像處理中它會導致水平方向的紋理圖案。圖(b), 在邊線上相鄰的點和馬爾科夫參數(shù)是不一致的:左邊的和中間的是不一樣的。中間的看作是頂部左面的右底角鄰居,它們是相似的。8 總結 我認為學習是一種歸納總結能力的體現(xiàn),如果要學的東西并不是可以看到的物體的表面而是被分配標簽的內部規(guī)律,那么學習就可以學好。我也認為元知識可能被老師輸送給他的老師,方式可以是一些規(guī)則,或是最簡單的方法,這些都是人類通過自己的經驗和體會應用算術參數(shù)完成的。這使我和社會上大多數(shù)審稿人一樣都很排斥論文,理由是這些參數(shù)已經被選過了:這就是老師把他們潛心學到的知識傳授給他的學生的例子。另一種方法是學習者從大量的示例中慢慢地琢磨然后才學到他們要學的知識。我同時認為我們不需要全部一致的場景標簽。通過瑪格麗特畫的場景,我們可以得出全部一致的標簽從來不會讓我們建立一個合適的關于一輛火車從大火中沖出來的場景,這是因為火車不是來自于有火災的地方。我永遠不會讓電腦來識別一個五條腿的馬,但是我們人可以。因此我們需要的是現(xiàn)實和知識的碎片。從電腦的視角,拋棄全部一致的方案的想法現(xiàn)在已經成熟了。這并不和其他科學相左。戰(zhàn)略分析家們會談論學習行動的結構,甚至是數(shù)學家們很早以前就應經拋棄了關于全部一致的數(shù)學科學的想法。當奧爾德的證明出版的時候,數(shù)學家羅素不得不拋棄建立在一部分公理上全部一致算法的理念。自然地系統(tǒng)都不是全部一致的:他們在一些狀態(tài)之間搖擺,而我們必須戰(zhàn)勝這個動態(tài)的全部不一致的而且含糊不清的世界才能生存。一個機器人系統(tǒng)也必須能做到這些,或許那樣做成功的方法是去自己構造,這樣才能和一些有限的理解力相符。learning in computer vision: some thoughtsmaria petroucommunications and signal processing group,electrical and electronic engineering department,imperial college,london sw7 2az, ukabstract. it is argued that the ability to generalise is the most important characteristic of learning and that generalisation may be achieved only if pattern recognition systems learn the rules of meta-knowledge rather than the labels of objects. a structure, called “tower of knowledge”, according to which knowledge may be organised, is proposed. a scheme of interpreting scenes using the tower of knowledge and aspects of utility theory is also proposed. finally, it is argued that globally consistent solutions of labellings are neither possible, nor desirable for an artificial cognitive system.1 introductionthe word “l(fā)earning” has many interpretations among the pattern recognition community in general, and the computer vision community in particular. it has been used to loosely mean anything between the identification of the best value of a parameter from training data, to learning how to recognise visual structures. so, perhaps we should try to distinguish the interpretation of the word as it appears in the mathematical formulation of problems, from its interpretation as it appears in cognition related tasks. in the sections that follow, we shall try to understand the significance of learning in the context of computer vision and identify a possible relationship between these two interpretations of the word.2 the main characteristic of learningsome of the first learning algorithms in relation to cognitive tasks, that have been proposed in the past, are the various types of neural network. proponents of neural networks often comment on the generalisation capabilities of the networks they develop. generalisation is one of the characteristics of learning. indeed, we, humans, teach our children often with fairy tales and parables, assuming that they have the ability to generalise to real situations. it is preposterous to expect that we shall have to teach our children about all individual possible situations they may encounter in life, in order to make sure that we have taught them well. we may safely conclude, therefore, that the ability to generalise is the most important characteristic of learning.l. rueda, d. mery, and j. kittler (eds.): ciarp 2007, lncs 4756, pp. 112, 2007._c springer-verlag berlin heidelberg 2007this implies that classical pattern recognition methods, that use training examples to span the feature space, are not really learning methods in the cognitive sense of the word. even neural network based methods, in order to generalise well, rely heavily on the availability of enough training samples to populate adequately the feature space. the training patterns are used by the neural networks to approximate the class boundaries in the feature space with piece-wise linear segments. when an unknown pattern arrives, it can be associated with the class that has been identified to populate the part of the feature space where the pattern appears. some old 3 and some more recently developed methods 1, that can work with fewer training patterns than straightforward methods, do so by selecting the patterns that matter most in defining the class boundaries, rather than by using some higher level generalisation abilities of the classifier 23. so, neural networks and pattern classification methods are not learning methods in the cognitive sense of the word. the question then that arises is: is learning, as understood by cognitive scientists and psychologists, algorithmic, or is it something beyond the current grasp of mathematical formalism evidence against learning being algorithmic is the ability of humans to learn even from single examples. a counter-argument is that humans take a lot of time to learn, and it is possible that what we witness as super-fast learning is simply a manifestation of the application of some meta-knowledge, some generic rules that have been slowly and painfully learnt subconsciously. i would like to clarify that “l(fā)earning” here does not refer to getting a university degree. this is indeed a very long process and it takes almost one third of the life span of a person. learning here refers to survival skills, to skills needed to operate in everyday life. given that a human becomes reproductive roughly between the ages of 1215, we may assume that nature considers the human child becoming ready for life at that stage. so, we may say that humans “l(fā)earn” what they have to learn, to be ready for life as independent entities, over a period of 1215 years, which is still a significant fraction of their life span. therefore, humans seem to be slow learners after all. they take a lot of time to work out the rules of meta-knowledge. it is these rules, that have possibly been learnt in an algorithmic way, that allow then the human to learn in the super-fast, almost magical, way that we often witness. we may conclude from the above arguments that: generalisation is an important characteristic of learning; generalisation in algorithmic learning may only be achieved by having enough training examples to populate all parts of the class space, or at least the parts that form the borders between classes; we have true generalisation capabilities, only when what is learnt by training examples are rules on how to extract the identity of objects and not the classes of objects directly. if such learning has taken place, totally unknown objects may be interpreted correctly, even in the absence of any previously seen examples. this conclusion implies that what we have to teach the computer, in order to construct a cognitive system, are relations rather than facts. for example,memorising the dictionary of a language, does not teach a person the language. the person has to learn the relations between words in order to master the language. this is in agreement with winstones pioneering experiments on teaching the computer to recognise arches. he did not show to the computer all possible types of arch it may encounter. he showed it examples and counter examples of arches and taught it to recognise relations between components, such as “supports” or “is supported by” 26.3 knowledge and meta-knowledgethere are at least 50 theories of learning developed by cognitive scientists 28. in computer science, we tend to distinguish two forms of learning: learning by experimentation and learning by demonstration. inductive learning is also used by computer scientists, but we shall not deal with that here, because it implies that the learner has already learnt the rules of logic. so, inductive learning may be thought of as a way of applying the already learnt rules of meta-knowledge 22. learning by experimentation implies the ability to try, reason about the results and draw conclusions. in its simplest form, this is what fully automatic programs do. a fully automatic segmentation algorithm, for example, will work as follows: perform segmentation, assess the quality of the result, adjust the parameters and try again. the immediate conclusion is that learning by experimentation requires the presence of a feed-back loop. it also requires the availability of a criterion that says how well the system has performed each time. it is important for this criterion to be independent of the knowledge or information used to perform the segmentation in the first place, otherwise the result will be a self-fulfilling prophecy. in semi-automatic systems, the criterion is provided by the human. the reported results in the literature then include a statement of the type: “the best threshold was found by trial and error.” this method is a perfectly legitimate method of learning. it comes under the umbrella of supervisedlearning and it corresponds to human learning with the help of a teacher. proceeding to fully automated methods is equivalent to assuming that the computer has somehow passed that stage of learning the meta-knowledge, necessary to construct rules, and now learning proceeds very fast, making use of these meta-rules. for example, if we know that agricultural fields tend to have straight borders, we may judge the output of a segmenter of an image, captured by an airborne sensor, as good or bad, according to whether it produced regions with straight borders or not. the knowledge that fields have straight boundaries is a meta-knowledge. the segmenter might have operated using only texture and edge information. the straightness of the inferred borders may be used as a criterion to drive the system to use its feed-back loop to work out a better segmentation. the question then is: how did the system acquire this meta-knowledge? as argued earlier, it must be the meta-knowledge that had to be learnt by the human child (or the computer learner) painfully slowly by seeing lots of examples of agricultural fi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論