模式識別和機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘的區(qū)別與聯(lián)系_第1頁
模式識別和機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘的區(qū)別與聯(lián)系_第2頁
模式識別和機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘的區(qū)別與聯(lián)系_第3頁
模式識別和機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘的區(qū)別與聯(lián)系_第4頁
模式識別和機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘的區(qū)別與聯(lián)系_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、模式識別和機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘的區(qū)別與聯(lián)系(一)模式識別的誕生與人工智能自動(dòng)控制起始是從工 業(yè)革命之后,人們就希望設(shè)計(jì)出減少人工干預(yù),能自己進(jìn)行 兒。等到 40 年代,伴隨二戰(zhàn)的需要,計(jì)算機(jī)的產(chǎn)生,維納 控制論這個(gè)詞是維納根據(jù)古希臘詞根發(fā)明出來的。用老爺子 不提,那是人家天才小時(shí)候就對生物學(xué)有興趣;在工程方面, 的時(shí)候是二戰(zhàn)中,初衷就是要讓機(jī)器代替人進(jìn)行防空武器的 維納是數(shù)學(xué)家,寫出來的理論和公式,讓當(dāng)時(shí)的工程師們看 工程問題,人家二戰(zhàn)中參與了,也想到了。最典型的就是對 之間,畫一根線就連過來了。可是實(shí)際中,傳感器有誤差, 測量回路中有包含噪聲,需要的測量值甚至根本就是淹沒在一片嘈雜的信號里面(

2、水聲信號)。這時(shí)候管識別“真實(shí)值” 的問題叫濾波,通過設(shè)計(jì)各種濾波器來解決。但是一學(xué)到現(xiàn)代信號處理這塊就會發(fā)現(xiàn)和傳統(tǒng)的信號處理 從維納最佳濾波的算法和 ARMA 模型的原理就可以看出來, 既然是用隨機(jī)過程和概率統(tǒng)計(jì)來看待和描述信號和噪聲,那 以羅嗦這些詞,是因?yàn)檫@些詞在模式識別的分支里出現(xiàn)的詞。 祖師爺提出、總結(jié)這些方法大概主要為了玩轉(zhuǎn)控制問題里的 那些傳感器。但是,其他不需要 machine、不需要控制的領(lǐng) 域,但是也需要用傳感器去測量、去噪聲、估計(jì)、預(yù)測、辨 都希望使用計(jì)算機(jī)代替人來做呢?;ㄩ_兩朵各表一枝,先放下各行各業(yè)的需求和土招兒暫且不 說,再來看看計(jì)算機(jī)。與此同時(shí),計(jì)算機(jī)產(chǎn)生之后也需

3、要找 到更多的應(yīng)用領(lǐng)域。除了吸引人的計(jì)算速度之外,數(shù)學(xué)家開 始琢磨讓計(jì)算機(jī)再干點(diǎn)別的。 么讓半導(dǎo)體造計(jì)算機(jī)用二進(jìn)制數(shù)據(jù)結(jié)構(gòu) 算法去達(dá)到肉長的 步驟。數(shù)據(jù)結(jié)構(gòu)和算法是計(jì)算機(jī)專業(yè)的核心之一,也是當(dāng)年 們中國大學(xué)里的計(jì)算機(jī)系大概是 60 年代從電子系、自動(dòng)化 算機(jī)去做的人的智力題。AI 又叫狹義的人工智能,基本可以等同于計(jì)算機(jī)算法了。當(dāng) 然也確實(shí)有研究人腦結(jié)構(gòu)和思維過程,用計(jì)算機(jī)去 這個(gè),統(tǒng)計(jì)學(xué)家們發(fā)來抗議電,說 NN 壓根就沒那么玄乎, 但是除了做智力題之外,人的能力里屬于智能的到底都有什 么呢?經(jīng)過總結(jié),其中之一是識別能力,然后是決策能力。 這下好了,一邊是需求,一邊是計(jì)算機(jī)的計(jì)算能力。估計(jì)、

4、(二)模式識別的流程與機(jī)器學(xué)習(xí)一個(gè)標(biāo)準(zhǔn)的模式識別流程是: 但是這個(gè)流程只是計(jì)算機(jī)工作時(shí)的流程。而在能這樣工作之 前還要干很多事。比如人臉識別,一個(gè)計(jì)算機(jī)算法又不是天 生就認(rèn)識很多人,算法要經(jīng)過訓(xùn)練和學(xué)習(xí)好了,才能照上面 那么到底在訓(xùn)練、學(xué)習(xí)些什么,又是在識別些呢?這個(gè)還是 直到研究生入學(xué)以后很長時(shí)間還是不明白是什么意思,就知 還是說人臉識別吧。對人來說,看見來自于 1 個(gè)人的人臉圖 像,即使是不同表情和姿勢的,我們也能認(rèn)出這些圖像來自 于同一個(gè)人。而你之所以能認(rèn)出來,可能是觀察了臉型 發(fā) 型,也可能是五官形狀的組合??墒堑降资菆D像上的什么決 定了你的判斷呢?你有的能說出來,可是有的卻又說不清道

5、 夠讓你判斷出哪些樣本屬于同一類別、能夠和其他類別相區(qū) 別的特征或者屬性。我們下面設(shè)計(jì)計(jì)算機(jī)算法為每 1 個(gè)人的圖像建立唯一的 1 個(gè) 每個(gè)人的身份編號 i 對應(yīng)一個(gè)參數(shù)模型 Mi。這個(gè)建立或者說 數(shù)。而開發(fā)者為了評價(jià)算法性能,也要先預(yù)備一些已知類別的圖 法,要測試集上測試一下。根據(jù)測試結(jié)果調(diào)整算法參數(shù),或 者實(shí)在太差的話要換一種算法了。不斷的調(diào)整參數(shù)、不斷改 traintest論文通常 要附上算法在各種數(shù)據(jù)集,各種情況下的結(jié)果。一個(gè)圖,一 張表的背后,要寫好多程序,花好多時(shí)間在電腦上運(yùn)行。 這樣訓(xùn)練好后,就可以按上面那個(gè)流程工作了。如果一張屬 于第 i 人的圖片來了,算法用保存的 N 個(gè)人的

6、模型去分別計(jì) 算相似度,判斷這張圖片來自于模型 Mj 的可能性最大,也 就等于電腦可以通過看圖片識別出了這人的身份是 j。如果 j 等于真實(shí)身份 i ,那就識別正確了,如果每次都識別對,那 電腦就達(dá)到了人腦的能力了。tion 需要預(yù)測連續(xù)型變量的,比如股指,房價(jià),就稱為回歸 說預(yù)測的目標(biāo)輸出的是連續(xù)性的值。 你的模型從哪里來的?雖然有些模型假設(shè),但主要從輸入的 人的學(xué)習(xí)過程,于是把這一類計(jì)算機(jī)算法叫做 Machine 一個(gè)拍腦袋定義的出來的公式也算。而 ML 要窄一些,是特 的里的概念來說, ML 是一種數(shù)據(jù)驅(qū)動(dòng)的,非參數(shù) 比較 PR 和 ML??梢哉f,PR 里面的算法部分基本上一定是 而整個(gè)

7、 ML 就要廣多了,如果你的算法輸入是棋譜,那么訓(xùn) 之間進(jìn)行能力比較的標(biāo)準(zhǔn)數(shù)據(jù)集基本都是分類和回歸問題。 ML PR 實(shí)在是太相似了。說到了這里,PR 里面的 ML 算法,主要都是在用統(tǒng)計(jì)學(xué)(少 部分有圖論),問題也就出來了。提出算法的主要是人家數(shù) 了。可是怎么模式識別的事凈是自動(dòng)化、電子信息、通信這 些專業(yè)的搞呢?雖然你們攢一起改叫 Electronics 數(shù),線代,復(fù)變,信號系統(tǒng),古典概型和簡單數(shù)理統(tǒng)計(jì),再 學(xué)編碼啥的,到碩士嘛頂多學(xué)點(diǎn)矩陣論,隨機(jī)過程頂天了。 就這點(diǎn)數(shù)學(xué)底子,提不出啥牛 X 算法,憑啥模式識別專業(yè)還 是你們這些工科生霸著?。縼G給數(shù)學(xué)系、統(tǒng)計(jì)系,或者計(jì)算 機(jī)系得了,人家 C

8、S 好歹也是 S 啊。嗯,我也疑惑了很久,明明都是在折騰數(shù)學(xué),怎么還是賴在 (三)模式識別中的工程、技術(shù)為什么要說說 PR 沒被數(shù)學(xué)、統(tǒng)計(jì)和計(jì)算機(jī)專業(yè)搶去的問題, PR工程的問題。 如果去學(xué) PR ,看任何一種這方面的經(jīng)典教材來看,基本上 于這方面的經(jīng)典教材,其實(shí)特別想單獨(dú)來說的。如果是第一 頁起的,而且基本滿眼望去都是公式。理科生不論,對于看 理論經(jīng)常感覺力不從心,或者沒什么耐心的工科生,如果找 PR 就等于分類算法。最起碼炮制這方面的論文就不等于炮 制分類算法 F ,想想也是,不然工科生還有的混嗎!作為說 PR 的最后一節(jié),這次工科生要來吹吹牛,看看 PR 除了統(tǒng) 計(jì)理論和算法,有什么離不

9、了工程、技術(shù)的地方。還是先把 流程圖再畫一遍: 單:算法要求輸入的數(shù)據(jù)通常都是個(gè)很規(guī)整的矩陣,比如 N 受連續(xù)型變量和離散值變量的混合,有的干脆不接受連續(xù)型 變量,要量化變成啞變量。所以根據(jù)算法的不同,對數(shù)據(jù)的 形式也要稍微做點(diǎn)加工。這也沒啥特別的。以人臉識別為例吧。研究了一個(gè)算法,都要在網(wǎng)上的幾個(gè)標(biāo) 準(zhǔn)人臉庫中的圖像上實(shí)驗(yàn)自己的算法。通常庫里每個(gè)人的照 片包括各種姿態(tài)(比如稍微左右側(cè)一些,抬頭低頭),表情 變化,各種光照陰影,有的還有飾物比如眼睛,帽子,發(fā)型 好了,你的算法在幾個(gè)人臉庫上跑得不錯(cuò),實(shí)驗(yàn)數(shù)據(jù)有了, 論文有譜了,你很開心。老板也很開心,于是老板接了個(gè)小 項(xiàng)目,讓你參與做個(gè)人臉識別

10、的門禁系統(tǒng)。這時(shí)候你就會發(fā) 首先就是傳感器的問題。傳感器直接決定了圖像有沒有形變, 顏色和灰度有沒有改變,是不是清楚,分辨率有多高。通常 然后降降噪聲,直方圖均衡調(diào)整一下對比度,尺寸也調(diào)整一 這些圖像處理課里的內(nèi)容,雖然也都是簡單的數(shù)學(xué)公式, 但是,場合不同,想要的圖像效果不同,參數(shù)上也總要微調(diào) 的讓我想起了 PID 參數(shù)的整定。嗯,很工科。插一句,我所理解的工程學(xué)就是對實(shí)際問題的專門經(jīng)驗(yàn)的積 累。公式理論簡單,而經(jīng)驗(yàn)的獲得,只需要多花時(shí)間和實(shí)際 什么神秘的。但是每個(gè)人的時(shí)間總是有限的,如果專門在一 個(gè)領(lǐng)域花了比別人多的時(shí)間,那么他的經(jīng)驗(yàn)就變得寶貴起來 挑戰(zhàn)性一點(diǎn)不比在理論上探索低。工科的思維

11、就是事前對可 能遇到的實(shí)際問題的復(fù)雜性的敏感和估計(jì),事中遇到問題時(shí) 也可以試驗(yàn)出來;可以把原本充滿創(chuàng)新的玩意改得樸實(shí)無華 或者面目全非 一切只為了這玩意最后能工作起來、能動(dòng) 換(然后再慢慢往好看、好用上改)。嗯,跑題了,繼續(xù)。現(xiàn)在圖像清楚得已經(jīng)堪比人臉庫了,識 別效果還不錯(cuò)。找客戶來驗(yàn)收吧!可是給客戶演示完,人家 突然問系統(tǒng)能不能集成到一起,做到DSP 和嵌入式系統(tǒng)上; 還要這樣,還要那樣嗯?等等,你忽然想到好像程序是 在雙核 PC 上跑的,好像用了好些個(gè) MATLAB 導(dǎo)出的函數(shù), 有個(gè)算法還是 R 里面的你嘴上說是,臉上沒反應(yīng),但心里浮現(xiàn)的卻是潛伏里陸 橋山審馬奎時(shí)從牙縫里擠出來的臺詞:我

12、真想撕爛你的嘴! 你當(dāng)初不是說可老板下了死命令,大家只好大干快上干起來!作為開發(fā)算 法的你,責(zé)無旁貸??!軟件徹底用 C 和 C 重寫!不能用好使的 MATLAB 了, API 真矬,簡單的矩陣運(yùn)算要費(fèi)勞資這么大勁。不知不覺 1 禮拜 過去了,終于寫好了。趕緊到下載到那邊已經(jīng)是改到第 N 版剛拿回來,還熱乎乎的 板卡:咦,沒反應(yīng)?軟件還是硬件問題?那邊查電路,這邊改程序 呼,有影了,可是噪聲咋這么嚴(yán)重,鼻子不是鼻子臉不是臉 的?攝像頭還是板子上有干擾?軟件上能再改改參數(shù)?終 于運(yùn)行起來了,怎么好像卡死了?哦,原來是太慢了。硬件 條件比 PC 機(jī)差了好幾個(gè)檔次了,怎么辦啊,換個(gè)簡單一點(diǎn) 的算法?那

13、性能咋辦?那之前那個(gè)算法好不容易得到實(shí)驗(yàn) 這個(gè)人臉識別的例子有點(diǎn)夸張了,但不是完全虛構(gòu)出來的。 通過這個(gè)例子想說的是,數(shù)據(jù)來源,軟硬件的布置,性能的 取舍,參數(shù)的實(shí)驗(yàn)調(diào)整都是論文上看不到也寫不出來的實(shí)際 工程問題。通常需要各種不同的傳感器和硬件打交道,也需 要各行各業(yè)的專業(yè)背景知識。涉及圖像的少不了攝像頭、照 相機(jī)和圖像處理的知識;做水聲信號和語音識別,少不了拾 電子,通信、甚至生物醫(yī)學(xué)專業(yè)能摻和其中的原因。 PR 不是在標(biāo)準(zhǔn)數(shù)據(jù)集上驗(yàn)證分類算法的性能就完了,這個(gè) 理論加實(shí)際,科學(xué)和技術(shù)(雖然理論是核心)。 前三節(jié)主要是圍繞 PR 來說,就說到這吧。下面打算試著說 說我認(rèn)識的機(jī)器學(xué)習(xí)算法概貌和

14、一直沒露面的數(shù)據(jù)挖掘。 (四)可解釋性和數(shù)據(jù)挖掘 展特別快,幾乎所有的論文都聲稱自己弄出一種新算法。看 論文多了之后我的體會是,如果心里沒有幾條線索,就分辨 的算法,學(xué)習(xí)了蘋果只知道這是蘋果,給個(gè)鴨梨就不認(rèn)識了, 給個(gè)蘋果梨就更不明白是什么東西了。至于應(yīng)用時(shí),更不知 道哪種算法更適合自己的問題。一般都是把 ML 算法分成兩大類:有監(jiān)督學(xué)習(xí)( Supervised Learning )和無監(jiān)督學(xué)習(xí) 形式上分的,說這個(gè)離不了公式和圖表了,不想先說這個(gè)。 據(jù)挖掘( Data Mining )。我覺得對應(yīng)用來說,這么分更有意 義些。這兩大類算法的核心區(qū)別就是:預(yù)測問題更重視算法 的預(yù)測能力( Pred

15、ictive Power),數(shù)據(jù)挖掘問題更重視算法 標(biāo)變量如果是離散的類別標(biāo)記,比如醫(yī)學(xué)上的某種病的陰性 陽性,或者人的身份編號,就叫分類(Classification );如果 預(yù)測能力很容易理解,我們只關(guān)心 trainset 上訓(xùn)練好的算法 在 test set 上面誤差、誤分類率要盡可能低。也就是說,模 型給出的預(yù)測要盡可能地接近實(shí)際結(jié)果??山忉屝跃鸵煤谜f說了。簡單說就是,我們更關(guān)心輸入的 p 維變量之間的聯(lián)系,或者算法產(chǎn)生的預(yù)測是哪幾個(gè)變量起 了主要作用,也就是說,算法給出預(yù)測結(jié)果的根據(jù)是什么。 比如商業(yè)智能( BI )上常見的購物籃分析( Market Basket Analysi

16、s )就是個(gè)典型的看中可解釋性的數(shù)據(jù)挖掘問題。因 器學(xué)習(xí)的,甚至講數(shù)據(jù)庫應(yīng)用的書,都要提到這個(gè)事,現(xiàn)在 各個(gè)購物購書網(wǎng)站也都在做這個(gè)事。 分析哪幾種商品容易同時(shí)出現(xiàn)在顧客的購物籃里,商場就可 以把這些看起來風(fēng)馬牛不相及的東西放在一起,方便顧客購 買;另一方面,分析客戶辦會員卡時(shí)留下的個(gè)人信息,可以 分析出經(jīng)常光顧本商場的是那些特征的人,這樣對外投放使 廣告便更加有的放矢,可望吸引更多這些類型的人來。 花生醬,黃油,果醬=面包這就說明,如果一個(gè)顧客同 而 這種同時(shí)買 4 種東西的顧客,在總顧客中占 3%。這個(gè)模式看起來平淡無奇,可是有時(shí)有很奇怪的模式被挖掘 出來,忘了從哪里看到的一個(gè)例子:尿布,

17、奶粉=啤酒,刮胡刀把這 4 個(gè)放一起確實(shí)提高了 銷量,原因后面再說。 那就趕緊針對這些人,在他們經(jīng)常出沒的地方做廣告吧!注 總共 p 個(gè)變量。也就是說,我們做出的預(yù)測,只依賴于所有 如果我說這就是可解釋性??峙麓蠹疫€是不明白。嗯,佛教 比一下就知道了。 簡單說出對買面包來說是哪幾種別的商品起了更重要的作 用,也就沒法想出提高銷量的方法了。這就是預(yù)測能力和可解釋性的區(qū)別。預(yù)測能力就是輸出結(jié)果的準(zhǔn)確度,而可解釋性是可以用來幫 助人們理解模式背后的原因。比如從前面那個(gè)尿布,奶 就最后推斷出,可能是妻子在坐月子時(shí),年輕父親們被打發(fā) 出來購物的。進(jìn)而可以重新設(shè)計(jì)實(shí)驗(yàn)或者進(jìn)行改進(jìn):不但把 這已發(fā)現(xiàn)的 4 種商品擺一起,而且把其他年輕父親可能會買 的東西也擺過來試試。醫(yī)學(xué)上也是這樣。不是特別關(guān)注用已有的 p 項(xiàng)的因素(行為 習(xí)慣、實(shí)驗(yàn)條件、檢查化驗(yàn)結(jié)果)去準(zhǔn)確預(yù)測疾病,而更關(guān) 注如何從 p 個(gè)因素中發(fā)現(xiàn)是哪幾種因素組合更容易導(dǎo)致疾病, 進(jìn)而可以改進(jìn)實(shí)驗(yàn)設(shè)計(jì),改進(jìn)檢查,乃至改進(jìn)預(yù)防和治療的 方案。傳統(tǒng)上統(tǒng)計(jì)學(xué)里作為因素分析( Factor Analysis )問題來研究,而數(shù)據(jù)挖掘使用的方法就更多,涉及的更廣。而 且數(shù)據(jù)挖掘也不僅僅是用來進(jìn)行變量選擇和重要性分析,可 以用樹、圖、層次聚類之類直觀的結(jié)構(gòu),描述變量之間的復(fù) 社會統(tǒng)計(jì)學(xué)家統(tǒng)計(jì)出來的許多看起來奇妙的小眾人群,用來 描述當(dāng)今的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論