機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘.ppt_第1頁
機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘.ppt_第2頁
機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘.ppt_第3頁
機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘.ppt_第4頁
機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘.ppt_第5頁
已閱讀5頁,還剩77頁未讀, 繼續(xù)免費(fèi)閱讀

VIP免費(fèi)下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘,樣本準(zhǔn)備(2),2019年7月7日,Machine Learning and Datamining,2,樣本準(zhǔn)備,對象分割 對象在文檔中可能只占很小比例 用整個(gè)文檔提取的特征含有大量噪聲 特征與特征提取 使用什么樣的特征?如何計(jì)算?如何進(jìn)行預(yù)處理? 樣本選擇 正負(fù)樣本數(shù)可能嚴(yán)重失衡(1:10,1:100) 樣本可能包含噪聲,2019年7月7日,Machine Learning and Datamining,3,特征,何為特征? In pattern recognition, features are the individual measurable heuristic properties of the phenomena being observed. In computer vision and image processing the concept of feature is used to denote a piece of information which is relevant for solving the computational task related to a certain application.,2019年7月7日,Machine Learning and Datamining,4,特征,何為特征? 特征:實(shí)體(或事物、概念)區(qū)別于其它實(shí)體(事物、概念)的獨(dú)特的屬性,特征 = 特 + 征,性質(zhì),獨(dú)特的 特殊的,有比較,才有獨(dú)特、特殊,2019年7月7日,Machine Learning and Datamining,5,特征,特征的屬性 獨(dú)特性 目標(biāo)實(shí)體和非目標(biāo)實(shí)體有不同的取值范圍 確定性特征,概率性特征 可計(jì)算性 以可接受的代價(jià)從目標(biāo)實(shí)體采集數(shù)據(jù)并計(jì)算出來 特征的成本 特征的質(zhì)量(噪聲),2019年7月7日,Machine Learning and Datamining,6,特征,特征組的屬性 完備性 可以完全區(qū)分目標(biāo)實(shí)體和非目標(biāo)實(shí)體 必要性 對區(qū)分目標(biāo)實(shí)體和非目標(biāo)實(shí)體是否必要 獨(dú)立性 特征之間是否相關(guān),2019年7月7日,Machine Learning and Datamining,7,特征,特征的種類(應(yīng)用意義上) 多媒體特征(視覺、聽覺特征) 顏色、紋理、形狀 頻率、節(jié)奏 文字/關(guān)鍵字特征 字頻、詞頻 元數(shù)據(jù)特征 目錄名、鏈接、鏈接文字、日期,2019年7月7日,Machine Learning and Datamining,8,特征提取,何為特征提?。?從原始數(shù)據(jù)計(jì)算出特征的數(shù)值(或模型) 特征提取須考慮的問題 可計(jì)算性 特征提取時(shí),數(shù)據(jù)采集往往已經(jīng)完成,特征提取不具備采用不同數(shù)據(jù)采集手段的靈活性 成本 計(jì)算復(fù)雜度,吞吐率,延遲,人力開銷 噪聲 很多多媒體特征提取準(zhǔn)確率低,2019年7月7日,Machine Learning and Datamining,9,特征提取,像素特征 直接用像素的顏色值表示特征 實(shí)現(xiàn)簡單 信息質(zhì)量差 僅包含單個(gè)像素的信息 同時(shí)包含需要的信息和不需要的噪聲 難以表示全局信息 后續(xù)分類和處理困難,2019年7月7日,Machine Learning and Datamining,10,特征提取,顏色特征 顏色是人眼非常敏感的特征 如何提取和表示顏色特征? 平均顏色 把所有像素的顏色值當(dāng)作矢量,計(jì)算所有像素的顏色矢量的算術(shù)平均,2019年7月7日,Machine Learning and Datamining,11,特征提取,顏色特征 顏色矩 如果把像素看成隨機(jī)變量,則其分布特性可以由矩來描述 一階矩(均值): 二階中心矩(標(biāo)準(zhǔn)差): 三階中心矩: 維數(shù)低,易于計(jì)算 信息量少,對噪聲敏感,2019年7月7日,Machine Learning and Datamining,12,特征提取,顏色特征 顏色直方圖 直方圖:概率密度函數(shù) 顏色:三維如何統(tǒng)計(jì)直方圖? 方法1:三維顏色直方圖 直方圖的每個(gè)槽對應(yīng)一組(R,G,B)矢量值 RGB均0255直方圖有256*256*256=16M個(gè)槽 圖像像素?cái)?shù):704*576=405K, 1920*1080=2M 統(tǒng)計(jì)直方圖需要使用較粗的量化 一般量化成16級(jí) 16*16*16=4096個(gè)槽 維數(shù)仍然很高,2019年7月7日,Machine Learning and Datamining,13,特征提取,顏色特征 顏色直方圖 方法2:三個(gè)一維直方圖 對R、G、B三個(gè)顏色分別統(tǒng)計(jì)一個(gè)直方圖 不進(jìn)一步量化:256+256+256=768維 每種顏色量化成16級(jí):16+16+16=48維 優(yōu)點(diǎn):維數(shù)大大降低 缺點(diǎn):顏色之間的相關(guān)信息丟失 在較獨(dú)立的顏色空間統(tǒng)計(jì)(如:YUV,HSI) 亮度統(tǒng)計(jì)一維直方圖,色度統(tǒng)計(jì)二維直方圖 直方圖的維數(shù)仍然較高,2019年7月7日,Machine Learning and Datamining,14,特征提取,顏色特征 聚類顏色直方圖 普通顏色直方圖不管圖像本身的顏色分布,整個(gè)顏色空間的所有顏色都是直方圖的槽 維數(shù)高 必須覆蓋整個(gè)顏色空間 精度差 對顏色空間的機(jī)械分割 為了在合理的維數(shù)內(nèi)實(shí)現(xiàn),顏色空間的劃分很粗 利用圖像本身的像素進(jìn)行聚類,用聚類中心作為直方圖的槽 不同圖像的直方圖各維沒有統(tǒng)一的物理含義,2019年7月7日,Machine Learning and Datamining,15,特征提取,紋理特征 紋理:臨近像素的變化趨勢和模式 一定尺度內(nèi)的一種分布模式 可以是固定的模式:如磚墻 可以是概率的模式:如草地 與像素的絕對顏色/亮度關(guān)系較小 與顏色/亮度差異關(guān)系大,2019年7月7日,Machine Learning and Datamining,16,特征提取,紋理特征 灰度共生矩陣 兩個(gè)有固定空間關(guān)系的像素的聯(lián)合概率密度函數(shù),空間關(guān)系,2019年7月7日,Machine Learning and Datamining,17,特征提取,紋理特征 灰度共生矩陣 超高的維數(shù) 空間關(guān)系有很多個(gè) 每個(gè)空間關(guān)系有一個(gè)二維直方圖 在這些二維直方圖上作“二次統(tǒng)計(jì)”以降低維數(shù) 角二階矩(能量)、對比度(慣性矩)、相關(guān)、熵、逆差矩等 與人類視覺對紋理的心理感知不同,2019年7月7日,Machine Learning and Datamining,18,特征提取,紋理特征 Tamura 紋理特征 依據(jù)心理視覺特性定義的紋理特征 計(jì)算準(zhǔn)確率較差,信息量較少,稀疏度 對比度 方向性 線狀性 規(guī)則性 粗糙度,2019年7月7日,Machine Learning and Datamining,19,特征提取,紋理特征 頻率域的紋理特征 紋理是“變化趨勢和模式” 在某個(gè)頻率上有突出的特征 利用頻率變換表示紋理特征 小波紋理特征 對圖像作小波變換 計(jì)算小波的一階矩和二階矩作為紋理特征,2019年7月7日,Machine Learning and Datamining,20,特征提取,紋理特征 頻率域的紋理特征 局部傅立葉變換紋理特征 在局部鄰域(3x3, 4x4, 5x5窗口)內(nèi)作傅立葉變換,用傅立葉系數(shù)作為紋理特征 Gabor變換 頻率空間中的局部區(qū)域特征,2019年7月7日,Machine Learning and Datamining,21,特征提取,紋理特征 頻率域的紋理特征 Gabor變換 頻率空間中取某個(gè)窗口內(nèi)的系數(shù)來提取特征,2019年7月7日,Machine Learning and Datamining,22,特征提取,形狀特征 面積(A)、周長(P)、質(zhì)心(O) 長度(L)、寬度(W),2019年7月7日,Machine Learning and Datamining,23,特征提取,形狀特征 矩形度:面積和最小外接矩形面積的比值 長寬比:L/W 圓度: 歐拉數(shù) 拓?fù)涮卣?難以精確提取,信息量小,2019年7月7日,Machine Learning and Datamining,24,特征提取,形狀特征 輪廓的高維特征 把輪廓坐標(biāo)轉(zhuǎn)換成一維復(fù)數(shù)序列一維復(fù)函數(shù) 可以進(jìn)行傅立葉變換,提取頻率特征 傅立葉描述子,2019年7月7日,Machine Learning and Datamining,25,特征提取,文字特征 文字的基本單位 字/字母,詞 西方文字:字母并無顯著語義 中文:“字”接近于詞 字頻 早期中文處理技術(shù)及少數(shù)簡單的中文處理應(yīng)用 詞頻及詞頻衍生特征 大多數(shù)文字處理應(yīng)用 如何獲得“詞”?,2019年7月7日,Machine Learning and Datamining,26,特征提取,分詞(Tokenlize/Lexicon) 輸入:字符串 例:“Friends, Romans, countrymen” 例:“華東師范大學(xué)” 輸出:詞(token) Friends 華東 Romans 師范 countrymen 大學(xué) 詞經(jīng)過后處理可以作為提取詞頻的依據(jù) 就這么簡單?,2019年7月7日,Machine Learning and Datamining,27,分詞,問題 Finlands capital Finland? Finlands? Finlands ? Hewlett-Packard 1個(gè)詞?2個(gè)? State-of-the-art? the hold-him-back-and-drag-him-away-maneuver? Lensemble 1個(gè)詞?2個(gè)? L ? L ? Le ?,不同的系統(tǒng)使用不同的方法,2019年7月7日,Machine Learning and Datamining,28,分詞,各種數(shù)字形式 3/12/91 Mar. 12, 1991 55 B.C. B-52 My PGP key is 324a3df234cb23e 44 +86-21-62235089,2019年7月7日,Machine Learning and Datamining,29,分詞,基本算法 正則式匹配 例:普通的英文日期 0-91,2“/” 0-91,2“/” 0-92,4 例:普通的英文單詞 a-zA-Z+ 一個(gè)西歐語言的分詞可能需要數(shù)十條正則式 使用flex或re2c可以方便地開發(fā) 英語的分詞flex程序例:請從主頁下載 練習(xí):用re2c寫一個(gè)結(jié)構(gòu)更好的英語分詞程序 不用提交,2019年7月7日,Machine Learning and Datamining,30,分詞,問題 San Francisco 1個(gè)詞?2個(gè)? San Francisco-Las Vegas 德語復(fù)合名詞不加空格 Lebensversicherungsgesellschaftsangestellter life insurance company employee 中文和日文沒有空格 “華東師范大學(xué)軟件學(xué)院”,分詞是一個(gè)大問題!,2019年7月7日,Machine Learning and Datamining,31,分詞,基于詞典的分詞,華盛頓有意見分歧,華盛頓/有/意見/分歧,2019年7月7日,Machine Learning and Datamining,32,分詞,基于詞典的分詞 “感冒清膠囊” 感冒/清/膠囊 感冒清/膠囊,感冒 感冒清 ,最大匹配原則: 匹配詞典中最長的詞,2019年7月7日,Machine Learning and Datamining,33,分詞,基于詞典的分詞 “有意見分歧” 有意/見/分歧 有/意見/分歧 “中國人民” 中國人/民 中國/人民,對中文:反向匹配準(zhǔn)確率較高,2019年7月7日,Machine Learning and Datamining,34,分詞,基于詞典的分詞 “實(shí)在感覺英雄無用武之地方能拍案而起” 實(shí)在/感覺/英雄無用武之地/方/能/拍案而起 實(shí)在/感覺/英雄/無用/武/之/地方/能/拍案而起,雙向匹配: 正反兩個(gè)方向分別分詞,選擇詞數(shù)較小的結(jié)果,優(yōu)點(diǎn):準(zhǔn)確率較高 缺點(diǎn):慢,2019年7月7日,Machine Learning and Datamining,35,分詞,基于詞典的分詞 其它語言中的應(yīng)用 日語、朝鮮語:相同算法即可 英語:識(shí)別空格分隔的詞(如:Las Vegas) 把空格分隔的每部分當(dāng)作“字”即可 德語:識(shí)別連寫的復(fù)合名詞 把字母當(dāng)作“字”即可 練習(xí):實(shí)現(xiàn)基于詞典的英語常用復(fù)詞檢測 不需要提交,2019年7月7日,Machine Learning and Datamining,36,分詞,基于詞典的分詞 如何快速查找詞典? 為詞典建立索引結(jié)構(gòu) 最簡單:二分查找 結(jié)構(gòu):排序的數(shù)組 復(fù)雜度:O(log n) 優(yōu)點(diǎn):最簡單的實(shí)現(xiàn) 缺點(diǎn):鍵插入、刪除困難,對不定長鍵效率不高 如何改進(jìn)?,2019年7月7日,Machine Learning and Datamining,37,分詞,基于詞典的分詞 二叉樹(binary-tree) 結(jié)構(gòu):二叉樹(廢話) 復(fù)雜度:O(log n) 優(yōu)點(diǎn):鍵插入、刪除較容易,對不定長鍵效率高 缺點(diǎn):大量插入刪除鍵后可能退化 按某個(gè)順序插入,則二叉樹可能退化成鏈表 如何解決?,2019年7月7日,Machine Learning and Datamining,38,分詞,基于詞典的分詞 B樹(B: balance) 結(jié)構(gòu):多叉樹 每個(gè)節(jié)點(diǎn)允許a, b個(gè)子節(jié)點(diǎn) 復(fù)雜度:O(log n) 與二叉樹一樣! 優(yōu)點(diǎn):可以一定程度上克服二叉樹退化的缺點(diǎn) 缺點(diǎn):復(fù)雜度還是較高,2019年7月7日,Machine Learning and Datamining,39,分詞,基于詞典的分詞 Hash表 Hash函數(shù):把鍵轉(zhuǎn)換成整數(shù) 相同的間轉(zhuǎn)換成相同的數(shù) 不同的鍵盡可能轉(zhuǎn)換成不同的數(shù) 把鍵放在根據(jù)鍵轉(zhuǎn)換出的整數(shù)為標(biāo)號(hào)的桶中 多個(gè)鍵映射到一個(gè)桶? 拉鏈法:用鏈表組織桶的存儲(chǔ)結(jié)構(gòu) 其它辦法:,桶(bucket),2019年7月7日,Machine Learning and Datamining,40,分詞,基于詞典的分詞 Hash表 如何設(shè)計(jì)Hash函數(shù)? 不知道! 常用:移位異或:H(X) = (x1 x2)1)x3 多少個(gè)桶? 與鍵的數(shù)量大致相當(dāng) 復(fù)雜度:O(1) 與鍵的個(gè)數(shù)無關(guān)! 前提:優(yōu)秀的Hash函數(shù),桶的個(gè)數(shù)足夠多,2019年7月7日,Machine Learning and Datamining,41,分詞,基于詞典的分詞 Hash表 缺點(diǎn) 添加大量鍵后性能可能下降(桶數(shù)量不夠了) 沖突大的桶檢索性能低 如何解決?,2019年7月7日,Machine Learning and Datamining,42,分詞,基于詞典的分詞 Trie結(jié)構(gòu)(Trie: Retrieval),2019年7月7日,Machine Learning and Datamining,43,分詞,基于詞典的分詞 Trie結(jié)構(gòu) 復(fù)雜度 以鍵為基準(zhǔn):O(1) 以字符為基準(zhǔn):O(m) 與Hash表比誰快?不知道! 優(yōu)點(diǎn) 性能與插入刪除順序無關(guān) 性能與鍵值多少基本無關(guān),2019年7月7日,Machine Learning and Datamining,44,分詞,基于詞典的分詞 Trie結(jié)構(gòu) 缺點(diǎn) 結(jié)構(gòu)較大,占用內(nèi)存大 插入刪除算法比較復(fù)雜 哪種結(jié)構(gòu)最好? 應(yīng)根據(jù)實(shí)際應(yīng)用而定 小詞典、簡單文字處理:hash表,二分查找 大詞典、大規(guī)模索引:Trie結(jié)構(gòu) 動(dòng)態(tài)詞典、經(jīng)常修改的索引:B樹,二叉樹,2019年7月7日,Machine Learning and Datamining,45,分詞,基于詞典的分詞 “華東師范大學(xué)” 1詞?3詞? 我的意見:4詞?。ㄓ肨rie結(jié)構(gòu)很容易實(shí)現(xiàn)) “中國人民萬歲” 中國人/民/萬歲 中國/人民/萬歲 新詞? 首爾,2019年7月7日,Machine Learning and Datamining,46,分詞,其它分詞技術(shù) 基于概率 可以有很復(fù)雜的模型 基于自然語言理解 更復(fù)雜 慢! 復(fù)合分詞 結(jié)合多種分詞技術(shù) 先用匹配算法,發(fā)現(xiàn)歧義再使用復(fù)雜技術(shù),2019年7月7日,Machine Learning and Datamining,47,分詞,更簡單的方法:不分詞 N-gram “中國人民” 中/國/人/民 中國/國人/人民 中國人/國人民 中國人民 優(yōu)點(diǎn):避免了分詞的難題 缺點(diǎn):處理很復(fù)雜,計(jì)算量大 可以用于小規(guī)模的系統(tǒng),全部用于計(jì)算,2019年7月7日,Machine Learning and Datamining,48,語言問題,最常用的詞是無意義的詞 a an and are as at be by for from 可以 沒有 非常 很 特別 占總詞數(shù)的40-50%! 消耗40-50%的處理時(shí)間 在特征中占據(jù)40-50%的信息 噪聲!,2019年7月7日,Machine Learning and Datamining,49,語言問題,禁用詞表(stop list) 一個(gè)最常用但是無意義的詞的詞典 不把這個(gè)詞典中的詞加入詞典 問題 Phone card to/from Germany As we may think To be or not to be,2019年7月7日,Machine Learning and Datamining,50,語言問題,禁用詞表(stop list) 作為文本特征 用較大的禁用詞表,以消除噪聲影響 早期的檢索系統(tǒng) 用較大的禁用詞表(200-300詞) 硬件能力較低 現(xiàn)代檢索系統(tǒng) 用較小的禁用詞表(20詞以內(nèi))或不用 硬件較強(qiáng) 使用針對高頻詞優(yōu)化的檢索算法 例:檢索關(guān)鍵字按詞頻排序 大型搜索引擎(Google) 使用禁用詞表,規(guī)模未知,2019年7月7日,Machine Learning and Datamining,51,語言問題,一個(gè)詞可能有不同的形式 日語有平假名、片假名、漢字、羅馬字 Accents (變音符?) rsum resume Tuebingen Tbingen,500社情報(bào)不足時(shí)間$500K(約6,000萬円),2019年7月7日,Machine Learning and Datamining,52,語言問題,變形和同義詞 U.S.A., U.S., USA, United States Windows, windows was, were, is, be 中國, 中華人民共和國 上海, 滬, 申 一月十七日 1月17日 月日 正月 臘月 廿 卅,2019年7月7日,Machine Learning and Datamining,53,語言問題,歸一化 方法1:等價(jià)類 把所有等價(jià)詞都?xì)w一化到一個(gè)等價(jià)類 索引/特征中只保留等價(jià)類 對檢索應(yīng)用,查詢關(guān)鍵字也要先轉(zhuǎn)換成等價(jià)類 簡單,高效 方法2:查詢擴(kuò)展(檢索系統(tǒng)) 把查詢關(guān)鍵字?jǐn)U展成等價(jià)類中所有詞的或 索引中保留所有詞 靈活 windows Windows, windows, window window windows, window 現(xiàn)實(shí)系統(tǒng):兩個(gè)方法同時(shí)使用,2019年7月7日,Machine Learning and Datamining,54,語言問題,構(gòu)造等價(jià)類詞典 Accents (變音符?) 基于字母的單向映射 e ue 為何不反向映射? 用戶一般輸入無accent的詞查詢 縮寫歸一化 U.S.A. USA,2019年7月7日,Machine Learning and Datamining,55,語言問題,構(gòu)造等價(jià)類詞典 小寫化(case-folding) 把所有字母轉(zhuǎn)換成小寫 US us ? C.A.T. CAT cat ? 把句子的第一個(gè)字母小寫化,把標(biāo)題中全部大寫的詞小寫化,其它詞保留原大小寫 用戶會(huì)輸入全部小寫的查詢!,2019年7月7日,Machine Learning and Datamining,56,語言問題,構(gòu)造等價(jià)類詞典 詞干(stemming) 使用簡單規(guī)則把詞尾變形部分切除 Porter算法規(guī)則示例: sses ss ies i ational ate tional tion (m1) EMENT replacement replac cement cement,2019年7月7日,Machine Learning and Datamining,57,語言問題,構(gòu)造等價(jià)類詞典 詞干(stemming) 好例子 colors color 壞例子 apples appl 非常壞的例子 operate operating operates operation operative operatives operational oper,2019年7月7日,Machine Learning and Datamining,58,語言問題,構(gòu)造等價(jià)類詞典 詞形分類?(lemmatization, lemma) 進(jìn)行自然語言處理,分析詞的變形 需要較高級(jí)的技術(shù),處理復(fù)雜 I saw her. I see her. I buy a saw. I buy a saw. 性能提升(與詞干比較) 英語檢索:很少 等價(jià)類才是檢索的關(guān)鍵 非英語檢索:有一些 特征提取/語義處理:非常有用 如果結(jié)果需要顯示給人看的話,2019年7月7日,Machine Learning and Datamining,59,語言問題,構(gòu)造等價(jià)類詞典 同義詞 car automobile 上海 滬 申 沒有好的辦法 手工或半手工構(gòu)造 一般使用查詢擴(kuò)展實(shí)現(xiàn),2019年7月7日,Machine Learning and Datamining,60,語言問題,拼寫矯正(spell correction) object pbject/ibject OCR: Dbject 方法1:編輯距離(edit distance) 把一個(gè)詞通過基本編輯操作轉(zhuǎn)變成另一個(gè)詞需要的操作個(gè)數(shù) 常用操作:插入,刪除,替換 例:cat dog 3,2019年7月7日,Machine Learning and Datamining,61,語言問題,拼寫矯正 編輯距離 詳情見:/ld.htm,=,C = 0,Cu = du+1 = 1,Cl = dl+1 = 1,Cul = dul+ c = 0,0,12345,1 2 3 4 1 2 3 4 2 1 2 3 3 2 1 2 4 3 2 1 5 4 3 2,插入L,替換U為A,2019年7月7日,Machine Learning and Datamining,62,語言問題,拼寫矯正 方法2:加權(quán)編輯距離 o i/p/l/0/D 鍵盤: o i/p/l/0 OCR: o 0/D 計(jì)算方法類似,2019年7月7日,Machine Learning and Datamining,63,語言問題,近音替換 chebyshev tchebycheff 使用拼音文字的用戶更常犯拼寫錯(cuò)誤 真心誠意 正心誠意 后一個(gè):Sogou拼音輸入法詞庫第一條 好像現(xiàn)在很多人用?,2019年7月7日,Machine Learning and Datamining,64,語言問題,近音替換 Soundex 保留首字母 后續(xù)字母轉(zhuǎn)換成數(shù)字 0: A, E, I, O, U, H, W, Y 1: B, F, P, V 2: C, G, J, K, Q, S, X, Z 3: D,T 4: L 5: M, N 6: R,2019年7月7日,Machine Learning and Datamining,65,語言問題,近音替換 Soundex 保留首字母 后續(xù)字母轉(zhuǎn)換成數(shù)字 歸并相鄰的連續(xù)數(shù)字 刪除0 末尾補(bǔ)0 返回前4個(gè)字符,Herman,H,06505,H655,000,2019年7月7日,Machine Learning and Datamining,66,語言問題,近音替換 同音詞典 中城藥/重城藥 中成藥 落花世界有風(fēng)軍 落花時(shí)節(jié)又逢君 查詢詞 拼音 查詢同音詞典 推薦 百度 特征提取中可以使用嗎? 如何使用?,2019年7月7日,Machine Learning and Datamining,67,特征提取,元數(shù)據(jù)特征 何為元數(shù)據(jù)(metadata)? Wikipedia: Metadata is “data about other data“ 元數(shù)據(jù)是描述目標(biāo)文檔/實(shí)體/對象的數(shù)據(jù) 標(biāo)題、關(guān)鍵字、分類 文件名、鏈接、日期、大小 位置、速度、亮度 鏡頭、焦距、光圈、快門速度 元數(shù)據(jù)有可能直接或間接描述文檔/實(shí)體/對象內(nèi)容 元數(shù)據(jù)無須處理即可較好地作為特征使用 元數(shù)據(jù)也可能與文檔/實(shí)體/對象內(nèi)容毫無關(guān)系,2019年7月7日,Machine Learning and Datamining,68,特征提取,元數(shù)據(jù)特征 元數(shù)據(jù)特征應(yīng)用案例1:實(shí)時(shí)交通信息 目標(biāo):實(shí)時(shí)自動(dòng)感知整個(gè)城市各道路交通狀況 直接方案:架設(shè)大量攝像頭,通過計(jì)算機(jī)視覺計(jì)算道路上車輛數(shù)量和速度 成本較高,算法難度極大,天氣不好幾乎無法使用 間接方案:在汽車上安裝GPS和通信裝置,通過GPS報(bào)告的位置速度信息反演計(jì)算 算法難度不大,實(shí)現(xiàn)精度很高,基本不受天氣影響 成本極高,大多數(shù)汽車不可控 所有出租車已經(jīng)安裝使用出租車已經(jīng)安裝的裝置,2019年7月7日,Machine Learning and Datamining,69,特征提取,元數(shù)據(jù)特征 元數(shù)據(jù)特征應(yīng)用案例2:照片分類 不同類型的照片往往使用非常不同的拍攝參數(shù),鏡頭 焦距 光圈 快門速度 閃光燈,人像,定焦頭,50-150mm,2.8,30-100/s,關(guān),70-200/4 70mm 29 1s 關(guān),瀑布,1855 20mm 4 1s 防紅眼,夜間留影,更詳細(xì)信息參考課程主頁給出的論文,2019年7月7日,Machine Learning and Datamining,70,特征提取,元數(shù)據(jù)特征 元數(shù)據(jù)特征的失敗案例 元數(shù)據(jù)特征也不是萬能的,2019年7月7日,Machine Learning and Datamining,71,特征提取,多模特征(multi-modal feature) 單一特征難以保留足夠信息 僅能保留特征所針對的信息 結(jié)合多個(gè)特征,以保留更多信息 顏色、紋理、形狀 維數(shù)顯著增加 特征降維 特征選取(Feature Selection),2019年7月7日,Machine Learning and Datamining,72,樣本準(zhǔn)備,對象分割 對象在文檔中可能只占很小比例 用整個(gè)文檔提取的特征含有大量噪聲 特征與特征提取 使用什么樣的特征?如何計(jì)算?如何進(jìn)行預(yù)處理? 樣本選擇 正負(fù)樣本數(shù)可能嚴(yán)重失衡(1:10,1:100) 樣本可能包含噪聲,2019年7月7日,Machine Learning and Datamining,73,樣本選擇,訓(xùn)練樣本分布往往失衡(skewed) 正樣本通常是少數(shù) 負(fù)樣本占絕大多數(shù) 負(fù)樣本獲取成本低 各種計(jì)算機(jī)視覺應(yīng)用 正樣本本身比例小 疾病、變異、異常,CYT 463 NUC 429 MIT 244 ME3 163 ME2 51 ME1 44 EXC 37 VAC 30 POX 20 ERL 5,UCI yeast,UCI Balance Scale,balance 49 left 288 right 288,UCI Annealing,1 8 2 88 3 608 4 0 5 60 U 34,2019年7月7日,Machine Learning and Datamining,74,樣本選擇,失衡的訓(xùn)練樣本導(dǎo)致訓(xùn)練困難 例:正負(fù)樣本1:99 把全部樣本分類為負(fù)樣本分類“準(zhǔn)確率”99% 完全沒有應(yīng)用價(jià)值的分類器! 機(jī)器學(xué)習(xí)算法的假設(shè) 訓(xùn)練樣本的分布正確地刻畫了正負(fù)樣本在現(xiàn)實(shí)世界的分布特性 所有樣本分類錯(cuò)誤的代價(jià)相同 失衡訓(xùn)練樣本的學(xué)習(xí)困難,2019年7月7日,Machine Learning and Datamining,75,樣本選擇,有關(guān)失衡樣本方面的研究 AAAI-2000 Worksh

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論