版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
人工智能和認知物理學ArtificialIntelligenceandCognitivePhysics李德毅ziqin@11月25日第1頁1認知科學——研究人類怎樣獲取知識和使用知識
數(shù)據(jù)挖掘——讓機器模擬人智能從數(shù)據(jù)中發(fā)覺知識第2頁2目錄人工智能50年發(fā)展回顧20世紀物理學成就不確定性認知原子模型數(shù)據(jù)場和勢函數(shù)認知場中知識發(fā)覺第3頁3一、人工智能50年發(fā)展回顧人工智能興起智能判定標準人工智能研究不一樣切入點人工智能研究目標第4頁4人工智能自誕生之日起就引發(fā)人們無限漂亮想象和憧憬;已經(jīng)成為學科交叉發(fā)展中一盞明燈,光芒四射;但其理論起伏跌宕,也存在爭議和誤解。第5頁5人工智能興起數(shù)學家和邏輯學家;認知學家和心理學家;神經(jīng)生理學家;計算機科學家1956年著名“達特茅斯(Dartmouth)會議”標志人工智能學科誕生,它從一開始就是交叉學科產(chǎn)物。與會者有:
第6頁6人工智能興起達特茅斯會議上,明斯基(MarvinMinsky)神經(jīng)網(wǎng)絡模擬器、麥卡錫(JohnMccarthy)搜索法、以及西蒙(HerbertSimon)和紐厄爾(AllenNewell)“邏輯理論家”是會議3個亮點。分別討論怎樣穿過迷宮,怎樣搜索推理和怎樣證實數(shù)學定理。這是早期人們期待人工智能。第7頁7人工智能經(jīng)典著作由費根鮑姆主編《ComputersandThought》被認為是世界上第一本人工智能經(jīng)典專著,含21篇著名論文,1963年出版。80年代出版1-4卷《TheHandbookofArtificialIntelligence》是人工智能杠鼎之作。第8頁8人工智能研究出色人物20世紀40位圖靈獎取得者中有6名人工智能學者,可見人工智能學科影響之深遠。
1969年:馬文·明斯基1971年:約翰·麥卡錫1975年:赫伯特·西蒙和艾倫·紐厄爾1994年:愛德華·費根鮑姆和勞伊·雷迪第9頁9智能判定標準圖靈(Turing)測試:假如機器在與人隔離房間回答人提出問題,且人無法判斷回答下列問題是機器還是人時,則應該認為機器已經(jīng)具備人智能。第10頁10猴子摘香蕉第11頁11梵塔游戲
初始柱替換柱目柱第12頁12計算機下棋:1997年IBM“深藍”計算機以2勝3平1負戰(zhàn)績戰(zhàn)勝國際象棋冠軍卡斯帕羅夫,“深藍”計算速度為200萬棋步/秒,采取啟發(fā)式搜索方法;在與下棋領域含有類似性質(zhì)和類似復雜性問題上,計算機具備有智能。第13頁13計算機下棋:卡斯帕羅夫自1990年稱霸國際象棋棋壇,年舉行國際世界象棋冠軍比賽中,克拉莫尼克以8:6領先卡斯帕羅夫?!吧钏{”計算機能否打敗克拉莫尼克?也就是說,“深藍”計算機智能能否“與時俱進”?第14頁14追求智能三步曲1)??!真了不起!2)??!是這么??!3)??!這也算智能嗎?4)又回到第一步。
第15頁15人工智能研究對象不確定非線性不完全變結(jié)構(gòu)多變量分布式第16頁16人工智能應用人工智能實際應用越來越普遍。智能機器人、智能控制、智能網(wǎng)絡、智能手機、智能數(shù)據(jù)庫、智能管理、智能小區(qū)、智能交通、甚至智能經(jīng)濟等等不絕于耳,知識就是力量。第17頁17人工智能研究切入點先后出現(xiàn)了3個主流學派:符號主義方法--邏輯學派聯(lián)結(jié)主義方法--仿生學派行為主義方法--控制論學派
第18頁18符號主義學派(西蒙和紐厄爾為代表)物理符號系統(tǒng)假說(physicalsymbolsystemhypothesis)。由一組稱為符號實體組成系統(tǒng),這些符號可作為組份出現(xiàn)在另一符號實體中。任何時候系統(tǒng)內(nèi)部都有一組符號結(jié)構(gòu),以及作用在這些符號結(jié)構(gòu)上生成其它符號結(jié)構(gòu)一組過程。任一物理符號系統(tǒng)假如是有智能,則必能執(zhí)行對符號輸入、輸出、存放、復制、條件轉(zhuǎn)移和建立符號結(jié)構(gòu)這么6種操作。反之,能執(zhí)行這6種操作任何系統(tǒng),也就一定能夠表現(xiàn)出智能。第19頁19符號主義學派認知基元是符號,智能行為經(jīng)過符號操作來實現(xiàn),以美國科學家Robinson提出歸結(jié)原理為基礎,以Lisp和Prolog語言為代表;著重問題求解中啟發(fā)式搜索和推理過程,在邏輯思維模擬方面取得成功,如自動定理證實和教授系統(tǒng);歸結(jié)原理不可能成為全部數(shù)學分支證實基礎,問題求解和邏輯推理本質(zhì)僅僅是演譯。第20頁20聯(lián)結(jié)主義學派(J.J.Hopfield為代表)人思維基元是神經(jīng)元,把智能了解為相互聯(lián)結(jié)神經(jīng)元競爭與協(xié)作結(jié)果,以人工神經(jīng)網(wǎng)絡為代表,其中,反向傳輸網(wǎng)絡模型(BP)和Hopfield網(wǎng)絡模型更為突出;著重結(jié)構(gòu)模擬,研究神經(jīng)元特征、神經(jīng)元網(wǎng)絡拓樸、學習規(guī)則、網(wǎng)絡非線性動力學性質(zhì)和自適應協(xié)同行為。第21頁21遺傳算法和進化計算:1975年,JohnHolland提出遺傳算法(GeneticAlgorithm),模仿生物染色體中基因選擇(selection)、交叉(crossover)和變異(mutation)自然進化過程,經(jīng)過個體結(jié)構(gòu)重組,形成一代代新群體(populations),最終收斂于近似優(yōu)化解。用于處理多變量、非線性、不確定、甚至混沌大搜索空間有約束優(yōu)化問題;第22頁22麻將原理:剛發(fā)到手牌就“和”了概率是非常非常小。不論開始手中牌有多壞,經(jīng)過一次次摸牌、選擇、淘汰,能夠逐步迫近到最優(yōu)解。這相當進化中變異和選擇原理。麻將魅力在于能夠在容忍時間內(nèi)讓牌“和”了。遺傳算法和進化計算收斂性問題。第23頁23行為主義學派(R.A.Brooks為代表)控制論研究造成機器人和智能控制,機器人是“感知--行為”模式,是沒有知識智能(iwk,iwr),強調(diào)直覺和反饋主要性;智能行為表達在系統(tǒng)與環(huán)境交互之中,功效、結(jié)構(gòu)和智能行為不可分割。90年代起智能Agent成為新熱點。它是一個自治、含有自發(fā)行為、表達交互性和環(huán)境適應性新型智能機模型,含有移動性、推理、規(guī)劃、學習和適應能力。第24頁24行為主義學派反饋是控制論基石,沒有反饋就沒有智能。依據(jù)目標與實際行為之間誤差來消除此誤差控制策略。PID控制是控制論對付不確定性最基本伎倆。強調(diào)智能系統(tǒng)與環(huán)境交互,從運行環(huán)境中獲取信息(感知),經(jīng)過自己動作對環(huán)境施加影響。第25頁25當前,以實際問題驅(qū)動人工智能研究成為主流。人工智能不再是陽春白雪,尤其是數(shù)據(jù)挖掘技術,要以機器再現(xiàn)人類認識過程方式,為認知科學提供了一個新實體模型和實在形式。第26頁26研究熱點模式識別智能檢索教授系統(tǒng)自然語言了解知識工程數(shù)據(jù)挖掘智能控制智能機器人第27頁27人工智能三次大躍進第一次:智能系統(tǒng)代替人完成部分邏輯推理工作,如教授系統(tǒng)。
第二次:智能系統(tǒng)能夠和環(huán)境交互,從運行環(huán)境中獲取信息,代替人完成包含不確定性在內(nèi)部分思維工作,經(jīng)過本身動作,對環(huán)境施加影響,并適應環(huán)境改變。如智能機器人。
第三次:智能系統(tǒng)含有類人認知和思維能力,能夠發(fā)覺新知識,去完成面臨任務,如基于數(shù)據(jù)挖掘系統(tǒng)。第28頁28人工智能目標:程序==智能?計算==思維?計算機==電腦?目標:以機器方式再現(xiàn)人智能第29頁29二、20世紀物理學成就物質(zhì)層次結(jié)構(gòu)和原子物理模型場理論和四種相互作用第30頁30物質(zhì)層次結(jié)構(gòu)和原子物理模型能夠把物質(zhì)組成層次看成一個個等級,眼前物體看成是宏觀,天體看成是宇觀,把分子和原子作為界標,比它們小物質(zhì)能夠稱之為微觀。原子這個層次十分主要。原子模型提出與演進,從開爾文模型、湯姆孫模型、勒納德模型、長岡模型、尼克爾森模型直到盧瑟福原子有核結(jié)構(gòu)模型,以及原子核模型,都表明構(gòu)思物質(zhì)組成模型是一個普遍有效科學方法。原子物理模型成為人類認識世界五個里程碑之一。第31頁31物理學中勢場場可視為一個充滿能量空間。比如,將一個位于無窮遠處電荷移至電場中需要消耗能量。場在某點P(r)處單位作功效力被稱為該點勢,記為(r)。勢函數(shù)(r)是一個關于場點位置標量函數(shù),它在場空間中組成一個標量場,即勢場。第32頁32梯度、散度與旋度梯度是描述標量場改變特征矢量函數(shù),它能夠?qū)⒁粋€標量場轉(zhuǎn)換為矢量場,也能夠經(jīng)過引入一個輔助標量函數(shù)來分析簡化矢量場。散度、旋度是描述矢量場兩個固有特征:源密度和旋渦密度物理量。在最普通情況下,一個矢量場總能夠被看作由一個有源場和一個旋渦場疊合組成,如電磁場。所以一個含義不明矢量場只有當搞清它兩個分量各自貢獻和物理本質(zhì)后,即已知它散度和旋度后才算明確。第33頁33梯度場與旋度場、散度場梯度場=有勢場=有源場=保守場=無旋場第34頁34電場和引力場勢函數(shù)電場勢函數(shù)引力場勢函數(shù)從靜電場和引力場勢函數(shù)計算中能夠發(fā)覺,兩種場物理機制即使各不相同,但在數(shù)學形態(tài)上卻非常相同,即空間區(qū)域中不一樣物質(zhì)粒子相互作用數(shù)學本質(zhì)是相同或相近。第35頁35物理學中四種相互作用牛頓萬有引力定律(引力反比于距離平方)認為在多質(zhì)點系中存在兩兩相互作用引力場和引力勢能。庫倫定律(電力反比于距離平方)認為電荷之間經(jīng)過電場相互作用,用電場線和等勢線可使電場分布形象化。含有相等電勢點組成等勢面。第36頁36物理學中四種相互作用核物理認為,核子之間、核子與介子之間,經(jīng)過夸克間交換膠子實現(xiàn)強相互作用。這就是力程甚短核力。按照普適費米理論,弱相互作用是一個點作用,不包括到任何場。以后人們發(fā)覺這一觀點有問題。1984年若貝爾獎被授予魯比亞(CarloRubbia)和范得米爾(SimonVanderMeer)以表彰他們發(fā)覺弱作用場量子W+ˉ和Z出色貢獻。第37頁37物理學大統(tǒng)一理論假如以強相互作用強度為1話,電磁相互作用強度,其值約為10-2;弱相互作用約為10-13∽10-19;引力相互作用最弱,約為10-39。物理學家一直企圖將這四種相互作用進行統(tǒng)一。愛因斯坦努力了,沒有取得結(jié)果。真正取得進展是量子場論。量子電動力學解釋了電磁相互作用;量子色動力學解釋了強相互作用,又將弱相互作用與電磁相互作用進行統(tǒng)一,即溫伯格-薩拉姆電弱統(tǒng)一理論。大統(tǒng)一理論到現(xiàn)在還缺乏試驗驗證。第38頁38三、不確定性認知原子模型
人類思維基本單元云模型及其數(shù)字特征正向云發(fā)生器和逆向云發(fā)生器連續(xù)數(shù)據(jù)離散化(概念化)概念粒度、概念空間和泛概念樹第39頁39人類思維活動層次性生命科學可還原成不一樣層次:如腦生物化學層次和神經(jīng)結(jié)構(gòu)層次。認知活動可能對應著一定生理上化學、電學改變。不過,當前生命科學還不能在思維活動與亞細胞化學、電學層次活動建立確切關系。如:一個概念怎樣以生物學形式存放,它與其它概念發(fā)生聯(lián)絡生物學過程是什么。也不能決定什么樣神經(jīng)結(jié)構(gòu)能夠決定著哪些認知模式發(fā)生。第40頁40人類思維活動層次性當前從腦生物化學層次和神經(jīng)結(jié)構(gòu)層次研究認知活動還有困難。再說,如同我們不能從最基礎硅芯片活動來推測計算機網(wǎng)絡上電子郵件行為一樣,我們又怎么能夠構(gòu)想從分析單個離子、神經(jīng)元、突觸性質(zhì)就能夠推斷人腦認知和思維活動呢?系統(tǒng)論關于系統(tǒng)整體特征不是由低層元素加和而成原理對還原論提出質(zhì)疑。所以,人工智能研究當前需要找到一個適當層次和單元,向上模擬人類認知和思維活動。第41頁41人類思維活動工具自然語言使人類取得一個強有力思維工具,這是不爭事實,起到展現(xiàn)和保留思維對象及組織思維過程作用。它是其它各種形式化系統(tǒng)(語言)基礎,派生出像計算機語言這么特殊語言,也派生出包含各種專業(yè)理論專門化語言,如數(shù)學語言。這些符號組成形式系統(tǒng),又成為新一級形式化。第42頁42數(shù)學漢語
外語
自然語言符號語言自然語言和符號語言第43頁43人類思維活動工具自然語言中語言值表示概念,最基本語言值代表最基本概念,成為思維原子模型。同時,概念含有層次性。第44頁44概念—人類思維基本單元客觀世界包括物理對象,主觀世界從認知單元和它指向物理對象開始,反應了主客觀內(nèi)外聯(lián)絡特征。任何思維活動都是指向一定對象,經(jīng)過對象存在到主觀意識本身存在。概念作為外部事物在主觀認知中對應物成為思維活動基本單元。不過概念不是孤立,它同外部背景有著種種聯(lián)絡,是演變和流動過程。所以,概念必定含有不確定性,甚至包含盲目性和散漫性。第45頁45概念形成:學習和記憶標準特征是概念一個組成部分,是用來確認某一詳細樣例屬于該類別必要或充分條件。原型在概念中占有尤其地位。含糊邊界和不清楚樣例是概念普遍情況。在一個概括性更高而詳細性更低組織水平上,下位概念作為一個樣例被使用,形成基本水平、下位水平和上位水平層次結(jié)構(gòu)(basiclever/subordinatelevel/superordinatelever)。概念形成是屢次重復學習和記憶過程。第46頁46困擾人工智能認知模型怎樣表示用自然語言表述定性知識?怎樣反應自然語言中不確定性,尤其是含糊性和隨機性?怎樣實現(xiàn)定性和定量知識之間相互轉(zhuǎn)換?怎樣表達語言思索中軟推理能力?第47頁47知識表示人工智能要以機器為載體模仿以人腦為載體人思維活動——智能,必須找到在人腦和機器兩種載體之間建立聯(lián)絡伎倆,而這個任務正是由形式化來擔當。知識表示形式化在人工智能中居于方法論主要地位。第48頁48認知模型(CognitiveModeling) 云由許許多多云滴組成,每一個云滴就是這個定性概念映射到數(shù)域空間一個點,即一次反應量樣例實現(xiàn)。這種實現(xiàn)帶有不確定性,模型同時給出這個點能夠代表該定性概念確實定程度。第49頁49云圖可視化方法一給出云滴在數(shù)域(一維、二維或多維)位置,用一個點表示一個云滴;同時,用該點輝度表示出這個云滴能夠代表概念確實定度。第50頁50
“靠近坐標原點左右”10000個量化云滴。任何一個云滴都能夠在一定程度上代表這個概念。第51頁51云圖可視化方法二用數(shù)域里一個圈或球表示一個云滴,其中心反應云滴在數(shù)域位置;同時,圈或球大小表示出這個云滴能夠代表概念確實定度。第52頁52-3-2-1123-3-2-1123
“靠近坐標點左右”200個量化云滴。任何一個云滴都能夠在一定程度上代表這個概念。第53頁53云圖可視化方法三用N+1維表示,N維空間點表示云滴在數(shù)域位置,另一維表示這個云滴能夠代表概念確實定度。第54頁54不同數(shù)值代表語言值“20km左右”確定程度第55頁55不一樣數(shù)值代表平面上點“靠近中心”確實定程度第56頁56期望值:在數(shù)域空間最能夠代表這個定性概念點,反應了云滴群重心位置。云數(shù)字特征雙重性ExEnHe熵一方面反映了在數(shù)域空間可被概念接收范圍,即含糊度,是定性概念亦此亦彼性度量;其次還反映了在數(shù)域空間點能夠代表這個概念概率,表示定性概念云滴出現(xiàn)隨機性。熵揭示了含糊性和隨機性關聯(lián)性。超熵是熵不確定度量,即熵熵,反應了在數(shù)域空間代表該語言值全部點不確定度凝聚性,即云滴凝聚度。第57頁57正態(tài)云發(fā)生器實現(xiàn)算法1.生成以En為期望值,He為方差一個正態(tài)隨機數(shù)En’;2.生成以Ex為期望值,En’為方差一個正態(tài)隨機數(shù)x;3.計算4.使(x,y)成為論域中一個云滴;5.重復步驟1~4直至要求數(shù)目標云滴產(chǎn)生。第58頁58逆向云發(fā)生器算法1由Ex=求得Ex;2對每一對(xi,yi),由求出Eni;3由En=求得En;4求Eni均方差得到He;第59頁59云模型各種形態(tài)正態(tài)云云其它多維云第60頁60例子:射擊評判射手乙射手甲射手丙評判人員:統(tǒng)計學家、含糊學家、云理論研究者第61頁61射擊評判統(tǒng)計學家用概率值表示射擊效果;含糊學家用隸屬度表示射擊效果;裁判用總環(huán)數(shù)(含糊+統(tǒng)計)表示射擊效果;人們用定性語言評價射擊效果,云方法用3個數(shù)字特征表示定性概念。第62頁62云評價方法略偏左上,比較離散,不穩(wěn)定略偏右下,射點集中,較穩(wěn)定射點靠近靶心,比較離散,不穩(wěn)定第63頁63原始靶標還原10發(fā)彈著點還原100發(fā)彈著點第64頁64誤解:云方法是含糊方法╳
云方法沒有僅僅停留在哲學上思辯,也不能簡單地說是概率方法或含糊方法,經(jīng)過云模型實現(xiàn)定性概念和定量數(shù)據(jù)之間轉(zhuǎn)換是一個十分嚴格數(shù)學方法,使得定性和定量之間轉(zhuǎn)換變得十分清楚、詳細和可操作,同時又反應了轉(zhuǎn)換過程不確定性。第65頁65連續(xù)數(shù)據(jù)離散化對連續(xù)數(shù)據(jù),首先求得各數(shù)據(jù)點頻數(shù),對其分布進行云變換,使之成為若干個大小不一樣云疊加,每個云代表一個離散、定性概念。數(shù)據(jù)轉(zhuǎn)換為概念。第66頁66原始數(shù)據(jù)分布擬合結(jié)果云變換連續(xù)數(shù)據(jù)離散化:云變換第67頁67概念粒度在人意識活動中,思維推進是與概念轉(zhuǎn)移和提升相聯(lián)絡。轉(zhuǎn)移和提升跨度和路徑也是多樣,我們能夠把在一定層次上思維模式看作是為原始思維活動拍攝一張快照。反應概念對應客觀事物粒度。概念粒度能夠用云模型中熵度量。第68頁68概念空間概念空間是指同一類概念數(shù)域。比如,當討論語言變量—年紀這個范圍內(nèi)不一樣語言值時,如10歲左右、少年、青少年、中年、晚年等等概念,經(jīng)常要明確它們在數(shù)域上所表現(xiàn)出內(nèi)涵和外延,以及相互之間等價(相同)關系或隸屬(包含)關系。所以,不一樣信息粒度之間概念在概念空間會形成層次結(jié)構(gòu)。第69頁69概念層次結(jié)構(gòu)當討論語言變量—年紀這個范圍內(nèi)不一樣語言值(概念)時,經(jīng)常要明確這些概念是大約念還是小概念,粗概念還是細概念,以及相互之間等價(相同)關系或隸屬(包含)關系。所以,不一樣信息粒度之間概念在概念空間會形成層次結(jié)構(gòu),或者說是泛概念樹結(jié)構(gòu)。第70頁70不一樣年紀人泛概念樹少年未成年人幼兒青年中年嬰幼兒兒童小學生中青年中學生大學生全部成年人青壯年老年…...第71頁71用云表示泛概念樹微觀層中觀層宏觀層年紀第72頁72泛概念樹可動態(tài)生成不一樣層次概念表達了定性概念隨機性和含糊性表達不一樣層次概念間多隸屬關系反應了數(shù)據(jù)實際分布情況泛概念樹爬升和跳躍第73頁73四、數(shù)據(jù)場和勢函數(shù)
客體間相互作用和數(shù)據(jù)場勢函數(shù)及其確定準則用數(shù)據(jù)場思想進行特征提取和模式識別第74頁74數(shù)據(jù)場引入學科交叉滲透是當前科學發(fā)展總趨勢,對客觀世界認識和描述,不論是力學、熱物理、電磁學和近代物理,從粒子到宇宙在不一樣尺度上都有場作用。那么,人本身認知和思維過程,從數(shù)據(jù)到信息到知識,是否也能夠用場來描述?第75頁75物理場舉例在一個質(zhì)量為M質(zhì)點產(chǎn)生引力場中,任一場點r處勢能夠描述為:假如空間中存在多個質(zhì)點,則r處勢等于每個質(zhì)點單獨產(chǎn)生勢疊加,即第76頁76數(shù)據(jù)與數(shù)據(jù)場受物理場啟發(fā),可將物質(zhì)粒子間相互作用及其場描述方法擴展至抽象數(shù)據(jù)空間。數(shù)據(jù)空間中每個對象都相當于一個質(zhì)點或核子,在其周圍產(chǎn)生一個球形對稱作用場,位于場內(nèi)全部對象都將受到其它對象聯(lián)合作用,從而在整個數(shù)據(jù)空間上形成一個場,我們稱之為數(shù)據(jù)場。正如引力場、核力場能夠用勢函數(shù)描述,我們也引入勢函數(shù)來描述數(shù)據(jù)場性質(zhì)。第77頁77確定勢函數(shù)形態(tài)準則勢函數(shù)含有各向同性,即對稱性;勢函數(shù)是定義在數(shù)域空間上連續(xù)函數(shù);勢函數(shù)值隨離開場源距離增大而下降;表示勢函數(shù)連續(xù)函數(shù),應該光滑,即可微。第78頁78可選勢函數(shù)形態(tài)擬引力場勢函數(shù):擬核力場勢函數(shù):其中,為以場源坐標為原點時場點徑向半徑;參數(shù)k為一個正整數(shù),用于調(diào)整勢函數(shù)衰減特征;參數(shù)b∈(0,+∞),用于控制對象作用范圍,稱為影響因子;參數(shù)a相當于質(zhì)點或核子質(zhì)量代表數(shù)據(jù)場強度。
第79頁79兩種勢函數(shù)形態(tài)比較擬引力場勢函數(shù)擬核力場勢函數(shù)第80頁80數(shù)據(jù)場勢函數(shù)定義已知數(shù)據(jù)空間中對象集及其產(chǎn)生數(shù)據(jù)場,則任一場點y處勢函數(shù)能夠定義為全部對象在該點處產(chǎn)生單位勢值疊加:
其中,為場點y與對象xi間距離;第81頁81數(shù)據(jù)場可視化二維數(shù)據(jù)空間中一個數(shù)據(jù)集及其產(chǎn)生數(shù)據(jù)場等勢線圖第82頁82數(shù)據(jù)場擴展自然語言中基本語言值是定性概念,因為每個定性概念都能夠用一個數(shù)值型集合來表示其內(nèi)涵和外延,即對應著一個定量數(shù)據(jù)子空間,稱為概念空間。概念和概念之間也能夠經(jīng)過場相互作用,形成概念間泛層次樹,又稱上、下位詞表。人類思維過程中對象,對應著一個定量數(shù)據(jù)空間,反應對象多個屬性,稱為特征空間。對象和對象之間也經(jīng)過場相互作用,形成知識。概念空間和特征空間中場統(tǒng)稱為數(shù)據(jù)場。第83頁83我們將云滴確實定度視為場源質(zhì)量,顯然,確定度高云滴含有較強作用場。右圖中每個云滴位置坐標和確定度為:A(10,12,0.6)B(10,10,1)C(13,11,0.3)8910111213141589101112131415ABC不一樣確定度三個云滴形成數(shù)據(jù)場等勢線圖第84頁84用數(shù)據(jù)場思想進行特征提取和模式識別第85頁85ABCDEFGHIJ預處理后人臉圖像每幅圖象原始尺寸為256x256個像素點,256級灰度第86頁86灰度數(shù)據(jù)集映射成為數(shù)據(jù)場及勢局部極值ABCDEFGHIJ第87頁878.6917308.41101913.612820J11.80192811.14101913.912718I12.45182911.8391814.082716H11.71182912.66101913.202619G10.96182812.80101913.142619F11.92182912.39101913.052619E11.25183012.05101812.812618D11.10182912.55101912.692619C10.92182911.88101913.292519B11.21193012.13101912.632619AVPYXVPYXVPYXThethirdfeatureThesecondfeatureThefirstfeatureNamefeature數(shù)據(jù)場極值成為邏輯特征第88頁88二次生成數(shù)據(jù)場進行模式識別Ifwepickupanextremelocalmaximumpotentialvalueanditspositionasthemostimportantfeatureforeachfaceimage,thefacialfeaturedatafieldforthetenfaceimagesmaybe,onceagain,illustratedbyanewisopotentiallines.第89頁89Faceidentificationwiththefirstfeature
ABCDEFGHIJ第90頁90IsopotentiallinesshowthesimilaritiesandoutliersforthetenimagesACEFGBDIHJABCDEFGHIJ第91頁91FaceRecognitionusingFacialMainFeatureDataFieldWemayalsopickupNlocalmaximumpotentialvaluesandtheirpositionsasthemainfeaturesforeachfacepicture,themainfeaturedataarecalculatedbyThemainfeaturedatafieldforthetenfacepictureisillustratedonceagainbyequalpotentiallines.and第92頁92用多個特征值融合后識別結(jié)果ABCDEFGHIJ第93頁93Faceidentification:discoveringsimilaritiesanddiscriminationBCGEDFAHIJABCDEFGHIJ第94頁94用數(shù)據(jù)場方法看IRIS數(shù)據(jù)分類第95頁95IRIS原始數(shù)據(jù)集6.9Virginica6.0Virginica…………Virginica6.7Virginica6.8Virginica…………Versicolour6.9Versicolour6.4Versicolour7.0Versicolour…………Setosa
5.0Setosa
4.7Setosa
4.9Setosa
5.1Setosa
花片寬度花瓣長度萼片寬度萼片長度類型第96頁96數(shù)據(jù)預處理對iris數(shù)據(jù)中萼片屬性和花瓣屬性分別做降維處理,得到新屬性:花瓣張角=arctg(花瓣寬度/花瓣長度);萼片張角=arctg(萼片寬度/萼片長度);第97頁97處理后數(shù)據(jù)集0.33930.4704Virginica0.40270.5016Virginica……Virginica0.41330.4577Virginica0.37170.4398Virginica……Versicolour0.29710.4223Versicolour0.32180.4636Versicolour0.28950.4288Versicolour……Setosa0.13260.5930Setosa0.15260.5978Setosa
0.14190.5494Setosa
0.14190.6015Setosa
花瓣張角萼片張角類型第98頁98預處理后數(shù)據(jù)分布第99頁99從數(shù)據(jù)場平面分布看分類結(jié)果第100頁100從數(shù)據(jù)場立體分布看分類結(jié)果12.376019.00029.99463.4336第101頁101五、認知場中知識發(fā)覺
數(shù)據(jù)挖掘與知識發(fā)覺發(fā)覺實狀況態(tài)空間類譜圖第102頁102數(shù)據(jù)挖掘與知識發(fā)覺
DataMiningandKnowledgeDiscovery從大量、不完全、有噪聲、含糊、隨機實際應用數(shù)據(jù)中,提取隱含在其中、人們事先不知道、但又是潛在有用信息和知識過程。第103頁103從數(shù)據(jù)中發(fā)覺知識難點大量甚至海量數(shù)據(jù)中,存在有數(shù)據(jù)誤差、畸變、丟失或過分重合,以歸納為主知識發(fā)覺過程,實際上是建立在或多或少病態(tài)數(shù)據(jù)之上;由種種案例數(shù)據(jù)反推對象性質(zhì)可認為是逆向思維,人們在命題、方法或結(jié)果三個方面會取得更多目標選擇。第104頁104數(shù)據(jù)挖掘數(shù)據(jù)選擇預處理挖掘和發(fā)覺知識解釋和驗證第105頁SelectionPreprocessingTransformationDataMiningInterpretation/EvaluationTragetDataProcessedDataTransformedDataPatternsKnowledgeDMKD系統(tǒng)基本組成第106頁106發(fā)覺什么樣知識?關聯(lián)知識聚類知識序列知識
分類知識預測知識相同時間序列第107頁數(shù)據(jù)挖掘工具歸納演繹聯(lián)想類比證偽第108頁數(shù)據(jù)挖掘與知識發(fā)覺
DataMiningandKnowledgeDiscovery特定問題或特定環(huán)境下數(shù)據(jù),是一個原始、混亂、不成形自然狀態(tài)積累,但又是一個能夠從中生長出秩序和規(guī)則源泉。怎樣透過表觀上千頭萬緒、混亂無規(guī),去挖掘蘊含其中規(guī)則性、有序性、相關性和離群性,這就是知識發(fā)覺。第109頁109DMKD本質(zhì)什么是數(shù)據(jù)?什么是信息?什么是知識?本質(zhì)是歸納,是由微觀到中觀到宏觀抽象.瓶頸是數(shù)據(jù)、信息和知識表示不確定性問題.第110頁110發(fā)覺實狀況態(tài)空間抽象程度AMTO第111頁111發(fā)覺實狀況態(tài)空間特征空間對象經(jīng)過場發(fā)生相互作用。如同物理學中粒子之間經(jīng)過場(場量子)形成強力、電磁力、弱力或引力相互作用一樣。對象在特征空間相互作用形成場結(jié)構(gòu)反應了對象普遍知識(廣義知識)。伴隨描述對象粒度(熵)越來越大,形成普遍知識越來越宏觀。發(fā)覺了知識上升到抽象級別更高層次。20世紀物理學發(fā)展是簡化歸納。數(shù)據(jù)挖掘本質(zhì)也是簡化歸納。第112頁112人類認知過程是對復雜對象關系中觀、宏觀知識發(fā)覺過程,是對象所在特征空間微觀數(shù)據(jù)經(jīng)過用自然語言表述不一樣抽象度概念非線性相互作用下涌現(xiàn)(突現(xiàn))自組織特征。第113頁113發(fā)覺實狀況態(tài)空間==(特征空間|概念粒度)
第114頁114數(shù)據(jù)挖掘過程,實際上是從不一樣抽象度上認識數(shù)據(jù)。所謂微觀、中觀、宏觀,就是可視化稱謂。所以,數(shù)據(jù)挖掘需要各級視圖支持。第115頁115伴隨抽象度提升:描述每個屬性中概念粒度越來越大;特征空間對象之間關系越來越普遍;發(fā)覺知識逐步由微觀走向中觀、宏觀;整個歸納過程形成發(fā)覺實狀況態(tài)空間不停轉(zhuǎn)換。第116頁116對象屬性選取形成不一樣視圖,好比是從不一樣角度投射到客體不一樣光柱,它們各有所見不及之處,但也各自照亮了不一樣景象。第117頁117從不一樣距離觀察客體群,各有所見之景象。經(jīng)過推拉鏡頭,能夠改變觀察距離,形成不一樣粒度視圖。第118頁118特征空間當我們討論一個客體(對象、事物、案例、記錄等)具有不一樣屬性或特征時,經(jīng)常用特征空間作為討論問題范圍,N個屬性或特征,組成N維空間。這時,這個客體成為特征空間一個點。特征空間任何一點勢可認為是全部客體在這一點勢疊加。第119頁119特征空間聚類和類譜圖當我們進行數(shù)據(jù)挖掘時,將數(shù)據(jù)庫中一條統(tǒng)計按照其N個屬性,把這條統(tǒng)計映射到特征空間中一個特定點上,成千上萬統(tǒng)計在特征空間是成千上萬個點,整體上展現(xiàn)出抱團特征,能夠經(jīng)過嵌套等勢線(面)--自然拓撲結(jié)構(gòu),形成自然聚類和類譜圖。第120頁120分類和聚類研究基礎性分類和聚類,乃是人類社會活動、生產(chǎn)活動以及科研活動中最基本、最主要活動之一。分類和聚類研究基礎性決定了其應用普遍性。第121頁121場方法發(fā)覺聚類知識姓名工齡(月)工資(千元)A3030B5030C4070D6070E7050第122頁122304050607080工齡304050607080工資ABCDE特征空間5個對象自然聚類第123頁1235個對象組成泛類譜系圖ABCDE第124頁124特征空間3000個對象自然聚類
ABC304050607080工齡304050607080工資ABCDE第125頁125和傳統(tǒng)聚類方法比較:通常,人們用N個客體中N1個樣本作為訓練集去形成聚類結(jié)果,用N-N1個樣本作為測試集去驗證聚類效果。實際上,這就宣告了只有這N1個樣本才對聚類有貢獻,若N=100,極端地構(gòu)想N1=2或N1=98,必定會有不一樣結(jié)果。怎樣確定N1并選取那些樣本為N1,成為一個大問題,也暴露出這種方法缺點。第126頁126和傳統(tǒng)聚類方法比較:從極微觀上看,這N個客體各自都有表達本身價值不一樣特征,差異是絕正確,最嚴最細分法應該是N類。從極宏觀上看,這N個客體既然被用若干特征放到一起比較,說明含有可比性,能夠統(tǒng)屬一類。在發(fā)覺實狀況態(tài)空間不一樣概念層次上聚類,以及聚類相對性,就是我們聚類觀。第127頁127知識就是不一樣層次上“規(guī)則+例外”第128頁128304050607080工齡304050607080工資去除例外后聚類圖AC304050607080工齡304050607080工資第129頁129304050607080工齡304050607080工資304050607080工齡304050607080工資3000個對象中類和離群相對性第130頁130信息粒度粒度(Granularity)原本是一個物理學概念,是指“微粒大小平均度量”,在這里被借用作為對概念抽象度度量。把概念可視化。概念粒度用云熵來度量。概念在定量空間位置用云期望值來標定。第131頁131信息粒度人類智能一個公認特點是人們能夠從極不相同粒度上觀察和分析同一問題,各有各用處。人們不但能夠在同一粒度世界上進行問題求解,而且能夠很快地從一個粒度世界跳到另一個粒度世界,往返自如;甚至含有同時處理不一樣粒度世界能力。這正是人類問題求解強有力表現(xiàn)。第132頁132觀察距離:境界決定了認知高度從較細粒度世界躍升到較粗粒度世界,是對信息或知識抽象,能夠使問題簡化,數(shù)據(jù)處理量大大降低,這一過程稱為數(shù)據(jù)簡約或歸約。換句話說,用粗粒度觀察和分析信息,就是增加觀察距離,忽略細微差異,尋找共性。共性經(jīng)常比個性更深刻,能夠求得宏觀把握。第133頁133觀察距離:境界決定了認知高度反過來,縮短觀察距離,用細粒度觀察和分析信息,發(fā)覺紛繁復雜表象,更準確地域分差異,個性要比共性豐富,不過不能完全進入共性之中。經(jīng)過概念提升,就是增加觀察距離,能夠發(fā)覺更普遍知識。第134頁134拉鏡頭—發(fā)覺特征空間宏觀知識:屬性方向和宏元組方向概括性加大;知識模板物理尺寸減小。從較細粒度躍升到較粗粒度世界,是對數(shù)據(jù)抽象,簡化問題,降低數(shù)據(jù)量,這一過程稱為數(shù)據(jù)歸約。忽略細微差異,尋找共性。共性經(jīng)常比個性更深刻。第135頁135推鏡頭—發(fā)覺特征空間微觀知識:在發(fā)覺空間某個抽象層次上,縮短觀察距離,用較細粒度觀察和分析信息,發(fā)覺紛繁復雜表象,更準確地域分差異;個性要比共性豐富,不過不能完全進入共性之中。第136頁136發(fā)覺策略和方法發(fā)覺是微觀和宏觀之間跳躍,是信息粒度改變,或者說是觀察距離不一樣;綜合利用歸納、類比、聯(lián)想,并結(jié)合證偽和演繹,形成五大伎倆;以云模型作為定性定量轉(zhuǎn)換和知識表示工具。詳細發(fā)覺方法能夠是各種多樣。第137頁137知識發(fā)覺機理數(shù)據(jù)挖掘揭示了人類由個別到普通、從詳細到抽象“數(shù)據(jù)—概念—規(guī)則”認知規(guī)律。概念是認知基元;數(shù)據(jù)是形成概念要素;規(guī)則是在不一樣概念層次上客體之間關聯(lián);不一樣抽象度知識,實際上是不一樣概念層次上“規(guī)則加例外”而已;境界決定了認知高度。認知物理學用計算機詳細實現(xiàn)了這一規(guī)律發(fā)覺過程。第138頁138從數(shù)據(jù)開采角度看教授系統(tǒng):教授系統(tǒng)是正向方式認識世界,以演繹為主;數(shù)據(jù)開采是逆向方式認識世界,以歸納為主。經(jīng)過數(shù)據(jù)開采來發(fā)覺知識過程,就是結(jié)構(gòu)教授系統(tǒng)、生成知識庫過程。第139頁139TheExperimentalDatabase第140頁140MiningAssociationRulesApriorialgorithmCloudbasedgeneralizationaspreprocessing2Dclouds:location1Dclouds:elevation,roaddensity,distancetothesea,averageincomeMinimumSupport:6%MinimumConfidence:75%Miningassociationatmultipleconceptlevels第141頁141DiscoveredAssociationRulesfor“averageincome”Rule1:Iflocationis“southeast”,roaddensityis“high”,anddistancetotheseais“close”,thenaverageincomeis“high”.Rule2:Ifloc
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教師師徒結(jié)對計劃
- 《材料成型工藝基礎A》教學大綱
- 玉溪師范學院《網(wǎng)球》2023-2024學年第一學期期末試卷
- 施工現(xiàn)場項目部管理制度
- 火山引擎·數(shù)據(jù)飛輪-行業(yè)實踐系列自皮書·銀行業(yè) -新一代全行級標簽體系與標簽應用篇 2024
- 2024年細微射頻同軸電纜項目評估分析報告
- 2023年有機氟化工產(chǎn)品項目評估分析報告
- 投資學第7版 郎榮燊 思政大綱
- 2019粵教版 高中美術 選擇性必修1 繪畫《第二單元 練就創(chuàng)造美的巧手》大單元整體教學設計2020課標
- 2024屆廣西梧州柳州高考數(shù)學試題命題比賽模擬試卷
- 【公開課】高三地理一輪復習-自然地理環(huán)境的整體性(課件)
- 《高延性混凝土加固技術規(guī)程》DB64-T1746-2020
- 四川廣安市2024年市級事業(yè)單位招考工作人員擬聘用人員公開引進高層次人才和急需緊缺人才筆試參考題庫(共500題)答案詳解版
- 《父親、樹林和鳥》公開課一等獎創(chuàng)新教案
- 專業(yè)技術職務聘任申請書范文
- DL/T 5352-2018 高壓配電裝置設計規(guī)范
- 稀土發(fā)光材料的發(fā)光機理及其應用
- 2024江蘇地區(qū)“三新”供電服務公司招聘600人高頻考題難、易錯點模擬試題(共500題)附帶答案詳解
- 初級經(jīng)濟師(初級建筑與房地產(chǎn)經(jīng)濟)題庫【重點】
- 化驗室安全操作
- MOOC 攝影藝術創(chuàng)作-中國傳媒大學 中國大學慕課答案
評論
0/150
提交評論