人工智能通識(shí)教程第2版課件第3章大數(shù)據(jù)與人工智能

上傳人：y*** IP屬地：山東上傳時(shí)間：2024-10-28 格式：PPTX 頁(yè)數(shù)：72 大?。?.92MB 積分：15 舉報(bào) 版權(quán)申訴

人工智能通識(shí)教程第2版課件第3章大數(shù)據(jù)與人工智能_第2頁(yè)

人工智能通識(shí)教程第2版課件第3章大數(shù)據(jù)與人工智能_第3頁(yè)

人工智能通識(shí)教程第2版課件第3章大數(shù)據(jù)與人工智能_第4頁(yè)

人工智能通識(shí)教程第2版課件第3章大數(shù)據(jù)與人工智能_第5頁(yè)

已閱讀5頁(yè)，還剩67頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第2版人工智能通識(shí)教程第3章周蘇教授QQ：81505050大數(shù)據(jù)與人工智能導(dǎo)讀案例：電子商務(wù)的推薦系統(tǒng)知道人們?yōu)槭裁磳?duì)這些信息感興趣可能是有用的，但這個(gè)問題目前并不是很重要。但是，知道“是什么”可以創(chuàng)造點(diǎn)擊率，這種洞察力足以重塑很多行業(yè)，不僅僅只是電子商務(wù)。01什么是模糊邏輯02模糊邏輯系統(tǒng)03數(shù)據(jù)思維與變革04大數(shù)據(jù)與人工智能目錄/CONTENTS模糊邏輯模仿人腦的不確定性概念判斷和推理思維方式，對(duì)于模型未知或不能確定的描述系統(tǒng)等，應(yīng)用模糊集合和模糊規(guī)則進(jìn)行推理，表達(dá)過渡性界限或定性知識(shí)經(jīng)驗(yàn)，實(shí)行模糊綜合判斷，推理解決常規(guī)方法難于對(duì)付的規(guī)則型模糊信息問題。

圖3-1模糊推理過程第3章大數(shù)據(jù)與人工智能大數(shù)據(jù)是人工智能的基礎(chǔ)。大數(shù)據(jù)時(shí)代，人們對(duì)待數(shù)據(jù)的思維方式主要發(fā)生了以下三個(gè)變化：第一，人們處理的數(shù)據(jù)從樣本數(shù)據(jù)變成全部數(shù)據(jù)；第二，由于是全樣本數(shù)據(jù)，人們不得不接受數(shù)據(jù)的混雜性，而放棄對(duì)精確性的追求；第三，人們通過對(duì)大數(shù)據(jù)的處理，減少對(duì)因果關(guān)系的渴求，轉(zhuǎn)而關(guān)注相關(guān)關(guān)系。第3章大數(shù)據(jù)與人工智能PART01什么是模糊邏輯計(jì)算機(jī)的二進(jìn)制邏輯通常只有兩種狀態(tài)，一句陳述要么是真要么是假，然而，現(xiàn)實(shí)生活中卻很少有這么一刀切的情況。一個(gè)人如果不餓不一定就是餓，有點(diǎn)餓和餓昏頭不是一回事兒，有點(diǎn)冷比凍僵了的程度也要輕得多。如果我們將含義的所有層次都納入考慮范疇，那么寫入計(jì)算機(jī)程序的規(guī)則將會(huì)變得過分的復(fù)雜難懂。3.1什么是模糊邏輯昆蟲有許多本能幫助其應(yīng)對(duì)不同環(huán)境。它可能傾向于遠(yuǎn)離光線，隱藏在樹葉和巖石下，這樣不容易被捕食者發(fā)現(xiàn)。然而，它也會(huì)朝食物移動(dòng)，否則就會(huì)餓死。如果我們要制作一個(gè)甲蟲機(jī)器人，可以考慮賦予其如下規(guī)則：如果光線亮度高于50%，食物質(zhì)量低于50%，那么遠(yuǎn)離，否則接近。圖3-2甲蟲機(jī)器人3.1.1甲蟲機(jī)器人的規(guī)則如果食物和光線所占百分比一致會(huì)怎么樣？吃飽了的昆蟲會(huì)為了保持安全繼續(xù)藏匿在黑暗中，而饑餓的昆蟲就會(huì)冒險(xiǎn)去接近食物。光越亮，越危險(xiǎn)；食物質(zhì)量越高，昆蟲越容易冒險(xiǎn)。我們可以根據(jù)這一情況制定出更多規(guī)則，例如：如果饑餓和光線高于75%，食物質(zhì)量低于25%，那么遠(yuǎn)離，否則接近。3.1.1甲蟲機(jī)器人的規(guī)則但是這些規(guī)則都無法很好把握極值。如果光線為76%，食物質(zhì)量為24%，機(jī)器人就會(huì)餓死，雖然這僅僅與所設(shè)置的規(guī)則相差1%。當(dāng)然，我們也可以設(shè)置更多規(guī)則來應(yīng)對(duì)極值和特殊情況，但這樣的操作很快就會(huì)把程序變成無法理解的一團(tuán)亂麻?？墒?，在不讓其變復(fù)雜的前提下，怎么能夠處理所有變數(shù)呢？3.1.1甲蟲機(jī)器人的規(guī)則假設(shè)我們正在經(jīng)營(yíng)一家婚姻介紹所。一個(gè)客戶的要求是高個(gè)子但不富有的男子。我們的記錄中有一名男子，身高1.78米，年收入是全國(guó)平均水平的兩倍。應(yīng)該將這名男子介紹給客戶嗎？如何判斷什么是個(gè)子高？什么是富有？怎樣對(duì)資料庫(kù)中的男子進(jìn)行打分來找到最符合的對(duì)象？身高和收入之間不能簡(jiǎn)單加減，就像蘋果和橙子不能混為一談一樣。3.1.2模糊邏輯的發(fā)明模糊邏輯的發(fā)明就是為了解決這類問題。在常規(guī)邏輯中，上述規(guī)則的情況只有兩種，不是對(duì)就是錯(cuò)，即不是1就是0。要么有光要么沒有光，要么高要么不高。而在模糊邏輯中，每一個(gè)情況的真值可以是0到1中間的任何值。假定身高超過2米的男子是絕對(duì)的高個(gè)子，身高低于1.7米的為不高，那么1.78米高的客戶可以算作0.55高，既不是特別高但是也不矮。要計(jì)算他不高的程度，用1減去高的程度即可。因此，該男子是0.55高，也就是0.45不高。3.1.2模糊邏輯的發(fā)明我們同樣可以對(duì)“矮”的范疇進(jìn)行界定。身高低于1.6米是絕對(duì)的矮個(gè)子，身高超過1.75米為不矮。由此可以發(fā)現(xiàn)“高”和“矮”的定義有一部分是重疊的，也就意味著處于中間值的人在某種程度上來說是高，而在另一種程度上來說是矮?！鞍焙汀安桓摺笔莾蓚€(gè)概念，“高”“矮”“不高”和“不矮”對(duì)應(yīng)的值都是不同的。類似地，我們也可以說他是0.2富有，也就是0.8不富有。女性客戶的要求是“高AND（和）不富有”，所以我們需要計(jì)算“0.55AND0.8”，結(jié)果是0.44。通過檢索所有各選項(xiàng)，找到得分最高者就可以介紹給客戶了。3.1.2模糊邏輯的發(fā)明在模糊邏輯中進(jìn)行“AND”與“OR”運(yùn)算時(shí)計(jì)算方法不同，如何選擇應(yīng)當(dāng)根據(jù)數(shù)字所起的作用決定。本例中是將兩個(gè)數(shù)字相乘。另一種純數(shù)學(xué)方式就是選擇二者中的最小值。然而，如果采取這樣的方式，較大的值將不影響結(jié)果。同樣身高的男子，一個(gè)0.5不富有，另一個(gè)0.8不富有，其運(yùn)算結(jié)果都是一樣的。同樣，我們也可以為甲蟲機(jī)器人設(shè)置規(guī)則，如果饑餓并且光線不太亮，那么就朝食物進(jìn)發(fā)。這些例子展示了可以利用模糊邏輯解決的問題類型。3.1.2模糊邏輯的發(fā)明專家系統(tǒng)是利用人類專長(zhǎng)建立起來的，可以提供程序使用的明確規(guī)則。系統(tǒng)可能會(huì)說“如果溫度高于95度超過兩分鐘，或是高于97度超過一分鐘，那么可以斷定恒溫器損壞”。但是更多情況下它們會(huì)說“如果溫度過高的情況持續(xù)太久，那么恒溫器可能已經(jīng)損壞”。這時(shí)需要由程序員負(fù)責(zé)填進(jìn)具體數(shù)字。而利用模糊邏輯，則完全可以制定與專家所言一致的規(guī)則。3.1.3制定模糊邏輯的規(guī)則如果溫度過高并且溫度過高的時(shí)間過長(zhǎng)，那么恒溫器已經(jīng)損壞。程序?qū)?duì)“恒溫器已經(jīng)損壞”這一命題進(jìn)行賦值，取值在0到1之間。如果溫度只是稍微偏高并且沒有持續(xù)太長(zhǎng)時(shí)間，那么命題真值可能約為0.1，即不太可能。而其他規(guī)則得出的值可能更高。比如，假設(shè)另一條規(guī)則判定輸入冷卻器損壞真值為0.95，那么程序?qū)?bào)告造成故障最有可能的原因就是輸入冷卻器，這些數(shù)據(jù)被稱作可能性。與概率不同，0.1并不意味著恒溫器有10%的概率已經(jīng)損壞。高個(gè)子真值0.55也只代表他個(gè)子高的可能性，這僅僅是我們衡量可能性的一種方式。類似地，如果是10%肯定恒溫器損壞，如果是95%肯定問題出在輸入冷卻器。3.1.3制定模糊邏輯的規(guī)則更加復(fù)雜的專家系統(tǒng)可能用于決定銀行是否應(yīng)該向客戶提供貸款，規(guī)則如下：如果薪水高并且工作穩(wěn)定性高，那么風(fēng)險(xiǎn)低。如果薪水低或者工作穩(wěn)定性低，那么風(fēng)險(xiǎn)中等。如果信用評(píng)分低，那么風(fēng)險(xiǎn)高。這一部分程序可能得出以下數(shù)據(jù)：風(fēng)險(xiǎn)低=0.1風(fēng)險(xiǎn)中等=0.3風(fēng)險(xiǎn)高=0.73.1.3制定模糊邏輯的規(guī)則通過數(shù)學(xué)算法，這三組數(shù)據(jù)可以轉(zhuǎn)化為評(píng)估風(fēng)險(xiǎn)的單個(gè)數(shù)字，這一過程被稱為去模糊化。從上述數(shù)據(jù)我們還是可以看出借貸的風(fēng)險(xiǎn)程度可能為中等偏上。3.1.3制定模糊邏輯的規(guī)則模糊邏輯的另一用途就是控制機(jī)械裝置，例如控制供暖系統(tǒng)的部分規(guī)則如下：如果溫度高，那么停止供暖。如果溫度非常低，那么加強(qiáng)供暖。如果溫度低并且升溫慢，那么加強(qiáng)供暖。如果溫度低并且升溫快，那么中等供暖。如果溫度稍微偏低并且升溫慢，那么中等供暖。如果溫度稍微偏低并且升溫快，那么停止供暖。3.1.3制定模糊邏輯的規(guī)則運(yùn)行所有這些規(guī)則后，我們可以得到應(yīng)該停止供暖、中等供暖，以及加強(qiáng)供暖等的可能性。將這些可能性轉(zhuǎn)化為單個(gè)數(shù)據(jù)后就可以相應(yīng)地設(shè)置加熱器了。模糊控制系統(tǒng)管控設(shè)備狀態(tài)，并生成控制信號(hào)不斷調(diào)整以維持理想狀態(tài)。在設(shè)備非線性的情況下，某種控制可能因設(shè)備狀態(tài)產(chǎn)生不同影響，而模糊控制系統(tǒng)的優(yōu)勢(shì)在此時(shí)就能得以展現(xiàn)。3.1.3制定模糊邏輯的規(guī)則所謂模糊邏輯，是建立在多值邏輯基礎(chǔ)上，運(yùn)用模糊集合的方法來研究模糊性思維、語(yǔ)言形式及其規(guī)律的科學(xué)。模糊邏輯模仿人腦的不確定性概念判斷、推理思維方式，對(duì)于模型未知或不能確定的描述系統(tǒng)等，應(yīng)用模糊集合和模糊規(guī)則進(jìn)行推理，表達(dá)過渡性界限或定性知識(shí)經(jīng)驗(yàn)，實(shí)行模糊綜合判斷，推理解決常規(guī)方法難于對(duì)付的規(guī)則型模糊信息問題。模糊邏輯善于表達(dá)界限不清晰的定性知識(shí)與經(jīng)驗(yàn)，它區(qū)分模糊集合，處理模糊關(guān)系，模擬人腦實(shí)施規(guī)則型推理，解決種種不確定問題。3.1.4模糊邏輯的定義模糊邏輯十分有趣的原因有兩點(diǎn)。首先，它運(yùn)作良好，是將人類專長(zhǎng)轉(zhuǎn)化為自動(dòng)化系統(tǒng)的有力途徑。利用模糊邏輯建立的專家系統(tǒng)和控制程序能夠解決利用數(shù)學(xué)計(jì)算和常規(guī)邏輯系統(tǒng)難以解決的問題。其次，模糊邏輯與人類思維運(yùn)作模式十分匹配。它能夠成功吸收人類專長(zhǎng)，因?yàn)閷＜覀兊谋磉_(dá)方式恰好與其向程序注入信息的模式相符。模糊邏輯以重疊的模糊類別表達(dá)世界，這也正是我們思考的方式。3.1.4模糊邏輯的定義可以看到，傳統(tǒng)的人工智能是基于一些“清晰”的規(guī)則，這個(gè)“清晰”給出的結(jié)果往往是很詳細(xì)的，比如一個(gè)具體的房?jī)r(jià)預(yù)測(cè)值。而模糊邏輯模擬人的思考方式，對(duì)預(yù)測(cè)的房?jī)r(jià)值給出一個(gè)類似是高了還是低了的結(jié)果。不少創(chuàng)建智能的途徑，都是依賴人類程序員以不同形式編寫的系列規(guī)則。程序員能夠參與不同領(lǐng)域程序的編寫，歸根結(jié)底還是依賴規(guī)則的執(zhí)行。這些規(guī)則的存在也正是試圖以我們理解的思考過程建立起一個(gè)思考程序（圖3-3）。3.1.4模糊邏輯的定義

圖3-3模糊邏輯系統(tǒng)3.1.4模糊邏輯的定義1965年，美國(guó)加利福尼亞大學(xué)自動(dòng)控制理論專家查德在關(guān)于“模糊控制”的一系列論著中首先提出了模糊集合的概念，標(biāo)志著模糊數(shù)學(xué)的誕生。建立在二值邏輯基礎(chǔ)上的原有的邏輯與數(shù)學(xué)難以描述和處理現(xiàn)實(shí)世界中許多模糊性的對(duì)象。模糊數(shù)學(xué)與模糊邏輯實(shí)質(zhì)上是要對(duì)模糊性對(duì)象進(jìn)行精確的描述和處理。3.1.5模糊理論的發(fā)展模糊集合的引入，可將人的判斷、思維過程用比較簡(jiǎn)單的數(shù)學(xué)形式直接表達(dá)出來，從而使對(duì)復(fù)雜系統(tǒng)做出合乎實(shí)際的、符合人類思維方式的處理成為可能，為經(jīng)典模糊控制器的形成奠定了基礎(chǔ)。隨后，在1974年，英國(guó)人馬丹尼使用模糊控制語(yǔ)言建成的控制器、控制鍋爐和蒸汽機(jī)，取得了良好的效果。他的實(shí)驗(yàn)研究標(biāo)志著模糊控制的誕生。3.1.5模糊理論的發(fā)展查德為了建立模糊性對(duì)象的數(shù)學(xué)模型，把只取0和1二值的普通集合概念推廣為在[0，1]區(qū)間上取無窮多值的模糊集合概念，并用“隸屬度”這一概念來精確地刻畫元素與模糊集合之間的關(guān)系。正因?yàn)槟：鲜且赃B續(xù)的無窮多值為依據(jù)的，所以，模糊邏輯可看做是運(yùn)用無窮連續(xù)值的模糊集合去研究模糊性對(duì)象的科學(xué)。把模糊數(shù)學(xué)的一些基本概念和方法運(yùn)用到邏輯領(lǐng)域中，產(chǎn)生了模糊邏輯變量、模糊邏輯函數(shù)等基本概念。對(duì)于模糊聯(lián)結(jié)詞與模糊真值表也作了相應(yīng)的對(duì)比研究。查德還開展了模糊假言推理等似然推理研究，有些成果已直接應(yīng)用于模糊控制器的研制。3.1.5模糊理論的發(fā)展創(chuàng)立和研究模糊邏輯的主要意義有：（1）運(yùn)用模糊邏輯變量、模糊邏輯函數(shù)和似然推理等新思想、新理論，為尋找解決模糊性問題的突破口奠定了理論基礎(chǔ)，從邏輯思想上為研究模糊性對(duì)象指明了方向。（2）模糊邏輯在原有的布爾代數(shù)、二值邏輯等數(shù)學(xué)和邏輯工具難以描述和處理的自動(dòng)控制過程、疑難病癥的診斷、大系統(tǒng)的研究等方面，都具有獨(dú)到之處。3.1.5模糊理論的發(fā)展（3）在方法論上，為人類從精確性到模糊性、從確定性到不確定性的研究提供了正確的研究方法。此外，在數(shù)學(xué)基礎(chǔ)研究方面，模糊邏輯有助于解決某些悖論。對(duì)辯證邏輯的研究也會(huì)產(chǎn)生深遠(yuǎn)的影響。當(dāng)然，模糊邏輯理論本身還有待進(jìn)一步系統(tǒng)化、完整化、規(guī)范化。3.1.5模糊理論的發(fā)展對(duì)于經(jīng)典模糊控制系統(tǒng)穩(wěn)態(tài)性能的改善，模糊集成控制、模糊自適應(yīng)控制、專家模糊控制與多變量模糊控制的研究，特別是針對(duì)復(fù)雜系統(tǒng)的自學(xué)習(xí)與參數(shù)（或規(guī)則）自調(diào)整模糊系統(tǒng)方面的研究，尤其受到各國(guó)學(xué)者的重視。將神經(jīng)網(wǎng)絡(luò)和模糊控制技術(shù)相互結(jié)合、取長(zhǎng)補(bǔ)短，形成了一種模糊神經(jīng)網(wǎng)絡(luò)技術(shù)。由此組成一個(gè)更接近于人腦的智能信息處理系統(tǒng)，其發(fā)展前景十分誘人。3.1.5模糊理論的發(fā)展PART02模糊邏輯系統(tǒng)模糊邏輯系統(tǒng)是指利用模糊概念和模糊邏輯構(gòu)成的系統(tǒng)，它可以用來充當(dāng)模糊邏輯控制器。由于選擇模糊概念和邏輯的隨意性，可以構(gòu)造出多種模糊邏輯系統(tǒng)。常見的有三類：純模糊邏輯系統(tǒng)、高木-關(guān)野模糊邏輯系統(tǒng)和具有模糊產(chǎn)生器以及模糊消除器的模糊邏輯系統(tǒng)。3.2模糊邏輯系統(tǒng)純模糊邏輯系統(tǒng)是其他類型的模糊邏輯系統(tǒng)的核心部分，它提供了一種量化語(yǔ)言信息和在模糊邏輯原則下利用這類語(yǔ)言信息的一般化模式。圖3-4純模糊邏輯系統(tǒng)結(jié)構(gòu)圖3.2.1純模糊邏輯系統(tǒng)純模糊邏輯系統(tǒng)也可以解釋為一個(gè)映射關(guān)系，其結(jié)構(gòu)圖中的中間部分具有類似于線性變換中變換矩陣的映射功能。純模糊邏輯系統(tǒng)的缺點(diǎn)在于它的輸入和輸出均為模糊集合，這不利于工程應(yīng)用。但是，它為其他具有應(yīng)用價(jià)值的模糊邏輯系統(tǒng)提供了一個(gè)基本的樣板，由此出發(fā)可以構(gòu)造出其他具有實(shí)用性質(zhì)的模糊邏輯系統(tǒng)。3.2.1純模糊邏輯系統(tǒng)高木-關(guān)野模糊邏輯系統(tǒng)（簡(jiǎn)稱T-S模糊邏輯系統(tǒng)）是將純模糊邏輯系統(tǒng)中的每一條模糊規(guī)則的后件（即THEN以后的部分）加以定量化后形成的，也就是說，T-S模糊邏輯系統(tǒng)中的模糊規(guī)則，其前件是迷糊的，后件是確定的。這種模糊邏輯系統(tǒng)已經(jīng)在許多實(shí)際問題中得到成功的應(yīng)用，它的優(yōu)點(diǎn)是模糊邏輯系統(tǒng)的輸出為精確值，其中的參數(shù)也可以用參數(shù)估計(jì)、適應(yīng)機(jī)構(gòu)等方法加以確定。但是，由于模糊規(guī)則后件的確定性，T-S模糊邏輯系統(tǒng)不能方便地利用更多的語(yǔ)言信息和模糊原則，限制了其應(yīng)用的靈活性。3.2.2高木-關(guān)野模糊邏輯系統(tǒng)具有模糊產(chǎn)生器及模糊消除器的模糊邏輯系統(tǒng)的基本框圖如下圖所示。它是把純模糊邏輯系統(tǒng)的輸入端和輸出端分別接上模糊產(chǎn)生器和模糊消除器后構(gòu)成的。圖3-5具有模糊產(chǎn)生器和模糊消除器的模糊邏輯系統(tǒng)結(jié)構(gòu)圖3.2.3具有產(chǎn)生器及消除器的模糊邏輯系統(tǒng)具有模糊產(chǎn)生器及模糊消除器的模糊邏輯系統(tǒng)具有以下顯著優(yōu)點(diǎn)：（1）這種模糊邏輯系統(tǒng)提供了一種描述領(lǐng)域?qū)＜抑R(shí)的模糊規(guī)則的一般化方法；（2）使用者在設(shè)計(jì)其中的模糊產(chǎn)生器、模糊推理機(jī)和模糊消除器時(shí)具有很大的自由度，因此可以根據(jù)實(shí)際情況，找到一個(gè)最適合的模糊邏輯系統(tǒng)；（3）其輸入、輸出均為精確值，因此適合在工程領(lǐng)域中應(yīng)用。3.2.3具有產(chǎn)生器及消除器的模糊邏輯系統(tǒng)這類模糊邏輯系統(tǒng)是由馬丹尼首先提出，已經(jīng)在許多工業(yè)過程和商業(yè)產(chǎn)品中得到成功應(yīng)用，如用在電冰箱、電飯鍋、洗衣機(jī)、空調(diào)等家用電器的自動(dòng)控制中，在洗衣機(jī)中感知裝載量和清潔劑濃度并據(jù)此調(diào)整它們的洗滌周期，同時(shí)還廣泛運(yùn)用在游戲的開發(fā)中。3.2.3具有產(chǎn)生器及消除器的模糊邏輯系統(tǒng)PART03數(shù)據(jù)思維與變革生產(chǎn)資料是人類文明的核心。農(nóng)業(yè)時(shí)代生產(chǎn)資料是土地，工業(yè)時(shí)代生產(chǎn)資料是機(jī)器，數(shù)字時(shí)代生產(chǎn)資料是數(shù)據(jù)。勞動(dòng)方式是人類文明的重要表征。漁獵農(nóng)耕時(shí)代形成的是以手工勞動(dòng)為主要方式的“手工文明”，工業(yè)時(shí)代發(fā)展為以機(jī)器勞動(dòng)為主要方式的“機(jī)器文明”，智能時(shí)代則基于數(shù)字勞動(dòng)而不斷推動(dòng)和豐富著“數(shù)字文明”。3.3數(shù)據(jù)思維與變革“數(shù)字文明”折射出以大數(shù)據(jù)、人工智能等為代表的數(shù)字技術(shù)對(duì)世界和人類的影響，在廣度和深度上有了質(zhì)的飛躍，到了塑造一種人類文明新形態(tài)的高度。數(shù)字技術(shù)正以新理念、新業(yè)態(tài)、新模式全面融入人類經(jīng)濟(jì)、政治、文化、社會(huì)、生態(tài)文明建設(shè)各領(lǐng)域和全過程，給人類生產(chǎn)生活帶來廣泛而深刻的影響。以數(shù)字技術(shù)為基座的互聯(lián)網(wǎng)，促進(jìn)交流、提高效率，也在重塑制度、催生變革，更影響社會(huì)思潮和人類文明進(jìn)程。這是不可逆轉(zhuǎn)的時(shí)代趨勢(shì)。在人工智能時(shí)代，數(shù)據(jù)處理變得更加容易、更加快速，而“大數(shù)據(jù)”全在于發(fā)現(xiàn)和理解信息內(nèi)容及信息與信息之間的關(guān)系，其精髓是我們分析信息時(shí)的三個(gè)思維轉(zhuǎn)變，這三個(gè)轉(zhuǎn)變相互聯(lián)系和相互作用。3.3數(shù)據(jù)思維與變革很長(zhǎng)時(shí)間以來，因?yàn)橛涗?、?chǔ)存和分析數(shù)據(jù)的工具不夠好，為了讓分析變得簡(jiǎn)單，當(dāng)面臨大量數(shù)據(jù)時(shí)，通常都依賴于采樣分析。但是采樣分析是信息缺乏時(shí)代和信息流通受限制的模擬數(shù)據(jù)時(shí)代的產(chǎn)物。如今信息技術(shù)的條件已經(jīng)有了非常大的提高，雖然人類可以處理的數(shù)據(jù)依然是有限的，但是可以處理的數(shù)據(jù)量已經(jīng)大大地增加，而且未來會(huì)越來越多。大數(shù)據(jù)時(shí)代的第一個(gè)轉(zhuǎn)變，是要分析與某事物相關(guān)的所有數(shù)據(jù)，而不是依靠分析少量的數(shù)據(jù)樣本。3.3.1思維轉(zhuǎn)變之一：樣本=總體采樣的目的是用最少的數(shù)據(jù)得到更多的信息，而當(dāng)我們可以處理海量數(shù)據(jù)的時(shí)候，采樣就沒有什么意義了。如今，計(jì)算和制表已經(jīng)不再困難，感應(yīng)器、手機(jī)導(dǎo)航、網(wǎng)站點(diǎn)擊和微信等被動(dòng)地收集了大量數(shù)據(jù)，而計(jì)算機(jī)可以輕易地對(duì)這些數(shù)據(jù)進(jìn)行處理。但是，數(shù)據(jù)處理技術(shù)己經(jīng)發(fā)生了翻天覆地的改變，而我們的方法和思維卻沒有跟上這種改變。在很多領(lǐng)域，從收集部分?jǐn)?shù)據(jù)到收集盡可能多的數(shù)據(jù)的轉(zhuǎn)變已經(jīng)發(fā)生。如果可能的話，我們會(huì)收集所有的數(shù)據(jù)，即“樣本=總體”，這是指我們能對(duì)數(shù)據(jù)進(jìn)行深度探討。3.3.1思維轉(zhuǎn)變之一：樣本=總體谷歌流感趨勢(shì)預(yù)測(cè)不是依賴于隨機(jī)樣本，而是分析了全美國(guó)幾十億條互聯(lián)網(wǎng)檢索記錄。分析整個(gè)數(shù)據(jù)庫(kù)，而不是對(duì)一個(gè)小樣本進(jìn)行分析，能夠提高微觀層面分析的準(zhǔn)確性，甚至能夠推測(cè)出某個(gè)特定城市的流感狀況。通過使用所有的數(shù)據(jù)，我們可以發(fā)現(xiàn)如若不然則將會(huì)在大量數(shù)據(jù)中淹沒掉的情況。例如，信用卡詐騙是通過觀察異常情況來識(shí)別的，只有掌握了所有的數(shù)據(jù)才能做到這一點(diǎn)。在這種情況下，異常值是最有用的信息，你可以把它與正常交易情況進(jìn)行對(duì)比。而且，因?yàn)榻灰资羌磿r(shí)的，所以你的數(shù)據(jù)分析也應(yīng)該是即時(shí)的。3.3.1思維轉(zhuǎn)變之一：樣本=總體因?yàn)榇髷?shù)據(jù)是建立在掌握所有數(shù)據(jù)，至少是盡可能多的數(shù)據(jù)的基礎(chǔ)上的，所以我們就可以正確地考察細(xì)節(jié)并進(jìn)行新的分析。在任何細(xì)微的層面，我們都可以用大數(shù)據(jù)去論證新的假設(shè)。當(dāng)然，有些時(shí)候，我們還是可以使用樣本分析法，畢竟我們?nèi)匀换钤谝粋€(gè)資源有限的時(shí)代。但是更多時(shí)候，利用手中掌握的所有數(shù)據(jù)成為了最好也是可行的選擇。于是，慢慢地，我們會(huì)完全拋棄樣本分析。3.3.1思維轉(zhuǎn)變之一：樣本=總體當(dāng)我們測(cè)量事物的能力受限時(shí)，關(guān)注最重要的事情和獲取最精確的結(jié)果是可取的。直到今天，我們的數(shù)字技術(shù)依然建立在精準(zhǔn)的基礎(chǔ)上。我們假設(shè)只要電子數(shù)據(jù)表格把數(shù)據(jù)排序，數(shù)據(jù)庫(kù)引擎就可以找出和我們檢索的內(nèi)容完全一致的檢索記錄。這種思維方式適用于掌握“小數(shù)據(jù)量”的情況，因?yàn)樾枰治龅臄?shù)據(jù)很少，所以我們必須盡可能精準(zhǔn)地量化我們的記錄。在某些方面，我們已經(jīng)意識(shí)到了差別。例如，一個(gè)小商店在晚上打烊的時(shí)候要把收銀臺(tái)里的每分錢都數(shù)清楚，但是我們不會(huì)、也不可能用“分”這個(gè)單位去精確度量國(guó)民生產(chǎn)總值。隨著規(guī)模的擴(kuò)大，對(duì)精確度的癡迷將減弱。3.3.2思維轉(zhuǎn)變之二：接受數(shù)據(jù)的混雜性針對(duì)小數(shù)據(jù)量和特定事情，追求精確性依然是可行的，比如一個(gè)人的銀行賬戶上是否有足夠的錢開具支票。但是，在大數(shù)據(jù)時(shí)代，很多時(shí)候，追求精確度已經(jīng)變得不可行，甚至不受歡迎了。大數(shù)據(jù)紛繁多樣，優(yōu)劣摻雜，分布在全球多個(gè)服務(wù)器上。擁有了大數(shù)據(jù)，我們不再需要對(duì)一個(gè)現(xiàn)象刨根究底，只要掌握大體的發(fā)展方向即可。當(dāng)然，我們也不是完全放棄了精確度，只是不再沉迷于此。適當(dāng)忽略微觀層面上的精確度會(huì)讓我們?cè)诤暧^層面擁有更好的洞察力。3.3.2思維轉(zhuǎn)變之二：接受數(shù)據(jù)的混雜性大數(shù)據(jù)時(shí)代的第二個(gè)轉(zhuǎn)變，是我們樂于接受數(shù)據(jù)的紛繁復(fù)雜，而不再一味追求其精確性。在越來越多的情況下，使用所有可獲取的數(shù)據(jù)變得更為可能，但為此也要付出一定的代價(jià)。數(shù)據(jù)量的大幅增加會(huì)造成結(jié)果的不準(zhǔn)確，與此同時(shí)，一些錯(cuò)誤的數(shù)據(jù)也會(huì)混進(jìn)數(shù)據(jù)庫(kù)。然而，重點(diǎn)是我們能夠努力避免這些問題。3.3.2思維轉(zhuǎn)變之二：接受數(shù)據(jù)的混雜性大數(shù)據(jù)在多大程度上優(yōu)于算法，這個(gè)問題在自然語(yǔ)言處理上表現(xiàn)得很明顯。2000年，微軟研究中心的米歇爾·班科和埃里克·布里爾一直在尋求改進(jìn)Word程序中語(yǔ)法檢查的方法。但是他們不能確定是努力改進(jìn)現(xiàn)有的算法、研發(fā)新的方法，還是添加更加細(xì)膩精致的特點(diǎn)更有效。所以，在實(shí)施這些措施之前，他們決定往現(xiàn)有的算法中添加更多的數(shù)據(jù)，看看會(huì)有什么不同的變化。很多對(duì)計(jì)算機(jī)學(xué)習(xí)算法的研究都建立在百萬字左右的語(yǔ)料庫(kù)基礎(chǔ)上。最后，他們決定往4種常見的算法中逐新添加數(shù)據(jù)，先是一千萬字，再到一億字，最后到十億。3.3.2思維轉(zhuǎn)變之二：接受數(shù)據(jù)的混雜性結(jié)果有點(diǎn)令人吃驚。他們發(fā)現(xiàn)，隨著數(shù)據(jù)的增多，4種算法的表現(xiàn)都大幅提高了。當(dāng)數(shù)據(jù)只有500萬的時(shí)候，有一種簡(jiǎn)單的算法表現(xiàn)得很差，但當(dāng)數(shù)據(jù)達(dá)10億的時(shí)候，它變成了表現(xiàn)最好的，準(zhǔn)確率從原來的75％提高到了95％以上。與之相反地，在少量數(shù)據(jù)情況下運(yùn)行得最好的算法，當(dāng)加入更多的數(shù)據(jù)時(shí)，也會(huì)像其他的算法一樣有所提高，但是卻變成了在大量數(shù)據(jù)條件下運(yùn)行得最不好的。它的準(zhǔn)確率會(huì)從86%提高到94％。后來，班科和布里爾在他們發(fā)表的研究論文中寫到，“如此一來，我們得重新衡量一下更多的人力物力是應(yīng)該消耗在算法發(fā)展上還是在語(yǔ)料庫(kù)發(fā)展上?！?.3.2思維轉(zhuǎn)變之二：接受數(shù)據(jù)的混雜性這是因前兩個(gè)轉(zhuǎn)變而促成的。尋找因果關(guān)系是人類長(zhǎng)久以來的習(xí)慣，即使確定因果關(guān)系很困難而且用途不大，人類還是習(xí)慣性地尋找緣由。相反，在大數(shù)據(jù)時(shí)代，我們無須再緊盯事物之間的因果關(guān)系，而應(yīng)該尋找事物之間的相關(guān)關(guān)系，這會(huì)給我們提供非常新穎且有價(jià)值的觀點(diǎn)。相關(guān)關(guān)系也許不能準(zhǔn)確地告知我們某件事情為何會(huì)發(fā)生，但是它會(huì)提醒我們這件事情正在發(fā)生。在許多情況下，這種提醒的幫助已經(jīng)足夠大了。在很多時(shí)候，尋找數(shù)據(jù)間的關(guān)聯(lián)并利用這種關(guān)聯(lián)就足夠了。這些思想上的重大轉(zhuǎn)變導(dǎo)致了第三個(gè)變革。3.3.3思維轉(zhuǎn)變之三：數(shù)據(jù)的相關(guān)關(guān)系大數(shù)據(jù)時(shí)代的第三個(gè)轉(zhuǎn)變是人們嘗試著不再探求難以捉摸的因果關(guān)系，轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。例如，如果數(shù)百萬條電子醫(yī)療記錄都顯示橙汁和阿司匹林的特定組合可以治療癌癥，那么找出具體的藥理機(jī)制就沒有這種治療方法本身來得重要。同樣，只要我們知道什么時(shí)候是買機(jī)票的最佳時(shí)機(jī)，就算不知道機(jī)票價(jià)格瘋狂變動(dòng)的原因也無所謂了。大數(shù)據(jù)告訴我們“是什么”而不是“為什么”。在大數(shù)據(jù)時(shí)代，我們不必知道現(xiàn)象背后的原因，只要讓數(shù)據(jù)自己發(fā)聲。我們不再需要在還沒有收集數(shù)據(jù)之前，就把分析建立在早已設(shè)立的少量假設(shè)的基礎(chǔ)之上。讓數(shù)據(jù)發(fā)聲，我們會(huì)注意到很多以前從來沒有意識(shí)到的聯(lián)系的存在。3.3.3思維轉(zhuǎn)變之三：數(shù)據(jù)的相關(guān)關(guān)系與常識(shí)相反，經(jīng)常憑借直覺而來的因果關(guān)系并沒有幫助我們加深對(duì)這個(gè)世界的理解。很多時(shí)候，這種認(rèn)知捷徑只是給了我們一種自己已經(jīng)理解的錯(cuò)覺，但實(shí)際上，我們因此完全陷入了理解誤區(qū)之中。就像采樣是我們無法處理全部數(shù)據(jù)時(shí)的捷徑一樣，這種找因果關(guān)系的方法也是我們大腦用來避免辛苦思考的捷徑。不像因果關(guān)系，證明相關(guān)關(guān)系的實(shí)驗(yàn)耗資少，費(fèi)時(shí)也少。與之相比，分析相關(guān)關(guān)系，我們既有數(shù)學(xué)方法，也有統(tǒng)計(jì)學(xué)方法，同時(shí)，數(shù)字工具也能幫我們準(zhǔn)確地找出相關(guān)關(guān)系。3.3.3思維轉(zhuǎn)變之三：數(shù)據(jù)的相關(guān)關(guān)系相關(guān)關(guān)系分析本身意義重大，同時(shí)它也為研究因果關(guān)系奠定了基礎(chǔ)。通過找出可能相關(guān)的事物，我們可以在此基礎(chǔ)上進(jìn)行進(jìn)一步的因果關(guān)系分析．如果存在因果關(guān)系的話，我們?cè)龠M(jìn)一步找出原因。這種便捷的機(jī)制通過實(shí)驗(yàn)降低了因果分析的成本。我們也可以從相互聯(lián)系中找到一些重要的變量，這些變量可以用到驗(yàn)證因果關(guān)系的實(shí)驗(yàn)中去?？墒牵覀儽仨毞浅ＵJ(rèn)真。相關(guān)關(guān)系很有用，不僅僅是因?yàn)樗転槲覀兲峁┬碌囊暯牵姨峁┑囊暯嵌己芮逦?。而我們一旦把因果關(guān)系考慮進(jìn)來，這些視角就有可能被蒙蔽掉。3.3.3思維轉(zhuǎn)變之三：數(shù)據(jù)的相關(guān)關(guān)系例如，Kaggle是一家為所有人提供數(shù)據(jù)挖掘競(jìng)賽平臺(tái)的公司，舉辦了關(guān)于二手車的質(zhì)量競(jìng)賽。經(jīng)銷商將二手車數(shù)據(jù)提供參加比賽二手車數(shù)據(jù)，統(tǒng)計(jì)學(xué)家們用這些數(shù)據(jù)建立一個(gè)算法系統(tǒng)來預(yù)測(cè)經(jīng)銷商拍賣的哪些車有可能出現(xiàn)質(zhì)量問題。相關(guān)關(guān)系分析表明，橙色的車有質(zhì)量問題的可能性只有其他車的一半。3.3.3思維轉(zhuǎn)變之三：數(shù)據(jù)的相關(guān)關(guān)系當(dāng)我們讀到這里的時(shí)候，不禁也會(huì)思考其中的原因。難道是因?yàn)槌壬嚨能囍鞲鼝圮嚕攒嚤槐Ｗo(hù)得更好嗎？或是這種顏色的車子在制造方面更精良些嗎？還是因?yàn)槌壬能嚫@眼、出車禍的概率更小，所以轉(zhuǎn)手的時(shí)候．各方面的性能保持得更好？3.3.3思維轉(zhuǎn)變之三：數(shù)據(jù)的相關(guān)關(guān)系馬上，我們就陷入了各種各樣謎一樣的假設(shè)中。若要找出相關(guān)關(guān)系，我們可以用數(shù)學(xué)方法，但如果是因果關(guān)系的話，這卻是行不通的。所以，我們沒必要一定要找出相關(guān)關(guān)系背后的原因，當(dāng)我們知道了“是什么”的時(shí)候，“為什么”其實(shí)沒那么重要了，否則就會(huì)催生一些滑稽的想法。比方說上面提到的例子里，我們是不是應(yīng)該建議車主把車漆成橙色呢？畢竟，這樣就說明車子的質(zhì)量更過硬??！3.3.3思維轉(zhuǎn)變之三：數(shù)據(jù)的相關(guān)關(guān)系考慮到這些，如果把以確鑿數(shù)據(jù)為基礎(chǔ)的相關(guān)關(guān)系和通過快速思維構(gòu)想出的因果關(guān)系相比的話，前者就更具有說服力。但在越來越多的情況下，快速清晰的相關(guān)關(guān)系分析甚至比慢速的因果分析更有用和更有效。慢速的因果分析集中體現(xiàn)為通過嚴(yán)格控制的實(shí)驗(yàn)來驗(yàn)證的因果關(guān)系，而這必然是非常耗時(shí)耗力的。3.3.3思維轉(zhuǎn)變之三：數(shù)據(jù)的相關(guān)關(guān)系近年來，科學(xué)家一直在試圖減少這些實(shí)驗(yàn)的花費(fèi)，比如說，通過巧妙地結(jié)合相似的調(diào)查，做成“類似實(shí)驗(yàn)”。這樣一來，因果關(guān)系的調(diào)查成本就降低，但還是很難與相關(guān)關(guān)系體現(xiàn)的優(yōu)越性相抗衡。還有，正如我們之前提到的，在專家進(jìn)行因果關(guān)系的調(diào)查時(shí)，相關(guān)關(guān)系分析本來就會(huì)起到幫助的作用。在大多數(shù)情況下，一旦我們完成了對(duì)大數(shù)據(jù)的相關(guān)關(guān)系分析，而又不再滿足于僅僅知道“是什么”時(shí)，我們就會(huì)繼續(xù)向更深層次研究因果關(guān)系，找出背后的“為什么”。3.3.3思維轉(zhuǎn)變之三：數(shù)據(jù)的相關(guān)關(guān)系因果關(guān)系還是有用的，但是它將不再被看成是意義來源的基礎(chǔ)。在大數(shù)據(jù)時(shí)代，即使很多情況下，我們依然指望用因果關(guān)系來說明我們所發(fā)現(xiàn)的相互聯(lián)系，但是，我們知道因果關(guān)系只是一種特殊的相關(guān)關(guān)系。相反，大數(shù)據(jù)推動(dòng)了相關(guān)關(guān)系分析。相關(guān)關(guān)系分析通常情況下能取代因果關(guān)系起作用，即使不可取代的情況下，它也能指導(dǎo)因果關(guān)系起作用。3.3.3思維轉(zhuǎn)變之三：數(shù)據(jù)的相關(guān)關(guān)系PART04大數(shù)據(jù)與人工智能人工智能和大數(shù)據(jù)是緊密相關(guān)的熱門技術(shù)，二者既有聯(lián)系，又有區(qū)別。人工智能的發(fā)展要早于大數(shù)據(jù)，在20世紀(jì)50年代就已經(jīng)開始，而大數(shù)據(jù)的概念直到2010年左右才形成。人工智能受到國(guó)人關(guān)注要遠(yuǎn)早于大數(shù)據(jù)，受到廣泛關(guān)注，其影響力要大于大數(shù)據(jù)。3.4大數(shù)據(jù)與人工智能在大數(shù)據(jù)時(shí)代，面對(duì)海量數(shù)據(jù)，傳統(tǒng)的人工智能算法所依賴的單機(jī)存儲(chǔ)和單機(jī)算法已經(jīng)無能為力，建立在集群技術(shù)之上的大數(shù)據(jù)技術(shù)（主要是分布式存儲(chǔ)和分布式計(jì)算），可以為人工智能提供強(qiáng)大的存儲(chǔ)能力和計(jì)算能力。人工智能，特別是機(jī)器學(xué)習(xí)，需要數(shù)據(jù)來建立其智能。例如，機(jī)器學(xué)習(xí)圖像識(shí)別應(yīng)用程序可以查看數(shù)以萬計(jì)的飛機(jī)圖像，了解飛機(jī)的構(gòu)成，以便將來能夠識(shí)別出它們。人工智能應(yīng)用的數(shù)據(jù)越多，其獲得的結(jié)果就越準(zhǔn)確。如今，大數(shù)據(jù)為人工智能提供了海量數(shù)據(jù)，使人工智能技術(shù)有了長(zhǎng)足發(fā)展，甚至可以說，沒有大數(shù)據(jù)就沒有人工智能。3.4.1人工智能與大數(shù)據(jù)的聯(lián)系人工智能技術(shù)立足于神經(jīng)網(wǎng)絡(luò)，同時(shí)發(fā)展出多層神經(jīng)網(wǎng)絡(luò)，從而可以進(jìn)行深度學(xué)習(xí)，決定了它更為靈活、且可以根據(jù)不同的訓(xùn)練數(shù)據(jù)而擁有自優(yōu)化的能力?！皺C(jī)器學(xué)習(xí)”“深度學(xué)習(xí)”“強(qiáng)化學(xué)習(xí)”等技術(shù)的發(fā)展推動(dòng)著人工智能的進(jìn)步。以計(jì)算機(jī)視覺為例，作為一個(gè)數(shù)據(jù)復(fù)雜領(lǐng)域，傳統(tǒng)的淺層算法識(shí)別準(zhǔn)確率并不高。自深度學(xué)習(xí)出現(xiàn)以后，基于尋找合適特征來讓機(jī)器識(shí)別物體，計(jì)算機(jī)視覺的圖像識(shí)別精準(zhǔn)度從70%提升到95%。人工智能的快速演進(jìn)，不僅需要理論研究，還需要大量的數(shù)據(jù)作為支撐。3.4.1人工智能與大數(shù)據(jù)的聯(lián)系人工智能與大數(shù)據(jù)存在著明顯的區(qū)別，人工智能是一種計(jì)算形式，它允許機(jī)器執(zhí)行認(rèn)知功能，例如對(duì)輸入起作用或做出反應(yīng)，類似于人類的做法。而大數(shù)據(jù)

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

人工智能通識(shí)教程第2版課件第3章大數(shù)據(jù)與人工智能

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

人工智能通識(shí)教程 第2版 課件 第3章 大數(shù)據(jù)與人工智能

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

人工智能通識(shí)教程第2版課件第3章大數(shù)據(jù)與人工智能