大數(shù)據(jù)導(dǎo)論(第2版) 課件 項(xiàng)目7 大數(shù)據(jù)分析技術(shù)_第1頁
大數(shù)據(jù)導(dǎo)論(第2版) 課件 項(xiàng)目7 大數(shù)據(jù)分析技術(shù)_第2頁
大數(shù)據(jù)導(dǎo)論(第2版) 課件 項(xiàng)目7 大數(shù)據(jù)分析技術(shù)_第3頁
大數(shù)據(jù)導(dǎo)論(第2版) 課件 項(xiàng)目7 大數(shù)據(jù)分析技術(shù)_第4頁
大數(shù)據(jù)導(dǎo)論(第2版) 課件 項(xiàng)目7 大數(shù)據(jù)分析技術(shù)_第5頁
已閱讀5頁,還剩177頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

項(xiàng)目7大數(shù)據(jù)分析技術(shù)目錄1任務(wù)7.1:了解大數(shù)據(jù)預(yù)測(cè)分析

【導(dǎo)讀案例】葡萄酒的品質(zhì)

【任務(wù)描述】

【知識(shí)準(zhǔn)備】大數(shù)據(jù)預(yù)測(cè)分析的內(nèi)容與技術(shù)【作業(yè)】【實(shí)訓(xùn)操作】大數(shù)據(jù)準(zhǔn)備度自我評(píng)分表2任務(wù)7.2:數(shù)據(jù)的內(nèi)在預(yù)測(cè)性3任務(wù)7.3:大數(shù)據(jù)分析的生命周期【導(dǎo)讀案例】葡萄酒的品質(zhì)討論:(1)請(qǐng)通過網(wǎng)絡(luò)搜索,詳細(xì)了解法國城市波爾多,了解其地理特點(diǎn)和波爾多葡萄酒,并就此做簡(jiǎn)單介紹。(2)對(duì)葡萄酒品質(zhì)的評(píng)價(jià),傳統(tǒng)方法的主要依據(jù)是什么?而奧利的預(yù)測(cè)方法是什么?(3)雖然后來的事實(shí)肯定了奧利的葡萄酒品質(zhì)預(yù)測(cè)方法,但這是否就意味著傳統(tǒng)品酒師的職業(yè)就沒有必要存在了?你認(rèn)為傳統(tǒng)方法和

大數(shù)據(jù)方法的關(guān)系應(yīng)該如何處理?(4)請(qǐng)簡(jiǎn)單記述你所知道的上一周內(nèi)發(fā)生的國際、國內(nèi)

或者身邊的大事?!救蝿?wù)描述】(1)通過學(xué)習(xí),熟悉什么是數(shù)據(jù)分析,什么是大數(shù)據(jù)分析,什么是預(yù)測(cè)分析?(2)熟悉定量分析與定性分析方法及其運(yùn)用。(3)了解數(shù)據(jù)挖掘與統(tǒng)計(jì)分析的重要概念與知識(shí)?!局R(shí)準(zhǔn)備】大數(shù)據(jù)預(yù)測(cè)分析的內(nèi)容與技術(shù)大數(shù)據(jù)分析結(jié)合了傳統(tǒng)統(tǒng)計(jì)分析方法和計(jì)算分析方法。當(dāng)整個(gè)數(shù)據(jù)集準(zhǔn)備好時(shí),從整體中統(tǒng)計(jì)抽樣的方法是理想的,這是典型的傳統(tǒng)批處理場(chǎng)景。然而,出于理解流式數(shù)據(jù)的需求,大數(shù)據(jù)可以從批處理轉(zhuǎn)換成實(shí)時(shí)處理。這些流式數(shù)據(jù)、數(shù)據(jù)集不停積累,并且以時(shí)間順序排序。由于分析結(jié)果有存儲(chǔ)期(保質(zhì)期),流式數(shù)據(jù)強(qiáng)調(diào)及時(shí)處理,無論是識(shí)別向當(dāng)前客戶繼續(xù)銷售的機(jī)會(huì),還是在工業(yè)環(huán)境中發(fā)覺異常情況后需要進(jìn)行干預(yù)以保護(hù)設(shè)備或保證產(chǎn)品質(zhì)量,時(shí)間都是至關(guān)重要的。什么是預(yù)測(cè)分析7.1.17.1.1什么是預(yù)測(cè)分析預(yù)測(cè)分析是一種統(tǒng)計(jì)或數(shù)據(jù)挖掘解決方案,可在結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中使用以確定未來結(jié)果的算法和技術(shù),用于預(yù)測(cè)、優(yōu)化、預(yù)報(bào)和模擬等許多用途。作為大數(shù)據(jù)時(shí)代的核心內(nèi)容,預(yù)測(cè)分析已在商業(yè)和社會(huì)中得到廣泛應(yīng)用。隨著越來越多的數(shù)據(jù)被記錄和整理,未來預(yù)測(cè)分析必定會(huì)成為所有領(lǐng)域的關(guān)鍵技術(shù)。7.1.1什么是預(yù)測(cè)分析1.預(yù)測(cè)分析的作用預(yù)測(cè)分析和假設(shè)情況分析可幫助用戶評(píng)審和權(quán)衡潛在決策的影響力,用來分析歷史模式和概率,以預(yù)測(cè)未來業(yè)績(jī)并采取預(yù)防措施。其主要作用包括:(1)決策管理。決策管理是用來優(yōu)化并自動(dòng)化業(yè)務(wù)決策的一種卓有成效的成熟方法。決策管理通過預(yù)測(cè)分析讓組織能夠在制定決策以前有所行動(dòng),以便預(yù)測(cè)哪些行動(dòng)在將來最有可能獲得成功,優(yōu)化成果并解決特定的業(yè)務(wù)問題。7.1.1什么是預(yù)測(cè)分析決策管理包括管理自動(dòng)化決策設(shè)計(jì)和部署的各個(gè)方面,供組織管理其與客戶、員工和供應(yīng)商的交互。從本質(zhì)上講,決策管理使優(yōu)化的決策成為企業(yè)業(yè)務(wù)流程的一部分。由于閉環(huán)系統(tǒng)不斷將有價(jià)值的反饋納入到?jīng)Q策制定過程中,所以,對(duì)于希望對(duì)變化的環(huán)境做出即時(shí)反應(yīng)并最大化每個(gè)決策的組織來說,它是非常理想的方法。7.1.1什么是預(yù)測(cè)分析當(dāng)今世界,競(jìng)爭(zhēng)的最大挑戰(zhàn)之一是組織如何在決策制定過程中更好地利用數(shù)據(jù)??捎糜谄髽I(yè)以及由企業(yè)生成的數(shù)據(jù)量非常高且以驚人的速度增長(zhǎng),而與此同時(shí),基于此數(shù)據(jù)制定決策的時(shí)間段卻非常短,且有日益縮短的趨勢(shì)。雖然業(yè)務(wù)經(jīng)理可能可以利用大量報(bào)告和儀表板來監(jiān)控業(yè)務(wù)環(huán)境,但是使用此信息來指導(dǎo)業(yè)務(wù)流程和客戶互動(dòng)的關(guān)鍵步驟通常是手動(dòng)的,因而不能及時(shí)響應(yīng)變化的環(huán)境。希望獲得競(jìng)爭(zhēng)優(yōu)勢(shì)的組織必須尋找更好的方式。決策管理使用決策流程框架和分析來優(yōu)化并自動(dòng)化決策,通常專注于大批量決策并使用基于規(guī)則和基于分析模型的應(yīng)用程序?qū)崿F(xiàn)決策。對(duì)于傳統(tǒng)上使用歷史數(shù)據(jù)和靜態(tài)信息作為業(yè)務(wù)決策基礎(chǔ)的組織來說這是一個(gè)突破性的進(jìn)展。7.1.1什么是預(yù)測(cè)分析(2)滾動(dòng)預(yù)測(cè)。預(yù)測(cè)是定期更新對(duì)未來績(jī)效的當(dāng)前觀點(diǎn),以反映新的或變化中的信息的過程,是基于分析當(dāng)前和歷史數(shù)據(jù)來決定未來趨勢(shì)的過程。為應(yīng)對(duì)這一需求,許多公司正在逐步采用滾動(dòng)預(yù)測(cè)方法。7×24小時(shí)的業(yè)務(wù)運(yùn)營(yíng)影響造就了一個(gè)持續(xù)而又瞬息萬變的環(huán)境,風(fēng)險(xiǎn)、波動(dòng)和不確定性持續(xù)不斷。并且,任何經(jīng)濟(jì)動(dòng)蕩都具有近乎實(shí)時(shí)的深遠(yuǎn)影響。毫無疑問,對(duì)于這種變化感受最深的是CFO(財(cái)務(wù)總監(jiān))和財(cái)務(wù)部門。雖然業(yè)務(wù)戰(zhàn)略、產(chǎn)品定位、運(yùn)營(yíng)時(shí)間和產(chǎn)品線改進(jìn)的決策可能是在財(cái)務(wù)部門外部做出,但制定這些決策的基礎(chǔ)是財(cái)務(wù)團(tuán)隊(duì)使用績(jī)效報(bào)告和預(yù)測(cè)提供的關(guān)鍵數(shù)據(jù)和分析。具有前瞻性的財(cái)務(wù)團(tuán)隊(duì)意識(shí)到傳統(tǒng)的戰(zhàn)略預(yù)測(cè)不能完成這一任務(wù),他們正在迅速采用更加動(dòng)態(tài)的、滾動(dòng)的和基于驅(qū)動(dòng)因子的方法。7.1.1什么是預(yù)測(cè)分析在這種環(huán)境中,預(yù)測(cè)變?yōu)橐粋€(gè)極其重要的管理過程。為了抓住正確的機(jī)遇,為了滿足投資者的要求,以及在風(fēng)險(xiǎn)出現(xiàn)時(shí)對(duì)其進(jìn)行識(shí)別,很關(guān)鍵的一點(diǎn)就是深入了解潛在的未來發(fā)展,管理不能再依賴于傳統(tǒng)的管理工具。在應(yīng)對(duì)過程中,越來越多的企業(yè)已經(jīng)或者正準(zhǔn)備從靜態(tài)預(yù)測(cè)模型轉(zhuǎn)型到一個(gè)利用滾動(dòng)時(shí)間范圍的預(yù)測(cè)模型。采取滾動(dòng)預(yù)測(cè)的公司往往有更高的預(yù)測(cè)精度,更快的循環(huán)時(shí)間,更好的業(yè)務(wù)參與度和更多明智的決策制定。滾動(dòng)預(yù)測(cè)可以對(duì)業(yè)務(wù)績(jī)效進(jìn)行前瞻性預(yù)測(cè);為未來計(jì)劃周期提供一個(gè)基線;捕獲變化帶來的長(zhǎng)期影響;與靜態(tài)年度預(yù)測(cè)相比,滾動(dòng)預(yù)測(cè)能夠在覺察到業(yè)務(wù)決策制定的時(shí)間點(diǎn)得到定期更新,并減輕財(cái)務(wù)團(tuán)隊(duì)巨大的行政負(fù)擔(dān)。7.1.1什么是預(yù)測(cè)分析(3)預(yù)測(cè)分析與自適應(yīng)管理。穩(wěn)定、持續(xù)變化的工業(yè)時(shí)代已經(jīng)遠(yuǎn)去,現(xiàn)在是一個(gè)不可預(yù)測(cè)、非持續(xù)變化的信息時(shí)代。未來還將變得更加無法預(yù)測(cè),企業(yè)員工需要具備更高技能,創(chuàng)新的步伐將進(jìn)一步加快,價(jià)格將會(huì)更低,顧客將具有更多發(fā)言權(quán)。7.1.1什么是預(yù)測(cè)分析為了應(yīng)對(duì)這些變化,CFO(財(cái)務(wù)總監(jiān))們需要一個(gè)能讓各級(jí)經(jīng)理快速做出明智決策的系統(tǒng)。他們必須將年度計(jì)劃周期替換為更加常規(guī)的業(yè)務(wù)審核,通過滾動(dòng)預(yù)測(cè)提供支持,讓經(jīng)理能夠看到趨勢(shì)和模式,在競(jìng)爭(zhēng)對(duì)手之前取得突破,在產(chǎn)品與市場(chǎng)方面做出更明智決策。具體來說,CFO需要通過持續(xù)計(jì)劃周期進(jìn)行管理,讓滾動(dòng)預(yù)測(cè)成為主要的管理工具,每天和每周報(bào)告關(guān)鍵指標(biāo)。同時(shí)需要注意使用滾動(dòng)預(yù)測(cè)改進(jìn)短期可見性,并將預(yù)測(cè)作為管理手段,而不是度量方法。7.1.1什么是預(yù)測(cè)分析2.行業(yè)應(yīng)用舉例(1)預(yù)測(cè)分析幫助制造業(yè)高效維護(hù)運(yùn)營(yíng)并更好地控制成本。一直以來,制造業(yè)面臨的挑戰(zhàn)是在生產(chǎn)優(yōu)質(zhì)商品的同時(shí)在每一步流程中優(yōu)化資源。多年來,制造商已經(jīng)制定了一系列成熟的方法來控制質(zhì)量、管理供應(yīng)鏈和維護(hù)設(shè)備。如今,面對(duì)著持續(xù)的成本控制工作,工廠管理人員、維護(hù)工程師和質(zhì)量控制的監(jiān)督執(zhí)行人員都希望知道如何在維持質(zhì)量標(biāo)準(zhǔn)的同時(shí)避免昂貴的非計(jì)劃停機(jī)時(shí)間或設(shè)備故障,以及如何控制維護(hù)、修理和大修業(yè)務(wù)的人力和庫存成本。此外,財(cái)務(wù)和客戶服務(wù)部門的管理人員,以及最終的高管級(jí)別的管理人員,與生產(chǎn)流程能否很好地交付成品息息相關(guān)。7.1.1什么是預(yù)測(cè)分析(2)犯罪預(yù)測(cè)與預(yù)防,預(yù)測(cè)分析利用先進(jìn)的分析技術(shù)營(yíng)造安全的公共環(huán)境。為確保公共安全,執(zhí)法人員一直主要依靠個(gè)人直覺和可用信息來完成任務(wù)。為了能夠更加智慧地工作,許多警務(wù)組織正在充分合理地利用他們獲得和存儲(chǔ)的結(jié)構(gòu)化信息(如犯罪和罪犯數(shù)據(jù))和非結(jié)構(gòu)化信息(在溝通和監(jiān)督過程中取得的影音資料)。通過匯總、分析這些龐大的數(shù)據(jù),得出的信息不僅有助于了解過去發(fā)生的情況,還能夠幫助預(yù)測(cè)將來可能發(fā)生的事件。7.1.1什么是預(yù)測(cè)分析利用歷史犯罪事件、檔案資料、地圖和類型學(xué)以及誘發(fā)因素(如天氣)和觸發(fā)事件(如假期或發(fā)薪日)等數(shù)據(jù),警務(wù)人員將可以:確定暴力犯罪頻繁發(fā)生的區(qū)域;將地區(qū)性或全國性流氓團(tuán)伙活動(dòng)與本地事件進(jìn)行匹配;剖析犯罪行為以發(fā)現(xiàn)相似點(diǎn),將犯罪行為與有犯罪記錄的罪犯掛鉤;找出最可能誘發(fā)暴力犯罪的條件,預(yù)測(cè)將來可能發(fā)生這些犯罪活動(dòng)的時(shí)間和地點(diǎn);確定重新犯罪的可能性。7.1.1什么是預(yù)測(cè)分析(3)預(yù)測(cè)分析幫助電信運(yùn)營(yíng)商更深入了解客戶。受技術(shù)和法規(guī)要求的推動(dòng),以及基于互聯(lián)網(wǎng)的通信服務(wù)提供商和模式的新型生態(tài)系統(tǒng)的出現(xiàn),電信提供商要想獲得新的價(jià)值來源,需要對(duì)業(yè)務(wù)模式做出根本性的轉(zhuǎn)變,并且必須有能力將戰(zhàn)略資產(chǎn)和客戶關(guān)系與旨在抓住新市場(chǎng)機(jī)遇的創(chuàng)新相結(jié)合。預(yù)測(cè)和管理變革的能力將是未來電信服務(wù)提供商的關(guān)鍵能力。數(shù)據(jù)具有內(nèi)在預(yù)測(cè)性7.1.27.1.2數(shù)據(jù)具有內(nèi)在預(yù)測(cè)性大部分?jǐn)?shù)據(jù)的堆積都不是為了預(yù)測(cè),但預(yù)測(cè)分析系統(tǒng)能從這些龐大的數(shù)據(jù)中學(xué)到預(yù)測(cè)未來的能力,正如人們可以從自己的經(jīng)歷中汲取經(jīng)驗(yàn)教訓(xùn)那樣。數(shù)據(jù)最激動(dòng)人心的不是其數(shù)量,而是其增長(zhǎng)速度。我們會(huì)敬畏數(shù)據(jù)的龐大數(shù)量,今天的數(shù)據(jù)必然比昨天多。但規(guī)模是相對(duì)的,而不是絕對(duì)的。數(shù)據(jù)規(guī)模并不重要,重要的是其膨脹速度。7.1.2數(shù)據(jù)具有內(nèi)在預(yù)測(cè)性世上萬物均有關(guān)聯(lián),這在數(shù)據(jù)中也有反映。例如:你的購買行為與你的消費(fèi)歷史、在線習(xí)慣、支付方式以及社會(huì)交往人群相關(guān)。數(shù)據(jù)能從這些因素中預(yù)測(cè)出消費(fèi)者的行為。你的身體健康狀況與生命選擇和環(huán)境有關(guān),因此數(shù)據(jù)能通過小區(qū)以及家庭規(guī)模等信息來預(yù)測(cè)你的健康狀態(tài)。你對(duì)工作的滿意程度與你的工資水平、表現(xiàn)評(píng)定以及升職情況相關(guān),而數(shù)據(jù)則能反映這些現(xiàn)實(shí)。經(jīng)濟(jì)行為與人類情感相關(guān),因此數(shù)據(jù)也將反映這種關(guān)系。7.1.2數(shù)據(jù)具有內(nèi)在預(yù)測(cè)性數(shù)據(jù)科學(xué)家通過預(yù)測(cè)分析系統(tǒng)不斷地從數(shù)據(jù)堆中找到規(guī)律。如果將數(shù)據(jù)整合在一起,盡管你不知道自己將從這些數(shù)據(jù)里發(fā)現(xiàn)什么,你至少能通過觀測(cè)解讀數(shù)據(jù)語言來發(fā)現(xiàn)某些內(nèi)在聯(lián)系。數(shù)據(jù)效應(yīng)就是這么簡(jiǎn)單。預(yù)測(cè)常常是從小處入手。預(yù)測(cè)分析是從預(yù)測(cè)變量開始的,這是對(duì)個(gè)人單一值的評(píng)測(cè)。近期性就是一個(gè)常見的變量,表示某人最近一次購物、最近一次犯罪或最近一次發(fā)病到現(xiàn)在的時(shí)間,近期值越接近現(xiàn)在,觀察對(duì)象再次采取行動(dòng)的概率就越高。許多模型的應(yīng)用都是從近期表現(xiàn)最積極的人群開始的,無論是試圖建立聯(lián)系、開展犯罪調(diào)查還是進(jìn)行醫(yī)療診斷。7.1.2數(shù)據(jù)具有內(nèi)在預(yù)測(cè)性與此相似,頻率一一描述某人做出相同行為的次數(shù)也是常見且富有成效的指標(biāo)。如果有人此前經(jīng)常做某事,那么他再次做這件事的概率就會(huì)很高。實(shí)際上,預(yù)測(cè)就是根據(jù)人的過去行為來預(yù)見其未來行為。因此,預(yù)測(cè)分析模型不僅要靠那些枯燥的基本人口數(shù)據(jù),例如住址、性別等,而且也要涵蓋近期性、頻率、購買行為、經(jīng)濟(jì)行為以及電話和上網(wǎng)等產(chǎn)品使用習(xí)慣之類的行為預(yù)測(cè)變量。這些行為通常是最有價(jià)值的,因?yàn)槲覀円A(yù)測(cè)的就是未來是否還會(huì)出現(xiàn)這些行為,這就是通過行為來預(yù)測(cè)行為的過程。正如哲學(xué)家薩特所言:“人的自我由其行為決定?!?.1.2數(shù)據(jù)具有內(nèi)在預(yù)測(cè)性預(yù)測(cè)分析系統(tǒng)會(huì)綜合考慮數(shù)十項(xiàng)甚至數(shù)百項(xiàng)預(yù)測(cè)變量。你要把個(gè)人的全部已知數(shù)據(jù)都輸入系統(tǒng),然后等著系統(tǒng)運(yùn)轉(zhuǎn)。系統(tǒng)內(nèi)綜合考量這些因素的核心學(xué)習(xí)技術(shù)正是科學(xué)的魔力所在。定量分析與定性分析7.1.37.1.3定量分析與定性分析定量分析與定性分析都是一種數(shù)據(jù)分析技術(shù)。其中,定量分析專注于量化從數(shù)據(jù)中發(fā)現(xiàn)的模式和關(guān)聯(lián)。基于統(tǒng)計(jì)實(shí)踐,這項(xiàng)技術(shù)涉及分析大量從數(shù)據(jù)集中所得的觀測(cè)結(jié)果。因?yàn)闃颖救萘繕O大,其結(jié)果可以被推廣,在整個(gè)數(shù)據(jù)集中都適用。定量分析結(jié)果是絕對(duì)數(shù)值型的,因此可以被用在數(shù)值比較上。例如,對(duì)于冰激凌銷量的定量分析可能發(fā)現(xiàn):溫度上升5度,冰激凌銷量提升15%。7.1.3定量分析與定性分析定性分析專注于用語言描述不同數(shù)據(jù)的質(zhì)量。與定量分析相對(duì)比,定性分析涉及分析相對(duì)小而深入的樣本。由于樣本很小,這些分析結(jié)果不能被適用于整個(gè)數(shù)據(jù)集中。它們也不能測(cè)量數(shù)值或用于數(shù)值比較。例如,冰激凌銷量分析可能揭示了五月份銷量圖不像六月份一樣高。分析結(jié)果僅僅說明了“不像它一樣高”,而并未提供數(shù)字偏差。定性分析的結(jié)果是描述性的,即用語言對(duì)關(guān)系的描述,這個(gè)定性結(jié)果不能適用于整個(gè)數(shù)據(jù)集。數(shù)據(jù)挖掘7.1.47.1.4數(shù)據(jù)挖掘數(shù)據(jù)挖掘,也叫做數(shù)據(jù)發(fā)現(xiàn),是一種針對(duì)大型數(shù)據(jù)集的數(shù)據(jù)分析的特殊形式。當(dāng)提到與大數(shù)據(jù)的關(guān)系時(shí),數(shù)據(jù)挖掘通常指的是自動(dòng)的、基于軟件技術(shù)的、篩選海量數(shù)據(jù)集來識(shí)別模式和趨勢(shì)的技術(shù)。特別是為了識(shí)別以前未知的模式,數(shù)據(jù)挖掘涉及提取數(shù)據(jù)中的隱藏或未知模式。數(shù)據(jù)挖掘形成了預(yù)測(cè)分析和商務(wù)智能的基礎(chǔ)。所謂鏈接挖掘(LinkMining),是對(duì)SNS(社會(huì)性網(wǎng)絡(luò)軟件)、網(wǎng)頁之間的鏈接結(jié)構(gòu)、郵件的收發(fā)件關(guān)系、論文的引用關(guān)系等各種網(wǎng)絡(luò)中的相互聯(lián)系進(jìn)行分析的一種挖掘技術(shù)。特別是最近,這種技術(shù)被應(yīng)用在SNS中,如“你可能認(rèn)識(shí)的人”推薦功能,以及用于找到影響力較大的風(fēng)云人物。7.1.4數(shù)據(jù)挖掘SNS是一個(gè)采用分布式技術(shù),通俗地說是依據(jù)六度理論(見圖),采用點(diǎn)對(duì)點(diǎn)技術(shù),構(gòu)建的下一代基于個(gè)人的網(wǎng)絡(luò)基礎(chǔ)軟件。SNS通過分布式軟件編程,將現(xiàn)在分散在每個(gè)人的設(shè)備上的CPU、硬盤、帶寬進(jìn)行統(tǒng)籌安排,并賦予這些相對(duì)服務(wù)器來說很渺小的設(shè)備更強(qiáng)

大的能力。這些能力包括:計(jì)算速度,

通信速度,存儲(chǔ)空間。圖7-4SNS7.1.4數(shù)據(jù)挖掘在互聯(lián)網(wǎng)中,PC機(jī)、智能手機(jī)都沒有強(qiáng)大的計(jì)算及帶寬資源,它們依靠網(wǎng)絡(luò)服務(wù)器才能瀏覽發(fā)布信息。如果將每個(gè)設(shè)備的計(jì)算及帶寬資源進(jìn)行重新分配與共享,這些設(shè)備就有可能具備比那些服務(wù)器更為強(qiáng)大的能力。這就是分布計(jì)算理論誕生的根源,是SNS技術(shù)誕生的理論基礎(chǔ)。統(tǒng)計(jì)分析7.1.57.1.5統(tǒng)計(jì)分析統(tǒng)計(jì)分析用以數(shù)學(xué)公式為手段的統(tǒng)計(jì)方法來分析數(shù)據(jù)。統(tǒng)計(jì)方法大多是定量的,但也可以是定性的。這種分析通常通過概述來描述數(shù)據(jù)集,比如提供與數(shù)據(jù)集相關(guān)的統(tǒng)計(jì)數(shù)據(jù)的平均值、中位數(shù)或眾數(shù)。它也可以被用于推斷數(shù)據(jù)集中的模式和關(guān)系,例如回歸性分析和相關(guān)性分析。7.1.5統(tǒng)計(jì)分析1.A/B測(cè)試A/B測(cè)試,也被稱為分割測(cè)試或木桶測(cè)試,是指在網(wǎng)站優(yōu)化的過程中,同時(shí)提供多個(gè)版本(如版本A和版本B,見圖),并對(duì)各自的好評(píng)程度進(jìn)行測(cè)試的方法。每個(gè)版本中的頁面內(nèi)容、設(shè)計(jì)、布局、文案等要素都有所不同,通過對(duì)比實(shí)際的點(diǎn)擊量和轉(zhuǎn)化率,

就可以判斷哪一個(gè)更加優(yōu)秀。圖7-5A/B測(cè)試7.1.5統(tǒng)計(jì)分析A/B測(cè)試根據(jù)預(yù)先定義的標(biāo)準(zhǔn),比較一個(gè)元素的兩個(gè)版本以確定哪個(gè)版本更好。這個(gè)元素可以有多種類型,它可以是具體內(nèi)容,例如網(wǎng)頁,或者是提供的產(chǎn)品或者服務(wù),例如電子產(chǎn)品的交易。現(xiàn)有元素版本叫做控制版本,反之改良的版本叫做處理版本。兩個(gè)版本同時(shí)進(jìn)行一項(xiàng)實(shí)驗(yàn),記錄觀察結(jié)果來確定哪個(gè)版本更成功。7.1.5統(tǒng)計(jì)分析盡管A/B測(cè)試幾乎適用于任何領(lǐng)域,它最常被用于市場(chǎng)營(yíng)銷。通常,目的是用增加銷量的目標(biāo)來測(cè)量人類行為。例如,為了確定A公司網(wǎng)站上冰激凌廣告可能的最好布局,使用兩個(gè)不同版本的廣告。版本A是現(xiàn)存的廣告(控制版本),版本B的布局被做了輕微的調(diào)整(處理版本)。然后將兩個(gè)版本同時(shí)呈獻(xiàn)給不同的用戶:A版本給A組B版本給B組結(jié)果分析揭示了相比于A版本的廣告,B版本的廣告促進(jìn)了更多的銷量。7.1.5統(tǒng)計(jì)分析在其他領(lǐng)域,如科學(xué)領(lǐng)域,目標(biāo)可能僅僅是觀察哪個(gè)版本運(yùn)行得更好,用來提升流程或產(chǎn)品。A/B測(cè)試適用的樣例問題可以為:新版藥物比舊版更好嗎?用戶會(huì)對(duì)郵件或電子郵件發(fā)送的廣告有更好的反響嗎?網(wǎng)站新設(shè)計(jì)的首頁會(huì)產(chǎn)生更多的用戶流量嗎?雖然都是大數(shù)據(jù),但傳感器數(shù)據(jù)和SNS數(shù)據(jù),在各自數(shù)據(jù)的獲取方法和分析方法上是有所區(qū)別的。SNS需要從用戶發(fā)布的龐大文本數(shù)據(jù)中提煉出自己所需要的信息,并通過文本挖掘和語義檢索等技術(shù),由機(jī)器對(duì)用戶要表達(dá)的意圖進(jìn)行自動(dòng)分析。7.1.5統(tǒng)計(jì)分析在支撐大數(shù)據(jù)的技術(shù)中,雖然Hadoop、分析型數(shù)據(jù)庫等基礎(chǔ)技術(shù)是不容忽視的,但即便這些技術(shù)對(duì)提高處理的速度做出了很大的貢獻(xiàn),僅靠其本身并不能產(chǎn)生商業(yè)上的價(jià)值。從在商業(yè)上利用大數(shù)據(jù)的角度來看,像自然語言處理、語義技術(shù)、統(tǒng)計(jì)分析等,能夠從個(gè)別數(shù)據(jù)總結(jié)出有用信息的技術(shù),也需要重視起來。7.1.5統(tǒng)計(jì)分析2.相關(guān)性分析相關(guān)性分析是一種用來確定兩個(gè)變量是否互相有關(guān)系的技術(shù)。如果發(fā)現(xiàn)它們有關(guān),下一步是確定它們之間是什么關(guān)系。例如,變量B無論何時(shí)增長(zhǎng),變量A都會(huì)增長(zhǎng),更進(jìn)一步,我們可能會(huì)探究變量A與變量B的關(guān)系到底如何,這就意味著我們也想分析變量A增長(zhǎng)與變量B增長(zhǎng)的相關(guān)程度。7.1.5統(tǒng)計(jì)分析利用相關(guān)性分析可以幫助形成對(duì)數(shù)據(jù)集的理解,并且發(fā)現(xiàn)可以幫助解釋一個(gè)現(xiàn)象的關(guān)聯(lián)。因此相關(guān)性分析常被用來做數(shù)據(jù)挖掘,也就是識(shí)別數(shù)據(jù)集中變量之間的關(guān)系來發(fā)現(xiàn)模式和異常。這可以揭示數(shù)據(jù)集的本質(zhì)或現(xiàn)象的原因。當(dāng)兩個(gè)變量被認(rèn)為有關(guān)時(shí),基于線性關(guān)系它們保持一致。這就意味著當(dāng)一個(gè)變量改變,另一個(gè)變量也會(huì)恒定地成比例地改變。相關(guān)性用一個(gè)-1到+1之間的十進(jìn)制數(shù)來表示,它也被叫做相關(guān)系數(shù)。當(dāng)數(shù)字從-1到0或從+1到0改變時(shí),關(guān)系程度由強(qiáng)變?nèi)酢?.1.5統(tǒng)計(jì)分析圖7-6描述了+1的相關(guān)性,表明兩個(gè)變量之間呈正相關(guān)關(guān)系。

圖7-6當(dāng)一個(gè)變量增大,圖7-7當(dāng)一個(gè)變量增大,圖7-8當(dāng)一個(gè)變量增大,另一個(gè)也增大,反之亦然另一個(gè)保持不變或者無另一個(gè)減小,反之亦然

規(guī)律地增大或者減少7.1.5統(tǒng)計(jì)分析圖7-7描述了0的相關(guān)性,表明兩個(gè)變量之間沒有關(guān)系。圖7-8描述了-1的相關(guān)性,表明兩個(gè)變量之間呈負(fù)相關(guān)關(guān)系。例如,經(jīng)理們認(rèn)為冰激凌商店需要在天氣熱的時(shí)候存儲(chǔ)更多的冰激凌,但是不知道要多存多少。為了確定天氣和冰激凌銷量之間是否存在關(guān)系,分析師首先對(duì)出售的冰激凌數(shù)量和溫度記錄用了相關(guān)性分析,得出的值為+0.75,表明兩者之間確實(shí)存在正相關(guān),這種關(guān)系表明當(dāng)溫度升高,冰激凌賣得更好。7.1.5統(tǒng)計(jì)分析相關(guān)性分析適用的樣例問題可以是:離大海的距離遠(yuǎn)近會(huì)影響一個(gè)城市的溫度高低嗎?在小學(xué)表現(xiàn)好的學(xué)生在高中也會(huì)同樣表現(xiàn)很好嗎?肥胖癥和過度飲食有怎樣的關(guān)聯(lián)?7.1.5統(tǒng)計(jì)分析3.回歸性分析回歸性分析技術(shù)旨在探尋在一個(gè)數(shù)據(jù)集內(nèi)一個(gè)因變量與自變量的關(guān)系。在一個(gè)示例場(chǎng)景中,回歸性分析可以幫助確定溫度(自變量)和作物產(chǎn)量(因變量)之間存在的關(guān)系類型。利用此項(xiàng)技術(shù)幫助確定自變量變化時(shí),因變量的值如何變化。例如,當(dāng)自變量增加,因變量是否會(huì)增加?如果是,增加是線性的還是非線性的?例如,為了決定冰激凌店要多備多少庫存,分析師通過插入溫度值來進(jìn)行回歸性分析。將這些基于天氣預(yù)報(bào)的值作為自變量,將冰激凌出售量作為因變量。分析師發(fā)現(xiàn)溫度每上升5度,就需要15%的附加庫存。7.1.5統(tǒng)計(jì)分析多個(gè)自變量可以同時(shí)被測(cè)試。然而,在這種情況下,只有一個(gè)自變量可能改變,其他的保持不變?;貧w性分析可以幫助更好地理解一個(gè)現(xiàn)象是什么以及現(xiàn)象是怎么發(fā)生的。它也可以用來預(yù)測(cè)因變量的值。如圖7-9所示,線性回歸表示一個(gè)恒定的變化速率。圖7-9線性回歸圖7-10非線性回歸7.1.5統(tǒng)計(jì)分析如圖7-10所示,非線性回歸表示一個(gè)可變的變化速率。其中,回歸性分析適用的樣例問題可以是:一個(gè)離海250英里的城市的溫度會(huì)是怎樣的?基于小學(xué)成績(jī),一個(gè)學(xué)生的高中成績(jī)會(huì)是怎樣的?基于食物的攝入量,一個(gè)人肥胖的幾率是怎樣的?回歸性分析和相關(guān)性分析相互聯(lián)系,而又有區(qū)別。相關(guān)性分析并不意味著因果關(guān)系。一個(gè)變量的變化可能并不是另一個(gè)變量變化的原因,雖然兩者可能同時(shí)變化。這種情況的發(fā)生可能是由于未知的第三變量,也被稱為混雜因子。相關(guān)性假設(shè)這兩個(gè)變量是獨(dú)立的。7.1.5統(tǒng)計(jì)分析然而,回歸性分析適用于之前已經(jīng)被識(shí)別作為自變量和因變量的變量,并且意味著變量之間有一定程度的因果關(guān)系??赡苁侵苯踊蜷g接的因果關(guān)系。在大數(shù)據(jù)中,相關(guān)性分析可以首先讓用戶發(fā)現(xiàn)關(guān)系的存在。回歸性分析可以用于進(jìn)一步探索關(guān)系并且基于自變量的值來預(yù)測(cè)因變量的值?!咀鳂I(yè)】討論:【實(shí)訓(xùn)操作】大數(shù)據(jù)準(zhǔn)備度自我評(píng)分表討論:目錄1任務(wù)7.1:了解大數(shù)據(jù)預(yù)測(cè)分析2任務(wù)7.2數(shù)據(jù)的內(nèi)在預(yù)測(cè)性

【導(dǎo)讀案例】英國脫歐:精英主義的歷史性潰敗

【任務(wù)描述】【知識(shí)準(zhǔn)備】數(shù)據(jù)的內(nèi)在預(yù)測(cè)能力【作業(yè)】【實(shí)訓(xùn)操作】熟悉ETI企業(yè)采用的分析技術(shù)3任務(wù)7.3:大數(shù)據(jù)分析的生命周期【導(dǎo)讀案例】英國脫歐:精英主義的歷史性潰敗討論:(1)英國公投脫歐,為什么當(dāng)時(shí)金融市場(chǎng)和博彩公司都看走眼了?請(qǐng)簡(jiǎn)單闡述之。(2)英國頭歐公投,表現(xiàn)出精英主義的潰敗,人們認(rèn)為這“在很大程度上是自找的,解決問題需要非常深刻的反思”。為什么這么說?請(qǐng)說說你的看法。【導(dǎo)讀案例】英國脫歐:精英主義的歷史性潰敗討論:(3)表現(xiàn)英國公投脫歐的一些大數(shù)據(jù)可視化圖片很好地反映了這么一個(gè)大事件。圖7-11與圖7-12你讀懂了嗎?你對(duì)大數(shù)據(jù)可視化以及大數(shù)據(jù)可視化技術(shù)有什么認(rèn)識(shí)?(4)請(qǐng)簡(jiǎn)單記述你所知道的上一周內(nèi)發(fā)生的國際、國內(nèi)或者身邊的大事?!救蝿?wù)描述】(1)通過學(xué)習(xí),熟悉大數(shù)據(jù)分析技術(shù)的創(chuàng)新應(yīng)用,理解機(jī)器學(xué)習(xí)、語義分析等前沿技術(shù),熟悉人工智能技術(shù)在數(shù)據(jù)挖掘等大數(shù)據(jù)分析中的應(yīng)用。(2)熟悉視覺分析的數(shù)據(jù)分析方法,了解視覺分析的主要應(yīng)用類型。(3)熟悉情感分析這種特殊的文本分析方法,了解自然語言語境中的文本分析?!局R(shí)準(zhǔn)備】數(shù)據(jù)的內(nèi)在預(yù)測(cè)能力機(jī)器學(xué)習(xí)(MachineLearning,ML)是一門涉及到概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多領(lǐng)域的交叉學(xué)科,。專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。機(jī)器學(xué)習(xí)是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域,它主要使用歸納、綜合而不是演繹?!局R(shí)準(zhǔn)備】數(shù)據(jù)的內(nèi)在預(yù)測(cè)能力在類似于大數(shù)據(jù)的,任何快速發(fā)展的領(lǐng)域中,存在著很多的創(chuàng)新機(jī)會(huì)。例如,對(duì)于一個(gè)給定的分析問題,如何最好地結(jié)合統(tǒng)計(jì)和計(jì)算方法。統(tǒng)計(jì)學(xué)技術(shù)通常是探索性數(shù)據(jù)分析的優(yōu)選,之后利用在一個(gè)數(shù)據(jù)集上通過統(tǒng)計(jì)學(xué)研究獲得的啟示,使得計(jì)算技術(shù)得以應(yīng)用。由此,從批處理到實(shí)時(shí)的轉(zhuǎn)換帶來了其他的挑戰(zhàn),例如實(shí)時(shí)技術(shù)需要利用高效的計(jì)算算法?!局R(shí)準(zhǔn)備】數(shù)據(jù)的內(nèi)在預(yù)測(cè)能力找到最佳方法去平衡分析結(jié)果的準(zhǔn)確性和算法運(yùn)行的時(shí)間是一個(gè)挑戰(zhàn)。在很多情況下,估值法是有效的。從存儲(chǔ)的角度來看,用到了RAM、固態(tài)硬盤和硬盤驅(qū)動(dòng)器的多層存儲(chǔ)解決方案可以提供短期靈活性以及具有長(zhǎng)期的、高效持久儲(chǔ)存的實(shí)時(shí)分析能力。從長(zhǎng)遠(yuǎn)來看,一個(gè)組織將會(huì)以兩種不同的速度來操作大數(shù)據(jù)分析引擎:當(dāng)流數(shù)據(jù)到來時(shí)進(jìn)行處理,或?qū)?shù)據(jù)進(jìn)行批量分析,通過數(shù)據(jù)的累計(jì)來尋找模式和趨勢(shì)。機(jī)器學(xué)習(xí)7.2.17.2.1機(jī)器學(xué)習(xí)人類善于發(fā)現(xiàn)數(shù)據(jù)中的模式與關(guān)系,不幸的是,我們不能快速地處理大量的數(shù)據(jù)。另一方面,機(jī)器非常善于迅速處理大量數(shù)據(jù),但它們得知道怎么做。如果人類知識(shí)可以和機(jī)器的處理速度相結(jié)合,機(jī)器可以處理大量數(shù)據(jù)而不需要人類干涉。這就是機(jī)器學(xué)習(xí)的基本概念。機(jī)器學(xué)習(xí)已經(jīng)有了十分廣泛的應(yīng)用,例如:數(shù)據(jù)挖掘、計(jì)算機(jī)視覺、自然語言處理、生物特征識(shí)別、搜索引擎、醫(yī)學(xué)診斷、檢測(cè)信用卡欺詐、證券市場(chǎng)分析、DNA序列測(cè)序、語音和手寫識(shí)別、戰(zhàn)略游戲和機(jī)器人運(yùn)用,其中很多都屬于大數(shù)據(jù)分析技術(shù)的應(yīng)用范疇。下面,我們通過一些類型的機(jī)器學(xué)習(xí)技術(shù)來探究機(jī)器學(xué)習(xí)以及它與數(shù)據(jù)挖掘的關(guān)系。7.2.1機(jī)器學(xué)習(xí)1.分類(有監(jiān)督的機(jī)器學(xué)習(xí))分類是一種有監(jiān)督的機(jī)器學(xué)習(xí),它將數(shù)據(jù)分為相關(guān)的、以前學(xué)習(xí)過的類別。它包括兩個(gè)步驟:(1)將已經(jīng)被分類或者有標(biāo)號(hào)的訓(xùn)練數(shù)據(jù)給系統(tǒng),這樣就可以形成一個(gè)對(duì)不同類別的理解。(2)將未知或者相似數(shù)據(jù)給系統(tǒng)來分類,基于訓(xùn)練數(shù)據(jù)形成的理解,算法會(huì)分類無標(biāo)號(hào)數(shù)據(jù)。7.2.1機(jī)器學(xué)習(xí)這項(xiàng)技術(shù)的常見應(yīng)用是過濾垃圾郵件。值得一提的是,分類技術(shù)可以對(duì)兩個(gè)或者兩個(gè)以上的類別進(jìn)行分類。如圖所示,在一個(gè)簡(jiǎn)化的分類過程中,在訓(xùn)練時(shí)將有標(biāo)號(hào)的數(shù)據(jù)給機(jī)器使其建立對(duì)分

類的理解,然后將未標(biāo)號(hào)的數(shù)據(jù)給機(jī)器,

使它進(jìn)行自我分類。圖7-14機(jī)器學(xué)習(xí)可以用來自動(dòng)分類數(shù)據(jù)集7.2.1機(jī)器學(xué)習(xí)例如,銀行想找出哪些客戶可能會(huì)拖欠貸款?;跉v史數(shù)據(jù)編制一個(gè)訓(xùn)練數(shù)據(jù)集,其中包含標(biāo)記的曾經(jīng)拖欠貸款的顧客樣例和不曾拖欠貸款的顧客樣例。將這樣的訓(xùn)練數(shù)據(jù)給分類算法,使之形成對(duì)“好”或“壞”顧客的認(rèn)識(shí)。最終,將這種認(rèn)識(shí)作用于新的未加標(biāo)簽的客戶數(shù)據(jù),來發(fā)現(xiàn)一個(gè)給定的客戶屬于哪個(gè)類。分類適用的樣例問題可以是:基于其他申請(qǐng)是否被接受或者被拒絕,申請(qǐng)人的信用卡申請(qǐng)是否應(yīng)該被接受?基于已知的水果蔬菜樣例,西紅柿是水果還是蔬菜?病人的藥檢結(jié)果是否表示有心臟病的風(fēng)險(xiǎn)?7.2.1機(jī)器學(xué)習(xí)2.聚類(無監(jiān)督的機(jī)器學(xué)習(xí))聚類是一種無監(jiān)督的學(xué)習(xí)技術(shù),通過這項(xiàng)技術(shù),數(shù)據(jù)被分割成不同的組,這樣在每組中數(shù)據(jù)有相似的性質(zhì)。聚類不需要先學(xué)習(xí)類別。相反,類別是基于分組數(shù)據(jù)產(chǎn)生的。數(shù)據(jù)如何成組取決于用什么類型的算法,每個(gè)算法都有不同的技術(shù)來確定聚類。聚類常用在數(shù)據(jù)挖掘上來理解一個(gè)給定數(shù)據(jù)集的性質(zhì)。在形成理解之后,分類可以被用來更好地預(yù)測(cè)相似但卻是全新或未見過的數(shù)據(jù)。聚類可以被用在未知文件的分類以及通過將具有相似行為的顧客分組的個(gè)性化市場(chǎng)營(yíng)銷策略上。圖7-15所示的散點(diǎn)圖描述了可視化表示的聚類。7.2.1機(jī)器學(xué)習(xí)圖7-15散點(diǎn)圖總結(jié)了聚類的結(jié)果7.2.1機(jī)器學(xué)習(xí)例如,基于已有的顧客記錄檔案,一個(gè)銀行想要給現(xiàn)有顧客介紹很多新的金融產(chǎn)品。分析師用聚類將顧客分類至多組中。然后給每組介紹最適合這個(gè)組整體特征的一個(gè)或多個(gè)金融產(chǎn)品。聚類適用的樣例問題可以是:根據(jù)樹之間的相似性,存在多少種樹?根據(jù)相似的購買記錄,存在多少組顧客?根據(jù)病毒的特性,它們的不同分組是什么?7.2.1機(jī)器學(xué)習(xí)3.異常檢測(cè)異常檢測(cè)是指在給定數(shù)據(jù)集中,發(fā)現(xiàn)明顯不同于其他數(shù)據(jù)或與其他數(shù)據(jù)不一致的數(shù)據(jù)的過程。這種機(jī)器學(xué)習(xí)技術(shù)被用來識(shí)別反常、異常和偏差,它們可以是有利的,例如機(jī)會(huì),也可能是不利的,例如風(fēng)險(xiǎn)。異常檢測(cè)與分類和聚類的概念緊密相關(guān),雖然它的算法專注于尋找不同值。它可以基于有監(jiān)督或無監(jiān)督的學(xué)習(xí)。異常檢測(cè)的應(yīng)用包括欺詐檢測(cè)、醫(yī)療診斷、網(wǎng)絡(luò)數(shù)據(jù)分析和傳感器數(shù)據(jù)分析。圖7-16所示的散點(diǎn)圖直觀地突出了異常值的數(shù)據(jù)點(diǎn)。7.2.1機(jī)器學(xué)習(xí)圖7-16散點(diǎn)圖突出異常點(diǎn)7.2.1機(jī)器學(xué)習(xí)例如,為了查明一筆交易是否涉嫌欺詐,銀行的IT團(tuán)隊(duì)構(gòu)建了一個(gè)基于有監(jiān)督的學(xué)習(xí)使用異常檢測(cè)技術(shù)的系統(tǒng)。首先將一系列已知的欺詐交易送給異常檢測(cè)算法。在系統(tǒng)訓(xùn)練后,將未知交易送給異常檢測(cè)算法來預(yù)測(cè)他們是否欺詐。異常檢測(cè)適用的樣例問題可以是:運(yùn)動(dòng)員使用過提高成績(jī)的藥物嗎?在訓(xùn)練數(shù)據(jù)集中,有沒有被錯(cuò)誤地識(shí)別為水果或蔬菜的數(shù)據(jù)集用于分類任務(wù)?有沒有特定的病菌對(duì)藥物不起反應(yīng)?7.2.1機(jī)器學(xué)習(xí)4.過濾過濾是自動(dòng)從項(xiàng)目池中尋找有關(guān)項(xiàng)目的過程。項(xiàng)目可以基于用戶行為或通過匹配多個(gè)用戶的行為被過濾。過濾常用的媒介是推薦系統(tǒng)。通常過濾的主要方法是協(xié)同過濾和內(nèi)容過濾。協(xié)同過濾是一項(xiàng)基于聯(lián)合或合并用戶過去行為與他人行為的過濾技術(shù)。目標(biāo)用戶過去的行為,包括他們的喜好、評(píng)級(jí)和購買歷史等,會(huì)被和相似用戶的行為所聯(lián)合。基于用戶行為的相似性,項(xiàng)目被過濾給目標(biāo)用戶。協(xié)同過濾僅依靠用戶行為的相似性。它需要大量用戶行為數(shù)據(jù)來準(zhǔn)確地過濾項(xiàng)目。這是一個(gè)大數(shù)定律應(yīng)用的例子。7.2.1機(jī)器學(xué)習(xí)內(nèi)容過濾是一項(xiàng)專注于用戶和項(xiàng)目之間相似性的過濾技術(shù)。基于用戶以前的行為創(chuàng)造用戶文件,例如,他們的喜好、評(píng)級(jí)和購買歷史。用戶文件與不同項(xiàng)目性質(zhì)之間所確定的相似性可以使項(xiàng)目被過濾并呈現(xiàn)給用戶。和協(xié)同過濾相反,內(nèi)容過濾僅致力于用戶個(gè)體偏好,而并不需要其他用戶數(shù)據(jù)。推薦系統(tǒng)預(yù)測(cè)用戶偏好并且為用戶產(chǎn)生相應(yīng)建議。建議一般關(guān)于推薦項(xiàng)目,例如電影、書本、網(wǎng)頁和人。推薦系統(tǒng)通常使用協(xié)同過濾或內(nèi)容過濾來產(chǎn)生建議。它也可能基于協(xié)同過濾和內(nèi)容過濾的混合來調(diào)整生成建議的準(zhǔn)確性和有效性。7.2.1機(jī)器學(xué)習(xí)例如,為了實(shí)現(xiàn)交叉銷售,一家銀行構(gòu)建了使用內(nèi)容過濾的推薦系統(tǒng)。基于顧客購買的金融產(chǎn)品和相似金融產(chǎn)品性質(zhì)所找到的匹配,推薦系統(tǒng)自動(dòng)推薦客戶可能感興趣的潛在金融產(chǎn)品。過濾適用的樣例問題可以是:怎樣僅顯示用戶感興趣的新聞文章?基于度假者的旅行史,可以向其推薦哪個(gè)旅游景點(diǎn)?基于當(dāng)前的個(gè)人資料,可以推薦哪些新用戶做他的朋友?語義分析7.2.27.2.2語義分析在不同的語境下,文本或語音數(shù)據(jù)的片段可以攜帶不同的含義,而一個(gè)完整的句子可能會(huì)保留它的意義,即使結(jié)構(gòu)不同。為了使機(jī)器能提取有價(jià)值的信息,文本或語音數(shù)據(jù)需要像被人理解一樣被機(jī)器所理解。語義分析是從文本和語音數(shù)據(jù)中提取有意義的信息的實(shí)踐。7.2.2語義分析1.自然語言處理自然語言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向,是一門融語言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。自然語言處理過程是電腦像人類一樣自然地理解人類的文字和語言的能力。這允許計(jì)算機(jī)執(zhí)行各種有用的任務(wù),例如全文搜索。自然語言處理研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。因此,這一領(lǐng)域的研究將涉及自然語言,即人們?nèi)粘J褂玫恼Z言,所以它與語言學(xué)的研究有著密切的聯(lián)系,但又有重要的區(qū)別。7.2.2語義分析自然語言處理并不是一般地研究自然語言,而在于研制能有效地實(shí)現(xiàn)自然語言通信的計(jì)算機(jī)系統(tǒng),特別是其中的軟件系統(tǒng)。具體來說,包括將句子分解為單詞的語素分析、統(tǒng)計(jì)各單詞出現(xiàn)頻率的頻度分析、理解文章含義并造句的理解等。例如,為了提高客戶服務(wù)的質(zhì)量,冰激凌公司啟用了自然語言處理將客戶電話轉(zhuǎn)換為文本數(shù)據(jù),之后從中挖掘客戶經(jīng)常不滿的原因。不同于硬編碼所需學(xué)習(xí)規(guī)則,有監(jiān)督或無監(jiān)督的機(jī)器學(xué)習(xí)被用在發(fā)展計(jì)算機(jī)理解自然語言上??偟膩碚f,計(jì)算機(jī)的學(xué)習(xí)數(shù)據(jù)越多,它就越能正確地解碼人類文字和語音。自然語言處理包括文本和語音識(shí)別。對(duì)語音識(shí)別,系統(tǒng)嘗試著理解語音然后行動(dòng),例如轉(zhuǎn)錄文本。7.2.2語義分析自然語言處理適用的樣例問題可以是:怎樣開發(fā)一個(gè)自動(dòng)電話交換系統(tǒng),它可以正確識(shí)別來電者的口頭語言?如何自動(dòng)識(shí)別語法錯(cuò)誤?如何設(shè)計(jì)一個(gè)可以正確理解英語不同口音的系統(tǒng)?自然語言處理的應(yīng)用領(lǐng)域十分廣泛,如從大量文本數(shù)據(jù)中提煉出有用信息的文本挖掘,以及利用文本挖掘?qū)ι缃幻襟w上商品和服務(wù)的評(píng)價(jià)進(jìn)行分析等。智能手機(jī)iPhone中的語音助手Siri就是自然語言處理的一個(gè)應(yīng)用。7.2.2語義分析用自然語言與計(jì)算機(jī)進(jìn)行通信,既有明顯的實(shí)際意義,同時(shí)也有重要的理論意義:人們可以用自己最習(xí)慣的語言來使用計(jì)算機(jī),而無需再花大量的時(shí)間和精力去學(xué)習(xí)不很自然的各種計(jì)算機(jī)語言;人們也可通過它進(jìn)一步了解人類的語言能力和智能的機(jī)制。實(shí)現(xiàn)人機(jī)間自然語言通信意味著要使計(jì)算機(jī)既能理解自然語言文本的意義,也能以自然語言文本來表達(dá)給定的意圖、思想等。前者稱為自然語言理解,后者稱為自然語言生成。因此,自然語言處理大體包括了自然語言理解和自然語言生成兩個(gè)部分。7.2.2語義分析無論實(shí)現(xiàn)自然語言理解,還是自然語言生成,都遠(yuǎn)不如人們?cè)瓉硐胂蟮哪敲春?jiǎn)單。從現(xiàn)有的理論和技術(shù)現(xiàn)狀看,通用的、高質(zhì)量的自然語言處理系統(tǒng),仍然是較長(zhǎng)期的努力目標(biāo),但是針對(duì)一定應(yīng)用,具有相當(dāng)自然語言處理能力的實(shí)用系統(tǒng)已經(jīng)出現(xiàn),有些已商品化,甚至開始產(chǎn)業(yè)化。典型的例子有:多語種數(shù)據(jù)庫和專家系統(tǒng)的自然語言接口、各種機(jī)器翻譯系統(tǒng)、全文信息檢索系統(tǒng)、自動(dòng)文摘系統(tǒng)等。7.2.2語義分析2.文本分析相比于結(jié)構(gòu)化的文本,非結(jié)構(gòu)化的文本通常更難分析與搜索。文本分析是專門通過數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和自然語言處理技術(shù)去發(fā)掘非結(jié)構(gòu)化文本價(jià)值的分析文本的應(yīng)用。文本分析實(shí)質(zhì)上提供了發(fā)現(xiàn),而不僅僅是搜索文本的能力。通過基于文本的數(shù)據(jù)中獲得的有用的啟示,可以幫助企業(yè)從大量的文本中對(duì)信息進(jìn)行全面的理解。文本分析的基本原則是,將非結(jié)構(gòu)化的文本轉(zhuǎn)化為可以搜索和分析的數(shù)據(jù)。由于電子文件數(shù)量巨大,電子郵件、社交媒體文章和日志文件增加,企業(yè)十分需要利用從半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中提取的有價(jià)值的信息。只分析結(jié)構(gòu)化數(shù)據(jù)可能導(dǎo)致企業(yè)遺漏節(jié)約成本或商務(wù)擴(kuò)展機(jī)會(huì)。7.2.2語義分析文本分析應(yīng)用包括文檔分類和搜索,以及通過從CRM系統(tǒng)中提取的數(shù)據(jù)來建立客戶視角的360度視圖。文本分析通常包括兩步:(1)解析文檔中的文本提?。簩S忻~——人,團(tuán)體,地點(diǎn),公司。基于實(shí)體的模式——社會(huì)保險(xiǎn)號(hào),郵政編碼。概念——抽象的實(shí)體表示。事實(shí)——實(shí)體之間的關(guān)系。7.2.2語義分析(2)用這些提取的實(shí)體和事實(shí)對(duì)文檔進(jìn)行分類?;趯?shí)體之間存在關(guān)系的類型,提取的信息可以用來執(zhí)行上下文特定的實(shí)體搜索。圖7-17簡(jiǎn)單描述了文本分析。圖7-17使用語義規(guī)則,從文本文件中提取并組織實(shí)體,以便它們可以被搜索7.2.2語義分析文本分析適用的樣例問題可以是:如何根據(jù)網(wǎng)頁的內(nèi)容來進(jìn)行網(wǎng)站分類?我怎樣才能找到包含我學(xué)習(xí)內(nèi)容的相關(guān)書籍?怎樣才能識(shí)別包含有保密信息的公司合同?7.2.2語義分析3.語義檢索語義檢索是指在知識(shí)組織的基礎(chǔ)上,從知識(shí)庫中檢索出知識(shí)的過程,是一種基于知識(shí)組織體系,能夠?qū)崿F(xiàn)知識(shí)關(guān)聯(lián)和概念語義檢索的智能化的檢索方式。與將單詞視為符號(hào)來進(jìn)行檢索的關(guān)鍵詞檢索不同,語義檢索通過文章內(nèi)各語素之間的關(guān)聯(lián)性來分析語言的含義,從而提高精確度。語義檢索具有兩個(gè)顯著特征,一是基于某種具有語義模型的知識(shí)組織體系,這是實(shí)現(xiàn)語義檢索的前提與基礎(chǔ),語義檢索則是基于知識(shí)組織體系的結(jié)果;二是對(duì)資源對(duì)象進(jìn)行基于元數(shù)據(jù)的語義標(biāo)注,元數(shù)據(jù)是知識(shí)組織系統(tǒng)的語義基礎(chǔ),只有經(jīng)過元數(shù)據(jù)描述與標(biāo)注的資源才具有長(zhǎng)期利用的價(jià)值。以知識(shí)組織體系為基礎(chǔ),并以此對(duì)資源進(jìn)行語義標(biāo)注,才能實(shí)現(xiàn)語義檢索。7.2.2語義分析語義檢索模型集成各類知識(shí)對(duì)象和信息對(duì)象,融合各種智能與非智能理論、方法與技術(shù),實(shí)現(xiàn)語義檢索,例如基于知識(shí)結(jié)構(gòu)的檢索、基于知識(shí)內(nèi)容的檢索、基于專家啟發(fā)式的語義檢索、基于知識(shí)導(dǎo)航的智能瀏覽檢索和分布式多維檢索。語義檢索常用的檢索模型有分類檢索模型、多維認(rèn)知檢索模型、分布式檢索模型等。分類檢索模型利用事物之間最本質(zhì)的關(guān)系來組織資源對(duì)象,具有語義繼承性,揭示資源對(duì)象的等級(jí)關(guān)系、參照關(guān)系等,充分表達(dá)用戶的多維組合需求信息。7.2.2語義分析多維認(rèn)知檢索模型的理論基礎(chǔ)是人工神經(jīng)網(wǎng)絡(luò),它模擬人腦的結(jié)構(gòu),將信息資源組織為語義網(wǎng)絡(luò)結(jié)構(gòu),利用學(xué)習(xí)機(jī)制和動(dòng)態(tài)反饋技術(shù),不斷完善檢索結(jié)果。分布式檢索模型綜合利用多種技術(shù),評(píng)價(jià)信息資源與用戶需求的相關(guān)性,在相關(guān)性高的知識(shí)庫或數(shù)據(jù)庫中執(zhí)行檢索,然后輸出與用戶需求相關(guān)、有效的檢索結(jié)果。7.2.2語義分析語義檢索系統(tǒng)中,除提供關(guān)鍵詞實(shí)現(xiàn)主題檢索外,還結(jié)合自然語言處理和知識(shí)表示語言,表示各種結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息,提供多途徑和多功能的檢索,自然語言處理技術(shù)是提高檢索效率的有效途徑之一。自然語言理解是計(jì)算機(jī)科學(xué)在人工智能方面的一個(gè)極富挑戰(zhàn)性的課題,其任務(wù)是建立一種能夠模仿人腦去理解問題、分析問題并回答自然語言提問的計(jì)算機(jī)模型。從實(shí)用性的角度來說,我們所需要的是計(jì)算機(jī)能實(shí)現(xiàn)基本的人機(jī)會(huì)話、寓意理解或自動(dòng)文摘等語言處理功能,還需要使用漢語分詞技術(shù)、短語分詞技術(shù)、同義詞處理技術(shù)等。7.2.2語義分析語義檢索是基于“知識(shí)”的搜索,即利用機(jī)器學(xué)習(xí)、人工智能等模擬或擴(kuò)展人的認(rèn)識(shí)思維,提高信息內(nèi)容的相關(guān)性。語義檢索具有明顯的優(yōu)勢(shì):檢索機(jī)制和界面的設(shè)計(jì)均體現(xiàn)“面向用戶”的思想,即用戶可以根據(jù)自己的需求及其變化,靈活地選擇理想的檢索策略與技術(shù);語義檢索能主動(dòng)學(xué)習(xí)用戶的知識(shí),主動(dòng)向用戶提供個(gè)性化的服務(wù):綜合應(yīng)用各種分析、處理和智能技術(shù),既能滿足用戶的現(xiàn)實(shí)信息需求,又能向用戶提供潛在內(nèi)容知識(shí),全面提高檢索效率。7.2.2語義分析語義檢索的顯示方式取決于資源的組織方式,知識(shí)組織是對(duì)概念關(guān)聯(lián)的組織,所以語義檢索顯示的應(yīng)是反映知識(shí)內(nèi)容和概念關(guān)聯(lián)的知識(shí)網(wǎng)絡(luò)(或稱知識(shí)地圖),是對(duì)己獲取的知識(shí)以及知識(shí)之間的關(guān)系的可視化描述。語義檢索的呈現(xiàn)結(jié)果應(yīng)該是以可視化形式展現(xiàn)知識(shí)層次的網(wǎng)狀結(jié)構(gòu),便于用戶循著知識(shí)網(wǎng)絡(luò)方便地獲取知識(shí)。視覺分析7.2.37.2.3視覺分析視覺分析是一種數(shù)據(jù)分析,指的是對(duì)數(shù)據(jù)進(jìn)行圖形表示來開啟或增強(qiáng)視覺感知。相比于文本,人類可以迅速理解圖像并得出結(jié)論,基于這個(gè)前提,視覺分析成為大數(shù)據(jù)領(lǐng)域的勘探工具。目標(biāo)是用圖形表示來開發(fā)對(duì)分析數(shù)據(jù)的更深入的理解。特別是它有助于識(shí)別及強(qiáng)調(diào)隱藏的模式、關(guān)聯(lián)和異常。視覺分析也和探索性分析有直接關(guān)系,因?yàn)樗膭?lì)從不同的角度形成問題。視覺分析的主要類型包括:熱點(diǎn)圖、時(shí)間序列圖、網(wǎng)絡(luò)圖、空間數(shù)據(jù)制圖等。7.2.3視覺分析1.熱點(diǎn)圖對(duì)表達(dá)模式,通過部分-整體關(guān)系的數(shù)據(jù)組成和數(shù)據(jù)的地理分布來說,熱點(diǎn)圖是有效的視覺分析技術(shù),它能促進(jìn)識(shí)別感興趣的領(lǐng)域,發(fā)現(xiàn)數(shù)據(jù)集內(nèi)的極(最大或最?。┲?。例如,為了確定冰激凌銷量最好和最差的地方,使用熱點(diǎn)圖來繪制冰激凌銷量數(shù)據(jù)。綠色是用來標(biāo)識(shí)表現(xiàn)最好的地區(qū),而紅色是用來標(biāo)識(shí)表現(xiàn)最差的地區(qū)。7.2.3視覺分析熱點(diǎn)圖本身是一個(gè)可視化的、顏色編碼的數(shù)據(jù)值表示。每個(gè)值是根據(jù)其本身的類型和坐落的范圍而給定的一種顏色。例如,熱點(diǎn)圖將值0~3分配給黑色,4~6分配給淺灰色,7~10分配給深灰色。熱點(diǎn)圖可以是圖表或地圖形式的。圖表代表一個(gè)值的矩陣,在其中每個(gè)網(wǎng)格都是按照值分配的不同顏色,如圖所示。通過使用不同顏色嵌套的矩形,表示不同等級(jí)值。圖7-18表格熱點(diǎn)圖描繪了一個(gè)公

司三個(gè)部門在六個(gè)月內(nèi)的銷量7.2.3視覺分析如圖所示,用地圖表示地理測(cè)量,通過它不同的地區(qū)根據(jù)同一主題用不同的顏色或陰影表示。地圖以各地區(qū)顏色/陰影的深淺來表示同一主題的程度深淺,而不是單純地將整個(gè)地區(qū)涂上

色或以陰影覆蓋。圖7-192008年美國總統(tǒng)選舉7.2.3視覺分析視覺分析適用的樣例問題可以是:怎樣才能從視覺上識(shí)別有關(guān)世界各地多個(gè)城市碳排放量的模式?怎樣才能看到不同癌癥的模式與不同人種的關(guān)聯(lián)?怎樣根據(jù)球員的長(zhǎng)處和弱點(diǎn)來分析他們的表現(xiàn)?7.2.3視覺分析2.時(shí)間序列圖時(shí)間序列圖可以分析在固定時(shí)間間隔記錄的數(shù)據(jù)。這種分析充分利用了時(shí)間序列,這是一個(gè)按時(shí)間排序的、在固定時(shí)間間隔記錄的值的集合。例如一個(gè)包含每月月末記錄的銷售圖的時(shí)間序列。時(shí)間序列分析有助于發(fā)現(xiàn)數(shù)據(jù)隨時(shí)間變化的模式。一旦確定,這個(gè)模式可以用于未來的預(yù)測(cè)。例如,為了確定季度銷售模式,每月按時(shí)間順序繪制冰激凌銷售圖,它會(huì)進(jìn)一步幫助預(yù)測(cè)下月銷售圖。通過識(shí)別數(shù)據(jù)集中的長(zhǎng)期趨勢(shì)、季節(jié)性周期模式和不規(guī)則短期變化,時(shí)間序列分析通常用來做預(yù)測(cè)。不像其他類型的分析,時(shí)間序列分析用時(shí)間作為比較變量,且數(shù)據(jù)的收集總是依賴于時(shí)間。7.2.3視覺分析時(shí)間序列圖通常用折線圖表示,x軸表示時(shí)間,y軸記錄數(shù)據(jù)值。時(shí)間序列圖適用的樣例問題可以為:基于歷史產(chǎn)量數(shù)據(jù),農(nóng)民應(yīng)該期望多少產(chǎn)量?未來5年預(yù)期人口上漲是多少?當(dāng)前銷量的下降是一次性地發(fā)生還是會(huì)有規(guī)律地發(fā)生?7.2.3視覺分析3.網(wǎng)絡(luò)圖在視覺分析中,一個(gè)網(wǎng)絡(luò)圖描繪互相連接的實(shí)體。一個(gè)實(shí)體可以是一個(gè)人,一個(gè)團(tuán)體,或者其他商業(yè)領(lǐng)域的物品,例如產(chǎn)品。實(shí)體之間可能是直接連接,也可能是間接連接。有些連接可能是單方面的,所以反向遍歷是不可能的。網(wǎng)絡(luò)分析是一種側(cè)重于分析網(wǎng)絡(luò)內(nèi)實(shí)體關(guān)系的技術(shù)。它包括將實(shí)體作為節(jié)點(diǎn),用邊連接節(jié)點(diǎn)。有專門的網(wǎng)絡(luò)分析的方法,如:路徑優(yōu)化社交網(wǎng)絡(luò)分析傳播預(yù)測(cè),比如一種傳染性疾病的傳播7.2.3視覺分析基于冰激凌銷量的網(wǎng)絡(luò)分析中路徑優(yōu)化應(yīng)用是這樣一個(gè)簡(jiǎn)單的例子:有些冰激凌店的經(jīng)理經(jīng)常抱怨卡車從中央倉庫到遙遠(yuǎn)地區(qū)的

商店的運(yùn)輸時(shí)間。天熱的時(shí)候,從中央倉庫運(yùn)到偏遠(yuǎn)

地區(qū)的冰激凌會(huì)化掉,無法銷售。為了最小化運(yùn)輸時(shí)

間,用網(wǎng)絡(luò)分析來尋找中央倉庫與遙遠(yuǎn)的商店直接最

短路徑。如圖7-20中所示,社交網(wǎng)絡(luò)圖也是社交網(wǎng)絡(luò)分

析的一個(gè)簡(jiǎn)單的例子。圖7-20社交網(wǎng)絡(luò)圖的一個(gè)例子7.2.3視覺分析小明有許多朋友,大成只有一個(gè)朋友。社交網(wǎng)絡(luò)分析結(jié)果顯示大成可能會(huì)和小明和小文做朋友,因?yàn)樗麄冇泄餐暮糜褔鴳c。網(wǎng)絡(luò)圖適用的樣例問題可以是:在一大群用戶中如何才能確定影響力??jī)蓚€(gè)個(gè)體通過一個(gè)祖先的長(zhǎng)鏈而彼此相關(guān)嗎?如何在大量的蛋白質(zhì)之間的相互作用中確定反應(yīng)模式?7.2.3視覺分析4.空間數(shù)據(jù)制圖空間或地理空間數(shù)據(jù)通常用來識(shí)別單個(gè)實(shí)體的地理位置,然后將其繪圖??臻g數(shù)據(jù)分析專注于分析基于地點(diǎn)的數(shù)據(jù),從而尋找實(shí)體間不同地理關(guān)系和模式??臻g數(shù)據(jù)通過地理信息系統(tǒng)(GIS)被操控,它利用經(jīng)緯坐標(biāo)將空間數(shù)據(jù)繪制在圖上。GIS提供工具使空間數(shù)據(jù)能夠互動(dòng)探索。例如,測(cè)量?jī)牲c(diǎn)之間的距離或用確定的距離半徑來畫圓確定一個(gè)區(qū)域。隨著基于地點(diǎn)的數(shù)據(jù)的不斷增長(zhǎng)的可用性,例如傳感器和社交媒體數(shù)據(jù),可以通過分析空間數(shù)據(jù),然后洞察位置。7.2.3視覺分析例如,企業(yè)策劃擴(kuò)張更多的冰激凌店,要求兩個(gè)店鋪間隔不得小于5千米,以避免出現(xiàn)兩店競(jìng)爭(zhēng)的狀況??臻g數(shù)據(jù)用來繪制現(xiàn)存店鋪位置,然后確定新店鋪的最佳位置,距離現(xiàn)有店鋪至少5千米遠(yuǎn)??臻g數(shù)據(jù)分析的應(yīng)用包括操作和物流優(yōu)化,環(huán)境科學(xué)和基礎(chǔ)設(shè)施規(guī)劃。空間數(shù)據(jù)分析的輸入數(shù)據(jù)可以包含精確的地址(如經(jīng)緯度),或者可以計(jì)算位置的信息(如郵政編碼和IP地址)。此外,空間數(shù)據(jù)分析可以用來確定落在一個(gè)實(shí)體的確定半徑內(nèi)的實(shí)體數(shù)量。例如,一個(gè)超市用空間分析進(jìn)行有針對(duì)性的營(yíng)銷,其位置是從用戶的社交媒體信息中提取的,根據(jù)用戶是否接近店鋪來試著提供個(gè)性化服務(wù)。7.2.3視覺分析空間數(shù)據(jù)圖適用的樣例問題可以是:由于公路擴(kuò)建工程,多少房屋會(huì)受影響?用戶到超市有多遠(yuǎn)的距離?基于從一個(gè)區(qū)域內(nèi)很多取樣地點(diǎn)取出的數(shù)據(jù),一種礦物的最高和最低濃度在哪里?情感分析7.2.47.2.4情感分析情感分析是一種特殊的文本分析,它側(cè)重于確定個(gè)人的偏見或情緒。通過對(duì)自然語言語境中的文本進(jìn)行分析,來判斷作者的態(tài)度。情感分析不僅提供關(guān)于個(gè)人感覺的信息,也提供感覺的強(qiáng)度。此信息可以被整合到?jīng)Q策階段。常見的情感分析包括識(shí)別客戶的滿意或不滿,測(cè)試產(chǎn)品的成功與失敗和發(fā)現(xiàn)新趨勢(shì)。例如,一個(gè)冰激凌公司會(huì)想了解哪種口味的冰激凌最受小孩歡迎。僅有銷量數(shù)據(jù)并不提供此信息,因?yàn)橄M(fèi)冰激凌的小孩并不一定是冰激凌的買家。情感分析被用于存檔客戶在冰激凌公司網(wǎng)站留下的反饋來提取信息,尤其是關(guān)于小孩對(duì)于特定口味偏好的信息。7.2.4情感分析情感分析適用的樣例問題可以是:如何測(cè)量客戶對(duì)產(chǎn)品新包裝的反應(yīng)?哪個(gè)選手最可能成為歌唱比賽的贏家?顧客的流失量可以用社交媒體的評(píng)論來衡量嗎?7.2.4情感分析1.數(shù)據(jù)情感和情感數(shù)據(jù)情感和行為是交互的。周圍的事物影響著你,決定了你的情感。如果你的客戶取消了訂單,你會(huì)感到失望。反過來說,你的情感也會(huì)影響行為。你現(xiàn)在心情愉快,因此決定再給修理工一次機(jī)會(huì)來修好你的車。情感有時(shí)并不在預(yù)測(cè)分析所考慮的范疇內(nèi)。因?yàn)榍楦惺亲兓貌欢ǖ囊蛩?,無法像事實(shí)或數(shù)據(jù)那樣被輕易記錄在表格中。情感主觀且轉(zhuǎn)瞬即逝。誠然,情感是人的一種重要的狀態(tài),但情感的微妙使得大部分科學(xué)都無法對(duì)其展開研究。7.2.4情感分析(1)從博客觀察集體情感。2009年,伊利諾伊大學(xué)的兩位科學(xué)家試圖將兩個(gè)看似并不相關(guān)的科研領(lǐng)域聯(lián)系起來,以求發(fā)現(xiàn)集體情感和集體行為之間的內(nèi)在關(guān)系。他們不僅要觀測(cè)個(gè)體的情感,還要觀測(cè)集體情感,即人類作為整體所共有的情感。從事這項(xiàng)宏大研究的就是當(dāng)時(shí)還在攻讀博士學(xué)位的埃里克·吉爾伯特以及他的導(dǎo)師卡里·卡拉哈里奧斯。他們希望能實(shí)現(xiàn)重大科研突破,因?yàn)槿藗儚膩聿恢撊绾谓庾x人類整體情感。7.2.4情感分析此外,埃里克和卡里還想從真實(shí)世界人類的自發(fā)行為中去觀測(cè)集體情感,而不僅僅是在實(shí)驗(yàn)室里做實(shí)驗(yàn)。那么,應(yīng)該從哪些方面去觀測(cè)這些集體情感?腦電波和傳感器顯然不合適。一種可能性是,我們的文章和對(duì)話會(huì)反映我們的情感。但報(bào)紙雜志上的文章主題可能太狹隘,在情感上也缺乏連貫性。為此,他們將目光集中在另一個(gè)公共資源上:博客。7.2.4情感分析博客記載了我們的各種情感。互聯(lián)網(wǎng)上興起的博客浪潮將此前私密、內(nèi)省的日記寫作變成了公開的情感披露。很多人在博客上自由表達(dá)自己的情感,沒有預(yù)先的議程設(shè)置,也沒有后續(xù)的編輯限制。每天互聯(lián)網(wǎng)上大約會(huì)增添86.4萬篇新的博客,作者在博客中袒露著各類情感,或疾呼,或痛楚,或狂喜,或驚奇,或憤怒,在互聯(lián)網(wǎng)上自愿吐露自己的心聲。從某種意義上說,博客的情感也代表著普羅大眾的情感,因此,我們可以從博客上讀到人類的整體情感。7.2.4情感分析(2)預(yù)測(cè)分析博客中的情緒。在設(shè)計(jì)如何記錄博客中的情緒時(shí),兩位科學(xué)家選擇了恐懼和焦慮兩種情緒。在所有情緒中,焦慮對(duì)人們的行為有很重要的影響。心理學(xué)研究指出:恐懼會(huì)讓人規(guī)避風(fēng)險(xiǎn),而鎮(zhèn)靜則能讓人自如行事。恐懼會(huì)讓人以保守姿態(tài)采取后撤行為,不敢輕易涉險(xiǎn)。要想記錄這些情感,第一步就是要發(fā)現(xiàn)博客中的焦慮情緒。要想研發(fā)出能探測(cè)到焦慮情緒的預(yù)測(cè)分析系統(tǒng),首先就要有充分的含有焦慮情緒的博客樣本,這將為預(yù)測(cè)模型的研發(fā)提供所需的數(shù)據(jù),幫助區(qū)分哪些博客中蘊(yùn)含著焦慮情緒,哪些博客中蘊(yùn)含著鎮(zhèn)靜情緒。7.2.4情感分析埃里克和卡里決定從博客網(wǎng)站LiveJournal入手,在這家網(wǎng)站上,作者發(fā)表博文之后,可從132項(xiàng)“情緒”選項(xiàng)中選擇文章的對(duì)應(yīng)標(biāo)簽(見圖),這些情緒包括憤怒、忙碌、醉酒、輕佻、饑渴以及勞累等。如果每次作者都能輸入情緒標(biāo)簽,那么他就能獲得若干情緒圖標(biāo),這是代表某種情緒的有趣的表情符號(hào)。例如,“害怕”的表情符號(hào)就是驚恐的表情和睜大雙眼。有了這些情緒標(biāo)簽后,內(nèi)容各異的博客就與作者的情感構(gòu)建了聯(lián)系。語言是模糊和間接的情感表達(dá)方式,而我們通常都無法直接看到作者的主觀內(nèi)在情感。圖7-21QQ的情緒圖標(biāo)7.2.4情感分析兩位研究者以從2004年開始的60萬篇博客為研究對(duì)象,從中選擇那些被作者打上“焦慮”、“擔(dān)憂”、“緊張”和“害怕”標(biāo)簽的文章,大約有1.3萬篇,有這些標(biāo)簽的文章被認(rèn)定是在表達(dá)焦慮情緒。這些文章被當(dāng)作樣本,并在此基礎(chǔ)上建立了預(yù)測(cè)模型,由此來預(yù)測(cè)某博客是否在表達(dá)焦慮情緒。大部分在LiveJournal上發(fā)表的博客都沒有對(duì)應(yīng)的情緒標(biāo)簽,其他網(wǎng)站發(fā)表的博客也大都沒有情緒標(biāo)簽,因此需要研發(fā)出預(yù)測(cè)模型來探知人類博客中的情感。大部分博客都不會(huì)直接談?wù)撉楦?,因此只能通過博主所寫的內(nèi)容來分析推導(dǎo)出其主觀情感。預(yù)測(cè)模型就是要發(fā)揮這樣的分析作用。與其他預(yù)測(cè)模型一樣,博客情緒預(yù)測(cè)模型的主要功能也是對(duì)那些此前沒有經(jīng)過分析的文章給出焦慮情緒分?jǐn)?shù)。7.2.4情感分析這次,預(yù)測(cè)模型應(yīng)對(duì)的是復(fù)雜多變的人類語言,為此,焦慮情緒預(yù)測(cè)模型的預(yù)測(cè)流程相對(duì)要簡(jiǎn)單和直接一些,即看文章里是否出現(xiàn)某些關(guān)鍵詞,然后加以運(yùn)算。這些預(yù)測(cè)模型并不是要完全理解博客的內(nèi)容。例如,預(yù)測(cè)模型的某項(xiàng)參考指標(biāo)是看博客內(nèi)容里表達(dá)焦慮的詞匯,例如“緊張”、“害怕”、“面試”、“醫(yī)院”等,以及文章里面是否缺乏那些非焦慮博客中常見的詞匯,例如“太好了”、“真棒”、“愛”等。盡管焦慮情緒預(yù)測(cè)模型并不能做到盡善盡美,但至少這樣的模型可大致分析出集體情感。它每天只能發(fā)現(xiàn)28%~32%的焦慮情緒文章,但假設(shè)某天表達(dá)焦慮情緒的博客忽然比前一天翻了一倍,那么這一變化就不會(huì)被忽略。對(duì)那些被打上了焦慮情緒標(biāo)簽的博客,其識(shí)別是相對(duì)精確的,將非焦慮文章錯(cuò)認(rèn)為焦慮文章的差錯(cuò)率僅在3%~6%之間。7.2.4情感分析埃里克和卡里根據(jù)當(dāng)天蘊(yùn)含焦慮情緒的博客數(shù)量的變化得出了焦慮指數(shù),該指數(shù)大致上衡量了當(dāng)天大眾的焦慮程度。通過這種方法,人類整體情緒被視為一項(xiàng)可觀測(cè)的指標(biāo),這兩位研究者研發(fā)的系統(tǒng)通過解讀大眾的焦慮而得以反映集體情緒。有時(shí),我們會(huì)相對(duì)鎮(zhèn)靜和放松;有時(shí),我們則變得很焦慮。LiveJoumal網(wǎng)站作為大眾的焦慮指數(shù)數(shù)據(jù)來源是合適的??ɡ锖桶@锟苏f,這家博客網(wǎng)站“是公認(rèn)的公共空間,人們?cè)谏厦嬗涗涀约旱膫€(gè)人思想和日常生活”。這家網(wǎng)站并不針對(duì)某些特定群體,而是向“從家庭主婦到高中學(xué)生”等各類人群開放。7.2.4情感分析繼埃里克和卡里的研究后,很多后續(xù)研究都顯示了人類集體情緒是如何波動(dòng)的。例如,印第安納大學(xué)的研究人員研發(fā)了一套相似的通過考察關(guān)鍵詞觀測(cè)情緒的系統(tǒng),通過“鎮(zhèn)靜-焦慮”(與焦慮指數(shù)相似,但增加了鎮(zhèn)靜指數(shù)。例如,指數(shù)為正表示鎮(zhèn)靜,指數(shù)為負(fù)則表示焦慮)以及“幸福-痛苦”指數(shù)來描繪公眾情緒。圖7-22就是根據(jù)推特上的內(nèi)容所畫出的2008年10~12月期間大眾情緒波動(dòng)圖。該圖顯示,我們會(huì)在狂喜與絕望之間搖擺,這些劇烈波動(dòng)的曲線表明,我們是高度情緒化的。這段時(shí)間包括了美國總統(tǒng)大選和感恩節(jié)等重要日子,當(dāng)選舉日投票結(jié)束后,我們開始變得鎮(zhèn)靜,而感恩節(jié)當(dāng)天,我們的幸福指數(shù)驟然飆升。7.2.4情感分析圖7-222008年10~12月(美國)大眾情緒波動(dòng)圖7.2.4情感分析但這種只針對(duì)幾個(gè)重點(diǎn)日子的研究顯然是不夠的。盡管埃里克和卡里的焦慮指數(shù)很有創(chuàng)新性,但這并不能證明該指數(shù)的價(jià)值,也無法獲得研究界廣泛的認(rèn)可。如果焦慮指數(shù)無法印證其價(jià)值,那么它可能會(huì)隨著時(shí)間的推移而被湮沒,為此,埃里克和卡里進(jìn)行了進(jìn)一步研究,要證明這個(gè)衡量我們主觀情緒的指數(shù)與現(xiàn)實(shí)世界的實(shí)踐存在客觀聯(lián)系。否則,我們就無法真正證明該系統(tǒng)成功把握了人類的集體情緒,那么,該研究項(xiàng)目的價(jià)值僅僅是“形成了一堆數(shù)字而已”。7.2.4情感分析(3)影響情緒的重要因素——金錢。埃里克和卡里將希望押在了情緒的重要影響因素上:金錢。顯然,金錢足以影響我們的情緒。錢是衡量人過得如何的重要標(biāo)準(zhǔn),因此,為何不觀察我們的情感與財(cái)務(wù)狀況之間的緊密關(guān)系呢?1972年的一個(gè)經(jīng)典心理學(xué)實(shí)驗(yàn)表明,哪怕我們?cè)诠秒娫捦ぐl(fā)現(xiàn)有一塊錢余額可用,我們的心理也會(huì)產(chǎn)生莫大的滿足感,進(jìn)而使得幸福感陡增?!皳戾X啦!”聽到這句話時(shí),每個(gè)人都會(huì)血脈貢張。無論如何,金錢與情感之間肯定存在某種聯(lián)系,這將給埃里克和卡里的研究提供充分的證明。7.2.4情感分析股市是驗(yàn)證焦慮指數(shù)的理想場(chǎng)所(見圖)。只有真正看到人們采取了集體行動(dòng),我們才能驗(yàn)證集體情緒指標(biāo)確實(shí)有效,經(jīng)濟(jì)活動(dòng)將是觀測(cè)社會(huì)整體樂觀和悲觀情緒起伏的重要標(biāo)準(zhǔn)。除了科學(xué)意義上的驗(yàn)證之外,這項(xiàng)預(yù)測(cè)還帶來了充滿誘惑的應(yīng)用前景:股市預(yù)測(cè)。如果集體情感能夠影響到后續(xù)的股票走勢(shì),那么通過剖析博客中的大眾情緒將有

助于預(yù)測(cè)股價(jià),這種新型的預(yù)測(cè)模型有可

能帶來巨額的財(cái)富。圖7-23股市是驗(yàn)證焦慮指數(shù)的理想場(chǎng)所7.2.4情感分析埃里克和卡里繼續(xù)深入研究。埃里克選擇了2008年幾個(gè)月內(nèi)的美國標(biāo)準(zhǔn)普爾股指(美國股市的晴雨表)的每日收盤值,看看在這短短幾個(gè)月中,股指的無序漲跌是否與相同時(shí)期內(nèi)焦慮指數(shù)的漲跌走勢(shì)吻合。要想證明焦慮指數(shù)的效力很難。剛開始時(shí),兩位研究者認(rèn)為,只要一個(gè)月就能獲得肯定結(jié)論,但他們無數(shù)次的嘗試都以失敗而告終。為此,他們與大學(xué)其他學(xué)科的專家討論,包括數(shù)學(xué)、統(tǒng)計(jì)學(xué)和經(jīng)濟(jì)學(xué)的同事,他們也跟華爾街的金融工程師們討論。但是,在他們正在摸索前行的科學(xué)領(lǐng)域,沒有人能為他們指點(diǎn)迷津??ɡ镎f:“我們?cè)诤诎抵忻髁撕荛L(zhǎng)時(shí)間,當(dāng)時(shí)并沒有任何公認(rèn)的研究方法?!苯?jīng)過一年半的嘗試和挫折后,埃里克和卡里還是得不出結(jié)論。他們沒有獲取確鑿的證據(jù)來證明其猜想。7.2.4情感分析這樣的實(shí)驗(yàn)要耗費(fèi)許多資源,埃里克和卡里也開始對(duì)研究項(xiàng)目的可行性提出了質(zhì)疑。此時(shí),他們必須思考何時(shí)放棄項(xiàng)目并將損失控制在一定范圍內(nèi)。即便整體理論成立,大眾情緒確實(shí)能影響到股市,那么焦慮指數(shù)是否能精確跟蹤大眾情緒的波動(dòng)呢?但新的希望又開始出現(xiàn)。當(dāng)他們重新觀察這些數(shù)據(jù)時(shí),忽然又想到了新的方法。7.2.4情感分析(4)情感的因果關(guān)系埃里克·吉爾伯特和卡里·卡拉哈里奧斯想要證明的是博客與大眾情感是否存在聯(lián)系,而不是探究這兩者之間是否存在因果關(guān)系?!帮@然,我們不是在尋找因果關(guān)系?!彼麄?cè)诎l(fā)表的某篇研究文章中寫道。他們不需要去建立因果關(guān)系,他們想要證明的僅僅是焦慮指數(shù)每日波動(dòng)與經(jīng)濟(jì)活動(dòng)日常起落之間存在某種聯(lián)系。如果這種聯(lián)系存在,那就足以證明,焦慮指數(shù)能夠反映現(xiàn)實(shí)而不是純粹的主觀臆想。為了尋求這種抽象聯(lián)系,埃里克和卡里打破了常規(guī)。7.2.4情感分析2.焦慮指數(shù)與標(biāo)普500指數(shù)在普通的研究項(xiàng)目中,如果要證明兩個(gè)事物之間存在聯(lián)系,首先要假定兩者之間存在某種確定的關(guān)系。有人認(rèn)為埃里克和卡里的研究缺乏“可接受的研究方法”,很難證明這種聯(lián)系是真實(shí)的。當(dāng)研究領(lǐng)域從個(gè)體的心理活動(dòng)轉(zhuǎn)向人類集體的情感變化時(shí),擺在我們面前的是各種可能存在的因果關(guān)系。是藝術(shù)反映了現(xiàn)實(shí),還是現(xiàn)實(shí)反映了藝術(shù)?博客反映了世界現(xiàn)象,還是推動(dòng)了世界現(xiàn)象?人類的整體情感如何強(qiáng)化升級(jí)?情感是否會(huì)像漣漪那樣在人群間傳遞?7.2.4情感分析在談到集體心理時(shí),弗洛伊德曾說:“組建團(tuán)隊(duì)最為明顯也是最為重要的后果就是每個(gè)成員的‘情感升華與強(qiáng)化’?!?008年,哈佛大學(xué)和其他一些研究機(jī)構(gòu)的研究證明了這個(gè)觀點(diǎn),因?yàn)樾腋8锌梢韵瘛皞魅静 蹦菢釉谏缃痪W(wǎng)站上蔓延。那么,博客中所表現(xiàn)出來的焦慮是否會(huì)影響到股市呢?埃里克和卡里的研究沒有預(yù)先設(shè)定任何假設(shè)。盡管集體心理和情緒具有不可捉摸的復(fù)雜性,但這兩位研究人員也接受了寬泛的假設(shè),即焦慮象征著經(jīng)濟(jì)無活力。如果投資者某天感到焦慮,那么他所采取的策略就是利用套現(xiàn)來抵御市場(chǎng)波動(dòng),當(dāng)投資者重新變得冷靜自信時(shí),他就會(huì)愿意承擔(dān)風(fēng)險(xiǎn)而選擇買入。買入越多,股價(jià)越高,標(biāo)普500指數(shù)也就越高。7.2.4情感分析但從某種意義上說,情緒與股價(jià)之間的關(guān)系變幻莫測(cè),令人著迷。大千世界中的蕓蕓眾生認(rèn)為,情緒和行動(dòng)之間、人與人之間以及表達(dá)情感者和最終行動(dòng)者之間存在著因果關(guān)系。數(shù)據(jù)顯示,這些因果關(guān)系會(huì)相互作用,我們可通過預(yù)測(cè)技術(shù)來發(fā)現(xiàn)數(shù)據(jù)中隱藏的規(guī)律。埃里克和卡里做了無數(shù)的嘗試,但需要驗(yàn)證的內(nèi)容實(shí)在是太復(fù)雜了。如果說公眾的焦慮情緒指數(shù)確實(shí)能預(yù)測(cè)股價(jià),那么它能提前多久預(yù)測(cè)到呢?公眾的焦慮情緒需要多少天才會(huì)對(duì)經(jīng)濟(jì)產(chǎn)生影響?大家應(yīng)該在晚一天還是晚一個(gè)月來看待焦慮對(duì)股價(jià)的影響呢?影響到底會(huì)表現(xiàn)在哪里呢,是市場(chǎng)總的運(yùn)行趨勢(shì)還是股市絕對(duì)值或交易量呢?最初的發(fā)現(xiàn)讓這兩位研究者欲罷不能,但他們又無法得出清晰的結(jié)論。實(shí)驗(yàn)的結(jié)果并不足以支持他們得出結(jié)論。7.2.4情感分析直到某天他們將數(shù)據(jù)視圖化之后,其研究才出現(xiàn)了轉(zhuǎn)機(jī)。通過圖表,肉眼立刻發(fā)現(xiàn)其中存在的預(yù)測(cè)模型。請(qǐng)看圖中焦慮指數(shù)和標(biāo)普500指數(shù)的走勢(shì)對(duì)照。其中,焦慮指數(shù)(虛線)和標(biāo)普

500指數(shù)走勢(shì)(實(shí)線)交錯(cuò)產(chǎn)生了

諸多的菱形空間。焦慮指數(shù)大概

落后兩天。圖7-24焦慮指數(shù)與標(biāo)普500指數(shù)的走勢(shì)對(duì)照7.2.4情感分析這兩條線呈犬牙狀交錯(cuò),由此產(chǎn)生了諸多的菱形方格。這些菱形方格之所以會(huì)出現(xiàn),是因?yàn)楫?dāng)一條線上升時(shí),另一條線會(huì)下降,兩者仿佛互成鏡像。這種對(duì)立構(gòu)成了兩者關(guān)系可預(yù)測(cè)性的重要依據(jù),原因有二:(1)用虛線表示的焦慮指數(shù)與標(biāo)普500指數(shù)呈反相關(guān)關(guān)系。“焦慮程度越高,對(duì)市場(chǎng)的負(fù)面影響越大?!保?)在此圖像中,用虛線表示的焦慮指數(shù)是以兩天為單位的,因此其走勢(shì)是在對(duì)應(yīng)的標(biāo)普500指數(shù)走勢(shì)的兩天之前,由此可預(yù)見市場(chǎng)的走勢(shì)。這是可預(yù)測(cè)的。7.2.4情感分析通過移動(dòng)這些重復(fù)部分的時(shí)間軸,再通過調(diào)整設(shè)置,埃里克和卡里可用視圖化的方式查看其他時(shí)間段是否存在相似的菱形方格,這些方格中就有可能蘊(yùn)含著預(yù)測(cè)模型。上面的菱形方格并不完全規(guī)范,但兩條線所呈現(xiàn)的反相關(guān)關(guān)系依然存在,這就為預(yù)測(cè)提供了基礎(chǔ)。調(diào)整這些菱形方格的關(guān)鍵是對(duì)情感形成正確解讀。尤其需要指出的是,情感強(qiáng)度都是相對(duì)的,正是它的變化讓我們發(fā)現(xiàn)了其中的規(guī)律。焦慮指數(shù)并不是指焦慮水平的絕對(duì)值,而是從第一天到第二天的整體焦慮變化程度。當(dāng)博主們的焦慮情緒增多時(shí)該指數(shù)就會(huì)上漲;當(dāng)博主們的焦慮情緒減少時(shí)該指數(shù)就會(huì)下跌。焦慮指數(shù)是從含焦慮情緒和不含焦慮情緒的博客中獲取的。7.2.4情感分析計(jì)算焦慮指數(shù)指的是“引發(fā)焦慮”的運(yùn)算,但這種運(yùn)算相對(duì)簡(jiǎn)單,即選定同一批文章,觀測(cè)其在第一天中表現(xiàn)出的焦慮情緒和在第二天中表現(xiàn)出的焦慮情緒。7.2.4情感分析3.驗(yàn)證情感和被驗(yàn)證的情感盡管直觀圖形讓人們進(jìn)一步理解了這種假設(shè)關(guān)系,但它并不能證明這種假設(shè)是成立的。接下來,埃里克和卡里要“正式測(cè)試焦慮、恐懼和擔(dān)憂……與股市之間的關(guān)系”。他們計(jì)算了2008年174個(gè)交易日的焦慮指數(shù)并查看了這段時(shí)間LiveJournal網(wǎng)站上超過2000萬篇博客,然后將每日的博客所表現(xiàn)出的情緒與當(dāng)天的標(biāo)普500指數(shù)進(jìn)行對(duì)照。然后,他們用諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者克萊夫?格蘭杰研發(fā)的模型進(jìn)行預(yù)測(cè)關(guān)系統(tǒng)計(jì)測(cè)試。結(jié)果證明,這一假設(shè)是正確的!其研究表明,通過公眾情緒可預(yù)測(cè)股市走勢(shì)。埃里克和卡里極其興奮,立刻將此發(fā)現(xiàn)寫成了論文,提交給某大會(huì):“焦慮情緒的增加……預(yù)示著標(biāo)普500指數(shù)的下降”(見圖7-25)。7.2.4情感分析圖7-25情感與股市行情7.2.4情感分析統(tǒng)計(jì)測(cè)試發(fā)現(xiàn),焦慮指數(shù)“具有與股市相關(guān)的新型預(yù)測(cè)信息”。這說明,焦慮指數(shù)具有創(chuàng)新性、獨(dú)創(chuàng)性和預(yù)測(cè)性,該指數(shù)更能預(yù)測(cè)股價(jià)的走勢(shì)而不是去分析股市變動(dòng)的原因。此外,該指數(shù)還能幫助人們通過近期市場(chǎng)活動(dòng)來預(yù)測(cè)未來市場(chǎng)走勢(shì),由此也進(jìn)一步證明了該指數(shù)的創(chuàng)新性。這不是預(yù)測(cè)標(biāo)普500指數(shù)的具體漲跌,而是預(yù)測(cè)其變動(dòng)的速率(是加速上漲還是加速下跌)。對(duì)此,研究人員指出,焦慮可讓股價(jià)減緩上漲,卻可讓其加速下跌。7.2.4情感分析這個(gè)發(fā)現(xiàn)具有開創(chuàng)性的意義,因?yàn)槿藗兊谝淮未_立了大眾情緒與經(jīng)濟(jì)之間的關(guān)系。事實(shí)上,其創(chuàng)新意義遠(yuǎn)超于此,這是在集體情感狀態(tài)與可測(cè)量行動(dòng)之間建立了科學(xué)關(guān)系,是歷史上人們首次從隨機(jī)自發(fā)的人類行為中總結(jié)出可測(cè)量的大眾情感指標(biāo),它使這一領(lǐng)域的研究跨出了實(shí)驗(yàn)室的門檻而走入了現(xiàn)實(shí)世界。情緒是會(huì)下金蛋的鵝,大眾情緒的波動(dòng)影響著股市的走勢(shì),但股市卻無法影響大眾情緒。在這里,并不存在“雞生蛋、蛋生雞”的繁復(fù)關(guān)系。當(dāng)埃里克和卡里試著通過股市表現(xiàn)來判斷大眾情緒時(shí),他們發(fā)現(xiàn),這種反向的對(duì)應(yīng)關(guān)系并不成立。他們完全找不著規(guī)律?;蛟S經(jīng)濟(jì)活動(dòng)只是影響大眾情緒的諸多因素之一,而大眾情緒卻能在很大程度上決定經(jīng)濟(jì)活動(dòng)。它們之間只存在單向關(guān)系。7.2.4情感分析4.情緒指標(biāo)影響金融市場(chǎng)埃里克和卡里發(fā)現(xiàn),最關(guān)心他們研究成果的并不是學(xué)術(shù)圈的同行,而是那些正在對(duì)沖基金工作或準(zhǔn)備創(chuàng)立對(duì)沖基金的人。股市交易員對(duì)此發(fā)現(xiàn)垂涎三尺,有些人甚至開始在他們的研究基礎(chǔ)上構(gòu)建和拓展交易系統(tǒng)。越來越多的人意識(shí)到,必須要掌握博客等互聯(lián)網(wǎng)文本中

所隱含的情緒和動(dòng)機(jī),對(duì)于投資決策者

而言,這與傳統(tǒng)的經(jīng)濟(jì)指標(biāo)幾乎同樣重

要(見圖)。

圖7-26情緒影響股市7.2.4情感分析小型新銳投資公司AlphaGenius的首席執(zhí)行官蘭迪?薩夫曾在2012年舊金山文本分析世界大會(huì)上表示:“我們將‘情緒’視為一種資產(chǎn),與外國市場(chǎng)、債券和黃金市場(chǎng)類似。”他說,自己的公司“每天都在關(guān)注數(shù)以千計(jì)的推特發(fā)言和互聯(lián)網(wǎng)評(píng)論,來發(fā)現(xiàn)某證券品種是否出現(xiàn)了買入或賣出信號(hào)。如果這些信號(hào)顯示某證券價(jià)格波動(dòng)超過了合理區(qū)間,那么我們就會(huì)馬上交易”。另一家對(duì)沖基金公司“德溫特資本市場(chǎng)”則公開了所有依據(jù)公眾情緒進(jìn)行投資的舉措,荷蘭公司SNTMNT(聽上去就是“情緒”)則為所有人提供了基于推特上的公眾情緒來進(jìn)行交易的API(應(yīng)用程序界面)。“現(xiàn)在,許多聰明人士開始悄悄利用新聞和推特上表露出的情緒做交易。”金融交易和預(yù)測(cè)分析專家本恩?吉本特在給我的一封電郵中這樣寫道。7.2.4情感分析實(shí)際上,現(xiàn)實(shí)生活中并沒有公開的充分證據(jù)表明,通過情緒就能精準(zhǔn)預(yù)測(cè)市場(chǎng)并大發(fā)其財(cái)。焦慮指數(shù)的預(yù)測(cè)性在2008年得到了驗(yàn)證,但2008年正是金融危機(jī)深化、經(jīng)濟(jì)狀況惡化的特殊年份。因此,在其他年份,博客上可能不會(huì)出現(xiàn)那么多關(guān)于經(jīng)濟(jì)的、表現(xiàn)出某種情緒的文章。關(guān)于對(duì)沖基金通過把握大眾情緒取得成功的故事,我們雖然常有耳聞,但這些故事往往都語焉不詳。在埃里克和卡里之后,許多研究都宣稱能精準(zhǔn)預(yù)測(cè)市場(chǎng)走勢(shì),但這些論斷都有待科學(xué)驗(yàn)證和觀察。而且,這一模式也不見得會(huì)持續(xù)下去。正如某投資公司在談到風(fēng)險(xiǎn)時(shí)經(jīng)常說的,“過去的投資表現(xiàn)并不是對(duì)未來收益的擔(dān)?!保虼宋覀儚膩聿荒芡耆WC歷史模式必然會(huì)重現(xiàn)。7.2.4情感分析金融界似乎一直都在絞盡腦汁地尋找賺錢良方,因此任何包含預(yù)測(cè)性信息的創(chuàng)新源泉都不會(huì)逃過其法眼?!扒榫w數(shù)據(jù)”的非凡之處決定了其應(yīng)用價(jià)值空間。只有當(dāng)指標(biāo)具有預(yù)測(cè)性,并且不在既有的數(shù)據(jù)來源內(nèi),它才能改善預(yù)測(cè)效果。這樣的優(yōu)勢(shì)足以帶來上百萬美元的收益。焦慮指數(shù)預(yù)示著不可遏制的潮流:性質(zhì)不同的各類數(shù)據(jù),其數(shù)量在不斷膨脹,而各組織機(jī)構(gòu)正努力創(chuàng)新,從中汲取精華。正如其他數(shù)據(jù)來源一樣,要想充分利用其預(yù)測(cè)功能,那么情緒指標(biāo)也必須配合其他來源的數(shù)據(jù)使用。預(yù)測(cè)分析就仿佛是一個(gè)面缸,所有的原材料都必須經(jīng)過充分“攪拌”后才能改善決策。要想實(shí)現(xiàn)這一目標(biāo),我們必須應(yīng)對(duì)最核心的科學(xué)挑戰(zhàn):將各種數(shù)據(jù)流有序地結(jié)合起來,以此改善決策。神經(jīng)網(wǎng)絡(luò)7.2.57.2.5神經(jīng)網(wǎng)絡(luò)大數(shù)據(jù)帶給我們的無論從內(nèi)容豐富程度還是詳細(xì)程度上看都將超過從前,從而有可能讓我們的視野寬度與學(xué)習(xí)速度實(shí)現(xiàn)突破。用麥克森公司管理層的話來說,大數(shù)據(jù)可以讓“一切潛在機(jī)會(huì)無所遁形”。人工神經(jīng)網(wǎng)絡(luò)(NeuralNetwork)是由大量處理單元(或稱神經(jīng)元)互聯(lián)組成的非線性、自適應(yīng)信息處理系統(tǒng)。它是在現(xiàn)代神經(jīng)科學(xué)研究成果的基礎(chǔ)上提出的,試圖通過模擬大腦神經(jīng)網(wǎng)絡(luò)處理、記憶信息的方式進(jìn)行信息處理。文字識(shí)別、語音識(shí)別等模式識(shí)別領(lǐng)域適合應(yīng)用神經(jīng)網(wǎng)絡(luò),此外,在信用、貸款的風(fēng)險(xiǎn)管理、信用欺詐監(jiān)測(cè)等領(lǐng)域也得到了廣泛的應(yīng)用。7.2.5神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)具有四個(gè)基本特征:(1)非線性:非線性關(guān)系是自然界的普遍特性。大腦的智慧就是一種非線性現(xiàn)象。人工神經(jīng)元處于激活或抑制二種不同的狀態(tài),這種行為在數(shù)學(xué)上表現(xiàn)為一種非線性關(guān)系。具有閾值的神經(jīng)元構(gòu)成的網(wǎng)絡(luò)具有更好的性能,可以提高容錯(cuò)性和存儲(chǔ)容量。(2)非局限性:一個(gè)神經(jīng)網(wǎng)絡(luò)通常由多個(gè)神經(jīng)元廣泛連接而成。一個(gè)系統(tǒng)的整體行為不僅取決于單個(gè)神經(jīng)元的特征,而且可能主要由單元之間的相互作用、相互連接所決定。通過單元之間的大量連接模擬大腦的非局限性。聯(lián)想記憶是非局限性的典型例子。7.2.5神經(jīng)網(wǎng)絡(luò)(3)非常定性:人工神經(jīng)網(wǎng)絡(luò)具有自適應(yīng)、自組織、自學(xué)習(xí)能力。神經(jīng)網(wǎng)絡(luò)不但處理的信息可以有各種變化,而且在處理信息的同時(shí),非線性動(dòng)力系統(tǒng)本身也在不斷變化。經(jīng)常采用迭代過程描寫動(dòng)力系統(tǒng)的演化過程。(4)非凸性:一個(gè)系統(tǒng)的演化方向,在一定條件下將取決于某個(gè)特定的狀態(tài)函數(shù)。例如能量函數(shù),它的極值相應(yīng)于系統(tǒng)比較穩(wěn)定的狀態(tài)。非凸性是指這種函數(shù)有多個(gè)極值,故系統(tǒng)具有多個(gè)較穩(wěn)定的平衡態(tài),這將導(dǎo)致系統(tǒng)演化的多樣性。7.2.5

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論