




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、大數(shù)據(jù)大數(shù)據(jù)的概念大數(shù)據(jù)(Big Data)是指“無法用現(xiàn)有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復(fù)雜的數(shù)據(jù)集合。網(wǎng)絡(luò)上每一筆搜索,網(wǎng)站上每一筆交易、每一筆輸入差不多上數(shù)據(jù),通過計算機做篩選、整理、分析,所得出的結(jié)果可不僅僅只得到簡單、客觀的結(jié)論,更能用于關(guān)心企業(yè)經(jīng)營決策,搜集起來的數(shù)據(jù)還能夠被規(guī)劃,引導(dǎo)開發(fā)更大的消費勁量。大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的區(qū)不?銀行做數(shù)據(jù)業(yè)務(wù)做了十多年,那么大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的倉庫有哪些差異?實際上確實是群體和個體的差異?;ヂ?lián)網(wǎng)數(shù)據(jù)完全瞄向個體,數(shù)據(jù)結(jié)構(gòu)也是精準(zhǔn)于個體,而傳統(tǒng)的數(shù)據(jù)面向經(jīng)營指標(biāo)、面向群體。宏觀意義上來看,假如小明去了一百次書店,往常要回答的問題
2、是他第一百零一次買不買書,即業(yè)績和經(jīng)營指標(biāo)的問題;而現(xiàn)在,互聯(lián)網(wǎng)關(guān)懷的是什么?最關(guān)懷的是他第一百零一次買什么書,需要將什么樣的內(nèi)容推舉給他。這不是一個概率問題,而是一個模糊的程度問題。要量化那個程度,我們一定要基于個體,而不是基于群體的共性描述。傳統(tǒng)定義上,更多關(guān)注的是一類人群,用同一類規(guī)則制訂套餐給他們;而在互聯(lián)網(wǎng)時代,要把每個人都精準(zhǔn)刻畫出來,進行精準(zhǔn)匹配。有電商講他們要做到一百萬用戶要有一百萬個商店,特不是在移動的小屏幕上,三次點擊以后就會損失一個客戶。因此差異化絕對不可能是對群體共性的描述,而完全是對個體差異的刻畫。關(guān)于大數(shù)據(jù)的深度分析,專門重要內(nèi)容確實是個性化的信息推舉。個性化的信息
3、推舉不僅僅是基于用戶的相似性這么簡單的東西,還有大量比較深入的復(fù)雜模型。比如講,就用戶看資訊而言,我們?nèi)绾螛尤ネ茢嘁粋€用戶點開一條八卦資訊后,是接著深挖八卦到死,依舊轉(zhuǎn)而掃瞄另外一個新聞。同樣,有的用戶登陸淘寶只是逛逛而已,有些用戶則是專門明確地想要買一些東西,這就需要對用戶的意圖進行預(yù)測,那個地點面涉及到一些比較難的機器學(xué)習(xí)技術(shù)。我們現(xiàn)在生活的是信息化的世界,以后會走向個性化。在這一點上有一個例子,耐克制作了一款鞋子,在那個鞋子里裝上了傳感器,然后穿上那個鞋子的人,你一天大概走多少路,而且你走路的狀態(tài)比如著力點等相關(guān)情況的數(shù)據(jù)都會通過傳感器傳到耐克公司,耐克公司就會依照這些數(shù)據(jù)來給你量身定做
4、鞋子。如此,以后的銷售模式將會是個性化的。大數(shù)據(jù)的典型特征(3V)“大數(shù)據(jù)”那個詞,光從字面來看,可能會讓人覺得只是容量特不大的數(shù)據(jù)集合而已。然而,容量只只是是大數(shù)據(jù)特征的一個方面,假如只拘泥于數(shù)據(jù)量的話,就無法深入理解當(dāng)前圍繞大數(shù)據(jù)所進行的討論。因為“用現(xiàn)有的一般技術(shù)難以治理”如此的狀況,并不僅僅是由于數(shù)據(jù)量增大這一個因素所造成的。大數(shù)據(jù)的特征,能夠用三個V開頭的關(guān)鍵詞來描述。(1)Volume(容量)看到大數(shù)據(jù)那個詞,大多數(shù)人的第一印象可能確實是Volume,也確實是數(shù)據(jù)量吧。從剛才我們講到的大數(shù)據(jù)的定義來看,也確實是指用現(xiàn)有技術(shù)無法治理的數(shù)據(jù)量,從現(xiàn)狀來看,差不多上是指從幾十TB到幾PB
5、如此的數(shù)量級。因此,隨著技術(shù)的進步,那個數(shù)值也會不斷變化。例如,在5年以后,也許只有幾EB數(shù)量級的數(shù)據(jù)量才能夠稱得上是大數(shù)據(jù)了。截至目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB(1PB=210TB),而歷史上全人類講過的所有的話的數(shù)據(jù)量大約是5EB(1EB=210PB)。當(dāng)前,典型個人計算機硬盤的容量為TB量級,而一些大企業(yè)的數(shù)據(jù)量差不多接近EB量級。(2)Variety(多樣性)除了傳統(tǒng)的銷售、庫存等數(shù)據(jù),現(xiàn)在企業(yè)所采集和分析的數(shù)據(jù)還包括像網(wǎng)站日志數(shù)據(jù)、呼叫中心通話記錄、Twitter和Facebook等社交媒體中的文本數(shù)據(jù)、智能手機中內(nèi)置的GPS(全球定位系統(tǒng))所產(chǎn)生的位置信息、時刻生
6、成的傳感器數(shù)據(jù),甚至還有圖片和視頻,數(shù)據(jù)的種類和幾年前相比差不多有了大幅度的增加。其中,近年來爆發(fā)式增長的一些數(shù)據(jù),如互聯(lián)網(wǎng)上的文本數(shù)據(jù)、位置信息、傳感器數(shù)據(jù)、視頻等,用企業(yè)中主流的關(guān)系型 HYPERLINK /database/ t _blank 數(shù)據(jù)庫是專門難存儲的,它們都屬于非結(jié)構(gòu)化數(shù)據(jù)。因此,在這些種類的數(shù)據(jù)中,也有一些是過去就一直存在并保存下來的。然而,和過去不同的是,這些大數(shù)據(jù)并非只是存儲起來就夠了,還需要對其進行分析,并從中獲得有用的信息。以美國企業(yè)為代表的眾多企業(yè)正在致力于這方面的研究。監(jiān)控攝像機的視頻數(shù)據(jù)正是其中之一。近年來,超市、便利店等零售企業(yè)幾乎都配備了監(jiān)控攝像機,目的
7、是為了防止盜竊和關(guān)心抓捕盜竊嫌犯,但最近也出現(xiàn)了使用監(jiān)控攝像機的視頻數(shù)據(jù)來分析顧客購買行為的案例。例如,美國大型折扣店Family Dollar Stores,以及高級文具制造商萬寶龍(Montblanc),都開始嘗試利用監(jiān)控攝像頭對顧客在店內(nèi)的行為進行分析。以萬寶龍為例,它們過去差不多上憑經(jīng)驗和直覺來決定商品陳列的布局,但通過分析監(jiān)控攝像機的數(shù)據(jù),將最想賣出去的商品移動到最容易吸引顧客目光的位置,使得銷售額提高了20%。此外,美國移動運營商T-Mobile也在其全美1000家店中安裝了帶視頻分析功能的監(jiān)控攝像機,能夠統(tǒng)計來店人數(shù),還能夠追蹤顧客在店內(nèi)的行動路線、在展臺前停留的時刻,甚至是試用
8、了哪一款手機、試用了多長時刻等,對顧客在店內(nèi)的購買行為進行分析。(3)Velocity(速度)數(shù)據(jù)產(chǎn)生和更新的頻率,也是衡量大數(shù)據(jù)的一個重要特征。例如,整個日本的便利店在24小時內(nèi)產(chǎn)生的POS(Point Of Sales)數(shù)據(jù),電商網(wǎng)站中由用戶訪問所產(chǎn)生的網(wǎng)站點擊流數(shù)據(jù),高峰時高達每秒7000條的Twitter推文,日本全國公路上安裝的交通堵塞探測傳感器和路面狀況傳感器(可檢測結(jié)冰、積雪等路面狀態(tài))等,每天都在產(chǎn)生著龐大的數(shù)據(jù)。廣義的大數(shù)據(jù)剛才我們講解了大數(shù)據(jù)的定義,即用現(xiàn)有的一般技術(shù)難以治理的大量數(shù)據(jù)的集合,同時用三個V對大數(shù)據(jù)的特征進行了描述。然而,僅憑那個定義還無法解釋當(dāng)前大數(shù)據(jù)的火爆
9、局面,因為那個定義的著眼點僅僅在于數(shù)據(jù)的性質(zhì)上。那個定義我們把它視為狹義上的定義,而我們需要在廣義層面上為大數(shù)據(jù)下一個定義:那個狹義的定義所講的具備3V特征的數(shù)據(jù)就相當(dāng)因此賓語,那么我們還需要主語和謂語。謂語確實是“存儲、分析、處理”這些數(shù)據(jù),(而用什么方法來進行分析處理,是機器學(xué)習(xí)依舊統(tǒng)計分析或者其它什么,這些能夠看做是方式狀語),主語那確實是誰,誰來處理這些數(shù)據(jù)。那個誰確實是指的“數(shù)據(jù)科學(xué)家”目前在歐美是十分緊俏的,他們通過分析這些數(shù)據(jù)獲得有用意義和觀點這確實是大數(shù)據(jù)的廣義定義,它是一個綜合性的概念。大數(shù)據(jù)應(yīng)用案例穿孔卡片與美國人口普查美國在1880年進行的人口普查,耗時8年才完成數(shù)據(jù)匯總
10、。因此,他們獲得的專門多數(shù)據(jù)差不多上過時的。1890年進行的人口普查,可能要花費13年的時刻來匯總數(shù)據(jù)。而法律規(guī)定必須在十年內(nèi)完成,即使不考慮這種情況違反了憲法規(guī)定,它也是專門荒謬的。然而,因為稅收分攤和國會代表人數(shù)確定差不多上建立在人口的基礎(chǔ)上的,因此必須要得到正確的數(shù)據(jù),而且必須是及時的數(shù)據(jù)。后來,美國人口普查局就和當(dāng)時的美國發(fā)明家赫爾曼-霍爾瑞斯(HermanHollerith)簽訂了一個協(xié)議,用他的穿孔卡片制表機來完成1890年的人口普查。通過大量的努力,霍爾瑞斯成功地在1年時刻內(nèi)完成了人口普查。這簡直確實是一個奇跡,當(dāng)時在那個項目上霍爾瑞斯并沒賺多少鈔票,后來他成立了一個公司,向其他
11、國家賣他的產(chǎn)品,老了以后他把公司賣給了他的一個主管,成了成立IBM的三家公司之一。然而,將穿孔卡片作為收集處理大數(shù)據(jù)的方法依舊過于昂貴。怎么講,每個美國人都必須填一張可制成穿孔卡片的表格,然后再進行統(tǒng)計。這依舊特不苦惱的。70萬家企業(yè)聯(lián)網(wǎng)“直報”統(tǒng)計數(shù)據(jù)我們明白國家統(tǒng)計局每年都要編寫的中國統(tǒng)計年鑒。和美國一樣,往常我們國家統(tǒng)計數(shù)據(jù),是層層上報,人工統(tǒng)計,比如,國家進行人口普查,是縣級市級省級國家如此層層上報人口數(shù)據(jù),如此得到的數(shù)據(jù)往往滯后,專門不準(zhǔn)確。從2012年2月18日開始,全國70萬家三上企業(yè)和房地產(chǎn)開發(fā)經(jīng)營企業(yè)在統(tǒng)一的數(shù)據(jù)采集和處理平臺上,通過互聯(lián)網(wǎng)直接向國家數(shù)據(jù)中心或國家認定的省級數(shù)
12、據(jù)中心報送統(tǒng)計數(shù)據(jù)。如此就保證了數(shù)據(jù)的準(zhǔn)確性,及時性。2013年11月19日下午,阿里巴巴、百度、中國聯(lián)通等11家涉足大數(shù)據(jù)的領(lǐng)軍企業(yè)代表與國家統(tǒng)計局簽署關(guān)于大數(shù)據(jù)的戰(zhàn)略合作協(xié)議,共同探討和推進大數(shù)據(jù)在政府統(tǒng)計中的應(yīng)用。戰(zhàn)略合作內(nèi)容,要緊是共同研究探討建立大數(shù)據(jù)應(yīng)用的統(tǒng)計標(biāo)準(zhǔn),包括指標(biāo)定義、口徑、范圍、分類等;確定利用企業(yè)數(shù)據(jù)完善、補充政府統(tǒng)計數(shù)據(jù)的內(nèi)容、形式及實施步驟,包括數(shù)據(jù)采集、處理、分析、挖掘、公布等。在此基礎(chǔ)上,合作雙方將建立戰(zhàn)略合作關(guān)系。政府統(tǒng)計部門收集的數(shù)據(jù)來源更廣更多,有各個部門的行政記錄,有電商企業(yè)的數(shù)據(jù),有包括搜索記錄、社交記錄和媒體等互聯(lián)網(wǎng)數(shù)據(jù)。電子政務(wù):通過政府信息化,
13、大數(shù)據(jù)能夠提高政府決策的科學(xué)性和精準(zhǔn)性,提高政府預(yù)測預(yù)警能力以及應(yīng)急響應(yīng)能力,節(jié)約決策的成本。以財政部門為例,基于云計算、大數(shù)據(jù)技術(shù),財政部門能夠按需掌握各個部門的數(shù)據(jù),并對數(shù)據(jù)進行分析,做出的決策能夠更準(zhǔn)確、更高效。另外,也能夠依據(jù)數(shù)據(jù)推動財政創(chuàng)新,使財政工作更有效率、更加開放、更加透明。麻省理工與通貨緊縮預(yù)測軟件“10億價格項目”(The Billion Prices Project,BBP)提供了一個有味的例子。美國勞工統(tǒng)計局的人員每個月都要公布消費物價指數(shù)(CPI),這是用來測試通貨膨脹率的。這些數(shù)據(jù)對投資者和商家都特不重要。在決定是否增減銀行利率的時候,美聯(lián)儲也會考慮消費指數(shù)。一旦發(fā)
14、生通貨膨脹,工人工資也會增加。聯(lián)邦政府在支付社會福利和債券利息的款項時,這項指數(shù)也是他們參考的依據(jù)。聯(lián)邦政府為了得到這些數(shù)據(jù),會雇用專門多人向全美90個都市的商店、辦公室打電話、發(fā)傳真甚至登門訪問。他們反饋回來的各種各樣的價格信息達80000種,包括土豆的價格、出租車的票價等。政府采集這些數(shù)據(jù)每年大概需要花費兩億五千萬美元。這些數(shù)據(jù)是精確的也是有序的,然而那個采集結(jié)果的公布會有幾周的滯后。2008年的經(jīng)濟危機表明,那個滯后是致命的。政策決策者為了更好地應(yīng)對變化,需要及時了解通貨膨脹率,但假如以傳統(tǒng)的依靠采樣和追求精確的方式進行數(shù)據(jù)收集,政府就不可能及時獲得數(shù)據(jù)了。麻省理工學(xué)院(MIT)的兩位經(jīng)
15、濟學(xué)家,阿爾貝托卡瓦略(Alberto Cavell)和羅伯托里哥本(Oberto Rigobon)就對此提出了一個大數(shù)據(jù)方案,那確實是同意更混亂的數(shù)據(jù)。通過一個軟件在互聯(lián)網(wǎng)上收集信息,他們每天能夠收集到50萬種商品的價格。收集到的數(shù)據(jù)專門混亂,也不是所有數(shù)據(jù)都能輕易進行比較。然而把大數(shù)據(jù)和好的分析法相結(jié)合,那個項目在2008年9月雷曼兄弟破產(chǎn)之后立即就發(fā)覺了通貨緊縮趨勢,然而那些依靠官方數(shù)據(jù)的人直到11月份才明白那個情況。沃爾瑪沃爾瑪零售巨頭是最早在零售業(yè)運用大數(shù)據(jù)的,因而改變了整個行業(yè)。沃爾瑪通過大數(shù)據(jù)提早預(yù)知顧客改日會做什么,并提早預(yù)備。這確實是人適應(yīng)性的力量通過大數(shù)據(jù)總結(jié)匯總分析出的。
16、沃爾瑪有一個經(jīng)典的案例,那確實是:啤酒和尿布的例子,那個例子大伙兒都明白,現(xiàn)在看看沃爾瑪另外兩個例子:請把蛋撻與颶風(fēng)用品擺在一起依據(jù)是注意到2004年沃爾瑪對歷史交易記錄那個龐大數(shù)據(jù)庫進行觀看,那個數(shù)據(jù)庫記錄的不僅包括每一個顧客的購物清單以及消費額,還包括購物籃中的物品,具體購買時刻,甚至購買當(dāng)日的天氣。通過大數(shù)據(jù),沃爾瑪注意到,每當(dāng)季節(jié)性颶風(fēng)來臨之前,不僅手電筒銷量增加,而且美式早餐含糖零食蛋撻銷量也增加了,因此每當(dāng)季節(jié)性颶風(fēng)來臨時,按前面擺放在一起,以方便行色匆匆的顧客,從而增加銷量。東海岸中海岸西海岸在美國,東海岸與中海岸時差兩小時,東海岸的沃爾瑪超市早上開門營業(yè)兩小時之后,這時候中海岸
17、才開始營業(yè),沃爾瑪就會把東海岸當(dāng)天這兩小時的營業(yè)情況、相關(guān)數(shù)據(jù)傳給中海岸,中海岸就會依照那個數(shù)據(jù)明白了這天人們的購買喜好,決定貨品如何擺放,哪些物資擺放在一起會比較好,然后等中海岸的沃爾瑪營業(yè)兩小時之后,西海岸才到早上,才開始營業(yè),同樣,把東海岸和中海岸的營業(yè)數(shù)據(jù)傳到西海岸。這種方式給沃爾瑪帶來了專門大的利潤。美國折扣零售商塔吉特與懷孕預(yù)測大數(shù)據(jù)運用的極致,非美國折扣零售商塔吉特莫屬了。紐約時報曾報道過塔吉特公司如何樣在不被清晰告知的情況下預(yù)測出一個女性的懷孕情況。專門多人都不明白,關(guān)于零售商來講,明白一個顧客是否懷孕特不重要。因為這是一對夫妻改變消費觀念的開始,也是一對夫妻生命的分水嶺。他們
18、會開始光顧往??刹荒苋サ纳痰?,慢慢對新的品牌建立忠誠。塔吉特的分析團隊首先查看了簽署嬰兒禮物登記簿的女性的消費記錄。他們注意到,登記簿上的婦女會在懷孕大概第三個月的時候買專門多無香乳液。幾個月之后,她們會買一些營養(yǎng)品,比如鎂、鈣、鋅。公司最終找出了大概20多種關(guān)聯(lián)物,這些關(guān)聯(lián)物能夠給顧客進行“懷孕趨勢”評分。這些數(shù)據(jù)甚至使得零售商能夠比較準(zhǔn)確地預(yù)測預(yù)產(chǎn)期,如此就能夠在孕期的每個時期給客戶寄送相應(yīng)的優(yōu)惠券。杜西格在適應(yīng)的力量(The Power of Habit)一書中講到了接下來發(fā)生的情況。一天,一個男人沖進了一家位于明尼阿波利斯市郊的塔吉特商店,要求經(jīng)理出來見他。他氣憤地講:“我女兒依舊高中
19、生,你們卻給她郵寄嬰兒服和嬰兒床的優(yōu)惠券,你們是在鼓舞她懷孕嗎?”而當(dāng)幾天后,經(jīng)理打電話向那個男人致歉時,那個男人的語氣變得平和起來。他講:“我跟我的女兒談過了,她的預(yù)產(chǎn)期是8月份,是我完全沒有意識到那個情況的發(fā)生,應(yīng)該講抱歉的人是我?!痹谏鐣h(huán)境下查找關(guān)聯(lián)物只是大數(shù)據(jù)分析法采取的一種方式。同樣有用的一種方法是,通過找出新種類數(shù)據(jù)之間的相互聯(lián)系來解決日常需要。比方講,一種稱為預(yù)測分析法的方法就被廣泛地應(yīng)用于商業(yè)領(lǐng)域,它能夠預(yù)測事件的發(fā)生。這能夠指一個能發(fā)覺可能的流行歌曲的算法系統(tǒng)音樂界廣泛采納這種方法來確保它們看好的歌曲確實會流行;也能夠指那些用來防止機器失效和建筑倒塌的方法?,F(xiàn)在,在機器、發(fā)
20、動機和橋梁等基礎(chǔ)設(shè)施上放置傳感器變得越來越平常了,這些傳感器被用來記錄散發(fā)的熱量、振幅、承壓和發(fā)出的聲音等。一個東西要出故障,可不能是瞬間的,而是慢慢地出問題的。通過收集所有的數(shù)據(jù),我們能夠預(yù)先捕捉到事物要出故障的信號,比方講發(fā)動機的嗡嗡聲、引擎過熱都講明它們可能要出故障了。系統(tǒng)把這些異常情況與正常情況進行對比,就會明白什么地點出了毛病。通過盡早地發(fā)覺異常,系統(tǒng)能夠提醒我們在故障之前更換零件或者修復(fù)問題。通過找出一個關(guān)聯(lián)物并監(jiān)控它,我們就能預(yù)測以后。Hitwise,通過流量推斷消費者喜好數(shù)據(jù)創(chuàng)新再利用的一個典型例子是搜索關(guān)鍵詞。消費者和搜索引擎之間的瞬時交互形成了一個網(wǎng)站和廣告的列表,實現(xiàn)了那
21、一刻的特定功能。乍看起來,這些信息在實現(xiàn)了差不多用途之后大概變得一文不值。然而,以往的查詢也能夠變得特不有價值。有的公司,如數(shù)據(jù)代理益百利旗下的網(wǎng)頁流量測量公司Hitwise,讓客戶采集搜索流量來揭示消費者的喜好。通過Hitwise營銷人員能夠了解到粉紅色是否會成為今夏的潮流色,或者黑色是否會回歸潮流。谷歌整理了一個版本的搜索詞分析,公開供人們查詢,并與西班牙第二大銀行BBVA合作推出了實時經(jīng)濟指標(biāo)以及旅游部門的業(yè)務(wù)預(yù)報服務(wù),這些指標(biāo)差不多上基于搜索數(shù)據(jù)得到的。英國央行通過搜索查詢房地產(chǎn)的相關(guān)信息,更好地了解到了住房價格的升降情況。物聯(lián)網(wǎng)物聯(lián)網(wǎng)物聯(lián)網(wǎng)(Internet of Things,縮寫
22、IOT)是一個基于互聯(lián)網(wǎng)、傳統(tǒng)電信網(wǎng)等信息承載體,讓所有能夠被獨立尋址的一般物理對象實現(xiàn)互聯(lián)互通的網(wǎng)絡(luò)。在物聯(lián)網(wǎng)上,每個人都能夠應(yīng)用電子標(biāo)簽將真實的物體上網(wǎng)聯(lián)結(jié),在物聯(lián)網(wǎng)上都能夠查找出它們的具體位置。通過物聯(lián)網(wǎng)能夠用中心計算機對機器、設(shè)備、人員進行集中治理、操縱,也能夠?qū)彝ピO(shè)備、汽車進行遙控,以及搜尋位置、防止物品被盜等各種應(yīng)用。物聯(lián)網(wǎng)將現(xiàn)實世界數(shù)字化,應(yīng)用范圍十分廣泛。物聯(lián)網(wǎng)的應(yīng)用領(lǐng)域要緊包括以下幾個方面:運輸和物流領(lǐng)域、健康醫(yī)療領(lǐng)域、智能環(huán)境(家庭、辦公、工廠)領(lǐng)域、個人和社會領(lǐng)域等,具有十分寬敞的市場和應(yīng)用前景。RFID技術(shù) RFID是Radio Frequency Identific
23、ation的縮寫,即射頻識不,俗稱電子標(biāo)簽。RFID射頻識不是一種非接觸式的自動識不技術(shù),它通過射頻信號自動識不目標(biāo)對象并獵取相關(guān)數(shù)據(jù),識不工作無須人工干預(yù),可工作于各種惡劣環(huán)境。RFID技術(shù)可識不高速運動物體并可同時識不多個標(biāo)簽,操作快捷方便。RFID是一種簡單的無線系統(tǒng),只有兩個差不多器件,該系統(tǒng)用于操縱、檢測和跟蹤物體。系統(tǒng)由一個詢問器(或閱讀器)和專門多應(yīng)答器(或標(biāo)簽)組成。適應(yīng)領(lǐng)域:物流和供應(yīng)治理、生產(chǎn)制造和裝配、航空行李處理、郵件、快運包裹處理、文檔追蹤、圖書館治理動物身份標(biāo)識、運動計時、門禁操縱、電子門票、道路自動收費.從大型遠距離UHF標(biāo)簽到細小的UHF標(biāo)簽。能夠為客戶做定制化
24、生產(chǎn),滿足各種要求。RFID技術(shù)在超市和圖書館中的應(yīng)用。車聯(lián)網(wǎng)講到物聯(lián)網(wǎng)不可遺漏的因此是車聯(lián)網(wǎng),早在2012年的北京國際汽車展覽會期間,中國移動就展示了基于TD-LTE的4G車聯(lián)網(wǎng)概念產(chǎn)品,而現(xiàn)時期,在4G時代全面到來的背景下,車聯(lián)網(wǎng)的進展愈發(fā)迅猛。不僅僅巨頭Google一直在深耕車聯(lián)網(wǎng),我國自主車企當(dāng)中也有廠商在積極跟進,最早試水車聯(lián)網(wǎng)技術(shù)的是上汽集團,一直走在本土開發(fā)車聯(lián)網(wǎng)的前列,其inkaNet系統(tǒng)被廣泛搭載在榮威350、榮威550、W5以及MG5等多款車型上。目前幾乎所有的整車企業(yè)都在車聯(lián)網(wǎng)技術(shù)方面進行了大量的投入。以后車聯(lián)網(wǎng)技術(shù)將重新定義汽車DNA。借助無線通訊,都市內(nèi)車與車之間,車
25、與建筑之間,車與人之間都將建立更加智能緊密的互聯(lián)。通過裝載在車輛上的電子標(biāo)簽通過無線射頻等識不技術(shù),實現(xiàn)在信息網(wǎng)絡(luò)平臺上對所有車輛的屬性信息和靜、動態(tài)信息進行提取和有效利用,并依照不同的功能需求對所有車輛的運行狀態(tài)進行有效的監(jiān)管和提供綜合服務(wù)。同時將電視、電腦、手機都能夠和汽車里的屏幕連接在一起,駕駛過程中娛樂化的程度大大加強。無人駕駛無人駕駛被人認為是車聯(lián)網(wǎng)的終極目標(biāo),無人駕駛車依靠的技術(shù)專門多,比如導(dǎo)航、雷達、龐大數(shù)據(jù)計算等,要實現(xiàn)這些技術(shù)需要和物聯(lián)網(wǎng)緊密結(jié)合起來。盡管車聯(lián)網(wǎng)只是是近幾年才興起的情況,而物聯(lián)網(wǎng)技術(shù)的成熟則極大的推動了車聯(lián)網(wǎng)的進展。車聯(lián)網(wǎng)技術(shù)是實現(xiàn)無人駕駛技術(shù)和智能化交通的第
26、一步,而在無人駕駛技術(shù)普及的第一時期,車聯(lián)網(wǎng)技術(shù)將迎來爆發(fā)期。自動泊車系統(tǒng)在我印象中小時候經(jīng)常能聽到從某輛車內(nèi)傳出“倒車請注意”的聲音,后來想想覺得當(dāng)時技術(shù)不發(fā)達沒有達到關(guān)心駕駛的水平,只能通過提示車后的行人注意安全。過了沒幾年什么倒車雷達、倒車影像以及帶有循跡功能的倒車系統(tǒng)全面鋪開,不管是對人依舊對物駕駛者都能夠更安全的操縱車輛。而我今天要講的是自動泊車系統(tǒng),顧名思義駕駛者雙手能夠離開方向盤,在車輛停好之前要做的只是等待。一般情況下自動泊車系統(tǒng)要緊由兩部分組成:操縱單元和位于前后保險杠以及兩側(cè)的超聲波雷達探頭。按動自動泊車輔助系統(tǒng)激活按鈕之后,雷達探頭可在車輛行駛時對車輛兩側(cè)進行掃描,低時速
27、(一般為30km/h)及側(cè)向距離1.5米左右之內(nèi)均能成功完成車位掃描。但差不多上當(dāng)車位旁出現(xiàn)樹木,路燈桿等柱狀物時,為幸免雷達偵測出現(xiàn)誤差而發(fā)生碰撞風(fēng)險,現(xiàn)在系統(tǒng)將不被激活。操縱單元對雷達反饋的信息進行分析,從而估算出車位是否足以容納車輛停放。當(dāng)車位長度大于車輛長度1.4米以上或更高時,操縱單元會通過行車電腦顯示屏發(fā)出準(zhǔn)予停車的提示。駕駛者只需要撥動轉(zhuǎn)向燈開關(guān),告訴系統(tǒng)靠道路哪一側(cè)停車即可。自動泊車系統(tǒng)隨后將通過助力轉(zhuǎn)向系統(tǒng)對車輛行駛方向進行干預(yù),并以操縱單元規(guī)劃好的路徑將車輛停入車位。目前,大眾汽車旗下產(chǎn)品如途觀,邁騰和CC均搭載2.0版本的自動泊車系統(tǒng)。這套系統(tǒng)除能夠關(guān)心車輛以倒庫的方式停
28、入車位,也能夠?qū)崿F(xiàn)側(cè)方停車。而諸如途安上的以及其它一些品牌的系統(tǒng)則只能實現(xiàn)側(cè)方停車。多效地理定位于UPS的最佳行車路徑現(xiàn)在,GPS差不多只是眾多定位系統(tǒng)中的一種了。中國和歐洲也正在研發(fā)新的衛(wèi)星定位系統(tǒng)來與之抗衡。這些新系統(tǒng)通過對電塔和無線路由器的信號強度進行三角測量來定位地理位置,從而彌補了GPS無法在室內(nèi)和高樓之間進行定位的缺陷,這也是谷歌、蘋果和微軟需要自己研發(fā)地理定位系統(tǒng)來輔助GPS的緣故。谷歌的街景車(Street View Cars)邊拍照邊收集無線路由器信息;iPhone本身確實是一個“移動間諜”,一直在用戶不知情的情況下收集位置和無線數(shù)據(jù)然后傳回蘋果公司;因此,谷歌的安卓手機和微
29、軟的手機操作系統(tǒng)也在收集這一類數(shù)據(jù)。除了人以外,我們也能夠跟蹤事物的地理位置信息。隨著汽車裝上了無線傳感器,地理位置信息的數(shù)據(jù)化深刻變革了保險的概念。這些數(shù)據(jù)提供了關(guān)于時刻、地點和實際行駛路程的詳細信息,使保險公司能更好地為車險定價。在英國,車主能夠依照他的實際駕駛地點和時刻購買汽車保險,而不是只能依照他的年齡、性不和履歷來購買年險。這種保險定價法激勵投保人產(chǎn)生更好的行為適應(yīng)。同時,這改變了保險的基礎(chǔ),從考慮一個群體的平均風(fēng)險轉(zhuǎn)變?yōu)閭€性化的分析。通過汽車定位每個人的地理方位也改變了一些固定資產(chǎn)投入的模式,比方講公路和其他基礎(chǔ)設(shè)施能夠讓使用這些資源的司機和其他人分擔(dān)一部分投入。因此,在實現(xiàn)對所有
30、人和事以數(shù)據(jù)形式保持持續(xù)定位之前,這顯然還無法實現(xiàn),但這是我們的進展方向。UPS快遞多效地利用了地理定位數(shù)據(jù)。為了使總部能在車輛出現(xiàn)晚點的時候跟蹤到車輛的位置和預(yù)防引擎故障,它的貨車內(nèi)裝有傳感器、無線適配器和GPS。同時,這些設(shè)備也方便了公司監(jiān)督治理職員并優(yōu)化行車線路。就像莫里的圖表是基于過去的航海經(jīng)驗一樣,UPS為貨車定制的最佳行車路徑一定程度上也是依照過去的行車經(jīng)驗總結(jié)而來的。UPS的過程治理總監(jiān)杰克萊維斯(Jack Levis)認為那個分析項目效果顯著。2011年,UPS的駕駛員們少跑了近4828萬公里的路程,節(jié)約了300萬加侖的燃料同時減少了3萬公噸的二氧化碳排放量。系統(tǒng)也設(shè)計了盡量少
31、左轉(zhuǎn)的路線,因為左轉(zhuǎn)要求貨車在交叉路口穿過去,因此更容易出事故。而且,貨車往往需要等待一會兒才能左轉(zhuǎn),也會更耗油,因此,減少左轉(zhuǎn)使得行車的安全性和效率都得到了大幅提升。UPS與汽車修理預(yù)測UPS國際快遞公司從2000年就開始使用預(yù)測性分析來監(jiān)測自己全美60000輛車規(guī)模的車隊,如此就能及時地進行防備性的修理。假如車在路上拋錨損失會特不大,因為那樣就需要再派一輛車,會造成延誤和再裝載的負擔(dān),并消耗大量的人力物力,因此往常UPS每兩三年就會對車輛的零件進行定時更換。但這種方法不太有效,因為有的零件并沒有什么毛病就被換掉了。通過監(jiān)測車輛的各個部位,UPS現(xiàn)在只需要更換需要更換的零件,從而節(jié)約了好幾百
32、萬美元。有一次,監(jiān)測系統(tǒng)甚至關(guān)心UPS發(fā)覺了一個新車的一個零件有問題,因此免除了可能會造成的困擾。無獨有偶,橋梁和建筑物上也被安裝了傳感器來監(jiān)測磨損程度。大型化工廠和提煉廠也安裝了傳感器,因為一旦設(shè)備的某一個零件有問題,就只有在更換了零件之后生產(chǎn)才能接著進行。收集和分析數(shù)據(jù)的花費比出現(xiàn)停產(chǎn)的損失小得多。預(yù)測性分析并不能解釋故障可能會發(fā)生的緣故,只會告訴你存在什么問題,也就講它并不能告訴你引擎過熱是因什么緣故,磨損的風(fēng)扇皮帶?沒擰緊的螺帽?沒有答案。日本先進工業(yè)技術(shù)研究院的坐姿研究與汽車防盜系統(tǒng)專門少有人會認為一個人的坐姿能表現(xiàn)什么信息,然而它確實能夠。當(dāng)一個人坐著的時候,他的身形、姿勢和重量分
33、布都能夠量化和數(shù)據(jù)化。日本先進工業(yè)技術(shù)研究所的教授和他的團隊通過在汽車座椅下安裝360個壓力傳感器以測量人對椅子施加壓力的方式,把人體坐姿特征轉(zhuǎn)化成了數(shù)據(jù)。那個系統(tǒng)能依照人體對座位的壓力差異識不出乘坐者的身份,準(zhǔn)確率高達98%。 那個研究并不愚蠢。這項技術(shù)能夠作為汽車防盜系統(tǒng)安裝在汽車內(nèi)。有了那個系統(tǒng)之后,汽車就能識不出駕駛者是不是車主;假如不是,系統(tǒng)就會要求司機輸入密碼;假如司機無法準(zhǔn)確輸入密碼,汽車就會自動熄火。 這一技術(shù)還可匯合事故發(fā)生前駕車者的姿勢變化數(shù)據(jù),分析坐姿與行駛安全的關(guān)系,在司機疲勞駕駛時發(fā)出警示或自動剎車。同時,那個系統(tǒng)不但能夠發(fā)覺車輛被盜,還能夠通過收集到的數(shù)據(jù)識不出盜賊
34、的身份。谷歌與甲型H1N1流感2009年出現(xiàn)的甲型H1N1流感結(jié)合了導(dǎo)致禽流感和豬流感的病毒的特點,在短短幾周之內(nèi)迅速傳播開來。當(dāng)時沒有研發(fā)出對抗這種新型流感病毒的疫苗。公共衛(wèi)生專家能做的只是減慢它傳播的速度。但要做到這一點,他們必須先明白這種流感出現(xiàn)在哪里。美國,和所有其他國家一樣,都要求大夫在發(fā)覺新型流感病例時告知疾病操縱與預(yù)防中心(CDC)。但由于人們可能患病多日實在受不了了才會去醫(yī)院,同時那個信息傳達回疾控中心也需要時刻,因此,通告新流感病例時往往會有一兩周的延遲。而且,疾控中心每周只進行一次數(shù)據(jù)匯總。然而,關(guān)于一種飛速傳播的疾病,信息滯后兩周的后果將是致命的。這種滯后導(dǎo)致公共衛(wèi)生機構(gòu)
35、在疫情爆發(fā)的關(guān)鍵時期反而無所適從。在甲型H1N1流感爆發(fā)的幾周前,互聯(lián)網(wǎng)巨頭谷歌公司的工程師們在自然雜志上發(fā)表了一篇引人注目的論文。它令公共衛(wèi)生官員們和計算機科學(xué)家們感到震驚。谷歌通過觀看人們在網(wǎng)上的搜索記錄來預(yù)測冬季流感的傳播:不僅是全美范圍的傳播,而且能夠具體到特定的地區(qū)和州。而這種方法往常一直是被忽略的。谷歌保存了多年來所有的搜索記錄,而且每天都會收到來自全球超過30億條的搜索指令,如此龐大的數(shù)據(jù)資源足以支撐和關(guān)心它完成這項工作。發(fā)覺能夠通過人們在網(wǎng)上檢索的詞條辨不出其是否感染了流感后,谷歌公司把5000萬條美國人最頻繁檢索的詞條和美國疾控中心在2003年至2008年間季節(jié)性流感傳播時期
36、的數(shù)據(jù)進行了比較。他們設(shè)立的系統(tǒng)唯一關(guān)注的確實是特定檢索詞條的頻繁使用與流感在時刻和空間上的傳播之間的聯(lián)系。谷歌公司為了測試這些檢索詞條,總共處理了4.5億個不同的數(shù)字模型。在將得出的預(yù)測與2007年、2008年美國疾控中心記錄的實際流感病例進行對比后,谷歌公司發(fā)覺,他們的軟件發(fā)覺了45條檢索詞條的組合,一旦將它們用于一個數(shù)學(xué)模型,他們的預(yù)測與官方數(shù)據(jù)的相關(guān)性高達97%。和疾控中心一樣,他們也能推斷出流感是從哪里傳播出來的,而且他們的推斷特不及時,可不能像疾控中心一樣要在流感爆發(fā)一兩周之后才能夠做到。因此,2009年甲型H1N1流感爆發(fā)的時候,與適應(yīng)性滯后的官方數(shù)據(jù)相比,谷歌成為了一個更有效、
37、更及時的指示標(biāo)。大數(shù)據(jù)預(yù)測早產(chǎn)兒病情安大略理工大學(xué)的卡羅琳麥格雷戈(Carolyn McGregor)博士和一支研究隊伍與IBM一起和專門多醫(yī)院合作,用一個軟件來監(jiān)測處理即時的病人信息,然后把它用于早產(chǎn)兒的病情診斷。系統(tǒng)會監(jiān)控16個不同地點的數(shù)據(jù),比如心率、呼吸、體溫、血壓和血氧含量,這些數(shù)據(jù)能夠達到每秒鐘1260個數(shù)據(jù)點之多。在明顯感染癥狀出現(xiàn)的24小時之前,系統(tǒng)就能監(jiān)測到早產(chǎn)兒細微的軀體變化發(fā)出的感染信號。麥格雷戈博士講:“你無法用肉眼看到,但計算機能夠看到。”那個系統(tǒng)依靠的是相關(guān)關(guān)系,而不是因果關(guān)系。它告訴你的是會發(fā)生什么,而不是什么緣故發(fā)生。這正是那個系統(tǒng)的價值!提早明白病情,大夫就能
38、夠提早治療,也能更早地明白某種療法是否有效,這一切都有利于病人的康復(fù)。驚人的是,麥格雷戈博士的大數(shù)據(jù)分析法能發(fā)覺一些與大夫的傳統(tǒng)看法相違背的相關(guān)關(guān)系。比如講她發(fā)覺,穩(wěn)定的生命體征表明病人發(fā)生了嚴峻的感染。這專門驚奇,因為大夫一般認為惡化的疼痛才是全面感染的征兆。你能夠想象,往常大夫差不多上下班的時候看看嬰兒床旁邊的記錄本,覺得病情穩(wěn)定了,也就下班回家了。只有半夜護士的緊急電話才讓他們明白大事不行了,他們的直覺犯了大錯誤。數(shù)據(jù)表明,早產(chǎn)兒的穩(wěn)定不但不是病情好轉(zhuǎn)的標(biāo)志,反而是暴風(fēng)雨前的寧靜,就像是軀體要它的器官做好抵抗困難的預(yù)備。然而我們也不太確定,我們不明白具體緣故,只是看到了相關(guān)關(guān)系。這需要海
39、量的數(shù)據(jù)同時找出隱含的相關(guān)性才能發(fā)覺。然而,大數(shù)據(jù)挽救了專門多生命,這是毫無疑問的。醫(yī)療方面比較有意思的是醫(yī)療方面的大數(shù)據(jù),其中講得比較多的是“量化自我”,它是通過一種非干預(yù)的手段,把一些所謂的醫(yī)療傳感器放到我們的周圍,比如我們戴一個腕表、一枚戒指、一個耳塞、一副眼鏡等,通過這些設(shè)備我們能夠了解自己的心跳、血壓情況,甚至包括我們體表的健康狀況,從而對一些大?。ㄈ绨d癇等)進行早期預(yù)測。同樣,假如我們給一個小小孩使用小兒床墊,通過那個床墊上的壓力與濕度傳感器分析,我們能夠?qū)iT早地推斷那個小小孩有沒有比較嚴峻的打鼾或者睡姿不正確等問題。因為嚴峻的打鼾容易造成小孩在三、四歲的時候智力發(fā)育低于同齡人,現(xiàn)
40、在通過那個床墊的傳感器分析就能夠及早地發(fā)覺并加以治療。針對慢性病人、老年人同樣也有一些類似的輔助工具。在健康方面,比如利用移動終端的手機,加上APP軟件,外載的手表,就能夠?qū)崟r監(jiān)測自己的心跳、呼吸,大夫通過這些數(shù)據(jù)就能夠了解你的健康狀況。大衛(wèi)介紹講。美國Fitbit公司近期就推出了一款免費的蘋果手機應(yīng)用,用戶可用于記錄食物和液體攝入量,從而跟蹤其活動水平和營養(yǎng)攝入情況,通過分析這些數(shù)據(jù)能夠?qū)iT好的操縱體重。在線教育現(xiàn)在在線教育逐漸流行起來,如聞名的在線教育公司Coursera,差不多和普林斯頓、伯克利、賓夕法尼亞大學(xué)等30多所大學(xué)合作,在互聯(lián)網(wǎng)上免費開放大學(xué)課程。也確實是講,現(xiàn)在這些學(xué)校的一些
41、課程,能夠?qū)崿F(xiàn)全球幾十萬人同步學(xué)習(xí)。分布在世界各地的學(xué)習(xí)者不僅能夠在同一時刻實時聽取同一位老師的授課,還和在校生一樣,做同樣的作業(yè)、同意同樣的評分和考試。一些學(xué)校,甚至開始投資建設(shè)自己的智能網(wǎng)絡(luò)學(xué)習(xí)平臺,2012年5月,哈佛大學(xué)與麻省理工學(xué)院就宣布,將投入6000萬美元建設(shè)一個智能學(xué)習(xí)平臺,并向全世界免費開放。不難想象,這種智能化學(xué)習(xí)平臺將會帶來的革命性阻礙。學(xué)校,曾經(jīng)是最重要的教育資源,好的學(xué)校更是稀缺性的資源。由于這種智能型學(xué)習(xí)平臺的普及,在不遠的今后,名校將人人可上,也確實是講,對中國這種教育資源還相對匱乏的國家來講,假如應(yīng)對得當(dāng),資源匱乏的問題能夠?qū)iT快得到緩解。這種智能網(wǎng)絡(luò)學(xué)習(xí)平臺的
42、崛起,在美國引起了廣泛的關(guān)注和激烈的討論。其中的緣故,是因為那個平臺差不多不是一個鏡頭、一段錄像那么簡單,而是能提供“行為評價和誘導(dǎo)”的智能平臺。例如,通過記錄鼠標(biāo)的點擊,計算機能夠記錄你在一張幻燈片上停留的時刻,判不你在答錯一道題之后有沒有回頭復(fù)習(xí),統(tǒng)計你在網(wǎng)上提問的次數(shù)、參與討論的多少,發(fā)覺不同的人對不同的知識點的不同反應(yīng),從而總結(jié)出哪些知識點需要重復(fù)或強調(diào),哪種陳述方式或?qū)W習(xí)工具最有效等等規(guī)律。再依照這些規(guī)律和分析,對學(xué)習(xí)者的學(xué)習(xí)行為進行自動的提示、誘導(dǎo)和評價,以彌補沒有老師面對面交流指導(dǎo)的不足。Udacity、Coursera和EDX等在線教育課程通過跟蹤學(xué)生的Web交互來查找最佳的教
43、學(xué)方法。班級人數(shù)成千上萬,產(chǎn)生的數(shù)據(jù)也十分驚人。教授們現(xiàn)在能夠看到,假如大部分學(xué)生需要再看一遍課程內(nèi)容,就可能表明某些地點他們還不太清晰。在斯坦福大學(xué)教授安德魯恩格(Andrew Ng)講授的Coursera機器學(xué)習(xí)課堂上,他注意到約有2000名學(xué)生課外作業(yè)的答案是錯誤的,但錯誤答案難道是相同的。顯然,他們都犯了相同的錯誤,那么是什么呢?隨著一點點的調(diào)查,他終于弄清晰了,他們把一個算法里的兩個代數(shù)方程弄反了。因此假如現(xiàn)在還有其他學(xué)生犯同樣錯誤的話,系統(tǒng)可不能簡單地告訴他們做錯了,而是會提示他們?nèi)z查算法。那個系統(tǒng)也應(yīng)用了大數(shù)據(jù),通過分析學(xué)生看過的每個論壇帖子以及他們是否正確完成課外作業(yè),來預(yù)測
44、看過某個帖子之后的學(xué)生正確作答的概率,并由此來確定哪些論壇帖子最適合學(xué)生閱讀。這些差不多上過去專門難得知的,現(xiàn)在卻永久地改變了教學(xué)方式。在線教育服務(wù)Knewton是大數(shù)據(jù)應(yīng)用于教育行業(yè)的典型,通過數(shù)據(jù)分析區(qū)分出每個學(xué)生的優(yōu)缺點,從而給學(xué)生有效的指導(dǎo)。大衛(wèi)告訴記者,美國最大的公立大學(xué)亞利桑那州公立大學(xué)曾運用這一系統(tǒng)來提高學(xué)生的數(shù)學(xué)水平,全校2000名學(xué)生使用該系統(tǒng)兩學(xué)期之后,該大學(xué)的輟學(xué)率下降了56%,畢業(yè)率從64%升高到75%。購買飛機票大數(shù)據(jù)不僅改變了公共衛(wèi)生領(lǐng)域,整個商業(yè)領(lǐng)域都因為大數(shù)據(jù)而重新洗牌。購買飛機票確實是一個專門好的例子。2003年,奧倫-埃齊奧尼(OrenEtzioni)預(yù)備乘
45、飛機去參加弟弟的婚禮。他明白飛機票越早預(yù)訂越廉價,因此他提早幾個月,就在網(wǎng)上預(yù)訂了機票。在飛機上,埃齊奧尼得知不的專門多乘客買的機票都比他的廉價。對大多數(shù)人來講,這種被敲竹杠的感受也許會隨著他們走下飛機而消逝。然而,奧倫是有名的計算機專家,飛機著陸之后,奧倫下定決心要關(guān)心人們開發(fā)一個系統(tǒng),用來推測當(dāng)前網(wǎng)頁上的機票價格是否合理。埃齊奧尼表示,他不需要去解開機票價格差異的奇妙。他要做的僅僅是預(yù)測當(dāng)前的機票價格在以后一段時刻內(nèi)會上漲依舊下降。那個方法是可行的,但操作起來并不是那么簡單。那個系統(tǒng)需要分析所有特定航線機票的銷售價格并確定票價與提早購買天數(shù)的關(guān)系。假如一張機票的平均價格呈下降趨勢,系統(tǒng)就會
46、關(guān)心用戶做出稍后再購票的明智選擇。反過來,假如一張機票的平均價格呈上漲趨勢,系統(tǒng)就會提醒用戶趕忙購買該機票。換言之,這是埃齊奧尼針對9000米高空開發(fā)的一個加強版的信息預(yù)測系統(tǒng)。這確實是一個浩大的計算機科學(xué)項目。只是,那個項目是可行的。因此,埃齊奧尼開始著手啟動那個項目。埃齊奧尼創(chuàng)立了一個預(yù)測系統(tǒng),它關(guān)心虛擬的乘客節(jié)約了專門多鈔票。那個預(yù)測系統(tǒng)建立在41天內(nèi)價格波動產(chǎn)生的12000個價格樣本基礎(chǔ)之上,而這些信息差不多上從一個旅游網(wǎng)站上搜集來的。那個預(yù)測系統(tǒng)并不能講明緣故,只能推測會發(fā)生什么。也確實是講,它不明白是哪些因素導(dǎo)致了機票價格的波動。機票降價是因為專門多沒賣掉的座位、季節(jié)性緣故,依舊所
47、謂的周六晚上不出門,它都不明白。那個系統(tǒng)只明白利用其他航班的數(shù)據(jù)來預(yù)測以后機票價格的走勢。“買依舊不買,這是一個問題。”埃齊奧尼沉思著。他給那個研究項目取了一個特不貼切的名字,叫“哈姆雷特”。這項技術(shù)還能應(yīng)用到其他領(lǐng)域,比如賓館預(yù)訂、二手車購買等。只要這些領(lǐng)域內(nèi)的產(chǎn)品差異不大,同時存在大幅度的價格差和大量可運用的數(shù)據(jù),就都能夠應(yīng)用這項技術(shù)。航班延誤之候機經(jīng)濟學(xué)近年來,因航班延誤產(chǎn)生的機場糾紛一度在中國成為一個熱點話題。美國航班也有延誤,但卻幾乎沒有“罷乘”、“霸機”、沖擊機場的事件。美國建立了一個統(tǒng)一的數(shù)據(jù)開放門戶網(wǎng)站Data.Gov。 Data.Gov上線以后,美國交通部開放了全美航班起飛、
48、到達、延誤的數(shù)據(jù),有程序員利用這些數(shù)據(jù)開發(fā)了一個航班延誤時刻的分析系統(tǒng)(Flyontime.us)。以波士頓至紐約的航線為例(起飛:Boston,Logan International;到達:New York,Kennedy International),在系統(tǒng)的主頁上,輸入機場名稱,點擊之后,用戶能夠看到不同天氣、不同日期、不同時段、不同航空公司、不同航班等各種條件下飛機是否準(zhǔn)時以及平均延誤時刻的數(shù)據(jù)明細。該系統(tǒng)向全社會免費開放,任何人都能夠通過它查詢分析全國各次航班的延誤率及機場等候時刻。那個系統(tǒng)能夠關(guān)心消費者找到表現(xiàn)最佳,最符合自己需要的航班。那個系統(tǒng)上線之后,由于其簡單、有用,獲得了全
49、美多個新聞報刊的報道和關(guān)注,成為專門多人乘機、候機的行動指南。The-N與電影票房預(yù)測比方講,The-N在好萊塢電影上映之前,就能利用海量數(shù)據(jù)和特定算法預(yù)測出一部電影的票房,而這些信息就能夠為電影制片人所用。該公司擁有一個包括了過去幾十年美國所有商業(yè)電影大約3000萬條記錄的數(shù)據(jù)庫;數(shù)據(jù)庫里有所有關(guān)于預(yù)算、電影流派、拍攝、陣容、獲得獎項和收入等數(shù)據(jù)。電影的收入是指在北美和全球的票房、海外版權(quán)銷售收入、影碟銷售收入以及租金等。公司創(chuàng)始人兼總裁布魯斯納什(Bruce Nash)講,我們公司開發(fā)了一個網(wǎng)絡(luò)系統(tǒng),其中有100萬條類似“A編劇曾與B導(dǎo)演合作過,C導(dǎo)演曾與D演員合作過”如此的聯(lián)系信息。該公
50、司通過找出如此復(fù)雜的相關(guān)關(guān)系來預(yù)測電影的收入。借助于那個預(yù)測,電影制片人能夠向工作室或投資人募資。The-N甚至能夠告訴客戶改變哪些選擇能夠增收或者降低風(fēng)險。一次,它的分析發(fā)覺有一部電影要是啟用獲得過奧斯卡提名的、身價在500萬美元左右的某位一線演員做男一號的話,更有可能票房大賣。還有一次,納什告訴IMAX工作室,一部航海紀(jì)錄片需要把預(yù)算從1200萬美元減少至800萬才能贏利。納什開玩笑地講:“這可樂壞了制片人,然而導(dǎo)演就不快樂了。”從是否出品一部電影到簽下哪個三壘手,公司的決策過程差不多有了本質(zhì)且明顯的改變。麻省理工學(xué)院商學(xué)院教授埃里克布倫喬爾森(Erik Brynjolfsson)和他的同
51、事一起進行了一項研究,發(fā)覺決策依靠數(shù)據(jù)的公司的運營情況比不重視數(shù)據(jù)的公司出色專門多這些公司的生產(chǎn)率比不使用數(shù)據(jù)進行決策的公司高6%。這是一個重要的競爭力,盡管隨著大數(shù)據(jù)手段被越來越多的公司采納,這種競爭力會慢慢削弱。FICO,“我們明白你改日會做什么”一個人的信用常被用來預(yù)測他/她的個人行為。美國個人消費信用評估公司,也被稱為FICO,在20世紀(jì)50年代發(fā)明了信用分。2011年,F(xiàn)ICO提出了“遵從醫(yī)囑評分”它分析一系列的變量來確定那個人是否會按時吃藥,包括一些看起來有點怪異的變量。比方講,一個人在某地居住了多久,那個人結(jié)婚了沒有,他多久換一個工作以及他是否有私家車。那個評分會關(guān)心醫(yī)療機構(gòu)節(jié)約
52、開支,因為它們會明白哪些人需要得到它們的用藥提醒。有私家車和使用抗生素并沒有因果關(guān)系,這只是一種相關(guān)關(guān)系。然而這就足夠激發(fā)FICO的首席執(zhí)行官揚言,“我們明白你改日會做什么?!边@是他在2011年的投資人大會上講的。另一個征信機構(gòu),益百利(Experian)有一種服務(wù),能夠依照個人的信用卡交易記錄預(yù)測個人的收入情況。通過分析公司擁有的信用卡歷史記錄數(shù)據(jù)庫和美國國稅局的匿名稅收數(shù)據(jù),益百利能夠得出評分結(jié)果。相關(guān)關(guān)系的運用更加廣泛了。中英人壽保險有限公司(Aviva)是一家大型保險公司,他們想利用信用報告和顧客市場分析數(shù)據(jù)來作為部分申請人的血液和尿液分析的關(guān)聯(lián)物。這些分析結(jié)果被用來找出更有可能患高血
53、壓、糖尿病和抑郁癥的人。其中用來分析的數(shù)據(jù)包括好幾百種生活方式的數(shù)據(jù),比如愛好、常掃瞄的網(wǎng)站、??吹墓?jié)目、收入可能等。通過利用相關(guān)關(guān)系,保險公司能夠在每人身上節(jié)約125美元,然而那個純數(shù)據(jù)分析法只需要花費5美元。有些人可能會覺得這種方法聽起來專門恐懼,這些公司大概能夠利用任何網(wǎng)絡(luò)上的信息。這會讓人們下次登陸極限運動網(wǎng)站和坐到電視機前觀看幽默情景劇前三思而后行,因為不想因此支付更多的保險費用。讓我們在接觸任何信息的時候(同時也產(chǎn)生可能被分析的數(shù)據(jù))都膽戰(zhàn)心驚是一件特不糟糕的情況。但另一方面,那個系統(tǒng)有助于更多的人得到保險,這關(guān)于社會和保險公司差不多上有好處的。VISAMasterCard與商戶推
54、舉相對地,像VISA和MasterCard如此的信用卡發(fā)行商和其他大銀行就站在了信息價值鏈最好的位置上。通過為小銀行和商家提供服務(wù),它們能夠從自己的服務(wù)網(wǎng)獵取更多的交易信息和顧客的消費信息。它們的商業(yè)模式從單純的處理支付行為轉(zhuǎn)變成了收集數(shù)據(jù)。接下來的問題確實是,如何使用收集到的數(shù)據(jù)。就像ITA一樣,MasterCard也能夠把這些數(shù)據(jù)授權(quán)給第三方使用,然而它更傾向于自己分析、挖掘數(shù)據(jù)的價值。一個稱為MasterCard Advisors的部門收集和分析了來自210個國家的15億信用卡用戶的650億條交易記錄,用來預(yù)測商業(yè)進展和客戶的消費趨勢。然后,它把這些分析結(jié)果賣給其他公司。它發(fā)覺,假如一個
55、人在下午四點左右給汽車加油的話,他專門可能在接下來的一個小時內(nèi)要去購物或者去餐館吃飯,而這一個小時的花費大概在3550美元之間。商家可能正需要如此的信息,因為如此它們就能在那個時刻段的加油小票背面附上加油站附近商店的優(yōu)惠券。處于那個數(shù)據(jù)鏈的中心,MasterCard占據(jù)了收集數(shù)據(jù)和挖掘數(shù)據(jù)價值的黃金位置。我們能夠想象,以后的信用卡公司可不能再對交易收取傭金,而是免費提供支付服務(wù)。作為回報,它們會獲得更多的數(shù)據(jù),而對這些數(shù)據(jù)進行復(fù)雜的分析之后,它們又能夠賣掉分析結(jié)果以取得利潤。Xoom與跨境匯款異常交易報警Xoom是一個專門從事跨境匯款業(yè)務(wù)的公司,它得到了專門多擁有大數(shù)據(jù)的大公司的支持。它會分析
56、一筆交易的所有相關(guān)數(shù)據(jù),一旦發(fā)覺用“發(fā)覺卡”從新澤西州匯款的交易比平常多的話,系統(tǒng)就會報警。Xoom公司的首席執(zhí)行官約翰-孔澤(JohnKunze)解釋講:“那個系統(tǒng)關(guān)注的是不應(yīng)該出現(xiàn)的情況?!眴为殎砜矗抗P交易差不多上合法的,然而事實證明這是一個犯罪集團在試圖詐騙。而發(fā)覺異常的唯一方法確實是,重新檢查所有的數(shù)據(jù),找出樣本分析法錯過的信息。無所不包的谷歌翻譯系統(tǒng)2006年,谷歌公司也開始涉足機器翻譯。這被當(dāng)作實現(xiàn)“收集全世界的數(shù)據(jù)資源,并讓人人都可享受這些資源”那個目標(biāo)的一個步驟。谷歌翻譯開始利用一個更大更繁雜的數(shù)據(jù)庫,也確實是全球的互聯(lián)網(wǎng),而不再只利用兩種語言之間的文本翻譯。谷歌翻譯系統(tǒng)為了
57、訓(xùn)練計算機,會汲取它能找到的所有翻譯。它會從各種各樣語言的公司網(wǎng)站上去查找聯(lián)合國和歐洲委員會這些國際組織公布的官方文件和報告的譯本。它甚至?xí)橙∷僮x項目中的書籍翻譯。谷歌翻譯部的負責(zé)人弗朗茲-奧齊(FranzOch)是機器翻譯界的權(quán)威,他指出,“谷歌的翻譯系統(tǒng)可不能像Candide一樣只是認真地翻譯300萬句話,它會掌握用不同語言翻譯的質(zhì)量參差不齊的數(shù)十億頁的文檔。”不考慮翻譯質(zhì)量的話,上萬億的語料庫就相當(dāng)于950億句英語。盡管其輸入源專門混亂,但較其他翻譯系統(tǒng)而言,谷歌的翻譯質(zhì)量相對而言依舊最好的,而且可翻譯的內(nèi)容更多。到2012年年中,谷歌數(shù)據(jù)庫涵蓋了60多種語言,甚至能夠同意14種語言的
58、語音輸入,并有專門流利的對等翻譯。之因此能做到這些,是因為它將語言視為能夠判不可能性的數(shù)據(jù),而不是語言本身。假如要將印度語譯成加泰羅尼亞語,谷歌就會把英語作為中介語言。因為在翻譯的時候它能適當(dāng)增減詞匯,因此谷歌的翻譯比其他系統(tǒng)的翻譯靈活專門多。谷歌的翻譯之因此更好并不是因為它擁有一個更好的算法機制。和微軟的班科和布里爾一樣,這是因為谷歌翻譯增加了專門多各種各樣的數(shù)據(jù)。從谷歌的例子來看,它之因此能比IBM的Candide系統(tǒng)多利用成千上萬的數(shù)據(jù),是因為它同意了有錯誤的數(shù)據(jù)。2006年,谷歌公布的上萬億的語料庫,確實是來自于互聯(lián)網(wǎng)的一些廢棄內(nèi)容。這確實是“訓(xùn)練集”,能夠正確地推算出英語詞匯搭配在一起的可能性。“從某種意義上,谷歌的語料庫是有專門多不足的。因為谷歌語料庫的內(nèi)容來自于未通過濾的網(wǎng)頁內(nèi)容,因此會包含一些不完整的句子、拼寫錯誤、語法錯誤以及其他各種錯誤。況且,它也沒有詳細的人工糾錯后的注解。然而,谷歌語料庫是其他語料庫的好幾百萬倍大,如此的優(yōu)勢完全壓倒了缺點?!蔽④浥c谷歌的拼寫檢查在過去的20多年中,微軟為其Word軟件開發(fā)出了一個強大的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 山東交通學(xué)院《金融學(xué)概論》2023-2024學(xué)年第二學(xué)期期末試卷
- 上海南湖職業(yè)技術(shù)學(xué)院《大學(xué)信息技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 湖南中醫(yī)藥大學(xué)《中國建筑史》2023-2024學(xué)年第二學(xué)期期末試卷
- 南方科技大學(xué)《工業(yè)通信與網(wǎng)絡(luò)技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 湖北工業(yè)大學(xué)工程技術(shù)學(xué)院《制漿造紙機械與設(shè)備》2023-2024學(xué)年第二學(xué)期期末試卷
- 浙江大學(xué)《經(jīng)典本草與湖湘中醫(yī)藥文化》2023-2024學(xué)年第二學(xué)期期末試卷
- 黑龍江幼兒師范高等??茖W(xué)校《兵器美學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 成都工貿(mào)職業(yè)技術(shù)學(xué)院《設(shè)計與開發(fā)課程設(shè)計》2023-2024學(xué)年第二學(xué)期期末試卷
- 內(nèi)蒙古經(jīng)貿(mào)外語職業(yè)學(xué)院《地理信息工程課程設(shè)計與實踐》2023-2024學(xué)年第二學(xué)期期末試卷
- 湖南交通職業(yè)技術(shù)學(xué)院《空間文學(xué)與敘事》2023-2024學(xué)年第二學(xué)期期末試卷
- 2024年廣東省《輔警招聘考試必刷500題》考試題庫含答案
- 國家科技安全教學(xué)課件
- DB3301T 1088-2018 杭州龍井茶栽培技術(shù)規(guī)范
- 2010浙G22 先張法預(yù)應(yīng)力混凝土管樁
- 安徽省部分省示范中學(xué)2025屆高三第一次模擬考試英語試卷含解析
- 工程機械租賃服務(wù)方案及保障措施 (二)
- 國網(wǎng)基建安全管理課件
- 部編版初中語文7-9年級教材必背古詩詞、古文99篇詳細解析及欣賞
- DB36T 1393-2021 生產(chǎn)安全風(fēng)險分級管控體系建設(shè)通則
- 檔案三合一制度培訓(xùn)
- Unit 1 I go to school by bus. Period 4(說課稿)-2023-2024學(xué)年教科版(廣州)英語二年級下冊
評論
0/150
提交評論