分析:忘掉大數(shù)據(jù) 思維才最重要_第1頁
分析:忘掉大數(shù)據(jù) 思維才最重要_第2頁
分析:忘掉大數(shù)據(jù) 思維才最重要_第3頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

分析:忘掉大數(shù)據(jù)思維才最重要

1、數(shù)據(jù)思維:利用數(shù)據(jù)解決問題什么是數(shù)據(jù)思維?數(shù)據(jù)思維的最核心是利用數(shù)據(jù)解決問題,利用數(shù)據(jù)解決問題的最核心是要深度了解需求,了解真正要解決什么樣的問題,解決問題背后的真實目的是什么。在解決問題的過程中我們使用數(shù)據(jù)的方法,通??梢越辛炕姆椒?。所謂量化的方法,就是解決問題的過程要可衡量、可評估,有非常明確的定義,這點在車老師書里有一篇就介紹了他的幾個定義,即“PIMA”,這四個字母分別代表了解決問題時要考慮的幾個緯度。需要有明確的目的(P);在達到目的的過程中需要有清晰的定義(I);在解決問題的過程中所使用的手段是可量化的(M);對問題、解決問題的全過程可評估(A)。所以不管是財務、人事、還是生產或銷售的每一個環(huán)節(jié)都是可量化的,可以通過數(shù)據(jù)解決問題的。通過量化的數(shù)據(jù)解決問題,就是我們所謂的數(shù)據(jù)思維。舉明略在金融行業(yè)的實際案例來看:我們先思考一下,金融行業(yè)里銀行、保險或證券公司經營的目的是什么?這是核心。車老師在書里也介紹了,考慮大數(shù)據(jù)也好,考慮數(shù)據(jù)思維也好,首先是要分析出所做事情的真正目的是什么?然后再進行量化分析。實際上,金融行業(yè)企業(yè)最核心的是風險控制問題。銀行獲取存款的過程做一個最基本的存款操作就行了,是沒有任何風險的。但當銀行想盈利的時候,存款業(yè)務因為要支付儲戶利息成為非賺錢手段,想賺錢要通過貸款實現(xiàn)。銀行把收過來的存款貸出去,兩者之間的利差是銀行的利潤。所以對于銀行來講,真正的核心訴求是如何在貸款過程中降低風險,盡量減少貸款個體或企業(yè)不還款的風險。這個風險越低,銀行的利潤空間就越大。因為整個貸款利差并不高,可能只有幾個點,最多也不會超過十個點,即便是現(xiàn)在的小貸,也不會超過十個點。但一般一個貸款人還不了款的話,銀行利潤就會被大打折扣。現(xiàn)在整個市場上的風險率或壞賬率有時會高達百分之三、百分之五,即便比較低的時候可能在很多銀行有百分之一點幾、百分之二點幾。所以如何有效的控制這個風險對銀行很重要。所以對于銀行來講,他需要了解貸款人的還款能力。而且還款能力從他貸款到還款過程中也在時時發(fā)生變化,有消費者在貸款瞬間是有還款能力的,但在還款之前的整個周期里他經歷的狀況其實在不斷發(fā)生變化。企業(yè)更是這樣子,每個企業(yè)在經營過程中的狀態(tài)是瞬息萬變的。所以對于銀行來講了解消費者或企業(yè)的整個經營狀況、資產狀況、風險狀況是非常關鍵的,中間的每個環(huán)節(jié)都可能造成貸款人最后無法還款,銀行需要評估這里面的每一個因素與最后能否發(fā)簽證的關系。在傳統(tǒng)金融行業(yè)里,很多銀行只會考慮發(fā)貸款或者發(fā)信用卡之前的風控分析。很多銀行到人民銀行拿到一些個人消費者征信報告,這些數(shù)據(jù)包含了消費者以前其他的貸款、每個月工資情況等等這樣一些最基本的信息。銀行根據(jù)信息打分,然后這個分數(shù)之上的消費者可以獲批貸款,在分數(shù)之下的就不會獲批。這整個過程是成本較高的,因為任何一個報告都是要花錢去買。第二點是很多情況下需要面訪,現(xiàn)場進行風險考察,然而這個考察過程中數(shù)據(jù)的真實性和有效性也是值得商榷的。比如我們的一個客戶——郵政儲蓄銀行。向他們貸款的很多客戶是農民,他們在種植或者養(yǎng)殖生產中需要資金支持,比如用來投資買種子或者購買種植養(yǎng)殖的基本設施。但是當面談的時候他或許假裝家里有一頭牛,我將來可以賣掉這個牛還款,但這個牛有可能是從他的鄰居家拉過來的。所以真正證明貸款申請人信用的數(shù)據(jù)真實性和有效性是解決這個問題過程中非常核心的問題。數(shù)據(jù)是否是真實有效的、數(shù)據(jù)是否跟最后結果有關系,這就是我們在數(shù)據(jù)思維決策過程中需要考慮的兩個非常核心的問題?!捌鋵嵨沂怯幸稽c近視眼的,我看很遠處的一個廣告牌,上面的文字有時我看得不是很清楚,但我的大腦是能夠猜出來文字大概是講什么的。本質上是因為在我的大腦是擁有識別低分辨率的數(shù)據(jù),同時再把它還原推測到高分辨率的那個能力。這種能力其實也是大數(shù)據(jù)公司里面非常核心的能力。"2、數(shù)據(jù)治理:還原推測到“高分辨率”我接下來就給大家講講處理數(shù)據(jù)里面最核心的兩個工作。第一個工作我們稱之為數(shù)據(jù)清洗或是叫數(shù)據(jù)治理。很多公司擁有大量的數(shù)據(jù),但如果這些數(shù)據(jù)沒有辦法整合到一起,沒辦法清洗、在線化,沒辦法讓使用者方便取用,那即便數(shù)據(jù)量再大也不能說這個公司有大數(shù)據(jù)。所以清洗和整合數(shù)據(jù)是非常重要的。通常在技術領域有一個概念叫“ETL”,ETL其實只把數(shù)據(jù)抽取到一起,進行數(shù)據(jù)格式統(tǒng)一化,最后再加載到一個可應用的平臺上,這是整個數(shù)據(jù)治理行業(yè)里面最核心的幾個環(huán)節(jié)。但在大數(shù)據(jù)概念出來之后,跟傳統(tǒng)ETL有一個挺大的區(qū)別在于數(shù)據(jù)格式跟以前相比更加復雜。通常我們所謂的大數(shù)據(jù)、我們處理的數(shù)據(jù)除了包括以前的結構化數(shù)據(jù),還包括新的非結構化數(shù)據(jù)。非結構化數(shù)據(jù)是指數(shù)據(jù)里每一條記錄之間的格式并不統(tǒng)一,甚至很多數(shù)據(jù)都是臟數(shù)據(jù)。大家可以想象銀行的很多數(shù)據(jù),比如消費者注冊信息:姓名、年齡、手機號、身份證號,包括月收入可能都要求填,但很多情況下大家填信息的時候格式都不一定統(tǒng)一,比如說手機號可能有一些人填沒有加“86”,再比如說身份證號有人填的是18位的,有人填的是15位的,這些信息是否是統(tǒng)一格式對于未來的數(shù)據(jù)應用非常關鍵。今天很多互聯(lián)網(wǎng)公司都是擁有大量數(shù)據(jù)的,中國最大的三巨頭BAT都擁有海量消費者網(wǎng)名數(shù)據(jù)。百度云每天一個人搜索數(shù)據(jù),阿里擁有每個人每天購物的瀏覽數(shù)據(jù)和下單采購數(shù)據(jù),騰訊就不用說了,他有我們每個人的聊天記錄、通信記錄。他們擁有的數(shù)據(jù)都是非常可怕的。這些數(shù)據(jù)有一個很主要的工作在清洗過程中,就是需要把數(shù)據(jù)的唯一用戶標識進行統(tǒng)一,因為很多的數(shù)據(jù)是散落在不同的子平臺上的,在不同的平臺上的可能會有不同的唯一標識,在有的情況下一個網(wǎng)名是處于登陸狀態(tài),而有些情況下是處于沒有登錄的情況。如何把不同的數(shù)據(jù)都打到同一個標簽上是很多公司正在做的事情。像我最近在跟幾個阿里包括車老師,還有騰訊的人聊,他們自己內部都有一個類似于叫自然人計劃的項目,這是公司的核心項目。這個項目工作就是把整個集團下屬的所有公司的數(shù)據(jù)收集到一起,把這些數(shù)據(jù)連到一塊兒,把消費者行為最后標到一個真正的可以看出來的一個自然人身上。比如說像我在阿里體系里不僅是有購物行為,還有在高德地圖上的瀏覽的行為,而且我在高德地圖上是沒有登錄的,那在阿里體系里面他就需要通過一些算法的猜測,而這個人使用地圖的具體行為可能正好也就是這個人使用的支付寶賬號的信息,他們通過一個算法是可以關聯(lián)起來的。實際上這個關聯(lián)并不難,因為我這兩個行為都是落在同一個手機上的,他可以通過手機的ID就可以把我的行為連起來了,最后得出結論就是吳明輝的。所以前面我也反復提到過好多次,數(shù)據(jù)實際上是每一個人、每一個個體、每個機器、每天日常的各種人的行為的一些記錄。因為程序的能力,可以把數(shù)據(jù)及行為記錄下來,這就產生數(shù)據(jù)。但是任何一個商業(yè)公司也好,甚至是國家也好,都沒有能力去記錄一個個體、一個人一天二十四小時所有的行為,這是不可能的。每個人只能記錄一個片段,所以數(shù)據(jù)清洗的過程還有一個很重要的工作就是想辦法把一個人的所有行為進行補全,甚至對你的未來行為進行預測。這就好比平時用數(shù)碼相機照相,平時看到一張照片是一百萬像素、五百萬像素還是一千萬像素的,事實上大家可以理解整個世界的像素是無窮的。但是我們最后把拍照存下來的時候肯定是有限制的,如幾百萬或者一千萬,最高可能有幾千萬像素的相機。但實際上拍下來,真正數(shù)碼化存下來的時候,他已經是一個采樣的過程,就是把真正分辨率極高的這個真實世界里面的一部分信息抽樣存下來,然后分辨率越高,就是抽樣的比例越高。分辨率越低,抽樣的比例越低。而我們真正記錄下來數(shù)據(jù),記錄得越全面,對還原真實世界就還原得越好。但是很多情況下,如果真正的技術、好的算法或者數(shù)據(jù)清晰的整合能力很強的話,可以把一個低分辨率的信息,還原成原來很高分別率,很真實的情況。就像我們的人眼其實就很厲害,因為其實我是有一點近視眼的,但是我看很遠處的一個廣告牌,上面的文字有的時候我看得不是很清楚,但是我的大腦是能夠猜出來到底這個文字是講什么的,本質上是因為在我的大腦里面是擁有識別低分辨率的數(shù)據(jù),同時再把它還原推測到高分辨率的那個能力。這種能力其實也是大數(shù)據(jù)公司里面非常核心的能力?!安⒉皇撬械臄?shù)據(jù)在系統(tǒng)里面都存在,比如說我跟我同事之間的關系,我跟我愛人之間的家庭關系,可能在公安系統(tǒng)里面并沒有完整的存儲數(shù)據(jù)。但是很多數(shù)據(jù)可以非??焖俚谋话l(fā)現(xiàn)出來?!?、數(shù)據(jù)關聯(lián):同一趟火車到互為同事的推斷前面我給大家介紹的是數(shù)據(jù)的清洗整合。實際上大數(shù)據(jù)技術除了信息整合之外,另外一個很核心的技術是數(shù)據(jù)的關聯(lián)。前面我也提到了很多大數(shù)據(jù)客戶不管是政府還是企業(yè)都有很多不同的數(shù)據(jù),因為數(shù)據(jù)本身是需要關聯(lián)起來,在數(shù)據(jù)真正聯(lián)系到一起之后,在數(shù)據(jù)內部我們可以發(fā)現(xiàn)很多數(shù)據(jù)和數(shù)據(jù)之間的關系,而這些關系真正的挖掘好了之后,它的實戰(zhàn)價值是非常大的,可以起到1+1遠遠大于2的作用。在美國有一家非常有名的大數(shù)據(jù)企業(yè)叫“Palantir”,這家公司現(xiàn)在雖然還沒上市,但市值已達兩百億美金,是全球沒有上市的企業(yè)里市值排名前五的企業(yè)。這家企業(yè)之所以厲害是因為其在利用數(shù)據(jù)關聯(lián)這種能力去給美國情報機構,包括CIA、美國國土安全局提供數(shù)據(jù)挖掘服務,幫助他們進行反恐和非常重大的刑事案件追查,數(shù)據(jù)的關聯(lián)在很多情況下能夠幫助政府很好的發(fā)現(xiàn)犯罪份子。明略數(shù)據(jù)現(xiàn)在也在利用類似的技術給中國的公安局等部門提供類似的服務。在整個公安破案過程中,這種關系的挖掘是非常重要的。就像前面我說的,并不是所有數(shù)據(jù)在系統(tǒng)里面都存在,比如說我跟我同事之間的關系,我跟我愛人之間的家庭關系,可能在公安系統(tǒng)里面并沒有完整的存儲數(shù)據(jù)。但是很多數(shù)據(jù)可以非??焖俚谋话l(fā)現(xiàn)出來。舉個例子,當時我們在河北做了一個試點,我也是很強烈地被震撼到了。當時把我的名字輸?shù)竭@套系統(tǒng)之后,其實是通過我們自己做開發(fā)的系統(tǒng),我們可以用非常快速的方法查出哪一些人是我在明略的同事。雖然在公安系統(tǒng)里并沒有記錄我是明略的,我的同事也是明略的,我們之間這種同事關系,但在公安系統(tǒng)里記錄了我曾經從北京坐了一趟動車去到了河北,我的另外一個同事也坐這趟車過去,同天晚上我們又入住了同一家酒店,就這樣簡簡單單的信息,就把我們兩個人關聯(lián)上了。我們

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論