大數據數據治理和挖掘解決方案_第1頁
大數據數據治理和挖掘解決方案_第2頁
大數據數據治理和挖掘解決方案_第3頁
大數據數據治理和挖掘解決方案_第4頁
大數據數據治理和挖掘解決方案_第5頁
已閱讀5頁,還剩125頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

卓越夢想大數據平臺數據治理和挖掘解決方案卓越夢想大數據平臺數據治理和挖掘解決方案大數據治理框架大數據治理框架由三大部分組成:大數據類型、大數據治理領域、行業(yè)與功能2產業(yè)和功能場景保險業(yè)電信業(yè)零售業(yè)公共事業(yè)醫(yī)療保健業(yè)組織元數據隱私數據質量大數據類型web和社交媒體數據機器對機器的數據生物計量學數據大體量交易數據人工生成的數據信息治理大數據治理需要高度聚焦于數據本身。傳統(tǒng)的數據治理領域同樣適用于大數據大數據分析受用例驅動,用例的具體情況因產業(yè)和功能而異。客戶服務IT業(yè)務流程整合情緒分析Facebook忠誠度計劃客戶流失分析索賠調查IT日志分析車載通信技術位置服務索賠欺詐分析智能儀表患者監(jiān)測索賠分析客戶流失分析通話質量保證基因測試人臉識別承保電子病歷RFI日志大數據治理框架大數據治理框架由三大部分組成:大數據類型、大數Contents目錄大數據綜述2341大數據平臺解決方案大數據平臺數據治理方法請輸入第四部分標題Contents目錄大數據綜述2341大數據平臺解決方01大數據綜述01大數據綜述數據處理思維轉變少量的樣本數據數據關系力求明確清晰探求難以捉摸的因果關系要求數據精確無誤全量數據

樂于接受數據的紛繁復雜轉而關注事物的關聯關系

數據的精確不是那么重要了?

谷歌翻譯系統(tǒng)為了訓練其系統(tǒng),收集其能找到的所有翻譯;?

谷歌收集了上萬億頁的語料庫,包括質量參差不齊的文檔;?

上萬億的語料庫,相當于950億句英語;?

相對而言,谷歌的翻譯質量還是最好的;?

谷歌翻譯之所以更好,不是因為它擁有一個更好的算法機制,而是增加了各種各樣的數據,包括有錯誤的數據;?

在谷歌的翻譯團隊中,大多數工程師并不懂其翻譯出來的語言;數據處理思維轉變傳統(tǒng)數據分析思維大數據分析思維案例一?

聘請了20多名書評家和編輯組成的團隊,在網頁上創(chuàng)立“亞馬遜的聲音”向客戶推薦新書,寫書評;?

通過客戶的購買歷史,尋找客戶的相似性,對客戶分群進行產品推薦,推薦的總是與以往購買的相似或略有區(qū)別;?

通過大量的數據分析,找出書籍之間的關聯關系,即“item-to-item”,時亞馬遜發(fā)生了天翻地覆的變化。?

AMAZON銷售額的三分之一來自于“item-to-item”的推薦系統(tǒng)。?

AMAZON最終放棄了在線書評,書評團隊被解散。案例二數據處理思維轉變少量的樣本數據數據關系力求明確清晰探求難以捉數據處理思維轉變數據處理思維轉變關聯關系,預測的關鍵。很多時候,知道“是什么”就夠了,沒必要知道“為什么”。一旦我們完成了“關聯關系”分析,我們就可以繼續(xù)向更深層次研究因果關系,找出背后的“為什么”?

沃爾瑪:請把蛋撻和颶風用品擺在一起,請把啤酒和尿片擺在一起;?

某信用評分公司,利用Facebook的社交圈來預測個人償還債務的可能性;?

對沖基金通過分析Twitter微博的數據文本,作為股市投資的信號;?

某信用評分公司,利用Facebook的社交圈來預測個人償還債務的可能性;?

對沖基金通過分析Twitter微博的數據文本,作為股市投資的信號;其它案例數據處理思維轉變?沃爾瑪:請把蛋撻和颶風用品擺在一起,請把大數據與BI融合*大數據與BI融合*大數據的商業(yè)價值大數據的商業(yè)價值大數據主要廠商

大型企業(yè)和機構在尋求解決棘手的大數據問題時,往往會使用開源軟件基礎架構Hadoop的服務。由于Hadoop深受歡迎,許多公司都推出了各自版本的Hadoop,也有一些公司則圍繞Hadoop提供解決方案。Hadoop的發(fā)行版除了社區(qū)的Apachehadoop外,cloudera,IBM,ORACLE等都提供了自己的商業(yè)版本。商業(yè)版主要是提供Hadoop專業(yè)的技術支持,這對一些大型企業(yè)尤其重要。ClouderaEMC。。。IBMOracle大數據主要廠商大型企業(yè)和機構在尋求解決棘手的大數據問題時,大數據生態(tài)HIVEBigDataApplicationsPig!ZooKeeperSQLRAW非結構化資料匯入SQL資料匯入分散式檔案系統(tǒng)類SQL資料庫系統(tǒng)(非即時性)分散式資料庫(即時性)并行計算框架資料處理語言數據挖掘程序庫大數據生態(tài)HIVEBigDataApplications大數據治理體系與數據治理體系的聯系與區(qū)別大數據治理是一項系統(tǒng)工程,大到大數據技術平臺的搭建、組織的變革、政策的制定、流程的重組,小到元數據的管理、主數據的整合、各種類型大數據的個性化治理和大數據的行業(yè)應用。組織必須治理全部大數據,將大數據治理定義如下:

大數據治理是廣義數據治理計劃的一部分,即制定與大數據有關的數據優(yōu)化、隱私保護與數據變現的政策。將上述大數據治理的定義分解為以下部分:

大數據是廣義數據治理計劃的一部分數據治理機構必須采取以下措施,以將大數據整合到既有的數據治理框架中:

擴展數據治理憲章的外延,將大數據治理納入其中;

拓寬數據治理委員會成員的范圍,將數據科學家等大數據的超級用戶吸納進來;

任命處理社交媒體等特定大數據的主管;

將大數據與元數據、隱私、數據質量和主數據等數據治理準則結合。大數據治理關乎政策制定政策包括人們在特定情形下如何作為的成文和非成文的宣告。譬如,大數據治理政策可能申明,未經顧客知情并同意,組織不得將顧客的Facebook資料整合到其主數據記錄中。大數據必須優(yōu)化考慮一下組織是如何將現實世界的準則應用到大數據治理中的。公司設計了精致的企業(yè)資產管理計劃,對機器、飛機、交通工具和其他資產進行妥善管理。與對實物資產進行登記類似,組織必須對大數據進行如下優(yōu)化:

元數據——建立大數據類別信息;

數據質量管理——像公司對實物資產進行定期檢修一樣,定期凈化大數據;

信息生命周期管理——對大數據進行存檔,并在沒必要繼續(xù)保存某些數據時,將其刪除。大數據隱私至關重要組織同樣必須建立旨在防止大數據誤用的適當政策。組織在處理社交媒體、地理定位、生物計量學和其他形式的個人可識別信息(PII)時,必須考慮涉及的聲譽、規(guī)制和法律風險。大數據必須變現所謂變現,就是將數據等資產轉化為現金的過程,變現的方式可以是將數據賣給第三方,也可以是利用數據開發(fā)新的服務。在當下,公司意識到,必須將大數據視為具有財務價值的企業(yè)資產。例如,運營部門可以通過傳感器數據,根據定期檢修計劃,提高設備正常運行時間。呼叫中心可以分析客戶代表的記錄,通過了解顧客呼叫的原因,降低呼叫量。此外,零售商可以使用主數據激活Facebook的應用程序,提升顧客忠誠度。大數據治理體系與數據治理體系的聯系與區(qū)別大數據治理是一項系統(tǒng)02大數據平臺解決方案02大數據平臺解決方案大數據平臺整體架構大數據平臺整體架構大數據處理流程建立對非結構化數據進行SQL語法查詢的支持,實現與結構化數據的集成關聯(key)主分類關鍵詞標簽地名人名全國統(tǒng)一分類分詞,倒排搜索共性、個性文本識別處理功能模塊網頁分類反向搜索關鍵詞分析日志關聯內容分詞索引建立索引分析日志合并用戶類別標簽摘要結構化元信息網頁信息分類數據獲取語義分析數據解析

非結構化數據數據獲取結構化數據數據集市數據集市EDW結構化元數據Hadoop建立非結構化信息的標簽、摘要、索引、日志、內容等提取結構化的元數據信息,如類別、標引、摘要等;實現與結構化數據的整合ODSSQL聲譽度分析品牌分析服務質量分析競爭產品分析產品評價市場動態(tài)跟蹤ETL網絡爬蟲大數據處理流程主分類關鍵詞標簽地名人名全國統(tǒng)一分類分詞,倒排大數據關鍵技術大數據關鍵技術大數據關鍵技術-Hadoop大數據關鍵技術-HadoopHadoop系統(tǒng)工作原理Hadoop系統(tǒng)工作原理大數據關鍵技術-網絡數據獲取分布式網絡爬蟲分布式文件系統(tǒng)分布式存儲橫向擴容(Scale-out)架構分布式軟件架構并行計算框架大數據關鍵技術-網絡數據獲取分布式網絡爬蟲分布式文件系統(tǒng)分布大數據關鍵技術-兩種平臺相互集成大數據關鍵技術-兩種平臺相互集成大數據關鍵技術-數據應用功能數據查詢數據統(tǒng)計信息檢索數據分析語義分析數據挖掘經營管理市場活動市場口碑分銷管理決策支持用戶服務大數據關鍵技術-數據應用功能數據查詢數據統(tǒng)計信息檢索數據分析大數據關鍵技術-數據管控大數據關鍵技術-數據管控03大數據平臺數據治理方法03大數據平臺數據治理方法傳統(tǒng)數據平臺與大數據分布式平臺特性差異傳統(tǒng)數據平臺與大數據分布式平臺特性差異大數據分析與傳統(tǒng)BI分析差異結構化數據數據規(guī)模一般為TB規(guī)模集中式,為了分析進行大量數據移動,數據向計算靠近批處理為主結構化/非結構化混合分析的能力數據規(guī)模從數十TB到PB級別分布式,計算向數據靠近支持流式分析事務關系型數據庫批處理數據倉庫分析集群化非結構化流式多種數據源分析(MapReduce)組織傳統(tǒng)BI分析大數據分析大數據分析與傳統(tǒng)BI分析差異結構化數據結構化/非結構化混合分大數據處理和管理體系-多結構化大數據處理和管理體系-多結構化大數據實施建議第一階段:應用場景驅動的大數據開發(fā)第二階段:各業(yè)務系統(tǒng)、各渠道系統(tǒng)等配合大數據改造優(yōu)化第三階段:管理信息體系下的大數據平臺建設第四階段(目標):以大數據驅動的,實時的、整體聯動的IT解決方案Think

big,

start

small.大處著眼,小處著手。大數據實施建議第一階段:應用場景驅動第二階段:各渠道系統(tǒng)等第大數據實施方法論大數據業(yè)務戰(zhàn)略大數據建設目標大數據架構設計大數據實施大數據運維企業(yè)戰(zhàn)略目標業(yè)務目標業(yè)務模式大數據治理目標應用場景服務模式服務對象大數據服務定義大數據信息模型大數據管理定義技術選擇驗證測試容量規(guī)劃安裝,配置驗收測試系統(tǒng)上線大數據服務管理服務性能管理生命周期管理資源調度系統(tǒng)監(jiān)控大數據持續(xù)改進業(yè)務調整服務改進技術升級架構優(yōu)化大數據實施方法論大數據業(yè)務戰(zhàn)略大數據建設目標大數據架構設計大大數據的角色和技能大數據的角色和技能大數據治理成熟度模型實施大數據治理的第一步,是評估大數據治理成熟度的當前狀態(tài)和期望的未來狀態(tài)。現將某信息治理委員會的成熟度模型用于成熟度評估。該模型設立了4個領域的11個大數據治理成熟度指標。29支持準則數據架構數據標準審計信息日志和報告核心準則數據質量管理信息生命周期管理信息安全與隱私支持要素管理人員數據風險管理政策目標業(yè)務成果要求支持增強組織機構和認識元數據大數據治理成熟度模型實施大數據治理的第一步,是評估大數據治理大數據治理成熟度模型介紹及問題示例30目標目標指信息治理計劃的預期結果。目標傾向于關注降低風險與提升價值,這反過來又受降低成本和提高收入的驅動。業(yè)務成果:代表信息治理計劃的目標和目的。業(yè)務成果:A是否已經確定了大數據治理計劃的關鍵業(yè)務關聯方?B是否對大數據治理可帶來的財務收益進行了量化?支持要素核心準則支持準則組織結構和認識:指業(yè)務部門和IT部門間的相互責任,以及對治理不同管理層次中數據的信托責任的認識。管理人員:旨在保證數據監(jiān)護,實現資產增值、風險消解和組織控制的質量控制準則。數據風險管理:據以識別、保留、量化、規(guī)避、接受、消解和轉嫁風險的方法論。政策:期望得到落實的組織行為的書面表達。數據結構和認識:如關鍵角色的職位說明中,是否包含大數據治理,如配備首席數據官和信息治理官?管理人員:是否已經建立了責任分配(RACI)矩陣,以定義針對大數據關鍵屬性的角色和責任?數據風險管理:是否在大數據治理與風險治理之間建立了聯系?政策:是否已經歸檔了一組大數據治理政策?數據質量管理:指測量、提高和保證產品數據、測試數據和歸檔數據的質量和集成性的方法。信息生命周期管理:有關信息采集、使用、保留和刪除的系統(tǒng)化的、基于策略的方法。信息安全與隱私:組織用于消解風險和保護數據資產的策略、實踐和控制手段。數據質量管理:對于與大數據相關的質量問題(數據價值不高或不顯著),是否達成了一致意見?信息生命周期管理:是否制定了流程,根據法律和業(yè)務要求合法處理不再需要的大數據?信息安全和隱私:首席信息安全官是否是大數據治理計劃的關鍵支持者?數據架構:結構化和非結構化數據系統(tǒng)及應用的架構式設計,用于實現數據的可用性,并將數據分配給合適的用戶。元數據:指用于創(chuàng)建常見的語義定義、IT術語、數據模型和數據庫的方法和工具。審計信息日志和報告:指監(jiān)測和測量數據價值、風險和信息治理有效性的組織流程。數據架構:Hadoop、NoSQL以及與當前架構相關的其他新興大數據技術的共存戰(zhàn)略是怎樣的?分類和元數據:業(yè)務詞庫是否包含與大數據相關的關鍵業(yè)務術語(如針對點擊流數據的“獨立訪客”)?審計信息日志和報告:企業(yè)如何檢測特權用戶對醫(yī)保索賠和通話詳單等敏感大數據的訪問?問題示例模型介紹大數據治理成熟度模型介紹及問題示例30目標目標指信息治理計劃案例某大型金融機構資金管理部的大數據治理路線圖31創(chuàng)建Hadoop基礎設施大數據治理的演進關鍵活動每日頭寸快照社交媒體和非結構化內容治理大數據某大型金融機構的資金管理部,為大中型企業(yè)提供現金管理和流動性管理的綜合服務。該部門處于部署大數據計劃的早期階段,其最初的大數據治理路線圖如右圖所示:第1-6個月構建技術基礎設施,獲得Linux服務器和ApacheHadoop發(fā)行版。由于大數據是一個新事物,在切入業(yè)務前,必須設計一個可行的用例,并進行財務可行性論證。此外,組織要認真審視數據管理的傳統(tǒng)方面:怎樣將數據導入并導出Hadoop?Hadoop中的數據質量如何?大數據的元數據是怎樣的?如何將大數據整合到未來12個月將要部署的主數據管理數據庫中?大數據已經成為主流媒體的熱門詞匯,高管層至少很有可能同意支持一個大數據試點項目。因此,數據治理團隊需要及時更新路線圖,將與大數據有關的人員、流程和技術計劃納入其中。第6-12個月引入詳細的交易記錄,以分析每日頭寸快照。受傳統(tǒng)基礎設施成本高昂的影響,以往的金融機構從未進行這樣細致入微的分析。第12-24個月將社交媒體數據和其他非結構化內容引入Hadoop環(huán)境。由于金融機構的大多數客戶是大企業(yè),對交易對手的10-K和10-Q歸檔等非結構化內容,進行探索性分析。第24-36個月資金管理部已經有了現成的聚焦于大企業(yè)客戶的主數據的信息治理計劃。案例某大型金融機構資金管理部的大數據治理路線圖31創(chuàng)建Had大數據處理框架的組成32大數據治理需要高度聚焦于數據本身。我們將大數據分為五種:web和社交媒體數據、機器對機器的數據、大體量交易數據、生物計量學數據和人工生成的數據。大數據類型信息治理準則產業(yè)與功能傳統(tǒng)的信息治理準則,同樣適用于大數據,相關準則包括組織、元數據、隱私、數據質量、業(yè)務流程整合、主數據整合和信息生命周期管理。大數據分析是受例驅動的,用例的具體情況因產能和功能而異。限于篇幅,我們只列出了部分的產業(yè)和功能。大數據處理框架的組成32大數據治理需要高度聚焦于數據本身。我大數據的類型大數據大體可分為五種類型33Web和社交媒體數據二的點擊流數據TwitterFeedsFacebook帖子網絡內容Web和社交媒體數據二的點擊流數據TwitterFeedsFacebook帖子網絡內容機器對機器的數據二的公用事業(yè)智能儀表讀數RFID讀數石油鉆探設備傳感器讀數網絡內容Web和社交媒體數據二的點擊流數據TwitterFeedsFacebook帖子網絡內容Web和社交媒體數據二的點擊流數據TwitterFeedsFacebook帖子網絡內容類型大數據的類型大數據大體可分為五種類型33Web和社交媒體數據職責分配(RACI)所代表的內涵34應負責方(Responsible)指授權管理某屬性的人。(一種屬性可有多個負責人)最終負責方(Accountable)指數據屬性承擔最終責任的人。咨詢方(Consulted)指通過雙向溝通接受咨詢的某人或某些人。被告知方(Informed)指通過單向溝通被告知的某人或某些人。職責分配(RACI)所代表的內涵34應負責方(Respons大數據治理計劃需要實施的最佳實踐351324創(chuàng)建一個體現關鍵大數據術語的業(yè)務定義的詞庫。理解對ApacheHadoop中元數據的持續(xù)支持。對業(yè)務詞庫中的敏感大數據進行標記。從相關的大數據存儲中輸入技術元數據。將相關的數據元與業(yè)務詞庫中的術語進行鏈接。5768使用運營元數據監(jiān)測大數據的流動。保留技術元數據,以支持數據血統(tǒng)和影響分析。從非結構化文件中采集元數據,支持企業(yè)搜索。擴展既有的元數據角色,將大數據納入其中。9元數據是描述數據產品特征的任何信息,如名字、位置、可感知的、重要性、質量、對企業(yè)的價值,以及與企業(yè)認為值得管理的其他數據產品的關系等。元數據決定信息架構的如何滿足業(yè)務需求,因此元數據是信息治理計劃的關鍵。大數據治理計劃需要實施的最佳實踐351324創(chuàng)建一個體現關鍵業(yè)務詞庫36業(yè)務詞庫業(yè)務詞庫是企業(yè)用于傳達其對信息的認識的語言。創(chuàng)建并維護該層業(yè)務元數據,對表達要求的含義和描述IT系統(tǒng)可用的信息至關重要。業(yè)務詞庫保證了信息開發(fā)的準確性和速度。術語代表著企業(yè)和業(yè)務層面對信息的理解,所以許多組織傾向于自下而上創(chuàng)建數據詞典,對已有的信息進行歸類。在處理大數據時,業(yè)務驅動的數據定義和數據目錄之間的區(qū)別尤為重要業(yè)務詞庫保證了信息開發(fā)的準確性和速度。在處理大數據時,業(yè)務驅動的數據定義和數據目錄之間的區(qū)別尤為重要。業(yè)務詞庫36業(yè)務詞庫業(yè)務詞庫是企業(yè)用于傳達其對信息的認識的語對業(yè)務詞庫中的敏感數據37對敏感的大數據進行分類發(fā)現敏感數據對業(yè)務詞庫中的敏感數據進行標記執(zhí)行大數據隱私政策進行分類大數據治理計劃需要對社會保險號碼等敏感數據進行分類。分類應來自業(yè)務詞庫模型并被傳承到不同數據庫中數據的所有物理實例中。敏感的大數據可能隱藏在非結構化文本中。大數據治理計劃應考慮數據分析工具的利用,以便自動發(fā)現非結構化字段的敏感數據。首席信息安全官制定有關敏感數據的政策。只有在識別到敏感數據的位置時,組織才能執(zhí)行政策,因此,在業(yè)務詞庫中標記敏感數據就非常關鍵。大數據治理團隊可以通過使用數據分析工具發(fā)現敏感的大數據,以監(jiān)督對政策的遵從度。對業(yè)務詞庫中的敏感數據37對敏感的大數據進行分類發(fā)現敏感數據從相關的大數據存儲中輸入技術元數據38在創(chuàng)建業(yè)務詞庫后大數據治理團隊需要從大數據源中采集合用的、相關的元數據。大數據源Hadoop文件商業(yè)智能報告應用數據庫數據模型準結構化非結構化數據結構化信息管理經銷商元數據中央存儲庫橋接器連接器從相關的大數據存儲中輸入技術元數據38在創(chuàng)建業(yè)務詞庫后大數據元數據39元數據創(chuàng)建一個體現關鍵大數據術語的業(yè)務定義的詞庫理解對ApacheHadoop中元數據的持續(xù)支持對業(yè)務詞庫中的敏感大數據進行標記從相關的大數據存儲中輸入技術元數據將相關的數據元與業(yè)務詞庫的術語進行鏈接使用運營元數據監(jiān)測大數據的流動保留技術元數據,以支持數據血統(tǒng)和影響分析元數據39元數據創(chuàng)建一個體現關鍵大數據術語的業(yè)務定義的詞庫理從非結構化文件中采集元數據,支持企業(yè)搜索創(chuàng)建非結構化數據的索引,也是元數據的一種形式,許多企業(yè)的搜索供應商已開發(fā)相應工具。40保險業(yè)通過向呼叫人員提供客服關懷、告警、保單和客戶信息文件等多個文件庫的可搜索訪問,可將平均處理時間減少三秒,年節(jié)約數百萬美元。通過提供對EMCDocumentum、文件系統(tǒng)、微軟Share-Point、內網和外部數據庫中客戶、患者和研究數據的快速訪問,加快科研進程。讓臨床醫(yī)生可訪問來自醫(yī)學刊物和其他文件庫的最新研究成果。制藥業(yè)醫(yī)療保險業(yè)從非結構化文件中采集元數據,支持企業(yè)搜索創(chuàng)建非結構化數據的索拓展既有的元數據角色,將大數據納入其中信息治理團隊可能安排許多與原數據相關的角色。組織需考慮這些角色進行拓展,以將大數據治理納入進來。41業(yè)務詞庫管理者數據科學家元數據管理者數據血統(tǒng)管理者數據主管數據架構師本角色負責保管應將大數據術語包含在內的業(yè)務詞庫。本角色負責在相關數據源識別和輸入技術元數據。數據血統(tǒng)管理者與數據管理者配合,確保數據血統(tǒng)分析中數據源之間的數據流可得到準確地反映。本角色參與大數據特別是關鍵業(yè)務術語定義的管理。本角色監(jiān)督元數據模型的創(chuàng)建及其與企業(yè)數據模型的連接。本角色縮短了大數據原始卷和使其有用的業(yè)務洞察間的距離,其通過創(chuàng)造力和想象力創(chuàng)建原型,以揭開大數據中的秘密。拓展既有的元數據角色,將大數據納入其中信息治理團隊可能安排許大數據質量42維度傳統(tǒng)數據的質量大數據的質量處理頻率處理是面向批量的處理是實時的或面向批量的數據多樣性數據格式大部分是結構化的數據格式可能是結構化的、準結構化的或非結構化的置信度數據需處于原始階段,以方便數據倉庫的分析糟糕的數據質量可能會阻礙分析工具獲得業(yè)務洞察數據進化的時間選擇在下載到數據倉庫前數據需要進化數據的體量和速度可能要求采取流式的、內存中的分析來進化數據、從而降低存儲要求關鍵數據元素評估客戶地址等關鍵數據元素的數據質量數據可能被模糊定義或錯誤定義,關鍵數據元素可能會反復變化分析位置數據遷移到數據質量和分析引擎數據質量和分析引擎可進入數據中,以保證可接受的處理速度管理工作數據主管可管理大部分數據由于體量大和速度快,數據主管只能管理相對更小的數據數據質量管理是測度、提高、驗證質量以及整合組織數據的方法等一套行為準則。體量極大、速度極快和多樣的特點,決定了大數據質量所需的處理有別于傳統(tǒng)信息治理計劃的質量管理。大數據質量42維度傳統(tǒng)數據的質量大數據的質量處理頻率處理是面大數據治理計劃必須采取的實踐439.1與商業(yè)上的利益攸關者協(xié)作,建立并測度大數據質量的置信區(qū)間9.2利用準結構化和非結構化數據,提高人口稀疏的結構化數據的質量9.3使用流數據分析技術解決內存中的數據質量問題,無需將中間結果輸入硬盤9.4任命對信息治理委員會負責的主管,由其負責提高大數據治理計劃必須采取的實踐439.1與商業(yè)上的利益攸關者業(yè)務流程整合

4410.1識別將會受到大數據治理影響的關鍵流程10.2建立關鍵合同的流程圖10.3針對業(yè)務流程中的關鍵步驟,制定大數據治理政策業(yè)務流程整合4410.1識別將會受到大數據治理影響的關鍵流1.大數據源圖21.1大數據技術參考架構45Web和社交媒體數據機器對機器的數據大體量交易數據生物計量學數據人工生成的數據15.大數據安全和隱私16.大數據生命周期管理17.云2.開源的基礎組件HDFSMapReduceHadoopCommonHBaseOthers5.數據庫NoSQLIn-MemoryRelationalLegacy6.大數據整合批量遷移復制虛擬化7.文本分析8.大數據發(fā)現9.大數據質量10.元數據11.信息政策管理12.主數據管理13.數據倉庫和數據集市14.大數據分析和報告3.Hadoop發(fā)行版4.流媒體分析18.大數據標準8.大數據發(fā)現9.大數據質量1.大數據源圖21.1大數據技術參考架構45Web和社交媒微軟的大數據平臺461.微軟Hadoop發(fā)行版6.WindowsAzureExcel5.大數據分析與報告SQLServerAnalysisServicesSQLServerParallelEditionSQLServerReportingServices4.數據倉庫與數據集市3.大數據整合2.數據庫開源基礎組件大數據源SQLServerIntegrationServicesSQLServer微軟的大數據平臺461.微軟Hadoop發(fā)行版6.Windo理解對ApacheHadoop中元數據的持續(xù)支持47名稱節(jié)點數據塊A數據節(jié)點機架1數據塊B數據塊C數據塊A數據節(jié)點機架2數據塊B數據塊C數據塊A數據節(jié)點機架3數據塊B數據塊C圖:Hadoop分布式文件系統(tǒng)(HDFS)的技術構架作為Hadoop關鍵支持要素的元數據如圖Hadoop分布式文件系統(tǒng)(HDFS)是一個帶單個名稱節(jié)點和多個數據結點的主/從架構。單點故障因為HDFS很容易受到名稱節(jié)點故障的損害,所以Hadoop經銷商建議管理者存儲一些不同本地硬盤的備份可拓展性隨著數據存儲動能的擴大,主服務器名稱節(jié)點可能出現可拓展性的問題,主服務器名稱節(jié)點必須將所有元數據保存在內存中。HCatalogHcatalog項目是Apache孵化器的一部分,旨在解決Hadoop中缺乏元數據支持的問題。理解對ApacheHadoop中元數據的持續(xù)支持47名稱節(jié)大數據安全與隱私48部分漏洞變通方案HDFS沒有授權系統(tǒng),注冊用戶可以在群中讀寫任何數據Hadoop注冊用戶通過“whoami”命令訪問,這是不安全的Hbase沒有訪問控制,Hadoop群中任何工作運行均可以訪問群中任何數據……不要在Hadoop中存儲任何敏感數據對敏感數據進行加密,包括隱藏文本和非結構歐化領域的內容將每個數據置于自己的群中,以便用戶僅可以訪問被授權的數據……Hadoop是一項新技術,我們預計隨著大公司和供應鏈的介入,上述問題將被得到解決。大數據安全與隱私48部分漏洞變通方案HDFS沒有授權系統(tǒng),04大數據質量管理平臺04大數據質量管理平臺數據質量管理平臺技術架構數據質量檢查規(guī)則執(zhí)行模塊作為多個ETL任務部署在工商數據平臺ETL服務器上,由Automation工作流調度服務統(tǒng)一調度運行,實現各個數據區(qū)技術和業(yè)務數據質量檢查數據質量管理系統(tǒng)元模型包含檢查規(guī)則、檢查執(zhí)行結果、分析報告,模型作為一個獨立的Schema部署在決策分析報表平臺的數據庫數據質量檢查規(guī)則配置模塊作為JavaWeb應用部署在工商數據平臺Tomcat集群上,數據質量管理員通過統(tǒng)一的Web服務訪問,實現檢查規(guī)則的維護數據質量分析報告展現模塊作為JavaWeb應用部署在工商數據平臺Tomcat集群上,用戶通過統(tǒng)一的Web服務訪問,實現日報、月報的瀏覽、下載等功能數據質量分析報告生成模塊作為一個ETL任務部署在決策分析報表平臺ETL服務器上,由Automation工作流調度服務統(tǒng)一調度運行,按照每日、每月生成各數據區(qū)數據質量檢查報告數據質量管理平臺以元信息模型為核心,由規(guī)則配置管理模塊、檢查執(zhí)行模塊、分析報告生成模塊和分析報告展現模塊四部分構成。整個數據質量檢查過程以ETL任務的形式統(tǒng)一調度執(zhí)行。數據質量管理平臺技術架構數據質量檢查規(guī)則執(zhí)行模塊作為多個ET數據質量檢查執(zhí)行服務數據質量管理的規(guī)則執(zhí)行服務作為ETL任務部署在ETL服務器上在整個數據處理過程中,設置4類檢查點在不同的檢查點由TaskAutomation工作流統(tǒng)一調度執(zhí)行檢查結果統(tǒng)一存入數據質量管理資料庫1234數據質量檢查執(zhí)行服務數據質量管理的規(guī)則執(zhí)行服務作為ETL任務檢查規(guī)則執(zhí)行服務檢查點1云數據推送平臺接口文件級規(guī)范性檢查任務說明任務類型ETL任務——技術型檢查ETL階段云數據推送平臺->工商數據交換平臺NAS存儲指定目錄執(zhí)行頻率每日執(zhí)行執(zhí)行方式由TaskAutomation工作流引擎根據工作流定義統(tǒng)一調度,在ETL服務器上執(zhí)行檢查對象云數據推送平臺按照接口規(guī)范導出的業(yè)務系統(tǒng)每日增量數據文件和控制文件檢查內容接口文件是否存在,接口文件名稱是否正確,接口文件是否通過MD5校驗實現技術Linux腳本語言,Perl或Python成功閾值所有規(guī)則通過檢查依賴任務N/A觸發(fā)任務數據加載檢查規(guī)則執(zhí)行服務檢查點1云數據推送平臺接口文件級規(guī)范性檢查任檢查規(guī)則執(zhí)行服務檢查點2臨時區(qū)數據技術性檢查任務說明任務類型ETL任務——技術型檢查ETL階段臨時數據區(qū)->貼源整合數據區(qū)執(zhí)行頻率每日執(zhí)行執(zhí)行方式由TaskAutomation工作流引擎根據工作流定義統(tǒng)一調度,在Hadoop集群上執(zhí)行檢查對象云數據推送平臺按照接口規(guī)范導出的業(yè)務系統(tǒng)每日增量數據檢查內容日期、時間格式檢查;主鍵唯一型檢查;外鍵參照完整型檢查;關鍵字段取值完整性檢查實現技術HiveSQL成功閾值90%記錄通過檢查異常處理未通過檢查的記錄存入指定錯誤明細表依賴任務接口文件級規(guī)范性檢查任務觸發(fā)任務貼源數據整合任務檢查規(guī)則執(zhí)行服務檢查點2臨時區(qū)數據技術性檢查任務說明任務類型檢查規(guī)則執(zhí)行服務檢查點3匯總區(qū)業(yè)務性檢查任務內容說明任務類型ETL任務——業(yè)務型檢查ETL階段貼源整合數據區(qū)->匯總數據區(qū)執(zhí)行頻率每日/月/季執(zhí)行執(zhí)行方式由TaskAutomation工作流引擎根據工作流定義統(tǒng)一調度,在Hadoop集群上執(zhí)行檢查對象匯總數據區(qū)的數據檢查內容業(yè)務邏輯檢查:通過對若干個匯總值/指標值的運算,來檢驗各個匯總值/指標間潛在的平衡或其他比較關系實現技術HiveSQL成功閾值90%記錄通過檢查異常處理未通過檢查的記錄存入指定錯誤明細表依賴任務貼源整合數據區(qū)數據處理完成觸發(fā)任務集市數據區(qū)應用數據生成檢查規(guī)則執(zhí)行服務檢查點3匯總區(qū)業(yè)務性檢查任務內容說明任務類型檢查規(guī)則執(zhí)行服務檢查點4.1應用集市區(qū)技術性檢查任務內容說明任務類型ETL任務——業(yè)務型檢查ETL階段匯總數據區(qū)->應用集市數據區(qū)執(zhí)行頻率每日/月/季執(zhí)行執(zhí)行方式由TaskAutomation工作流引擎根據工作流定義統(tǒng)一調度,在應用集市數據庫集群上執(zhí)行檢查對象應用集市數據區(qū)的數據檢查內容主鍵唯一型檢查;外鍵參照完整型檢查;關鍵字段取值完整性檢查實現技術SQL成功閾值90%記錄通過檢查異常處理未通過檢查的記錄存入指定錯誤明細表依賴任務匯總數據區(qū)數據處理完成觸發(fā)任務N/A檢查規(guī)則執(zhí)行服務檢查點4.1應用集市區(qū)技術性檢查任務內容說明檢查規(guī)則執(zhí)行服務檢查點4.2應用集市區(qū)業(yè)務性檢查任務內容說明任務類型ETL任務——業(yè)務型檢查ETL階段匯總數據區(qū)->應用集市數據區(qū)執(zhí)行頻率每日/月/季執(zhí)行執(zhí)行方式由TaskAutomation工作流引擎根據工作流定義統(tǒng)一調度,在應用集市數據庫集群上執(zhí)行檢查對象應用集市數據區(qū)的數據檢查內容業(yè)務邏輯檢查:通過對若干個指標值的運算,來檢驗各個指標間潛在的平衡或其他比較關系數值檢查:主要是通過對單個指標值的監(jiān)控來發(fā)現數據的異常、突變等情況波動檢查:通過對單個指標值一段時間內的數值變化情況來檢查數據的波動、變化情況一致性檢查:通過對兩個指標按某幾個維度展開后的增減幅度來發(fā)現數據的波動、變化情況實現技術SQL成功閾值90%記錄通過檢查異常處理未通過檢查的記錄存入指定錯誤明細表依賴任務匯總數據區(qū)數據處理完成觸發(fā)任務N/A檢查規(guī)則執(zhí)行服務檢查點4.2應用集市區(qū)業(yè)務性檢查任務內容說明數據質量管理分析報告生成服務分析報告生成服務是部署在ETL服務器上的ETL任務,按照任務流程被TaskAutomation統(tǒng)一調度執(zhí)行,生成以下三類報告:源系統(tǒng)數據交換質量日報該報告匯總了報告生成當天源系統(tǒng)的數據接口校驗結果,包括針對每個接口單元的表及記錄級校驗錯誤的統(tǒng)計數據和指標日平均值數據質量匯總日報該報告依照每日各源系統(tǒng)數據交換評價指標的平均值及當天的貼源數據、匯總數據和數據集市質量檢查結果匯總生成數據質量匯總月報該報告依照當月的日報結果,取各項指標的平均值和數據統(tǒng)計的匯總值生成數據質量管理分析報告生成服務分析報告生成服務是部署在ETL服數據質量管理分析報告指標定義指標分類指標名稱指標說明對應報告接口單元級評價指標接口傳輸及時率指在最后截止時間前完成上傳的接口單元數量與時限內要求上傳的接口單元數的比率?!对聪到y(tǒng)數據交換質量日報(XX系統(tǒng))》接口傳輸完整率指在數據質量日報告生成之前,成功上傳的接口單元數量與要求上傳的接口單元數量的比率。《源系統(tǒng)數據交換質量日報(XX系統(tǒng))》接口準確率指與接口校驗內容描述一致的接口單元數量與要求上傳的接口單元數量的比率。《源系統(tǒng)數據交換質量日報(XX系統(tǒng))》記錄級評價指標記錄正確率正確的記錄數與全部記錄數的比值。每條記錄只要違反任一條檢查規(guī)則(例如:主鍵唯一、業(yè)務規(guī)則等),就被計入錯誤日志。每個接口單元的最大允許出錯閾值由數據質量檢查規(guī)則確定。計算公式如下:當Ec<Emax時:記錄正確率=當Ec>=Emax時:記錄正確率=0說明:Ec—出錯記錄數Et—記錄總數Emax—最大允許出錯閾值《源系統(tǒng)數據交換質量日報(XX系統(tǒng))》《數據質量匯總日報》《數據質量匯總月報》數據質量管理分析報告指標定義指標分類指標名稱指標說明對應報告分析報告生成服務:源系統(tǒng)數據交換質量日報明細報告生成任務內容說明任務類型ETL任務——明細日報生成ETL階段分析報告生成階段執(zhí)行頻率每日執(zhí)行方式由TaskAutomation工作流引擎根據工作流定義統(tǒng)一調度,在數據質量管理元數據庫上執(zhí)行評價對象數據質量檢查點1、2對應的檢查任務執(zhí)行結果評價指標接口傳輸及時率、接口傳輸完整率、接口準確率實現技術MySQLSQL命令依賴任務ETL處理完成觸發(fā)任務數據質量匯總日報生成任務分析報告生成服務:源系統(tǒng)數據交換質量日報明細報告生成任務內容分析報告生成服務:數據質量匯總日報數據質量匯總日報生成任務內容說明任務類型ETL任務——匯總日報生成ETL階段分析報告生成階段執(zhí)行頻率每日執(zhí)行方式由TaskAutomation工作流引擎根據工作流定義統(tǒng)一調度,在數據質量管理元數據庫上執(zhí)行評價對象數據質量檢查點2、3、4對應的檢查任務執(zhí)行結果評價指標記錄正確率實現技術MySQLSQL命令依賴任務源系統(tǒng)數據交換質量日報生成觸發(fā)任務數據質量匯總月報生成任務分析報告生成服務:數據質量匯總日報數據質量匯總日報生成任務內分析報告生成服務:數據質量匯總月報任務內容說明任務類型ETL任務——匯總月報生成ETL階段分析報告生成階段執(zhí)行頻率每月月初執(zhí)行方式由TaskAutomation工作流引擎根據工作流定義統(tǒng)一調度,在數據質量管理元數據庫上執(zhí)行評價對象當月所有數據質量檢查點對應的檢查任務執(zhí)行結果評價指標記錄正確率實現技術MySQLSQL命令依賴任務數據質量匯總日報生成任務觸發(fā)任務N/A分析報告生成服務:數據質量匯總月報任務內容說明任務類型ETL數據質量管理元信息庫采用MySQL數據庫,存儲數據質量檢查規(guī)則、數據質量檢查結果、數據質量檢查報告示例數據質量管理元信息庫采用MySQL數據庫,存儲數據質量檢查規(guī)檢查規(guī)則配置管理模塊說明模塊名稱接口單元級技術檢查規(guī)則配置管理模塊實現功能該模塊的主要任務是用web界面方式引導用戶完成數據質量檢查規(guī)則的配置,主要包括檢查規(guī)則的唯一標識、檢查規(guī)則簡單描述、檢查類型、檢查對象、生效標志、檢查規(guī)則(如:SQL命令)等。模塊需要實現如下功能:規(guī)則新增;增加一條檢查規(guī)則規(guī)則修改;修改規(guī)則內容規(guī)則刪除;刪除已有的規(guī)則規(guī)則生效:設置規(guī)則的狀態(tài)為生效或無效規(guī)則搜索:按規(guī)則ID、接口名稱搜索規(guī)則實現技術J2EE運行方式作為WAR包部署在Tomcat集群上發(fā)布鏈接到工商數據平臺門戶上用戶通過B/S方式登錄平臺執(zhí)行配置管理使用對象數據質量管理員檢查規(guī)則配置管理模塊說明模塊名稱接口單元級技術檢查規(guī)則配置管數據質量管理分析報告展現模塊說明模塊名稱源系統(tǒng)數據交換質量日報、數據質量匯總日報、數據質量匯總月報展現模塊實現功能該模塊的主要任務是用web界面方式引導用戶提交查詢條件,查看滿足條件的數據質量管理分析。模塊需要實現如下功能:報告查詢;按照時間、報告名稱報告查看;在線查看報告內容報告下載;將報告下載到本地查看錯誤明細下載;下載未通過數據質量檢查的出錯記錄明細有效時間每日或月ETL處理結束后實現技術J2EE運行方式作為WAR包部署在Tomcat集群上發(fā)布鏈接到工商數據平臺門戶上用戶通過B/S方式登錄平臺執(zhí)行配置管理使用對象源系統(tǒng)維護人員(查看相關源系統(tǒng)日報)、數據質量管理員、ETL管理員、公司領導數據質量管理分析報告展現模塊說明模塊名稱源系統(tǒng)數據交換質量日卓越夢想演示完畢感謝觀看卓越夢想演示完畢感謝觀卓越夢想大數據平臺數據治理和挖掘解決方案卓越夢想大數據平臺數據治理和挖掘解決方案大數據治理框架大數據治理框架由三大部分組成:大數據類型、大數據治理領域、行業(yè)與功能67產業(yè)和功能場景保險業(yè)電信業(yè)零售業(yè)公共事業(yè)醫(yī)療保健業(yè)組織元數據隱私數據質量大數據類型web和社交媒體數據機器對機器的數據生物計量學數據大體量交易數據人工生成的數據信息治理大數據治理需要高度聚焦于數據本身。傳統(tǒng)的數據治理領域同樣適用于大數據大數據分析受用例驅動,用例的具體情況因產業(yè)和功能而異。客戶服務IT業(yè)務流程整合情緒分析Facebook忠誠度計劃客戶流失分析索賠調查IT日志分析車載通信技術位置服務索賠欺詐分析智能儀表患者監(jiān)測索賠分析客戶流失分析通話質量保證基因測試人臉識別承保電子病歷RFI日志大數據治理框架大數據治理框架由三大部分組成:大數據類型、大數Contents目錄大數據綜述2341大數據平臺解決方案大數據平臺數據治理方法請輸入第四部分標題Contents目錄大數據綜述2341大數據平臺解決方01大數據綜述01大數據綜述數據處理思維轉變少量的樣本數據數據關系力求明確清晰探求難以捉摸的因果關系要求數據精確無誤全量數據

樂于接受數據的紛繁復雜轉而關注事物的關聯關系

數據的精確不是那么重要了?

谷歌翻譯系統(tǒng)為了訓練其系統(tǒng),收集其能找到的所有翻譯;?

谷歌收集了上萬億頁的語料庫,包括質量參差不齊的文檔;?

上萬億的語料庫,相當于950億句英語;?

相對而言,谷歌的翻譯質量還是最好的;?

谷歌翻譯之所以更好,不是因為它擁有一個更好的算法機制,而是增加了各種各樣的數據,包括有錯誤的數據;?

在谷歌的翻譯團隊中,大多數工程師并不懂其翻譯出來的語言;數據處理思維轉變傳統(tǒng)數據分析思維大數據分析思維案例一?

聘請了20多名書評家和編輯組成的團隊,在網頁上創(chuàng)立“亞馬遜的聲音”向客戶推薦新書,寫書評;?

通過客戶的購買歷史,尋找客戶的相似性,對客戶分群進行產品推薦,推薦的總是與以往購買的相似或略有區(qū)別;?

通過大量的數據分析,找出書籍之間的關聯關系,即“item-to-item”,時亞馬遜發(fā)生了天翻地覆的變化。?

AMAZON銷售額的三分之一來自于“item-to-item”的推薦系統(tǒng)。?

AMAZON最終放棄了在線書評,書評團隊被解散。案例二數據處理思維轉變少量的樣本數據數據關系力求明確清晰探求難以捉數據處理思維轉變數據處理思維轉變關聯關系,預測的關鍵。很多時候,知道“是什么”就夠了,沒必要知道“為什么”。一旦我們完成了“關聯關系”分析,我們就可以繼續(xù)向更深層次研究因果關系,找出背后的“為什么”?

沃爾瑪:請把蛋撻和颶風用品擺在一起,請把啤酒和尿片擺在一起;?

某信用評分公司,利用Facebook的社交圈來預測個人償還債務的可能性;?

對沖基金通過分析Twitter微博的數據文本,作為股市投資的信號;?

某信用評分公司,利用Facebook的社交圈來預測個人償還債務的可能性;?

對沖基金通過分析Twitter微博的數據文本,作為股市投資的信號;其它案例數據處理思維轉變?沃爾瑪:請把蛋撻和颶風用品擺在一起,請把大數據與BI融合*大數據與BI融合*大數據的商業(yè)價值大數據的商業(yè)價值大數據主要廠商

大型企業(yè)和機構在尋求解決棘手的大數據問題時,往往會使用開源軟件基礎架構Hadoop的服務。由于Hadoop深受歡迎,許多公司都推出了各自版本的Hadoop,也有一些公司則圍繞Hadoop提供解決方案。Hadoop的發(fā)行版除了社區(qū)的Apachehadoop外,cloudera,IBM,ORACLE等都提供了自己的商業(yè)版本。商業(yè)版主要是提供Hadoop專業(yè)的技術支持,這對一些大型企業(yè)尤其重要。ClouderaEMC。。。IBMOracle大數據主要廠商大型企業(yè)和機構在尋求解決棘手的大數據問題時,大數據生態(tài)HIVEBigDataApplicationsPig!ZooKeeperSQLRAW非結構化資料匯入SQL資料匯入分散式檔案系統(tǒng)類SQL資料庫系統(tǒng)(非即時性)分散式資料庫(即時性)并行計算框架資料處理語言數據挖掘程序庫大數據生態(tài)HIVEBigDataApplications大數據治理體系與數據治理體系的聯系與區(qū)別大數據治理是一項系統(tǒng)工程,大到大數據技術平臺的搭建、組織的變革、政策的制定、流程的重組,小到元數據的管理、主數據的整合、各種類型大數據的個性化治理和大數據的行業(yè)應用。組織必須治理全部大數據,將大數據治理定義如下:

大數據治理是廣義數據治理計劃的一部分,即制定與大數據有關的數據優(yōu)化、隱私保護與數據變現的政策。將上述大數據治理的定義分解為以下部分:

大數據是廣義數據治理計劃的一部分數據治理機構必須采取以下措施,以將大數據整合到既有的數據治理框架中:

擴展數據治理憲章的外延,將大數據治理納入其中;

拓寬數據治理委員會成員的范圍,將數據科學家等大數據的超級用戶吸納進來;

任命處理社交媒體等特定大數據的主管;

將大數據與元數據、隱私、數據質量和主數據等數據治理準則結合。大數據治理關乎政策制定政策包括人們在特定情形下如何作為的成文和非成文的宣告。譬如,大數據治理政策可能申明,未經顧客知情并同意,組織不得將顧客的Facebook資料整合到其主數據記錄中。大數據必須優(yōu)化考慮一下組織是如何將現實世界的準則應用到大數據治理中的。公司設計了精致的企業(yè)資產管理計劃,對機器、飛機、交通工具和其他資產進行妥善管理。與對實物資產進行登記類似,組織必須對大數據進行如下優(yōu)化:

元數據——建立大數據類別信息;

數據質量管理——像公司對實物資產進行定期檢修一樣,定期凈化大數據;

信息生命周期管理——對大數據進行存檔,并在沒必要繼續(xù)保存某些數據時,將其刪除。大數據隱私至關重要組織同樣必須建立旨在防止大數據誤用的適當政策。組織在處理社交媒體、地理定位、生物計量學和其他形式的個人可識別信息(PII)時,必須考慮涉及的聲譽、規(guī)制和法律風險。大數據必須變現所謂變現,就是將數據等資產轉化為現金的過程,變現的方式可以是將數據賣給第三方,也可以是利用數據開發(fā)新的服務。在當下,公司意識到,必須將大數據視為具有財務價值的企業(yè)資產。例如,運營部門可以通過傳感器數據,根據定期檢修計劃,提高設備正常運行時間。呼叫中心可以分析客戶代表的記錄,通過了解顧客呼叫的原因,降低呼叫量。此外,零售商可以使用主數據激活Facebook的應用程序,提升顧客忠誠度。大數據治理體系與數據治理體系的聯系與區(qū)別大數據治理是一項系統(tǒng)02大數據平臺解決方案02大數據平臺解決方案大數據平臺整體架構大數據平臺整體架構大數據處理流程建立對非結構化數據進行SQL語法查詢的支持,實現與結構化數據的集成關聯(key)主分類關鍵詞標簽地名人名全國統(tǒng)一分類分詞,倒排搜索共性、個性文本識別處理功能模塊網頁分類反向搜索關鍵詞分析日志關聯內容分詞索引建立索引分析日志合并用戶類別標簽摘要結構化元信息網頁信息分類數據獲取語義分析數據解析

非結構化數據數據獲取結構化數據數據集市數據集市EDW結構化元數據Hadoop建立非結構化信息的標簽、摘要、索引、日志、內容等提取結構化的元數據信息,如類別、標引、摘要等;實現與結構化數據的整合ODSSQL聲譽度分析品牌分析服務質量分析競爭產品分析產品評價市場動態(tài)跟蹤ETL網絡爬蟲大數據處理流程主分類關鍵詞標簽地名人名全國統(tǒng)一分類分詞,倒排大數據關鍵技術大數據關鍵技術大數據關鍵技術-Hadoop大數據關鍵技術-HadoopHadoop系統(tǒng)工作原理Hadoop系統(tǒng)工作原理大數據關鍵技術-網絡數據獲取分布式網絡爬蟲分布式文件系統(tǒng)分布式存儲橫向擴容(Scale-out)架構分布式軟件架構并行計算框架大數據關鍵技術-網絡數據獲取分布式網絡爬蟲分布式文件系統(tǒng)分布大數據關鍵技術-兩種平臺相互集成大數據關鍵技術-兩種平臺相互集成大數據關鍵技術-數據應用功能數據查詢數據統(tǒng)計信息檢索數據分析語義分析數據挖掘經營管理市場活動市場口碑分銷管理決策支持用戶服務大數據關鍵技術-數據應用功能數據查詢數據統(tǒng)計信息檢索數據分析大數據關鍵技術-數據管控大數據關鍵技術-數據管控03大數據平臺數據治理方法03大數據平臺數據治理方法傳統(tǒng)數據平臺與大數據分布式平臺特性差異傳統(tǒng)數據平臺與大數據分布式平臺特性差異大數據分析與傳統(tǒng)BI分析差異結構化數據數據規(guī)模一般為TB規(guī)模集中式,為了分析進行大量數據移動,數據向計算靠近批處理為主結構化/非結構化混合分析的能力數據規(guī)模從數十TB到PB級別分布式,計算向數據靠近支持流式分析事務關系型數據庫批處理數據倉庫分析集群化非結構化流式多種數據源分析(MapReduce)組織傳統(tǒng)BI分析大數據分析大數據分析與傳統(tǒng)BI分析差異結構化數據結構化/非結構化混合分大數據處理和管理體系-多結構化大數據處理和管理體系-多結構化大數據實施建議第一階段:應用場景驅動的大數據開發(fā)第二階段:各業(yè)務系統(tǒng)、各渠道系統(tǒng)等配合大數據改造優(yōu)化第三階段:管理信息體系下的大數據平臺建設第四階段(目標):以大數據驅動的,實時的、整體聯動的IT解決方案Think

big,

start

small.大處著眼,小處著手。大數據實施建議第一階段:應用場景驅動第二階段:各渠道系統(tǒng)等第大數據實施方法論大數據業(yè)務戰(zhàn)略大數據建設目標大數據架構設計大數據實施大數據運維企業(yè)戰(zhàn)略目標業(yè)務目標業(yè)務模式大數據治理目標應用場景服務模式服務對象大數據服務定義大數據信息模型大數據管理定義技術選擇驗證測試容量規(guī)劃安裝,配置驗收測試系統(tǒng)上線大數據服務管理服務性能管理生命周期管理資源調度系統(tǒng)監(jiān)控大數據持續(xù)改進業(yè)務調整服務改進技術升級架構優(yōu)化大數據實施方法論大數據業(yè)務戰(zhàn)略大數據建設目標大數據架構設計大大數據的角色和技能大數據的角色和技能大數據治理成熟度模型實施大數據治理的第一步,是評估大數據治理成熟度的當前狀態(tài)和期望的未來狀態(tài)?,F將某信息治理委員會的成熟度模型用于成熟度評估。該模型設立了4個領域的11個大數據治理成熟度指標。94支持準則數據架構數據標準審計信息日志和報告核心準則數據質量管理信息生命周期管理信息安全與隱私支持要素管理人員數據風險管理政策目標業(yè)務成果要求支持增強組織機構和認識元數據大數據治理成熟度模型實施大數據治理的第一步,是評估大數據治理大數據治理成熟度模型介紹及問題示例95目標目標指信息治理計劃的預期結果。目標傾向于關注降低風險與提升價值,這反過來又受降低成本和提高收入的驅動。業(yè)務成果:代表信息治理計劃的目標和目的。業(yè)務成果:A是否已經確定了大數據治理計劃的關鍵業(yè)務關聯方?B是否對大數據治理可帶來的財務收益進行了量化?支持要素核心準則支持準則組織結構和認識:指業(yè)務部門和IT部門間的相互責任,以及對治理不同管理層次中數據的信托責任的認識。管理人員:旨在保證數據監(jiān)護,實現資產增值、風險消解和組織控制的質量控制準則。數據風險管理:據以識別、保留、量化、規(guī)避、接受、消解和轉嫁風險的方法論。政策:期望得到落實的組織行為的書面表達。數據結構和認識:如關鍵角色的職位說明中,是否包含大數據治理,如配備首席數據官和信息治理官?管理人員:是否已經建立了責任分配(RACI)矩陣,以定義針對大數據關鍵屬性的角色和責任?數據風險管理:是否在大數據治理與風險治理之間建立了聯系?政策:是否已經歸檔了一組大數據治理政策?數據質量管理:指測量、提高和保證產品數據、測試數據和歸檔數據的質量和集成性的方法。信息生命周期管理:有關信息采集、使用、保留和刪除的系統(tǒng)化的、基于策略的方法。信息安全與隱私:組織用于消解風險和保護數據資產的策略、實踐和控制手段。數據質量管理:對于與大數據相關的質量問題(數據價值不高或不顯著),是否達成了一致意見?信息生命周期管理:是否制定了流程,根據法律和業(yè)務要求合法處理不再需要的大數據?信息安全和隱私:首席信息安全官是否是大數據治理計劃的關鍵支持者?數據架構:結構化和非結構化數據系統(tǒng)及應用的架構式設計,用于實現數據的可用性,并將數據分配給合適的用戶。元數據:指用于創(chuàng)建常見的語義定義、IT術語、數據模型和數據庫的方法和工具。審計信息日志和報告:指監(jiān)測和測量數據價值、風險和信息治理有效性的組織流程。數據架構:Hadoop、NoSQL以及與當前架構相關的其他新興大數據技術的共存戰(zhàn)略是怎樣的?分類和元數據:業(yè)務詞庫是否包含與大數據相關的關鍵業(yè)務術語(如針對點擊流數據的“獨立訪客”)?審計信息日志和報告:企業(yè)如何檢測特權用戶對醫(yī)保索賠和通話詳單等敏感大數據的訪問?問題示例模型介紹大數據治理成熟度模型介紹及問題示例30目標目標指信息治理計劃案例某大型金融機構資金管理部的大數據治理路線圖96創(chuàng)建Hadoop基礎設施大數據治理的演進關鍵活動每日頭寸快照社交媒體和非結構化內容治理大數據某大型金融機構的資金管理部,為大中型企業(yè)提供現金管理和流動性管理的綜合服務。該部門處于部署大數據計劃的早期階段,其最初的大數據治理路線圖如右圖所示:第1-6個月構建技術基礎設施,獲得Linux服務器和ApacheHadoop發(fā)行版。由于大數據是一個新事物,在切入業(yè)務前,必須設計一個可行的用例,并進行財務可行性論證。此外,組織要認真審視數據管理的傳統(tǒng)方面:怎樣將數據導入并導出Hadoop?Hadoop中的數據質量如何?大數據的元數據是怎樣的?如何將大數據整合到未來12個月將要部署的主數據管理數據庫中?大數據已經成為主流媒體的熱門詞匯,高管層至少很有可能同意支持一個大數據試點項目。因此,數據治理團隊需要及時更新路線圖,將與大數據有關的人員、流程和技術計劃納入其中。第6-12個月引入詳細的交易記錄,以分析每日頭寸快照。受傳統(tǒng)基礎設施成本高昂的影響,以往的金融機構從未進行這樣細致入微的分析。第12-24個月將社交媒體數據和其他非結構化內容引入Hadoop環(huán)境。由于金融機構的大多數客戶是大企業(yè),對交易對手的10-K和10-Q歸檔等非結構化內容,進行探索性分析。第24-36個月資金管理部已經有了現成的聚焦于大企業(yè)客戶的主數據的信息治理計劃。案例某大型金融機構資金管理部的大數據治理路線圖31創(chuàng)建Had大數據處理框架的組成97大數據治理需要高度聚焦于數據本身。我們將大數據分為五種:web和社交媒體數據、機器對機器的數據、大體量交易數據、生物計量學數據和人工生成的數據。大數據類型信息治理準則產業(yè)與功能傳統(tǒng)的信息治理準則,同樣適用于大數據,相關準則包括組織、元數據、隱私、數據質量、業(yè)務流程整合、主數據整合和信息生命周期管理。大數據分析是受例驅動的,用例的具體情況因產能和功能而異。限于篇幅,我們只列出了部分的產業(yè)和功能。大數據處理框架的組成32大數據治理需要高度聚焦于數據本身。我大數據的類型大數據大體可分為五種類型98Web和社交媒體數據二的點擊流數據TwitterFeedsFacebook帖子網絡內容Web和社交媒體數據二的點擊流數據TwitterFeedsFacebook帖子網絡內容機器對機器的數據二的公用事業(yè)智能儀表讀數RFID讀數石油鉆探設備傳感器讀數網絡內容Web和社交媒體數據二的點擊流數據TwitterFeedsFacebook帖子網絡內容Web和社交媒體數據二的點擊流數據TwitterFeedsFacebook帖子網絡內容類型大數據的類型大數據大體可分為五種類型33Web和社交媒體數據職責分配(RACI)所代表的內涵99應負責方(Responsible)指授權管理某屬性的人。(一種屬性可有多個負責人)最終負責方(Accountable)指數據屬性承擔最終責任的人。咨詢方(Consulted)指通過雙向溝通接受咨詢的某人或某些人。被告知方(Informed)指通過單向溝通被告知的某人或某些人。職責分配(RACI)所代表的內涵34應負責方(Respons大數據治理計劃需要實施的最佳實踐1001324創(chuàng)建一個體現關鍵大數據術語的業(yè)務定義的詞庫。理解對ApacheHadoop中元數據的持續(xù)支持。對業(yè)務詞庫中的敏感大數據進行標記。從相關的大數據存儲中輸入技術元數據。將相關的數據元與業(yè)務詞庫中的術語進行鏈接。5768使用運營元數據監(jiān)測大數據的流動。保留技術元數據,以支持數據血統(tǒng)和影響分析。從非結構化文件中采集元數據,支持企業(yè)搜索。擴展既有的元數據角色,將大數據納入其中。9元數據是描述數據產品特征的任何信息,如名字、位置、可感知的、重要性、質量、對企業(yè)的價值,以及與企業(yè)認為值得管理的其他數據產品的關系等。元數據決定信息架構的如何滿足業(yè)務需求,因此元數據是信息治理計劃的關鍵。大數據治理計劃需要實施的最佳實踐351324創(chuàng)建一個體現關鍵業(yè)務詞庫101業(yè)務詞庫業(yè)務詞庫是企業(yè)用于傳達其對信息的認識的語言。創(chuàng)建并維護該層業(yè)務元數據,對表達要求的含義和描述IT系統(tǒng)可用的信息至關重要。業(yè)務詞庫保證了信息開發(fā)的準確性和速度。術語代表著企業(yè)和業(yè)務層面對信息的理解,所以許多組織傾向于自下而上創(chuàng)建數據詞典,對已有的信息進行歸類。在處理大數據時,業(yè)務驅動的數據定義和數據目錄之間的區(qū)別尤為重要業(yè)務詞庫保證了信息開發(fā)的準確性和速度。在處理大數據時,業(yè)務驅動的數據定義和數據目錄之間的區(qū)別尤為重要。業(yè)務詞庫36業(yè)務詞庫業(yè)務詞庫是企業(yè)用于傳達其對信息的認識的語對業(yè)務詞庫中的敏感數據102對敏感的大數據進行分類發(fā)現敏感數據對業(yè)務詞庫中的敏感數據進行標記執(zhí)行大數據隱私政策進行分類大數據治理計劃需要對社會保險號碼等敏感數據進行分類。分類應來自業(yè)務詞庫模型并被傳承到不同數據庫中數據的所有物理實例中。敏感的大數據可能隱藏在非結構化文本中。大數據治理計劃應考慮數據分析工具的利用,以便自動發(fā)現非結構化字段的敏感數據。首席信息安全官制定有關敏感數據的政策。只有在識別到敏感數據的位置時,組織才能執(zhí)行政策,因此,在業(yè)務詞庫中標記敏感數據就非常關鍵。大數據治理團隊可以通過使用數據分析工具發(fā)現敏感的大數據,以監(jiān)督對政策的遵從度。對業(yè)務詞庫中的敏感數據37對敏感的大數據進行分類發(fā)現敏感數據從相關的大數據存儲中輸入技術元數據103在創(chuàng)建業(yè)務詞庫后大數據治理團隊需要從大數據源中采集合用的、相關的元數據。大數據源Hadoop文件商業(yè)智能報告應用數據庫數據模型準結構化非結構化數據結構化信息管理經銷商元數據中央存儲庫橋接器連接器從相關的大數據存儲中輸入技術元數據38在創(chuàng)建業(yè)務詞庫后大數據元數據104元數據創(chuàng)建一個體現關鍵大數據術語的業(yè)務定義的詞庫理解對ApacheHadoop中元數據的持續(xù)支持對業(yè)務詞庫中的敏感大數據進行標記從相關的大數據存儲中輸入技術元數據將相關的數據元與業(yè)務詞庫的術語進行鏈接使用運營元數據監(jiān)測大數據的流動保留技術元數據,以支持數據血統(tǒng)和影響分析元數據39元數據創(chuàng)建一個體現關鍵大數據術語的業(yè)務定義的詞庫理從非結構化文件中采集元數據,支持企業(yè)搜索創(chuàng)建非結構化數據的索引,也是元數據的一種形式,許多企業(yè)的搜索供應商已開發(fā)相應工具。105保險業(yè)通過向呼叫人員提供客服關懷、告警、保單和客戶信息文件等多個文件庫的可搜索訪問,可將平均處理時間減少三秒,年節(jié)約數百萬美元。通過提供對EMCDocumentum、文件系統(tǒng)、微軟Share-Point、內網和外部數據庫中客戶、患者和研究數據的快速訪問,加快科研進程。讓臨床醫(yī)生可訪問來自醫(yī)學刊物和其他文件庫的最新研究成果。制藥業(yè)醫(yī)療保險業(yè)從非結構化文件中采集元數據,支持企業(yè)搜索創(chuàng)建非結構化數據的索拓展既有的元數據角色,將大數據納入其中信息治理團隊可能安排許多與原數據相關的角色。組織需考慮這些角色進行拓展,以將大數據治理納入進來。106業(yè)務詞庫管理者數據科學家元數據管理者數據血統(tǒng)管理者數據主管數據架構師本角色負責保管應將大數據術語包含在內的業(yè)務詞庫。本角色負責在相關數據源識別和輸入技術元數據。數據血統(tǒng)管理者與數據管理者配合,確保數據血統(tǒng)分析中數據源之間的數據流可得到準確地反映。本角色參與大數據特別是關鍵業(yè)務術語定義的管理。本角色監(jiān)督元數據模型的創(chuàng)建及其與企業(yè)數據模型的連接。本角色縮短了大數據原始卷和使其有用的業(yè)務洞察間的距離,其通過創(chuàng)造力和想象力創(chuàng)建原型,以揭開大數據中的秘密。拓展既有的元數據角色,將大數據納入其中信息治理團隊可能安排許大數據質量107維度傳統(tǒng)數據的質量大數據的質量處理頻率處理是面向批量的處理是實時的或面向批量的數據多樣性數據格式大部分是結構化的數據格式可能是結構化的、準結構化的或非結構化的置信度數據需處于原始階段,以方便數據倉庫的分析糟糕的數據質量可能會阻礙分析工具獲得業(yè)務洞察數據進化的時間選擇在下載到數據倉庫前數據需要進化數據的體量和速度可能要求采取流式的、內存中的分析來進化數據、從而降低存儲要求關鍵數據元素評估客戶地址等關鍵數據元素的數據質量數據可能被模糊定義或錯誤定義,關鍵數據元素可能會反復變化分析位置數據遷移到數據質量和分析引擎數據質量和分析引擎可進入數據中,以保證可接受的處理速度管理工作數據主管可管理大部分數據由于體量大和速度快,數據主管只能管理相對更小的數據數據質量管理是測度、提高、驗證質量以及整合組織數據的方法等一套行為準則。體量極大、速度極快和多樣的特點,決定了大數據質量所需的處理有別于傳統(tǒng)信息治理計劃的質量管理。大數據質量42維度傳統(tǒng)數據的質量大數據的質量處理頻率處理是面大數據治理計劃必須采取的實踐1089.1與商業(yè)上的利益攸關者協(xié)作,建立并測度大數據質量的置信區(qū)間9.2利用準結構化和非結構化數據,提高人口稀疏的結構化數據的質量9.3使用流數據分析技術解決內存中的數據質量問題,無需將中間結果輸入硬盤9.4任命對信息治理委員會負責的主管,由其負責提高大數據治理計劃必須采取的實踐439.1與商業(yè)上的利益攸關者業(yè)務流程整合

10910.1識別將會受到大數據治理影響的關鍵流程10.2建立關鍵合同的流程圖10.3針對業(yè)務流程中的關鍵步驟,制定大數據治理政策業(yè)務流程整合4410.1識別將會受到大數據治理影響的關鍵流1.大數據源圖21.1大數據技術參考架構110Web和社交媒體數據機器對機器的數據大體量交易數據生物計量學數據人工生成的數據15.大數據安全和隱私16.大數據生命周期管理17.云2.開源的基礎組件HDFSMapReduceHadoopCommonHBaseOthers5.數據庫NoSQLIn-MemoryRelationalLegacy6.大數據整合批量遷移復制虛擬化7.文本分析8.大數據發(fā)現9.大數據質量10.元數據11.信息政策管理12.主數據管理13.數據倉庫和數據集市14.大數據分析和報告3.Hadoop發(fā)行版4.流媒體分析18.大數據標準8.大數據發(fā)現9.大數據質量1.大數據源圖21.1大數據技術參考架構45Web和社交媒微軟的大數據平臺1111.微軟Hadoop發(fā)行版6.WindowsAzureExcel5.大數據分析與報告SQLServerAnalysisServicesSQLServerParallelEditionSQLServerReportingServices4.數據倉庫與數據集市3.大數據整合2.數據庫開源基礎組件大數據源SQLServerIntegrationServicesSQLServer微軟的大數據平臺461.微軟Hadoop發(fā)行版6.Windo理解對ApacheHadoop中元數據的持續(xù)支持112名稱節(jié)點數據塊A數據節(jié)點機架1數據塊B數據塊C數據塊A數據節(jié)點機架2數據塊B數據塊C數據塊A數據節(jié)點機架3數據塊B數據塊C圖:Hadoop分布式文件系統(tǒng)(HDFS)的技術構架作為Hadoop關鍵支持要素的元數據如圖Hadoop分布式文件系統(tǒng)(HDFS)是一個帶單個名稱節(jié)點和多個數

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論