版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
卓越夢想大數(shù)據(jù)平臺數(shù)據(jù)治理和挖掘解決方案卓越夢想大數(shù)據(jù)平臺數(shù)據(jù)治理和挖掘解決方案大數(shù)據(jù)治理框架大數(shù)據(jù)治理框架由三大部分組成:大數(shù)據(jù)類型、大數(shù)據(jù)治理領(lǐng)域、行業(yè)與功能2產(chǎn)業(yè)和功能場景保險業(yè)電信業(yè)零售業(yè)公共事業(yè)醫(yī)療保健業(yè)組織元數(shù)據(jù)隱私數(shù)據(jù)質(zhì)量大數(shù)據(jù)類型web和社交媒體數(shù)據(jù)機器對機器的數(shù)據(jù)生物計量學(xué)數(shù)據(jù)大體量交易數(shù)據(jù)人工生成的數(shù)據(jù)信息治理大數(shù)據(jù)治理需要高度聚焦于數(shù)據(jù)本身。傳統(tǒng)的數(shù)據(jù)治理領(lǐng)域同樣適用于大數(shù)據(jù)大數(shù)據(jù)分析受用例驅(qū)動,用例的具體情況因產(chǎn)業(yè)和功能而異。客戶服務(wù)IT業(yè)務(wù)流程整合情緒分析Facebook忠誠度計劃客戶流失分析索賠調(diào)查IT日志分析車載通信技術(shù)位置服務(wù)索賠欺詐分析智能儀表患者監(jiān)測索賠分析客戶流失分析通話質(zhì)量保證基因測試人臉識別承保電子病歷RFI日志大數(shù)據(jù)治理框架大數(shù)據(jù)治理框架由三大部分組成:大數(shù)據(jù)類型、大數(shù)Contents目錄大數(shù)據(jù)綜述2341大數(shù)據(jù)平臺解決方案大數(shù)據(jù)平臺數(shù)據(jù)治理方法請輸入第四部分標(biāo)題Contents目錄大數(shù)據(jù)綜述2341大數(shù)據(jù)平臺解決方01大數(shù)據(jù)綜述01大數(shù)據(jù)綜述數(shù)據(jù)處理思維轉(zhuǎn)變少量的樣本數(shù)據(jù)數(shù)據(jù)關(guān)系力求明確清晰探求難以捉摸的因果關(guān)系要求數(shù)據(jù)精確無誤全量數(shù)據(jù)
樂于接受數(shù)據(jù)的紛繁復(fù)雜轉(zhuǎn)而關(guān)注事物的關(guān)聯(lián)關(guān)系
數(shù)據(jù)的精確不是那么重要了?
谷歌翻譯系統(tǒng)為了訓(xùn)練其系統(tǒng),收集其能找到的所有翻譯;?
谷歌收集了上萬億頁的語料庫,包括質(zhì)量參差不齊的文檔;?
上萬億的語料庫,相當(dāng)于950億句英語;?
相對而言,谷歌的翻譯質(zhì)量還是最好的;?
谷歌翻譯之所以更好,不是因為它擁有一個更好的算法機制,而是增加了各種各樣的數(shù)據(jù),包括有錯誤的數(shù)據(jù);?
在谷歌的翻譯團隊中,大多數(shù)工程師并不懂其翻譯出來的語言;數(shù)據(jù)處理思維轉(zhuǎn)變傳統(tǒng)數(shù)據(jù)分析思維大數(shù)據(jù)分析思維案例一?
聘請了20多名書評家和編輯組成的團隊,在網(wǎng)頁上創(chuàng)立“亞馬遜的聲音”向客戶推薦新書,寫書評;?
通過客戶的購買歷史,尋找客戶的相似性,對客戶分群進行產(chǎn)品推薦,推薦的總是與以往購買的相似或略有區(qū)別;?
通過大量的數(shù)據(jù)分析,找出書籍之間的關(guān)聯(lián)關(guān)系,即“item-to-item”,時亞馬遜發(fā)生了天翻地覆的變化。?
AMAZON銷售額的三分之一來自于“item-to-item”的推薦系統(tǒng)。?
AMAZON最終放棄了在線書評,書評團隊被解散。案例二數(shù)據(jù)處理思維轉(zhuǎn)變少量的樣本數(shù)據(jù)數(shù)據(jù)關(guān)系力求明確清晰探求難以捉數(shù)據(jù)處理思維轉(zhuǎn)變數(shù)據(jù)處理思維轉(zhuǎn)變關(guān)聯(lián)關(guān)系,預(yù)測的關(guān)鍵。很多時候,知道“是什么”就夠了,沒必要知道“為什么”。一旦我們完成了“關(guān)聯(lián)關(guān)系”分析,我們就可以繼續(xù)向更深層次研究因果關(guān)系,找出背后的“為什么”?
沃爾瑪:請把蛋撻和颶風(fēng)用品擺在一起,請把啤酒和尿片擺在一起;?
某信用評分公司,利用Facebook的社交圈來預(yù)測個人償還債務(wù)的可能性;?
對沖基金通過分析Twitter微博的數(shù)據(jù)文本,作為股市投資的信號;?
某信用評分公司,利用Facebook的社交圈來預(yù)測個人償還債務(wù)的可能性;?
對沖基金通過分析Twitter微博的數(shù)據(jù)文本,作為股市投資的信號;其它案例數(shù)據(jù)處理思維轉(zhuǎn)變?沃爾瑪:請把蛋撻和颶風(fēng)用品擺在一起,請把大數(shù)據(jù)與BI融合*大數(shù)據(jù)與BI融合*大數(shù)據(jù)的商業(yè)價值大數(shù)據(jù)的商業(yè)價值大數(shù)據(jù)主要廠商
大型企業(yè)和機構(gòu)在尋求解決棘手的大數(shù)據(jù)問題時,往往會使用開源軟件基礎(chǔ)架構(gòu)Hadoop的服務(wù)。由于Hadoop深受歡迎,許多公司都推出了各自版本的Hadoop,也有一些公司則圍繞Hadoop提供解決方案。Hadoop的發(fā)行版除了社區(qū)的Apachehadoop外,cloudera,IBM,ORACLE等都提供了自己的商業(yè)版本。商業(yè)版主要是提供Hadoop專業(yè)的技術(shù)支持,這對一些大型企業(yè)尤其重要。ClouderaEMC。。。IBMOracle大數(shù)據(jù)主要廠商大型企業(yè)和機構(gòu)在尋求解決棘手的大數(shù)據(jù)問題時,大數(shù)據(jù)生態(tài)HIVEBigDataApplicationsPig!ZooKeeperSQLRAW非結(jié)構(gòu)化資料匯入SQL資料匯入分散式檔案系統(tǒng)類SQL資料庫系統(tǒng)(非即時性)分散式資料庫(即時性)并行計算框架資料處理語言數(shù)據(jù)挖掘程序庫大數(shù)據(jù)生態(tài)HIVEBigDataApplications大數(shù)據(jù)治理體系與數(shù)據(jù)治理體系的聯(lián)系與區(qū)別大數(shù)據(jù)治理是一項系統(tǒng)工程,大到大數(shù)據(jù)技術(shù)平臺的搭建、組織的變革、政策的制定、流程的重組,小到元數(shù)據(jù)的管理、主數(shù)據(jù)的整合、各種類型大數(shù)據(jù)的個性化治理和大數(shù)據(jù)的行業(yè)應(yīng)用。組織必須治理全部大數(shù)據(jù),將大數(shù)據(jù)治理定義如下:
大數(shù)據(jù)治理是廣義數(shù)據(jù)治理計劃的一部分,即制定與大數(shù)據(jù)有關(guān)的數(shù)據(jù)優(yōu)化、隱私保護與數(shù)據(jù)變現(xiàn)的政策。將上述大數(shù)據(jù)治理的定義分解為以下部分:
大數(shù)據(jù)是廣義數(shù)據(jù)治理計劃的一部分?jǐn)?shù)據(jù)治理機構(gòu)必須采取以下措施,以將大數(shù)據(jù)整合到既有的數(shù)據(jù)治理框架中:
擴展數(shù)據(jù)治理憲章的外延,將大數(shù)據(jù)治理納入其中;
拓寬數(shù)據(jù)治理委員會成員的范圍,將數(shù)據(jù)科學(xué)家等大數(shù)據(jù)的超級用戶吸納進來;
任命處理社交媒體等特定大數(shù)據(jù)的主管;
將大數(shù)據(jù)與元數(shù)據(jù)、隱私、數(shù)據(jù)質(zhì)量和主數(shù)據(jù)等數(shù)據(jù)治理準(zhǔn)則結(jié)合。大數(shù)據(jù)治理關(guān)乎政策制定政策包括人們在特定情形下如何作為的成文和非成文的宣告。譬如,大數(shù)據(jù)治理政策可能申明,未經(jīng)顧客知情并同意,組織不得將顧客的Facebook資料整合到其主數(shù)據(jù)記錄中。大數(shù)據(jù)必須優(yōu)化考慮一下組織是如何將現(xiàn)實世界的準(zhǔn)則應(yīng)用到大數(shù)據(jù)治理中的。公司設(shè)計了精致的企業(yè)資產(chǎn)管理計劃,對機器、飛機、交通工具和其他資產(chǎn)進行妥善管理。與對實物資產(chǎn)進行登記類似,組織必須對大數(shù)據(jù)進行如下優(yōu)化:
元數(shù)據(jù)——建立大數(shù)據(jù)類別信息;
數(shù)據(jù)質(zhì)量管理——像公司對實物資產(chǎn)進行定期檢修一樣,定期凈化大數(shù)據(jù);
信息生命周期管理——對大數(shù)據(jù)進行存檔,并在沒必要繼續(xù)保存某些數(shù)據(jù)時,將其刪除。大數(shù)據(jù)隱私至關(guān)重要組織同樣必須建立旨在防止大數(shù)據(jù)誤用的適當(dāng)政策。組織在處理社交媒體、地理定位、生物計量學(xué)和其他形式的個人可識別信息(PII)時,必須考慮涉及的聲譽、規(guī)制和法律風(fēng)險。大數(shù)據(jù)必須變現(xiàn)所謂變現(xiàn),就是將數(shù)據(jù)等資產(chǎn)轉(zhuǎn)化為現(xiàn)金的過程,變現(xiàn)的方式可以是將數(shù)據(jù)賣給第三方,也可以是利用數(shù)據(jù)開發(fā)新的服務(wù)。在當(dāng)下,公司意識到,必須將大數(shù)據(jù)視為具有財務(wù)價值的企業(yè)資產(chǎn)。例如,運營部門可以通過傳感器數(shù)據(jù),根據(jù)定期檢修計劃,提高設(shè)備正常運行時間。呼叫中心可以分析客戶代表的記錄,通過了解顧客呼叫的原因,降低呼叫量。此外,零售商可以使用主數(shù)據(jù)激活Facebook的應(yīng)用程序,提升顧客忠誠度。大數(shù)據(jù)治理體系與數(shù)據(jù)治理體系的聯(lián)系與區(qū)別大數(shù)據(jù)治理是一項系統(tǒng)02大數(shù)據(jù)平臺解決方案02大數(shù)據(jù)平臺解決方案大數(shù)據(jù)平臺整體架構(gòu)大數(shù)據(jù)平臺整體架構(gòu)大數(shù)據(jù)處理流程建立對非結(jié)構(gòu)化數(shù)據(jù)進行SQL語法查詢的支持,實現(xiàn)與結(jié)構(gòu)化數(shù)據(jù)的集成關(guān)聯(lián)(key)主分類關(guān)鍵詞標(biāo)簽地名人名全國統(tǒng)一分類分詞,倒排搜索共性、個性文本識別處理功能模塊網(wǎng)頁分類反向搜索關(guān)鍵詞分析日志關(guān)聯(lián)內(nèi)容分詞索引建立索引分析日志合并用戶類別標(biāo)簽摘要結(jié)構(gòu)化元信息網(wǎng)頁信息分類數(shù)據(jù)獲取語義分析數(shù)據(jù)解析
非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)獲取結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)集市數(shù)據(jù)集市EDW結(jié)構(gòu)化元數(shù)據(jù)Hadoop建立非結(jié)構(gòu)化信息的標(biāo)簽、摘要、索引、日志、內(nèi)容等提取結(jié)構(gòu)化的元數(shù)據(jù)信息,如類別、標(biāo)引、摘要等;實現(xiàn)與結(jié)構(gòu)化數(shù)據(jù)的整合ODSSQL聲譽度分析品牌分析服務(wù)質(zhì)量分析競爭產(chǎn)品分析產(chǎn)品評價市場動態(tài)跟蹤ETL網(wǎng)絡(luò)爬蟲大數(shù)據(jù)處理流程主分類關(guān)鍵詞標(biāo)簽地名人名全國統(tǒng)一分類分詞,倒排大數(shù)據(jù)關(guān)鍵技術(shù)大數(shù)據(jù)關(guān)鍵技術(shù)大數(shù)據(jù)關(guān)鍵技術(shù)-Hadoop大數(shù)據(jù)關(guān)鍵技術(shù)-HadoopHadoop系統(tǒng)工作原理Hadoop系統(tǒng)工作原理大數(shù)據(jù)關(guān)鍵技術(shù)-網(wǎng)絡(luò)數(shù)據(jù)獲取分布式網(wǎng)絡(luò)爬蟲分布式文件系統(tǒng)分布式存儲橫向擴容(Scale-out)架構(gòu)分布式軟件架構(gòu)并行計算框架大數(shù)據(jù)關(guān)鍵技術(shù)-網(wǎng)絡(luò)數(shù)據(jù)獲取分布式網(wǎng)絡(luò)爬蟲分布式文件系統(tǒng)分布大數(shù)據(jù)關(guān)鍵技術(shù)-兩種平臺相互集成大數(shù)據(jù)關(guān)鍵技術(shù)-兩種平臺相互集成大數(shù)據(jù)關(guān)鍵技術(shù)-數(shù)據(jù)應(yīng)用功能數(shù)據(jù)查詢數(shù)據(jù)統(tǒng)計信息檢索數(shù)據(jù)分析語義分析數(shù)據(jù)挖掘經(jīng)營管理市場活動市場口碑分銷管理決策支持用戶服務(wù)大數(shù)據(jù)關(guān)鍵技術(shù)-數(shù)據(jù)應(yīng)用功能數(shù)據(jù)查詢數(shù)據(jù)統(tǒng)計信息檢索數(shù)據(jù)分析大數(shù)據(jù)關(guān)鍵技術(shù)-數(shù)據(jù)管控大數(shù)據(jù)關(guān)鍵技術(shù)-數(shù)據(jù)管控03大數(shù)據(jù)平臺數(shù)據(jù)治理方法03大數(shù)據(jù)平臺數(shù)據(jù)治理方法傳統(tǒng)數(shù)據(jù)平臺與大數(shù)據(jù)分布式平臺特性差異傳統(tǒng)數(shù)據(jù)平臺與大數(shù)據(jù)分布式平臺特性差異大數(shù)據(jù)分析與傳統(tǒng)BI分析差異結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)規(guī)模一般為TB規(guī)模集中式,為了分析進行大量數(shù)據(jù)移動,數(shù)據(jù)向計算靠近批處理為主結(jié)構(gòu)化/非結(jié)構(gòu)化混合分析的能力數(shù)據(jù)規(guī)模從數(shù)十TB到PB級別分布式,計算向數(shù)據(jù)靠近支持流式分析事務(wù)關(guān)系型數(shù)據(jù)庫批處理數(shù)據(jù)倉庫分析集群化非結(jié)構(gòu)化流式多種數(shù)據(jù)源分析(MapReduce)組織傳統(tǒng)BI分析大數(shù)據(jù)分析大數(shù)據(jù)分析與傳統(tǒng)BI分析差異結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化/非結(jié)構(gòu)化混合分大數(shù)據(jù)處理和管理體系-多結(jié)構(gòu)化大數(shù)據(jù)處理和管理體系-多結(jié)構(gòu)化大數(shù)據(jù)實施建議第一階段:應(yīng)用場景驅(qū)動的大數(shù)據(jù)開發(fā)第二階段:各業(yè)務(wù)系統(tǒng)、各渠道系統(tǒng)等配合大數(shù)據(jù)改造優(yōu)化第三階段:管理信息體系下的大數(shù)據(jù)平臺建設(shè)第四階段(目標(biāo)):以大數(shù)據(jù)驅(qū)動的,實時的、整體聯(lián)動的IT解決方案Think
big,
start
small.大處著眼,小處著手。大數(shù)據(jù)實施建議第一階段:應(yīng)用場景驅(qū)動第二階段:各渠道系統(tǒng)等第大數(shù)據(jù)實施方法論大數(shù)據(jù)業(yè)務(wù)戰(zhàn)略大數(shù)據(jù)建設(shè)目標(biāo)大數(shù)據(jù)架構(gòu)設(shè)計大數(shù)據(jù)實施大數(shù)據(jù)運維企業(yè)戰(zhàn)略目標(biāo)業(yè)務(wù)目標(biāo)業(yè)務(wù)模式大數(shù)據(jù)治理目標(biāo)應(yīng)用場景服務(wù)模式服務(wù)對象大數(shù)據(jù)服務(wù)定義大數(shù)據(jù)信息模型大數(shù)據(jù)管理定義技術(shù)選擇驗證測試容量規(guī)劃安裝,配置驗收測試系統(tǒng)上線大數(shù)據(jù)服務(wù)管理服務(wù)性能管理生命周期管理資源調(diào)度系統(tǒng)監(jiān)控大數(shù)據(jù)持續(xù)改進業(yè)務(wù)調(diào)整服務(wù)改進技術(shù)升級架構(gòu)優(yōu)化大數(shù)據(jù)實施方法論大數(shù)據(jù)業(yè)務(wù)戰(zhàn)略大數(shù)據(jù)建設(shè)目標(biāo)大數(shù)據(jù)架構(gòu)設(shè)計大大數(shù)據(jù)的角色和技能大數(shù)據(jù)的角色和技能大數(shù)據(jù)治理成熟度模型實施大數(shù)據(jù)治理的第一步,是評估大數(shù)據(jù)治理成熟度的當(dāng)前狀態(tài)和期望的未來狀態(tài)?,F(xiàn)將某信息治理委員會的成熟度模型用于成熟度評估。該模型設(shè)立了4個領(lǐng)域的11個大數(shù)據(jù)治理成熟度指標(biāo)。29支持準(zhǔn)則數(shù)據(jù)架構(gòu)數(shù)據(jù)標(biāo)準(zhǔn)審計信息日志和報告核心準(zhǔn)則數(shù)據(jù)質(zhì)量管理信息生命周期管理信息安全與隱私支持要素管理人員數(shù)據(jù)風(fēng)險管理政策目標(biāo)業(yè)務(wù)成果要求支持增強組織機構(gòu)和認(rèn)識元數(shù)據(jù)大數(shù)據(jù)治理成熟度模型實施大數(shù)據(jù)治理的第一步,是評估大數(shù)據(jù)治理大數(shù)據(jù)治理成熟度模型介紹及問題示例30目標(biāo)目標(biāo)指信息治理計劃的預(yù)期結(jié)果。目標(biāo)傾向于關(guān)注降低風(fēng)險與提升價值,這反過來又受降低成本和提高收入的驅(qū)動。業(yè)務(wù)成果:代表信息治理計劃的目標(biāo)和目的。業(yè)務(wù)成果:A是否已經(jīng)確定了大數(shù)據(jù)治理計劃的關(guān)鍵業(yè)務(wù)關(guān)聯(lián)方?B是否對大數(shù)據(jù)治理可帶來的財務(wù)收益進行了量化?支持要素核心準(zhǔn)則支持準(zhǔn)則組織結(jié)構(gòu)和認(rèn)識:指業(yè)務(wù)部門和IT部門間的相互責(zé)任,以及對治理不同管理層次中數(shù)據(jù)的信托責(zé)任的認(rèn)識。管理人員:旨在保證數(shù)據(jù)監(jiān)護,實現(xiàn)資產(chǎn)增值、風(fēng)險消解和組織控制的質(zhì)量控制準(zhǔn)則。數(shù)據(jù)風(fēng)險管理:據(jù)以識別、保留、量化、規(guī)避、接受、消解和轉(zhuǎn)嫁風(fēng)險的方法論。政策:期望得到落實的組織行為的書面表達。數(shù)據(jù)結(jié)構(gòu)和認(rèn)識:如關(guān)鍵角色的職位說明中,是否包含大數(shù)據(jù)治理,如配備首席數(shù)據(jù)官和信息治理官?管理人員:是否已經(jīng)建立了責(zé)任分配(RACI)矩陣,以定義針對大數(shù)據(jù)關(guān)鍵屬性的角色和責(zé)任?數(shù)據(jù)風(fēng)險管理:是否在大數(shù)據(jù)治理與風(fēng)險治理之間建立了聯(lián)系?政策:是否已經(jīng)歸檔了一組大數(shù)據(jù)治理政策?數(shù)據(jù)質(zhì)量管理:指測量、提高和保證產(chǎn)品數(shù)據(jù)、測試數(shù)據(jù)和歸檔數(shù)據(jù)的質(zhì)量和集成性的方法。信息生命周期管理:有關(guān)信息采集、使用、保留和刪除的系統(tǒng)化的、基于策略的方法。信息安全與隱私:組織用于消解風(fēng)險和保護數(shù)據(jù)資產(chǎn)的策略、實踐和控制手段。數(shù)據(jù)質(zhì)量管理:對于與大數(shù)據(jù)相關(guān)的質(zhì)量問題(數(shù)據(jù)價值不高或不顯著),是否達成了一致意見?信息生命周期管理:是否制定了流程,根據(jù)法律和業(yè)務(wù)要求合法處理不再需要的大數(shù)據(jù)?信息安全和隱私:首席信息安全官是否是大數(shù)據(jù)治理計劃的關(guān)鍵支持者?數(shù)據(jù)架構(gòu):結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)系統(tǒng)及應(yīng)用的架構(gòu)式設(shè)計,用于實現(xiàn)數(shù)據(jù)的可用性,并將數(shù)據(jù)分配給合適的用戶。元數(shù)據(jù):指用于創(chuàng)建常見的語義定義、IT術(shù)語、數(shù)據(jù)模型和數(shù)據(jù)庫的方法和工具。審計信息日志和報告:指監(jiān)測和測量數(shù)據(jù)價值、風(fēng)險和信息治理有效性的組織流程。數(shù)據(jù)架構(gòu):Hadoop、NoSQL以及與當(dāng)前架構(gòu)相關(guān)的其他新興大數(shù)據(jù)技術(shù)的共存戰(zhàn)略是怎樣的?分類和元數(shù)據(jù):業(yè)務(wù)詞庫是否包含與大數(shù)據(jù)相關(guān)的關(guān)鍵業(yè)務(wù)術(shù)語(如針對點擊流數(shù)據(jù)的“獨立訪客”)?審計信息日志和報告:企業(yè)如何檢測特權(quán)用戶對醫(yī)保索賠和通話詳單等敏感大數(shù)據(jù)的訪問?問題示例模型介紹大數(shù)據(jù)治理成熟度模型介紹及問題示例30目標(biāo)目標(biāo)指信息治理計劃案例某大型金融機構(gòu)資金管理部的大數(shù)據(jù)治理路線圖31創(chuàng)建Hadoop基礎(chǔ)設(shè)施大數(shù)據(jù)治理的演進關(guān)鍵活動每日頭寸快照社交媒體和非結(jié)構(gòu)化內(nèi)容治理大數(shù)據(jù)某大型金融機構(gòu)的資金管理部,為大中型企業(yè)提供現(xiàn)金管理和流動性管理的綜合服務(wù)。該部門處于部署大數(shù)據(jù)計劃的早期階段,其最初的大數(shù)據(jù)治理路線圖如右圖所示:第1-6個月構(gòu)建技術(shù)基礎(chǔ)設(shè)施,獲得Linux服務(wù)器和ApacheHadoop發(fā)行版。由于大數(shù)據(jù)是一個新事物,在切入業(yè)務(wù)前,必須設(shè)計一個可行的用例,并進行財務(wù)可行性論證。此外,組織要認(rèn)真審視數(shù)據(jù)管理的傳統(tǒng)方面:怎樣將數(shù)據(jù)導(dǎo)入并導(dǎo)出Hadoop?Hadoop中的數(shù)據(jù)質(zhì)量如何?大數(shù)據(jù)的元數(shù)據(jù)是怎樣的?如何將大數(shù)據(jù)整合到未來12個月將要部署的主數(shù)據(jù)管理數(shù)據(jù)庫中?大數(shù)據(jù)已經(jīng)成為主流媒體的熱門詞匯,高管層至少很有可能同意支持一個大數(shù)據(jù)試點項目。因此,數(shù)據(jù)治理團隊需要及時更新路線圖,將與大數(shù)據(jù)有關(guān)的人員、流程和技術(shù)計劃納入其中。第6-12個月引入詳細(xì)的交易記錄,以分析每日頭寸快照。受傳統(tǒng)基礎(chǔ)設(shè)施成本高昂的影響,以往的金融機構(gòu)從未進行這樣細(xì)致入微的分析。第12-24個月將社交媒體數(shù)據(jù)和其他非結(jié)構(gòu)化內(nèi)容引入Hadoop環(huán)境。由于金融機構(gòu)的大多數(shù)客戶是大企業(yè),對交易對手的10-K和10-Q歸檔等非結(jié)構(gòu)化內(nèi)容,進行探索性分析。第24-36個月資金管理部已經(jīng)有了現(xiàn)成的聚焦于大企業(yè)客戶的主數(shù)據(jù)的信息治理計劃。案例某大型金融機構(gòu)資金管理部的大數(shù)據(jù)治理路線圖31創(chuàng)建Had大數(shù)據(jù)處理框架的組成32大數(shù)據(jù)治理需要高度聚焦于數(shù)據(jù)本身。我們將大數(shù)據(jù)分為五種:web和社交媒體數(shù)據(jù)、機器對機器的數(shù)據(jù)、大體量交易數(shù)據(jù)、生物計量學(xué)數(shù)據(jù)和人工生成的數(shù)據(jù)。大數(shù)據(jù)類型信息治理準(zhǔn)則產(chǎn)業(yè)與功能傳統(tǒng)的信息治理準(zhǔn)則,同樣適用于大數(shù)據(jù),相關(guān)準(zhǔn)則包括組織、元數(shù)據(jù)、隱私、數(shù)據(jù)質(zhì)量、業(yè)務(wù)流程整合、主數(shù)據(jù)整合和信息生命周期管理。大數(shù)據(jù)分析是受例驅(qū)動的,用例的具體情況因產(chǎn)能和功能而異。限于篇幅,我們只列出了部分的產(chǎn)業(yè)和功能。大數(shù)據(jù)處理框架的組成32大數(shù)據(jù)治理需要高度聚焦于數(shù)據(jù)本身。我大數(shù)據(jù)的類型大數(shù)據(jù)大體可分為五種類型33Web和社交媒體數(shù)據(jù)二的點擊流數(shù)據(jù)TwitterFeedsFacebook帖子網(wǎng)絡(luò)內(nèi)容Web和社交媒體數(shù)據(jù)二的點擊流數(shù)據(jù)TwitterFeedsFacebook帖子網(wǎng)絡(luò)內(nèi)容機器對機器的數(shù)據(jù)二的公用事業(yè)智能儀表讀數(shù)RFID讀數(shù)石油鉆探設(shè)備傳感器讀數(shù)網(wǎng)絡(luò)內(nèi)容Web和社交媒體數(shù)據(jù)二的點擊流數(shù)據(jù)TwitterFeedsFacebook帖子網(wǎng)絡(luò)內(nèi)容Web和社交媒體數(shù)據(jù)二的點擊流數(shù)據(jù)TwitterFeedsFacebook帖子網(wǎng)絡(luò)內(nèi)容類型大數(shù)據(jù)的類型大數(shù)據(jù)大體可分為五種類型33Web和社交媒體數(shù)據(jù)職責(zé)分配(RACI)所代表的內(nèi)涵34應(yīng)負(fù)責(zé)方(Responsible)指授權(quán)管理某屬性的人。(一種屬性可有多個負(fù)責(zé)人)最終負(fù)責(zé)方(Accountable)指數(shù)據(jù)屬性承擔(dān)最終責(zé)任的人。咨詢方(Consulted)指通過雙向溝通接受咨詢的某人或某些人。被告知方(Informed)指通過單向溝通被告知的某人或某些人。職責(zé)分配(RACI)所代表的內(nèi)涵34應(yīng)負(fù)責(zé)方(Respons大數(shù)據(jù)治理計劃需要實施的最佳實踐351324創(chuàng)建一個體現(xiàn)關(guān)鍵大數(shù)據(jù)術(shù)語的業(yè)務(wù)定義的詞庫。理解對ApacheHadoop中元數(shù)據(jù)的持續(xù)支持。對業(yè)務(wù)詞庫中的敏感大數(shù)據(jù)進行標(biāo)記。從相關(guān)的大數(shù)據(jù)存儲中輸入技術(shù)元數(shù)據(jù)。將相關(guān)的數(shù)據(jù)元與業(yè)務(wù)詞庫中的術(shù)語進行鏈接。5768使用運營元數(shù)據(jù)監(jiān)測大數(shù)據(jù)的流動。保留技術(shù)元數(shù)據(jù),以支持?jǐn)?shù)據(jù)血統(tǒng)和影響分析。從非結(jié)構(gòu)化文件中采集元數(shù)據(jù),支持企業(yè)搜索。擴展既有的元數(shù)據(jù)角色,將大數(shù)據(jù)納入其中。9元數(shù)據(jù)是描述數(shù)據(jù)產(chǎn)品特征的任何信息,如名字、位置、可感知的、重要性、質(zhì)量、對企業(yè)的價值,以及與企業(yè)認(rèn)為值得管理的其他數(shù)據(jù)產(chǎn)品的關(guān)系等。元數(shù)據(jù)決定信息架構(gòu)的如何滿足業(yè)務(wù)需求,因此元數(shù)據(jù)是信息治理計劃的關(guān)鍵。大數(shù)據(jù)治理計劃需要實施的最佳實踐351324創(chuàng)建一個體現(xiàn)關(guān)鍵業(yè)務(wù)詞庫36業(yè)務(wù)詞庫業(yè)務(wù)詞庫是企業(yè)用于傳達其對信息的認(rèn)識的語言。創(chuàng)建并維護該層業(yè)務(wù)元數(shù)據(jù),對表達要求的含義和描述IT系統(tǒng)可用的信息至關(guān)重要。業(yè)務(wù)詞庫保證了信息開發(fā)的準(zhǔn)確性和速度。術(shù)語代表著企業(yè)和業(yè)務(wù)層面對信息的理解,所以許多組織傾向于自下而上創(chuàng)建數(shù)據(jù)詞典,對已有的信息進行歸類。在處理大數(shù)據(jù)時,業(yè)務(wù)驅(qū)動的數(shù)據(jù)定義和數(shù)據(jù)目錄之間的區(qū)別尤為重要業(yè)務(wù)詞庫保證了信息開發(fā)的準(zhǔn)確性和速度。在處理大數(shù)據(jù)時,業(yè)務(wù)驅(qū)動的數(shù)據(jù)定義和數(shù)據(jù)目錄之間的區(qū)別尤為重要。業(yè)務(wù)詞庫36業(yè)務(wù)詞庫業(yè)務(wù)詞庫是企業(yè)用于傳達其對信息的認(rèn)識的語對業(yè)務(wù)詞庫中的敏感數(shù)據(jù)37對敏感的大數(shù)據(jù)進行分類發(fā)現(xiàn)敏感數(shù)據(jù)對業(yè)務(wù)詞庫中的敏感數(shù)據(jù)進行標(biāo)記執(zhí)行大數(shù)據(jù)隱私政策進行分類大數(shù)據(jù)治理計劃需要對社會保險號碼等敏感數(shù)據(jù)進行分類。分類應(yīng)來自業(yè)務(wù)詞庫模型并被傳承到不同數(shù)據(jù)庫中數(shù)據(jù)的所有物理實例中。敏感的大數(shù)據(jù)可能隱藏在非結(jié)構(gòu)化文本中。大數(shù)據(jù)治理計劃應(yīng)考慮數(shù)據(jù)分析工具的利用,以便自動發(fā)現(xiàn)非結(jié)構(gòu)化字段的敏感數(shù)據(jù)。首席信息安全官制定有關(guān)敏感數(shù)據(jù)的政策。只有在識別到敏感數(shù)據(jù)的位置時,組織才能執(zhí)行政策,因此,在業(yè)務(wù)詞庫中標(biāo)記敏感數(shù)據(jù)就非常關(guān)鍵。大數(shù)據(jù)治理團隊可以通過使用數(shù)據(jù)分析工具發(fā)現(xiàn)敏感的大數(shù)據(jù),以監(jiān)督對政策的遵從度。對業(yè)務(wù)詞庫中的敏感數(shù)據(jù)37對敏感的大數(shù)據(jù)進行分類發(fā)現(xiàn)敏感數(shù)據(jù)從相關(guān)的大數(shù)據(jù)存儲中輸入技術(shù)元數(shù)據(jù)38在創(chuàng)建業(yè)務(wù)詞庫后大數(shù)據(jù)治理團隊需要從大數(shù)據(jù)源中采集合用的、相關(guān)的元數(shù)據(jù)。大數(shù)據(jù)源Hadoop文件商業(yè)智能報告應(yīng)用數(shù)據(jù)庫數(shù)據(jù)模型準(zhǔn)結(jié)構(gòu)化非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化信息管理經(jīng)銷商元數(shù)據(jù)中央存儲庫橋接器連接器從相關(guān)的大數(shù)據(jù)存儲中輸入技術(shù)元數(shù)據(jù)38在創(chuàng)建業(yè)務(wù)詞庫后大數(shù)據(jù)元數(shù)據(jù)39元數(shù)據(jù)創(chuàng)建一個體現(xiàn)關(guān)鍵大數(shù)據(jù)術(shù)語的業(yè)務(wù)定義的詞庫理解對ApacheHadoop中元數(shù)據(jù)的持續(xù)支持對業(yè)務(wù)詞庫中的敏感大數(shù)據(jù)進行標(biāo)記從相關(guān)的大數(shù)據(jù)存儲中輸入技術(shù)元數(shù)據(jù)將相關(guān)的數(shù)據(jù)元與業(yè)務(wù)詞庫的術(shù)語進行鏈接使用運營元數(shù)據(jù)監(jiān)測大數(shù)據(jù)的流動保留技術(shù)元數(shù)據(jù),以支持?jǐn)?shù)據(jù)血統(tǒng)和影響分析元數(shù)據(jù)39元數(shù)據(jù)創(chuàng)建一個體現(xiàn)關(guān)鍵大數(shù)據(jù)術(shù)語的業(yè)務(wù)定義的詞庫理從非結(jié)構(gòu)化文件中采集元數(shù)據(jù),支持企業(yè)搜索創(chuàng)建非結(jié)構(gòu)化數(shù)據(jù)的索引,也是元數(shù)據(jù)的一種形式,許多企業(yè)的搜索供應(yīng)商已開發(fā)相應(yīng)工具。40保險業(yè)通過向呼叫人員提供客服關(guān)懷、告警、保單和客戶信息文件等多個文件庫的可搜索訪問,可將平均處理時間減少三秒,年節(jié)約數(shù)百萬美元。通過提供對EMCDocumentum、文件系統(tǒng)、微軟Share-Point、內(nèi)網(wǎng)和外部數(shù)據(jù)庫中客戶、患者和研究數(shù)據(jù)的快速訪問,加快科研進程。讓臨床醫(yī)生可訪問來自醫(yī)學(xué)刊物和其他文件庫的最新研究成果。制藥業(yè)醫(yī)療保險業(yè)從非結(jié)構(gòu)化文件中采集元數(shù)據(jù),支持企業(yè)搜索創(chuàng)建非結(jié)構(gòu)化數(shù)據(jù)的索拓展既有的元數(shù)據(jù)角色,將大數(shù)據(jù)納入其中信息治理團隊可能安排許多與原數(shù)據(jù)相關(guān)的角色。組織需考慮這些角色進行拓展,以將大數(shù)據(jù)治理納入進來。41業(yè)務(wù)詞庫管理者數(shù)據(jù)科學(xué)家元數(shù)據(jù)管理者數(shù)據(jù)血統(tǒng)管理者數(shù)據(jù)主管數(shù)據(jù)架構(gòu)師本角色負(fù)責(zé)保管應(yīng)將大數(shù)據(jù)術(shù)語包含在內(nèi)的業(yè)務(wù)詞庫。本角色負(fù)責(zé)在相關(guān)數(shù)據(jù)源識別和輸入技術(shù)元數(shù)據(jù)。數(shù)據(jù)血統(tǒng)管理者與數(shù)據(jù)管理者配合,確保數(shù)據(jù)血統(tǒng)分析中數(shù)據(jù)源之間的數(shù)據(jù)流可得到準(zhǔn)確地反映。本角色參與大數(shù)據(jù)特別是關(guān)鍵業(yè)務(wù)術(shù)語定義的管理。本角色監(jiān)督元數(shù)據(jù)模型的創(chuàng)建及其與企業(yè)數(shù)據(jù)模型的連接。本角色縮短了大數(shù)據(jù)原始卷和使其有用的業(yè)務(wù)洞察間的距離,其通過創(chuàng)造力和想象力創(chuàng)建原型,以揭開大數(shù)據(jù)中的秘密。拓展既有的元數(shù)據(jù)角色,將大數(shù)據(jù)納入其中信息治理團隊可能安排許大數(shù)據(jù)質(zhì)量42維度傳統(tǒng)數(shù)據(jù)的質(zhì)量大數(shù)據(jù)的質(zhì)量處理頻率處理是面向批量的處理是實時的或面向批量的數(shù)據(jù)多樣性數(shù)據(jù)格式大部分是結(jié)構(gòu)化的數(shù)據(jù)格式可能是結(jié)構(gòu)化的、準(zhǔn)結(jié)構(gòu)化的或非結(jié)構(gòu)化的置信度數(shù)據(jù)需處于原始階段,以方便數(shù)據(jù)倉庫的分析糟糕的數(shù)據(jù)質(zhì)量可能會阻礙分析工具獲得業(yè)務(wù)洞察數(shù)據(jù)進化的時間選擇在下載到數(shù)據(jù)倉庫前數(shù)據(jù)需要進化數(shù)據(jù)的體量和速度可能要求采取流式的、內(nèi)存中的分析來進化數(shù)據(jù)、從而降低存儲要求關(guān)鍵數(shù)據(jù)元素評估客戶地址等關(guān)鍵數(shù)據(jù)元素的數(shù)據(jù)質(zhì)量數(shù)據(jù)可能被模糊定義或錯誤定義,關(guān)鍵數(shù)據(jù)元素可能會反復(fù)變化分析位置數(shù)據(jù)遷移到數(shù)據(jù)質(zhì)量和分析引擎數(shù)據(jù)質(zhì)量和分析引擎可進入數(shù)據(jù)中,以保證可接受的處理速度管理工作數(shù)據(jù)主管可管理大部分?jǐn)?shù)據(jù)由于體量大和速度快,數(shù)據(jù)主管只能管理相對更小的數(shù)據(jù)數(shù)據(jù)質(zhì)量管理是測度、提高、驗證質(zhì)量以及整合組織數(shù)據(jù)的方法等一套行為準(zhǔn)則。體量極大、速度極快和多樣的特點,決定了大數(shù)據(jù)質(zhì)量所需的處理有別于傳統(tǒng)信息治理計劃的質(zhì)量管理。大數(shù)據(jù)質(zhì)量42維度傳統(tǒng)數(shù)據(jù)的質(zhì)量大數(shù)據(jù)的質(zhì)量處理頻率處理是面大數(shù)據(jù)治理計劃必須采取的實踐439.1與商業(yè)上的利益攸關(guān)者協(xié)作,建立并測度大數(shù)據(jù)質(zhì)量的置信區(qū)間9.2利用準(zhǔn)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),提高人口稀疏的結(jié)構(gòu)化數(shù)據(jù)的質(zhì)量9.3使用流數(shù)據(jù)分析技術(shù)解決內(nèi)存中的數(shù)據(jù)質(zhì)量問題,無需將中間結(jié)果輸入硬盤9.4任命對信息治理委員會負(fù)責(zé)的主管,由其負(fù)責(zé)提高大數(shù)據(jù)治理計劃必須采取的實踐439.1與商業(yè)上的利益攸關(guān)者業(yè)務(wù)流程整合
4410.1識別將會受到大數(shù)據(jù)治理影響的關(guān)鍵流程10.2建立關(guān)鍵合同的流程圖10.3針對業(yè)務(wù)流程中的關(guān)鍵步驟,制定大數(shù)據(jù)治理政策業(yè)務(wù)流程整合4410.1識別將會受到大數(shù)據(jù)治理影響的關(guān)鍵流1.大數(shù)據(jù)源圖21.1大數(shù)據(jù)技術(shù)參考架構(gòu)45Web和社交媒體數(shù)據(jù)機器對機器的數(shù)據(jù)大體量交易數(shù)據(jù)生物計量學(xué)數(shù)據(jù)人工生成的數(shù)據(jù)15.大數(shù)據(jù)安全和隱私16.大數(shù)據(jù)生命周期管理17.云2.開源的基礎(chǔ)組件HDFSMapReduceHadoopCommonHBaseOthers5.數(shù)據(jù)庫NoSQLIn-MemoryRelationalLegacy6.大數(shù)據(jù)整合批量遷移復(fù)制虛擬化7.文本分析8.大數(shù)據(jù)發(fā)現(xiàn)9.大數(shù)據(jù)質(zhì)量10.元數(shù)據(jù)11.信息政策管理12.主數(shù)據(jù)管理13.數(shù)據(jù)倉庫和數(shù)據(jù)集市14.大數(shù)據(jù)分析和報告3.Hadoop發(fā)行版4.流媒體分析18.大數(shù)據(jù)標(biāo)準(zhǔn)8.大數(shù)據(jù)發(fā)現(xiàn)9.大數(shù)據(jù)質(zhì)量1.大數(shù)據(jù)源圖21.1大數(shù)據(jù)技術(shù)參考架構(gòu)45Web和社交媒微軟的大數(shù)據(jù)平臺461.微軟Hadoop發(fā)行版6.WindowsAzureExcel5.大數(shù)據(jù)分析與報告SQLServerAnalysisServicesSQLServerParallelEditionSQLServerReportingServices4.數(shù)據(jù)倉庫與數(shù)據(jù)集市3.大數(shù)據(jù)整合2.數(shù)據(jù)庫開源基礎(chǔ)組件大數(shù)據(jù)源SQLServerIntegrationServicesSQLServer微軟的大數(shù)據(jù)平臺461.微軟Hadoop發(fā)行版6.Windo理解對ApacheHadoop中元數(shù)據(jù)的持續(xù)支持47名稱節(jié)點數(shù)據(jù)塊A數(shù)據(jù)節(jié)點機架1數(shù)據(jù)塊B數(shù)據(jù)塊C數(shù)據(jù)塊A數(shù)據(jù)節(jié)點機架2數(shù)據(jù)塊B數(shù)據(jù)塊C數(shù)據(jù)塊A數(shù)據(jù)節(jié)點機架3數(shù)據(jù)塊B數(shù)據(jù)塊C圖:Hadoop分布式文件系統(tǒng)(HDFS)的技術(shù)構(gòu)架作為Hadoop關(guān)鍵支持要素的元數(shù)據(jù)如圖Hadoop分布式文件系統(tǒng)(HDFS)是一個帶單個名稱節(jié)點和多個數(shù)據(jù)結(jié)點的主/從架構(gòu)。單點故障因為HDFS很容易受到名稱節(jié)點故障的損害,所以Hadoop經(jīng)銷商建議管理者存儲一些不同本地硬盤的備份可拓展性隨著數(shù)據(jù)存儲動能的擴大,主服務(wù)器名稱節(jié)點可能出現(xiàn)可拓展性的問題,主服務(wù)器名稱節(jié)點必須將所有元數(shù)據(jù)保存在內(nèi)存中。HCatalogHcatalog項目是Apache孵化器的一部分,旨在解決Hadoop中缺乏元數(shù)據(jù)支持的問題。理解對ApacheHadoop中元數(shù)據(jù)的持續(xù)支持47名稱節(jié)大數(shù)據(jù)安全與隱私48部分漏洞變通方案HDFS沒有授權(quán)系統(tǒng),注冊用戶可以在群中讀寫任何數(shù)據(jù)Hadoop注冊用戶通過“whoami”命令訪問,這是不安全的Hbase沒有訪問控制,Hadoop群中任何工作運行均可以訪問群中任何數(shù)據(jù)……不要在Hadoop中存儲任何敏感數(shù)據(jù)對敏感數(shù)據(jù)進行加密,包括隱藏文本和非結(jié)構(gòu)歐化領(lǐng)域的內(nèi)容將每個數(shù)據(jù)置于自己的群中,以便用戶僅可以訪問被授權(quán)的數(shù)據(jù)……Hadoop是一項新技術(shù),我們預(yù)計隨著大公司和供應(yīng)鏈的介入,上述問題將被得到解決。大數(shù)據(jù)安全與隱私48部分漏洞變通方案HDFS沒有授權(quán)系統(tǒng),04大數(shù)據(jù)質(zhì)量管理平臺04大數(shù)據(jù)質(zhì)量管理平臺數(shù)據(jù)質(zhì)量管理平臺技術(shù)架構(gòu)數(shù)據(jù)質(zhì)量檢查規(guī)則執(zhí)行模塊作為多個ETL任務(wù)部署在工商數(shù)據(jù)平臺ETL服務(wù)器上,由Automation工作流調(diào)度服務(wù)統(tǒng)一調(diào)度運行,實現(xiàn)各個數(shù)據(jù)區(qū)技術(shù)和業(yè)務(wù)數(shù)據(jù)質(zhì)量檢查數(shù)據(jù)質(zhì)量管理系統(tǒng)元模型包含檢查規(guī)則、檢查執(zhí)行結(jié)果、分析報告,模型作為一個獨立的Schema部署在決策分析報表平臺的數(shù)據(jù)庫數(shù)據(jù)質(zhì)量檢查規(guī)則配置模塊作為JavaWeb應(yīng)用部署在工商數(shù)據(jù)平臺Tomcat集群上,數(shù)據(jù)質(zhì)量管理員通過統(tǒng)一的Web服務(wù)訪問,實現(xiàn)檢查規(guī)則的維護數(shù)據(jù)質(zhì)量分析報告展現(xiàn)模塊作為JavaWeb應(yīng)用部署在工商數(shù)據(jù)平臺Tomcat集群上,用戶通過統(tǒng)一的Web服務(wù)訪問,實現(xiàn)日報、月報的瀏覽、下載等功能數(shù)據(jù)質(zhì)量分析報告生成模塊作為一個ETL任務(wù)部署在決策分析報表平臺ETL服務(wù)器上,由Automation工作流調(diào)度服務(wù)統(tǒng)一調(diào)度運行,按照每日、每月生成各數(shù)據(jù)區(qū)數(shù)據(jù)質(zhì)量檢查報告數(shù)據(jù)質(zhì)量管理平臺以元信息模型為核心,由規(guī)則配置管理模塊、檢查執(zhí)行模塊、分析報告生成模塊和分析報告展現(xiàn)模塊四部分構(gòu)成。整個數(shù)據(jù)質(zhì)量檢查過程以ETL任務(wù)的形式統(tǒng)一調(diào)度執(zhí)行。數(shù)據(jù)質(zhì)量管理平臺技術(shù)架構(gòu)數(shù)據(jù)質(zhì)量檢查規(guī)則執(zhí)行模塊作為多個ET數(shù)據(jù)質(zhì)量檢查執(zhí)行服務(wù)數(shù)據(jù)質(zhì)量管理的規(guī)則執(zhí)行服務(wù)作為ETL任務(wù)部署在ETL服務(wù)器上在整個數(shù)據(jù)處理過程中,設(shè)置4類檢查點在不同的檢查點由TaskAutomation工作流統(tǒng)一調(diào)度執(zhí)行檢查結(jié)果統(tǒng)一存入數(shù)據(jù)質(zhì)量管理資料庫1234數(shù)據(jù)質(zhì)量檢查執(zhí)行服務(wù)數(shù)據(jù)質(zhì)量管理的規(guī)則執(zhí)行服務(wù)作為ETL任務(wù)檢查規(guī)則執(zhí)行服務(wù)檢查點1云數(shù)據(jù)推送平臺接口文件級規(guī)范性檢查任務(wù)說明任務(wù)類型ETL任務(wù)——技術(shù)型檢查ETL階段云數(shù)據(jù)推送平臺->工商數(shù)據(jù)交換平臺NAS存儲指定目錄執(zhí)行頻率每日執(zhí)行執(zhí)行方式由TaskAutomation工作流引擎根據(jù)工作流定義統(tǒng)一調(diào)度,在ETL服務(wù)器上執(zhí)行檢查對象云數(shù)據(jù)推送平臺按照接口規(guī)范導(dǎo)出的業(yè)務(wù)系統(tǒng)每日增量數(shù)據(jù)文件和控制文件檢查內(nèi)容接口文件是否存在,接口文件名稱是否正確,接口文件是否通過MD5校驗實現(xiàn)技術(shù)Linux腳本語言,Perl或Python成功閾值所有規(guī)則通過檢查依賴任務(wù)N/A觸發(fā)任務(wù)數(shù)據(jù)加載檢查規(guī)則執(zhí)行服務(wù)檢查點1云數(shù)據(jù)推送平臺接口文件級規(guī)范性檢查任檢查規(guī)則執(zhí)行服務(wù)檢查點2臨時區(qū)數(shù)據(jù)技術(shù)性檢查任務(wù)說明任務(wù)類型ETL任務(wù)——技術(shù)型檢查ETL階段臨時數(shù)據(jù)區(qū)->貼源整合數(shù)據(jù)區(qū)執(zhí)行頻率每日執(zhí)行執(zhí)行方式由TaskAutomation工作流引擎根據(jù)工作流定義統(tǒng)一調(diào)度,在Hadoop集群上執(zhí)行檢查對象云數(shù)據(jù)推送平臺按照接口規(guī)范導(dǎo)出的業(yè)務(wù)系統(tǒng)每日增量數(shù)據(jù)檢查內(nèi)容日期、時間格式檢查;主鍵唯一型檢查;外鍵參照完整型檢查;關(guān)鍵字段取值完整性檢查實現(xiàn)技術(shù)HiveSQL成功閾值90%記錄通過檢查異常處理未通過檢查的記錄存入指定錯誤明細(xì)表依賴任務(wù)接口文件級規(guī)范性檢查任務(wù)觸發(fā)任務(wù)貼源數(shù)據(jù)整合任務(wù)檢查規(guī)則執(zhí)行服務(wù)檢查點2臨時區(qū)數(shù)據(jù)技術(shù)性檢查任務(wù)說明任務(wù)類型檢查規(guī)則執(zhí)行服務(wù)檢查點3匯總區(qū)業(yè)務(wù)性檢查任務(wù)內(nèi)容說明任務(wù)類型ETL任務(wù)——業(yè)務(wù)型檢查ETL階段貼源整合數(shù)據(jù)區(qū)->匯總數(shù)據(jù)區(qū)執(zhí)行頻率每日/月/季執(zhí)行執(zhí)行方式由TaskAutomation工作流引擎根據(jù)工作流定義統(tǒng)一調(diào)度,在Hadoop集群上執(zhí)行檢查對象匯總數(shù)據(jù)區(qū)的數(shù)據(jù)檢查內(nèi)容業(yè)務(wù)邏輯檢查:通過對若干個匯總值/指標(biāo)值的運算,來檢驗各個匯總值/指標(biāo)間潛在的平衡或其他比較關(guān)系實現(xiàn)技術(shù)HiveSQL成功閾值90%記錄通過檢查異常處理未通過檢查的記錄存入指定錯誤明細(xì)表依賴任務(wù)貼源整合數(shù)據(jù)區(qū)數(shù)據(jù)處理完成觸發(fā)任務(wù)集市數(shù)據(jù)區(qū)應(yīng)用數(shù)據(jù)生成檢查規(guī)則執(zhí)行服務(wù)檢查點3匯總區(qū)業(yè)務(wù)性檢查任務(wù)內(nèi)容說明任務(wù)類型檢查規(guī)則執(zhí)行服務(wù)檢查點4.1應(yīng)用集市區(qū)技術(shù)性檢查任務(wù)內(nèi)容說明任務(wù)類型ETL任務(wù)——業(yè)務(wù)型檢查ETL階段匯總數(shù)據(jù)區(qū)->應(yīng)用集市數(shù)據(jù)區(qū)執(zhí)行頻率每日/月/季執(zhí)行執(zhí)行方式由TaskAutomation工作流引擎根據(jù)工作流定義統(tǒng)一調(diào)度,在應(yīng)用集市數(shù)據(jù)庫集群上執(zhí)行檢查對象應(yīng)用集市數(shù)據(jù)區(qū)的數(shù)據(jù)檢查內(nèi)容主鍵唯一型檢查;外鍵參照完整型檢查;關(guān)鍵字段取值完整性檢查實現(xiàn)技術(shù)SQL成功閾值90%記錄通過檢查異常處理未通過檢查的記錄存入指定錯誤明細(xì)表依賴任務(wù)匯總數(shù)據(jù)區(qū)數(shù)據(jù)處理完成觸發(fā)任務(wù)N/A檢查規(guī)則執(zhí)行服務(wù)檢查點4.1應(yīng)用集市區(qū)技術(shù)性檢查任務(wù)內(nèi)容說明檢查規(guī)則執(zhí)行服務(wù)檢查點4.2應(yīng)用集市區(qū)業(yè)務(wù)性檢查任務(wù)內(nèi)容說明任務(wù)類型ETL任務(wù)——業(yè)務(wù)型檢查ETL階段匯總數(shù)據(jù)區(qū)->應(yīng)用集市數(shù)據(jù)區(qū)執(zhí)行頻率每日/月/季執(zhí)行執(zhí)行方式由TaskAutomation工作流引擎根據(jù)工作流定義統(tǒng)一調(diào)度,在應(yīng)用集市數(shù)據(jù)庫集群上執(zhí)行檢查對象應(yīng)用集市數(shù)據(jù)區(qū)的數(shù)據(jù)檢查內(nèi)容業(yè)務(wù)邏輯檢查:通過對若干個指標(biāo)值的運算,來檢驗各個指標(biāo)間潛在的平衡或其他比較關(guān)系數(shù)值檢查:主要是通過對單個指標(biāo)值的監(jiān)控來發(fā)現(xiàn)數(shù)據(jù)的異常、突變等情況波動檢查:通過對單個指標(biāo)值一段時間內(nèi)的數(shù)值變化情況來檢查數(shù)據(jù)的波動、變化情況一致性檢查:通過對兩個指標(biāo)按某幾個維度展開后的增減幅度來發(fā)現(xiàn)數(shù)據(jù)的波動、變化情況實現(xiàn)技術(shù)SQL成功閾值90%記錄通過檢查異常處理未通過檢查的記錄存入指定錯誤明細(xì)表依賴任務(wù)匯總數(shù)據(jù)區(qū)數(shù)據(jù)處理完成觸發(fā)任務(wù)N/A檢查規(guī)則執(zhí)行服務(wù)檢查點4.2應(yīng)用集市區(qū)業(yè)務(wù)性檢查任務(wù)內(nèi)容說明數(shù)據(jù)質(zhì)量管理分析報告生成服務(wù)分析報告生成服務(wù)是部署在ETL服務(wù)器上的ETL任務(wù),按照任務(wù)流程被TaskAutomation統(tǒng)一調(diào)度執(zhí)行,生成以下三類報告:源系統(tǒng)數(shù)據(jù)交換質(zhì)量日報該報告匯總了報告生成當(dāng)天源系統(tǒng)的數(shù)據(jù)接口校驗結(jié)果,包括針對每個接口單元的表及記錄級校驗錯誤的統(tǒng)計數(shù)據(jù)和指標(biāo)日平均值數(shù)據(jù)質(zhì)量匯總?cè)請笤搱蟾嬉勒彰咳崭髟聪到y(tǒng)數(shù)據(jù)交換評價指標(biāo)的平均值及當(dāng)天的貼源數(shù)據(jù)、匯總數(shù)據(jù)和數(shù)據(jù)集市質(zhì)量檢查結(jié)果匯總生成數(shù)據(jù)質(zhì)量匯總月報該報告依照當(dāng)月的日報結(jié)果,取各項指標(biāo)的平均值和數(shù)據(jù)統(tǒng)計的匯總值生成數(shù)據(jù)質(zhì)量管理分析報告生成服務(wù)分析報告生成服務(wù)是部署在ETL服數(shù)據(jù)質(zhì)量管理分析報告指標(biāo)定義指標(biāo)分類指標(biāo)名稱指標(biāo)說明對應(yīng)報告接口單元級評價指標(biāo)接口傳輸及時率指在最后截止時間前完成上傳的接口單元數(shù)量與時限內(nèi)要求上傳的接口單元數(shù)的比率?!对聪到y(tǒng)數(shù)據(jù)交換質(zhì)量日報(XX系統(tǒng))》接口傳輸完整率指在數(shù)據(jù)質(zhì)量日報告生成之前,成功上傳的接口單元數(shù)量與要求上傳的接口單元數(shù)量的比率。《源系統(tǒng)數(shù)據(jù)交換質(zhì)量日報(XX系統(tǒng))》接口準(zhǔn)確率指與接口校驗內(nèi)容描述一致的接口單元數(shù)量與要求上傳的接口單元數(shù)量的比率?!对聪到y(tǒng)數(shù)據(jù)交換質(zhì)量日報(XX系統(tǒng))》記錄級評價指標(biāo)記錄正確率正確的記錄數(shù)與全部記錄數(shù)的比值。每條記錄只要違反任一條檢查規(guī)則(例如:主鍵唯一、業(yè)務(wù)規(guī)則等),就被計入錯誤日志。每個接口單元的最大允許出錯閾值由數(shù)據(jù)質(zhì)量檢查規(guī)則確定。計算公式如下:當(dāng)Ec<Emax時:記錄正確率=當(dāng)Ec>=Emax時:記錄正確率=0說明:Ec—出錯記錄數(shù)Et—記錄總數(shù)Emax—最大允許出錯閾值《源系統(tǒng)數(shù)據(jù)交換質(zhì)量日報(XX系統(tǒng))》《數(shù)據(jù)質(zhì)量匯總?cè)請蟆贰稊?shù)據(jù)質(zhì)量匯總月報》數(shù)據(jù)質(zhì)量管理分析報告指標(biāo)定義指標(biāo)分類指標(biāo)名稱指標(biāo)說明對應(yīng)報告分析報告生成服務(wù):源系統(tǒng)數(shù)據(jù)交換質(zhì)量日報明細(xì)報告生成任務(wù)內(nèi)容說明任務(wù)類型ETL任務(wù)——明細(xì)日報生成ETL階段分析報告生成階段執(zhí)行頻率每日執(zhí)行方式由TaskAutomation工作流引擎根據(jù)工作流定義統(tǒng)一調(diào)度,在數(shù)據(jù)質(zhì)量管理元數(shù)據(jù)庫上執(zhí)行評價對象數(shù)據(jù)質(zhì)量檢查點1、2對應(yīng)的檢查任務(wù)執(zhí)行結(jié)果評價指標(biāo)接口傳輸及時率、接口傳輸完整率、接口準(zhǔn)確率實現(xiàn)技術(shù)MySQLSQL命令依賴任務(wù)ETL處理完成觸發(fā)任務(wù)數(shù)據(jù)質(zhì)量匯總?cè)請笊扇蝿?wù)分析報告生成服務(wù):源系統(tǒng)數(shù)據(jù)交換質(zhì)量日報明細(xì)報告生成任務(wù)內(nèi)容分析報告生成服務(wù):數(shù)據(jù)質(zhì)量匯總?cè)請髷?shù)據(jù)質(zhì)量匯總?cè)請笊扇蝿?wù)內(nèi)容說明任務(wù)類型ETL任務(wù)——匯總?cè)請笊蒃TL階段分析報告生成階段執(zhí)行頻率每日執(zhí)行方式由TaskAutomation工作流引擎根據(jù)工作流定義統(tǒng)一調(diào)度,在數(shù)據(jù)質(zhì)量管理元數(shù)據(jù)庫上執(zhí)行評價對象數(shù)據(jù)質(zhì)量檢查點2、3、4對應(yīng)的檢查任務(wù)執(zhí)行結(jié)果評價指標(biāo)記錄正確率實現(xiàn)技術(shù)MySQLSQL命令依賴任務(wù)源系統(tǒng)數(shù)據(jù)交換質(zhì)量日報生成觸發(fā)任務(wù)數(shù)據(jù)質(zhì)量匯總月報生成任務(wù)分析報告生成服務(wù):數(shù)據(jù)質(zhì)量匯總?cè)請髷?shù)據(jù)質(zhì)量匯總?cè)請笊扇蝿?wù)內(nèi)分析報告生成服務(wù):數(shù)據(jù)質(zhì)量匯總月報任務(wù)內(nèi)容說明任務(wù)類型ETL任務(wù)——匯總月報生成ETL階段分析報告生成階段執(zhí)行頻率每月月初執(zhí)行方式由TaskAutomation工作流引擎根據(jù)工作流定義統(tǒng)一調(diào)度,在數(shù)據(jù)質(zhì)量管理元數(shù)據(jù)庫上執(zhí)行評價對象當(dāng)月所有數(shù)據(jù)質(zhì)量檢查點對應(yīng)的檢查任務(wù)執(zhí)行結(jié)果評價指標(biāo)記錄正確率實現(xiàn)技術(shù)MySQLSQL命令依賴任務(wù)數(shù)據(jù)質(zhì)量匯總?cè)請笊扇蝿?wù)觸發(fā)任務(wù)N/A分析報告生成服務(wù):數(shù)據(jù)質(zhì)量匯總月報任務(wù)內(nèi)容說明任務(wù)類型ETL數(shù)據(jù)質(zhì)量管理元信息庫采用MySQL數(shù)據(jù)庫,存儲數(shù)據(jù)質(zhì)量檢查規(guī)則、數(shù)據(jù)質(zhì)量檢查結(jié)果、數(shù)據(jù)質(zhì)量檢查報告示例數(shù)據(jù)質(zhì)量管理元信息庫采用MySQL數(shù)據(jù)庫,存儲數(shù)據(jù)質(zhì)量檢查規(guī)檢查規(guī)則配置管理模塊說明模塊名稱接口單元級技術(shù)檢查規(guī)則配置管理模塊實現(xiàn)功能該模塊的主要任務(wù)是用web界面方式引導(dǎo)用戶完成數(shù)據(jù)質(zhì)量檢查規(guī)則的配置,主要包括檢查規(guī)則的唯一標(biāo)識、檢查規(guī)則簡單描述、檢查類型、檢查對象、生效標(biāo)志、檢查規(guī)則(如:SQL命令)等。模塊需要實現(xiàn)如下功能:規(guī)則新增;增加一條檢查規(guī)則規(guī)則修改;修改規(guī)則內(nèi)容規(guī)則刪除;刪除已有的規(guī)則規(guī)則生效:設(shè)置規(guī)則的狀態(tài)為生效或無效規(guī)則搜索:按規(guī)則ID、接口名稱搜索規(guī)則實現(xiàn)技術(shù)J2EE運行方式作為WAR包部署在Tomcat集群上發(fā)布鏈接到工商數(shù)據(jù)平臺門戶上用戶通過B/S方式登錄平臺執(zhí)行配置管理使用對象數(shù)據(jù)質(zhì)量管理員檢查規(guī)則配置管理模塊說明模塊名稱接口單元級技術(shù)檢查規(guī)則配置管數(shù)據(jù)質(zhì)量管理分析報告展現(xiàn)模塊說明模塊名稱源系統(tǒng)數(shù)據(jù)交換質(zhì)量日報、數(shù)據(jù)質(zhì)量匯總?cè)請?、?shù)據(jù)質(zhì)量匯總月報展現(xiàn)模塊實現(xiàn)功能該模塊的主要任務(wù)是用web界面方式引導(dǎo)用戶提交查詢條件,查看滿足條件的數(shù)據(jù)質(zhì)量管理分析。模塊需要實現(xiàn)如下功能:報告查詢;按照時間、報告名稱報告查看;在線查看報告內(nèi)容報告下載;將報告下載到本地查看錯誤明細(xì)下載;下載未通過數(shù)據(jù)質(zhì)量檢查的出錯記錄明細(xì)有效時間每日或月ETL處理結(jié)束后實現(xiàn)技術(shù)J2EE運行方式作為WAR包部署在Tomcat集群上發(fā)布鏈接到工商數(shù)據(jù)平臺門戶上用戶通過B/S方式登錄平臺執(zhí)行配置管理使用對象源系統(tǒng)維護人員(查看相關(guān)源系統(tǒng)日報)、數(shù)據(jù)質(zhì)量管理員、ETL管理員、公司領(lǐng)導(dǎo)數(shù)據(jù)質(zhì)量管理分析報告展現(xiàn)模塊說明模塊名稱源系統(tǒng)數(shù)據(jù)交換質(zhì)量日卓越夢想演示完畢感謝觀看卓越夢想演示完畢感謝觀卓越夢想大數(shù)據(jù)平臺數(shù)據(jù)治理和挖掘解決方案卓越夢想大數(shù)據(jù)平臺數(shù)據(jù)治理和挖掘解決方案大數(shù)據(jù)治理框架大數(shù)據(jù)治理框架由三大部分組成:大數(shù)據(jù)類型、大數(shù)據(jù)治理領(lǐng)域、行業(yè)與功能67產(chǎn)業(yè)和功能場景保險業(yè)電信業(yè)零售業(yè)公共事業(yè)醫(yī)療保健業(yè)組織元數(shù)據(jù)隱私數(shù)據(jù)質(zhì)量大數(shù)據(jù)類型web和社交媒體數(shù)據(jù)機器對機器的數(shù)據(jù)生物計量學(xué)數(shù)據(jù)大體量交易數(shù)據(jù)人工生成的數(shù)據(jù)信息治理大數(shù)據(jù)治理需要高度聚焦于數(shù)據(jù)本身。傳統(tǒng)的數(shù)據(jù)治理領(lǐng)域同樣適用于大數(shù)據(jù)大數(shù)據(jù)分析受用例驅(qū)動,用例的具體情況因產(chǎn)業(yè)和功能而異。客戶服務(wù)IT業(yè)務(wù)流程整合情緒分析Facebook忠誠度計劃客戶流失分析索賠調(diào)查IT日志分析車載通信技術(shù)位置服務(wù)索賠欺詐分析智能儀表患者監(jiān)測索賠分析客戶流失分析通話質(zhì)量保證基因測試人臉識別承保電子病歷RFI日志大數(shù)據(jù)治理框架大數(shù)據(jù)治理框架由三大部分組成:大數(shù)據(jù)類型、大數(shù)Contents目錄大數(shù)據(jù)綜述2341大數(shù)據(jù)平臺解決方案大數(shù)據(jù)平臺數(shù)據(jù)治理方法請輸入第四部分標(biāo)題Contents目錄大數(shù)據(jù)綜述2341大數(shù)據(jù)平臺解決方01大數(shù)據(jù)綜述01大數(shù)據(jù)綜述數(shù)據(jù)處理思維轉(zhuǎn)變少量的樣本數(shù)據(jù)數(shù)據(jù)關(guān)系力求明確清晰探求難以捉摸的因果關(guān)系要求數(shù)據(jù)精確無誤全量數(shù)據(jù)
樂于接受數(shù)據(jù)的紛繁復(fù)雜轉(zhuǎn)而關(guān)注事物的關(guān)聯(lián)關(guān)系
數(shù)據(jù)的精確不是那么重要了?
谷歌翻譯系統(tǒng)為了訓(xùn)練其系統(tǒng),收集其能找到的所有翻譯;?
谷歌收集了上萬億頁的語料庫,包括質(zhì)量參差不齊的文檔;?
上萬億的語料庫,相當(dāng)于950億句英語;?
相對而言,谷歌的翻譯質(zhì)量還是最好的;?
谷歌翻譯之所以更好,不是因為它擁有一個更好的算法機制,而是增加了各種各樣的數(shù)據(jù),包括有錯誤的數(shù)據(jù);?
在谷歌的翻譯團隊中,大多數(shù)工程師并不懂其翻譯出來的語言;數(shù)據(jù)處理思維轉(zhuǎn)變傳統(tǒng)數(shù)據(jù)分析思維大數(shù)據(jù)分析思維案例一?
聘請了20多名書評家和編輯組成的團隊,在網(wǎng)頁上創(chuàng)立“亞馬遜的聲音”向客戶推薦新書,寫書評;?
通過客戶的購買歷史,尋找客戶的相似性,對客戶分群進行產(chǎn)品推薦,推薦的總是與以往購買的相似或略有區(qū)別;?
通過大量的數(shù)據(jù)分析,找出書籍之間的關(guān)聯(lián)關(guān)系,即“item-to-item”,時亞馬遜發(fā)生了天翻地覆的變化。?
AMAZON銷售額的三分之一來自于“item-to-item”的推薦系統(tǒng)。?
AMAZON最終放棄了在線書評,書評團隊被解散。案例二數(shù)據(jù)處理思維轉(zhuǎn)變少量的樣本數(shù)據(jù)數(shù)據(jù)關(guān)系力求明確清晰探求難以捉數(shù)據(jù)處理思維轉(zhuǎn)變數(shù)據(jù)處理思維轉(zhuǎn)變關(guān)聯(lián)關(guān)系,預(yù)測的關(guān)鍵。很多時候,知道“是什么”就夠了,沒必要知道“為什么”。一旦我們完成了“關(guān)聯(lián)關(guān)系”分析,我們就可以繼續(xù)向更深層次研究因果關(guān)系,找出背后的“為什么”?
沃爾瑪:請把蛋撻和颶風(fēng)用品擺在一起,請把啤酒和尿片擺在一起;?
某信用評分公司,利用Facebook的社交圈來預(yù)測個人償還債務(wù)的可能性;?
對沖基金通過分析Twitter微博的數(shù)據(jù)文本,作為股市投資的信號;?
某信用評分公司,利用Facebook的社交圈來預(yù)測個人償還債務(wù)的可能性;?
對沖基金通過分析Twitter微博的數(shù)據(jù)文本,作為股市投資的信號;其它案例數(shù)據(jù)處理思維轉(zhuǎn)變?沃爾瑪:請把蛋撻和颶風(fēng)用品擺在一起,請把大數(shù)據(jù)與BI融合*大數(shù)據(jù)與BI融合*大數(shù)據(jù)的商業(yè)價值大數(shù)據(jù)的商業(yè)價值大數(shù)據(jù)主要廠商
大型企業(yè)和機構(gòu)在尋求解決棘手的大數(shù)據(jù)問題時,往往會使用開源軟件基礎(chǔ)架構(gòu)Hadoop的服務(wù)。由于Hadoop深受歡迎,許多公司都推出了各自版本的Hadoop,也有一些公司則圍繞Hadoop提供解決方案。Hadoop的發(fā)行版除了社區(qū)的Apachehadoop外,cloudera,IBM,ORACLE等都提供了自己的商業(yè)版本。商業(yè)版主要是提供Hadoop專業(yè)的技術(shù)支持,這對一些大型企業(yè)尤其重要。ClouderaEMC。。。IBMOracle大數(shù)據(jù)主要廠商大型企業(yè)和機構(gòu)在尋求解決棘手的大數(shù)據(jù)問題時,大數(shù)據(jù)生態(tài)HIVEBigDataApplicationsPig!ZooKeeperSQLRAW非結(jié)構(gòu)化資料匯入SQL資料匯入分散式檔案系統(tǒng)類SQL資料庫系統(tǒng)(非即時性)分散式資料庫(即時性)并行計算框架資料處理語言數(shù)據(jù)挖掘程序庫大數(shù)據(jù)生態(tài)HIVEBigDataApplications大數(shù)據(jù)治理體系與數(shù)據(jù)治理體系的聯(lián)系與區(qū)別大數(shù)據(jù)治理是一項系統(tǒng)工程,大到大數(shù)據(jù)技術(shù)平臺的搭建、組織的變革、政策的制定、流程的重組,小到元數(shù)據(jù)的管理、主數(shù)據(jù)的整合、各種類型大數(shù)據(jù)的個性化治理和大數(shù)據(jù)的行業(yè)應(yīng)用。組織必須治理全部大數(shù)據(jù),將大數(shù)據(jù)治理定義如下:
大數(shù)據(jù)治理是廣義數(shù)據(jù)治理計劃的一部分,即制定與大數(shù)據(jù)有關(guān)的數(shù)據(jù)優(yōu)化、隱私保護與數(shù)據(jù)變現(xiàn)的政策。將上述大數(shù)據(jù)治理的定義分解為以下部分:
大數(shù)據(jù)是廣義數(shù)據(jù)治理計劃的一部分?jǐn)?shù)據(jù)治理機構(gòu)必須采取以下措施,以將大數(shù)據(jù)整合到既有的數(shù)據(jù)治理框架中:
擴展數(shù)據(jù)治理憲章的外延,將大數(shù)據(jù)治理納入其中;
拓寬數(shù)據(jù)治理委員會成員的范圍,將數(shù)據(jù)科學(xué)家等大數(shù)據(jù)的超級用戶吸納進來;
任命處理社交媒體等特定大數(shù)據(jù)的主管;
將大數(shù)據(jù)與元數(shù)據(jù)、隱私、數(shù)據(jù)質(zhì)量和主數(shù)據(jù)等數(shù)據(jù)治理準(zhǔn)則結(jié)合。大數(shù)據(jù)治理關(guān)乎政策制定政策包括人們在特定情形下如何作為的成文和非成文的宣告。譬如,大數(shù)據(jù)治理政策可能申明,未經(jīng)顧客知情并同意,組織不得將顧客的Facebook資料整合到其主數(shù)據(jù)記錄中。大數(shù)據(jù)必須優(yōu)化考慮一下組織是如何將現(xiàn)實世界的準(zhǔn)則應(yīng)用到大數(shù)據(jù)治理中的。公司設(shè)計了精致的企業(yè)資產(chǎn)管理計劃,對機器、飛機、交通工具和其他資產(chǎn)進行妥善管理。與對實物資產(chǎn)進行登記類似,組織必須對大數(shù)據(jù)進行如下優(yōu)化:
元數(shù)據(jù)——建立大數(shù)據(jù)類別信息;
數(shù)據(jù)質(zhì)量管理——像公司對實物資產(chǎn)進行定期檢修一樣,定期凈化大數(shù)據(jù);
信息生命周期管理——對大數(shù)據(jù)進行存檔,并在沒必要繼續(xù)保存某些數(shù)據(jù)時,將其刪除。大數(shù)據(jù)隱私至關(guān)重要組織同樣必須建立旨在防止大數(shù)據(jù)誤用的適當(dāng)政策。組織在處理社交媒體、地理定位、生物計量學(xué)和其他形式的個人可識別信息(PII)時,必須考慮涉及的聲譽、規(guī)制和法律風(fēng)險。大數(shù)據(jù)必須變現(xiàn)所謂變現(xiàn),就是將數(shù)據(jù)等資產(chǎn)轉(zhuǎn)化為現(xiàn)金的過程,變現(xiàn)的方式可以是將數(shù)據(jù)賣給第三方,也可以是利用數(shù)據(jù)開發(fā)新的服務(wù)。在當(dāng)下,公司意識到,必須將大數(shù)據(jù)視為具有財務(wù)價值的企業(yè)資產(chǎn)。例如,運營部門可以通過傳感器數(shù)據(jù),根據(jù)定期檢修計劃,提高設(shè)備正常運行時間。呼叫中心可以分析客戶代表的記錄,通過了解顧客呼叫的原因,降低呼叫量。此外,零售商可以使用主數(shù)據(jù)激活Facebook的應(yīng)用程序,提升顧客忠誠度。大數(shù)據(jù)治理體系與數(shù)據(jù)治理體系的聯(lián)系與區(qū)別大數(shù)據(jù)治理是一項系統(tǒng)02大數(shù)據(jù)平臺解決方案02大數(shù)據(jù)平臺解決方案大數(shù)據(jù)平臺整體架構(gòu)大數(shù)據(jù)平臺整體架構(gòu)大數(shù)據(jù)處理流程建立對非結(jié)構(gòu)化數(shù)據(jù)進行SQL語法查詢的支持,實現(xiàn)與結(jié)構(gòu)化數(shù)據(jù)的集成關(guān)聯(lián)(key)主分類關(guān)鍵詞標(biāo)簽地名人名全國統(tǒng)一分類分詞,倒排搜索共性、個性文本識別處理功能模塊網(wǎng)頁分類反向搜索關(guān)鍵詞分析日志關(guān)聯(lián)內(nèi)容分詞索引建立索引分析日志合并用戶類別標(biāo)簽摘要結(jié)構(gòu)化元信息網(wǎng)頁信息分類數(shù)據(jù)獲取語義分析數(shù)據(jù)解析
非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)獲取結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)集市數(shù)據(jù)集市EDW結(jié)構(gòu)化元數(shù)據(jù)Hadoop建立非結(jié)構(gòu)化信息的標(biāo)簽、摘要、索引、日志、內(nèi)容等提取結(jié)構(gòu)化的元數(shù)據(jù)信息,如類別、標(biāo)引、摘要等;實現(xiàn)與結(jié)構(gòu)化數(shù)據(jù)的整合ODSSQL聲譽度分析品牌分析服務(wù)質(zhì)量分析競爭產(chǎn)品分析產(chǎn)品評價市場動態(tài)跟蹤ETL網(wǎng)絡(luò)爬蟲大數(shù)據(jù)處理流程主分類關(guān)鍵詞標(biāo)簽地名人名全國統(tǒng)一分類分詞,倒排大數(shù)據(jù)關(guān)鍵技術(shù)大數(shù)據(jù)關(guān)鍵技術(shù)大數(shù)據(jù)關(guān)鍵技術(shù)-Hadoop大數(shù)據(jù)關(guān)鍵技術(shù)-HadoopHadoop系統(tǒng)工作原理Hadoop系統(tǒng)工作原理大數(shù)據(jù)關(guān)鍵技術(shù)-網(wǎng)絡(luò)數(shù)據(jù)獲取分布式網(wǎng)絡(luò)爬蟲分布式文件系統(tǒng)分布式存儲橫向擴容(Scale-out)架構(gòu)分布式軟件架構(gòu)并行計算框架大數(shù)據(jù)關(guān)鍵技術(shù)-網(wǎng)絡(luò)數(shù)據(jù)獲取分布式網(wǎng)絡(luò)爬蟲分布式文件系統(tǒng)分布大數(shù)據(jù)關(guān)鍵技術(shù)-兩種平臺相互集成大數(shù)據(jù)關(guān)鍵技術(shù)-兩種平臺相互集成大數(shù)據(jù)關(guān)鍵技術(shù)-數(shù)據(jù)應(yīng)用功能數(shù)據(jù)查詢數(shù)據(jù)統(tǒng)計信息檢索數(shù)據(jù)分析語義分析數(shù)據(jù)挖掘經(jīng)營管理市場活動市場口碑分銷管理決策支持用戶服務(wù)大數(shù)據(jù)關(guān)鍵技術(shù)-數(shù)據(jù)應(yīng)用功能數(shù)據(jù)查詢數(shù)據(jù)統(tǒng)計信息檢索數(shù)據(jù)分析大數(shù)據(jù)關(guān)鍵技術(shù)-數(shù)據(jù)管控大數(shù)據(jù)關(guān)鍵技術(shù)-數(shù)據(jù)管控03大數(shù)據(jù)平臺數(shù)據(jù)治理方法03大數(shù)據(jù)平臺數(shù)據(jù)治理方法傳統(tǒng)數(shù)據(jù)平臺與大數(shù)據(jù)分布式平臺特性差異傳統(tǒng)數(shù)據(jù)平臺與大數(shù)據(jù)分布式平臺特性差異大數(shù)據(jù)分析與傳統(tǒng)BI分析差異結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)規(guī)模一般為TB規(guī)模集中式,為了分析進行大量數(shù)據(jù)移動,數(shù)據(jù)向計算靠近批處理為主結(jié)構(gòu)化/非結(jié)構(gòu)化混合分析的能力數(shù)據(jù)規(guī)模從數(shù)十TB到PB級別分布式,計算向數(shù)據(jù)靠近支持流式分析事務(wù)關(guān)系型數(shù)據(jù)庫批處理數(shù)據(jù)倉庫分析集群化非結(jié)構(gòu)化流式多種數(shù)據(jù)源分析(MapReduce)組織傳統(tǒng)BI分析大數(shù)據(jù)分析大數(shù)據(jù)分析與傳統(tǒng)BI分析差異結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化/非結(jié)構(gòu)化混合分大數(shù)據(jù)處理和管理體系-多結(jié)構(gòu)化大數(shù)據(jù)處理和管理體系-多結(jié)構(gòu)化大數(shù)據(jù)實施建議第一階段:應(yīng)用場景驅(qū)動的大數(shù)據(jù)開發(fā)第二階段:各業(yè)務(wù)系統(tǒng)、各渠道系統(tǒng)等配合大數(shù)據(jù)改造優(yōu)化第三階段:管理信息體系下的大數(shù)據(jù)平臺建設(shè)第四階段(目標(biāo)):以大數(shù)據(jù)驅(qū)動的,實時的、整體聯(lián)動的IT解決方案Think
big,
start
small.大處著眼,小處著手。大數(shù)據(jù)實施建議第一階段:應(yīng)用場景驅(qū)動第二階段:各渠道系統(tǒng)等第大數(shù)據(jù)實施方法論大數(shù)據(jù)業(yè)務(wù)戰(zhàn)略大數(shù)據(jù)建設(shè)目標(biāo)大數(shù)據(jù)架構(gòu)設(shè)計大數(shù)據(jù)實施大數(shù)據(jù)運維企業(yè)戰(zhàn)略目標(biāo)業(yè)務(wù)目標(biāo)業(yè)務(wù)模式大數(shù)據(jù)治理目標(biāo)應(yīng)用場景服務(wù)模式服務(wù)對象大數(shù)據(jù)服務(wù)定義大數(shù)據(jù)信息模型大數(shù)據(jù)管理定義技術(shù)選擇驗證測試容量規(guī)劃安裝,配置驗收測試系統(tǒng)上線大數(shù)據(jù)服務(wù)管理服務(wù)性能管理生命周期管理資源調(diào)度系統(tǒng)監(jiān)控大數(shù)據(jù)持續(xù)改進業(yè)務(wù)調(diào)整服務(wù)改進技術(shù)升級架構(gòu)優(yōu)化大數(shù)據(jù)實施方法論大數(shù)據(jù)業(yè)務(wù)戰(zhàn)略大數(shù)據(jù)建設(shè)目標(biāo)大數(shù)據(jù)架構(gòu)設(shè)計大大數(shù)據(jù)的角色和技能大數(shù)據(jù)的角色和技能大數(shù)據(jù)治理成熟度模型實施大數(shù)據(jù)治理的第一步,是評估大數(shù)據(jù)治理成熟度的當(dāng)前狀態(tài)和期望的未來狀態(tài)?,F(xiàn)將某信息治理委員會的成熟度模型用于成熟度評估。該模型設(shè)立了4個領(lǐng)域的11個大數(shù)據(jù)治理成熟度指標(biāo)。94支持準(zhǔn)則數(shù)據(jù)架構(gòu)數(shù)據(jù)標(biāo)準(zhǔn)審計信息日志和報告核心準(zhǔn)則數(shù)據(jù)質(zhì)量管理信息生命周期管理信息安全與隱私支持要素管理人員數(shù)據(jù)風(fēng)險管理政策目標(biāo)業(yè)務(wù)成果要求支持增強組織機構(gòu)和認(rèn)識元數(shù)據(jù)大數(shù)據(jù)治理成熟度模型實施大數(shù)據(jù)治理的第一步,是評估大數(shù)據(jù)治理大數(shù)據(jù)治理成熟度模型介紹及問題示例95目標(biāo)目標(biāo)指信息治理計劃的預(yù)期結(jié)果。目標(biāo)傾向于關(guān)注降低風(fēng)險與提升價值,這反過來又受降低成本和提高收入的驅(qū)動。業(yè)務(wù)成果:代表信息治理計劃的目標(biāo)和目的。業(yè)務(wù)成果:A是否已經(jīng)確定了大數(shù)據(jù)治理計劃的關(guān)鍵業(yè)務(wù)關(guān)聯(lián)方?B是否對大數(shù)據(jù)治理可帶來的財務(wù)收益進行了量化?支持要素核心準(zhǔn)則支持準(zhǔn)則組織結(jié)構(gòu)和認(rèn)識:指業(yè)務(wù)部門和IT部門間的相互責(zé)任,以及對治理不同管理層次中數(shù)據(jù)的信托責(zé)任的認(rèn)識。管理人員:旨在保證數(shù)據(jù)監(jiān)護,實現(xiàn)資產(chǎn)增值、風(fēng)險消解和組織控制的質(zhì)量控制準(zhǔn)則。數(shù)據(jù)風(fēng)險管理:據(jù)以識別、保留、量化、規(guī)避、接受、消解和轉(zhuǎn)嫁風(fēng)險的方法論。政策:期望得到落實的組織行為的書面表達。數(shù)據(jù)結(jié)構(gòu)和認(rèn)識:如關(guān)鍵角色的職位說明中,是否包含大數(shù)據(jù)治理,如配備首席數(shù)據(jù)官和信息治理官?管理人員:是否已經(jīng)建立了責(zé)任分配(RACI)矩陣,以定義針對大數(shù)據(jù)關(guān)鍵屬性的角色和責(zé)任?數(shù)據(jù)風(fēng)險管理:是否在大數(shù)據(jù)治理與風(fēng)險治理之間建立了聯(lián)系?政策:是否已經(jīng)歸檔了一組大數(shù)據(jù)治理政策?數(shù)據(jù)質(zhì)量管理:指測量、提高和保證產(chǎn)品數(shù)據(jù)、測試數(shù)據(jù)和歸檔數(shù)據(jù)的質(zhì)量和集成性的方法。信息生命周期管理:有關(guān)信息采集、使用、保留和刪除的系統(tǒng)化的、基于策略的方法。信息安全與隱私:組織用于消解風(fēng)險和保護數(shù)據(jù)資產(chǎn)的策略、實踐和控制手段。數(shù)據(jù)質(zhì)量管理:對于與大數(shù)據(jù)相關(guān)的質(zhì)量問題(數(shù)據(jù)價值不高或不顯著),是否達成了一致意見?信息生命周期管理:是否制定了流程,根據(jù)法律和業(yè)務(wù)要求合法處理不再需要的大數(shù)據(jù)?信息安全和隱私:首席信息安全官是否是大數(shù)據(jù)治理計劃的關(guān)鍵支持者?數(shù)據(jù)架構(gòu):結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)系統(tǒng)及應(yīng)用的架構(gòu)式設(shè)計,用于實現(xiàn)數(shù)據(jù)的可用性,并將數(shù)據(jù)分配給合適的用戶。元數(shù)據(jù):指用于創(chuàng)建常見的語義定義、IT術(shù)語、數(shù)據(jù)模型和數(shù)據(jù)庫的方法和工具。審計信息日志和報告:指監(jiān)測和測量數(shù)據(jù)價值、風(fēng)險和信息治理有效性的組織流程。數(shù)據(jù)架構(gòu):Hadoop、NoSQL以及與當(dāng)前架構(gòu)相關(guān)的其他新興大數(shù)據(jù)技術(shù)的共存戰(zhàn)略是怎樣的?分類和元數(shù)據(jù):業(yè)務(wù)詞庫是否包含與大數(shù)據(jù)相關(guān)的關(guān)鍵業(yè)務(wù)術(shù)語(如針對點擊流數(shù)據(jù)的“獨立訪客”)?審計信息日志和報告:企業(yè)如何檢測特權(quán)用戶對醫(yī)保索賠和通話詳單等敏感大數(shù)據(jù)的訪問?問題示例模型介紹大數(shù)據(jù)治理成熟度模型介紹及問題示例30目標(biāo)目標(biāo)指信息治理計劃案例某大型金融機構(gòu)資金管理部的大數(shù)據(jù)治理路線圖96創(chuàng)建Hadoop基礎(chǔ)設(shè)施大數(shù)據(jù)治理的演進關(guān)鍵活動每日頭寸快照社交媒體和非結(jié)構(gòu)化內(nèi)容治理大數(shù)據(jù)某大型金融機構(gòu)的資金管理部,為大中型企業(yè)提供現(xiàn)金管理和流動性管理的綜合服務(wù)。該部門處于部署大數(shù)據(jù)計劃的早期階段,其最初的大數(shù)據(jù)治理路線圖如右圖所示:第1-6個月構(gòu)建技術(shù)基礎(chǔ)設(shè)施,獲得Linux服務(wù)器和ApacheHadoop發(fā)行版。由于大數(shù)據(jù)是一個新事物,在切入業(yè)務(wù)前,必須設(shè)計一個可行的用例,并進行財務(wù)可行性論證。此外,組織要認(rèn)真審視數(shù)據(jù)管理的傳統(tǒng)方面:怎樣將數(shù)據(jù)導(dǎo)入并導(dǎo)出Hadoop?Hadoop中的數(shù)據(jù)質(zhì)量如何?大數(shù)據(jù)的元數(shù)據(jù)是怎樣的?如何將大數(shù)據(jù)整合到未來12個月將要部署的主數(shù)據(jù)管理數(shù)據(jù)庫中?大數(shù)據(jù)已經(jīng)成為主流媒體的熱門詞匯,高管層至少很有可能同意支持一個大數(shù)據(jù)試點項目。因此,數(shù)據(jù)治理團隊需要及時更新路線圖,將與大數(shù)據(jù)有關(guān)的人員、流程和技術(shù)計劃納入其中。第6-12個月引入詳細(xì)的交易記錄,以分析每日頭寸快照。受傳統(tǒng)基礎(chǔ)設(shè)施成本高昂的影響,以往的金融機構(gòu)從未進行這樣細(xì)致入微的分析。第12-24個月將社交媒體數(shù)據(jù)和其他非結(jié)構(gòu)化內(nèi)容引入Hadoop環(huán)境。由于金融機構(gòu)的大多數(shù)客戶是大企業(yè),對交易對手的10-K和10-Q歸檔等非結(jié)構(gòu)化內(nèi)容,進行探索性分析。第24-36個月資金管理部已經(jīng)有了現(xiàn)成的聚焦于大企業(yè)客戶的主數(shù)據(jù)的信息治理計劃。案例某大型金融機構(gòu)資金管理部的大數(shù)據(jù)治理路線圖31創(chuàng)建Had大數(shù)據(jù)處理框架的組成97大數(shù)據(jù)治理需要高度聚焦于數(shù)據(jù)本身。我們將大數(shù)據(jù)分為五種:web和社交媒體數(shù)據(jù)、機器對機器的數(shù)據(jù)、大體量交易數(shù)據(jù)、生物計量學(xué)數(shù)據(jù)和人工生成的數(shù)據(jù)。大數(shù)據(jù)類型信息治理準(zhǔn)則產(chǎn)業(yè)與功能傳統(tǒng)的信息治理準(zhǔn)則,同樣適用于大數(shù)據(jù),相關(guān)準(zhǔn)則包括組織、元數(shù)據(jù)、隱私、數(shù)據(jù)質(zhì)量、業(yè)務(wù)流程整合、主數(shù)據(jù)整合和信息生命周期管理。大數(shù)據(jù)分析是受例驅(qū)動的,用例的具體情況因產(chǎn)能和功能而異。限于篇幅,我們只列出了部分的產(chǎn)業(yè)和功能。大數(shù)據(jù)處理框架的組成32大數(shù)據(jù)治理需要高度聚焦于數(shù)據(jù)本身。我大數(shù)據(jù)的類型大數(shù)據(jù)大體可分為五種類型98Web和社交媒體數(shù)據(jù)二的點擊流數(shù)據(jù)TwitterFeedsFacebook帖子網(wǎng)絡(luò)內(nèi)容Web和社交媒體數(shù)據(jù)二的點擊流數(shù)據(jù)TwitterFeedsFacebook帖子網(wǎng)絡(luò)內(nèi)容機器對機器的數(shù)據(jù)二的公用事業(yè)智能儀表讀數(shù)RFID讀數(shù)石油鉆探設(shè)備傳感器讀數(shù)網(wǎng)絡(luò)內(nèi)容Web和社交媒體數(shù)據(jù)二的點擊流數(shù)據(jù)TwitterFeedsFacebook帖子網(wǎng)絡(luò)內(nèi)容Web和社交媒體數(shù)據(jù)二的點擊流數(shù)據(jù)TwitterFeedsFacebook帖子網(wǎng)絡(luò)內(nèi)容類型大數(shù)據(jù)的類型大數(shù)據(jù)大體可分為五種類型33Web和社交媒體數(shù)據(jù)職責(zé)分配(RACI)所代表的內(nèi)涵99應(yīng)負(fù)責(zé)方(Responsible)指授權(quán)管理某屬性的人。(一種屬性可有多個負(fù)責(zé)人)最終負(fù)責(zé)方(Accountable)指數(shù)據(jù)屬性承擔(dān)最終責(zé)任的人。咨詢方(Consulted)指通過雙向溝通接受咨詢的某人或某些人。被告知方(Informed)指通過單向溝通被告知的某人或某些人。職責(zé)分配(RACI)所代表的內(nèi)涵34應(yīng)負(fù)責(zé)方(Respons大數(shù)據(jù)治理計劃需要實施的最佳實踐1001324創(chuàng)建一個體現(xiàn)關(guān)鍵大數(shù)據(jù)術(shù)語的業(yè)務(wù)定義的詞庫。理解對ApacheHadoop中元數(shù)據(jù)的持續(xù)支持。對業(yè)務(wù)詞庫中的敏感大數(shù)據(jù)進行標(biāo)記。從相關(guān)的大數(shù)據(jù)存儲中輸入技術(shù)元數(shù)據(jù)。將相關(guān)的數(shù)據(jù)元與業(yè)務(wù)詞庫中的術(shù)語進行鏈接。5768使用運營元數(shù)據(jù)監(jiān)測大數(shù)據(jù)的流動。保留技術(shù)元數(shù)據(jù),以支持?jǐn)?shù)據(jù)血統(tǒng)和影響分析。從非結(jié)構(gòu)化文件中采集元數(shù)據(jù),支持企業(yè)搜索。擴展既有的元數(shù)據(jù)角色,將大數(shù)據(jù)納入其中。9元數(shù)據(jù)是描述數(shù)據(jù)產(chǎn)品特征的任何信息,如名字、位置、可感知的、重要性、質(zhì)量、對企業(yè)的價值,以及與企業(yè)認(rèn)為值得管理的其他數(shù)據(jù)產(chǎn)品的關(guān)系等。元數(shù)據(jù)決定信息架構(gòu)的如何滿足業(yè)務(wù)需求,因此元數(shù)據(jù)是信息治理計劃的關(guān)鍵。大數(shù)據(jù)治理計劃需要實施的最佳實踐351324創(chuàng)建一個體現(xiàn)關(guān)鍵業(yè)務(wù)詞庫101業(yè)務(wù)詞庫業(yè)務(wù)詞庫是企業(yè)用于傳達其對信息的認(rèn)識的語言。創(chuàng)建并維護該層業(yè)務(wù)元數(shù)據(jù),對表達要求的含義和描述IT系統(tǒng)可用的信息至關(guān)重要。業(yè)務(wù)詞庫保證了信息開發(fā)的準(zhǔn)確性和速度。術(shù)語代表著企業(yè)和業(yè)務(wù)層面對信息的理解,所以許多組織傾向于自下而上創(chuàng)建數(shù)據(jù)詞典,對已有的信息進行歸類。在處理大數(shù)據(jù)時,業(yè)務(wù)驅(qū)動的數(shù)據(jù)定義和數(shù)據(jù)目錄之間的區(qū)別尤為重要業(yè)務(wù)詞庫保證了信息開發(fā)的準(zhǔn)確性和速度。在處理大數(shù)據(jù)時,業(yè)務(wù)驅(qū)動的數(shù)據(jù)定義和數(shù)據(jù)目錄之間的區(qū)別尤為重要。業(yè)務(wù)詞庫36業(yè)務(wù)詞庫業(yè)務(wù)詞庫是企業(yè)用于傳達其對信息的認(rèn)識的語對業(yè)務(wù)詞庫中的敏感數(shù)據(jù)102對敏感的大數(shù)據(jù)進行分類發(fā)現(xiàn)敏感數(shù)據(jù)對業(yè)務(wù)詞庫中的敏感數(shù)據(jù)進行標(biāo)記執(zhí)行大數(shù)據(jù)隱私政策進行分類大數(shù)據(jù)治理計劃需要對社會保險號碼等敏感數(shù)據(jù)進行分類。分類應(yīng)來自業(yè)務(wù)詞庫模型并被傳承到不同數(shù)據(jù)庫中數(shù)據(jù)的所有物理實例中。敏感的大數(shù)據(jù)可能隱藏在非結(jié)構(gòu)化文本中。大數(shù)據(jù)治理計劃應(yīng)考慮數(shù)據(jù)分析工具的利用,以便自動發(fā)現(xiàn)非結(jié)構(gòu)化字段的敏感數(shù)據(jù)。首席信息安全官制定有關(guān)敏感數(shù)據(jù)的政策。只有在識別到敏感數(shù)據(jù)的位置時,組織才能執(zhí)行政策,因此,在業(yè)務(wù)詞庫中標(biāo)記敏感數(shù)據(jù)就非常關(guān)鍵。大數(shù)據(jù)治理團隊可以通過使用數(shù)據(jù)分析工具發(fā)現(xiàn)敏感的大數(shù)據(jù),以監(jiān)督對政策的遵從度。對業(yè)務(wù)詞庫中的敏感數(shù)據(jù)37對敏感的大數(shù)據(jù)進行分類發(fā)現(xiàn)敏感數(shù)據(jù)從相關(guān)的大數(shù)據(jù)存儲中輸入技術(shù)元數(shù)據(jù)103在創(chuàng)建業(yè)務(wù)詞庫后大數(shù)據(jù)治理團隊需要從大數(shù)據(jù)源中采集合用的、相關(guān)的元數(shù)據(jù)。大數(shù)據(jù)源Hadoop文件商業(yè)智能報告應(yīng)用數(shù)據(jù)庫數(shù)據(jù)模型準(zhǔn)結(jié)構(gòu)化非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化信息管理經(jīng)銷商元數(shù)據(jù)中央存儲庫橋接器連接器從相關(guān)的大數(shù)據(jù)存儲中輸入技術(shù)元數(shù)據(jù)38在創(chuàng)建業(yè)務(wù)詞庫后大數(shù)據(jù)元數(shù)據(jù)104元數(shù)據(jù)創(chuàng)建一個體現(xiàn)關(guān)鍵大數(shù)據(jù)術(shù)語的業(yè)務(wù)定義的詞庫理解對ApacheHadoop中元數(shù)據(jù)的持續(xù)支持對業(yè)務(wù)詞庫中的敏感大數(shù)據(jù)進行標(biāo)記從相關(guān)的大數(shù)據(jù)存儲中輸入技術(shù)元數(shù)據(jù)將相關(guān)的數(shù)據(jù)元與業(yè)務(wù)詞庫的術(shù)語進行鏈接使用運營元數(shù)據(jù)監(jiān)測大數(shù)據(jù)的流動保留技術(shù)元數(shù)據(jù),以支持?jǐn)?shù)據(jù)血統(tǒng)和影響分析元數(shù)據(jù)39元數(shù)據(jù)創(chuàng)建一個體現(xiàn)關(guān)鍵大數(shù)據(jù)術(shù)語的業(yè)務(wù)定義的詞庫理從非結(jié)構(gòu)化文件中采集元數(shù)據(jù),支持企業(yè)搜索創(chuàng)建非結(jié)構(gòu)化數(shù)據(jù)的索引,也是元數(shù)據(jù)的一種形式,許多企業(yè)的搜索供應(yīng)商已開發(fā)相應(yīng)工具。105保險業(yè)通過向呼叫人員提供客服關(guān)懷、告警、保單和客戶信息文件等多個文件庫的可搜索訪問,可將平均處理時間減少三秒,年節(jié)約數(shù)百萬美元。通過提供對EMCDocumentum、文件系統(tǒng)、微軟Share-Point、內(nèi)網(wǎng)和外部數(shù)據(jù)庫中客戶、患者和研究數(shù)據(jù)的快速訪問,加快科研進程。讓臨床醫(yī)生可訪問來自醫(yī)學(xué)刊物和其他文件庫的最新研究成果。制藥業(yè)醫(yī)療保險業(yè)從非結(jié)構(gòu)化文件中采集元數(shù)據(jù),支持企業(yè)搜索創(chuàng)建非結(jié)構(gòu)化數(shù)據(jù)的索拓展既有的元數(shù)據(jù)角色,將大數(shù)據(jù)納入其中信息治理團隊可能安排許多與原數(shù)據(jù)相關(guān)的角色。組織需考慮這些角色進行拓展,以將大數(shù)據(jù)治理納入進來。106業(yè)務(wù)詞庫管理者數(shù)據(jù)科學(xué)家元數(shù)據(jù)管理者數(shù)據(jù)血統(tǒng)管理者數(shù)據(jù)主管數(shù)據(jù)架構(gòu)師本角色負(fù)責(zé)保管應(yīng)將大數(shù)據(jù)術(shù)語包含在內(nèi)的業(yè)務(wù)詞庫。本角色負(fù)責(zé)在相關(guān)數(shù)據(jù)源識別和輸入技術(shù)元數(shù)據(jù)。數(shù)據(jù)血統(tǒng)管理者與數(shù)據(jù)管理者配合,確保數(shù)據(jù)血統(tǒng)分析中數(shù)據(jù)源之間的數(shù)據(jù)流可得到準(zhǔn)確地反映。本角色參與大數(shù)據(jù)特別是關(guān)鍵業(yè)務(wù)術(shù)語定義的管理。本角色監(jiān)督元數(shù)據(jù)模型的創(chuàng)建及其與企業(yè)數(shù)據(jù)模型的連接。本角色縮短了大數(shù)據(jù)原始卷和使其有用的業(yè)務(wù)洞察間的距離,其通過創(chuàng)造力和想象力創(chuàng)建原型,以揭開大數(shù)據(jù)中的秘密。拓展既有的元數(shù)據(jù)角色,將大數(shù)據(jù)納入其中信息治理團隊可能安排許大數(shù)據(jù)質(zhì)量107維度傳統(tǒng)數(shù)據(jù)的質(zhì)量大數(shù)據(jù)的質(zhì)量處理頻率處理是面向批量的處理是實時的或面向批量的數(shù)據(jù)多樣性數(shù)據(jù)格式大部分是結(jié)構(gòu)化的數(shù)據(jù)格式可能是結(jié)構(gòu)化的、準(zhǔn)結(jié)構(gòu)化的或非結(jié)構(gòu)化的置信度數(shù)據(jù)需處于原始階段,以方便數(shù)據(jù)倉庫的分析糟糕的數(shù)據(jù)質(zhì)量可能會阻礙分析工具獲得業(yè)務(wù)洞察數(shù)據(jù)進化的時間選擇在下載到數(shù)據(jù)倉庫前數(shù)據(jù)需要進化數(shù)據(jù)的體量和速度可能要求采取流式的、內(nèi)存中的分析來進化數(shù)據(jù)、從而降低存儲要求關(guān)鍵數(shù)據(jù)元素評估客戶地址等關(guān)鍵數(shù)據(jù)元素的數(shù)據(jù)質(zhì)量數(shù)據(jù)可能被模糊定義或錯誤定義,關(guān)鍵數(shù)據(jù)元素可能會反復(fù)變化分析位置數(shù)據(jù)遷移到數(shù)據(jù)質(zhì)量和分析引擎數(shù)據(jù)質(zhì)量和分析引擎可進入數(shù)據(jù)中,以保證可接受的處理速度管理工作數(shù)據(jù)主管可管理大部分?jǐn)?shù)據(jù)由于體量大和速度快,數(shù)據(jù)主管只能管理相對更小的數(shù)據(jù)數(shù)據(jù)質(zhì)量管理是測度、提高、驗證質(zhì)量以及整合組織數(shù)據(jù)的方法等一套行為準(zhǔn)則。體量極大、速度極快和多樣的特點,決定了大數(shù)據(jù)質(zhì)量所需的處理有別于傳統(tǒng)信息治理計劃的質(zhì)量管理。大數(shù)據(jù)質(zhì)量42維度傳統(tǒng)數(shù)據(jù)的質(zhì)量大數(shù)據(jù)的質(zhì)量處理頻率處理是面大數(shù)據(jù)治理計劃必須采取的實踐1089.1與商業(yè)上的利益攸關(guān)者協(xié)作,建立并測度大數(shù)據(jù)質(zhì)量的置信區(qū)間9.2利用準(zhǔn)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),提高人口稀疏的結(jié)構(gòu)化數(shù)據(jù)的質(zhì)量9.3使用流數(shù)據(jù)分析技術(shù)解決內(nèi)存中的數(shù)據(jù)質(zhì)量問題,無需將中間結(jié)果輸入硬盤9.4任命對信息治理委員會負(fù)責(zé)的主管,由其負(fù)責(zé)提高大數(shù)據(jù)治理計劃必須采取的實踐439.1與商業(yè)上的利益攸關(guān)者業(yè)務(wù)流程整合
10910.1識別將會受到大數(shù)據(jù)治理影響的關(guān)鍵流程10.2建立關(guān)鍵合同的流程圖10.3針對業(yè)務(wù)流程中的關(guān)鍵步驟,制定大數(shù)據(jù)治理政策業(yè)務(wù)流程整合4410.1識別將會受到大數(shù)據(jù)治理影響的關(guān)鍵流1.大數(shù)據(jù)源圖21.1大數(shù)據(jù)技術(shù)參考架構(gòu)110Web和社交媒體數(shù)據(jù)機器對機器的數(shù)據(jù)大體量交易數(shù)據(jù)生物計量學(xué)數(shù)據(jù)人工生成的數(shù)據(jù)15.大數(shù)據(jù)安全和隱私16.大數(shù)據(jù)生命周期管理17.云2.開源的基礎(chǔ)組件HDFSMapReduceHadoopCommonHBaseOthers5.數(shù)據(jù)庫NoSQLIn-MemoryRelationalLegacy6.大數(shù)據(jù)整合批量遷移復(fù)制虛擬化7.文本分析8.大數(shù)據(jù)發(fā)現(xiàn)9.大數(shù)據(jù)質(zhì)量10.元數(shù)據(jù)11.信息政策管理12.主數(shù)據(jù)管理13.數(shù)據(jù)倉庫和數(shù)據(jù)集市14.大數(shù)據(jù)分析和報告3.Hadoop發(fā)行版4.流媒體分析18.大數(shù)據(jù)標(biāo)準(zhǔn)8.大數(shù)據(jù)發(fā)現(xiàn)9.大數(shù)據(jù)質(zhì)量1.大數(shù)據(jù)源圖21.1大數(shù)據(jù)技術(shù)參考架構(gòu)45Web和社交媒微軟的大數(shù)據(jù)平臺1111.微軟Hadoop發(fā)行版6.WindowsAzureExcel5.大數(shù)據(jù)分析與報告SQLServerAnalysisServicesSQLServerParallelEditionSQLServerReportingServices4.數(shù)據(jù)倉庫與數(shù)據(jù)集市3.大數(shù)據(jù)整合2.數(shù)據(jù)庫開源基礎(chǔ)組件大數(shù)據(jù)源SQLServerIntegrationServicesSQLServer微軟的大數(shù)據(jù)平臺461.微軟Hadoop發(fā)行版6.Windo理解對ApacheHadoop中元數(shù)據(jù)的持續(xù)支持112名稱節(jié)點數(shù)據(jù)塊A數(shù)據(jù)節(jié)點機架1數(shù)據(jù)塊B數(shù)據(jù)塊C數(shù)據(jù)塊A數(shù)據(jù)節(jié)點機架2數(shù)據(jù)塊B數(shù)據(jù)塊C數(shù)據(jù)塊A數(shù)據(jù)節(jié)點機架3數(shù)據(jù)塊B數(shù)據(jù)塊C圖:Hadoop分布式文件系統(tǒng)(HDFS)的技術(shù)構(gòu)架作為Hadoop關(guān)鍵支持要素的元數(shù)據(jù)如圖Hadoop分布式文件系統(tǒng)(HDFS)是一個帶單個名稱節(jié)點和多個數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 房屋租賃合同(附房屋交割清單)
- 2025年四川省職教高考《語文》核心考點必刷必練試題庫(含答案)
- 第2章 陸地和海洋(真題重組卷)-(解析版)
- 2025年河北軟件職業(yè)技術(shù)學(xué)院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 2025年河北政法職業(yè)學(xué)院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 2025年江西水利職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試近5年??及鎱⒖碱}庫含答案解析
- 2025年江西婺源茶業(yè)職業(yè)學(xué)院高職單招語文2018-2024歷年參考題庫頻考點含答案解析
- 2025年江蘇城鄉(xiāng)建設(shè)職業(yè)學(xué)院高職單招高職單招英語2016-2024歷年頻考點試題含答案解析
- 2025年無錫科技職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試近5年??及鎱⒖碱}庫含答案解析
- 2025年承德石油高等??茖W(xué)校高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 蛋糕店服務(wù)員勞動合同
- 土地買賣合同參考模板
- 2025高考數(shù)學(xué)二輪復(fù)習(xí)-專題一-微專題10-同構(gòu)函數(shù)問題-專項訓(xùn)練【含答案】
- 2025年天津市政建設(shè)集團招聘筆試參考題庫含答案解析
- 2024-2030年中國烘焙食品行業(yè)運營效益及營銷前景預(yù)測報告
- 寧德時代筆試題庫
- 康復(fù)醫(yī)院患者隱私保護管理制度
- 公司安全事故隱患內(nèi)部舉報、報告獎勵制度
- 沈陽理工大學(xué)《數(shù)》2022-2023學(xué)年第一學(xué)期期末試卷
- 北京三甲中醫(yī)疼痛科合作方案
- QCT957-2023洗掃車技術(shù)規(guī)范
評論
0/150
提交評論