版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1大數(shù)據(jù)治理體系與數(shù)據(jù)治理體系的聯(lián)系與區(qū)別大數(shù)據(jù)治理是一項系統(tǒng)工程,大到大數(shù)據(jù)技術(shù)平臺的搭建、組織的變革、政策的制定、流程的重組,小到元數(shù)據(jù)的管理、主數(shù)據(jù)的整合、各種類型大數(shù)據(jù)的個性化治理和大數(shù)據(jù)的行業(yè)應(yīng)用。組織必須治理全部大數(shù)據(jù),將大數(shù)據(jù)治理定義如下:
大數(shù)據(jù)治理是廣義數(shù)據(jù)治理計劃的一部分,即制定與大數(shù)據(jù)有關(guān)的數(shù)據(jù)優(yōu)化、隱私保護(hù)與數(shù)據(jù)變現(xiàn)的政策。將上述大數(shù)據(jù)治理的定義分解為以下部分:
1大數(shù)據(jù)是廣義數(shù)據(jù)治理計劃的一部分?jǐn)?shù)據(jù)治理機(jī)構(gòu)必須采取以下措施,以將大數(shù)據(jù)整合到既有的數(shù)據(jù)治理框架中:
擴(kuò)展數(shù)據(jù)治理憲章的外延,將大數(shù)據(jù)治理納入其中;
拓寬數(shù)據(jù)治理委員會成員的范圍,將數(shù)據(jù)科學(xué)家等大數(shù)據(jù)的超級用戶吸納進(jìn)來;
任命處理社交媒體等特定大數(shù)據(jù)的主管;
將大數(shù)據(jù)與元數(shù)據(jù)、隱私、數(shù)據(jù)質(zhì)量和主數(shù)據(jù)等數(shù)據(jù)治理準(zhǔn)則結(jié)合。大數(shù)據(jù)治理關(guān)乎政策制定政策包括人們在特定情形下如何作為的成文和非成文的宣告。譬如,大數(shù)據(jù)治理政策可能申明,未經(jīng)顧客知情并同意,組織不得將顧客的Facebook資料整合到其主數(shù)據(jù)記錄中。大數(shù)據(jù)必須優(yōu)化考慮一下組織是如何將現(xiàn)實世界的準(zhǔn)則應(yīng)用到大數(shù)據(jù)治理中的。公司設(shè)計了精致的企業(yè)資產(chǎn)管理計劃,對機(jī)器、飛機(jī)、交通工具和其他資產(chǎn)進(jìn)行妥善管理。與對實物資產(chǎn)進(jìn)行登記類似,組織必須對大數(shù)據(jù)進(jìn)行如下優(yōu)化:
元數(shù)據(jù)——建立大數(shù)據(jù)類別信息;
數(shù)據(jù)質(zhì)量管理——像公司對實物資產(chǎn)進(jìn)行定期檢修一樣,定期凈化大數(shù)據(jù);
信息生命周期管理——對大數(shù)據(jù)進(jìn)行存檔,并在沒必要繼續(xù)保存某些數(shù)據(jù)時,將其刪除。大數(shù)據(jù)隱私至關(guān)重要組織同樣必須建立旨在防止大數(shù)據(jù)誤用的適當(dāng)政策。組織在處理社交媒體、地理定位、生物計量學(xué)和其他形式的個人可識別信息(PII)時,必須考慮涉及的聲譽、規(guī)制和法律風(fēng)險。大數(shù)據(jù)必須變現(xiàn)所謂變現(xiàn),就是將數(shù)據(jù)等資產(chǎn)轉(zhuǎn)化為現(xiàn)金的過程,變現(xiàn)的方式可以是將數(shù)據(jù)賣給第三方,也可以是利用數(shù)據(jù)開發(fā)新的服務(wù)。在當(dāng)下,公司意識到,必須將大數(shù)據(jù)視為具有財務(wù)價值的企業(yè)資產(chǎn)。例如,運營部門可以通過傳感器數(shù)據(jù),根據(jù)定期檢修計劃,提高設(shè)備正常運行時間。呼叫中心可以分析客戶代表的記錄,通過了解顧客呼叫的原因,降低呼叫量。此外,零售商可以使用主數(shù)據(jù)激活Facebook的應(yīng)用程序,提升顧客忠誠度。2.1大數(shù)據(jù)治理框架大數(shù)據(jù)治理框架由三大部分組成:大數(shù)據(jù)類型、大數(shù)據(jù)治理領(lǐng)域、行業(yè)與功能2產(chǎn)業(yè)和功能場景保險業(yè)電信業(yè)零售業(yè)公共事業(yè)醫(yī)療保健業(yè)組織元數(shù)據(jù)隱私數(shù)據(jù)質(zhì)量大數(shù)據(jù)類型web和社交媒體數(shù)據(jù)機(jī)器對機(jī)器的數(shù)據(jù)生物計量學(xué)數(shù)據(jù)大體量交易數(shù)據(jù)人工生成的數(shù)據(jù)信息治理大數(shù)據(jù)治理需要高度聚焦于數(shù)據(jù)本身。傳統(tǒng)的數(shù)據(jù)治理領(lǐng)域同樣適用于大數(shù)據(jù)大數(shù)據(jù)分析受用例驅(qū)動,用例的具體情況因產(chǎn)業(yè)和功能而異??蛻舴?wù)IT業(yè)務(wù)流程整合情緒分析Facebook忠誠度計劃客戶流失分析索賠調(diào)查IT日志分析車載通信技術(shù)位置服務(wù)索賠欺詐分析智能儀表患者監(jiān)測索賠分析客戶流失分析通話質(zhì)量保證基因測試人臉識別承保電子病歷RFI日志3.1大數(shù)據(jù)治理成熟度模型實施大數(shù)據(jù)治理的第一步,是評估大數(shù)據(jù)治理成熟度的當(dāng)前狀態(tài)和期望的未來狀態(tài)?,F(xiàn)將某信息治理委員會的成熟度模型用于成熟度評估。該模型設(shè)立了4個領(lǐng)域的11個大數(shù)據(jù)治理成熟度指標(biāo)。3支持準(zhǔn)則數(shù)據(jù)架構(gòu)數(shù)據(jù)標(biāo)準(zhǔn)審計信息日志和報告核心準(zhǔn)則數(shù)據(jù)質(zhì)量管理信息生命周期管理信息安全與隱私支持要素管理人員數(shù)據(jù)風(fēng)險管理政策目標(biāo)業(yè)務(wù)成果要求支持增強(qiáng)組織機(jī)構(gòu)和認(rèn)識元數(shù)據(jù)3.1.1大數(shù)據(jù)治理成熟度模型介紹及問題示例4目標(biāo)目標(biāo)指信息治理計劃的預(yù)期結(jié)果。目標(biāo)傾向于關(guān)注降低風(fēng)險與提升價值,這反過來又受降低成本和提高收入的驅(qū)動。業(yè)務(wù)成果:代表信息治理計劃的目標(biāo)和目的。業(yè)務(wù)成果:A是否已經(jīng)確定了大數(shù)據(jù)治理計劃的關(guān)鍵業(yè)務(wù)關(guān)聯(lián)方?B是否對大數(shù)據(jù)治理可帶來的財務(wù)收益進(jìn)行了量化?支持要素核心準(zhǔn)則支持準(zhǔn)則組織結(jié)構(gòu)和認(rèn)識:指業(yè)務(wù)部門和IT部門間的相互責(zé)任,以及對治理不同管理層次中數(shù)據(jù)的信托責(zé)任的認(rèn)識。管理人員:旨在保證數(shù)據(jù)監(jiān)護(hù),實現(xiàn)資產(chǎn)增值、風(fēng)險消解和組織控制的質(zhì)量控制準(zhǔn)則。數(shù)據(jù)風(fēng)險管理:據(jù)以識別、保留、量化、規(guī)避、接受、消解和轉(zhuǎn)嫁風(fēng)險的方法論。政策:期望得到落實的組織行為的書面表達(dá)。數(shù)據(jù)結(jié)構(gòu)和認(rèn)識:如關(guān)鍵角色的職位說明中,是否包含大數(shù)據(jù)治理,如配備首席數(shù)據(jù)官和信息治理官?管理人員:是否已經(jīng)建立了責(zé)任分配(RACI)矩陣,以定義針對大數(shù)據(jù)關(guān)鍵屬性的角色和責(zé)任?數(shù)據(jù)風(fēng)險管理:是否在大數(shù)據(jù)治理與風(fēng)險治理之間建立了聯(lián)系?政策:是否已經(jīng)歸檔了一組大數(shù)據(jù)治理政策?數(shù)據(jù)質(zhì)量管理:指測量、提高和保證產(chǎn)品數(shù)據(jù)、測試數(shù)據(jù)和歸檔數(shù)據(jù)的質(zhì)量和集成性的方法。信息生命周期管理:有關(guān)信息采集、使用、保留和刪除的系統(tǒng)化的、基于策略的方法。信息安全與隱私:組織用于消解風(fēng)險和保護(hù)數(shù)據(jù)資產(chǎn)的策略、實踐和控制手段。數(shù)據(jù)質(zhì)量管理:對于與大數(shù)據(jù)相關(guān)的質(zhì)量問題(數(shù)據(jù)價值不高或不顯著),是否達(dá)成了一致意見?信息生命周期管理:是否制定了流程,根據(jù)法律和業(yè)務(wù)要求合法處理不再需要的大數(shù)據(jù)?信息安全和隱私:首席信息安全官是否是大數(shù)據(jù)治理計劃的關(guān)鍵支持者?數(shù)據(jù)架構(gòu):結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)系統(tǒng)及應(yīng)用的架構(gòu)式設(shè)計,用于實現(xiàn)數(shù)據(jù)的可用性,并將數(shù)據(jù)分配給合適的用戶。元數(shù)據(jù):指用于創(chuàng)建常見的語義定義、IT術(shù)語、數(shù)據(jù)模型和數(shù)據(jù)庫的方法和工具。審計信息日志和報告:指監(jiān)測和測量數(shù)據(jù)價值、風(fēng)險和信息治理有效性的組織流程。數(shù)據(jù)架構(gòu):Hadoop、NoSQL以及與當(dāng)前架構(gòu)相關(guān)的其他新興大數(shù)據(jù)技術(shù)的共存戰(zhàn)略是怎樣的?分類和元數(shù)據(jù):業(yè)務(wù)詞庫是否包含與大數(shù)據(jù)相關(guān)的關(guān)鍵業(yè)務(wù)術(shù)語(如針對點擊流數(shù)據(jù)的“獨立訪客”)?審計信息日志和報告:企業(yè)如何檢測特權(quán)用戶對醫(yī)保索賠和通話詳單等敏感大數(shù)據(jù)的訪問?問題示例模型介紹案例5.2某大型金融機(jī)構(gòu)資金管理部的大數(shù)據(jù)治理路線圖5創(chuàng)建Hadoop基礎(chǔ)設(shè)施大數(shù)據(jù)治理的演進(jìn)關(guān)鍵活動每日頭寸快照社交媒體和非結(jié)構(gòu)化內(nèi)容治理大數(shù)據(jù)某大型金融機(jī)構(gòu)的資金管理部,為大中型企業(yè)提供現(xiàn)金管理和流動性管理的綜合服務(wù)。該部門處于部署大數(shù)據(jù)計劃的早期階段,其最初的大數(shù)據(jù)治理路線圖如右圖所示:第1-6個月構(gòu)建技術(shù)基礎(chǔ)設(shè)施,獲得Linux服務(wù)器和ApacheHadoop發(fā)行版。由于大數(shù)據(jù)是一個新事物,在切入業(yè)務(wù)前,必須設(shè)計一個可行的用例,并進(jìn)行財務(wù)可行性論證。此外,組織要認(rèn)真審視數(shù)據(jù)管理的傳統(tǒng)方面:怎樣將數(shù)據(jù)導(dǎo)入并導(dǎo)出Hadoop?Hadoop中的數(shù)據(jù)質(zhì)量如何?大數(shù)據(jù)的元數(shù)據(jù)是怎樣的?如何將大數(shù)據(jù)整合到未來12個月將要部署的主數(shù)據(jù)管理數(shù)據(jù)庫中?大數(shù)據(jù)已經(jīng)成為主流媒體的熱門詞匯,高管層至少很有可能同意支持一個大數(shù)據(jù)試點項目。因此,數(shù)據(jù)治理團(tuán)隊需要及時更新路線圖,將與大數(shù)據(jù)有關(guān)的人員、流程和技術(shù)計劃納入其中。第6-12個月引入詳細(xì)的交易記錄,以分析每日頭寸快照。受傳統(tǒng)基礎(chǔ)設(shè)施成本高昂的影響,以往的金融機(jī)構(gòu)從未進(jìn)行這樣細(xì)致入微的分析。第12-24個月將社交媒體數(shù)據(jù)和其他非結(jié)構(gòu)化內(nèi)容引入Hadoop環(huán)境。由于金融機(jī)構(gòu)的大多數(shù)客戶是大企業(yè),對交易對手的10-K和10-Q歸檔等非結(jié)構(gòu)化內(nèi)容,進(jìn)行探索性分析。第24-36個月資金管理部已經(jīng)有了現(xiàn)成的聚焦于大企業(yè)客戶的主數(shù)據(jù)的信息治理計劃。大數(shù)據(jù)處理框架的組成6大數(shù)據(jù)治理需要高度聚焦于數(shù)據(jù)本身。我們將大數(shù)據(jù)分為五種:web和社交媒體數(shù)據(jù)、機(jī)器對機(jī)器的數(shù)據(jù)、大體量交易數(shù)據(jù)、生物計量學(xué)數(shù)據(jù)和人工生成的數(shù)據(jù)。大數(shù)據(jù)類型信息治理準(zhǔn)則產(chǎn)業(yè)與功能傳統(tǒng)的信息治理準(zhǔn)則,同樣適用于大數(shù)據(jù),相關(guān)準(zhǔn)則包括組織、元數(shù)據(jù)、隱私、數(shù)據(jù)質(zhì)量、業(yè)務(wù)流程整合、主數(shù)據(jù)整合和信息生命周期管理。大數(shù)據(jù)分析是受例驅(qū)動的,用例的具體情況因產(chǎn)能和功能而異。限于篇幅,我們只列出了部分的產(chǎn)業(yè)和功能。大數(shù)據(jù)的類型大數(shù)據(jù)大體可分為五種類型7Web和社交媒體數(shù)據(jù)二的點擊流數(shù)據(jù)TwitterFeedsFacebook帖子網(wǎng)絡(luò)內(nèi)容Web和社交媒體數(shù)據(jù)二的點擊流數(shù)據(jù)TwitterFeedsFacebook帖子網(wǎng)絡(luò)內(nèi)容機(jī)器對機(jī)器的數(shù)據(jù)二的公用事業(yè)智能儀表讀數(shù)RFID讀數(shù)石油鉆探設(shè)備傳感器讀數(shù)網(wǎng)絡(luò)內(nèi)容Web和社交媒體數(shù)據(jù)二的點擊流數(shù)據(jù)TwitterFeedsFacebook帖子網(wǎng)絡(luò)內(nèi)容Web和社交媒體數(shù)據(jù)二的點擊流數(shù)據(jù)TwitterFeedsFacebook帖子網(wǎng)絡(luò)內(nèi)容類型6.1職責(zé)分配(RACI)所代表的內(nèi)涵8應(yīng)負(fù)責(zé)方(Responsible)指授權(quán)管理某屬性的人。(一種屬性可有多個負(fù)責(zé)人)最終負(fù)責(zé)方(Accountable)指數(shù)據(jù)屬性承擔(dān)最終責(zé)任的人。咨詢方(Consulted)指通過雙向溝通接受咨詢的某人或某些人。被告知方(Informed)指通過單向溝通被告知的某人或某些人。7大數(shù)據(jù)治理計劃需要實施的最佳實踐91324創(chuàng)建一個體現(xiàn)關(guān)鍵大數(shù)據(jù)術(shù)語的業(yè)務(wù)定義的詞庫。理解對ApacheHadoop中元數(shù)據(jù)的持續(xù)支持。對業(yè)務(wù)詞庫中的敏感大數(shù)據(jù)進(jìn)行標(biāo)記。從相關(guān)的大數(shù)據(jù)存儲中輸入技術(shù)元數(shù)據(jù)。將相關(guān)的數(shù)據(jù)元與業(yè)務(wù)詞庫中的術(shù)語進(jìn)行鏈接。5768使用運營元數(shù)據(jù)監(jiān)測大數(shù)據(jù)的流動。保留技術(shù)元數(shù)據(jù),以支持?jǐn)?shù)據(jù)血統(tǒng)和影響分析。從非結(jié)構(gòu)化文件中采集元數(shù)據(jù),支持企業(yè)搜索。擴(kuò)展既有的元數(shù)據(jù)角色,將大數(shù)據(jù)納入其中。9元數(shù)據(jù)是描述數(shù)據(jù)產(chǎn)品特征的任何信息,如名字、位置、可感知的、重要性、質(zhì)量、對企業(yè)的價值,以及與企業(yè)認(rèn)為值得管理的其他數(shù)據(jù)產(chǎn)品的關(guān)系等。元數(shù)據(jù)決定信息架構(gòu)的如何滿足業(yè)務(wù)需求,因此元數(shù)據(jù)是信息治理計劃的關(guān)鍵。7.1業(yè)務(wù)詞庫10業(yè)務(wù)詞庫業(yè)務(wù)詞庫是企業(yè)用于傳達(dá)其對信息的認(rèn)識的語言。創(chuàng)建并維護(hù)該層業(yè)務(wù)元數(shù)據(jù),對表達(dá)要求的含義和描述IT系統(tǒng)可用的信息至關(guān)重要。業(yè)務(wù)詞庫保證了信息開發(fā)的準(zhǔn)確性和速度。術(shù)語代表著企業(yè)和業(yè)務(wù)層面對信息的理解,所以許多組織傾向于自下而上創(chuàng)建數(shù)據(jù)詞典,對已有的信息進(jìn)行歸類。在處理大數(shù)據(jù)時,業(yè)務(wù)驅(qū)動的數(shù)據(jù)定義和數(shù)據(jù)目錄之間的區(qū)別尤為重要業(yè)務(wù)詞庫保證了信息開發(fā)的準(zhǔn)確性和速度。在處理大數(shù)據(jù)時,業(yè)務(wù)驅(qū)動的數(shù)據(jù)定義和數(shù)據(jù)目錄之間的區(qū)別尤為重要。7.3對業(yè)務(wù)詞庫中的敏感數(shù)據(jù)11對敏感的大數(shù)據(jù)進(jìn)行分類發(fā)現(xiàn)敏感數(shù)據(jù)對業(yè)務(wù)詞庫中的敏感數(shù)據(jù)進(jìn)行標(biāo)記執(zhí)行大數(shù)據(jù)隱私政策進(jìn)行分類大數(shù)據(jù)治理計劃需要對社會保險號碼等敏感數(shù)據(jù)進(jìn)行分類。分類應(yīng)來自業(yè)務(wù)詞庫模型并被傳承到不同數(shù)據(jù)庫中數(shù)據(jù)的所有物理實例中。敏感的大數(shù)據(jù)可能隱藏在非結(jié)構(gòu)化文本中。大數(shù)據(jù)治理計劃應(yīng)考慮數(shù)據(jù)分析工具的利用,以便自動發(fā)現(xiàn)非結(jié)構(gòu)化字段的敏感數(shù)據(jù)。首席信息安全官制定有關(guān)敏感數(shù)據(jù)的政策。只有在識別到敏感數(shù)據(jù)的位置時,組織才能執(zhí)行政策,因此,在業(yè)務(wù)詞庫中標(biāo)記敏感數(shù)據(jù)就非常關(guān)鍵。大數(shù)據(jù)治理團(tuán)隊可以通過使用數(shù)據(jù)分析工具發(fā)現(xiàn)敏感的大數(shù)據(jù),以監(jiān)督對政策的遵從度。從相關(guān)的大數(shù)據(jù)存儲中輸入技術(shù)元數(shù)據(jù)12在創(chuàng)建業(yè)務(wù)詞庫后大數(shù)據(jù)治理團(tuán)隊需要從大數(shù)據(jù)源中采集合用的、相關(guān)的元數(shù)據(jù)。大數(shù)據(jù)源Hadoop文件商業(yè)智能報告應(yīng)用數(shù)據(jù)庫數(shù)據(jù)模型準(zhǔn)結(jié)構(gòu)化非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化信息管理經(jīng)銷商元數(shù)據(jù)中央存儲庫橋接器連接器7元數(shù)據(jù)13元數(shù)據(jù)創(chuàng)建一個體現(xiàn)關(guān)鍵大數(shù)據(jù)術(shù)語的業(yè)務(wù)定義的詞庫理解對ApacheHadoop中元數(shù)據(jù)的持續(xù)支持對業(yè)務(wù)詞庫中的敏感大數(shù)據(jù)進(jìn)行標(biāo)記從相關(guān)的大數(shù)據(jù)存儲中輸入技術(shù)元數(shù)據(jù)將相關(guān)的數(shù)據(jù)元與業(yè)務(wù)詞庫的術(shù)語進(jìn)行鏈接使用運營元數(shù)據(jù)監(jiān)測大數(shù)據(jù)的流動保留技術(shù)元數(shù)據(jù),以支持?jǐn)?shù)據(jù)血統(tǒng)和影響分析從非結(jié)構(gòu)化文件中采集元數(shù)據(jù),支持企業(yè)搜索創(chuàng)建非結(jié)構(gòu)化數(shù)據(jù)的索引,也是元數(shù)據(jù)的一種形式,許多企業(yè)的搜索供應(yīng)商已開發(fā)相應(yīng)工具。14保險業(yè)通過向呼叫人員提供客服關(guān)懷、告警、保單和客戶信息文件等多個文件庫的可搜索訪問,可將平均處理時間減少三秒,年節(jié)約數(shù)百萬美元。通過提供對EMCDocumentum、文件系統(tǒng)、微軟Share-Point、內(nèi)網(wǎng)和外部數(shù)據(jù)庫中客戶、患者和研究數(shù)據(jù)的快速訪問,加快科研進(jìn)程。讓臨床醫(yī)生可訪問來自醫(yī)學(xué)刊物和其他文件庫的最新研究成果。制藥業(yè)醫(yī)療保險業(yè)7.9拓展既有的元數(shù)據(jù)角色,將大數(shù)據(jù)納入其中信息治理團(tuán)隊可能安排許多與原數(shù)據(jù)相關(guān)的角色。組織需考慮這些角色進(jìn)行拓展,以將大數(shù)據(jù)治理納入進(jìn)來。15業(yè)務(wù)詞庫管理者數(shù)據(jù)科學(xué)家元數(shù)據(jù)管理者數(shù)據(jù)血統(tǒng)管理者數(shù)據(jù)主管數(shù)據(jù)架構(gòu)師本角色負(fù)責(zé)保管應(yīng)將大數(shù)據(jù)術(shù)語包含在內(nèi)的業(yè)務(wù)詞庫。本角色負(fù)責(zé)在相關(guān)數(shù)據(jù)源識別和輸入技術(shù)元數(shù)據(jù)。數(shù)據(jù)血統(tǒng)管理者與數(shù)據(jù)管理者配合,確保數(shù)據(jù)血統(tǒng)分析中數(shù)據(jù)源之間的數(shù)據(jù)流可得到準(zhǔn)確地反映。本角色參與大數(shù)據(jù)特別是關(guān)鍵業(yè)務(wù)術(shù)語定義的管理。本角色監(jiān)督元數(shù)據(jù)模型的創(chuàng)建及其與企業(yè)數(shù)據(jù)模型的連接。本角色縮短了大數(shù)據(jù)原始卷和使其有用的業(yè)務(wù)洞察間的距離,其通過創(chuàng)造力和想象力創(chuàng)建原型,以揭開大數(shù)據(jù)中的秘密。9大數(shù)據(jù)質(zhì)量16維度傳統(tǒng)數(shù)據(jù)的質(zhì)量大數(shù)據(jù)的質(zhì)量處理頻率處理是面向批量的處理是實時的或面向批量的數(shù)據(jù)多樣性數(shù)據(jù)格式大部分是結(jié)構(gòu)化的數(shù)據(jù)格式可能是結(jié)構(gòu)化的、準(zhǔn)結(jié)構(gòu)化的或非結(jié)構(gòu)化的置信度數(shù)據(jù)需處于原始階段,以方便數(shù)據(jù)倉庫的分析糟糕的數(shù)據(jù)質(zhì)量可能會阻礙分析工具獲得業(yè)務(wù)洞察數(shù)據(jù)進(jìn)化的時間選擇在下載到數(shù)據(jù)倉庫前數(shù)據(jù)需要進(jìn)化數(shù)據(jù)的體量和速度可能要求采取流式的、內(nèi)存中的分析來進(jìn)化數(shù)據(jù)、從而降低存儲要求關(guān)鍵數(shù)據(jù)元素評估客戶地址等關(guān)鍵數(shù)據(jù)元素的數(shù)據(jù)質(zhì)量數(shù)據(jù)可能被模糊定義或錯誤定義,關(guān)鍵數(shù)據(jù)元素可能會反復(fù)變化分析位置數(shù)據(jù)遷移到數(shù)據(jù)質(zhì)量和分析引擎數(shù)據(jù)質(zhì)量和分析引擎可進(jìn)入數(shù)據(jù)中,以保證可接受的處理速度管理工作數(shù)據(jù)主管可管理大部分?jǐn)?shù)據(jù)由于體量大和速度快,數(shù)據(jù)主管只能管理相對更小的數(shù)據(jù)數(shù)據(jù)質(zhì)量管理是測度、提高、驗證質(zhì)量以及整合組織數(shù)據(jù)的方法等一套行為準(zhǔn)則。體量極大、速度極快和多樣的特點,決定了大數(shù)據(jù)質(zhì)量所需的處理有別于傳統(tǒng)信息治理計劃的質(zhì)量管理。大數(shù)據(jù)治理計劃必須采取的實踐179.1與商業(yè)上的利益攸關(guān)者協(xié)作,建立并測度大數(shù)據(jù)質(zhì)量的置信區(qū)間9.2利用準(zhǔn)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),提高人口稀疏的結(jié)構(gòu)化數(shù)據(jù)的質(zhì)量9.3使用流數(shù)據(jù)分析技術(shù)解決內(nèi)存中的數(shù)據(jù)質(zhì)量問題,無需將中間結(jié)果輸入硬盤9.4任命對信息治理委員會負(fù)責(zé)的主管,由其負(fù)責(zé)提高10業(yè)務(wù)流程整合
1810.1識別將會受到大數(shù)據(jù)治理影響的關(guān)鍵流程10.2建立關(guān)鍵合同的流程圖10.3針對業(yè)務(wù)流程中的關(guān)鍵步驟,制定大數(shù)據(jù)治理政策1.大數(shù)據(jù)源圖21.1大數(shù)據(jù)技術(shù)參考架構(gòu)19Web和社交媒體數(shù)據(jù)機(jī)器對機(jī)器的數(shù)據(jù)大體量交易數(shù)據(jù)生物計量學(xué)數(shù)據(jù)人工生成的數(shù)據(jù)15.大數(shù)據(jù)安全和隱私16.大數(shù)據(jù)生命周期管理17.云2.開源的基礎(chǔ)組件HDFSMapReduceHadoopCommonHBaseOthers5.數(shù)據(jù)庫NoSQLIn-MemoryRelationalLegacy6.大數(shù)據(jù)整合批量遷移復(fù)制虛擬化7.文本分析8.大數(shù)據(jù)發(fā)現(xiàn)9.大數(shù)據(jù)質(zhì)量10.元數(shù)據(jù)11.信息政策管理12.主數(shù)據(jù)管理13.數(shù)據(jù)倉庫和數(shù)據(jù)集市14.大數(shù)據(jù)分析和報告3.Hadoop發(fā)行版4.流媒體分析18.大數(shù)據(jù)標(biāo)準(zhǔn)8.大數(shù)據(jù)發(fā)現(xiàn)9.大數(shù)據(jù)質(zhì)量微軟的大數(shù)據(jù)平臺201.微軟Hadoop發(fā)行版6.WindowsAzureExcel5.大數(shù)據(jù)分析與報告SQLServerAnalysisServicesSQLServerParallelEditionSQLServerReportingServi
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2030年中國安全控制系統(tǒng)行業(yè)應(yīng)用狀況及投資模式分析報告
- 2024-2030年中國嬰幼兒產(chǎn)品市場競爭力策略及投資盈利分析報告
- 2024-2030年中國大提花貢緞行業(yè)競爭格局及前景趨勢預(yù)測報告
- 2024-2030年中國臺階鏜刀行業(yè)市場發(fā)展規(guī)模及投資可行性分析報告
- 眉山藥科職業(yè)學(xué)院《國際商務(wù)談判實務(wù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024年昆明住宅購買合同
- 2024年漁業(yè)供貨合同
- 主鏡頭和關(guān)系鏡頭
- 2024年度網(wǎng)絡(luò)安全防護(hù)技術(shù)支持服務(wù)合同范本3篇
- 呂梁師范高等??茖W(xué)校《食品生物技術(shù)專題》2023-2024學(xué)年第一學(xué)期期末試卷
- 八年級道法上冊第一學(xué)期期末綜合測試卷(人教版 2024年秋)
- 2025屆江蘇省期無錫市天一實驗學(xué)校數(shù)學(xué)七年級第一學(xué)期期末達(dá)標(biāo)檢測試題含解析
- UG基礎(chǔ)培訓(xùn)課件
- 城市軌道交通運營管理【共30張課件】
- 鋼結(jié)構(gòu)設(shè)計智慧樹知到期末考試答案章節(jié)答案2024年山東建筑大學(xué)
- 2024年廣東省廣州市荔灣區(qū)中考一模語文試題
- 人教版四年級上冊數(shù)學(xué)數(shù)學(xué)復(fù)習(xí)資料
- TD/T 1066-2021 不動產(chǎn)登記數(shù)據(jù)庫標(biāo)準(zhǔn)(正式版)
- 睡眠中心宣傳方案
- 2024春期國開電大??啤督ㄖ茍D基礎(chǔ)》在線形考(形考性考核作業(yè)一至四)試題及答案
- 論《國際貨物銷售合同公約》的適用問題
評論
0/150
提交評論