如何選擇正確的數(shù)據(jù)集成工具?_第1頁
如何選擇正確的數(shù)據(jù)集成工具?_第2頁
如何選擇正確的數(shù)據(jù)集成工具?_第3頁
如何選擇正確的數(shù)據(jù)集成工具?_第4頁
如何選擇正確的數(shù)據(jù)集成工具?_第5頁
免費預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、如何選擇正確的數(shù)據(jù)集成工具?我們該如何選擇正確的數(shù)據(jù)集成工具,從而對各類數(shù)據(jù)加以歸納?本文就此展開探討。數(shù)據(jù)不在一個數(shù)據(jù)庫,文件系統(tǒng),數(shù)據(jù)庫或存儲庫中。為了滿足許多業(yè)務(wù)需求,必須將數(shù) 據(jù)與其他數(shù)據(jù)源的記錄系統(tǒng)集成,然后用于分析,面向客戶的應(yīng)用程序或內(nèi)部工作流程。例 子包括:來自電子商務(wù)應(yīng)用程序的數(shù)據(jù)與用戶分析,客戶關(guān)系管理中的客戶數(shù)據(jù)以及其他主數(shù)據(jù)源 集成在一起,以建立客戶群并定制營銷信息。物聯(lián)網(wǎng)傳感器數(shù)據(jù)與運營和財務(wù)數(shù)據(jù)庫中的數(shù)據(jù)相關(guān)聯(lián),以控制吞吐量并報告制造過程的 質(zhì)量。員工工作流應(yīng)用程序,可將跨多個saas平臺和內(nèi)部數(shù)據(jù)源的數(shù)據(jù)和工具連接到一個易于 使用的移動界面。許多組織也對數(shù)據(jù)科學家

2、,數(shù)據(jù)分析師和創(chuàng)新團隊提出了數(shù)據(jù)要求,他們在集成內(nèi)部和外 部數(shù)據(jù)源方面的需求日益增長:開發(fā)預(yù)測模型的數(shù)據(jù)科學家通常會加載多種外部數(shù)據(jù)源,例如計量經(jīng)濟學,天氣,人口普 查和其他公共數(shù)據(jù),然后將其與內(nèi)部資源融合。試驗人工智能的創(chuàng)新團隊需要匯總可用于訓練和測試算法的大型復雜數(shù)據(jù)源。業(yè)務(wù)和數(shù)據(jù)分析師,特別是曾經(jīng)在電子表格中執(zhí)行分析的數(shù)據(jù)驅(qū)動營銷部門,現(xiàn)在可能需 要更復雜的工具來加載,加入和處理多個數(shù)據(jù)饋送。1. 數(shù)據(jù)技術(shù)與功能市場規(guī)模龐大問題是:用什么工具和做法來整合數(shù)據(jù)源?什么平臺被用來自動化操作數(shù)據(jù)?正在委托哪些 工具供數(shù)據(jù)科學家和數(shù)據(jù)分析師在使用新數(shù)據(jù)源時更加努力?在開發(fā)跨多個數(shù)據(jù)源和api進

3、行交易的應(yīng)用程序時,有效的開發(fā)和開發(fā)工具能夠?qū)崿F(xiàn)更快速的應(yīng)用程序開發(fā)?由于許多組織具有不同類型,數(shù)量和速度的數(shù)據(jù),并隨著時間的推移而產(chǎn)生不同的業(yè)務(wù)需 求,因此可能已有不同的方法和工具用于集成數(shù)據(jù)。很容易堅持這些,并將它們擴展到新的 使用案例。雖然使用數(shù)據(jù)工具的任何人可能比其他人更熟悉一種方法,但對于具有多種業(yè)務(wù) 和用戶需求的組織而言,應(yīng)用一刀切的數(shù)據(jù)集成方法可能并不是最佳選擇。此外,隨著越來越多的組織投資于數(shù)據(jù)解決方案,大數(shù)據(jù)解決方案有一個健康的市場。結(jié) 果是現(xiàn)在有許多新的平臺和工具來支持數(shù)據(jù)集成和處理。有了這么多的工具,希望將數(shù)據(jù)處理作為核心功能的組織應(yīng)考慮各種工具類型,根據(jù)業(yè)務(wù) 和技術(shù)需要

4、應(yīng)用這些工具類型。與數(shù)據(jù)技術(shù)合作或負責數(shù)據(jù)技術(shù)的技術(shù)人員應(yīng)該熟悉可用工 具的類型。在這里,我調(diào)查了七種主要類型的工具:編程和腳本數(shù)據(jù)集成傳統(tǒng)的提取,轉(zhuǎn)換和加載(etl)工具數(shù)據(jù)高速公路saas平臺面向用戶和數(shù)據(jù)科學家的數(shù)據(jù)準備工具用于應(yīng)用程序開發(fā)的api和數(shù)據(jù)集成具有數(shù)據(jù)集成功能的大數(shù)據(jù)企業(yè)平臺ai注入數(shù)據(jù)集成平臺2. 數(shù)據(jù)集成編程與腳本對于任何具有基本編程技能的人來說,將數(shù)據(jù)從源文件移動到目標文件的最常見方式是開 發(fā)一個簡短的腳本。這可以在具有存儲過程的數(shù)據(jù)庫內(nèi)完成,作為按預(yù)定作業(yè)運行的腳本完 成,也可以是部署到無服務(wù)器體系結(jié)構(gòu)的小型數(shù)據(jù)處理代碼片段。這些腳本通常以幾種模式之一運行。它們可以

5、按照預(yù)定義的時間表運行,也可以作為由事 件觸發(fā)的服務(wù)運行,或者在滿足定義的條件時作出響應(yīng)。他們可以從多個來源獲取數(shù)據(jù),在 將數(shù)據(jù)傳送到目標數(shù)據(jù)源之前加入,過濾,清理驗證和轉(zhuǎn)換數(shù)據(jù)。腳本是移動數(shù)據(jù)的快捷方式,但它不被認為是專業(yè)級的數(shù)據(jù)處理方法。要成為生產(chǎn)級的數(shù) 據(jù)處理腳本,它需要自動執(zhí)行處理和傳輸數(shù)據(jù)所需的步驟,并處理多種操作需求。例如,如 果腳本正在處理大量數(shù)據(jù)或快速移動的數(shù)據(jù),則可能需要使用apache spark或其他并行處 理引擎來運行多線程作業(yè)。如果輸入數(shù)據(jù)不干凈,程序員應(yīng)該啟用異常處理并在不影響數(shù)據(jù) 流的情況下踢出記錄。程序員還應(yīng)該執(zhí)行重要的計算步驟記錄以便于調(diào)試。編寫腳本來支持這些

6、操作需求并不是微不足道的。它要求開發(fā)人員預(yù)測數(shù)據(jù)集成和相應(yīng)程 序可能出現(xiàn)的問題。另外,開發(fā)自定義腳本在使用許多實驗數(shù)據(jù)源時可能不具有成本效益。 最后,數(shù)據(jù)集成腳本通常難以完成知識轉(zhuǎn)移知識,并且難以跨多個開發(fā)人員進行維護。出于這些原因,具有較大數(shù)據(jù)集成需求的組織通常會超越編程和腳本數(shù)據(jù)集成。3, 傳統(tǒng)提取、轉(zhuǎn)換與加載(簡稱etl)工具自20世紀70年代以來,抽取,轉(zhuǎn)換和加載(etl)技術(shù)已經(jīng)出現(xiàn),ibm,informatica,microsoft, oracle, talend等平臺在功能,性能和穩(wěn)定性方面已經(jīng)成熟。這些平臺提供可視化編程工具, 讓開發(fā)人員能夠分解并自動執(zhí)行從源中提取數(shù)據(jù),執(zhí)行轉(zhuǎn)

7、換并將數(shù)據(jù)推送到目標存儲庫的步 驟。由于它們是可視化的,并將數(shù)據(jù)流分解為原子步驟,與難以解碼的腳本相比,管道更易 于管理和增強。另外,etl平臺通常提供操作界面來顯示數(shù)據(jù)管道崩潰的位置并提供重啟 它們的步驟。多年來,etl平臺增加了許多功能。大多數(shù)人可以處理來自數(shù)據(jù)庫,平面文件和web月艮 務(wù)的數(shù)據(jù),無論他們是在本地,在云中還是在saas數(shù)據(jù)存儲中。它們支持各種數(shù)據(jù)格式, 包括關(guān)系數(shù)據(jù),xml和json等半結(jié)構(gòu)化格式,以及非結(jié)構(gòu)化數(shù)據(jù)和文檔。許多工具都使 用spark或其他并行處理引擎來并行化作業(yè)。企業(yè)級etl平臺通常包括數(shù)據(jù)質(zhì)量功能,因 此數(shù)據(jù)可以通過規(guī)則或模式進行驗證,并將異常發(fā)送給數(shù)據(jù)管

8、理員進行解決。一個常見的etl示例是組織何時將銷售前景的新文件加載到crm中。在加載之前,這些 數(shù)據(jù)源通常需要清理物理和電子郵件地址,這可以通過使用規(guī)則和標準數(shù)據(jù)源進行轉(zhuǎn)換來完 成。然后將清理后的記錄與crm中已經(jīng)存在的記錄進行匹配,以便現(xiàn)有記錄得到增強,同 時添加之前沒有的數(shù)據(jù)并添加新記錄。如果etl很難確定某行是匹配還是新記錄,則可以當數(shù)據(jù)源持續(xù)提供新數(shù)據(jù)并且目標數(shù)據(jù)存儲的數(shù)據(jù)結(jié)構(gòu)不會頻繁更改時,通常會使用etl 平臺。這些平臺專為開發(fā)人員編寫etl而設(shè)計,因此對于混合專有,商業(yè)和開放數(shù)據(jù)存儲 的數(shù)據(jù)流操作最為有效。4. 面向saas平臺的數(shù)據(jù)高速公路但是,是否有更有效的方法從常見數(shù)據(jù)源中

9、提取數(shù)據(jù)?也許主要數(shù)據(jù)目標是從salesforce, microsoft dynamics或其他常見crm程序中提取帳戶或客戶聯(lián)系人?;蛘撸瑺I銷人員希望 從google analytics等工具中提取網(wǎng)絡(luò)分析數(shù)據(jù),或試圖將客戶數(shù)據(jù)推送到營銷工具(如 mailchimp)中。您應(yīng)該如何防止saas平臺成為云中的數(shù)據(jù)孤島,并輕松實現(xiàn)雙向數(shù)據(jù)流?如果您已經(jīng)擁有etl平臺,請查看供應(yīng)商是否提供通用saas平臺的標準連接器,或者有 可以從開發(fā)合作伙伴處購買的市場。如果您沒有在etl平臺上進行投資,并且您的數(shù)據(jù)集成需求主要是連接通用平臺,那么 您可能需要一個易于使用的工具來構(gòu)建簡單的數(shù)據(jù)高速公路。scri

10、be, snaplogic和stitch 等數(shù)據(jù)高速公路工具提供了簡單的網(wǎng)絡(luò)界面,可以連接到常見的數(shù)據(jù)源,選擇感興趣的領(lǐng)域, 執(zhí)行基本轉(zhuǎn)換,并將數(shù)據(jù)推送到常用目的地。數(shù)據(jù)高速公路的另一種形式有助于更接近實時地整合數(shù)據(jù)。它通過觸發(fā)器進行操作,因此 當源系統(tǒng)中的數(shù)據(jù)發(fā)生更改時,可以將其操作并推送到輔助系統(tǒng)。ifttt, workato和zapier 就是這類工具的例子。這些工具對于將單個記錄從一個saas平臺轉(zhuǎn)移到另一個saas平臺時 使用“如果是這樣的”邏輯特別有用。在評估它們時,請考慮它們集成的平臺數(shù)量,處理邏輯 的功能和簡單性以及價格,以及特定于您的需求的任何因素。5. 面向用戶與數(shù)據(jù)科學家

11、的數(shù)據(jù)準備工具當非技術(shù)和技術(shù)含量較低的用戶想要加載和清理新的數(shù)據(jù)源時,有一種新的數(shù)據(jù)準備工具 針對這些用戶,以幫助他們執(zhí)行數(shù)據(jù)集成。要實施基本的數(shù)據(jù)集成和混合,請考慮貴組織中任何商業(yè)智能系統(tǒng)已提供的數(shù)據(jù)集成功 能。looker, qlikview和tableau等工具提供基本的數(shù)據(jù)集成,建模和轉(zhuǎn)換。您還可以使 用它們發(fā)布和共享虛擬數(shù)據(jù)源。如果數(shù)據(jù)科學家和數(shù)據(jù)分析師正在處理大量數(shù)據(jù)源或花費大量時間來處理數(shù)據(jù),則與bi 工具集成的數(shù)據(jù)準備工具可能是明智的投資。什么是數(shù)據(jù)爭奪?這是業(yè)務(wù)用戶和數(shù)據(jù)科學家需要在數(shù)據(jù)源上進行的所有工作,以使其可 用于分析。它通常從分析數(shù)據(jù)開始,逐場分析顯示有多少百分比有數(shù)

12、值與數(shù)據(jù)集有什么不同 值。使用配置文件數(shù)據(jù),分析師會清理具有不同值的字段(例如“紐約”和“紐約”),合并和刪 除字段,或使用公式創(chuàng)建計算字段。他們還可以執(zhí)行行級操作,如刪除重復項和合并記錄。數(shù)據(jù)準備工具通常圍繞類似電子表格的用戶界面進行設(shè)計,以便讓用戶可視化數(shù)據(jù)配置文 件并混合數(shù)據(jù)源。但與傳統(tǒng)電子表格不同,這些工具捕獲用戶執(zhí)行的數(shù)據(jù)處理步驟并啟用可 視化和編輯操作。這些工具中的大多數(shù)可以使用它們捕獲的這些腳本來自動化具有持續(xù)運營 需求的數(shù)據(jù)饋送的數(shù)據(jù)流。有獨立的數(shù)據(jù)準備工具,如alteryx, pax ata和trifacta。另夕卜,傳統(tǒng)的etl廠商如ibm和 talend已經(jīng)開發(fā)了面向商業(yè)

13、用戶和數(shù)據(jù)科學家的數(shù)據(jù)準備工具。6. 用于應(yīng)用程序開發(fā)的api與數(shù)據(jù)集成方案如果您的目標是開發(fā)需要連接到多個數(shù)據(jù)源和api的web或移動應(yīng)用程序,則有api和 應(yīng)用程序開發(fā)工具可以簡化這些集成。這些工具不是將數(shù)據(jù)集成到中央存儲庫中,而是提供 各種選項,以便在使用多個api和數(shù)據(jù)源時支持更快的應(yīng)用程序開發(fā)。應(yīng)用程序集成有幾種不同的平臺類型和工具提供者dell boomi, jitterbit和mulesoft等平 臺旨在簡化api和數(shù)據(jù)訪問,并充當數(shù)據(jù)總線以集中交互。像built.io, outsystems和pow wow mobile這樣的低代碼和移動開發(fā)平臺可以實現(xiàn)集成,并提供開發(fā)和開發(fā)環(huán)

14、境,以快速構(gòu)建和運行應(yīng)用程序。7. 大數(shù)據(jù)企業(yè)平臺與數(shù)據(jù)集成功能如果您正在hadoop或其他大數(shù)據(jù)平臺之上開發(fā)功能,您可以選擇將數(shù)據(jù)集成到這些數(shù)據(jù) 存儲:您可以開發(fā)腳本或使用支持大數(shù)據(jù)平臺的etl工具作為端點。您可以選擇具有etl,數(shù)據(jù)治理,數(shù)據(jù)質(zhì)量,數(shù)據(jù)準備和主數(shù)據(jù)功能的端到端數(shù)據(jù)管理平 臺。你可以做到這一點。許多提供etl工具的供應(yīng)商也出售具有這些增加的大數(shù)據(jù)功能的企業(yè)平臺。還有像 datameer和unifi這樣的新興平臺可以實現(xiàn)自助服務(wù)(如數(shù)據(jù)準備工具),但是可以在支持供 應(yīng)商的hadoop發(fā)行版之上運行。8. ai驅(qū)動型數(shù)據(jù)集成平臺在跨腳本,etl,數(shù)據(jù)準備,應(yīng)用程序集成服務(wù)和大數(shù)據(jù)

15、平臺的過程中,為開發(fā)人員,數(shù) 據(jù)科學家,數(shù)據(jù)管理員和分析人員提供了大量實際的手動數(shù)據(jù)集成工作。供應(yīng)商知道這一點, 而一些下一代數(shù)據(jù)集成工具和功能將包括人工智能(ai)功能,以幫助自動化重復性任務(wù)或識 別難以找到的數(shù)據(jù)模式。例如,informatica正在營銷claire,"智能數(shù)據(jù)平臺”,而snaplogic 正在營銷iris,它“推動自我驅(qū)動整合”。9. 找到正確的數(shù)據(jù)集成工具組合考慮到平臺類型,每個空間競爭的供應(yīng)商數(shù)量以及用于分類選項的分析師術(shù)語,數(shù)據(jù)集成 選項列表可能令人望而生畏。那么,您如何才能為現(xiàn)在和未來的數(shù)據(jù)集成需求決定正確的工 具組合?簡單的答案是它需要一些紀律。首先清點已經(jīng)使用的工具,編制成功應(yīng)用的使用案例的編 目,并成功地使用這些工具捕獲人員。向他們提供其他難以實施解決方案的示例用例,因此 在尋找其他工具時可能會有所幫助。了解數(shù)據(jù)集成主題專家的感受。也許有數(shù)據(jù)集成腳本需要持續(xù)維護,財務(wù)團隊對重復性工 作感到沮喪,或者使用etl解決方案進行開發(fā)對于營銷團隊的需求來說太慢了。也許數(shù)據(jù) 科學家

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論