下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)的概念—、大數(shù)據(jù)概念”大數(shù)據(jù)“是一個(gè)體量特別大,數(shù)據(jù)類別特別大的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無法用傳統(tǒng)數(shù)據(jù)庫工具對其內(nèi)容進(jìn)行抓取、管理和處理?!贝髷?shù)據(jù)“首先是指數(shù)據(jù)體量(volumes)大,指代大型數(shù)據(jù)集,一般在10TB規(guī)模左右.但在實(shí)際應(yīng)用中,很多企業(yè)用戶把多個(gè)數(shù)據(jù)集放在—起,已經(jīng)形成了PB級的數(shù)據(jù)量;其次是指數(shù)據(jù)類別(variety)大,數(shù)據(jù)來自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式曰漸豐富,已沖破了以前所限定的結(jié)構(gòu)化數(shù)據(jù)范疇.囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。接著是數(shù)據(jù)處理速度(Velocity)快,在數(shù)據(jù)量非常龐大的情況下,也能夠做到數(shù)據(jù)的實(shí)時(shí)處理。最后一個(gè)特點(diǎn)是指數(shù)據(jù)真實(shí)性(Veracity)高,隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應(yīng)用數(shù)據(jù)等新數(shù)據(jù)源的興趣,傳統(tǒng)數(shù)據(jù)源的局限被打破,企業(yè)愈發(fā)需要有效的信息之力以確保其真實(shí)性及安全性。百度知道一大數(shù)據(jù)概念大數(shù)據(jù)(bigdata),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。大數(shù)據(jù)的4V特點(diǎn):VolumesVelocitysVarietysVeracityo互聯(lián)網(wǎng)周刊一大數(shù)據(jù)概念”大數(shù)據(jù)“的概念遠(yuǎn)不止大量的數(shù)據(jù)(TB)和處理大量數(shù)據(jù)的技術(shù),或者所謂的“4個(gè)V“之類的簡單概念,而是涵蓋了人們在大規(guī)模數(shù)據(jù)的基礎(chǔ)上可以做的事情,而這些事情在小規(guī)模數(shù)據(jù)的基礎(chǔ)上是無法實(shí)現(xiàn)的。換句話說,大數(shù)據(jù)讓我們以一種前所未有的方式,通過對海量數(shù)據(jù)進(jìn)行分析,獲得有巨大價(jià)值的產(chǎn)品和服務(wù),或深刻的洞見,最終形成變革之力研究機(jī)構(gòu)Gartner-大數(shù)據(jù)概念”大數(shù)據(jù)“是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。從數(shù)據(jù)的類別上看,”大數(shù)據(jù)“指的是無法使用傳統(tǒng)流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶采用非傳統(tǒng)處理方法的數(shù)據(jù)集。亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)、大數(shù)據(jù)科學(xué)家JohnRauser提到一個(gè)簡單的定義:大數(shù)據(jù)就是任何超過了一臺計(jì)算機(jī)處理能力的龐大數(shù)據(jù)量。研發(fā)小組對大數(shù)據(jù)的定義:”大數(shù)據(jù)是最大的宣傳技術(shù)、是最時(shí)髦的技術(shù),當(dāng)這種現(xiàn)象出現(xiàn)時(shí),定義就變得很混亂?!疜elly說:”大數(shù)據(jù)是可能不包含所有的信息,但我覺得大部分是正確的。對大數(shù)據(jù)的一部分認(rèn)知在于,它是如此之大,分析它需要多個(gè)工作負(fù)載,這是AWS的定義。當(dāng)你的技術(shù)達(dá)到極限時(shí),也就是數(shù)據(jù)的極限”。大數(shù)據(jù)不是關(guān)于如何定義,最重要的是如何使用。最大的挑戰(zhàn)在于哪些技術(shù)能更好的使用數(shù)據(jù)以及大數(shù)據(jù)的應(yīng)用情況如何。這與傳統(tǒng)的數(shù)據(jù)庫相比,開源的大數(shù)據(jù)分析工具的如Hadoop的崛起,這些非結(jié)構(gòu)化的數(shù)據(jù)服務(wù)的價(jià)值在哪里。二、大數(shù)據(jù)技術(shù)數(shù)據(jù)采集:ETLT具負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。數(shù)據(jù)存取:關(guān)系數(shù)據(jù)庫、NOSQL、SQL等?;A(chǔ)架構(gòu):云存儲、分布式文件存儲等。數(shù)據(jù)處理:自然語言處理(NLP,NaturalLanguageProcessing)>研究人與計(jì)算機(jī)交互的語言問題的一門學(xué)科。處理自然語言的關(guān)鍵是要讓計(jì)算機(jī)”理解“自然語言,所以自然語言處理又叫做自然語言理解(NLU,NaturalLanguageUnderstanding),也稱為計(jì)算語言學(xué)(ComputationalLinguistics。一方面它是語言信息處理的一個(gè)分支,另一方面它是人工智^(AI,ArtificialIntelligence)的核心課題之一。統(tǒng)計(jì)分析:假設(shè)檢驗(yàn)、顯著性檢驗(yàn)、差異分析、相關(guān)分析、T檢驗(yàn)、方差分析、卡方分析、偏相關(guān)分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預(yù)測與殘差分析、嶺回歸、logistic回歸分析、曲線估計(jì)、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應(yīng)分析、多元對應(yīng)分析(最優(yōu)尺度分析)、bootstrap技術(shù)等等。數(shù)據(jù)挖掘:分類(Classification)、估計(jì)(Estimation)、預(yù)測(Prediction)、相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinitygroupingorassociationrules)、聚類(Clustering)、描述和可視化、DescriptionandVisualization)、復(fù)雜數(shù)據(jù)類型挖掘(Text,Web,圖形圖像,視頻,音頻等)模型預(yù)測:預(yù)測模型、機(jī)器學(xué)習(xí)、建模仿真。結(jié)果呈現(xiàn):云計(jì)算、標(biāo)簽云、關(guān)系圖等。三、大數(shù)據(jù)發(fā)展趨勢能、機(jī)器學(xué)習(xí)、博弈論將在大數(shù)據(jù)分析方面發(fā)揮更大的作用。個(gè)人(自我)分析將崛起。越來越多的公司將提供消費(fèi)者可以分析的數(shù)據(jù)方式,讓他們控制自己的行為和個(gè)人生活。企業(yè)將制定更明確的隱私政策,給消費(fèi)者更多的他們的分享內(nèi)容的控制權(quán)。特定的消費(fèi)者將會積極管理他們與人分享的內(nèi)容。各行業(yè)的大數(shù)據(jù)分析將迎來更多的應(yīng)用。越來越多的企業(yè)將不滿足于大數(shù)據(jù)管理能力而尋求外部專家。移動分析顯著增加。移動推動分析會改變消費(fèi)者的消費(fèi)信息和消費(fèi)習(xí)慣。更智能的設(shè)備和器具的岀現(xiàn)很大程度的嵌入式分析。更側(cè)重于實(shí)時(shí)分析,雖然我不不看好其在今年內(nèi)會有很大的進(jìn)展。無法處理大量數(shù)據(jù)、品種或速度的產(chǎn)品分析
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)機(jī)撒糞機(jī)租賃合同范例
- 店面抵押借款 合同范例
- ic卡加油合同范例
- 工地塑剛窗戶合同范例
- 廣告節(jié)日包裝合同范例
- 2024年河南道路旅客運(yùn)輸從業(yè)資格證模擬試題
- 2024年烏魯木齊客運(yùn)從業(yè)資格證書圖片
- 2024年運(yùn)城客運(yùn)從業(yè)資格證考試技巧
- 2024年湖州申請客運(yùn)從業(yè)資格證2024年試題
- 2024年貴陽客運(yùn)從業(yè)資格證實(shí)際操作考試答案解析
- 語文教學(xué)中如何進(jìn)行分組教學(xué)
- Chinese Tea 中國茶文化 中英文
- 《嬰幼兒行為觀察、記錄與評價(jià)》習(xí)題庫(項(xiàng)目五)0 ~ 3 歲嬰幼兒社會性發(fā)展觀察、記錄與評價(jià)
- 鉆孔灌注樁灌注施工檢查記錄
- 《如何在初中體育大單元教學(xué)中更好的落實(shí)“教會”“勤練”“常賽”》 論文
- 基于學(xué)科核心素養(yǎng)的單元整體教學(xué)設(shè)計(jì)論文以鐵及其化合物為例
- 白蛋白在臨床營養(yǎng)中的合理應(yīng)用
- 中小學(xué)課外輔導(dǎo)機(jī)構(gòu)創(chuàng)業(yè)計(jì)劃書
- 群落的結(jié)構(gòu)++第1課時(shí)++群落的物種組成課件 高二上學(xué)期生物人教版(2019)選擇性必修2
- 臨床決策分析課件
- 外科學(xué)(1)智慧樹知到答案章節(jié)測試2023年溫州醫(yī)科大學(xué)
評論
0/150
提交評論