大數(shù)據(jù)論文3000字_第1頁
大數(shù)據(jù)論文3000字_第2頁
大數(shù)據(jù)論文3000字_第3頁
大數(shù)據(jù)論文3000字_第4頁
大數(shù)據(jù)論文3000字_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

本文格式為Word版下載后可任意編輯和復(fù)制第第頁大數(shù)據(jù)論文3000字

大數(shù)據(jù)

大數(shù)據(jù)是指無法在肯定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)技術(shù),是指從各種各樣類型的數(shù)據(jù)中,快速獲得有價值信息的力量。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫,數(shù)據(jù)挖掘電網(wǎng),分布式文件系統(tǒng),分布式數(shù)據(jù)庫,云計算平臺,互聯(lián)網(wǎng),和可擴展的存儲系統(tǒng)。

大數(shù)據(jù)有四個基本特征:一、數(shù)據(jù)體量巨大(Vomule),二、數(shù)據(jù)類型多樣(Variety),三、處理速度快(Velocity),四、價值密度低(Value)。在大數(shù)據(jù)的領(lǐng)域現(xiàn)在已經(jīng)消失了特別多的新技術(shù),這些新技術(shù)將會是大數(shù)據(jù)收集、存儲、處理和呈現(xiàn)最強有力的工具。大數(shù)據(jù)處理一般有以下幾種關(guān)鍵性技術(shù):大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲及管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)呈現(xiàn)和應(yīng)用(大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)應(yīng)用、大數(shù)據(jù)平安等)。

大數(shù)據(jù)處理之一:采集。大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端(Web、App或者傳感器形式等)的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進行簡潔的查詢和處理工作。比如,電商會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務(wù)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。

在大數(shù)據(jù)的采集過程中,其主要特點和挑戰(zhàn)是并發(fā)數(shù)高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問量在峰值時達到上百萬,所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間進行負載均衡和分片的確是需要深化的思索和設(shè)計。

大數(shù)據(jù)處理之二:導(dǎo)入和預(yù)處理。雖然采集端本身會有許多數(shù)據(jù)庫,但是假如要對這些海量數(shù)據(jù)進行有效的分析,還是應(yīng)當(dāng)將這些來自前端的數(shù)據(jù)導(dǎo)入到一個集中的大型分布式數(shù)據(jù)庫,或者分布式存儲集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡潔的清洗和預(yù)處理工作。也有一些用戶會在導(dǎo)入時使用來自Twitter的Storm來對數(shù)據(jù)進行流式計算,來滿意部分業(yè)務(wù)的實時計算需求。

導(dǎo)入與預(yù)處理過程的特點和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量常常會達到百兆,甚至千兆級別。

大數(shù)據(jù)處理之三:統(tǒng)計和分析。統(tǒng)計與分析主要利用分布式數(shù)據(jù)庫,或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行一般的分析和分類匯總等,以滿意大多數(shù)常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。

統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對系統(tǒng)資源,特殊是I/O會有極大的占用。

大數(shù)據(jù)處理之四:挖掘。與前面統(tǒng)計和分析過程不同的是,數(shù)據(jù)挖掘一般沒有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進行基于各種算法的計算,從而起到猜測(Predict)的效果,從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的Kmeans、用于統(tǒng)計學(xué)習(xí)的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰(zhàn)主要是用于挖掘的算法很簡單,并且計算涉及的數(shù)據(jù)量和計算量都很大,常用數(shù)據(jù)挖掘算法都以單線程為主。

整個大數(shù)據(jù)處理的普遍流程至少應(yīng)當(dāng)滿意這四個方面的步驟,才能算得上是一個比較完整的大數(shù)據(jù)處理。

大數(shù)據(jù)的處理方式大致分為數(shù)據(jù)流處理方式和批量數(shù)據(jù)處理方式兩種。數(shù)據(jù)流處理的方式適合用于對實時性要求比較高的場合中。并不需要等待全部的數(shù)據(jù)都有了之后再進行處

理,而是有一點數(shù)據(jù)就處理一點,更多地要求機器的處理器有較快速的性能以及擁有比較大的主存儲器容量,對幫助存儲器的要求反而不高。批量數(shù)據(jù)處理方式是對整個要處理的數(shù)據(jù)進行切割劃分成小的數(shù)據(jù)塊,之后對其進行處理。重點在于把大化小——把劃分的小塊數(shù)據(jù)形成小任務(wù),分別單獨進行處理,并且形成小任務(wù)的過程中不是進行數(shù)據(jù)傳輸之后計算,而是將計算方法(通常是計算函數(shù)——映射并簡化)作用到這些數(shù)據(jù)塊最終得到結(jié)果。

當(dāng)前,對大數(shù)據(jù)的處理分析正成為新一代信息技術(shù)融合應(yīng)用的節(jié)點。移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、數(shù)字家庭、電子商務(wù)等是新一代信息技術(shù)的應(yīng)用形態(tài),這些應(yīng)用不斷產(chǎn)生大數(shù)據(jù)。通過對不同來源數(shù)據(jù)的管理、處理、分析與優(yōu)化,將結(jié)果反饋到上述應(yīng)用中,將制造出巨大的經(jīng)濟和社會價值。大數(shù)據(jù)也是信息產(chǎn)業(yè)持續(xù)高速增長的新引擎。面對大數(shù)據(jù)市場的新技術(shù)、新產(chǎn)品、新業(yè)態(tài)會不斷涌現(xiàn)。在硬件與集成設(shè)備領(lǐng)域,大數(shù)據(jù)將對芯片、存儲產(chǎn)業(yè)產(chǎn)生重要影響,還將催生一體化數(shù)據(jù)存儲處理服務(wù)器、內(nèi)存計算等市場。在軟件與服務(wù)領(lǐng)域,大數(shù)據(jù)將引發(fā)數(shù)據(jù)快速處理分析、數(shù)據(jù)挖掘技術(shù)和軟件產(chǎn)品的進展。大數(shù)據(jù)利用將成為提高核心競爭力的關(guān)鍵因素。各行各業(yè)的決策正在從“業(yè)務(wù)驅(qū)動”轉(zhuǎn)變?yōu)椤皵?shù)據(jù)驅(qū)動”。對大數(shù)據(jù)的分析可以使零售商實時把握市場動態(tài)并快速做出應(yīng)對;可以為商家制定更加精準有效的營銷策略供應(yīng)決策支持;可以關(guān)心企業(yè)為消費者供應(yīng)更加準時和共性化的服務(wù);在醫(yī)療領(lǐng)域,可提高診斷精確?????性和藥物有效性;在公共事業(yè)領(lǐng)域,大數(shù)據(jù)也開頭發(fā)揮促進經(jīng)濟進展、維護社會穩(wěn)定等方面的重要作用。大數(shù)據(jù)時代科學(xué)討論的方法手段將發(fā)生重大轉(zhuǎn)變。例如,抽樣調(diào)查是社會科學(xué)的基本討論方法。在大數(shù)據(jù)時代,可通過實時監(jiān)測,跟蹤討論對象在互聯(lián)網(wǎng)上產(chǎn)生的海量行為數(shù)據(jù),進行挖掘分析,揭示出規(guī)律性的東西,提出討論結(jié)論和對策。

目前大數(shù)據(jù)在醫(yī)療衛(wèi)生領(lǐng)域有廣為所知的應(yīng)用,公共衛(wèi)生部門可以通過掩蓋全國的患者電子病歷數(shù)據(jù)庫進行全面疫情監(jiān)測。5千萬條美國人最頻繁檢索的詞條被用來對冬季流感進行更準時精確?????的猜測。學(xué)術(shù)界整合出2022年H5N1禽流感感染風(fēng)險地圖,討論發(fā)行此次H7N9人類病例區(qū)域。社交網(wǎng)絡(luò)為很多慢性病患者供應(yīng)了臨床癥狀溝通和診治閱歷共享平臺,醫(yī)生借此可獲得院外臨床效果統(tǒng)計數(shù)據(jù)?;趯θ梭w基因的大數(shù)據(jù)分析,可以實現(xiàn)對癥下藥的共性化治療。

在醫(yī)藥研發(fā)方面,大數(shù)據(jù)的戰(zhàn)略意義在于對各方面醫(yī)療衛(wèi)生數(shù)據(jù)進行專業(yè)化處理,對患者甚至大眾的行為和心情的細節(jié)化測量成為可能,挖掘其癥狀特點、行為習(xí)慣和喜好等,找到更符合其特點或癥狀的藥品和服務(wù),并針對性的調(diào)整和優(yōu)化。在醫(yī)藥討論開發(fā)部門或公司的新藥研發(fā)階段,能夠通過大數(shù)據(jù)技術(shù)分析來自互聯(lián)網(wǎng)上的公眾疾病藥品需求趨勢,確定更為有效率的投入產(chǎn)品比,合理配置有限研發(fā)資源。除研發(fā)成本外,醫(yī)藥公司能夠優(yōu)化物流信息平臺及管理,更快地獵取回報,一般新藥從研發(fā)到推向市場的時間大約為13年,使用數(shù)據(jù)分析猜測則能關(guān)心醫(yī)藥研發(fā)部門或企業(yè)提早將新藥推向市場。

在疾病診治方面,可通過健康云平臺對每個居民進行智能采集健康數(shù)據(jù),居民可以隨時查閱,了解自身健康程度。同時,供應(yīng)專業(yè)的在線專家詢問系統(tǒng),由專家對居民健康程度做出診斷,提示可能發(fā)生的健康問題,避開高危病人轉(zhuǎn)為慢性病患者,避開慢性病患者病情惡化,減輕個人和醫(yī)保負擔(dān),實現(xiàn)疾病科學(xué)管理。對于醫(yī)療衛(wèi)生氣構(gòu),通過對遠程監(jiān)控系統(tǒng)產(chǎn)生數(shù)據(jù)的分析,醫(yī)院可以削減病人住院時間,削減急診量,實現(xiàn)提高家庭護理比例和門診醫(yī)生預(yù)約量的目標。武漢協(xié)和醫(yī)院目前也已經(jīng)與市區(qū)八家社區(qū)衛(wèi)生服務(wù)中心建立遠程遙控聯(lián)系,并將在將來供應(yīng)“從醫(yī)院到家”的服務(wù)。在醫(yī)療衛(wèi)生氣構(gòu),通過實時處理管理系統(tǒng)產(chǎn)生的數(shù)據(jù),連同歷史數(shù)據(jù),利用大數(shù)據(jù)技術(shù)分析就診資源的使用狀況,實現(xiàn)機構(gòu)科學(xué)管理,提高醫(yī)療衛(wèi)生服務(wù)水平和效率,引導(dǎo)醫(yī)療衛(wèi)生資源科學(xué)規(guī)劃和配置。大數(shù)據(jù)還能提升醫(yī)療價值,形成共性化醫(yī)療,比如基于基因科學(xué)的醫(yī)療模式。

在公共衛(wèi)生管理方面,大數(shù)據(jù)可以連續(xù)整合和分析公共衛(wèi)生數(shù)據(jù),提高疾病預(yù)報和預(yù)警力量,防止疫情爆發(fā)。公共衛(wèi)生部門則可以通過掩蓋區(qū)域的衛(wèi)生綜合

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論