圖書館需要怎樣的大數(shù)據(jù)_第1頁
圖書館需要怎樣的大數(shù)據(jù)_第2頁
圖書館需要怎樣的大數(shù)據(jù)_第3頁
圖書館需要怎樣的大數(shù)據(jù)_第4頁
圖書館需要怎樣的大數(shù)據(jù)_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

圖書館需要怎樣的“大數(shù)據(jù)”

1討論背景最早提出“大數(shù)據(jù)”時代到來的是全球知名咨詢公司麥肯錫,之后這一概念出現(xiàn)在《紐約時報》[1]及《華爾街日報》[2]專欄封面上,而將“大數(shù)據(jù)”作為全球性發(fā)展戰(zhàn)略計劃,則始于2012年2月美國奧巴馬政府宣布推出的“大數(shù)據(jù)的研究和發(fā)展計劃”,該方案計劃投資兩億多美元,在美國國家科學(xué)基金、美國國防部等六家政府部門協(xié)作下,大力推動及改善與大數(shù)據(jù)相關(guān)的采集、組織、分析、決策工具及技術(shù)[3]。事實上,包括IBM、Oracle、HP、Microsoft等幾乎所有叫得出名字的IT行業(yè)巨頭都加入到了大數(shù)據(jù)的行列,紛紛通過收購與大數(shù)據(jù)相關(guān)的軟硬件技術(shù)供應(yīng)機構(gòu),來實現(xiàn)大數(shù)據(jù)軟硬件一體化技術(shù)整合,力求在新的信息競爭環(huán)境中處于更加主動的競爭地位及獲得更加有利的競爭優(yōu)勢。由于知識傳播與利用形式不斷變化,各種新技術(shù)機制在知識創(chuàng)造、組織、傳播和應(yīng)用中扮演著愈加重要的角色[4],使得知識服務(wù)受眾、知識服務(wù)提供者、知識服務(wù)運營者及知識本身不僅覆蓋了圖書館基礎(chǔ)服務(wù)體系,還直指結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的常規(guī)、廣度及深度分析、科技創(chuàng)新能力智能評價、知識服務(wù)競爭力分析、知識創(chuàng)新預(yù)測性分析、服務(wù)態(tài)勢綜述等高附加值服務(wù),從而實時地創(chuàng)造能高效率解決科技創(chuàng)新、知識服務(wù)、協(xié)同運營和實現(xiàn)機構(gòu)目標(biāo)的能力,為所服務(wù)機構(gòu)創(chuàng)造先覺價值和提供智慧服務(wù)。本文在大數(shù)據(jù)的時代背景下,探討了大數(shù)據(jù)的基本特征、存在的問題、給圖書館帶來的挑戰(zhàn)及未來主要的研究熱點,期望能夠為未來的圖書館知識服務(wù)創(chuàng)新體系提供理論參考。2大數(shù)據(jù)給圖書館帶來的新挑戰(zhàn)2.1什么是“大數(shù)據(jù)”?“大數(shù)據(jù)”與“海量數(shù)據(jù)”不同,并不僅僅指數(shù)據(jù)量大的數(shù)據(jù),還要看它的第三個維度,也就是時間或速度維度(涉及數(shù)據(jù)流、結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的處理速率及效率),它不僅包含了“海量數(shù)據(jù)”的含義,而且在內(nèi)容上超越了海量數(shù)據(jù)。眾所周知,數(shù)據(jù)正以驚人的速度激增,除大眾所熟知的科學(xué)數(shù)據(jù)、電子商務(wù)信息、計算機仿真等領(lǐng)域的數(shù)據(jù)來源外,經(jīng)筆者分析,還可列舉出圖書情報領(lǐng)域的未來大數(shù)據(jù)的幾個主要來源:(1)RFID射頻數(shù)據(jù):RFID嵌入到圖書館相關(guān)資源中,實現(xiàn)資源的跟蹤及分析,雖然現(xiàn)階段國內(nèi)圖書館還沒有實現(xiàn)RFID的全面推廣,但一旦得到廣泛應(yīng)用,將會是大數(shù)據(jù)的主要來源之一;(2)傳感器數(shù)據(jù):通過分布在圖書館不同位置或環(huán)境中的傳感器對所處環(huán)境和資源進行的感知,不斷生成的數(shù)據(jù),由于長時間積累所產(chǎn)生的數(shù)據(jù)量也非常巨大;(3)社交網(wǎng)絡(luò)交互數(shù)據(jù):隨著社交網(wǎng)絡(luò)應(yīng)用的逐步推廣,社交網(wǎng)絡(luò)所產(chǎn)生的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超過以往任何一個信息傳播媒介,毫無疑問,它將會成為未來很長一段時間內(nèi),大數(shù)據(jù)最為主要的來源之一;(4)移動互聯(lián)數(shù)據(jù):移動互聯(lián)網(wǎng)及移動互聯(lián)技術(shù)的不斷完善,使得圖書館可以靈活獲取移動電子設(shè)備、人員、資源、用戶行為和需求等信息,并對這些信息進行實時分析,從而幫助我們開展有效的智能輔助決策[5]。對于絕大多數(shù)圖書情報領(lǐng)域人員來說,“大數(shù)據(jù)”似乎有所耳聞,但究竟什么是“大數(shù)據(jù)”,恐怕尚是一個陌生概念?;诖?,筆者在總結(jié)分析相關(guān)文獻之后,將大數(shù)據(jù)的概念歸納為兩個方面:四種特性及三種挑戰(zhàn)。2.1.1四種特性從各種結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中,為快速獲取有價值信息,從而使用全新方法來獲取、存儲、組織、分析大數(shù)據(jù),并利用分析結(jié)果做出最有利的決策。因此,以下四種特性概括了大數(shù)據(jù)的主要特點,或者說具有這四種基本特性的數(shù)據(jù)才可以稱之為大數(shù)據(jù):(1)容量(Volume):數(shù)據(jù)量巨大,從TB級別躍升至PB級別,甚至更高,傳統(tǒng)的集中存儲與集中計算已經(jīng)無法處理呈指數(shù)級別的數(shù)據(jù)增長速度;(2)多樣性(Variety):傳統(tǒng)數(shù)據(jù)管理流程無法處理異構(gòu)和可變的大數(shù)據(jù),這些數(shù)據(jù)可能具備結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化屬性,如訪問日志、網(wǎng)絡(luò)檢索歷史記錄、Email、社交媒體、音視頻、博客、微信和傳感器數(shù)據(jù)等,甚至包括隨時間演變、不一致的和沖突的數(shù)據(jù)格式;(3)速度(Velocity):數(shù)據(jù)實時生成,同時要求按需提供交互式的、實時或準(zhǔn)實時的數(shù)據(jù)分析,而數(shù)據(jù)分析的新趨勢,則是超越常規(guī)數(shù)據(jù)分析模型的深度分析需求的增長,因為用戶不僅僅需要通過數(shù)據(jù)了解現(xiàn)在發(fā)生了什么,更需要利用數(shù)據(jù)及時地對將要發(fā)生什么進行預(yù)測;(4)價值(Value):單條數(shù)據(jù)并無太多價值,但龐大的數(shù)據(jù)量蘊含著巨大財富,將已有結(jié)構(gòu)化(如關(guān)系型數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫中的數(shù)據(jù)),半結(jié)構(gòu)化數(shù)據(jù)[6]與非結(jié)構(gòu)化數(shù)據(jù)(如文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等)進行融合和分析后,會挖掘出很多新的業(yè)務(wù)信息[7]。2.1.2三種挑戰(zhàn)以上所描述的是大數(shù)據(jù)所具備的基本特性,結(jié)合現(xiàn)階段信息技術(shù)的發(fā)展?fàn)顩r及信息資源的利用需求,如何正視大數(shù)據(jù)給當(dāng)前圖書館各個方面帶來的沖擊及挑戰(zhàn),也是理解什么是“大數(shù)據(jù)”所必須掌握的內(nèi)容:(1)數(shù)據(jù)量增長所帶來的存儲能力及計算能力的挑戰(zhàn)。在飛速發(fā)展的數(shù)字信息環(huán)境中,數(shù)據(jù)成本下降促使數(shù)據(jù)量急劇增長,新的數(shù)據(jù)源和數(shù)據(jù)采集技術(shù)的出現(xiàn)使數(shù)據(jù)類型增多,各種非結(jié)構(gòu)化的數(shù)據(jù)又增加了大數(shù)據(jù)的復(fù)雜性,但從大數(shù)據(jù)應(yīng)用中卻可以發(fā)現(xiàn)具有極強挑戰(zhàn)性的科學(xué)問題及社會問題,而這有助于推動以大數(shù)據(jù)為基礎(chǔ)的科學(xué)研究第四范式,促進圖書館形成新型知識服務(wù)范式,而現(xiàn)有數(shù)據(jù)中心技術(shù)難以滿足大數(shù)據(jù)的應(yīng)用及知識服務(wù)需求,整個知識服務(wù)架構(gòu)的革命性完善勢在必行。首先,存儲能力的增長遠(yuǎn)遠(yuǎn)落后于數(shù)據(jù)量的增長,設(shè)計最合理的分層、分級存儲架構(gòu)已成為信息資源管理及知識服務(wù)體系的關(guān)鍵;其次,移動互聯(lián)網(wǎng)技術(shù)的完善,使得數(shù)據(jù)移動較之以往更為頻繁,而數(shù)據(jù)的移動亦成為信息資源管理最大的開銷,這就促使知識管理從傳統(tǒng)的數(shù)據(jù)圍繞著計算能力轉(zhuǎn),轉(zhuǎn)變?yōu)橛嬎隳芰@著數(shù)據(jù)轉(zhuǎn)[8];第三,高通量計算機、高可靠性、高可擴展性、高可用性的規(guī)模、語義、統(tǒng)計及預(yù)測性等數(shù)據(jù)分析技術(shù)、新的數(shù)據(jù)表示方法[9]等都是亟待解決的技術(shù)問題。(2)由傳統(tǒng)常規(guī)分析向廣度、深度分析所帶來的挑戰(zhàn)。數(shù)據(jù)分析成為圖書館知識服務(wù)體系創(chuàng)新與完善必不可少的支撐點。圖書館不僅需要通過數(shù)據(jù)了解現(xiàn)在知識服務(wù)過程發(fā)生了什么,更需要利用數(shù)據(jù)對科研創(chuàng)新合作過程及合作交互型知識服務(wù)過程將要發(fā)生什么進行分析和預(yù)測,以便應(yīng)對圖書館未來所面對的生存危機,在行動上做出一些主動準(zhǔn)備。值得補充的是,這些分析操作除了包括數(shù)據(jù)關(guān)聯(lián)關(guān)系分析、時間序列分析、大規(guī)模圖分析、社會網(wǎng)絡(luò)分析及移動平均線分析等廣度及深度分析,還包括常規(guī)分析。(3)基礎(chǔ)設(shè)施挑戰(zhàn)。數(shù)據(jù)量及非結(jié)構(gòu)化數(shù)據(jù)的迅速增加,使得存儲及計算規(guī)模不得不隨之增大,導(dǎo)致其成本急劇上升,處于成本的考慮,越來越多的知識服務(wù)機構(gòu)將應(yīng)用由高端服務(wù)器轉(zhuǎn)向中低端硬件構(gòu)成的大規(guī)模計算機集群[10],從而對支持非結(jié)構(gòu)化數(shù)據(jù)存儲及分析的基礎(chǔ)設(shè)施提出了很高要求。第一,需要將存儲、計算需求分布到為大規(guī)模分布式數(shù)據(jù)密集型應(yīng)用而設(shè)計的基礎(chǔ)設(shè)施中[11];第二,需要擁有經(jīng)濟高效的存儲與計算能力,足以獲取、存儲和分析TB、PB級別的數(shù)據(jù),并擁有足有的智能分析能力來減少數(shù)據(jù)足跡(如大數(shù)據(jù)壓縮、自動數(shù)據(jù)分層及重復(fù)數(shù)據(jù)刪除等);第三,需要擁有可快速將分塊的大數(shù)據(jù)集復(fù)制到集群服務(wù)器節(jié)點進行處理的網(wǎng)絡(luò)基礎(chǔ)設(shè)施;第四,需要擁有保護高度分布式基礎(chǔ)設(shè)施和數(shù)據(jù)的可信應(yīng)用體系的軟硬件基礎(chǔ)設(shè)施;第五,作為人力及智力基礎(chǔ)設(shè)施,技能熟練的圖書館員也是圖書館大數(shù)據(jù)研究及處理最值得期待的挑戰(zhàn)之一。2.2大數(shù)據(jù)給圖書館帶來哪些問題?2011年美國McKinseyGlobalInstitute發(fā)布了BigData:TheNextFrontierforInnovation,CompetitionandProductivity的調(diào)查報告,指出盡管全球數(shù)據(jù)飛速增長,但有將近87.5%的數(shù)據(jù)未得到真正利用,許多數(shù)據(jù)資源并沒有形成真正的知識源以供研究人員利用[12]。圖書館歷來是信息技術(shù)應(yīng)用的重鎮(zhèn),“大數(shù)據(jù)”時代亦不例外。Harvard已經(jīng)將“大數(shù)據(jù)”的服務(wù)引入了圖書館中[13],并付諸應(yīng)用[14]。這是一種最具顛覆性及創(chuàng)造性的引進,它使我們看到,在關(guān)注每一個具體的圖書館的結(jié)構(gòu)化信息資源需求的同時也可使非結(jié)構(gòu)化數(shù)據(jù)分析變得可行和經(jīng)濟高效,從而實現(xiàn)知識橫向擴展以滿足急劇擴張的知識服務(wù)需求。作為一個新的尚未開發(fā)的信息源,非結(jié)構(gòu)化數(shù)據(jù)分析可揭露之前很難或無法確定的重要相互關(guān)系。而作為圖書情報領(lǐng)域一項技術(shù)推動的戰(zhàn)略,旨在獲得更加豐富、深入和更加準(zhǔn)確的用戶、知識運營者以及知識服務(wù)洞察,并最終提高圖書館的核心競爭力,與以往相比,大數(shù)據(jù)應(yīng)用可更加快速地做出時間敏感的決策、監(jiān)控最新知識服務(wù)趨勢、快速調(diào)整方向并抓住新的知識服務(wù)機遇。正如數(shù)字圖書館、Library2.0、云計算技術(shù)出現(xiàn)之初,圖書情報界所出現(xiàn)很多質(zhì)疑聲音一樣,圖書情報領(lǐng)域研究大數(shù)據(jù)的嘗試也不可避免的遇到質(zhì)疑,為了推動圖書情報領(lǐng)域里的大數(shù)據(jù)技術(shù)與提升知識服務(wù)能力、降低知識服務(wù)成本,有必要對大數(shù)據(jù)時代,圖書館所面臨的問題及機遇進行一些討論。其中,在思想觀念上,有三個問題值得所有圖書情報界人員深入反思和探討:(1)相較于圖書館所擁有的不斷增長的數(shù)據(jù)量而言,圖書館能夠分析的數(shù)據(jù)比例在不斷降低,如何充分把握大數(shù)據(jù)所帶來的技術(shù)優(yōu)勢與數(shù)據(jù)分析方法,有效提高圖書館能夠分析的數(shù)據(jù)比例,加強知識服務(wù)的智能輔助決策能力。(2)從圖書情報領(lǐng)域數(shù)據(jù)分析和應(yīng)用的現(xiàn)狀而言,現(xiàn)在的圖書館及人員在面對一些“可能是機會的數(shù)據(jù)”時,并沒有清醒的認(rèn)識,缺乏將數(shù)據(jù)轉(zhuǎn)換成知識的思想意識及非結(jié)構(gòu)化數(shù)據(jù)持久化處理及深度分析的技術(shù)及解決方案。(3)最終的問題應(yīng)該回到圖書館與人員如何認(rèn)識、管理和分析其所擁有的各種結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),如何建立軟硬件一體化集成的大數(shù)據(jù)綜合解決方案、數(shù)據(jù)及知識獲取、存儲、組織、分析和決策的大數(shù)據(jù)解決方案。另一方面,由于對于圖書館及人員而言,大數(shù)據(jù)技術(shù)仍然是一種全新的且未被市場驗證和核實的新興技術(shù),任何一個準(zhǔn)備實施大數(shù)據(jù)計劃圖書館,從技術(shù)上都必然會被問道:(1)哪些數(shù)據(jù)應(yīng)該屬于大數(shù)據(jù)的范疇,應(yīng)該被分析及預(yù)測?(2)待分析的數(shù)量巨大的非結(jié)構(gòu)化的靜態(tài)和動態(tài)數(shù)據(jù)是否真的具有所需要的價值?人力、物力、財力及發(fā)展張力的投入回報方面是否符合本機構(gòu)的發(fā)展規(guī)劃?(3)非結(jié)構(gòu)化數(shù)據(jù)缺乏固定結(jié)構(gòu),受數(shù)據(jù)來源、類型、時間及空間等因素的影響,非結(jié)構(gòu)化數(shù)據(jù)呈現(xiàn)不同特征及表現(xiàn)方式,也需要采用不同的數(shù)據(jù)獲取、存儲、組織、分析及決策技術(shù),如何依據(jù)本機構(gòu)自身的數(shù)據(jù)特性,選擇合適的、有針對性的大數(shù)據(jù)技術(shù)也應(yīng)當(dāng)成為需要深入探索的話題。(4)很多數(shù)據(jù)的可用周期很短,且屬于不同領(lǐng)域、不同時域或不同地域,怎樣將其進行有效的整合、集成及分析?(5)什么時候以及如何在已有的數(shù)據(jù)獲取、存儲、組織、分析和決策流程中加入大數(shù)據(jù)的支持?(6)大數(shù)據(jù)解決方案與傳統(tǒng)的信息資源管理、信息服務(wù)方式、知識創(chuàng)新模式、數(shù)據(jù)存儲和分析技術(shù)之間的區(qū)別及關(guān)系是什么?(7)哪種場景更適合大數(shù)據(jù)解決方案?(8)大數(shù)據(jù)解決方案是進一步完善還是完全取代傳統(tǒng)信息資源管理、信息服務(wù)方式及信息處理技術(shù)?2.2大數(shù)據(jù)怎樣幫助圖書館?以上都是圖書館在探索和實施大數(shù)據(jù)解決方案的過程中,無法回避的問題。圖書館對于大數(shù)據(jù)而言,通常有三種角色:大數(shù)據(jù)的使用者或受益者、大數(shù)據(jù)的提供者或開發(fā)者及大數(shù)據(jù)的運營者或維護者[15]。在前述的情景描述中,可以了解到,當(dāng)前幾乎所有大數(shù)據(jù)技術(shù)及產(chǎn)生的相關(guān)服務(wù)都可以在圖書情報領(lǐng)域得到應(yīng)用,特別是能夠給我們帶來如下新型知識服務(wù)幫助:(1)可以幫助圖書館建立各類知識服務(wù)及業(yè)務(wù)建設(shè)的風(fēng)險模型。即圖書館的各類風(fēng)險評估模型,例如數(shù)字圖書館信息安全風(fēng)險評估模型、信息資源采購及應(yīng)用評估風(fēng)險模型、圖書出版的收益與風(fēng)險模型、知識產(chǎn)權(quán)風(fēng)險評估模型等,都可以通過大數(shù)據(jù)分析、預(yù)測及智能輔助決策技術(shù)建立具有自身機構(gòu)特色的、科學(xué)的及實用的風(fēng)險模型。(2)圖書館用戶流失分析及價值分析。OCLC的ResearchLibraries,Risks,andSystemicChange研究報告指出,價值質(zhì)疑、技術(shù)障礙、人員隊伍無法適應(yīng)未來挑戰(zhàn)等重大問題已經(jīng)嚴(yán)重困擾著圖書館,高校教職工已經(jīng)逐步弱化了圖書館存在價值,用戶流失異常嚴(yán)重[16],大數(shù)據(jù)技術(shù)不僅可以通過數(shù)據(jù)了解用戶、行為、意愿、業(yè)務(wù)需求、知識應(yīng)用能力及知識服務(wù)需求等需要什么,更可以利用數(shù)據(jù)對用戶的科研創(chuàng)新合作過程及合作交互型知識服務(wù)過程將要發(fā)生什么進行分析和預(yù)測,從而應(yīng)對圖書館未來所面對的生存危機。(3)可以幫助圖書館建立新型知識服務(wù)引擎。技術(shù)引擎是圖書館信息服務(wù)的技術(shù)核心,如何利用大數(shù)據(jù)技術(shù)構(gòu)建圖書館的新型知識服務(wù)引擎,將會是未來幾年內(nèi)圖書情報領(lǐng)域信息技術(shù)研究的主要內(nèi)容。新型知識服務(wù)引擎包括資源及學(xué)術(shù)搜索引擎、資源及服務(wù)推薦引擎、知識服務(wù)社區(qū)實體(包括用戶及資源)行為智能分析引擎、用戶知識需求預(yù)測引擎、及多維度信息資源獲取、組織、分析及決策引擎等。例如美國Hiptype公司將大數(shù)據(jù)分析技術(shù)來分析電子書讀者閱讀習(xí)慣和喜好[17],這也是國內(nèi)外圖書情報領(lǐng)域首例利用大數(shù)據(jù)技術(shù)構(gòu)建知識服務(wù)社區(qū)實體(包括用戶及資源)行為智能分析引擎。(4)可以通過分析資源(包括軟硬件資源、網(wǎng)絡(luò)資源、信息資源、服務(wù)資源及知識資源等)的狀況來預(yù)測可能的故障,或?qū)τ谫Y源突然的波動可以幫助圖書館制定應(yīng)對策略?例如網(wǎng)絡(luò)攻擊、風(fēng)暴、垃圾資源過濾、軟硬件資源故障、信息服務(wù)需求障礙、及知識資源波動等。(5)可以幫助建立更加靈活的、智能的網(wǎng)絡(luò)化信息資源智能組合方式[18]。圖書館可以靈活、方便地從已有結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)資源中抓取有用的知識、關(guān)系、模式、癥狀用于新的知識服務(wù)方式。(6)如前所述,傳感器數(shù)據(jù)也是未來大數(shù)據(jù)的主要來源之一,對圖書館自然環(huán)境、人文環(huán)境及技術(shù)環(huán)境數(shù)據(jù)多維度大數(shù)據(jù)的智能分析及智能輔助決策,進而實現(xiàn)機構(gòu)管理、發(fā)展及服務(wù)的預(yù)測、優(yōu)化和監(jiān)管。2.4當(dāng)前研究現(xiàn)狀及未來大數(shù)據(jù)主要研究熱點隨著數(shù)據(jù)量的飛速增長,對大數(shù)據(jù)進行獲取、存儲、組織、分析和決策的基本策略是把大數(shù)據(jù)的計算推向數(shù)據(jù),而不是移動數(shù)據(jù)[19],因為在大數(shù)據(jù)處理過程中數(shù)據(jù)移動代價過高,在分布式環(huán)境中,傳統(tǒng)的數(shù)據(jù)處理方法在不高于TB級別數(shù)據(jù)處理可能可以接受,但面對大數(shù)據(jù),其執(zhí)行時間和執(zhí)行成本至少會增長幾個數(shù)量級,特別是對大量實時數(shù)據(jù)分析,這種移動數(shù)據(jù)的計算模式是不可取的。一般情況下,大數(shù)據(jù)管理全生命周期過程包括大數(shù)據(jù)獲取、存儲、組織、分析和決策五個階段,圍繞大數(shù)據(jù)管理生態(tài)系統(tǒng)的研究,可以圍繞結(jié)構(gòu)化數(shù)據(jù)管理及非結(jié)構(gòu)化數(shù)據(jù)管理兩個方面進行研究。圍繞結(jié)構(gòu)化數(shù)據(jù)管理,即傳統(tǒng)的關(guān)系數(shù)據(jù)庫管理系統(tǒng),衍生出傳統(tǒng)的大數(shù)據(jù)獲取、存儲、組織、分析和決策生態(tài)系統(tǒng)。而關(guān)系數(shù)據(jù)庫作為大數(shù)據(jù)管理的核心數(shù)據(jù)引擎,各類結(jié)構(gòu)化數(shù)據(jù)通過ETI工具按照其結(jié)構(gòu)特征進行組織,存儲到關(guān)系數(shù)據(jù)庫中,再在客戶端通過SQL語言進行例行性的數(shù)據(jù)分析,進而根據(jù)數(shù)據(jù)分析結(jié)構(gòu)進行技術(shù)性決策分析,目前,處理結(jié)構(gòu)化大數(shù)據(jù)的關(guān)系數(shù)據(jù)庫管理技術(shù)已經(jīng)非常成熟,如商業(yè)型Oracle、SqlServer、開源型MySql等,均具備了強大的結(jié)構(gòu)化數(shù)據(jù)管理功能,并且均擁有較為強大的數(shù)據(jù)倉庫功能,對于的數(shù)據(jù)挖掘技術(shù)也已經(jīng)充分滿足一般的結(jié)構(gòu)化數(shù)據(jù)分析、決策需求。但針對復(fù)雜的結(jié)構(gòu)化和非結(jié)構(gòu)化大數(shù)據(jù)處理需求,Sql語言表達(dá)能力就暴露出了一定局限性,在某些特殊大數(shù)據(jù)處理過程中,需要把數(shù)據(jù)從數(shù)據(jù)庫中讀取出來,導(dǎo)致大量數(shù)據(jù)的移動,將數(shù)據(jù)導(dǎo)入到前端分析工具(如SPSS、SAS等),借助于統(tǒng)計分析軟件進行大數(shù)據(jù)深度分析和決策,這樣產(chǎn)生的致命性問題就是大數(shù)據(jù)移動會造成性能急劇下降。因此,SPSS、SAS等數(shù)據(jù)分析企業(yè)正在致力于把計算過程封裝在數(shù)據(jù)庫系統(tǒng)中執(zhí)行,但目前進展有限,并且大數(shù)據(jù)分析函數(shù)的分布化、并行化、數(shù)據(jù)處理系統(tǒng)的擴展性、靈活性、智能性等仍然是難以解決的問題。隨著Hadoop開源框架及其相關(guān)技術(shù)的迅速興起和逐步完善,使其成為打開大數(shù)據(jù)之門的金鑰匙,也成為解決傳統(tǒng)的大數(shù)據(jù)處理方式所面臨的兩大難題的關(guān)鍵,從而推動大數(shù)據(jù)管理的新生態(tài)系統(tǒng)的浮現(xiàn)。從技術(shù)上看,Hadoop兩項關(guān)鍵服務(wù):采用Hadoop分布式文件系統(tǒng)的可靠大數(shù)據(jù)存儲服務(wù)、及基于MapReduce編程模型的高性能并行大數(shù)據(jù)處理服務(wù),能夠提供對結(jié)構(gòu)化和復(fù)雜數(shù)據(jù)、非結(jié)構(gòu)數(shù)據(jù)的快速、可靠分析變?yōu)楝F(xiàn)實,并可與老的信息管理系統(tǒng)部署在一起,從而能夠以有利新方式組裝新舊數(shù)據(jù)集合,讓圖書館可以根據(jù)自有信息和問題定制知識服務(wù)組合方式,更容易地分析和研究復(fù)雜數(shù)據(jù),同時作為一個自愈系統(tǒng),在出現(xiàn)系統(tǒng)變化或故障時,它仍可以運行大規(guī)模的高性能處理任務(wù),并提供數(shù)據(jù)。其他諸如HadoopCommon、Chukwa、HBase、Hive、Pig、ZooKeeper等大數(shù)據(jù)處理添加件、交叉集成件和定制實現(xiàn),均能為新生態(tài)系統(tǒng)提供強大的技術(shù)支持。盡管如此,當(dāng)前各個方面的相關(guān)研究都不能完美的解決大數(shù)據(jù)核心問題,仍然有許多極具挑戰(zhàn)性的工作等待著我們?nèi)パ芯俊?1)關(guān)系數(shù)據(jù)庫和MapReduce技術(shù)有機融合的研究。如前所述,MapReduce與關(guān)系數(shù)據(jù)庫各有優(yōu)缺點,如何依據(jù)不同的大數(shù)據(jù)處理業(yè)務(wù)需求,設(shè)計同時具備兩種技術(shù)優(yōu)勢的技術(shù)架構(gòu)(即有關(guān)系數(shù)據(jù)庫的通用性、易操作性和MapReduce的可擴展性、開放性、靈活性、容錯性和智能性),在對關(guān)系數(shù)據(jù)庫更深層次了解的基礎(chǔ)上,深入分析MapReduce編程模型內(nèi)在的局限性和并行計算模型。如何有機融合關(guān)系數(shù)據(jù)庫技術(shù)和MapReduce技術(shù),使之能夠有效地支持迭代式并行計算模型的執(zhí)行,這也是大數(shù)據(jù)處理技術(shù)的核心問題之一。(2)對結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)更加復(fù)雜的或更大規(guī)模的分析。MapReduce計算模型在很大程度上,能夠彌補關(guān)系數(shù)據(jù)庫在這兩個方面的缺憾,而在云計算環(huán)境中可以初步實現(xiàn)更加復(fù)雜和更大規(guī)模的大數(shù)據(jù)處理,比如大規(guī)模社會計算、大規(guī)模社交網(wǎng)絡(luò)、時間序列分析、大規(guī)模圖分析、及更細(xì)粒度的仿真等,這一類技術(shù)仍然不夠成熟,需要花費更多的時間、精力去探討。(3)大數(shù)據(jù)獲取、存儲、組織、分析和決策操作的可視化接口。如何較好地實現(xiàn)大數(shù)據(jù)處理的各個階段的可視化、智能化、及個性化的展示和操作,尤其是多維數(shù)據(jù)操作、及決策結(jié)果評估的可視化的智能展示。(4)大數(shù)據(jù)管理系統(tǒng)的可靠性研究[20]。當(dāng)前大數(shù)據(jù)管理體系是基于大規(guī)模廉價計算機集群的云計算環(huán)境,采用的是主從結(jié)構(gòu),由此決定了主節(jié)點一旦失效,勢必會造成整個大數(shù)據(jù)管理系統(tǒng)失效的局面。因此,如何在不影響全局的情況下,提高大數(shù)據(jù)管理系統(tǒng)的主節(jié)點的可靠性,將是未來需要解決的關(guān)鍵問題之一。(5)大數(shù)據(jù)的網(wǎng)絡(luò)傳輸和壓縮問題。Ma

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論