




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
圖書館需要怎樣的“大數(shù)據(jù)”
1討論背景最早提出“大數(shù)據(jù)”時(shí)代到來的是全球知名咨詢公司麥肯錫,之后這一概念出現(xiàn)在《紐約時(shí)報(bào)》[1]及《華爾街日?qǐng)?bào)》[2]專欄封面上,而將“大數(shù)據(jù)”作為全球性發(fā)展戰(zhàn)略計(jì)劃,則始于2012年2月美國(guó)奧巴馬政府宣布推出的“大數(shù)據(jù)的研究和發(fā)展計(jì)劃”,該方案計(jì)劃投資兩億多美元,在美國(guó)國(guó)家科學(xué)基金、美國(guó)國(guó)防部等六家政府部門協(xié)作下,大力推動(dòng)及改善與大數(shù)據(jù)相關(guān)的采集、組織、分析、決策工具及技術(shù)[3]。事實(shí)上,包括IBM、Oracle、HP、Microsoft等幾乎所有叫得出名字的IT行業(yè)巨頭都加入到了大數(shù)據(jù)的行列,紛紛通過收購(gòu)與大數(shù)據(jù)相關(guān)的軟硬件技術(shù)供應(yīng)機(jī)構(gòu),來實(shí)現(xiàn)大數(shù)據(jù)軟硬件一體化技術(shù)整合,力求在新的信息競(jìng)爭(zhēng)環(huán)境中處于更加主動(dòng)的競(jìng)爭(zhēng)地位及獲得更加有利的競(jìng)爭(zhēng)優(yōu)勢(shì)。由于知識(shí)傳播與利用形式不斷變化,各種新技術(shù)機(jī)制在知識(shí)創(chuàng)造、組織、傳播和應(yīng)用中扮演著愈加重要的角色[4],使得知識(shí)服務(wù)受眾、知識(shí)服務(wù)提供者、知識(shí)服務(wù)運(yùn)營(yíng)者及知識(shí)本身不僅覆蓋了圖書館基礎(chǔ)服務(wù)體系,還直指結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的常規(guī)、廣度及深度分析、科技創(chuàng)新能力智能評(píng)價(jià)、知識(shí)服務(wù)競(jìng)爭(zhēng)力分析、知識(shí)創(chuàng)新預(yù)測(cè)性分析、服務(wù)態(tài)勢(shì)綜述等高附加值服務(wù),從而實(shí)時(shí)地創(chuàng)造能高效率解決科技創(chuàng)新、知識(shí)服務(wù)、協(xié)同運(yùn)營(yíng)和實(shí)現(xiàn)機(jī)構(gòu)目標(biāo)的能力,為所服務(wù)機(jī)構(gòu)創(chuàng)造先覺價(jià)值和提供智慧服務(wù)。本文在大數(shù)據(jù)的時(shí)代背景下,探討了大數(shù)據(jù)的基本特征、存在的問題、給圖書館帶來的挑戰(zhàn)及未來主要的研究熱點(diǎn),期望能夠?yàn)槲磥淼膱D書館知識(shí)服務(wù)創(chuàng)新體系提供理論參考。2大數(shù)據(jù)給圖書館帶來的新挑戰(zhàn)2.1什么是“大數(shù)據(jù)”?“大數(shù)據(jù)”與“海量數(shù)據(jù)”不同,并不僅僅指數(shù)據(jù)量大的數(shù)據(jù),還要看它的第三個(gè)維度,也就是時(shí)間或速度維度(涉及數(shù)據(jù)流、結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的處理速率及效率),它不僅包含了“海量數(shù)據(jù)”的含義,而且在內(nèi)容上超越了海量數(shù)據(jù)。眾所周知,數(shù)據(jù)正以驚人的速度激增,除大眾所熟知的科學(xué)數(shù)據(jù)、電子商務(wù)信息、計(jì)算機(jī)仿真等領(lǐng)域的數(shù)據(jù)來源外,經(jīng)筆者分析,還可列舉出圖書情報(bào)領(lǐng)域的未來大數(shù)據(jù)的幾個(gè)主要來源:(1)RFID射頻數(shù)據(jù):RFID嵌入到圖書館相關(guān)資源中,實(shí)現(xiàn)資源的跟蹤及分析,雖然現(xiàn)階段國(guó)內(nèi)圖書館還沒有實(shí)現(xiàn)RFID的全面推廣,但一旦得到廣泛應(yīng)用,將會(huì)是大數(shù)據(jù)的主要來源之一;(2)傳感器數(shù)據(jù):通過分布在圖書館不同位置或環(huán)境中的傳感器對(duì)所處環(huán)境和資源進(jìn)行的感知,不斷生成的數(shù)據(jù),由于長(zhǎng)時(shí)間積累所產(chǎn)生的數(shù)據(jù)量也非常巨大;(3)社交網(wǎng)絡(luò)交互數(shù)據(jù):隨著社交網(wǎng)絡(luò)應(yīng)用的逐步推廣,社交網(wǎng)絡(luò)所產(chǎn)生的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超過以往任何一個(gè)信息傳播媒介,毫無疑問,它將會(huì)成為未來很長(zhǎng)一段時(shí)間內(nèi),大數(shù)據(jù)最為主要的來源之一;(4)移動(dòng)互聯(lián)數(shù)據(jù):移動(dòng)互聯(lián)網(wǎng)及移動(dòng)互聯(lián)技術(shù)的不斷完善,使得圖書館可以靈活獲取移動(dòng)電子設(shè)備、人員、資源、用戶行為和需求等信息,并對(duì)這些信息進(jìn)行實(shí)時(shí)分析,從而幫助我們開展有效的智能輔助決策[5]。對(duì)于絕大多數(shù)圖書情報(bào)領(lǐng)域人員來說,“大數(shù)據(jù)”似乎有所耳聞,但究竟什么是“大數(shù)據(jù)”,恐怕尚是一個(gè)陌生概念?;诖耍P者在總結(jié)分析相關(guān)文獻(xiàn)之后,將大數(shù)據(jù)的概念歸納為兩個(gè)方面:四種特性及三種挑戰(zhàn)。2.1.1四種特性從各種結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中,為快速獲取有價(jià)值信息,從而使用全新方法來獲取、存儲(chǔ)、組織、分析大數(shù)據(jù),并利用分析結(jié)果做出最有利的決策。因此,以下四種特性概括了大數(shù)據(jù)的主要特點(diǎn),或者說具有這四種基本特性的數(shù)據(jù)才可以稱之為大數(shù)據(jù):(1)容量(Volume):數(shù)據(jù)量巨大,從TB級(jí)別躍升至PB級(jí)別,甚至更高,傳統(tǒng)的集中存儲(chǔ)與集中計(jì)算已經(jīng)無法處理呈指數(shù)級(jí)別的數(shù)據(jù)增長(zhǎng)速度;(2)多樣性(Variety):傳統(tǒng)數(shù)據(jù)管理流程無法處理異構(gòu)和可變的大數(shù)據(jù),這些數(shù)據(jù)可能具備結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化屬性,如訪問日志、網(wǎng)絡(luò)檢索歷史記錄、Email、社交媒體、音視頻、博客、微信和傳感器數(shù)據(jù)等,甚至包括隨時(shí)間演變、不一致的和沖突的數(shù)據(jù)格式;(3)速度(Velocity):數(shù)據(jù)實(shí)時(shí)生成,同時(shí)要求按需提供交互式的、實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的數(shù)據(jù)分析,而數(shù)據(jù)分析的新趨勢(shì),則是超越常規(guī)數(shù)據(jù)分析模型的深度分析需求的增長(zhǎng),因?yàn)橛脩舨粌H僅需要通過數(shù)據(jù)了解現(xiàn)在發(fā)生了什么,更需要利用數(shù)據(jù)及時(shí)地對(duì)將要發(fā)生什么進(jìn)行預(yù)測(cè);(4)價(jià)值(Value):?jiǎn)螚l數(shù)據(jù)并無太多價(jià)值,但龐大的數(shù)據(jù)量蘊(yùn)含著巨大財(cái)富,將已有結(jié)構(gòu)化(如關(guān)系型數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫中的數(shù)據(jù)),半結(jié)構(gòu)化數(shù)據(jù)[6]與非結(jié)構(gòu)化數(shù)據(jù)(如文檔、文本、圖片、XML、HTML、各類報(bào)表、圖像和音頻/視頻信息等)進(jìn)行融合和分析后,會(huì)挖掘出很多新的業(yè)務(wù)信息[7]。2.1.2三種挑戰(zhàn)以上所描述的是大數(shù)據(jù)所具備的基本特性,結(jié)合現(xiàn)階段信息技術(shù)的發(fā)展?fàn)顩r及信息資源的利用需求,如何正視大數(shù)據(jù)給當(dāng)前圖書館各個(gè)方面帶來的沖擊及挑戰(zhàn),也是理解什么是“大數(shù)據(jù)”所必須掌握的內(nèi)容:(1)數(shù)據(jù)量增長(zhǎng)所帶來的存儲(chǔ)能力及計(jì)算能力的挑戰(zhàn)。在飛速發(fā)展的數(shù)字信息環(huán)境中,數(shù)據(jù)成本下降促使數(shù)據(jù)量急劇增長(zhǎng),新的數(shù)據(jù)源和數(shù)據(jù)采集技術(shù)的出現(xiàn)使數(shù)據(jù)類型增多,各種非結(jié)構(gòu)化的數(shù)據(jù)又增加了大數(shù)據(jù)的復(fù)雜性,但從大數(shù)據(jù)應(yīng)用中卻可以發(fā)現(xiàn)具有極強(qiáng)挑戰(zhàn)性的科學(xué)問題及社會(huì)問題,而這有助于推動(dòng)以大數(shù)據(jù)為基礎(chǔ)的科學(xué)研究第四范式,促進(jìn)圖書館形成新型知識(shí)服務(wù)范式,而現(xiàn)有數(shù)據(jù)中心技術(shù)難以滿足大數(shù)據(jù)的應(yīng)用及知識(shí)服務(wù)需求,整個(gè)知識(shí)服務(wù)架構(gòu)的革命性完善勢(shì)在必行。首先,存儲(chǔ)能力的增長(zhǎng)遠(yuǎn)遠(yuǎn)落后于數(shù)據(jù)量的增長(zhǎng),設(shè)計(jì)最合理的分層、分級(jí)存儲(chǔ)架構(gòu)已成為信息資源管理及知識(shí)服務(wù)體系的關(guān)鍵;其次,移動(dòng)互聯(lián)網(wǎng)技術(shù)的完善,使得數(shù)據(jù)移動(dòng)較之以往更為頻繁,而數(shù)據(jù)的移動(dòng)亦成為信息資源管理最大的開銷,這就促使知識(shí)管理從傳統(tǒng)的數(shù)據(jù)圍繞著計(jì)算能力轉(zhuǎn),轉(zhuǎn)變?yōu)橛?jì)算能力圍繞著數(shù)據(jù)轉(zhuǎn)[8];第三,高通量計(jì)算機(jī)、高可靠性、高可擴(kuò)展性、高可用性的規(guī)模、語義、統(tǒng)計(jì)及預(yù)測(cè)性等數(shù)據(jù)分析技術(shù)、新的數(shù)據(jù)表示方法[9]等都是亟待解決的技術(shù)問題。(2)由傳統(tǒng)常規(guī)分析向廣度、深度分析所帶來的挑戰(zhàn)。數(shù)據(jù)分析成為圖書館知識(shí)服務(wù)體系創(chuàng)新與完善必不可少的支撐點(diǎn)。圖書館不僅需要通過數(shù)據(jù)了解現(xiàn)在知識(shí)服務(wù)過程發(fā)生了什么,更需要利用數(shù)據(jù)對(duì)科研創(chuàng)新合作過程及合作交互型知識(shí)服務(wù)過程將要發(fā)生什么進(jìn)行分析和預(yù)測(cè),以便應(yīng)對(duì)圖書館未來所面對(duì)的生存危機(jī),在行動(dòng)上做出一些主動(dòng)準(zhǔn)備。值得補(bǔ)充的是,這些分析操作除了包括數(shù)據(jù)關(guān)聯(lián)關(guān)系分析、時(shí)間序列分析、大規(guī)模圖分析、社會(huì)網(wǎng)絡(luò)分析及移動(dòng)平均線分析等廣度及深度分析,還包括常規(guī)分析。(3)基礎(chǔ)設(shè)施挑戰(zhàn)。數(shù)據(jù)量及非結(jié)構(gòu)化數(shù)據(jù)的迅速增加,使得存儲(chǔ)及計(jì)算規(guī)模不得不隨之增大,導(dǎo)致其成本急劇上升,處于成本的考慮,越來越多的知識(shí)服務(wù)機(jī)構(gòu)將應(yīng)用由高端服務(wù)器轉(zhuǎn)向中低端硬件構(gòu)成的大規(guī)模計(jì)算機(jī)集群[10],從而對(duì)支持非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)及分析的基礎(chǔ)設(shè)施提出了很高要求。第一,需要將存儲(chǔ)、計(jì)算需求分布到為大規(guī)模分布式數(shù)據(jù)密集型應(yīng)用而設(shè)計(jì)的基礎(chǔ)設(shè)施中[11];第二,需要擁有經(jīng)濟(jì)高效的存儲(chǔ)與計(jì)算能力,足以獲取、存儲(chǔ)和分析TB、PB級(jí)別的數(shù)據(jù),并擁有足有的智能分析能力來減少數(shù)據(jù)足跡(如大數(shù)據(jù)壓縮、自動(dòng)數(shù)據(jù)分層及重復(fù)數(shù)據(jù)刪除等);第三,需要擁有可快速將分塊的大數(shù)據(jù)集復(fù)制到集群服務(wù)器節(jié)點(diǎn)進(jìn)行處理的網(wǎng)絡(luò)基礎(chǔ)設(shè)施;第四,需要擁有保護(hù)高度分布式基礎(chǔ)設(shè)施和數(shù)據(jù)的可信應(yīng)用體系的軟硬件基礎(chǔ)設(shè)施;第五,作為人力及智力基礎(chǔ)設(shè)施,技能熟練的圖書館員也是圖書館大數(shù)據(jù)研究及處理最值得期待的挑戰(zhàn)之一。2.2大數(shù)據(jù)給圖書館帶來哪些問題?2011年美國(guó)McKinseyGlobalInstitute發(fā)布了BigData:TheNextFrontierforInnovation,CompetitionandProductivity的調(diào)查報(bào)告,指出盡管全球數(shù)據(jù)飛速增長(zhǎng),但有將近87.5%的數(shù)據(jù)未得到真正利用,許多數(shù)據(jù)資源并沒有形成真正的知識(shí)源以供研究人員利用[12]。圖書館歷來是信息技術(shù)應(yīng)用的重鎮(zhèn),“大數(shù)據(jù)”時(shí)代亦不例外。Harvard已經(jīng)將“大數(shù)據(jù)”的服務(wù)引入了圖書館中[13],并付諸應(yīng)用[14]。這是一種最具顛覆性及創(chuàng)造性的引進(jìn),它使我們看到,在關(guān)注每一個(gè)具體的圖書館的結(jié)構(gòu)化信息資源需求的同時(shí)也可使非結(jié)構(gòu)化數(shù)據(jù)分析變得可行和經(jīng)濟(jì)高效,從而實(shí)現(xiàn)知識(shí)橫向擴(kuò)展以滿足急劇擴(kuò)張的知識(shí)服務(wù)需求。作為一個(gè)新的尚未開發(fā)的信息源,非結(jié)構(gòu)化數(shù)據(jù)分析可揭露之前很難或無法確定的重要相互關(guān)系。而作為圖書情報(bào)領(lǐng)域一項(xiàng)技術(shù)推動(dòng)的戰(zhàn)略,旨在獲得更加豐富、深入和更加準(zhǔn)確的用戶、知識(shí)運(yùn)營(yíng)者以及知識(shí)服務(wù)洞察,并最終提高圖書館的核心競(jìng)爭(zhēng)力,與以往相比,大數(shù)據(jù)應(yīng)用可更加快速地做出時(shí)間敏感的決策、監(jiān)控最新知識(shí)服務(wù)趨勢(shì)、快速調(diào)整方向并抓住新的知識(shí)服務(wù)機(jī)遇。正如數(shù)字圖書館、Library2.0、云計(jì)算技術(shù)出現(xiàn)之初,圖書情報(bào)界所出現(xiàn)很多質(zhì)疑聲音一樣,圖書情報(bào)領(lǐng)域研究大數(shù)據(jù)的嘗試也不可避免的遇到質(zhì)疑,為了推動(dòng)圖書情報(bào)領(lǐng)域里的大數(shù)據(jù)技術(shù)與提升知識(shí)服務(wù)能力、降低知識(shí)服務(wù)成本,有必要對(duì)大數(shù)據(jù)時(shí)代,圖書館所面臨的問題及機(jī)遇進(jìn)行一些討論。其中,在思想觀念上,有三個(gè)問題值得所有圖書情報(bào)界人員深入反思和探討:(1)相較于圖書館所擁有的不斷增長(zhǎng)的數(shù)據(jù)量而言,圖書館能夠分析的數(shù)據(jù)比例在不斷降低,如何充分把握大數(shù)據(jù)所帶來的技術(shù)優(yōu)勢(shì)與數(shù)據(jù)分析方法,有效提高圖書館能夠分析的數(shù)據(jù)比例,加強(qiáng)知識(shí)服務(wù)的智能輔助決策能力。(2)從圖書情報(bào)領(lǐng)域數(shù)據(jù)分析和應(yīng)用的現(xiàn)狀而言,現(xiàn)在的圖書館及人員在面對(duì)一些“可能是機(jī)會(huì)的數(shù)據(jù)”時(shí),并沒有清醒的認(rèn)識(shí),缺乏將數(shù)據(jù)轉(zhuǎn)換成知識(shí)的思想意識(shí)及非結(jié)構(gòu)化數(shù)據(jù)持久化處理及深度分析的技術(shù)及解決方案。(3)最終的問題應(yīng)該回到圖書館與人員如何認(rèn)識(shí)、管理和分析其所擁有的各種結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),如何建立軟硬件一體化集成的大數(shù)據(jù)綜合解決方案、數(shù)據(jù)及知識(shí)獲取、存儲(chǔ)、組織、分析和決策的大數(shù)據(jù)解決方案。另一方面,由于對(duì)于圖書館及人員而言,大數(shù)據(jù)技術(shù)仍然是一種全新的且未被市場(chǎng)驗(yàn)證和核實(shí)的新興技術(shù),任何一個(gè)準(zhǔn)備實(shí)施大數(shù)據(jù)計(jì)劃圖書館,從技術(shù)上都必然會(huì)被問道:(1)哪些數(shù)據(jù)應(yīng)該屬于大數(shù)據(jù)的范疇,應(yīng)該被分析及預(yù)測(cè)?(2)待分析的數(shù)量巨大的非結(jié)構(gòu)化的靜態(tài)和動(dòng)態(tài)數(shù)據(jù)是否真的具有所需要的價(jià)值?人力、物力、財(cái)力及發(fā)展張力的投入回報(bào)方面是否符合本機(jī)構(gòu)的發(fā)展規(guī)劃?(3)非結(jié)構(gòu)化數(shù)據(jù)缺乏固定結(jié)構(gòu),受數(shù)據(jù)來源、類型、時(shí)間及空間等因素的影響,非結(jié)構(gòu)化數(shù)據(jù)呈現(xiàn)不同特征及表現(xiàn)方式,也需要采用不同的數(shù)據(jù)獲取、存儲(chǔ)、組織、分析及決策技術(shù),如何依據(jù)本機(jī)構(gòu)自身的數(shù)據(jù)特性,選擇合適的、有針對(duì)性的大數(shù)據(jù)技術(shù)也應(yīng)當(dāng)成為需要深入探索的話題。(4)很多數(shù)據(jù)的可用周期很短,且屬于不同領(lǐng)域、不同時(shí)域或不同地域,怎樣將其進(jìn)行有效的整合、集成及分析?(5)什么時(shí)候以及如何在已有的數(shù)據(jù)獲取、存儲(chǔ)、組織、分析和決策流程中加入大數(shù)據(jù)的支持?(6)大數(shù)據(jù)解決方案與傳統(tǒng)的信息資源管理、信息服務(wù)方式、知識(shí)創(chuàng)新模式、數(shù)據(jù)存儲(chǔ)和分析技術(shù)之間的區(qū)別及關(guān)系是什么?(7)哪種場(chǎng)景更適合大數(shù)據(jù)解決方案?(8)大數(shù)據(jù)解決方案是進(jìn)一步完善還是完全取代傳統(tǒng)信息資源管理、信息服務(wù)方式及信息處理技術(shù)?2.2大數(shù)據(jù)怎樣幫助圖書館?以上都是圖書館在探索和實(shí)施大數(shù)據(jù)解決方案的過程中,無法回避的問題。圖書館對(duì)于大數(shù)據(jù)而言,通常有三種角色:大數(shù)據(jù)的使用者或受益者、大數(shù)據(jù)的提供者或開發(fā)者及大數(shù)據(jù)的運(yùn)營(yíng)者或維護(hù)者[15]。在前述的情景描述中,可以了解到,當(dāng)前幾乎所有大數(shù)據(jù)技術(shù)及產(chǎn)生的相關(guān)服務(wù)都可以在圖書情報(bào)領(lǐng)域得到應(yīng)用,特別是能夠給我們帶來如下新型知識(shí)服務(wù)幫助:(1)可以幫助圖書館建立各類知識(shí)服務(wù)及業(yè)務(wù)建設(shè)的風(fēng)險(xiǎn)模型。即圖書館的各類風(fēng)險(xiǎn)評(píng)估模型,例如數(shù)字圖書館信息安全風(fēng)險(xiǎn)評(píng)估模型、信息資源采購(gòu)及應(yīng)用評(píng)估風(fēng)險(xiǎn)模型、圖書出版的收益與風(fēng)險(xiǎn)模型、知識(shí)產(chǎn)權(quán)風(fēng)險(xiǎn)評(píng)估模型等,都可以通過大數(shù)據(jù)分析、預(yù)測(cè)及智能輔助決策技術(shù)建立具有自身機(jī)構(gòu)特色的、科學(xué)的及實(shí)用的風(fēng)險(xiǎn)模型。(2)圖書館用戶流失分析及價(jià)值分析。OCLC的ResearchLibraries,Risks,andSystemicChange研究報(bào)告指出,價(jià)值質(zhì)疑、技術(shù)障礙、人員隊(duì)伍無法適應(yīng)未來挑戰(zhàn)等重大問題已經(jīng)嚴(yán)重困擾著圖書館,高校教職工已經(jīng)逐步弱化了圖書館存在價(jià)值,用戶流失異常嚴(yán)重[16],大數(shù)據(jù)技術(shù)不僅可以通過數(shù)據(jù)了解用戶、行為、意愿、業(yè)務(wù)需求、知識(shí)應(yīng)用能力及知識(shí)服務(wù)需求等需要什么,更可以利用數(shù)據(jù)對(duì)用戶的科研創(chuàng)新合作過程及合作交互型知識(shí)服務(wù)過程將要發(fā)生什么進(jìn)行分析和預(yù)測(cè),從而應(yīng)對(duì)圖書館未來所面對(duì)的生存危機(jī)。(3)可以幫助圖書館建立新型知識(shí)服務(wù)引擎。技術(shù)引擎是圖書館信息服務(wù)的技術(shù)核心,如何利用大數(shù)據(jù)技術(shù)構(gòu)建圖書館的新型知識(shí)服務(wù)引擎,將會(huì)是未來幾年內(nèi)圖書情報(bào)領(lǐng)域信息技術(shù)研究的主要內(nèi)容。新型知識(shí)服務(wù)引擎包括資源及學(xué)術(shù)搜索引擎、資源及服務(wù)推薦引擎、知識(shí)服務(wù)社區(qū)實(shí)體(包括用戶及資源)行為智能分析引擎、用戶知識(shí)需求預(yù)測(cè)引擎、及多維度信息資源獲取、組織、分析及決策引擎等。例如美國(guó)Hiptype公司將大數(shù)據(jù)分析技術(shù)來分析電子書讀者閱讀習(xí)慣和喜好[17],這也是國(guó)內(nèi)外圖書情報(bào)領(lǐng)域首例利用大數(shù)據(jù)技術(shù)構(gòu)建知識(shí)服務(wù)社區(qū)實(shí)體(包括用戶及資源)行為智能分析引擎。(4)可以通過分析資源(包括軟硬件資源、網(wǎng)絡(luò)資源、信息資源、服務(wù)資源及知識(shí)資源等)的狀況來預(yù)測(cè)可能的故障,或?qū)τ谫Y源突然的波動(dòng)可以幫助圖書館制定應(yīng)對(duì)策略?例如網(wǎng)絡(luò)攻擊、風(fēng)暴、垃圾資源過濾、軟硬件資源故障、信息服務(wù)需求障礙、及知識(shí)資源波動(dòng)等。(5)可以幫助建立更加靈活的、智能的網(wǎng)絡(luò)化信息資源智能組合方式[18]。圖書館可以靈活、方便地從已有結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)資源中抓取有用的知識(shí)、關(guān)系、模式、癥狀用于新的知識(shí)服務(wù)方式。(6)如前所述,傳感器數(shù)據(jù)也是未來大數(shù)據(jù)的主要來源之一,對(duì)圖書館自然環(huán)境、人文環(huán)境及技術(shù)環(huán)境數(shù)據(jù)多維度大數(shù)據(jù)的智能分析及智能輔助決策,進(jìn)而實(shí)現(xiàn)機(jī)構(gòu)管理、發(fā)展及服務(wù)的預(yù)測(cè)、優(yōu)化和監(jiān)管。2.4當(dāng)前研究現(xiàn)狀及未來大數(shù)據(jù)主要研究熱點(diǎn)隨著數(shù)據(jù)量的飛速增長(zhǎng),對(duì)大數(shù)據(jù)進(jìn)行獲取、存儲(chǔ)、組織、分析和決策的基本策略是把大數(shù)據(jù)的計(jì)算推向數(shù)據(jù),而不是移動(dòng)數(shù)據(jù)[19],因?yàn)樵诖髷?shù)據(jù)處理過程中數(shù)據(jù)移動(dòng)代價(jià)過高,在分布式環(huán)境中,傳統(tǒng)的數(shù)據(jù)處理方法在不高于TB級(jí)別數(shù)據(jù)處理可能可以接受,但面對(duì)大數(shù)據(jù),其執(zhí)行時(shí)間和執(zhí)行成本至少會(huì)增長(zhǎng)幾個(gè)數(shù)量級(jí),特別是對(duì)大量實(shí)時(shí)數(shù)據(jù)分析,這種移動(dòng)數(shù)據(jù)的計(jì)算模式是不可取的。一般情況下,大數(shù)據(jù)管理全生命周期過程包括大數(shù)據(jù)獲取、存儲(chǔ)、組織、分析和決策五個(gè)階段,圍繞大數(shù)據(jù)管理生態(tài)系統(tǒng)的研究,可以圍繞結(jié)構(gòu)化數(shù)據(jù)管理及非結(jié)構(gòu)化數(shù)據(jù)管理兩個(gè)方面進(jìn)行研究。圍繞結(jié)構(gòu)化數(shù)據(jù)管理,即傳統(tǒng)的關(guān)系數(shù)據(jù)庫管理系統(tǒng),衍生出傳統(tǒng)的大數(shù)據(jù)獲取、存儲(chǔ)、組織、分析和決策生態(tài)系統(tǒng)。而關(guān)系數(shù)據(jù)庫作為大數(shù)據(jù)管理的核心數(shù)據(jù)引擎,各類結(jié)構(gòu)化數(shù)據(jù)通過ETI工具按照其結(jié)構(gòu)特征進(jìn)行組織,存儲(chǔ)到關(guān)系數(shù)據(jù)庫中,再在客戶端通過SQL語言進(jìn)行例行性的數(shù)據(jù)分析,進(jìn)而根據(jù)數(shù)據(jù)分析結(jié)構(gòu)進(jìn)行技術(shù)性決策分析,目前,處理結(jié)構(gòu)化大數(shù)據(jù)的關(guān)系數(shù)據(jù)庫管理技術(shù)已經(jīng)非常成熟,如商業(yè)型Oracle、SqlServer、開源型MySql等,均具備了強(qiáng)大的結(jié)構(gòu)化數(shù)據(jù)管理功能,并且均擁有較為強(qiáng)大的數(shù)據(jù)倉庫功能,對(duì)于的數(shù)據(jù)挖掘技術(shù)也已經(jīng)充分滿足一般的結(jié)構(gòu)化數(shù)據(jù)分析、決策需求。但針對(duì)復(fù)雜的結(jié)構(gòu)化和非結(jié)構(gòu)化大數(shù)據(jù)處理需求,Sql語言表達(dá)能力就暴露出了一定局限性,在某些特殊大數(shù)據(jù)處理過程中,需要把數(shù)據(jù)從數(shù)據(jù)庫中讀取出來,導(dǎo)致大量數(shù)據(jù)的移動(dòng),將數(shù)據(jù)導(dǎo)入到前端分析工具(如SPSS、SAS等),借助于統(tǒng)計(jì)分析軟件進(jìn)行大數(shù)據(jù)深度分析和決策,這樣產(chǎn)生的致命性問題就是大數(shù)據(jù)移動(dòng)會(huì)造成性能急劇下降。因此,SPSS、SAS等數(shù)據(jù)分析企業(yè)正在致力于把計(jì)算過程封裝在數(shù)據(jù)庫系統(tǒng)中執(zhí)行,但目前進(jìn)展有限,并且大數(shù)據(jù)分析函數(shù)的分布化、并行化、數(shù)據(jù)處理系統(tǒng)的擴(kuò)展性、靈活性、智能性等仍然是難以解決的問題。隨著Hadoop開源框架及其相關(guān)技術(shù)的迅速興起和逐步完善,使其成為打開大數(shù)據(jù)之門的金鑰匙,也成為解決傳統(tǒng)的大數(shù)據(jù)處理方式所面臨的兩大難題的關(guān)鍵,從而推動(dòng)大數(shù)據(jù)管理的新生態(tài)系統(tǒng)的浮現(xiàn)。從技術(shù)上看,Hadoop兩項(xiàng)關(guān)鍵服務(wù):采用Hadoop分布式文件系統(tǒng)的可靠大數(shù)據(jù)存儲(chǔ)服務(wù)、及基于MapReduce編程模型的高性能并行大數(shù)據(jù)處理服務(wù),能夠提供對(duì)結(jié)構(gòu)化和復(fù)雜數(shù)據(jù)、非結(jié)構(gòu)數(shù)據(jù)的快速、可靠分析變?yōu)楝F(xiàn)實(shí),并可與老的信息管理系統(tǒng)部署在一起,從而能夠以有利新方式組裝新舊數(shù)據(jù)集合,讓圖書館可以根據(jù)自有信息和問題定制知識(shí)服務(wù)組合方式,更容易地分析和研究復(fù)雜數(shù)據(jù),同時(shí)作為一個(gè)自愈系統(tǒng),在出現(xiàn)系統(tǒng)變化或故障時(shí),它仍可以運(yùn)行大規(guī)模的高性能處理任務(wù),并提供數(shù)據(jù)。其他諸如HadoopCommon、Chukwa、HBase、Hive、Pig、ZooKeeper等大數(shù)據(jù)處理添加件、交叉集成件和定制實(shí)現(xiàn),均能為新生態(tài)系統(tǒng)提供強(qiáng)大的技術(shù)支持。盡管如此,當(dāng)前各個(gè)方面的相關(guān)研究都不能完美的解決大數(shù)據(jù)核心問題,仍然有許多極具挑戰(zhàn)性的工作等待著我們?nèi)パ芯俊?1)關(guān)系數(shù)據(jù)庫和MapReduce技術(shù)有機(jī)融合的研究。如前所述,MapReduce與關(guān)系數(shù)據(jù)庫各有優(yōu)缺點(diǎn),如何依據(jù)不同的大數(shù)據(jù)處理業(yè)務(wù)需求,設(shè)計(jì)同時(shí)具備兩種技術(shù)優(yōu)勢(shì)的技術(shù)架構(gòu)(即有關(guān)系數(shù)據(jù)庫的通用性、易操作性和MapReduce的可擴(kuò)展性、開放性、靈活性、容錯(cuò)性和智能性),在對(duì)關(guān)系數(shù)據(jù)庫更深層次了解的基礎(chǔ)上,深入分析MapReduce編程模型內(nèi)在的局限性和并行計(jì)算模型。如何有機(jī)融合關(guān)系數(shù)據(jù)庫技術(shù)和MapReduce技術(shù),使之能夠有效地支持迭代式并行計(jì)算模型的執(zhí)行,這也是大數(shù)據(jù)處理技術(shù)的核心問題之一。(2)對(duì)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)更加復(fù)雜的或更大規(guī)模的分析。MapReduce計(jì)算模型在很大程度上,能夠彌補(bǔ)關(guān)系數(shù)據(jù)庫在這兩個(gè)方面的缺憾,而在云計(jì)算環(huán)境中可以初步實(shí)現(xiàn)更加復(fù)雜和更大規(guī)模的大數(shù)據(jù)處理,比如大規(guī)模社會(huì)計(jì)算、大規(guī)模社交網(wǎng)絡(luò)、時(shí)間序列分析、大規(guī)模圖分析、及更細(xì)粒度的仿真等,這一類技術(shù)仍然不夠成熟,需要花費(fèi)更多的時(shí)間、精力去探討。(3)大數(shù)據(jù)獲取、存儲(chǔ)、組織、分析和決策操作的可視化接口。如何較好地實(shí)現(xiàn)大數(shù)據(jù)處理的各個(gè)階段的可視化、智能化、及個(gè)性化的展示和操作,尤其是多維數(shù)據(jù)操作、及決策結(jié)果評(píng)估的可視化的智能展示。(4)大數(shù)據(jù)管理系統(tǒng)的可靠性研究[20]。當(dāng)前大數(shù)據(jù)管理體系是基于大規(guī)模廉價(jià)計(jì)算機(jī)集群的云計(jì)算環(huán)境,采用的是主從結(jié)構(gòu),由此決定了主節(jié)點(diǎn)一旦失效,勢(shì)必會(huì)造成整個(gè)大數(shù)據(jù)管理系統(tǒng)失效的局面。因此,如何在不影響全局的情況下,提高大數(shù)據(jù)管理系統(tǒng)的主節(jié)點(diǎn)的可靠性,將是未來需要解決的關(guān)鍵問題之一。(5)大數(shù)據(jù)的網(wǎng)絡(luò)傳輸和壓縮問題。Ma
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《師說》 教學(xué)設(shè)計(jì) 2024-2025學(xué)年統(tǒng)編版高中語文必修上冊(cè)
- 2024國(guó)核鈾業(yè)發(fā)展有限責(zé)任公司社會(huì)招聘(重慶有崗)筆試參考題庫附帶答案詳解
- Module 9 單元備課(教學(xué)設(shè)計(jì))-2024-2025學(xué)年外研版(一起)英語三年級(jí)上冊(cè)
- 2025年湖南工程職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)傾向性測(cè)試題庫及答案一套
- 2025年金屬包裝容器及其附件項(xiàng)目合作計(jì)劃書
- 第九單元實(shí)驗(yàn)活動(dòng)5:一定溶質(zhì)質(zhì)量分?jǐn)?shù)氯化鈉溶液的配制教學(xué)設(shè)計(jì)-2023-2024學(xué)年九年級(jí)化學(xué)人教版下冊(cè)
- 2025年湖南軟件職業(yè)技術(shù)大學(xué)單招職業(yè)適應(yīng)性測(cè)試題庫及答案1套
- 第六單元名著導(dǎo)讀《簡(jiǎn)·愛》教學(xué)設(shè)計(jì) 2023-2024學(xué)年統(tǒng)編版語文九年級(jí)下冊(cè)
- 6 兩、三位數(shù)的加法和減法第二課時(shí)(教學(xué)設(shè)計(jì))-2023-2024學(xué)年二年級(jí)下冊(cè)數(shù)學(xué)蘇教版
- 第三單元 豐富多樣的自然資源 大單元教學(xué)設(shè)計(jì)-2024-2025學(xué)年七年級(jí)地理上學(xué)期中華中圖版
- T-CERS 0007-2020 110 kV及以下變電站 并聯(lián)型直流電源系統(tǒng)技術(shù)規(guī)范
- 金屬焊接和切割作業(yè)教案
- 定制公司用工合同范本
- 《遙感地質(zhì)學(xué)》全冊(cè)配套完整教學(xué)課件
- 學(xué)科帶頭人工作計(jì)劃
- 城市更新暨老舊小區(qū)改造二期項(xiàng)目-初步設(shè)計(jì)說明書
- 礦石買賣協(xié)議書
- 2024年岳陽職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫附答案
- 2023新蘇教版六年級(jí)下冊(cè)科學(xué)學(xué)生活動(dòng)手冊(cè)答案
- 【老齡化背景下商業(yè)銀行養(yǎng)老金融發(fā)展探究文獻(xiàn)綜述3400字】
- 精神科護(hù)士進(jìn)修
評(píng)論
0/150
提交評(píng)論