版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
精選優(yōu)質(zhì)文檔-----傾情為你奉上精選優(yōu)質(zhì)文檔-----傾情為你奉上專心---專注---專業(yè)專心---專注---專業(yè)精選優(yōu)質(zhì)文檔-----傾情為你奉上專心---專注---專業(yè)圖書館大數(shù)據(jù)模型“大數(shù)據(jù)(BigData)”是繼Web2.0之后和云計算一起被媒體最關注的詞匯組合,并正在引起信息科技領域越來越多的關注熱潮。IBM、EMC、Oracle、Microsoft等IT巨頭幾乎都已投身到了大數(shù)據(jù)的軟硬件技術整合、大數(shù)據(jù)信息處理的技術供應研究開發(fā)之中,力求在新一輪的信息競爭環(huán)境中占據(jù)主動,并搶得戰(zhàn)略先機與技術制高點。圖書館作為社會的知識信息服務中心,使得社會對圖書館所提供的服務要求更為苛刻,潛在的知識挖掘、知識評價、數(shù)據(jù)分析等增值服務需求已經(jīng)開始顯現(xiàn)。利用大數(shù)據(jù)技術去挖掘、識別、組織與分析隱含在讀者行為中的結構化、半結構化數(shù)據(jù)信息,尋找他們的隱形訴求進而改進圖書館的服務,達到圖書館資源、服務與讀者需求的雙向理想控制已成為大數(shù)據(jù)時代圖書館提高服務體系的組織水平、推動行業(yè)發(fā)展與制度建設的捷徑之一。一、大數(shù)據(jù)概念(一)大數(shù)據(jù)的定義維基百科的定義是:“大數(shù)據(jù)(BigData),或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時間內(nèi)達到截取、管理、處理、并整理成為人類所能解讀的信息?!盵1]也就是說,由于所涉及的數(shù)據(jù)規(guī)模巨大,以至于利用目前的主要軟件工具,在可允許的時間范圍內(nèi),達到查詢檢索、下載獲取、加工處理、數(shù)據(jù)管理,并有效的整理成為對用戶有用的數(shù)據(jù)資源已經(jīng)變的非常困難。美國互聯(lián)網(wǎng)中心指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的數(shù)據(jù)都是近幾年產(chǎn)生的。大數(shù)據(jù)時代最大的轉(zhuǎn)變就是人們放棄對事物因果關系的渴求,取而代之的是更加關注相關關系,對人類的認知方式和與世界交流的方式都提出了全新的挑戰(zhàn)。在大數(shù)據(jù)時代,數(shù)據(jù)就是資產(chǎn)已經(jīng)成為人們的共識。(二)大數(shù)據(jù)的特點分析員道格.萊尼(DougLaney)曾在麥塔集團(METAGroup,現(xiàn)為高德納)的一份研究報告中指出大數(shù)據(jù)的三個特點:量(Volume,數(shù)據(jù)大?。⑺伲╒elocity,數(shù)據(jù)輸入輸出的速度)與多變(Variety,多樣性),合稱“3V”。另外,以IDC為代表的業(yè)界認為滿足“4V”(Volume、Velocity、Variety、Value,即種類多、流量大、容量大、價值高)指標的數(shù)據(jù)才可稱為大數(shù)據(jù)。但無論是“3V”還是“4V”,其本質(zhì)都是對大數(shù)據(jù)中的“大”的理解與闡釋。大數(shù)據(jù)的單條數(shù)據(jù)并無太多價值,但匯集龐大的單條數(shù)據(jù)集則蘊含著巨大的財富,將已有?Y構化(如關系型數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫中的數(shù)據(jù)),半結構化數(shù)據(jù)與非結構化數(shù)據(jù)(如文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等)進行融合和分析后,會挖掘出很多新的業(yè)務信息。二、圖書館大數(shù)據(jù)(一)圖書館的大數(shù)據(jù)類型進行大數(shù)據(jù)分析首先要擁有大數(shù)據(jù),圖書館本身擁有的大數(shù)據(jù)主要包括:1.圖書館的數(shù)字化資源。經(jīng)過數(shù)字圖書館的多年建設,圖書館擁有大量的數(shù)據(jù)庫資源、電子書資源紙質(zhì)圖書電子化的數(shù)字資源,以及各種音頻、視頻資源,這些資源在總量上很大而且增長速度也比較快,它們是圖書館大數(shù)據(jù)的重要組成部分。[2]2.社交網(wǎng)絡時代出現(xiàn)的大量非結構化數(shù)據(jù)。在門戶網(wǎng)站、搜索引擎時代之后,社交網(wǎng)絡時代已經(jīng)到來。隨之而來產(chǎn)生了大量的非結構化數(shù)據(jù),通過大數(shù)據(jù)分析技術可以將這些數(shù)據(jù)進行收集分析,得出讀者的興趣偏好。伴隨著社交網(wǎng)絡、移動圖書館、物聯(lián)網(wǎng)等概念的興起,今后來自讀者的各種信息將越來越多,我們將在讀者使用圖書館服務的過程中收集讀者的地理位置、搜索歷史、搜索時間等信息,這些很多是非結構化和半結構化的數(shù)據(jù),挖掘讀者偏好,為其提供最有用的信息。3.讀者使用歷史所形成的非結構化數(shù)據(jù)。在圖書館里不管是各種數(shù)據(jù)庫資源,還是紙質(zhì)資源,以及各種學生的信息都是我們的大數(shù)據(jù)。但是這些并不是大數(shù)據(jù)的全部,只是其中的一部分。比如他們對于數(shù)據(jù)庫的檢索歷史、瀏覽歷史、數(shù)據(jù)使用方向及使用方法等信息。伴隨著移動互聯(lián)時代的到來,將從手機、平板電腦、筆記本等諸多移動終端中收集到讀者的個人信息、方位信息、瀏覽信息等各種不同的數(shù)據(jù),這才真正構成了圖書館完整的大數(shù)據(jù)采集。(二)圖書館大數(shù)據(jù)的幾個主要來源1.RFID射頻數(shù)據(jù):RFID嵌入到圖書館相關資源中,實現(xiàn)資源的跟蹤及分析。比如圖書芯片和借閱卡芯片的相關數(shù)據(jù),來優(yōu)化圖書布局和館藏結構。什么資源使用的多,哪個時段流通更頻繁,資源的處理效率如何等,都對圖書館資源的利用率和采購渠道至關重要。2.傳感器數(shù)據(jù):通過分布在圖書館不同位置或環(huán)境中的傳感器對所處環(huán)境和資源進行的感知,不斷生成的數(shù)據(jù),由于長時間積累所產(chǎn)生的數(shù)據(jù)量也非常巨大。結合物聯(lián)網(wǎng)技術,可以提升自動化設備的智能化處理能力。3.社交網(wǎng)絡交互數(shù)據(jù):隨著社交網(wǎng)絡應用的逐步推廣,社交網(wǎng)絡所產(chǎn)生的數(shù)據(jù)量遠遠超過以往任何一個信息傳播媒介,毫無疑問,它將會成為未來很長一段時間內(nèi),大數(shù)據(jù)最為主要的來源之一。該渠道可以更多地結合第三方商業(yè)數(shù)據(jù)接口,來完成數(shù)據(jù)匯集。4.移動互聯(lián)數(shù)據(jù):移動互聯(lián)網(wǎng)及移動互聯(lián)技術的不斷完善,使得圖書館可以通過WIFI定位、流量監(jiān)控等方式,靈活獲取移動電子設備、人員、資源、用戶行為和需求等信息,并對這些信息進行實時分析,從而幫助我們開展有效的智能輔助決策。[3]三、大數(shù)據(jù)應用(一)實現(xiàn)針對不同讀者的個性化服務圖書館讀者具有人數(shù)眾多、年齡不同、專業(yè)方向不同等特點給圖書館提出了不同的個性化要求。而大數(shù)據(jù)的應用就在于加強用戶研究與交互數(shù)據(jù)的利用,并基于對用戶數(shù)據(jù)的分析,從中提取有價值的信息,建立用戶模型,針對不同用戶提供針對性服務。[4]圖書館里大量的用戶行為產(chǎn)生的數(shù)據(jù),如用戶查詢書目產(chǎn)生的OPAC日志,用戶流通日志,電子資源檢索瀏覽下載產(chǎn)生的日志及流量數(shù)據(jù),這些數(shù)據(jù)中除了用于記錄讀者的個人信息外,還隱藏著許多重要的信息,因此可通過對這些數(shù)據(jù)進行挖掘分析、知識發(fā)現(xiàn)、只能代理等技術,描述用戶的行為,準確定位讀者需求,向讀者提供主動式推送服務,滿足其個性化的智能服務。(二)提供研究動向以及研究熱點的變化圖書館可以通過對讀者數(shù)據(jù)的收集匯總,進行大數(shù)據(jù)分析,可以在宏觀上分析相關領域科研熱點的動向,為科研人員、科研部門的決策者服務,讓他們更快的洞察最新的科研走向,以及相關研究領域其他科研人員的研究進展。通過大數(shù)據(jù)的分析,提升圖書館在科研領域中的作用,與此同時為科研人員提供更多有價值的研究策略信息。(三)為采編部門和數(shù)據(jù)庫采購部門提供資源評價意見(四)用戶流失分析及價值分析在當今信息技術發(fā)展的洪流中,價值質(zhì)疑、技術障礙、管理僵化、人員隊伍適應變化敏感性低等重大問題已經(jīng)嚴重困制約著圖書館的發(fā)展,圖書館的社會地位與存在價值正在不斷的弱化,用戶正在向其他文化信息機構流失。我們通過大數(shù)據(jù)分析能夠讓圖書館清晰把握用戶的信息需求及意愿,分析出用戶的信息行為及其知識應用能力,有利于圖書館對用戶的信息需求以及信息行為偏好進行預測,架構以讀者個性化服務為核心的信息服務體系。[5]大數(shù)據(jù)技術加強了圖書館對于讀者研究與交互數(shù)據(jù)分析、利用的能力,從海量數(shù)據(jù)中挖掘有用信息,建立用戶檔案與模型,在精確劃分讀者類別的基礎上,進行跟蹤服務、知識關聯(lián)服務、先覺性服務,提高用戶體驗,增加圖書館信息服務的競爭力,從而留住用戶。(五)建立新型知識服務引擎技術引擎是圖書館信息服務的技術核心,如何利用大數(shù)據(jù)技術構建圖書館的新型知識服務引擎,將會是未來幾年內(nèi)圖書館情報領域信息技術研究的主要內(nèi)容。[6]新型知識服務引擎包括資源及學術搜索引擎、資源及服務推薦引擎、知識服務社區(qū)實體(包括用戶及資源)行為智能分析引擎、用戶知識需求預測引擎、及多維度信息資源獲取、組織、分析及決策引擎等。例如美國Hiptype公司將大數(shù)據(jù)分析技術來分析電子書讀者閱讀習慣和喜好,這也是國內(nèi)外圖書情報領域首例利用大數(shù)據(jù)技術構建知識服務社區(qū)實體(包括用戶及資源)行為智能分析引擎。(六)建立知識服務及業(yè)務建設的風險模型通過分析資源,包括知識資源、網(wǎng)絡資源、信息資源、軟件資源及服務資源等的實時狀態(tài)來預測未來可能出現(xiàn)的故障及?稻葑試純贍艸魷值耐槐溆氬ǘ?,幫助圖書館預先制訂好應對措施、策略以及圖書館的各類風險評估模型。同時,如前所述,傳感器數(shù)據(jù)也是未來大數(shù)據(jù)的主要來源之一,此類數(shù)據(jù)將為圖書館獲取大量的圖書館人文環(huán)境、自然環(huán)境以及技術環(huán)境的多維度數(shù)據(jù),借助大數(shù)據(jù)技術分析、預測建立有針對性的各類圖書館風險評估模型,實現(xiàn)圖書館管理的優(yōu)化升級,保持圖書館穩(wěn)定的運行狀態(tài)。四、概念轉(zhuǎn)變數(shù)字
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教育軟件專利轉(zhuǎn)讓合作協(xié)議3篇
- 文明倡導協(xié)議3篇
- 招標進行時家具采購3篇
- 市場攤位租賃合同書3篇
- 招標文件附加說明3篇
- 摩天輪夜間燈光安裝協(xié)議
- 建筑電梯模板施工合同
- 園林綠化施工框架合同范本
- 校園廚師招聘錄用合同
- 通信設施油工施工合同
- 第四單元圖形的變化(單元測試)-2024-2025學年二年級上冊數(shù)學北師大版
- 基于區(qū)塊鏈的碳交易研究
- 2023-2024年福建高中物理會考試卷(福建會考卷)
- 供給與需求的基本原理
- 小學奧數(shù)-幾何模型分類總結(鳥頭、燕尾、風箏、一般模型等)
- 2024年專技人員公需科目考試答
- 2024年商用密碼應用安全性評估從業(yè)人員考核試題庫-上(單選題)
- 延長勞動合同協(xié)議三篇
- 中鹽集團筆試
- 項目驗收通知書模板
- 山東大學《大學英語》2022-2023學年期末試卷
評論
0/150
提交評論