圖書館信息服務數據質量管理及評價_第1頁
圖書館信息服務數據質量管理及評價_第2頁
圖書館信息服務數據質量管理及評價_第3頁
圖書館信息服務數據質量管理及評價_第4頁
圖書館信息服務數據質量管理及評價_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、圖書館信息服務數據質量管理及評價摘要數據質量影響用戶數據的整合過程與結果、數據庫 的應用性、商業(yè)智能開發(fā)以及商業(yè)品牌。由信息系統呈現的 數據,為滿足用戶的需求并將其做有效的應用,基礎均在于 數據的質量。針對數據質量的評估方式、管理架構和評估要 素,建構數據質量評價指標體系,為提高數據質量從而改善 圖書館信息服務提供參考。關鍵詞數據質量;數據管理;圖書館;信息服務中圖分類號1g252文獻標識碼a文章編號10080821 (2012) 08-006803微軟研究院科學家jim gray在2007年提出了以數據為 基礎的科學研究第四范式的概念:科學研究越來越依賴于數 據的聚集和分析。隨著信息技術的發(fā)

2、展,在有限的時間里, 快速收集復雜而且大量的資料或數據(data),由數據整合 與分析構建信息主體,再匯集足夠的信息,發(fā)展成為知識, 有了知識作為決策參考,采取行動,最后取得效益。然而, 由圖書館信息服務系統所呈現的數據,無論是數字型態(tài)還是 文字型態(tài),為滿足使用者的需求并將數據做有效的應用,一 切基礎均在于數據質量。數據質量會影響人們對組織的看 法、用戶數據整合過程與結果、數據庫的應用性、商業(yè)智能 開發(fā)以及商業(yè)品牌。因此,圖書館在為用戶提供信息服務時, 必考慮的要素即是資料或數據質量。1數據質量管理數據質量是數據滿足明確或隱含需求程度的指標。數據 質量是主觀性的,由使用者決定數據是否適用,或是

3、否高質 量的。數據質量評估可分為兩類:一是針對數據產品的收集 者、保管者、用戶的需求與經驗等方面進行評估,稱之為主 觀性評估;一是以任務獨立性與任務依賴性兩方面進行評 估,則稱為客觀性評估。數據質量管理是指對數據從計劃、獲取、存儲、共享、 維護、應用、消亡生命周期的每個階段里可能引發(fā)的各類數 據質量問題,進行識別、度量、監(jiān)控、預警等一系列管理活 動,并通過改善和提高組織的管理水平使得數據質量獲得進 一步提高。數據質量管理是循環(huán)管理過程,其終極目標是通 過可靠的數據提升數據在使用中的價值,并最終為企業(yè)贏得 經濟效益,主要包括:數據分析(profiling).數據清洗 (cleaning)數據提升

4、(enhancement),數據匹配與整合 (match&eonsolidate)、數據監(jiān)控(monitoring)等內容。1. 1數據分析通過數據分析的過程使數據收集者能夠了解數據以及 診斷數據的問題,主要是發(fā)掘組織中資源的特征和質量。有 效的數據分析可以了解機構背后隱藏的真實的數據內容、結 構和關系。有許多機構、公司投入相當多的經費作有關用戶 關系或信息系統,嘗試整合各個單位、部門、用戶或產品相 關的數據。同時,憑借數據分析可以監(jiān)控數據結構,將所有 的信息與相關的數據庫做比對,同時還可以提高數據的價 值,發(fā)現數據是否有不完整、不正確與混淆的地方。1. 2數據清洗為達到數據的高質量化

5、和提升用戶滿意度、降低機構的 危險性,必須通過校正、標準化與驗證檢測來強化數據的一 致性、正確性與可信度,以作為決策的基礎,進而構建一個 有用、主動的信息系統,提供正確的信息,以提高機構的效 率與競爭力。有效的數據質量可對機構環(huán)境有較好的認識, 并且降低無效的成本投入。1. 3數據整合數據整合的目的是為了創(chuàng)建數據的單一、戰(zhàn)略性視野(single, strategic view)o數據整合不良導致無法提供 完整的影像給決策者,而會影響一個企業(yè)或組織的用戶關系 管理 (consumer relationship management, crm)、企業(yè)資 源管理(enterprise resourc

6、e management, erm)、數據倉 庫及商業(yè)智能的原始想法。此外,數據整合并非僅是將數據 匹配或鏈接,而是適時將新的數據加入數據庫中,并且確認 所匯入或合并的新數據屬于高質量的數據。通過內外部資 源、電子資源、網絡資源等資源整合,實現圖書館全部館藏 信息資源組成的發(fā)現與獲取。1.4數據提升數據提升是指將內在或外在的數據資源,應用到本身的 機構或組織中,以達到數據的宏觀性。同時,增加現有數據 的價值也是數據提升的方法之一,如增列封面、書摘、書評 和社會化書簽等。1.5數據監(jiān)控借助數據的監(jiān)控、核查功能,當數據質量出現下降現象 時即刻提出警示,從而可以避免信息系統重復做無用功,并 且憑借數

7、據監(jiān)控與核查可隨時反應數據的質量。2數據質量評價維度2. 1準確性數據準確性用于度量數據的正確性與精確度,數據庫收錄內容的準確性及客觀性,是否來源于學術性較強的權威機 構,數據資源對學科的覆蓋率,評價指標包括涵蓋性、完整 性、獲取收集過程、測量誤差、校正和處理。涵蓋性:包括對所提供的數據能針對參照母群體有明確的說明,確認且紀錄數據來源不足或在事前定義的范圍中超 出可接受范圍,以及數據的架構可與外在及獨立數據庫比 對。查全率標引深度越大、邏輯性越好,查全率也就越高。獲取與收集:獲取是指數據輸入依據有用性數據架構,且符合數據提供者的角度;收集是指不同的數據提供者將數 據輸入類似數據庫中。出版社可視

8、為數據提供者,圖書館將 文獻數據制作成摘要即是數據采集,將數字化摘要匯集成數 據庫即為數據收集。完整性:是指數據的精確性和可靠性。它是應防止數據 庫中存在不符合語義規(guī)定的數據和防止因錯誤信息的輸入 輸出造成無效操作或錯誤信息而提出的。數據完整性分為4 類:實體完整性、域完整性、參照完整性、用戶定義的完整 性。測量誤差:數據發(fā)生錯誤很難用一個簡單的評估方法就 能找出其復雜的原因。數據錯誤可區(qū)分為測量誤差、偏差與 一致性3種;所謂測量誤差是指數據值與其真實值的差異, 即數據效度;偏差即以系統性方式檢查所得數據值與真實值 的差異程度;數據的一致性則在評估多次的測量下其變異次 數,可運用統計方法檢測。

9、校正:對不正確或遺失的數據,以特定數值替代的過程。 建立適當的校正機制是提高數據質量的保證。處理:對某一數據庫的數據為任何一個特定目的所執(zhí)行的檢視程 序或流程的過程。數據處理的過程步驟應包括數據加載、校 正、聚類等。數據庫的系統、程序、操作與執(zhí)行對數據質量 的影響很大,所有數據處理的過程均要以紀錄為基礎,由紀 錄可容易的檢視程序的效度,若要做變更,紀錄可以讓改變 執(zhí)行更為容易,并且數據處理過程有被測試,數據應被儲存 在安全處。2.2時效性時效性是指相對當前任務數據是最新數據的程度,用來 考察數據的時間特性對應用的滿足程度。數據從產生、發(fā)展、 到消亡,有一個相對的有效期,不同類型的應用對數據的時

10、 間特性有不同的要求,數據的提供、加載與分析運用的時間 差越小越好,以使數據能夠被確切實時呈現。時效性可用數 據更新及時、數據更新比例和臟數據比例等關聯關系來具體 體現,如數據庫收錄內容的時間跨度、更新頻率、等待和響 應速度,以及與對應紙本資源相比出版的及時性,評價指標 包括數據釋出時效性與數據記錄時效性。釋出時效性:是確認數據時間的重要因素,其測量方式 是計算數據釋出時間與最后一次的時間點差距,其差距越短 表示所釋出的數據呈現越接近目標。數據的釋出時間對使用 者而言有其特定價值意義,包含從數據庫中粹出數據的不定 期、定期時間點,如年報等。記錄時效性:維持高質量的數據記錄最重要的一點是, 當使

11、用者取用或匯集數據,其數據是具有效用的,同時數據 應有相應的時間記錄。2.3可比性數據的可比性是指數據庫持續(xù)維持與其它數據庫的一 致性與標準作業(yè)方式,如數據內容與報告期限。數據比對有 助于數據的詮釋、了解與維護,同時,經由類似數據的比對 可有效的檢測數據的涵括性、編碼錯誤、無反應等。數據可 比性的評估有4項指標:數據概念標準、連結性、均等性與 史實比對。概念標準:為使數據庫的數據能明確的界定,減少混淆 現象,應使用相同的數據概念定義,且數據概念標準應時時 做審查與修訂。數據概念標準應包含其概念屬性,如名稱、 類別、長度以及值域,是否標準化和開放性的系統和數據接 口。連結:當在使用數據鏈路時應有

12、隱私與保密指引,其內 容包括數據收集使用一致性的標準,以及數據編碼具一致 性。邏輯語義以及基于結構化元數據構建,支持遞進式的深 度檢索,直至獲取最小、最精準的知識單元,如基于frbr 的關聯數據等。均等:是指數據可從一種格式對應到任何一種格式,錯 誤的分類法必須做有明確的分析與調整,并有紀錄。歷史比對:即將數據應用趨勢圖、百分比、頻次比,或 縱向分析做歷史資料的比對。2. 4可用性數據可用性是指讓使用者在應用時易用、易懂且無障 礙。由數據可用性的評估可以確認數據的相關性與詮釋程 度,同時也可確認數據記錄的完整與無障礙,具有可達性、 詳細說明、可理解三項評估指標。表現在與讀者習慣的那些 著名的檢

13、索站點相似的風格和成熟度,可視化知識地圖,更 快更強更深的檢索,更優(yōu)化更人性化更可視化的顯示個性化 交互式的體驗??蛇_性:當數據用于分析或制作報告時應儲存于安全的 文檔中,且為未來參照之用。根據數據使用者的目的與需求, 數據可以不同的格式與版本建立。無論印刷/電子、元數據/ 全文、本地/遠程資源,是否一站式獲取,爭取讓用戶用更 少的點擊次數獲取更多的相關數據。詳細說明:主要是給使用提供者充分的信息,同時亦可 了解數據的質量狀況是否符合其使用的需求,可以提供數據 的收集方法、操作方式以及主要的限制條件等??衫斫猓簲祿慕Y構設計與潛在性限制是其主要影響因 素。是否界面友好,檢索方法、界面術語容易理

14、解和掌握, 易學易用。2.5相關性若要維持數據的相關性則必須持續(xù)的與主要使用者或 數據處理者聯系,以數據的適應性與價值性作為評價指標。適應性:是指它是否能根據使用者的需要,對現存的或 未來信息的位置設定有足夠的彈性或明確的界定。因為需求 與優(yōu)先級經常改變,必須有反饋機制,以使數據使用者或擁 有者能維持對現存或未來數據的關注與爭議,能夠將結果集 以更精準、更可靠的相關度排序。價值性:指圖書館信息服務對知識及其應用的貢獻度, 決定于其是否能夠滿足用戶的信息需求,以及是否能夠針對 其用戶提供合適的服務。3圖書館信息服務數據質量評價以圖書館信息服務數據質量影響因素構建如圖1所示的 評價指標樹,指標樹中包括準確性、時效性、可比性、可用 性與相關性5個層面;在準確性層面又區(qū)分涵蓋、過程、完 整、測量、校正和處理6項指標;時效性層面中以釋出時效 性、紀錄時效作為指標;可比性層面則以概念標準、均等、 連結性與歷史比對作為指標;可用性層面以可達性、詳細說 明、可理解性作為指標;相關性層面以適應性與價值性為指 標;還可在各個指標下設計若干項評估項目。請信息統計專 家學者對其進行內容效度檢測,就評價內容的重要性、適切 性與

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論