




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、https:/檔案用戶數(shù)據(jù)分析引擎建設(shè)研究檔案用戶數(shù)據(jù)分析引擎建設(shè)研究摘要:本文提出了一個檔案用戶數(shù)據(jù)分析引擎的總體框架模型。在此基礎(chǔ)上,探討了實(shí)現(xiàn)與部署該模型應(yīng)進(jìn)行的主要工作。集中對檔案用戶數(shù)據(jù)分析引擎的實(shí)現(xiàn)技術(shù)選擇以及典型功能的實(shí)現(xiàn)方案進(jìn)行了論述,并對檔案用戶數(shù)據(jù)分析引擎的優(yōu)化問題及其配套制度建設(shè)進(jìn)行了探討。關(guān)鍵詞:檔案用戶;分析引擎;協(xié)同過濾;檔案模型;推薦系統(tǒng)本文從分析用戶數(shù)據(jù)來提升檔案服務(wù)的目的出發(fā),立足于檔案館實(shí)踐需求和實(shí)際數(shù)據(jù)建設(shè)能力,提出一個檔案用戶數(shù)據(jù)分析引擎架構(gòu)模型方案。該方案的核心思想是,通過建立檔案館對用戶數(shù)據(jù)的分析機(jī)制,指導(dǎo)和促進(jìn)自身服務(wù)的提升。1 檔案用戶數(shù)據(jù)分析引
2、擎模型本文所稱的檔案用戶數(shù)據(jù),是指用戶在利用檔案過程中所形成的反映檔案利用行為、利用主體及客體特征的數(shù)據(jù)。要實(shí)現(xiàn)通過關(guān)注檔案用戶數(shù)據(jù)促進(jìn)檔案服務(wù)的提升,就要建立對這部分?jǐn)?shù)據(jù)進(jìn)行分析、知識抽取以及采取相應(yīng)行動的機(jī)制,這就是檔案用戶數(shù)據(jù)分析引擎。該分析引擎的意義在于,使得檔案部門可以利用對用戶行為數(shù)據(jù)分析的技術(shù)手段,將原本的“數(shù)據(jù)廢氣”1變廢為寶,為檔案部門的服務(wù)提升和管理進(jìn)步提供了現(xiàn)實(shí)支持。為此,我們提出一個檔案用戶數(shù)據(jù)分析引擎模型,如圖 1 所示:圖 1 檔案用戶數(shù)據(jù)分析引擎模型該引擎總體上分為五個層次:存儲層、知識提取層、知識表示層、行為層和反饋層。其中存儲層主要負(fù)責(zé)實(shí)施對檔案用戶數(shù)據(jù)收集、
3、存儲和向上層調(diào)用控制。該層次中的檔案用戶數(shù)據(jù)收集模塊負(fù)責(zé)對檔案用戶特征、檔案利用行為、用戶對檔案評價(jià)等數(shù)據(jù)的收集,數(shù)據(jù)整理清洗模塊負(fù)責(zé)規(guī)整收集到的數(shù)據(jù)、消除數(shù)據(jù)噪聲等。隨后將收集到的數(shù)據(jù)存儲至檔案用戶數(shù)據(jù)庫中。隱私保護(hù)和密級保護(hù)規(guī)則模塊,負(fù)責(zé)防止數(shù)據(jù)向上層調(diào)用時(shí)違反隱私和保密規(guī)則。用戶滿意度是對分析引擎效能的最終極評價(jià)指標(biāo),用戶的反饋意見是引擎優(yōu)化的根本依據(jù)。因此本引擎在設(shè)計(jì)上設(shè)置了反饋層,用以收集檔案用戶對于引擎驅(qū)動的檔案服務(wù)提升的滿意度信息,根據(jù)用戶實(shí)際滿意度來調(diào)整和完善分析引擎的架構(gòu)與技術(shù)方案。2 檔案用戶數(shù)據(jù)分析引擎的實(shí)施與部署以上我們所提出的分析引擎,從概念模型的角度闡釋了引擎總體架
4、構(gòu)和所包含的功能。下面,我們結(jié)合當(dāng)前檔案館的實(shí)際,探討一下對該引擎進(jìn)行實(shí)施和部署應(yīng)采取的幾方面工作措施:https:/2.3 結(jié)合自身情況實(shí)現(xiàn)分析引擎的具體功能。所提出的檔案用戶數(shù)據(jù)分析引擎所具有的實(shí)際功能包含很多種,每種功能面對檔案部門的實(shí)際環(huán)境也會具有不同的表現(xiàn)形式。因此,檔案部門可根據(jù)自身所面對的用戶群體與檔案資源狀況,應(yīng)用自身所選擇的引擎實(shí)現(xiàn)技術(shù),實(shí)現(xiàn)符合自身服務(wù)需要的分析引擎功能。例如,可以根據(jù)自身所面對用戶的身份特征信息,開展對檔案數(shù)據(jù)資源的個性化推薦;建立對檔案用戶屬性的多維分析資源庫;開發(fā)對檔案數(shù)據(jù)資源的輔助檢索系統(tǒng),應(yīng)對用戶檢索多樣化的應(yīng)用環(huán)境;為了防止檔案資源流失,通過異常
5、檢測分析潛在的不守信用用戶并進(jìn)行預(yù)警;通過趨勢變動及預(yù)估來感知用戶對檔案需求或反饋意見的變化趨勢等。從總體講,這些具體功能的根本目的,就是為了將用戶數(shù)據(jù)驅(qū)動服務(wù)提升與管理進(jìn)步的宗旨落到實(shí)處。2.4 建立與完善分析引擎的配套制度。對于檔案部門來說,信息技術(shù)要與配套制度相結(jié)合,才能實(shí)現(xiàn)檔案服務(wù)與管理的真正進(jìn)步。用戶數(shù)據(jù)分析引擎在檔案館部署運(yùn)行的過程中,檔案部門要制定有效的管理制度和使用規(guī)范,確保其發(fā)揮良好的作用。例如,應(yīng)研究建立檔案數(shù)據(jù)個性化推薦系統(tǒng)使用規(guī)則、用戶數(shù)據(jù)收集實(shí)施辦法、用戶數(shù)據(jù)安全性責(zé)任規(guī)范、用戶意見反饋收集實(shí)施辦法等。通過這一系列的工作制度和紀(jì)律規(guī)范,明確用戶數(shù)據(jù)分析引擎運(yùn)行過程中檔
6、案工作人員的任務(wù)職責(zé),以制度的形式確保分析引擎的良好運(yùn)行以及對檔案部門進(jìn)步的促進(jìn)作用。3 檔案用戶數(shù)據(jù)分析引擎實(shí)現(xiàn)技術(shù)選擇的探討協(xié)同過濾技術(shù)3的基本原理是基于最近鄰居的評分?jǐn)?shù)據(jù)對目標(biāo)用戶產(chǎn)生推薦。協(xié)同過濾技術(shù)的核心是用戶 評分矩陣,用來表示用戶對每個項(xiàng)目的評價(jià)?;镜耐扑]步驟是用戶評價(jià)、最近鄰查找、推薦結(jié)果生成。項(xiàng)目的向量建模技術(shù)主要思想是,將目標(biāo)項(xiàng)目提取為特征向量,用于匹配計(jì)算等場景。這項(xiàng)技術(shù)的個性化程度較高,但其難點(diǎn)在于對推薦項(xiàng)目(如文檔)特征的提取,如文獻(xiàn)4中介紹了對于文本的特征提取公式等。而對于那些難以提取特征、準(zhǔn)確表達(dá)成向量形式的推薦項(xiàng)目(如音像檔案等)則較難應(yīng)用??紤]到目前我國檔案
7、館的現(xiàn)實(shí)數(shù)據(jù)分析需求、技術(shù)力量以及館藏資源特點(diǎn),在此我們提出主要選擇協(xié)同過濾技術(shù)作為用戶分析引擎的實(shí)現(xiàn)技術(shù),并輔以向量建模技術(shù)以提高分析效果。基于本節(jié)的分析,以下我們闡述幾種分析引擎典型功能的技術(shù)實(shí)現(xiàn)方案。4 檔案用戶數(shù)據(jù)分析引擎若干典型功能技術(shù)方案4.1 檔案數(shù)據(jù)資源個性化推薦。當(dāng)前用戶對檔案資源的需求主要屬于因辦理某事務(wù)而對檔案資料的剛性需求。所以在實(shí)際應(yīng)用場景中,用戶的檔案需求往往在檔案類別上有共性、在具體文件上有個性,因此,我們提出如下的推薦方案:https:/對檔案用戶進(jìn)行建模,采用向量形式描述用戶屬性集合。將檔案文件按照所屬全宗類別進(jìn)行建模,每一類別作為協(xié)同過濾矩陣中的一個項(xiàng)目。根
8、據(jù)檔案利用數(shù)據(jù),建立“用戶屬性-檔案文件類別”二值觀測值矩陣,其中以 0、1 數(shù)值的形式記錄具有某屬性的用戶利用過某類檔案文件的情況。當(dāng)目標(biāo)用戶在檔案利用中輸入自身屬性信息,分析引擎的推薦引擎模塊即根據(jù)其屬性信息在用戶向量模型空間中計(jì)算查找最相似用戶,然后檢索這些最相似用戶在“用戶屬性-檔案文件類別”矩陣中利用過什么類別的檔案文件。將檢索到的文件類別(并集)與目標(biāo)用戶自身屬性相結(jié)合,在檔案系統(tǒng)數(shù)據(jù)庫中檢索到具體的檔案數(shù)據(jù)文件推薦給用戶。該方案實(shí)際上是對經(jīng)典協(xié)同過濾技術(shù)的一種變形,主要是將其“用戶-項(xiàng)目”矩陣變?yōu)椤坝脩魧傩?檔案文件類別”矩陣,并結(jié)合用戶屬性向量實(shí)施推薦。對于目標(biāo)用戶的最近鄰查找
9、是在用戶屬性向量模型空間中完成的,而推薦結(jié)果的生成則劃分為兩步:一是在矩陣中直接讀取最近鄰用戶的檔案文件類別,二是結(jié)合目標(biāo)用戶自身屬性檢索具體檔案文件。這種策略大大緩解了傳統(tǒng)協(xié)同過濾的稀疏性與冷啟動問題。更為重要的是,其更加適用于檔案領(lǐng)域的實(shí)際場景。4.2 檔案利用關(guān)聯(lián)分析。檔案利用關(guān)聯(lián)分析的目的是要揭示用戶屬性(如身份信息、利用目的等)與所利用檔案類別集合之間的關(guān)系。這種分析得出的結(jié)果主要有兩個方面的重要用途:一是為檔案館識別用戶、安排與優(yōu)化檔案資源提供決策依據(jù);二是為實(shí)現(xiàn)上述的檔案數(shù)據(jù)資源個性化提供建模支持。基于 4.1節(jié)中所提出的協(xié)同過濾矩陣,建立利用分析模型。重點(diǎn)是根據(jù)檔案館實(shí)際情況分
10、別建立檔案用戶模型與檔案資源類別模型。其中用戶模型的建模目的是將檔案用戶映射為不同的特征向量。例如,在檔案資源個性化推薦中,使得目標(biāo)用戶能通過模型映射找到與其特征相似近鄰用戶;而對于檔案項(xiàng)目的建模,目標(biāo)是使資源模型可以準(zhǔn)確刻畫檔案數(shù)據(jù)文件從屬于何種類別,該類別的劃分有助于揭示此類文件的共性,且有助于其與用戶屬性結(jié)合后準(zhǔn)確地直接檢索到用戶所需的具體文件。具體的建模策略實(shí)際可視為一個分類模型(classificationmodel)問題,即將“用戶屬性-檔案文件類別”二值觀測值矩陣中的每一行視為一個獨(dú)特狀態(tài)。檔案館通過分析總結(jié)檔案利用數(shù)據(jù)與館藏檔案類別,首先歸納得出若干不同的利用狀態(tài)(矩陣行),然
11、后利用分類模型技術(shù),將檔案用戶身份屬性信息映射到各自唯一對應(yīng)的檔案利用狀態(tài)(也就是分類決策樹的葉節(jié)點(diǎn))。如圖 2 所示:圖 2 用戶利用檔案類別分析模型所建立的分類決策樹模型,每個葉節(jié)點(diǎn)應(yīng)對應(yīng)“用戶屬性-檔案文件類別”矩陣中的一行,決策樹中的每個非葉節(jié)點(diǎn)代表一個應(yīng)當(dāng)體現(xiàn)在用戶向量模型中的用戶屬性項(xiàng)目。從而以此指導(dǎo)建立檔案用戶向量模型。而之所以不將該決策樹直接用于推薦引擎,是因?yàn)闆Q策樹模型往往存在誤差,且直接在樹上查詢至葉https:/節(jié)點(diǎn)也往往存在效率上的問題。因此,以協(xié)同過濾技術(shù)實(shí)現(xiàn)推薦服務(wù)可具有更好的容錯性和運(yùn)行效率。在建立分類模型過程中,可以應(yīng)用諸如 C4.5 等5分類模型技術(shù),通過信息
12、增益率來確定用戶屬性項(xiàng)目的價(jià)值(即屬性選擇度量),這對于完善檔案用戶向量模型是一種直接而有效的方法。而建立分類模型需要訓(xùn)練集(trainingset)與檢驗(yàn)集(testset)。對此可以將檔案館人員分析得出的用戶屬性-利用檔案文件類別數(shù)據(jù)集,分為訓(xùn)練集與檢驗(yàn)集兩部分,前者建立決策樹,后者進(jìn)行模型的驗(yàn)證和完善。而且,這個過程在實(shí)踐中可以通過新得出的數(shù)據(jù)定期進(jìn)行,以完善和優(yōu)化所建立的分類模型。4.3 檔案未命中檢索詞分析。用戶檢索檔案數(shù)據(jù)所使用的關(guān)鍵詞,體現(xiàn)出用戶對檔案資源的實(shí)際需求以及自身表達(dá)特點(diǎn)。若是用戶在檔案信息系統(tǒng)中經(jīng)過一系列嘗試后未檢索到所需的檔案文件,那么,檔案館應(yīng)該定期對這些“未命中
13、檢索關(guān)鍵詞”進(jìn)行分析(通過操作日志等),找出檢索未命中的原因。該原因一般可歸結(jié)為三類:資源不存在、檢索詞筆誤、資源命名不匹配。在經(jīng)過認(rèn)真分析確定原因后,檔案館應(yīng)分別采取如下的處理措施:對于資源不存在,應(yīng)在對檢索詞統(tǒng)計(jì)匯總后,研究加強(qiáng)今后的檔案資源建設(shè),調(diào)整所需檔案收集的項(xiàng)目,以使館藏檔案資源的擴(kuò)充向用戶實(shí)際需求方向發(fā)展;對于檢索詞筆誤,可將用戶輸入有誤的檢索詞作為“規(guī)則”與其應(yīng)該命中的文件建立鏈接,今后系統(tǒng)再遇到該錯誤時(shí),即可將正確的文件推送到用戶,增強(qiáng)檔案檢索系統(tǒng)的容錯性;對于資源命名不匹配問題,也可按照該方式,將用戶所用檢索詞與應(yīng)命中文件鏈接,增強(qiáng)檔案檢索系統(tǒng)的適應(yīng)性。在此提出的技術(shù)策略,
14、實(shí)際上是通過倒排文件的思想,來提升檔案信息系統(tǒng)檢索的智能化水平。5 檔案用戶數(shù)據(jù)分析引擎的優(yōu)化及制度建設(shè)任何成功的制度設(shè)計(jì),都應(yīng)具備有效的自我完善機(jī)制。因此,我們提出的檔案用戶數(shù)據(jù)分析引擎設(shè)置了反饋層,用以收集分析引擎運(yùn)行后用戶對檔案服務(wù)的滿意度和反饋意見等信息。以此為依據(jù),對分析引擎的功能、實(shí)現(xiàn)機(jī)制、技術(shù)方案等做出優(yōu)化調(diào)整。對于檔案數(shù)據(jù)分析引擎的配套制度建設(shè),目前我們應(yīng)該重點(diǎn)關(guān)注兩點(diǎn):一是有效收集檔案用戶數(shù)據(jù)的問題,二是對系統(tǒng)中檔案用戶隱私保護(hù)問題。對于有效收集檔案用戶數(shù)據(jù)的問題,檔案用戶數(shù)據(jù)的主要內(nèi)容包括對檔案利用行為的數(shù)據(jù)、檔案用戶自身屬性的數(shù)據(jù)、所利用檔案具有屬性的數(shù)據(jù)三個主要的部分。
15、對于它們的收集要本著準(zhǔn)確、及時(shí)、全面的原則,因?yàn)樗鼈兪钦麄€檔案用戶數(shù)據(jù)分析引擎運(yùn)行的基石。對于檔案利用行為數(shù)據(jù),在數(shù)字化檔案館條件下,可基于檔案信息系統(tǒng)自動完成。檔案部門也可對以往檔案利用登記數(shù)據(jù)進(jìn)行匯總,獲得更為全面的利用規(guī)律。對于檔案具有屬性的數(shù)據(jù),應(yīng)基于檔案元數(shù)據(jù)來獲得,這就要求檔案部門今后要更加重視檔案元數(shù)據(jù)的收集、存儲和利用。https:/對于檔案用戶自身屬性的數(shù)據(jù),相關(guān)研究中6亦稱為用戶人口統(tǒng)計(jì)信息(DemographicInformation)等。對于其的收集,檔案部門首先是調(diào)查搞清:哪些信息項(xiàng)目對于分析引擎的功能是需要的,要收集加以考慮,而哪些信息項(xiàng)目不重要,不可盲目收集。另外
16、還要注意哪些是用戶“最不愿意填寫”的信息項(xiàng)目,這些項(xiàng)目用戶要么就不會提供、要么即使填寫也是不真實(shí)的信息,從而影響引擎的分析功能正常發(fā)揮。對此,檔案館要充分地向用戶宣傳與溝通,積極促進(jìn)用戶提供自身真實(shí)有效的屬性信息。例如,4.2 節(jié)中所提出的分類模型,其在建模過程中就會逐步篩選出對于分析有意義的用戶屬性項(xiàng)目,因此在實(shí)踐中應(yīng)對用戶的這些屬性加以重點(diǎn)收集、確保其正確和真實(shí),這就意味著檔案部門要通過有效的策略鼓勵用戶提供這些信息項(xiàng)目的真實(shí)信息。對于分析引擎中用戶隱私保護(hù)問題,當(dāng)前相關(guān)研究中7提出了一系列的用戶隱私保護(hù)措施,如收集主體的合法性、隱私管理者的保密及忠實(shí)義務(wù)、貫徹落實(shí)相關(guān)的法律規(guī)定等,在分析引擎實(shí)際運(yùn)行中可以參照這些措施對用戶的信息實(shí)施保護(hù)。這實(shí)際與有效收集用戶屬性信息問題是相輔相成的,只有用戶的信息受到良好的保護(hù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 合同范例廣聯(lián)達(dá)
- 寫勞動合同范本
- 北京自住房合同范本
- 合同范本游樂場
- 合同范本修改格式
- 合作廠房修建合同范本
- 2025年IC卡鑒別機(jī)項(xiàng)目發(fā)展計(jì)劃
- 單位分工合同范本
- 創(chuàng)業(yè)培訓(xùn)合同范本
- 基地種植合作合同范本
- 2024年全國國家版圖知識競賽題庫及答案(中小學(xué)組)
- 湘教版高中地理必修2全冊導(dǎo)學(xué)案
- 2024陜西西安事業(yè)單位歷年公開引進(jìn)高層次人才和急需緊缺人才筆試參考題庫(共500題)答案詳解版
- 2024年時(shí)事政治熱點(diǎn)題庫200道含完整答案(必刷)
- 《石油化工企業(yè)場地地下水污染防治技術(shù)指南》(T-CAEPI 39-2021)
- 人大代表身份證明
- 城區(qū)排水管網(wǎng)雨污分流改造項(xiàng)目可行性報(bào)告
- 充電設(shè)施運(yùn)營管理制度文件范文
- 《幼兒教育評價(jià)》課程標(biāo)準(zhǔn)
- 教職工安全教育培訓(xùn)課件
- 2024年山東省春季高考技能考試-汽車專業(yè)備考試題庫(濃縮500題)
評論
0/150
提交評論