版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 論數據挖掘技術在高職院校信息資源共享中的應用 劉珊珊摘要:通過分析我國高職院校信息資源在“院校內部”,“院校-院?!币约啊霸盒?社會”共享過程中存在的主要問題,提出基于數據挖掘技術的信息資源共享模式,建議針對不同的資源共享方式,通過精確而有效的信息資源預處理過程,構建多個高職院校信息資源數據庫,以提升我國高職院校信息資源的共享,使信息資源能夠在高職院校教學科研,日?;顒右约吧鐣顒舆^程中得以充分并高效的利用。關鍵詞:高職院校;信息資源共享;數據挖掘;數據庫:tp311 :a :1009-3044(2016)24-0010-03信息資源,是指
2、在以信息為核心的各類信息活動要素,為人類生活和社會活動所搜索并使用。在當前信息資源大爆炸的時代里,高職院校更是信息重要的集散地1。大量而繁雜的信息資源充斥著高職院校的各個角落。但是由于缺乏有效的探索分析手段,使得高職院校中的信息資源并沒有得到充分而有效的利用1。同時,高職院校信息資源也極度缺乏與社會大眾的共享2, 3。如何提高高職院校信息資源的共享率是高職院校信息資源處理過程中亟需解決的問題。得益于計算機網絡的迅速發(fā)展,數據挖掘技術應用而生。因此,本文通過探討數據挖掘技術在高職院校信息資源共享中的應用,來為我國高職院校信息資源共享建設提供有效一定的科學依據和建議。1高職院校信息資源類型所謂高職
3、院校信息資源,就是指高職院校的日常教學、科研活動、校園生活中所產生和使用的各種信息的總和4, 5。通過資源共享機制,可以使得高職院校信息資源得以充分的利用并實現信息本身的價值。高職院校信息資源可主要分類兩類:1)服務于教學科研的信息資源:主要指圖書館所藏紙質書籍、電子文獻資源、國內外電子文獻數據庫、教學信息資源等。高職院校是主要的教學科研活動場所。學校會有大量的信息資源是為了服務教學科研活動的順利進行。學校圖書館所收藏的大量的紙質書籍、文獻資源是高職院校教學科研的基礎。此外,隨著網絡技術的發(fā)展,高職院校通過購買大量的國內外文獻數據庫擴大了傳統(tǒng)以圖書館為基礎的文獻資源。在高職院校ip范圍內,可以
4、方便查詢大量的國內外最新文獻資源。最后,教師所使用的教學課件是主要的高職院校內部最為重要的教學資源。2)豐富校園生活的信息資源:主要指為了豐富校園生活,高職院校經常進行的講座信息、培訓信息、招聘信息等信息資源。高職院校除了教學科研任務之外,高職院校通過豐富校園生活,使得學生在教學科研之外能夠有大量的機會得到全方面地提升和鍛煉。如大量的講座通知信息、培訓信息以及社會企業(yè)招聘信息等。通過共享機制使得各類信息得以共享并充分利用,從而使高職院校的信息資源共享率、使用率得以最大化是高職院校信息資源共享亟需解決的問題。本文就以高職院校中服務于教學科研的信息資源為例,探討如何通過數據挖掘技術充分提高高職院校
5、信息資源的共享。2 高職院校信息資源共享中主要存在的問題當前,我國高職院校信息資源在共享過程中存在大量的問題,主要可以劃分為三類:較差的“院校內部”共享;薄弱的“院校-院?!惫蚕恚蝗狈Φ摹霸盒?社會”共享。1)較差的“院校內部”共享。高職院校圖書館中集中了高校教學與科研所需的絕大部分學術資源與文獻信息資源,是主要的信息集散地。但是,長期以來,我國圖書館,特別是高校圖書館,受到傳統(tǒng)的思想“以藏為主,以用為輔”的影響,大量圖書資源閑置,得以閱讀并使用的圖書資源極為有限,有近50%的信息資源長期處于“靜止”狀態(tài)。共享率、使用率極低。高職院校內部教學過程中所使用的教學課件是高職院校內部教學科研主要的一
6、個信息資源。目前,教學課件的共享主要是在課間通過直接拷貝的方式從教師共享到學生(只限定在該課程的學生)。這在一定程度上大大降低了信息資源的使用價值。如何提升圖書文獻資源的共享,以及教學課件的共享是高職院校信息資源共享過程中最為重要的一個環(huán)節(jié)。2) 薄弱的“院校-院?!惫蚕怼N覈呗氃盒5闹饕毮苁桥囵B(yǎng)技術性人才,特別是培養(yǎng)應對市場需求的專業(yè)型人才?;谶@樣的培養(yǎng)目標。我國當前高職院校的資源相對單一而且局限。以計算機類高職院校為例,其所擁有的信息大多關于計算學科方面。如何加強和其他類型高校之間的其他學科信息的共享是未來高職院校信息共享的一個亟需解決的問題。通過“院校-院?!惫蚕憝h(huán)節(jié)既能優(yōu)化學科交
7、流,又能開拓學生視野。同時同類高職院校之間對于信息資源的共享問題重視度也較為不夠,這也是高職院校信息共享過程中需要面對的一個問題。通過“院校-院校”共享,既能加強同類高職院校之間的緊密合作又能提高信息量。得以實現知識的相互傳播和發(fā)展。3) 缺乏的“院校-社會”共享。高職院校信息資源針對社會大眾的分享程度及其缺乏2, 3, 6。當前,我國高職院校是孤立于社會所存在的。絕大部分的高職院校針對社會是封閉的。高職院校內部的所有教學、科研信息資源記錄著科學活動,是人類社會的寶貴財富,它們科研幫助人們認識事物的發(fā)展規(guī)律,豐富自我知識素養(yǎng),拓展思維角度等。但是,我國當前很少有高職院校愿意將自己的信息資源共享
8、給社會大眾。這就在很大程度上限制了高職院校與社會之間的交流。因此促進“院校-社會”之間的信息資源共享是高職院校信息資源共享過程中亟需嘗試的一個環(huán)節(jié)。3 數據挖掘技術的內涵數據挖掘被稱為知識發(fā)現(knowledge discovery in database, kdd),即知識發(fā)現、尋找并最終使用的過程。目前數據挖掘技術廣泛應用到高職院校信息資源共享過程中以幫助高職院校內部龐大而繁雜的信息得以高校使用12-14。數據挖掘主要分為三個具體步驟15:數據預處理階段、數據挖掘階段以及數據使用評估階段。1) 數據預處理階段:將不同資源文本信息準備好之后,系統(tǒng)將進行相似度的計算,分析信息資源之間的關聯程度
9、,并將信息資源存放到數據庫中作為源數據。2) 數據挖掘分析階段:可以通過提出問題或者輸入關鍵詞,借助數據挖掘技術創(chuàng)建一個模型來幫助獲取者獲取相似度最高的信息資源。3) 信息資源使用和評估:用戶使用信息資源之后,可以針對本次數據挖掘進行評估,其目的是為了信息資源共享平臺的更新優(yōu)化以及后來著對該信息的搜索使用效率的提高。 有研究顯示,在一個完整的數據挖掘過程中,數據預處理要花費60%左右的時間,為了是挖掘內核能夠快速有效的挖掘出用戶想要的信息,就必須要為挖掘系統(tǒng)提供準確而又干凈的源數據16-18。但是遺憾的是,高職院校中未經處理的信息資源往往多而繁雜等諸多問題:如缺乏統(tǒng)一的標識和定義;原始數據中可
10、能存在大量的重復信息造成數據冗余。數據預處理主要是接受并理解用戶的發(fā)現需求.整理與需求相關的原始數據,根據背景知識中的約束性規(guī)則對數據進行合理性檢查,通過清理和歸納操作,生成工挖掘使用的源數據。主要分為四個步驟:1)數據集成:數據集成的操作過程其實是為了將不同源的數據進行合并處理。2)數據清理:數據清理的過程是為了去除數據集成之后所產生的數據集中噪聲數據和無關數據。3)數據變換:數據變換是希望通過數據的某種特征來進行表示。4)數據簡化:在盡量保持數據原貌的前提下,通過數據變換過程中找尋的數據特征進行數據的篩選和縮減。4挖掘技術在高職院校信息資源共享中的應用分析我國高職院校信息資源共享中存在問題
11、,“院校內部”,“院校-院?!币约啊霸盒?社會”三個共享問題的存在是我國高職院校共享中亟需解決的問題。為了應對這樣的問題,我們提出多平數據庫共享的理念。這樣的理念是基于合理并有效的信息資源預處理的基礎之上。為了使得信息資源可以實現共享,特別是實現“院校-院校”共享的最終目的,各共享高職院校之間必須保持信息資源實行統(tǒng)一的標識和編碼。所以基于數據挖掘技術的高職院校信息資源共享可以具體劃分為如下幾個步驟:1)數據預處理。為了使得多個高職院校之間能夠進行后續(xù)順利的信息資源共享,其前提要有充分的數據預處理過程。信息資源保存方式存在差異等一系列的不標準、不規(guī)范的過程是在數據預處理過程中必須投入大量時間精力
12、解決的問題。不同高職院校之間要指定統(tǒng)一的標準,并按照統(tǒng)一的標準對信息資源進行預處理并轉換為數據挖掘技術可以使用的數據形式。數據的篩選和縮減是信息資源共享過程中特別要關注的問題,因為,有些信息資源針對不同的數據資源獲取者來說保密程度是不一樣的,所以,尊重一定的保密的基礎之上,進行信息資源的篩選并進行保密設置是高職院校信息資源預處理過程中極為重要的一個環(huán)節(jié)。最終形成數據庫。另外,在形成數據庫之后,通過更加嚴格的篩選方式,可以對該數據庫進行第二次的縮減,主要保留一些對社會大眾重要的一些信息,這些信息可能包括,高職院校主要科研成果,高職院校重要圖書信息資源等。而同時,這些信息資源必須是可以被社會大眾所
13、理解并可能得到應用的一些信息。進而形成另外一個簡易的數據庫。常見的數據庫中數據濃縮的方法是概念樹法。即在數據庫中,通過數據屬性對數據進行歸類,各屬性值和概念一句抽象程度不同可以構成一個層次結構,通常稱為概念樹,本文建議在進行數據預處理的過程中,所產生的數據庫可以用來進行“院校內部”以及“院校-院?!毙畔①Y源共享。2)數據挖掘操作。數據庫準備就緒之后,數據挖掘過程即可開始。通過數據挖掘工具在數據庫中對數據進行挖掘,通過系統(tǒng)自動發(fā)現信息之間的關聯進而篩選出信息獲取者所需要的信息資源。3)信息使用和評估。通過數據挖掘之后,所得到的信息可以直接被信息資源獲取者所使用。信息資源獲取者也可以通過一定的評估
14、手段進行反饋利于信息資源共享的后期優(yōu)化和完善。5結語數據挖掘技術主要是基于計算機網絡、統(tǒng)計分析等技術,并在近年來多個領域得到廣泛應用的一門技術?;跀祿诰虻男畔①Y源共享就是其中特別重要的一個應用方面。高職院校信息量龐大,信息資源復雜,基于數據挖掘技術的高職院校信息資源共享是當前高職院校信息資源共享的主要模式。針對高職院校在信息共享過程中所面對的諸多問題以及諸多不足。特別在針對“院校內部”,“院校-院校”以及“院校-社會”三個共享方面的不足和薄弱。我們提出通過精確的信息資源預處理過程構建多個信息資源數據庫,進而解決共享薄弱問題從而實現高職院校內部龐大的信息的充分和有效的利用。參考文獻:1 郭俐
15、虹.對我國高校信息資源開發(fā)利用現狀的思考j.華中農業(yè)大學學報:社會科學版, 2007, (2): 119-121.2 劉江玲.高校信息資源校地協同發(fā)展和共享機制探析j.河南科技學院學報:社會科學版, 2014, (12): 11-13.3 崔秀芬.地方高校信息資源與地方聯合共建共享初探j.圖書館論壇, 2005, 25(5): 126-128.4 程聰.高職院校信息資源的管理和利用j. 北京工業(yè)職業(yè)技術學院學報, 2012, 11(3):91-94.5 丁文霞,付巧云.高職院校信息資源建設與運用研究j. 中國教育技術裝備, 2015, (19): 73-74.6 肖希明.經濟發(fā)達地區(qū)文獻資源共享網絡的構建以珠江三角洲地區(qū)為例j. 中國圖書館學報, 2000, 26(6): 44-46.7 羅可,蔡碧野,卜勝賢, et al.數據挖掘及其發(fā)展研究j.計算機工程與應用, 2002, 38(14): 182-184.8 趙丹群.數據挖掘:原理、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 知情同意書使用說明
- 滬科版八年級數學上冊第15章軸對稱圖形與等腰三角形15-4角的平分線第2課時角平分線的判定課件
- 2024新版初三英語教材單詞表
- 企業(yè)倫理學(原書第5版) 課件 第9、10章 環(huán)境與企業(yè)的可持續(xù)發(fā)展;公司治理與會計實務中的倫理決策
- 2024-2025學年版塊11 功和機械能 專題11-2 功與能的關系 (含答案) 初中物理尖子生自主招生培優(yōu)講義83講
- DB1410T 078-2024小麥蚜蟲防控技術規(guī)程
- 湖北省武漢市2024年中考數學試卷(含答案)
- 陜西省2017年中考歷史真題試卷(含答案)
- 湖南省岳陽市汨羅市第一中學2024-2025學年高一上學期10月月考 化學試題
- 九年級英語 被動語態(tài)語法專項習題新人教版
- 修山合同模板
- 2024年教育質量檢測反饋問題及整改方案
- 2024中小學學校疫苗接種工作應急預案
- 開展與群眾懇談對話、為群眾排憂解難實施方案
- 江西省南昌市2023-2024學年六年級上學期期中數學試卷
- 《心系國防 強國有我》 課件-2024-2025學年高一上學期開學第一課國防教育主題班會
- 中廣核線上測評題庫
- 湖北省武漢市漢陽區(qū)2023-2024學年部編版八年級上學期期中歷史試卷
- 《以精細化管理推動國企高質量發(fā)展》
- 新疆福利彩票責任彩票報告(2023年)
- 2024-2030年中國電吹風行業(yè)市場深度分析及發(fā)展預測與投資策略研究報告
評論
0/150
提交評論