版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
基于文獻聚類的數(shù)據(jù)挖掘模型設(shè)計與實現(xiàn)參賽隊員:指導(dǎo)老師:(南京人口管理干部學(xué)院江蘇南京)摘要:聚類分析是統(tǒng)計學(xué)中的一項重要技術(shù)。通過聚類可以發(fā)現(xiàn)隱藏在海量數(shù)據(jù)背后知識。本文首先建立空間向量模型,改進了傳統(tǒng)相似度的計算模型,提出了一種基于摘要詞對關(guān)鍵詞加權(quán)貢獻的相似度模型,使得文獻的空間向量更加精確。數(shù)據(jù)來源于05年CSSCI文獻數(shù)據(jù)庫圖書情報學(xué)的3千多條文獻數(shù)據(jù),并通過中知網(wǎng)查詢相關(guān)文獻的摘要。通過數(shù)據(jù)清洗、去噪聲、降維、規(guī)格化處理、樣本抽樣等一系列步驟,得到最終用于聚類的681篇文獻和108個學(xué)科特征原子詞。利用Matlab軟件編程實現(xiàn)了FCM算法的文獻聚類。將聚類的結(jié)果通過基于學(xué)科原子特征詞的學(xué)科交叉表來表示,統(tǒng)計出圖書館學(xué)、情報學(xué)和文獻學(xué)三個學(xué)科的研究熱點及交叉點,以及圖書情報學(xué)新的學(xué)科增長點,并對結(jié)果進行了檢驗,檢驗結(jié)果表明該統(tǒng)計模型是科學(xué)的、有意義的。關(guān)鍵詞:聚類;交叉學(xué)科;關(guān)鍵詞;摘要;相似度;FCM一、引言1.研究背景聚類分析(ClusteringAnalysis)是統(tǒng)計、模式識別和數(shù)據(jù)挖掘等領(lǐng)域中一個非常重要的技術(shù),文獻聚類就是依據(jù)文獻之間的相似度按照一定的算法準則,挖掘隱藏在海量文獻數(shù)據(jù)背后的有用知識:如學(xué)科交叉、研究熱點和新的研究方向。科學(xué)研究需要創(chuàng)新。科學(xué)技術(shù)的發(fā)展為每個學(xué)科的發(fā)展帶來新的機遇的同時,也帶來更為嚴峻的挑戰(zhàn)。目前,文、理、工、管等學(xué)科之間相互滲透、交叉、融合已經(jīng)成為一種潮流和趨勢,其深度和廣度正在進一步深化。眾所周知,近代科學(xué)發(fā)展特別是科學(xué)上的重大發(fā)現(xiàn)和國計民生中的重大社會問題的解決,常常涉及不同學(xué)科的相互交充滿和相互滲透。學(xué)科交叉逐漸形成一批交叉學(xué)科,如化學(xué)與物理學(xué)的交叉形成了物理化學(xué)和化學(xué)物理學(xué),化學(xué)與生物學(xué)的交叉形成了生物化學(xué)和化學(xué)生物學(xué),物理學(xué)與生物學(xué)交叉形成了生物物理學(xué)等。這些交叉學(xué)科的不斷發(fā)展大大地推動了科學(xué)進步,因此學(xué)科交叉研究(interdisciplinaryresearch)體現(xiàn)了科學(xué)向綜合性發(fā)展的趨勢。科學(xué)上的新理論、新發(fā)明的產(chǎn)生,新的工程技術(shù)的出現(xiàn),經(jīng)常是在學(xué)科的邊緣或交叉點上,重視交叉學(xué)科將使科學(xué)本身向著更深層次和更高水平發(fā)展,這是符合自然界存在的客觀規(guī)律的。由于現(xiàn)有的學(xué)科是人為劃分的,而科學(xué)問題是客觀存在的,根據(jù)人們的認識水平,過去只有天文學(xué)、地理(地質(zhì))、生物、數(shù)學(xué)、物理、化學(xué)六個一級學(xué)科;而經(jīng)過20世紀科學(xué)的發(fā)展和交叉研究,又逐漸形成了新的交叉學(xué)科,如生命科學(xué)、材料科學(xué)、環(huán)境科學(xué)等。因此研究學(xué)科交叉可以反映學(xué)科的研究的熱點和發(fā)展趨勢。本次統(tǒng)計建模正是基于以上的研究背景,通過文獻聚類來研究學(xué)科交叉,其意義在于:(1)通過對文獻數(shù)據(jù)的聚類分析,挖掘?qū)W科交叉點,使研究者了解本學(xué)科目前的研究現(xiàn)狀,如學(xué)科發(fā)展前沿與熱點問題等,以提高研究者的創(chuàng)新意識和創(chuàng)新動力,為科學(xué)研究提供決策支持;(2)為管理者和研究機構(gòu)提供決策支持,如交叉學(xué)科的政策支持、研究經(jīng)費投入、人才培養(yǎng)方向等;(3)通過學(xué)科交叉的比較,使學(xué)科本身獲得動力,提升學(xué)科競爭力,使學(xué)科能更好地適應(yīng)社會和經(jīng)濟的發(fā)展,更好地服務(wù)社會。2.國內(nèi)外研究現(xiàn)狀不同的數(shù)據(jù)庫,對其文獻進行分類有不同的方法,沒有一種方法能對所有數(shù)據(jù)庫的文獻分類都具有高效率、高精確率。對于科學(xué)文獻的分類,目前主要采用的方法有[1]:(1)引文分析法:引文分析是指通過對文獻中所附的參考引文進行計量統(tǒng)計分析,從而揭示科學(xué)技術(shù)發(fā)展的歷史及現(xiàn)狀。其目的是尋找文獻之間的聯(lián)系來研究文獻內(nèi)在聯(lián)系和科學(xué)結(jié)構(gòu)的一種方法。(2)關(guān)鍵詞分析法:關(guān)鍵詞分析就是通過對反映文獻主題內(nèi)容的詞進行關(guān)聯(lián)性或相異性定量分析,研究文獻內(nèi)在聯(lián)系和科學(xué)結(jié)構(gòu)的一種方法。(3)聚類分析法:聚類分析是指根據(jù)分析對象彼此之間的相關(guān)程度把文獻分成類群,使群內(nèi)盡量相似,群間盡量相異,然后進行分析研究的過程。(4)因素分析法:因素分析的概念是英美心理統(tǒng)計學(xué)者們最早提出的,因素分析法是從試驗所得的m×n個數(shù)據(jù)文獻中概括和提取出較少量的關(guān)鍵因素,它們能反映和解釋所得的大量觀測事實,從而建立起最簡潔、最基本的概念系統(tǒng),揭示出事物間最本質(zhì)的聯(lián)系。(5)關(guān)鍵詞分析與共引聚類分析相結(jié)合研究法。目前國內(nèi)研究的主要熱點集中在第一方面,而國外在該領(lǐng)域的最新研究是通過關(guān)鍵詞分析和共引聚類分析相結(jié)合,以揭示文獻的主題結(jié)構(gòu)。3.文本挖掘中的分詞技術(shù)中文文本挖掘技術(shù)成敗的關(guān)鍵在于文本中詞匯切分的成功與否。由于漢語語言的特殊性和復(fù)雜性,使中文詞匯的切分成為一個很傷腦筋的問題。而如果不進行分詞,中文信息處理的其它很多研究就無法進行。分詞技術(shù)中基于詞庫的算法目前使用較廣,也較為成熟,如正向、逆向最大匹配法、逐詞遍歷法。這類算法分詞的正確性很大程度上取決于所建的詞庫。一個詞庫應(yīng)具有完備性和完全性兩個方面,建立一個同時滿足這兩個要求的詞庫具有很大的難度[2]。所以,對于中文文本挖掘來說,基于詞庫的分詞技術(shù)可能會使某些具有重要意義的詞匯被疏漏,從而導(dǎo)致挖掘的內(nèi)容不是十分準確。基于無詞典的分詞技術(shù)正處于研究發(fā)展階段,其基本思想是:基于頻度的統(tǒng)計,不依靠于詞典,將文本中任意幾個字同時出現(xiàn)的頻率進行統(tǒng)計,次數(shù)越高的越可能是一個詞[3]。文中設(shè)計了一個基于無詞典分詞的算法[4],能比較準確地切分出文本中的新詞。4.文本的特征提取特征提取主要是識別文本中代表其特征的詞項。提取過程是自動的,提取的特征大部分是文本集中表示的概念。文本特征分為一般特征和數(shù)字特征,其中一般特征主要包括動詞和名詞短語,如人名、組織名等;數(shù)字特征主要包括日期、時間、貨幣以及單純數(shù)字信息。這些特征包含重要的信息,因此特征提取是一種強有力的文本挖掘技術(shù)。通過文本特征抽取,記錄文本的特征,可以更好地組織文本,如文本的存儲、檢索、過濾、分類和摘要等。中文姓名識別屬于中文信息處理中未登錄詞處理的范疇,中文姓名在文章中的出現(xiàn)頻率雖然不高,但絕非可以忽略,因為中文姓名本身包含著重要的信息,它可能是整個句子甚至整個段落的語義中心,如果不予處理,將影響文本挖掘的性能[5]。數(shù)字特征反映一定的信息,但不能表達文本的中心思想,通常只作文本挖掘中的參考信息。5.聚類分析的原理與方法聚類分析主要包括統(tǒng)計學(xué)習(xí)和機器學(xué)習(xí)兩種方法。在基于統(tǒng)計學(xué)習(xí)的聚類分析中,主要研究基于幾何距離的聚類,這也是本次建模采用的方法。其主要步驟包括:(1)定義多維空間;(2)計算多維空間中樣本點之間的距離,作為樣本點之間的相似度;(3)采用某種算法(如FCM、K-means、層次法等)按照相似度大小將相似度高的樣本聚為一類。在文獻聚類問題中,一般都是根據(jù)向量空間模型(VSM)思想,將文獻聚類的樣本空間表示成X={x1,x2,…,xn},其中樣本xi=(xi1,xi2,…,xim)為m維特征空間Rm中的一個點,現(xiàn)在要找到這樣一個劃分C={C1,C2,…,Ck},使得:且,并且滿足類內(nèi)之和的值最小,xj*表示類Cj的中心,xi表示劃分在類Cj中的文獻。6.研究目標和具體思路本次建模研究目標是在海量數(shù)據(jù)的基礎(chǔ)上,采用聚類分析的理論和方法,挖掘隱藏在數(shù)據(jù)背后的學(xué)科交叉知識,研究的整體框架如下:文獻樣本文獻樣本數(shù)據(jù)庫學(xué)科特征詞庫數(shù)據(jù)抽取和提煉結(jié)果分析聚類分析文獻數(shù)據(jù)庫數(shù)據(jù)采集加工圖1文獻聚類研究框架主要的研究思路為:(1)數(shù)據(jù)采集:采集三個學(xué)科(圖書、情報、文獻)一年的文獻數(shù)據(jù);(2)數(shù)據(jù)預(yù)處理:降維:經(jīng)過抽取和提煉,建立學(xué)科特征詞庫,構(gòu)建聚類空間;文獻摘要分詞:將摘要利用分詞技術(shù)進行分詞,去掉虛泛詞;關(guān)鍵詞與摘要詞加權(quán):利用關(guān)鍵詞在摘要中出現(xiàn)的頻次,計算出摘要詞對關(guān)鍵詞的貢獻度;去噪聲:對數(shù)據(jù)庫中文獻學(xué)科類別特點不明顯的文獻刪除。(3)利用VSM模型,建立文獻空間向量;(4)利用Matlab軟件中的FCM算法,將文獻進行多次聚類;(5)對聚類的結(jié)果進行統(tǒng)計分析。二、模型設(shè)計1.向量空間模型(VSM)向量空間模型(VSM)是文獻分類所使用的特征較為普遍采用的方法之一。在這種模型中,文獻空間被看作是由一組正交詞條向量組成的向量空間,每個文獻表示為其中的一個范化特征向量:V(d)=(t1,w1(d),…,ti,wi(d),…,tn,wn(d)),其中ti,也可以要求ti是d中出現(xiàn)的所有短語,以提高文獻內(nèi)容的準確性。Wi(d)常被定義為ti在d出現(xiàn)頻率tfi(d)的函數(shù),如wi(d)=(tfi(d)),常用的函數(shù)有布爾函數(shù):;平方根函數(shù):;對數(shù)函數(shù):;TFIDF函數(shù):等。本次建模中采用了一種新的wi(d)的計算模型,具體步驟如下:(1)構(gòu)建特征向量空間文獻聚類是在一個非常高的維度中進行的,而聚類算法的復(fù)雜度與數(shù)據(jù)維度是非線性關(guān)系。理論證明,隨著維度的增加,計算的復(fù)雜度將呈現(xiàn)指數(shù)級的增長。我們通過對05年CSSCI文獻數(shù)據(jù)庫中三大學(xué)科文獻的統(tǒng)計發(fā)現(xiàn),在3932篇文獻中關(guān)鍵字的個數(shù)為14202,平均每篇文獻的關(guān)鍵詞個數(shù)為3.61個,互異的關(guān)鍵詞達到6708個,利用普遍認可的VSM來計算文獻相似度矩陣時,特征空間的維度很大,增加了計算的復(fù)雜性。因此,文獻聚類的首要問題是要將數(shù)據(jù)進行降維。原子特征詞是指從所有文獻關(guān)鍵詞中找出能夠反映出學(xué)科特點的關(guān)鍵詞中的原子部分。這樣做可以將數(shù)組維度從一個非常高的維度降低到一個維度相對較低的空間。原子特征詞詞典的確立是基于關(guān)鍵詞的文本分類的非常關(guān)鍵的基礎(chǔ)問題,詞典中原子特征詞的選取既要考慮這些詞在文本集合中出現(xiàn)的統(tǒng)計特征,選取那些反映文本內(nèi)容的原子特征詞;又要做停用詞表,去掉那些在特定語言中出現(xiàn)頻率較高但含義虛泛的詞,以降低特征空間的維數(shù);同時還要考慮關(guān)鍵詞的頻幅限制,以防止因少數(shù)關(guān)鍵詞在少數(shù)文本中頻幅過高而造成的聚類中心的偏移影響。(2)關(guān)鍵詞相似度計算模型由于我們對關(guān)鍵進行了抽取和加工,因此大部分的文獻關(guān)鍵詞與原子特征詞并不完全相同,由于在傳統(tǒng)的相似度計算模型中兩者的相似度將是0,這會使得構(gòu)建的文獻空間向量矩陣絕大部分元素出現(xiàn)0。因此,必須考慮兩種關(guān)鍵詞之間的部分相似性。[6]假設(shè)兩個關(guān)鍵字ki和kj,字符長度分別為li和lj,連續(xù)相同字符串長度為l,則該兩個關(guān)鍵字相似度定義為T(ki,kj):(1)顯然有T(ki,kj)∈[0,1]。這個公式考慮了關(guān)鍵字之間的部分相似性,提高了相似度計算的精度。例如:兩個關(guān)鍵字“公共圖書館”和“數(shù)字圖書館”,在許多的文獻聚類方法中將這兩個關(guān)鍵字的相似度定義為0(即兩者完全不同),這在某種程度上影響了文獻相似度的精確度。利用我們給出的公式(1)計算結(jié)果為0.4286,能更加準確地表示兩者的相似度。(3)相似度加權(quán)計算模型每一篇文獻一般有若干個關(guān)鍵詞,通過關(guān)鍵詞相似度計算模型中公式(1)計算所得的值也相應(yīng)地有若干個。為了進一步提高文獻相似度的精確度,我們結(jié)合關(guān)鍵詞相似度計算模型和關(guān)鍵詞的頻次提出一種新的計算文獻相似度的相似度加權(quán)計算模型:假設(shè)文獻的關(guān)鍵詞為,則文獻的關(guān)鍵詞集合定義為:(1)定義文獻的關(guān)鍵詞的頻次為(2)通過關(guān)鍵詞相似度計算模型計算(3)取公式(3)中的最大值,定義為(4)定義相似度加權(quán)計算的值為(5)(4)文獻空間向量的構(gòu)建VSM的目標是將文獻數(shù)據(jù)表示為特征空間中的一個向量。該矩陣以文獻作為行,以原子特征詞作為文獻的特征詞,即作為列。每一篇文獻的每一個關(guān)鍵詞分別和每一個原子特征詞進行相似度計算,乘以該關(guān)鍵詞在摘要中出現(xiàn)的頻次加1后的最大值作為最終結(jié)果,因為該詞在文獻關(guān)鍵詞中也出現(xiàn)1次。假設(shè)n篇文獻,m個學(xué)科原子特征詞,則文獻的空間向量矩陣表示為:其中,文獻在m維空間的特征分量wij(i=1,2…,n;j=1,2…,m)計算是通過每篇文獻的關(guān)鍵詞與原子特征詞之間的相似度乘以該關(guān)鍵詞在摘要中出現(xiàn)的頻次加1,并取最大值得到。例如:一篇文獻中的3個關(guān)鍵詞及在摘要中出現(xiàn)的頻次分別為:數(shù)字型圖書館(3);隱性知識(4);圖書館工作(2),第i維的原子特征詞為“圖書館”。則這篇文獻的wi(d)的計算方式為:首先利用相似度計算模型中公式(5)計算3個關(guān)鍵詞與原子特征詞“圖書館”的相似度值分別為0.5、0、0.6,然后計算加權(quán)后的值分別為0.5×(3+1)=2.0、0×(4+1)=0、0.6×(2+1)=1.8,取最大值2.0作為wi(d)的值。2.FCM聚類算法模型及步驟(1)FCM聚類算法模型FCM算法是一種基于劃分的聚類算法,它的思想就是使得被劃分到同一類的對象之間相似度最大,而不同類之間的相似度最小。模糊C均值算法是普通C均值算法的改進,普通C均值算法對于數(shù)據(jù)的劃分是硬性的,而FCM則是一種柔性的模糊劃分[7]。FCM算法在迭代尋優(yōu)過程中,不斷更新各類的中心及隸屬度矩陣各元素的值,直到逼近下列準則函數(shù)最小值,(2)式(1)中V={v1,v2,…,vc},vi為wi的中心矢量,權(quán)重,,A為某正定陣,時,為歐式距離。式(2)的約束條件為,,運用拉格朗日乘數(shù)法,可得無約束的準則函數(shù),(3)式(3)取極小值的必要條件是(4)(5)由式(3)可得(6)將式(6)代入式(5)可得,(7)從而有(8)將式(8)代入式(6)得(9)考慮到可能為0,對,定義集合和為如果則(10)如果則令并使類似地,可得聚類中心更新算式,令可得由此可得(11)(2)FCM聚類算法步驟(1)確定類數(shù)、參數(shù)m、矩陣A和一個適當?shù)恼`差參數(shù);(2)置定初始模糊分類矩陣表示中元素,令s=0;(3)計算時的(4)按下面的方法更新為=1\*GB3①計算=2\*GB3②計算的新隸屬度。如果那么否則并取(5)以一個適當?shù)木仃嚪稊?shù)比較和,如果停止;否則,s=s+1,返回(3)[8].三、文獻聚類的實現(xiàn)文獻聚類實現(xiàn)的步驟如下:(1)數(shù)據(jù)抽樣:從05年CSSCI數(shù)據(jù)庫中情報學(xué)、文獻學(xué)、圖書館學(xué)三種學(xué)科文獻共3932篇文獻中,通過系統(tǒng)抽樣法,從中選取了800篇文獻,其中情報學(xué)257篇,文獻學(xué)120篇,圖書館學(xué)423篇。(2)數(shù)據(jù)清洗:通過中知網(wǎng)()搜索,取出每一篇文獻的摘要部分,并統(tǒng)計每一篇文獻中關(guān)鍵詞在摘要中出現(xiàn)的頻次。去掉其中表達不規(guī)范的摘要,最終選取情報學(xué)、文獻學(xué)、圖書館學(xué)三個學(xué)科文獻共681篇,其中情報學(xué)207篇,文獻學(xué)98篇,圖書館學(xué)376篇,處理后的數(shù)據(jù)如圖2所示。圖2待聚類的文獻數(shù)據(jù)(3)抽取原子特征詞:取出681篇文獻中所有的關(guān)鍵詞,從中人工選取108個原子特征詞,如表1。通過編寫程序,求出每一篇文獻中的每一個關(guān)鍵詞相對于108個原子特征詞的相似度值,然后乘以該關(guān)鍵詞在摘要中出現(xiàn)的頻次加1之后最大相似度值,即為相似度加權(quán)值。表1原子特征詞表1安全19傳播37館員55排架73數(shù)字91影響因子2版本20導(dǎo)航38集成56評估74搜索引擎92用戶3版權(quán)21電子39計算機57評價75索引93語義4保存22調(diào)查40家譜58期刊76圖書94元數(shù)據(jù)5被引23讀者41價值59企業(yè)77圖書館95閱讀6本體24敦煌42檢索60情報78圖像96整理7編目25分布式43建筑61全文數(shù)據(jù)庫79推送97政府8標引26分詞44借閱62人文80網(wǎng)絡(luò)計量98知識9博客27分類45競爭63人性化81網(wǎng)頁99智能10采訪28佛經(jīng)46口述64儒家82網(wǎng)站100中圖法11采購29個人47類目65商務(wù)83文獻101主題12參考30個性化48聯(lián)合66社會84信息102著錄13藏書31公共49聯(lián)機67社區(qū)85虛擬103著作14查全32共享50聯(lián)盟68史料86敘詞表104專利15查新33古籍51鏈接69視頻87學(xué)科105咨詢16查詢34關(guān)鍵詞52論文70收錄88學(xué)術(shù)106資料17成本35館藏53目錄71書目89引文107資源18出版36館際54內(nèi)容分析72數(shù)據(jù)90隱性知識108自動化(4)構(gòu)建文獻空間向量矩陣:以681篇文獻作為行,108個原子特征詞作為列,以步驟(3)中求出的相似度加權(quán)值作為矩陣元素來構(gòu)建文獻空間向量矩陣R,圖3為R的部分元素。該矩陣每一行即為一篇文獻的一個空間向量,每一列(每一維)即為一個文獻特征。通過相似度加權(quán)計算的方法所取得的值與現(xiàn)有的方法相比較更加準確地反映出某個關(guān)鍵詞在文獻中的權(quán)重,而且所得的文獻空間向量矩陣R中的數(shù)據(jù)的稀疏程度將大大降低,這樣通過FCM聚類做出的結(jié)果將會更加地精確、穩(wěn)定。圖3文獻空間向量矩陣(5)聚類實現(xiàn):將文獻空間向量矩陣R中的數(shù)據(jù)存入文本文檔,作為Matlab中FCM算法的數(shù)據(jù)源。運行FCM算法100以上,取出其中聚類目標函數(shù)值最小時的聚類結(jié)果作為最終結(jié)果輸出,程序界面如圖4。通過多次運行并對結(jié)果進行比較發(fā)現(xiàn),聚類的結(jié)果比較穩(wěn)定,如表2。圖4Matlab程序界面表2前200項數(shù)據(jù)的聚類結(jié)果13213412611811101112111411161218132222242162182110221221142216231821322314316318311031123114311632183343241441641841104112411441164218435125345165285110511251145116521852632634636618611061126114621662186171272471673871107312711473167318738128148168388110821281148316831882932924916918911091129114931693189310230150170190111011301150317011901113312511711912111113111513171219131233225217219211121132115211721192113333153273193111311332153217311933141341541743941114113431541174219431533515517529531151135115511753195116136156176196211611363156117631961171373571771971117113711573177119721823835817819821181138115821783198119239359379199111911391159117931992201401602801100212011403160118012001(6)學(xué)科交叉研究方法:通過FCM算法運行所得的學(xué)科分類數(shù)據(jù)同(2)中已知的學(xué)科分類數(shù)據(jù)相比較,得到一張學(xué)科交叉表。該表以原子特征詞作為行,以兩兩學(xué)科相互之間是否交叉作為列,統(tǒng)計原子特征詞是否在某兩門學(xué)科之間出現(xiàn)以及如果出現(xiàn),那么出現(xiàn)的頻次為多大。這樣就可以清晰地知道:哪些文獻屬于交叉學(xué)科,學(xué)科之間正在共同探討哪些方面以及該方面的關(guān)注度如何。四、聚類結(jié)果統(tǒng)計分析建立一張二維表,通過FCM聚類所得的文獻分類結(jié)果與文獻在現(xiàn)實中的學(xué)科分類相比,就可以很清楚地看到該文獻是否為交叉學(xué)科,同時很清楚地看到該文獻屬于哪幾門學(xué)科交叉及各學(xué)科之間的交叉點(關(guān)注點)。表3部分學(xué)科交叉表(完整學(xué)科交叉表見附錄II)原子特征詞I-1I-2I-3II-1II-2II-3III-1III-2III-3安全030020500版本003000000版權(quán)000020400保存050000000被引024000000本體080000060表1(見附錄II)中每個字段中前一個數(shù)字表示文獻通過FCM聚類方法聚成的結(jié)果,共分為3類,分別用I、II、III表示;后一個數(shù)據(jù)表示文獻的實際分類,其中“1”代表“圖書館學(xué)”;“2”代表“情報學(xué)”;“3”代表“文獻學(xué)”。例如:“I-1”前一個“I”代表文獻通過FCM聚類后分在第一類中,而后一個“1”表示文獻現(xiàn)實中被歸為圖書館學(xué)。從表1(見附錄II)中我們可以看出:(1)文獻中哪些屬于交叉學(xué)科范疇。當一部分文獻通過原子特征詞被聚為同一類時,說明這些文獻研究或探討的內(nèi)容有相同或相似的方面,在這一類中的文獻如果現(xiàn)實中屬于不同學(xué)科時,那么說明學(xué)科之間有交叉的部分,其中一些文獻屬于交叉學(xué)科。從原子特征詞中,我們可以進一步看出學(xué)科之間共同關(guān)注的課題。(2)如果某個原子特征詞分別在不同學(xué)科中出現(xiàn),那么從中我們可以很明顯地看出該原子特征詞被哪些學(xué)科同時關(guān)注。例如第八行的原子特征詞“編目”通過FCM聚類被分為同一類,但在現(xiàn)實中同時出現(xiàn)于“圖書館學(xué)”、“情報學(xué)”、“文獻學(xué)”三門學(xué)科。從中我們可以看出,這三門學(xué)科正在同時研究“編目”這個方面。(3)通過原子特征詞的統(tǒng)計頻次,我們可以進一步看出某個原子特征詞的關(guān)注度。如果某個原子特征詞在某些學(xué)科中同時多次出現(xiàn),那么可以肯定地是這個原子特征詞是不同學(xué)科研究的熱點問題。例如:“檢索”在圖書館學(xué)中出現(xiàn)地頻次為7,在情報學(xué)中出現(xiàn)地頻次為98,在文獻學(xué)中出現(xiàn)地頻次為11,而且是被聚為同一類中。從中可以看出,三門學(xué)科在“檢索”方面屬于交叉學(xué)科范疇,而且它在三門學(xué)科中的關(guān)注度很高。2.統(tǒng)計分析(1)聚類結(jié)果的學(xué)科類別統(tǒng)計分析表4聚類結(jié)果的學(xué)科類別統(tǒng)計表文獻數(shù)類別圖書館學(xué)情報學(xué)文獻學(xué)合計I6320.3%15449.7%9330%310II10675.2%3222.7%32.1%141III20790%219.1%20.9%230合計37620798681從表4中統(tǒng)計的結(jié)果可以看出,聚類結(jié)果的第I類主要是由情報學(xué)(占49.7%)和文獻學(xué)(30%)組成,圖書館學(xué)占20.3%,因此第I類中可以分析出情報學(xué)與文獻學(xué)、情報學(xué)與圖書館學(xué)之間的交叉關(guān)系;第2類中主要是由圖書館學(xué)(占75.2%)和情報學(xué)(占22.7%)組成,因此第II類的結(jié)果可以分析出情報學(xué)與圖書館學(xué)之間的交叉關(guān)系;第III類主要由圖書館學(xué)(占90%)組成,包含9.1%的情報學(xué)有可能成為研究的新的增長點。圖5是三個類別中學(xué)科分布情況。以上是對三個學(xué)科類別總體情況的分析,下面將作更為詳細的分析。圖5三個類別學(xué)科分布狀況(2)學(xué)科研究熱點分析綜合上述的統(tǒng)計情況,類別I是三個學(xué)科的交叉,類別II、III主要是圖書館學(xué)為主,因此,按以下思路分別對三個類別進行統(tǒng)計分析來研究各個學(xué)科的研究熱點:(1)從第I類中,按情報學(xué)中原子特征詞頻次降序排列后,排在前10位的數(shù)據(jù)如下:原子特征詞圖書館情報學(xué)文獻學(xué)總計情報01150115檢索79811116競爭071071信息1965084數(shù)據(jù)863980資源27522099數(shù)字12431166知識1443057參考732544期刊1330649(2)從第I類中,按文獻學(xué)中原子特征詞頻次降序排列后,排在前10位的數(shù)據(jù)如下:原子特征詞圖書館情報學(xué)文獻學(xué)總計文獻484254資源27522099編目721928查新071522分詞001515標引031316著錄401317藏書201214檢索79811116數(shù)字12431166(3)從第III類中,按圖書館學(xué)中原子特征詞頻次降序排列后,排在前10位的數(shù)據(jù)如下:原子特征詞圖書館情報學(xué)文獻學(xué)總計圖書29502297圖書館29202294數(shù)字970097知識5316069資源3911050館員270027社區(qū)250025評價230023信息170017社會170017(4)研究熱點匯總將三張表的結(jié)果進行匯總得到每個學(xué)科研究的熱點如下表:研究熱點學(xué)科研究熱點圖書館學(xué)數(shù)字圖書館、知識管理、信息資源、信息評價、社區(qū)圖書館等情報學(xué)情報檢索、競爭情報、知識管理、信息資源管理、信息數(shù)字化等。文獻學(xué)文獻資源管理、文獻檢索、文獻查新、數(shù)字文獻、藏書等(3)學(xué)科交叉分析從三張表中字體為黑斜體的數(shù)據(jù)統(tǒng)計出三個學(xué)科之間的交叉情況如下表:圖書館學(xué)VS情報學(xué)數(shù)字圖書館、知識管理、信息資源等情報學(xué)VS文獻學(xué)文獻檢索、編目、文獻、信息資源等文獻學(xué)VS圖書館學(xué)編目、文獻、信息資源、知識管理等文獻學(xué)VS圖書館學(xué)VS情報學(xué)檢索、數(shù)據(jù)、資源、參考、期刊、編目等(4)新的學(xué)科增長點分析為了研究新的學(xué)科增長點,我們從第III類中提取了情報學(xué)文獻進行研究,由于該類別中絕大部分屬于圖書館學(xué),盡管其中只有21篇文獻既屬于圖書館學(xué)又屬于情報學(xué)研究內(nèi)容,因此該類別中這種學(xué)科交叉點有可能成為情報學(xué)新的增長點。具體數(shù)據(jù)如下圖:圖6第III類中情報學(xué)文獻數(shù)據(jù)從數(shù)據(jù)中可以看出,其中“數(shù)字圖書館”涉及較多,當然它也是05年圖書情報研究的熱點,這是一個顯性的知識;而其中的“語義Web”、“本體”、“知識”等詞的出現(xiàn),應(yīng)該成為我們必須關(guān)注的信號,因為它們可能在若干年后成為圖書情報學(xué)研究的新的增長點。為了驗證我們的結(jié)論,我們從中知網(wǎng)的數(shù)字出版物超市>>中國學(xué)術(shù)文獻網(wǎng)絡(luò)出版總庫>>學(xué)科學(xué)術(shù)熱點,從中檢索“本體”關(guān)鍵字的結(jié)果如下表:序號熱點主題主要知識點主題所屬學(xué)科名稱熱度值↓文獻數(shù)相關(guān)國家課題數(shù)研究人員數(shù)研究機構(gòu)數(shù)5
語義網(wǎng);知識服務(wù);本體;
語義網(wǎng);知識服務(wù);本體;web服務(wù);xml;知識管理;萬維網(wǎng);高校圖書館;rdf;元數(shù)據(jù);網(wǎng)絡(luò)檢索;圖書館;圖書館員;本體映射;智能檢索;圖書館服務(wù);知識地圖;知識服務(wù)系統(tǒng);數(shù)字圖書館建設(shè);語義web;
圖書情報與數(shù)字圖書館;計算機軟件及計算機應(yīng)用;
10149
178
25
273
1276
語義網(wǎng);本體;信息組織;
語義網(wǎng);本體;web服務(wù);數(shù)字圖書館;萬維網(wǎng);rdf;xml;文獻標題;搜索引擎;網(wǎng)絡(luò)檢索;元數(shù)據(jù);知識服務(wù);智能檢索;圓周率;本體論;知識表示;信息檢索系統(tǒng);ibase數(shù)據(jù)庫;ontology;本體語言;
互聯(lián)網(wǎng)技術(shù);計算機軟件及計算機應(yīng)用;
7959
146
28
226
104從表中可以檢驗我們通過對05年數(shù)據(jù)挖掘的結(jié)果在09年得到驗證。五、結(jié)論本次建模的主要目標是通過文獻聚類發(fā)現(xiàn)學(xué)科交叉和學(xué)科熱點等隱藏在數(shù)據(jù)背后的學(xué)科知識。在建模中,我們選取了05年圖書情報學(xué)的681篇文獻作為統(tǒng)計建模的數(shù)據(jù),由于采用了系統(tǒng)抽樣的方法,因此研究的數(shù)據(jù)具有一定的代表性。通過數(shù)據(jù)的采集和預(yù)處理、模型的建立、實驗仿真、結(jié)果的統(tǒng)計分析和結(jié)果檢驗等各個環(huán)節(jié),我們比較順利地完成了本次建模任務(wù)。經(jīng)檢驗,模型是科學(xué)的,結(jié)果是正確的。主要的創(chuàng)新點:(1)在設(shè)計的模型中,我們提出了一種新的相似度加權(quán)模型,從而使得FCM聚類所得的結(jié)果更加合理和準確。(2)設(shè)計了學(xué)科交叉表。從學(xué)科交叉表中可以一目了然地看出哪些學(xué)科在哪些方面交叉,同時還可以看出哪些課題是學(xué)科之間的熱點及新的增長點。這樣研究人員、學(xué)者就可以在第一時間很清楚地了解到交叉學(xué)科的熱點及增長點,不僅節(jié)省花在查找方面的時間與精力,更為重要地是,可以時刻掌握先機,搶占科學(xué)前沿。該模型還需改進的方面有:(1)模型只考慮了摘要詞對關(guān)鍵詞的貢獻度,還可以考慮標題詞對關(guān)鍵詞的貢獻度,以進一步加強文獻間相似度的精確性;(2)由于FCM是一種沒有聚類結(jié)果無交叉的算法,因此在該模型中可以引入模糊理論,使得聚類的結(jié)果有重合,對于研究學(xué)科交叉將更為直接。參考文獻[1]林春燕,朱東華.科學(xué)文獻的模糊聚類算法.計算機應(yīng)用,2004.[2]蔣澄,馬范援,蔣思杰.中英文WWW搜索引擎的信息處理[J].計算機工程,1999,25(4):37-38.[3]嚴威,趙政.開發(fā)中文搜索引擎漢語處理的關(guān)鍵技術(shù)[J].計算機工程,1999,25(6):5-6.[4]胥桂仙,蘇筱蔚,陳淑艷.中文文本挖掘的無詞典分詞的算法及其應(yīng)用[J].吉林工學(xué)院學(xué)報,2002,23(1):16-18.[5]牛正雨,柴佩琪.文語轉(zhuǎn)換系統(tǒng)中的中文姓名識別[J].計算機應(yīng)用研究,2001,(1):25-26.[6]魏建香,蘇新寧.基于關(guān)鍵字和摘要相關(guān)度的文獻聚類研究.情報學(xué)報,2009,28(2).[7]金華.分級聚類與平面劃分結(jié)合方法在網(wǎng)頁分類中的應(yīng)用.計算機工程與應(yīng)用,2004.[8]胡寧靜,王靖.基于模糊c均值算法文檔聚類問題的研究.長沙電力學(xué)院學(xué)報,2004.
附錄I:FCM算法(Matlab)function[center,U,obj_fcn]=FCMClust(data,cluster_n,options)%FCMClust.m采用模糊c均值對數(shù)據(jù)集data聚為cluster_n類ifnargin~=2&&nargin~=3,%判斷輸入的函數(shù)參數(shù)個數(shù)只能是2個或3個error('Toomanyortoofewinputarguments!');endrows=size(data,1);%求出data的第一維(rows)數(shù),即樣本個數(shù)columns=size(data,2);%求出data的第二維(columns)數(shù),即特征值長度default_options=[2;100;1e0;1];%默認操作參數(shù)隸屬度矩陣U的指數(shù)最大迭代次數(shù)隸屬度最小變化量迭代終止條件每次迭代是否輸出信息標志ifnargin==2,options=default_options;elseiflength(options)<4,tmp=default_options;tmp(1:length(options))=options;options=tmp;endnan_index=find(isnan(options)==1);options(nan_index)=default_options(nan_index);ifoptions(1)<=1,error('Theexponentshouldbegreaterthan1!');endendexpo=options(1);max_iter=options(2);min_impro=options(3);display=options(4);obj_fcn=zeros(max_iter,1);U=initfcm(cluster_n,rows);fori=1:max_iter,[U,center,obj_fcn(i)]=stepfcm(data,U,cluster_n,expo);ifdisplay,fprintf('FCM:Iterationcount=%d,obj.fcn=%f\n',i,obj_fcn(i));fprintf('data_n=%d\n',size(data,1));fprintf('in_n=%d\n',size(data,2));endifi>1,ifabs(obj_fcn(i)-obj_fcn(i-1))<min_impro,break;end,endenditer_n=i;obj_fcn(iter_n+1:max_iter)=[];%obj_fcn:目標函數(shù)值%U:隸屬度矩陣%center:聚類中心附錄II:表1學(xué)科交叉表原子特征詞1-11-21-32-12-22-33-13-23-3安全030020500版本003000000版權(quán)000020400保存050000000被引024000000本體080000060編目7219200500標引0313000000博客090000000采訪227800400采購2083203
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度牛奶質(zhì)量安全追溯體系建設(shè)合同4篇
- 2025年度農(nóng)產(chǎn)品質(zhì)量追溯體系建設(shè)合同3篇
- 2025版新能源項目民工權(quán)益保障合同4篇
- 港口小學(xué)2025版炊事員勞動合同續(xù)簽及更新協(xié)議3篇
- 2025年度農(nóng)用車租賃與農(nóng)業(yè)技術(shù)研發(fā)合作合同4篇
- 2025年度智能門窗安裝與售后服務(wù)合同4篇
- 2025年度擴大勞務(wù)合同范本:核能產(chǎn)業(yè)勞務(wù)輸出協(xié)議3篇
- 2025年度心理咨詢與治療個人勞務(wù)合同書2篇
- 南昌市二零二五年度租賃合同范本:公寓租賃規(guī)范版2篇
- 2025版企業(yè)年會場地租賃合同范本8篇
- 《企業(yè)人力資源管理師考試用書考試通過必備一級》
- 2023年高考英語考前必練-非謂語動詞(含近三年真題及解析)
- 風(fēng)電工程需要編寫的專項施工方案及危大工程目錄
- 商業(yè)計劃書(BP)財務(wù)計劃風(fēng)險控制資本退出與附錄的撰寫秘籍
- 全國職工拔河比賽執(zhí)行方案
- 冶金廠、軋鋼廠工藝流程圖
- 七年級下冊《Reading 1 A brave young man》優(yōu)質(zhì)課教案牛津譯林版-七年級英語教案
- 中國人婚戀狀況調(diào)查報告公布
- 《木蘭詩》第1第2課時示范公開課教學(xué)PPT課件【統(tǒng)編人教版七年級語文下冊】
- GB/T 11144-2007潤滑液極壓性能測定法梯姆肯法
- 國家開發(fā)銀行
評論
0/150
提交評論