從引文分析看網絡數(shù)據(jù)結構挖掘-公共圖書館研究院-深圳圖書館.doc_第1頁
從引文分析看網絡數(shù)據(jù)結構挖掘-公共圖書館研究院-深圳圖書館.doc_第2頁
從引文分析看網絡數(shù)據(jù)結構挖掘-公共圖書館研究院-深圳圖書館.doc_第3頁
從引文分析看網絡數(shù)據(jù)結構挖掘-公共圖書館研究院-深圳圖書館.doc_第4頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

從引文分析看網絡結構挖掘洪光宗深圳圖書館 廣東 深圳 518026摘要本文在闡述引文分析的原理及作用的基礎上,分析了網絡結構挖掘的原理和作用,并給出了網絡結構挖掘技術在搜索引擎中幾例初步應用。關鍵詞引文分析 網絡結構挖掘 網絡數(shù)據(jù)挖掘Analyzing Web Structure Mining From Citation Analysis AspectHong GuangzongShenzhen Library, Shenzhen , Guangdong 518026AbstractThe method of web structure mining originates from citation analysis, the article at first sets forth the principle and function of the citation analysis, then analyses the principle and function of web structure mining. At present, the technology of web structure mining is applied into search engine and has got a good effect on it.KeywordCitation; Citation analysis; Web structure mining; Web data mining1955 年,加菲爾德博士發(fā)表了具有劃時代意義的引文索引論文Citation Indexes for Science: A New Dimension in Documentation through Association of Ideas, 1964 年,推出了第一個科學引文索引。如今,世界各地的研究人員利用引文索引深入地研究和評估他們的工作。時代已經跨入21世紀,互聯(lián)網風行全球,大量的數(shù)據(jù)資源以二進制的形式存貯,并以超級鏈接的形式將這些資源聯(lián)結成一個立體網絡。那么,挖掘出這些數(shù)據(jù)資源之間的內在聯(lián)系,為我們科學地分析和評估這些數(shù)據(jù)資源提供幫助,這正是網絡結構挖掘的作用之所在。1 引文分析的原理及作用1.1 引文及引文分析 任何一篇論文都不是孤立存在的, 而是相互影響和相互聯(lián)系的,不同文獻間的聯(lián)系突出表現(xiàn)在文獻間的相互引用。那么,什么叫引文呢?簡單而言,引文就是引用他人的著述。在科學著述活動中,作者往往要直接或間接地引用他人的著述,以提供文章的佐證,提供歷史背景材料,來加強論述的可信度,幫助讀者更好地理解作者的觀點。詳細而言,引文便可以這樣描述:在文獻甲中提到或描述了文獻乙,并以文后參考書目或腳注的形式列出了文獻乙的出處,其目的在于指出信息的來源、提供某一觀點的依據(jù)、借鑒陳述某一事件(實)等。這時,便稱文獻乙為文獻甲的引文,稱文獻甲為文獻乙的引證文獻。引文通常也稱為被引文獻或參考文獻,引證文獻通常也稱為來源文獻。文獻間的相互引用,表明知識信息內容的繼承和利用, 標志著學術研究的進展。正因為引文在科學發(fā)展、學術研究中的特殊作用,對引文進行研究分析,可以讓我們更清楚地發(fā)現(xiàn)文獻間的內在聯(lián)系。所謂引文分析,就是對專業(yè)人員論著之間的引用與被引用的現(xiàn)象運用統(tǒng)計、歸納、比較、抽象、概括等分析方法, 對科學期刊、論文、著者等各種分析對象的引用或被引用現(xiàn)象進行分析,以揭示各種文獻集合以及與文獻交流有關的各種集合特征和集合之間聯(lián)系的文獻計量研究方法。引文分析作為一項學術成果,同時作為一種研究方法,其應用十分廣泛。比如說,我們可以用引文分析法來進行機構和人才的評價,作為科學管理的工具;也可以用來研究引文間立體網絡關系,從而提示科學發(fā)展、歷史背景、前景等;還可以用來進行文獻檢索,對期刊地位進行學術評價等。1.2 引文分析的原理從宏觀的角度來看,文獻間引用和被引用的特有關系構成了文獻信息的整體,整個文獻信息構成一張網,這張網是以文獻(作者或期刊)為節(jié)點、以文獻引證關系為邊的鏈型、樹型、網型的結構,這些鏈、樹、網可以用加權有向圖統(tǒng)一描述。根據(jù)劃分的標準不同,網絡結構也不一樣。時序網絡。在一組重要的具有代表性的引文中,每篇論文(或著者、或某期刊) 作為節(jié)點,按時間先后標以序號,連接這些節(jié)點并以引用次數(shù)或其被引率為權值,即構成引文時序網絡圖。時序網絡圖能夠展示出某個研究主題的論文源流、最初著者以及該主題發(fā)展的來龍去脈,從中可以探討科學技術的歷史發(fā)展和研究規(guī)律。同引網絡。當兩篇或兩篇以上的文獻共同被后來的一篇或多篇的文獻引用,則稱這兩篇文獻為同引,具有同引關系的兩篇文獻分別與其他文獻構成同引關系,這些具有同引關系的文獻形成的網絡被稱為同引網絡。利用同引關系進行分析研究,可以展示和預測科學情報交流、傳遞的結果,同時也是文獻檢索的一種好方法。耦合網絡。若兩篇文獻共同引用了一篇或多篇文獻,則稱這兩篇文獻有耦合關系,如果多篇文獻間具有耦合關系,則構成一個耦合網絡。從文獻耦合關系可以定量地分析文獻,描繪出某一領域內的科學研究趨向,還可彌補傳統(tǒng)檢索方法的不足。1.3 引文分析的作用科學文獻的相互引用,說明了知識信息內容的繼承和利用,標志著科學循序漸進的發(fā)展。利用引文分析,我們可以通過影響因子來評價期刊的影響程度,也可以利用論文被引證次數(shù)可以評價個人,同時還可以對期刊和學科的學術影響力進行評價。因此,引文分析的作用是多方面的。(1)研究文獻結構和科學結構。引用文獻與被引文獻在學科上是相關的,這種相關性使文獻在學科上建立了的有機聯(lián)系,并以學科自行組織,構成前后連貫的脈絡。通過求本溯源,找出文獻之間的聯(lián)系,從而研究文獻結構和學科結構。(2)研究文獻的動態(tài)規(guī)律和用戶行為特征。引用數(shù)據(jù)顯示了用戶利用文獻的習慣和特征,無需通過其他方式對用戶進行調查就可以獲得用戶的習慣與特征。了解了用戶的引用習慣,我們可以為其提供針對性很強的信息服務。 (3)研究科學發(fā)展史。每一篇文獻和引用文獻都是科學發(fā)展進程中一個特定事件的記錄,因此,通過引文分析可以展現(xiàn)這些事件的發(fā)生和發(fā)展、揭示某種思想和實驗的改善、擴充及修正等等,據(jù)此進行科學發(fā)展史的研究。 (4)評價人才、機構和成果。文獻被引的多少、次數(shù),可以作為學術水平、價值的測度。目前,利用引文來評價機構的科研實力的做法已被較為普遍地采用,例如中國科技信息研究所每年都根據(jù)SCI收錄的論文數(shù)和論文被引次數(shù)對我國高校和科研院所進行排名,以比較這些高校和科研院所的創(chuàng)造能力。引文分析除了上述列舉的應用之外,許多國家還用引文分析來確定科研資助政策和重點研究領域等等。2 網絡數(shù)據(jù)挖掘網絡信息挖掘是指在大量樣本的基礎上,得到數(shù)據(jù)對象間的內在特征,并以此為依據(jù)進行有目的的信息提取。例如,當信息挖掘系統(tǒng)發(fā)現(xiàn)“信息源”,它就會自動過濾掉與“信息源”無關的數(shù)據(jù),這樣可以大大減少用戶的檢索時間和成本。即除了處理傳統(tǒng)數(shù)據(jù)庫中的數(shù)值型結構化數(shù)據(jù)外,還可以是文本、圖形、圖像、網絡信息資源等半結構、非結構的數(shù)據(jù)。根據(jù)挖掘的對象不同, 網絡數(shù)據(jù)挖掘可以分為網絡內容挖掘、網絡結構挖掘以及網絡用法挖掘。2.1 網絡內容挖掘網絡內容挖掘即從網絡的內容/數(shù)據(jù)/文檔中發(fā)現(xiàn)有用信息的過程。在互聯(lián)網中,一些信息是顯性的,而另外有一些網絡信息是“隱藏”著的數(shù)據(jù), 如由用戶的提問而動態(tài)生成的結果, 或存在于數(shù)據(jù)庫管理系統(tǒng)中的數(shù)據(jù), 它們無法被索引, 從而無法提供對它們有效的檢索方式。而通過網絡內容挖掘,可出找出隱含在web頁面中的內容,進行更深層次的加工與處理。2.2 網絡用法挖掘通過網絡用法挖掘, 可以了解用戶的網絡行為數(shù)據(jù)所具有的意義。網絡用法挖掘面對的是在用戶和網絡交互的過程中抽取出來的第二手數(shù)據(jù)。這些數(shù)據(jù)包括: 網絡服務器訪問記錄、代理服務器日志記錄、瀏覽器日志記錄、用戶簡介、注冊信息、用戶對話或交易信息、用戶提問式等等。2.3 網絡結構挖掘網絡結構挖掘即挖掘Web 潛在的鏈接結構模式。這種思想源于引文分析, 即通過分析一個網頁鏈接和被鏈接數(shù)量以及對象來建立Web 自身的鏈接結構模式。這種模式可以用于網頁歸類, 并且可以由此獲得有關不同網頁間相似度及關聯(lián)度的信息。網絡結構挖掘有助于用戶找到相關主題的權威站點, 并且可以概觀指向眾多權威站點的相關主題的站點。3 從引文分析看網絡數(shù)據(jù)結構挖掘網絡結構挖掘理論源自于引文分析,它是引文分析在網絡領域的繼續(xù)與發(fā)展。引文分析主要著重于平面文獻之間的信息挖掘,找出引用文獻與被引文獻之間的邏輯關系,進而為科學評估與科學管理、決策等服務,而網絡結構挖掘著重于網絡文獻之間和網絡文獻內部的信息挖掘,找出同一主題下各超級鏈接間的鏈接與被鏈之間的邏輯關系,進而找出同一主題下的中心站點、中心網頁和權威站點、權威網頁,為用戶能夠準確、快捷地使用網絡信息資源服務。3.1網絡中超級鏈接網絡就像由成千上萬個互相連接、交織在一起的細胞組織起來的一個復雜結構,它將世界各地的眾多的計算機用戶和企業(yè)產品放在一個巨大的數(shù)據(jù)庫中。這些網絡中的龐大的數(shù)據(jù)資源正是通過超級鏈接作用到一起的。這些超鏈一方面引導用戶進行網頁瀏覽,另一方面也反映出網頁創(chuàng)建者的一種判斷,即如果網頁甲存在一條超鏈指向網頁乙,那么表明網頁甲的作者認為網頁乙包含了有價值的信息,網絡結構挖掘正是分析與研究WWW中超鏈結構信息的工具。3.2網絡結構挖掘原理正是由于這些網絡資源并不是有序的,而是處于雜亂、無序的狀態(tài)。例如,同一主題的問題它會出現(xiàn)在不同的站點中,并且這些內容相關的WEB網頁并不一定會有鏈接。在互聯(lián)網中,超級鏈接的使用是隨機的,并非所有的超級鏈接都包含十分重要的信息,有的只是為了給用戶的瀏覽提供方便,而沒有其它的意義,我們在這種提供瀏覽方便的超級鏈接稱為瀏覽超級鏈接。而那些包含有語義信息的超級鏈接叫做語義超級鏈接。只有挖掘出語義超級鏈接才能幫助我們理解網頁文檔之間的意義,因此,我們在進行網絡結構挖掘時要刪去瀏覽超級鏈接,找出語義超級鏈接。網絡結構挖掘的原理正是來源于引文分析,它認為若網頁甲通過超鏈指向網頁乙,則網頁乙與網頁甲是主題相關的,網頁乙對于網頁甲來講是值得關注的網頁,其中隱含著對網頁甲來說有價值的信息。在互聯(lián)網中,相關主題的站點和頁面之間一般都存在大量的鏈接,通過這種鏈接方式相聚集。但主題相同的所有站點或頁面不一定會圍繞一個中心相聚集,也就是說一個主題會存在多個聚集中心。聚集中心的站點或頁面之間的鏈接關系最為密切,內容也最為相似,隨著內容相似度的降低,相互的鏈接關系也會逐漸減少。另外,內容上的關聯(lián)關系也會隨著鏈接級數(shù)的增加而降低,會從一個主題逐漸演化為另外一個主題。3.3網絡結構挖掘的作用正如引文分析的作用一樣,我們分析網絡結構挖掘,是因為它能夠為我們在進行網站評估、網站分析等提供量化的佐證。(1)了解各網站受歡迎和關注的程度。如果一個網站在同類網站中被用戶點擊的次數(shù)越多,那么它就越受用戶的關注。同樣,如果一個網站在同類網站中被別的網站鏈接的次數(shù)越多,那么它也受到同類網絡主管的重視。相反,根據(jù)馬太效應,一個網站很少被點擊或者很少被鏈接,那么,它就會沉沒在茫茫網海中,無人問津。(2)了解本站點與其它站點之間的關系。如果一個站點被別的站點鏈接,我們在除掉瀏覽超鏈的基礎上,那么這兩個站點之間應該有語義相關關系,這兩個站點就可能為同一主題的相關站點。通過網絡結構挖掘,我們可以找出同一主題下分布在世界各地的站點中的相關文檔。(3)快速了解一個網站的內部結構。超鏈分為站內超鏈和站外超鏈,通過網絡結構挖掘分析站內超鏈,可以找出本網頁和父網頁、子網頁之間的關系,進而了解一個網站的內部結構,為我們進行網站設計提供參考與借鑒。(4)找出中心站點和核心站點??蜖柎髮W的Jon Kleinberg充分利用網站間的鏈接關系為人們在無序的網絡世界中找出自己感興趣的、權威知識提供了一種方法。由于一個好的站點,它的管理及設計人員都愿意提供鏈接可信度高的鏈接。因此,一個站點可以通過它所鏈接的網站的權威程度來衡量,同時它會推薦用戶許多好的權威站點。反過來,這些又對其它網站的權威性起到了一定的增強作用,一個站點,如果鏈接了許多權威站點,那么它就是一個中心站點;如果一個站點被其它中心站點鏈接,那么它就是一個權威站點。(5)找出同鏈關系和藕合鏈接關系。同鏈關系即二個或二個以上網站(頁)同時被一個或多個網站(頁)鏈接,藕合鏈接是二個以上的網站(頁)同時鏈接一個或多個其它網頁。通過對它們進行結構挖掘,可以找出網站(頁)之間的相互關系,同時,還可以作為網站(頁)檢索的一個好方法。3.4網絡結構挖掘的應用網絡結構挖掘最典型的應用是用于搜索引擎中,著名的網絡搜索引擎Google就是利用網絡結構挖掘的相關原理。Google是通過爬蟲軟件在網上“爬行”,URL服務器則負責向這些爬蟲提供URL的列表,爬蟲所找到的網頁被送到存儲服務器中,存儲服務器于是就把這些網頁壓縮后存入一個知識庫中。在存儲服務器中每個網頁都有一個關聯(lián)ID,當一個新的URL從一個網頁中解析出來時,就會被分配一個關聯(lián)ID。索引庫負責從知識庫中讀取記錄,將文檔解壓并進行解析,同時分析網頁中所有鏈接并將重要信息存在相應的文檔中。這個文檔包含了足夠信息,可以用來判

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論