基于空間向量模型的先秦文獻(xiàn)相似性研究_第1頁
基于空間向量模型的先秦文獻(xiàn)相似性研究_第2頁
基于空間向量模型的先秦文獻(xiàn)相似性研究_第3頁
基于空間向量模型的先秦文獻(xiàn)相似性研究_第4頁
基于空間向量模型的先秦文獻(xiàn)相似性研究_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于空間向量模型的先秦文獻(xiàn)相似性研究摘 要: 本文基于空間向量模型,利用TF-IDF值,對(duì)?楚辭?、?公羊傳?、?管子?、?谷梁傳?、?國語?、?韓非子?、?老子?、?禮記?、?論語?、?呂氏春秋?、?孟子?、?墨子?、?商君書?、?詩經(jīng)?、?孫子?、?武子?、?孝經(jīng)?、?荀子?、?晏子春秋?、?儀禮?、?周禮?、?周易?、?莊子?、?尚書?和?左傳?等二十五本先秦文獻(xiàn)進(jìn)展了相似度計(jì)算,通過分析文本的相似系數(shù),考察文本間的相似程度和文獻(xiàn)本身的特殊性。最終發(fā)現(xiàn):部分文獻(xiàn)用詞較為封閉,用語風(fēng)格獨(dú)樹一幟;部分文獻(xiàn)用詞那么包容性,與其他文本的一致性較高。關(guān)鍵詞: 先秦文獻(xiàn) 相似性 向量空間模型 TF-

2、IDF值古漢語研究中,文本作者考證、著作年代探究等都是學(xué)者們的研究重點(diǎn)之一。他們常常從文本風(fēng)格、用詞特征等角度出發(fā),通過比較同時(shí)期的同類作品或者尋找詞語源流演變的軌跡等方法來探尋文獻(xiàn)創(chuàng)作者,確定文獻(xiàn)創(chuàng)作年代或判別文獻(xiàn)真?zhèn)?。這類研究中,古漢語研究者多依賴于文獻(xiàn)典籍或考古文物等資料,以此為據(jù)作出相應(yīng)的假設(shè)或者是論證已有假設(shè)。本文那么主要利用自然語言處理中的相似度計(jì)算方法,通過計(jì)算文獻(xiàn)間的相似系數(shù)來判斷彼此間的相似程度。主要考察了?楚辭?、?公羊傳?、?管子?、?谷梁傳?、?國語?、?韓非子?、?老子?、?禮記?、?論語?、?呂氏春秋?、?孟子?、?墨子?、?商君書?、?詩經(jīng)?、?孫子?、?武子?、

3、?孝經(jīng)?、?荀子?、?晏子春秋?、?儀禮?、?周禮?、?周易?、?莊子?、?尚書?、?左傳?這二十五本文獻(xiàn),在統(tǒng)計(jì)各文本的詞頻、詞長等根本數(shù)據(jù)的根底上,計(jì)算彼此間的相似系數(shù),分析相似情況。一、相似度計(jì)算與面向空間的向量模型一相似性計(jì)算相似度計(jì)算在中文信息處理中較常使用,它多效勞于文本分類和文本聚類,同時(shí)也在某種程度上依賴于文本分類和聚類,常用的特征項(xiàng)選取方法-信息增益IG就需依先前預(yù)定的分類情況來計(jì)算。無論是文本分類還是文本聚類,都需用一定的特征項(xiàng)來表示文本,也就是所謂的文本表示,其中特征項(xiàng)的選擇是根底。根據(jù)是否需要類別信息,特征選擇可分為有監(jiān)視和無監(jiān)視兩種,文本分類多采用有監(jiān)視特征選擇方法,

4、而文本聚類那么多采用無監(jiān)視特征選擇方法,當(dāng)然也有很多學(xué)者為了到達(dá)更高的選擇精度而嘗試把類信息融入到文本聚類中,使用有監(jiān)視學(xué)習(xí)方法中的信息增益來尋找文本中最具分類才能的特征運(yùn)用于文本聚類。本文主要是對(duì)先秦二十五本文獻(xiàn)進(jìn)展聚類分析,在未預(yù)測(cè)各文本間的分類情況的根底上計(jì)算每兩本文獻(xiàn)間的相似性,將其與人們的主觀歸類進(jìn)展比較,分析其差異。由于是在未知類信息的情況下進(jìn)展的研究,所以主要通過無監(jiān)視特征選擇方法中的文檔頻率來控制特征項(xiàng)的選擇,同時(shí)從傳統(tǒng)的TF-IDF值出發(fā),充分考慮古典文獻(xiàn)的文本特征,通過實(shí)驗(yàn)選取適宜的閥值進(jìn)一步提取特征項(xiàng),利用空間向量模型計(jì)算各文本間的相似度。二面向空間的向量模型計(jì)算對(duì)象相關(guān)

5、度的常用模型主要有空間向量模型和集合運(yùn)算模型等。由于后者的局限性比較大,所以常用向量空間模型來計(jì)算文檔相似度。二、實(shí)驗(yàn)操作本文利用上面所介紹的空間向量模型對(duì)先秦的二十五本文獻(xiàn)進(jìn)展了相似度計(jì)算,文本的原始資料來源于李斌等人的?Corpus-Based Statistics of Pre-Qin Chinese?一文,在實(shí)驗(yàn)過程中,我們首先對(duì)原始數(shù)據(jù)進(jìn)展預(yù)處理,結(jié)合古代漢語的特點(diǎn)刪除或者保存相應(yīng)數(shù)據(jù)。在此根底上計(jì)算各詞語的TF-IDF值,結(jié)合詞語的文檔、頻率選取特征項(xiàng)。最后,根據(jù)特征項(xiàng)的權(quán)重計(jì)算文本相似度,制作圖表。一預(yù)處理古代文獻(xiàn)多以單字詞為主,但是也有多字詞的存在。在此需要聲明的是,本文以詞為

6、特征項(xiàng),從詞出發(fā)計(jì)算文本相似度。在對(duì)統(tǒng)計(jì)所得的原始資料進(jìn)展處理時(shí),我們充分考慮了古代漢語的語詞特點(diǎn),刪去某些無用信息,保存相應(yīng)的數(shù)據(jù)。首先,去標(biāo)點(diǎn)符號(hào)。由于現(xiàn)代人所使用的古代文獻(xiàn)版本多為后人的注本,所以其中不免參雜了一些如今文本的信息。古代文本不存在標(biāo)點(diǎn),所以在預(yù)處理的過程中首先要將標(biāo)點(diǎn)符號(hào)相關(guān)的數(shù)據(jù)資料刪去,以防止處理過程中無關(guān)信息的干擾。其次,保存一樣語詞的不同詞形。古代漢語文本中存在許多同義異形詞,對(duì)現(xiàn)代漢語而言這可能是一種用語不標(biāo)準(zhǔn)的問題,但是對(duì)古代漢語而言,同義異形詞也反映了一定的文本風(fēng)格,表達(dá)了作者的創(chuàng)作習(xí)性。同時(shí),也是不同時(shí)代用詞情況以及詞語開展演變情況的映射。因此,在文本預(yù)處理

7、的過程中,我們保存了不同的詞形,把它們當(dāng)作不同的條目來處理,例如:將“和“列作兩個(gè)條目。 再次,保存一樣詞形不同詞性的詞語。古代漢語中大量存在詞類活用的現(xiàn)象,而在不同時(shí)期的不同文本中活用的情況不同,這也是古漢語不同時(shí)期語言演變的特點(diǎn)之一,所以,我們也將不同詞性一樣詞形的語詞分作不同的條目進(jìn)展處理。如:將“食n和“食v作為兩條詞項(xiàng)。二基于VSM的TF-IDF值計(jì)算w=tf×log公式2本文在通過統(tǒng)計(jì)所獲得的詞頻信息的根底上利用該公式對(duì)各文本中的每一個(gè)詞語的TF-IDF值進(jìn)展計(jì)算,為之后的特征選取以及相似度計(jì)算提供前提信息。三特征項(xiàng)的選取特征選取的主要作用是降維。在向量空間模型中,假設(shè)維

8、數(shù)較大,也就是表示文本的特征項(xiàng)較多,那么不可防止會(huì)帶來很大的噪聲信息。而這些噪聲信息不僅對(duì)于文本表示不起積極作用,更會(huì)增加機(jī)器處理的工作量。因此用特征項(xiàng)表示文檔,不僅不會(huì)使重要的文本特征信息流失還可以到達(dá)減少機(jī)器處理的工作量的目的,從而進(jìn)步效率。本文的處理對(duì)象是古代漢語文本,其本身具有較大的特殊性,所以在特征項(xiàng)選取時(shí),不僅僅要考慮除去噪聲和降低維度,另一重要任務(wù)是使文本之間詞例的頻度到達(dá)平衡,不能產(chǎn)生過大的差距,假設(shè)差距過大勢(shì)必會(huì)影響文本之間的相似性程度。為了選取最正確特征項(xiàng),我們充分考慮了各文本的特殊用語特點(diǎn),針對(duì)這些特征進(jìn)展多重選擇,并根據(jù)某些文本的語言特色,特殊對(duì)待個(gè)別文本,進(jìn)展特殊化處

9、理。主要的挑選步驟如下:首先,將計(jì)算得到的TF-IDF值為0的詞語去除。與現(xiàn)代漢語一樣,分布較廣或者涵蓋所有文本的特征對(duì)某一特定文本的代表性不高,所具有的文本信息也相對(duì)匱乏,對(duì)該文本與其他文本的區(qū)分度或者相似度的奉獻(xiàn)值較低,所以在選取特征項(xiàng)時(shí)不加考慮。其次,仍從TF-IDF值出發(fā),根據(jù)二十五本文獻(xiàn)的詞語頻度以及彼此間詞例數(shù)量的差異程度選取閥值,根據(jù)閥值刪除對(duì)文本表示奉獻(xiàn)度較小的語詞,使各文本的特征項(xiàng)數(shù)量到達(dá)平衡。經(jīng)實(shí)驗(yàn)說明,將閥值定為TF-IDF值等于0.00005時(shí),效果最正確。如下面的“二十五本文獻(xiàn)詞頻表所示,未經(jīng)挑選之前已經(jīng)過預(yù)處理,各文本的詞語個(gè)數(shù)差異較大,其中?孝經(jīng)?總共包含468個(gè)

10、詞例,而?左傳?那么到達(dá)了13343個(gè),兩者差距較大,即使刪去TF-IDF值為0共同詞例也無法真正到達(dá)平衡。除了為了使各詞例的出現(xiàn)頻度到達(dá)平衡之外,將各文本的降維閥值設(shè)定為0.00005的原因還在于,降維前后文本間相似度的改變程度非常微小,不會(huì)對(duì)文本間的相似性關(guān)系的挖掘產(chǎn)生不利影響。以?公羊傳?和?禮記?為例,兩者在未降維之前相似度為0.0749,經(jīng)降維處理之后相似度變?yōu)?.0786。而?莊子?和?韓非子?在未降維之前的相似度為0.1875,經(jīng)降維之后為0.1845。兩者都只有很微小的改變,這種改變并不會(huì)對(duì)文本間的相似性產(chǎn)生重大影響。四文本相似度計(jì)算文本相似度是表示兩個(gè)或者多個(gè)文本之間的匹配程

11、度的一個(gè)度量參數(shù),相似度越大,說明文本相似程度越高,反之越低。本文利用上述所述的方法挑選得出的特征項(xiàng)來表示文本,根據(jù)各特征項(xiàng)在不同文本中的權(quán)重,用公式2分別計(jì)算每兩個(gè)文本之間的相似系數(shù),所得的詳細(xì)參數(shù)如下表。三、實(shí)驗(yàn)結(jié)果和分析實(shí)驗(yàn)的對(duì)象是先秦二十五本文獻(xiàn),各文獻(xiàn)所屬類別不同,部分差異較大,假設(shè)暫不考慮古漢語研究中對(duì)這二十五本文獻(xiàn)所持的觀點(diǎn),僅從本文相似度計(jì)算所得的數(shù)據(jù)來觀察,我們發(fā)現(xiàn)了這樣一些特點(diǎn)和文本間的相關(guān)關(guān)系。首先,各文本相似性差異較大,部分文本只與某一個(gè)或者兩個(gè)文本相似度較大,與其他文本的相關(guān)性很小,如:?老子?、?公羊傳?、?谷梁傳?和?楚辭?等,其中?老子?和?楚辭?僅彼此間相似度

12、較高,與其他文本的相似度接近于0,值得注意的是,和其他文本的相似系數(shù)相比,?老子?和?楚辭?同?詩經(jīng)?的相似系數(shù)都要高一些。另有一部分文本那么恰恰與此相反,它們約與一半以上的文本較為相似,只與少數(shù)文本有較大差異,如:?莊子?、?韓非子?、?管子?等。還有一部分文本是與其他文本也有一定的相關(guān)度,但是尤以某一本較為突出,如:?武子?與?論語?,?尚書?與?詩經(jīng)?,?周易?與?儀禮?等。其次,本文是通過詞頻來計(jì)算相似性的,所以相似系數(shù)在某種程度上反映的是各文本在用語方面的相關(guān)性。那么,從用詞角度來講,部分文本的語言較具特色,如?老子?,它幾乎只與?楚辭?和?詩經(jīng)?相關(guān),可見其用詞風(fēng)格的獨(dú)樹一幟。雖然

13、在內(nèi)容和思想方面,?老子?和?楚辭?、?詩經(jīng)?大相徑庭,但是在用語上兩者卻又較為相似,這可能與?老子?一書多采用四字格、三字格等較為精煉的語句且多用對(duì)偶形式有關(guān),這與?楚辭?的體式非常相似。二十五本文獻(xiàn)中,除了用詞特殊的文本之外,也有具有很大包容性的文本,可以說某些文本的用詞是兼容并包的,它們與大部分文本相似,如:?商君書?、?荀子?等。這一方面說明在本文分析的二十五本文獻(xiàn)中,與該文本用語相似的文本較多,另一方面也說明了,該文本的用語較為通俗,為許多其他作品所共有。如?呂氏春秋?這一本百科全書式的著作,內(nèi)容包含甚廣,且由呂不韋眾多門客的作品編輯而成,這勢(shì)必會(huì)使其在用語和言語分格上呈現(xiàn)兼容并包的

14、特點(diǎn),這就使得其與其他各類題材的文本有較大的相似性。 最后,通過分析各文本的相似度關(guān)系折線圖,會(huì)發(fā)現(xiàn)詞語包容性較小的文本,與其相關(guān)的文本數(shù)量也相對(duì)有限且與不同文本比較所得的相似系數(shù)差異也較大,因此聚類相對(duì)容易。通過對(duì)相似文本較少的文本的分析,我們發(fā)現(xiàn)可對(duì)其作如下歸類:?公羊傳?和?谷梁傳?同屬一類,它們與?左傳?的語言風(fēng)格最為接近。?楚辭?和?老子?可歸為一類,兩者與?詩經(jīng)?具有很大的共同點(diǎn),但是?詩經(jīng)?一書中又交融了較多其他文本的特點(diǎn),與?老子?的相似度不是特別高,而?楚辭?與?詩經(jīng)?卻具有很大相似性,所以三種可歸為同一類,其中?老子?又存在著某種特殊的差異性。?武子?與?論語?同屬一類,兩

15、者與其他文本的相似程度都較低。四、結(jié)語本文運(yùn)用中文信息處理中常用的相似度計(jì)算方法對(duì)?楚辭?、?公羊傳?、?管子?、?谷梁傳?、?國語?、?韓非子?、?老子?、?禮記?、?論語?、?呂氏春秋?、?孟子?、?墨子?、?商君書?、?詩經(jīng)?、?孫子?、?武子?、?孝經(jīng)?、?荀子?、?晏子春秋?、?儀禮?、?周禮?、?周易?、?莊子?、?尚書?、?左傳?等二十五本先秦文獻(xiàn)進(jìn)展了相似系數(shù)計(jì)算,通過分析計(jì)算所得的數(shù)據(jù)發(fā)現(xiàn)了這些文獻(xiàn)在用語等方面存在的特點(diǎn)。其中,部分文獻(xiàn)的用詞較為封閉,用語風(fēng)格獨(dú)樹一幟,如?老子?、?楚辭?等;而部分文獻(xiàn)用詞具有包容性,與較多的文本存在一致性,相似度較高。參考文獻(xiàn):3宗成慶.統(tǒng)計(jì)自然語言處理M,北京市:清

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論