基于空間向量模型的先秦文獻(xiàn)相似性研究

上傳人：眾*** IP屬地：上海上傳時(shí)間：2022-02-17 格式：DOCX 頁數(shù)：7 大?。?6.44KB 積分：16 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩2頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于空間向量模型的先秦文獻(xiàn)相似性研究摘要：本文基于空間向量模型，利用TF-IDF值，對(duì)?楚辭?、?公羊傳?、?管子?、?谷梁傳?、?國語?、?韓非子?、?老子?、?禮記?、?論語?、?呂氏春秋?、?孟子?、?墨子?、?商君書?、?詩經(jīng)?、?孫子?、?武子?、?孝經(jīng)?、?荀子?、?晏子春秋?、?儀禮?、?周禮?、?周易?、?莊子?、?尚書?和?左傳?等二十五本先秦文獻(xiàn)進(jìn)展了相似度計(jì)算，通過分析文本的相似系數(shù)，考察文本間的相似程度和文獻(xiàn)本身的特殊性。最終發(fā)現(xiàn)：部分文獻(xiàn)用詞較為封閉，用語風(fēng)格獨(dú)樹一幟;部分文獻(xiàn)用詞那么包容性，與其他文本的一致性較高。關(guān)鍵詞：先秦文獻(xiàn) 相似性向量空間模型 TF-

2、IDF值古漢語研究中，文本作者考證、著作年代探究等都是學(xué)者們的研究重點(diǎn)之一。他們常常從文本風(fēng)格、用詞特征等角度出發(fā)，通過比較同時(shí)期的同類作品或者尋找詞語源流演變的軌跡等方法來探尋文獻(xiàn)創(chuàng)作者，確定文獻(xiàn)創(chuàng)作年代或判別文獻(xiàn)真?zhèn)?。這類研究中，古漢語研究者多依賴于文獻(xiàn)典籍或考古文物等資料，以此為據(jù)作出相應(yīng)的假設(shè)或者是論證已有假設(shè)。本文那么主要利用自然語言處理中的相似度計(jì)算方法，通過計(jì)算文獻(xiàn)間的相似系數(shù)來判斷彼此間的相似程度。主要考察了?楚辭?、?公羊傳?、?管子?、?谷梁傳?、?國語?、?韓非子?、?老子?、?禮記?、?論語?、?呂氏春秋?、?孟子?、?墨子?、?商君書?、?詩經(jīng)?、?孫子?、?武子?、

3、?孝經(jīng)?、?荀子?、?晏子春秋?、?儀禮?、?周禮?、?周易?、?莊子?、?尚書?、?左傳?這二十五本文獻(xiàn)，在統(tǒng)計(jì)各文本的詞頻、詞長等根本數(shù)據(jù)的根底上，計(jì)算彼此間的相似系數(shù)，分析相似情況。一、相似度計(jì)算與面向空間的向量模型一相似性計(jì)算相似度計(jì)算在中文信息處理中較常使用，它多效勞于文本分類和文本聚類，同時(shí)也在某種程度上依賴于文本分類和聚類，常用的特征項(xiàng)選取方法-信息增益IG就需依先前預(yù)定的分類情況來計(jì)算。無論是文本分類還是文本聚類，都需用一定的特征項(xiàng)來表示文本，也就是所謂的文本表示，其中特征項(xiàng)的選擇是根底。根據(jù)是否需要類別信息，特征選擇可分為有監(jiān)視和無監(jiān)視兩種，文本分類多采用有監(jiān)視特征選擇方法，

4、而文本聚類那么多采用無監(jiān)視特征選擇方法，當(dāng)然也有很多學(xué)者為了到達(dá)更高的選擇精度而嘗試把類信息融入到文本聚類中，使用有監(jiān)視學(xué)習(xí)方法中的信息增益來尋找文本中最具分類才能的特征運(yùn)用于文本聚類。本文主要是對(duì)先秦二十五本文獻(xiàn)進(jìn)展聚類分析，在未預(yù)測(cè)各文本間的分類情況的根底上計(jì)算每兩本文獻(xiàn)間的相似性，將其與人們的主觀歸類進(jìn)展比較，分析其差異。由于是在未知類信息的情況下進(jìn)展的研究，所以主要通過無監(jiān)視特征選擇方法中的文檔頻率來控制特征項(xiàng)的選擇，同時(shí)從傳統(tǒng)的TF-IDF值出發(fā)，充分考慮古典文獻(xiàn)的文本特征，通過實(shí)驗(yàn)選取適宜的閥值進(jìn)一步提取特征項(xiàng)，利用空間向量模型計(jì)算各文本間的相似度。二面向空間的向量模型計(jì)算對(duì)象相關(guān)

5、度的常用模型主要有空間向量模型和集合運(yùn)算模型等。由于后者的局限性比較大，所以常用向量空間模型來計(jì)算文檔相似度。二、實(shí)驗(yàn)操作本文利用上面所介紹的空間向量模型對(duì)先秦的二十五本文獻(xiàn)進(jìn)展了相似度計(jì)算，文本的原始資料來源于李斌等人的?Corpus-Based Statistics of Pre-Qin Chinese?一文，在實(shí)驗(yàn)過程中，我們首先對(duì)原始數(shù)據(jù)進(jìn)展預(yù)處理，結(jié)合古代漢語的特點(diǎn)刪除或者保存相應(yīng)數(shù)據(jù)。在此根底上計(jì)算各詞語的TF-IDF值，結(jié)合詞語的文檔、頻率選取特征項(xiàng)。最后，根據(jù)特征項(xiàng)的權(quán)重計(jì)算文本相似度，制作圖表。一預(yù)處理古代文獻(xiàn)多以單字詞為主，但是也有多字詞的存在。在此需要聲明的是，本文以詞為

6、特征項(xiàng)，從詞出發(fā)計(jì)算文本相似度。在對(duì)統(tǒng)計(jì)所得的原始資料進(jìn)展處理時(shí)，我們充分考慮了古代漢語的語詞特點(diǎn)，刪去某些無用信息，保存相應(yīng)的數(shù)據(jù)。首先，去標(biāo)點(diǎn)符號(hào)。由于現(xiàn)代人所使用的古代文獻(xiàn)版本多為后人的注本，所以其中不免參雜了一些如今文本的信息。古代文本不存在標(biāo)點(diǎn)，所以在預(yù)處理的過程中首先要將標(biāo)點(diǎn)符號(hào)相關(guān)的數(shù)據(jù)資料刪去，以防止處理過程中無關(guān)信息的干擾。其次，保存一樣語詞的不同詞形。古代漢語文本中存在許多同義異形詞，對(duì)現(xiàn)代漢語而言這可能是一種用語不標(biāo)準(zhǔn)的問題，但是對(duì)古代漢語而言，同義異形詞也反映了一定的文本風(fēng)格，表達(dá)了作者的創(chuàng)作習(xí)性。同時(shí)，也是不同時(shí)代用詞情況以及詞語開展演變情況的映射。因此，在文本預(yù)處理

7、的過程中，我們保存了不同的詞形，把它們當(dāng)作不同的條目來處理，例如：將“和“列作兩個(gè)條目。再次，保存一樣詞形不同詞性的詞語。古代漢語中大量存在詞類活用的現(xiàn)象，而在不同時(shí)期的不同文本中活用的情況不同，這也是古漢語不同時(shí)期語言演變的特點(diǎn)之一，所以，我們也將不同詞性一樣詞形的語詞分作不同的條目進(jìn)展處理。如：將“食n和“食v作為兩條詞項(xiàng)。二基于VSM的TF-IDF值計(jì)算w=tf×log公式2本文在通過統(tǒng)計(jì)所獲得的詞頻信息的根底上利用該公式對(duì)各文本中的每一個(gè)詞語的TF-IDF值進(jìn)展計(jì)算，為之后的特征選取以及相似度計(jì)算提供前提信息。三特征項(xiàng)的選取特征選取的主要作用是降維。在向量空間模型中，假設(shè)維

8、數(shù)較大，也就是表示文本的特征項(xiàng)較多，那么不可防止會(huì)帶來很大的噪聲信息。而這些噪聲信息不僅對(duì)于文本表示不起積極作用，更會(huì)增加機(jī)器處理的工作量。因此用特征項(xiàng)表示文檔，不僅不會(huì)使重要的文本特征信息流失還可以到達(dá)減少機(jī)器處理的工作量的目的，從而進(jìn)步效率。本文的處理對(duì)象是古代漢語文本，其本身具有較大的特殊性，所以在特征項(xiàng)選取時(shí)，不僅僅要考慮除去噪聲和降低維度，另一重要任務(wù)是使文本之間詞例的頻度到達(dá)平衡，不能產(chǎn)生過大的差距，假設(shè)差距過大勢(shì)必會(huì)影響文本之間的相似性程度。為了選取最正確特征項(xiàng)，我們充分考慮了各文本的特殊用語特點(diǎn)，針對(duì)這些特征進(jìn)展多重選擇，并根據(jù)某些文本的語言特色，特殊對(duì)待個(gè)別文本，進(jìn)展特殊化處

9、理。主要的挑選步驟如下：首先，將計(jì)算得到的TF-IDF值為0的詞語去除。與現(xiàn)代漢語一樣，分布較廣或者涵蓋所有文本的特征對(duì)某一特定文本的代表性不高，所具有的文本信息也相對(duì)匱乏，對(duì)該文本與其他文本的區(qū)分度或者相似度的奉獻(xiàn)值較低，所以在選取特征項(xiàng)時(shí)不加考慮。其次，仍從TF-IDF值出發(fā)，根據(jù)二十五本文獻(xiàn)的詞語頻度以及彼此間詞例數(shù)量的差異程度選取閥值，根據(jù)閥值刪除對(duì)文本表示奉獻(xiàn)度較小的語詞，使各文本的特征項(xiàng)數(shù)量到達(dá)平衡。經(jīng)實(shí)驗(yàn)說明，將閥值定為TF-IDF值等于0.00005時(shí)，效果最正確。如下面的“二十五本文獻(xiàn)詞頻表所示，未經(jīng)挑選之前已經(jīng)過預(yù)處理，各文本的詞語個(gè)數(shù)差異較大，其中?孝經(jīng)?總共包含468個(gè)

10、詞例，而?左傳?那么到達(dá)了13343個(gè)，兩者差距較大，即使刪去TF-IDF值為0共同詞例也無法真正到達(dá)平衡。除了為了使各詞例的出現(xiàn)頻度到達(dá)平衡之外，將各文本的降維閥值設(shè)定為0.00005的原因還在于，降維前后文本間相似度的改變程度非常微小，不會(huì)對(duì)文本間的相似性關(guān)系的挖掘產(chǎn)生不利影響。以?公羊傳?和?禮記?為例，兩者在未降維之前相似度為0.0749，經(jīng)降維處理之后相似度變?yōu)?.0786。而?莊子?和?韓非子?在未降維之前的相似度為0.1875，經(jīng)降維之后為0.1845。兩者都只有很微小的改變，這種改變并不會(huì)對(duì)文本間的相似性產(chǎn)生重大影響。四文本相似度計(jì)算文本相似度是表示兩個(gè)或者多個(gè)文本之間的匹配程

11、度的一個(gè)度量參數(shù)，相似度越大，說明文本相似程度越高，反之越低。本文利用上述所述的方法挑選得出的特征項(xiàng)來表示文本，根據(jù)各特征項(xiàng)在不同文本中的權(quán)重，用公式2分別計(jì)算每兩個(gè)文本之間的相似系數(shù)，所得的詳細(xì)參數(shù)如下表。三、實(shí)驗(yàn)結(jié)果和分析實(shí)驗(yàn)的對(duì)象是先秦二十五本文獻(xiàn)，各文獻(xiàn)所屬類別不同，部分差異較大，假設(shè)暫不考慮古漢語研究中對(duì)這二十五本文獻(xiàn)所持的觀點(diǎn)，僅從本文相似度計(jì)算所得的數(shù)據(jù)來觀察，我們發(fā)現(xiàn)了這樣一些特點(diǎn)和文本間的相關(guān)關(guān)系。首先，各文本相似性差異較大，部分文本只與某一個(gè)或者兩個(gè)文本相似度較大，與其他文本的相關(guān)性很小，如：?老子?、?公羊傳?、?谷梁傳?和?楚辭?等，其中?老子?和?楚辭?僅彼此間相似度

12、較高，與其他文本的相似度接近于0，值得注意的是，和其他文本的相似系數(shù)相比，?老子?和?楚辭?同?詩經(jīng)?的相似系數(shù)都要高一些。另有一部分文本那么恰恰與此相反，它們約與一半以上的文本較為相似，只與少數(shù)文本有較大差異，如：?莊子?、?韓非子?、?管子?等。還有一部分文本是與其他文本也有一定的相關(guān)度，但是尤以某一本較為突出，如：?武子?與?論語?，?尚書?與?詩經(jīng)?，?周易?與?儀禮?等。其次，本文是通過詞頻來計(jì)算相似性的，所以相似系數(shù)在某種程度上反映的是各文本在用語方面的相關(guān)性。那么，從用詞角度來講，部分文本的語言較具特色，如?老子?，它幾乎只與?楚辭?和?詩經(jīng)?相關(guān)，可見其用詞風(fēng)格的獨(dú)樹一幟。雖然

13、在內(nèi)容和思想方面，?老子?和?楚辭?、?詩經(jīng)?大相徑庭，但是在用語上兩者卻又較為相似，這可能與?老子?一書多采用四字格、三字格等較為精煉的語句且多用對(duì)偶形式有關(guān)，這與?楚辭?的體式非常相似。二十五本文獻(xiàn)中，除了用詞特殊的文本之外，也有具有很大包容性的文本，可以說某些文本的用詞是兼容并包的，它們與大部分文本相似，如：?商君書?、?荀子?等。這一方面說明在本文分析的二十五本文獻(xiàn)中，與該文本用語相似的文本較多，另一方面也說明了，該文本的用語較為通俗，為許多其他作品所共有。如?呂氏春秋?這一本百科全書式的著作，內(nèi)容包含甚廣，且由呂不韋眾多門客的作品編輯而成，這勢(shì)必會(huì)使其在用語和言語分格上呈現(xiàn)兼容并包的

14、特點(diǎn)，這就使得其與其他各類題材的文本有較大的相似性。最后，通過分析各文本的相似度關(guān)系折線圖，會(huì)發(fā)現(xiàn)詞語包容性較小的文本，與其相關(guān)的文本數(shù)量也相對(duì)有限且與不同文本比較所得的相似系數(shù)差異也較大，因此聚類相對(duì)容易。通過對(duì)相似文本較少的文本的分析，我們發(fā)現(xiàn)可對(duì)其作如下歸類：?公羊傳?和?谷梁傳?同屬一類，它們與?左傳?的語言風(fēng)格最為接近。?楚辭?和?老子?可歸為一類，兩者與?詩經(jīng)?具有很大的共同點(diǎn)，但是?詩經(jīng)?一書中又交融了較多其他文本的特點(diǎn)，與?老子?的相似度不是特別高，而?楚辭?與?詩經(jīng)?卻具有很大相似性，所以三種可歸為同一類，其中?老子?又存在著某種特殊的差異性。?武子?與?論語?同屬一類，兩

15、者與其他文本的相似程度都較低。四、結(jié)語本文運(yùn)用中文信息處理中常用的相似度計(jì)算方法對(duì)?楚辭?、?公羊傳?、?管子?、?谷梁傳?、?國語?、?韓非子?、?老子?、?禮記?、?論語?、?呂氏春秋?、?孟子?、?墨子?、?商君書?、?詩經(jīng)?、?孫子?、?武子?、?孝經(jīng)?、?荀子?、?晏子春秋?、?儀禮?、?周禮?、?周易?、?莊子?、?尚書?、?左傳?等二十五本先秦文獻(xiàn)進(jìn)展了相似系數(shù)計(jì)算，通過分析計(jì)算所得的數(shù)據(jù)發(fā)現(xiàn)了這些文獻(xiàn)在用語等方面存在的特點(diǎn)。其中，部分文獻(xiàn)的用詞較為封閉，用語風(fēng)格獨(dú)樹一幟，如?老子?、?楚辭?等;而部分文獻(xiàn)用詞具有包容性，與較多的文本存在一致性，相似度較高。參考文獻(xiàn)：3宗成慶.統(tǒng)計(jì)自然語言處理M，北京市：清

人人文庫> 全部分類> 教育資料 > 中學(xué)教育

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于空間向量模型的先秦文獻(xiàn)相似性研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于空間向量模型的先秦文獻(xiàn)相似性研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔