模糊數(shù)學(xué)在信息檢索中的應(yīng)用畢業(yè)論文.doc_第1頁(yè)
模糊數(shù)學(xué)在信息檢索中的應(yīng)用畢業(yè)論文.doc_第2頁(yè)
模糊數(shù)學(xué)在信息檢索中的應(yīng)用畢業(yè)論文.doc_第3頁(yè)
模糊數(shù)學(xué)在信息檢索中的應(yīng)用畢業(yè)論文.doc_第4頁(yè)
模糊數(shù)學(xué)在信息檢索中的應(yīng)用畢業(yè)論文.doc_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余29頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

xxxxx 本科畢業(yè)設(shè)計(jì) 論文 模糊數(shù)學(xué)在信息檢索中的應(yīng)用模糊數(shù)學(xué)在信息檢索中的應(yīng)用 摘摘 要要 本文從模糊集出發(fā) 以信息檢索為應(yīng)用背景 逐步引入模糊數(shù)學(xué)理論 并 以提高信息檢索的準(zhǔn)確率和檢索效率為目的 提出以下思想方法 1 為了提高檢索準(zhǔn)確率 根據(jù)模糊集理論 提出了基于文檔和查詢?cè)~的模糊 集表示法 2 通過(guò)利用模糊聚類分析理論 研究了基于模糊集文檔的模糊聚類方法 并 得到了分類的文檔簇 同時(shí)研究了文檔簇的模糊集表示法 為后續(xù)研究做鋪墊 3 為了提高檢索效率 可以通過(guò)縮小檢索范圍來(lái)實(shí)現(xiàn) 據(jù)此提出了基于文檔 簇的模糊信息檢索模型 從而得到滿足條件的文檔簇 4 為了對(duì)滿足條件的文檔簇中的文檔進(jìn)行排序 提出了基于文檔的模糊信息 檢索模型 從而完成了檢索的剩余工作 并形成完整的檢索過(guò)程 5 通過(guò)提出算例 分兩種情況進(jìn)行了分析 當(dāng)文檔集和查詢項(xiàng)都是用模糊集 表示的 分析了基于模糊集的模糊信息檢索模型 當(dāng)文檔集是模糊集表示 查詢項(xiàng) 是確定的布爾類型 分析了基于模糊集的擴(kuò)展布爾檢索模型 關(guān)鍵詞關(guān)鍵詞 模糊集 聚類分析 信息檢索 檢索模型 布爾檢索 xxxxx 本科畢業(yè)設(shè)計(jì) 論文 Fuzzy mathematics application in information retrieval Abstract For improving the information retrieval accuracy and efficiency of searching this paper which puts information retrieval as application background and gradually introduces the fuzzy mathematical theory puts forward the following thoughts and methods 1 In order to improve retrieval accuracy this paper according to the fuzzy sets theory put forward the fuzzy sets representations based on both the inquiry word and the document 2 Through fuzzy clustering analysis theory we study the fuzzy clustering analysis method based on the document cluster and acquire the classification of the cluster And we also study the representation of the document classification based on the fuzzy sets It is laying groundwork for the follow up study 3 In order to improve the search efficiency we can do it through narrowing the searching range So the paper puts forward the fuzzy information retrieval model which is based on the document cluster Then we get meet the satisfied document clusters 4 In order to sort the satisfied document clusters we put forward the fuzzy information retrieval model which is based on the document Thus we complete the surplus work of retrieval forming a complete search process 5 By presenting examples two cases were analyzed when the sets of documents and query terms are represented by fuzzy sets we analyze the fuzzy information retrieval model based on the fuzzy sets when the set of documents is fuzzy set and the set of the query terms is the Boolean sets we analyze the Boolean information retrieval model based on the fuzzy sets Keywords fuzzy sets clustering analysis information retrieval retrieval model Boolean retrieval xxxxx 本科畢業(yè)設(shè)計(jì) 論文 I 目目 錄錄 1 緒論 1 1 1 論文研究的背景及意義 1 1 1 1 論文研究的背景及目的 1 1 1 2 國(guó)內(nèi)外研究現(xiàn)狀 1 1 1 3 論文研究的意義 1 1 1 4 論文研究采用的方法及理論依據(jù) 2 1 2 論文構(gòu)成及研究?jī)?nèi)容 2 1 3 模糊集的基本概念 2 1 4 模糊理論的數(shù)學(xué)基礎(chǔ) 2 1 4 1 經(jīng)典集合 2 1 4 2 模糊集合 3 1 4 3 歸屬函數(shù) 3 1 5 模糊子集及其運(yùn)算 3 1 5 1 模糊集的相關(guān)定義 4 1 5 2 模糊集的運(yùn)算 5 1 5 3 模糊集的其他運(yùn)算 5 1 6 模糊集的基本定理 6 2模糊聚類檢索策略 7 2 1 相關(guān)概念 7 2 2 模糊聚類分析 7 2 2 1 選擇模糊聚類方法 8 2 2 2 詞頻矩陣 8 2 3 基于編網(wǎng)法的模糊聚類分析模型 9 2 3 1 構(gòu)造模糊相似矩陣 9 2 3 2 模糊聚類之編網(wǎng)法 10 2 3 3 基于文檔集合的模糊聚類編網(wǎng)法的應(yīng)用 10 2 4 文檔簇的模糊表示法 11 xxxxx 本科畢業(yè)設(shè)計(jì) 論文 II 3 模糊概念網(wǎng)絡(luò) 12 3 1 模糊概念網(wǎng)絡(luò)的結(jié)構(gòu) 12 3 2 基于文檔的模糊概念網(wǎng)絡(luò)的構(gòu)建 12 3 3 基于文檔簇的模糊概念網(wǎng)絡(luò)的構(gòu)建 14 4 基于文檔簇和文檔的信息檢索模型 15 4 1 基于文檔簇的模糊信息檢索模型 15 4 1 1 文檔簇和查詢項(xiàng)的模糊集表示 15 4 1 2 相關(guān)性 15 4 1 3 檢索方法 17 4 2 基于文檔的模糊信息檢索模型 18 4 2 1 文檔和查詢項(xiàng)的模糊集表示 18 4 2 2 相關(guān)性 18 4 3 檢索方法 18 4 3 1 基于模糊集的擴(kuò)展布爾檢索 18 4 3 2 基于模糊集的模糊檢索 20 5模糊信息檢索模型實(shí)例分析 23 5 1 基于模糊集的擴(kuò)展布爾檢索實(shí)例分析 23 5 2 基于模糊集的模糊檢索實(shí)例分析 24 6 結(jié)論 26 參考文獻(xiàn)參考文獻(xiàn) 28 致致 謝謝 29 xxxxx 本科畢業(yè)設(shè)計(jì) 論文 1 1 緒論緒論 1 1 論文研究的背景及意義論文研究的背景及意義 1 1 1 論文研究的背景論文研究的背景及目的及目的 自從美國(guó)著名控制論專家 加利福尼亞大學(xué)L A Zadeh教授1965年建立模糊集理 以來(lái) 在各國(guó)學(xué)者的共同努力和不斷探索下 模糊集理論及其應(yīng)用的研究成果 1 論 已非常豐富 它不僅發(fā)展和擴(kuò)充了經(jīng)典數(shù)學(xué)的研究領(lǐng)域 使數(shù)學(xué)學(xué)科的研究體系發(fā)生 了重大變革 而且能有效地解決經(jīng)典數(shù)學(xué)難以解決的大系的復(fù)雜性問(wèn)題 以及在自 然界和日常生活中普遍存在而無(wú)法解決的模糊性問(wèn)題 比如信息檢索 模糊數(shù)學(xué)理提出后 信息檢索領(lǐng)域的學(xué)者就嘗試將其應(yīng)用于信息檢索中 2 論 并且取得了長(zhǎng)足的發(fā)展 產(chǎn)生了一大批優(yōu)秀的模糊信息檢索應(yīng)用理論 為模糊數(shù)學(xué) 的應(yīng)用開(kāi)拓了新的領(lǐng)域 比如 模糊聚類分析在信息檢索中的應(yīng)用 模糊集在信息 檢索中的應(yīng)用 模糊推理在信息檢索中的應(yīng)用等 總體來(lái)看 這些應(yīng)用理論為模糊數(shù) 學(xué)發(fā)展開(kāi)辟了新的空間 增添了新的活力 本文以模糊數(shù)學(xué)理論為基礎(chǔ) 提出了一套新的信息檢索應(yīng)用方法 此方法的提出 主要希望達(dá)到一下目的 1 為了提高信息檢索的準(zhǔn)確性 提出了基于模糊集的信息檢索模型 2 為了提高信息檢索的效率 提出了基于文檔簇的模糊信息檢索模型 并 將 基于模糊聚類分析的檢索策略 應(yīng)用到模型上 1 1 2 國(guó)內(nèi)外研究現(xiàn)狀國(guó)內(nèi)外研究現(xiàn)狀 目前 信息檢索發(fā)展迅速 并產(chǎn)生了優(yōu)秀的檢索模型 向量空間模型 概率模 型 語(yǔ)言模型 推理網(wǎng)路模型 布爾檢索 LSI 神經(jīng)網(wǎng)絡(luò)方法 遺傳算法 模糊集 檢索模型等 同時(shí) 也促進(jìn)了提高模型性能的檢索策略的探索和發(fā)展 常用的檢索策 略 相關(guān)反饋 聚類 基于片段的檢索 語(yǔ)言解析 n元語(yǔ)法 同義詞表 n元語(yǔ)法 語(yǔ)義網(wǎng)路 回歸分析 由于檢索效率及穩(wěn)定性的瓶頸 使得模糊信息檢索實(shí)際應(yīng)用發(fā)展緩慢 其在信 息檢索領(lǐng)域的應(yīng)用還比較有限 從國(guó)外來(lái)看 模糊數(shù)學(xué)應(yīng)用到信息檢索的案例還很少 大多數(shù)相關(guān)應(yīng)用都處于實(shí)驗(yàn)階段 從國(guó)內(nèi)來(lái)看 模糊數(shù)學(xué)的信息檢索應(yīng)用案例幾乎 沒(méi)有 總體來(lái)看 都是由于其不穩(wěn)定及效率問(wèn)題決定的 所以實(shí)現(xiàn)效率及穩(wěn)定性的突 破就顯的很重要了 1 1 3 論文研究的意義論文研究的意義 模糊數(shù)學(xué)自身的理論研究進(jìn)展迅速 我國(guó)模糊數(shù)學(xué)自身的理論研究仍占模糊數(shù)學(xué) 及其應(yīng)用學(xué)科的主導(dǎo)地位 所取得的研究成果在 模糊數(shù)學(xué) 模糊系統(tǒng)與數(shù)學(xué) 等數(shù)十種學(xué)術(shù)期刊和全國(guó)高校學(xué)報(bào)中經(jīng)??梢?jiàn) 模糊聚類分析理論 模糊神經(jīng)網(wǎng)絡(luò) xxxxx 本科畢業(yè)設(shè)計(jì) 論文 2 理論和各種新的模糊定理及算法不斷取得進(jìn)展 通過(guò)研究模糊數(shù)學(xué)在信息檢索中的應(yīng)用 提出一種新的方法 來(lái)提高模糊信息 檢索的效率 同時(shí) 使得模糊數(shù)學(xué)的應(yīng)用分支更豐富 1 1 4 論文研究采用的方法及論文研究采用的方法及理論依據(jù)理論依據(jù) 1 通過(guò)提出模糊集和模糊聚類分析理論 首先將樣本文檔表示成模糊集 并 利用模糊聚類分析方法對(duì)文檔模糊集進(jìn)行模糊聚類 同時(shí)提出了分類文檔簇的模糊 集表示方法 從而建立了文檔簇的模糊集 2 通過(guò)基于詞項(xiàng)概念和文檔簇的模糊概念網(wǎng)圖 為建立模糊信息檢索模型 提供了直觀的檢索對(duì)象關(guān)系圖 3 通過(guò)建立基于文檔類簇的模糊信息檢索模型 得到滿足條件的文檔簇 從 而為后續(xù)處理縮小檢索范圍 這在一定程度上提高了檢索效率 4 針對(duì)得到的文檔簇集中的文檔 建立基于文檔的模糊信息檢索模型 從而 得到排序的檢索結(jié)果 5 為了直觀描述模糊信息檢索模型 添加了模型的實(shí)例分析 1 2 論文構(gòu)成及研究?jī)?nèi)容論文構(gòu)成及研究?jī)?nèi)容 論文主要內(nèi)容主要包括 1 介紹了模糊數(shù)學(xué)的信息檢索應(yīng)用現(xiàn)狀 研究該課題 的意義 目的 提出的方法及實(shí)現(xiàn)模型 初步闡述了模糊數(shù)學(xué)在信息檢索的應(yīng)用 2 介 紹模糊聚類檢索策略 根據(jù)制定的閾值 將樣本文檔分為一些類簇 并且為滿足條 件的文檔簇建立其模糊量集度量方法 為下面的研究做鋪墊 3 介紹模糊概念網(wǎng)絡(luò) 圖的建立 使得研究變的更加直觀 4 介紹基于文檔類簇的模糊信息檢索模型 從 而得到簇類的檢索結(jié)果 減小了檢索的范圍 在一定程度上提高了檢索效率 5 介 紹基于文檔的模糊信息檢索模型的實(shí)例分析 1 3 模糊集的基本概念模糊集的基本概念 模糊理論是為了解決真實(shí)世界中普遍存在的模糊現(xiàn)象而發(fā)展的一門學(xué)問(wèn) 模糊理 論以模糊集合為基礎(chǔ) 基本精神是接受模糊性現(xiàn)象存在的事實(shí) 而以處理概念模糊 不確定的事物為其研究目標(biāo) 并積極地將其嚴(yán)密量化成計(jì)算機(jī)處理可以處理的信息 實(shí)際上 模糊理論是模糊集合 模糊關(guān)系 模糊邏輯 模糊控制 模糊測(cè)量等理論 的泛稱 我們通常稱之為模糊數(shù)學(xué) 1 4 模糊理論的數(shù)學(xué)基礎(chǔ)模糊理論的數(shù)學(xué)基礎(chǔ) 1 4 1 經(jīng)典集合經(jīng)典集合 模糊理論的基礎(chǔ)是模糊集合和歸屬函數(shù) 所謂集合是一些具有某種共同特質(zhì)事 物匯總起來(lái)的組織 用來(lái)歸納一群具有相同特征事物 一般而言 傳統(tǒng)意義上的集合 xxxxx 本科畢業(yè)設(shè)計(jì) 論文 3 具有下列共同的特點(diǎn) 同一集合中的元素具有某種相同的性質(zhì) 集合是元素組成的 整體 元素之間可以互相區(qū)別 集合里的元素是確定的 然而經(jīng)典集合具有兩條基本 屬性 元素彼此相異 即無(wú)重復(fù)性 范圍邊界分明 即一個(gè)元素 x 要么屬于集合 A 記 作 x A 要么不屬于集合 記作 x A 二者必居其一 1 4 2 模糊集合模糊集合 模糊數(shù)學(xué)是研究和處理模糊性現(xiàn)象的數(shù)學(xué)方法 眾所周知 經(jīng)典數(shù)學(xué)是以精確性 為特征的 但與精確形相悖的模糊性并不完全是消極的 沒(méi)有價(jià)值的 甚至可以說(shuō) 有 時(shí)模糊性比精確性還要好 例如我們要給 偶數(shù) 這個(gè)集和下定義時(shí) 我們很明確的知道這個(gè)集合中的每個(gè) 元素 對(duì)于任何給定的數(shù)值 我們都清楚的知道它是否屬于這個(gè)集合 但是當(dāng)我們?yōu)?中年人 這個(gè)集合下定義時(shí) 多少會(huì)遇到困難 因?yàn)榫唧w的所謂中年 指的是幾歲 到幾歲 相信每個(gè)人對(duì)中年的定義都是不同 假定從滿 35 歲起到滿 55 歲為止定義 為中年 那么 34 歲的人還未邁入中年 只要增加一歲的那個(gè)瞬間就馬上變成中年 另外 過(guò)完 55 歲邁入 56 歲生日的瞬間又已不再是中年人 基本上 這是相當(dāng)不合理 的方式 前述 中年 定義之所以會(huì)不自然 是因其界線太過(guò)清楚所致 當(dāng)界線緩和一 些 則不自然會(huì)消失 因此 如果以 中年程度 來(lái)考慮或許會(huì)比較適當(dāng) 譬如 說(shuō) 30 歲的中年程度是 0 6 35 歲的中年程度是 0 65 隨著不同年齡 其程度也徐徐變 化 而此問(wèn)題也就能獲得根本上的解決 此種重新擴(kuò)張定義的集合 由 L A Zadeh 教授提出 稱之為模糊集合 1 4 3 歸屬函數(shù)歸屬函數(shù) 把傳統(tǒng)的集合論特征函數(shù)從非 0 即 1 的二值選擇 推廣為可從 0 到 1 之間的任 何值來(lái)做出選擇 此新型的特征函數(shù) 稱之為歸屬函數(shù) 歸屬函數(shù)是模糊理論中最基 本的概念 而我們可以用歸屬函數(shù)來(lái)表示模糊集合 在域上的模糊集合 由歸UA 屬函數(shù)來(lái)表征 在區(qū)間中取值 值的大小反映了元素對(duì)于 x A x A 1 0 x A x 模糊集合的歸屬程度 的值越接近 1 就表示元素屬于的程度越高 當(dāng)A x A x A 就是上限 表示完全屬于 反之 若的值越接近 0 就表示屬于 A 1 x A A x 的程度越低 當(dāng)就是下限 表示完全不屬于 對(duì)于來(lái)說(shuō) 距離 A 0 A x A 5 0 A 完全屬于 和 完全不屬于 最遠(yuǎn) 所以它的模糊度也最高 因此 模糊集合也被定義 為元素與歸屬函數(shù)的組成集合 1 5 模糊子集模糊子集及其運(yùn)算及其運(yùn)算 模糊集最早出現(xiàn)于文獻(xiàn) 1 12 18 模糊集提出了使用隸屬函數(shù)來(lái)標(biāo)明元素在集合 中的隸屬度 而不是假設(shè)元素是某個(gè)集合的成員 對(duì)于信息檢索 模糊集是非常有效 的 因?yàn)樗梢悦枋鲆黄臋n是 關(guān)于 什么內(nèi)容的 描述文檔關(guān)于什么內(nèi)容的一組元 xxxxx 本科畢業(yè)設(shè)計(jì) 論文 4 素的集合本身就具有不確定性 關(guān)于 交通 且與訴訟之間間接相關(guān)的文檔 或許可能 是關(guān)于 交通事故 的文檔 盡管將 交通事故 作為集合的一個(gè)元素實(shí)際上并不精確 但是將其從集合中排除掉也是不精確的 模糊集就是一種隸屬度 其中每個(gè)元素的隸 屬力度本來(lái)就精確 在這個(gè)例子中 描述文檔概念的集合的形式如下 5 0 0 1 訴訟案 交通 C 由于每個(gè)元素還附帶其隸屬度 所以集合 C 是一個(gè)模糊集 在模糊集 中包含的概念可以形式化地表示為 21n cccC nnnAA cfccfccfcA 2 2 11 其中 表示隸屬函數(shù) 用于標(biāo)識(shí)集合中元素的隸屬度 對(duì)于有限集合 A f 1 0 C 模糊集表示為 A n nAAA c cf c cf c cf A 2 2 1 1 接下來(lái)我們給出了模糊集的基本操作 求交集和并集 從根本上說(shuō) 求交集的方法是 取相同元素的兩個(gè)隸屬度函數(shù)的最小值 并集就是取相同元素的兩個(gè)隸屬函數(shù)的最 大值 模糊集的交集 并集和補(bǔ)集的定義 CccfcfMincf iiBiAiBA CccfcfMaxcf iiBiAiBA Cccfcf iiAiA 1 1 5 1 模糊集的相關(guān)定義模糊集的相關(guān)定義 定義 1 論域上的一個(gè)模糊集合是由上的一個(gè)隸屬函數(shù)來(lái)UAU xA 1 0 U 表示 其中 有時(shí)用表示 表示元素隸屬于模糊集合的程度 一般地 xA x A xA 如果論域是有限集合或可數(shù)集合 那么一個(gè)模糊集可以表示為 UA ii xAxA 定義 2 主導(dǎo)隸屬度函數(shù)關(guān)系 當(dāng)且僅當(dāng)對(duì)于所有 BA xx BA x 定義 3 設(shè)是論域 稱映射 確定了一個(gè)上的模糊子集 U xA 1 0 UUA 映射稱為的隸屬函數(shù) 它表示對(duì)的隸屬程度 使的點(diǎn)稱為的 xAAxA5 0 xAxA 過(guò)渡點(diǎn) 此點(diǎn)最具模糊性 當(dāng)映射只取 0 或 1 時(shí) 模糊子集就是經(jīng)典子集 而 xAA 就是它的特征函數(shù) 可見(jiàn)經(jīng)典子集是模糊子集的特殊情形 xA 3 例 設(shè)論域 單位 190 180 170 160 150 140 654321 xxxxxxU 表示人的身高 那么上的一個(gè)模糊子集的隸屬函數(shù)可定義為cmUA xA 140190 140 x xA 100200 100 x xA xxxxx 本科畢業(yè)設(shè)計(jì) 論文 5 也可用 Zadeh 表示法 1 0 x A 2 2 0 x 6543 18 06 04 0 xxxx 654321 9 08 06 042 0 2 015 0 xxxxxx A 1 5 2 模糊集的運(yùn)算模糊集的運(yùn)算 模糊集的并 交 余運(yùn)算性質(zhì) 冪等律 AAAAAA 交換律 ABBAABBA 結(jié)合律 CBACBA CBACBA 吸收律 ABAAABAA 分配律 CBCACBA CBCACBA 還原律 AA cc 對(duì)偶律 ccc BABA ccc BABA 模糊集的運(yùn)算性質(zhì)基本上與經(jīng)典集合一致 除了排中律以外 即 UAA c c AA 1 5 3 模糊集的其他運(yùn)算模糊集的其他運(yùn)算 模糊集不再具有非此即彼的特點(diǎn) 這正是模糊性帶來(lái)的本質(zhì)特征 相等 xBxABA 包含 xBxABA 并 的隸屬函數(shù)為 BA xBxAxBA 交 的隸屬函數(shù)為 BA xBxAxBA 余 的隸屬函數(shù)為 c A 1 xAxAc 例 設(shè)論域 商品集 在上定義兩個(gè)模糊集 商品質(zhì)量 54321 xxxxxU UA 好 商品質(zhì)量壞 并設(shè)B 1 3 0 0 55 0 8 0 A 0 6 0 86 0 21 0 1 0 B 則 商品質(zhì)量不好 商品質(zhì)量不壞 c A c B 0 7 0 1 45 0 2 0 c A c B 1 4 0 14 0 79 0 9 0 xxxxx 本科畢業(yè)設(shè)計(jì) 論文 6 可見(jiàn)ABBA cc 又 UAA c 1 7 0 1 55 0 8 0 0 3 0 0 45 0 2 0 c AA 1 6 模糊集的基本定理模糊集的基本定理 定理 1 模糊集的基本定理 截集 4 xAxAA 模糊集的 截集是一個(gè)經(jīng)典集合 由隸屬度不小于的成員構(gòu)成 A 若論域 學(xué)生集 他們的成績(jī)依次為 654321 uuuuuuU 50 60 70 80 90 95 學(xué)生成績(jī)好的學(xué)生 的隸屬度分別為A 0 5 0 6 0 7 0 8 0 9 0 95 則 90 分以上者 60 分以上者 9 0 A 65 u u 6 0 A 65432 uuuuu 性質(zhì) 設(shè) 是論域的兩個(gè)模糊子集 于是對(duì) 截集 UBA BA U 1 0 有 1 BABA 2 AA 3 BABA BABA 定理 2 分解定理 設(shè) 則 UA Ax AxxA 1 0 定理 3 擴(kuò)張?jiān)?設(shè)映射 定義fYX yxfxAyAf xxxxx 本科畢業(yè)設(shè)計(jì) 論文 7 2模糊聚類檢索策略模糊聚類檢索策略 所謂聚類分析是根據(jù)事物間的不同特征 親疏程度和相似性等關(guān)系 對(duì)它們進(jìn) 行分類的一種數(shù)學(xué)方法 其數(shù)學(xué)基礎(chǔ)是數(shù)理統(tǒng)計(jì)中的多元分析 模糊聚類分析就是建 立在模糊數(shù)學(xué)理論基礎(chǔ)上的聚類分析 模糊聚類分析的方法有好幾種 模糊傳遞 5 閉包法 直接聚類法 最大樹(shù)法 編網(wǎng)法 根據(jù)信息檢索的特征 此處介紹的是 利用模糊相似矩陣和編網(wǎng)法進(jìn)行聚類的方法 其特點(diǎn)是能在分類數(shù)不確定的情況下 進(jìn)行分類 可以根據(jù)不同的要求對(duì)事物 文檔進(jìn)行聚類 而且結(jié)果直觀 簡(jiǎn)捷 2 1 相關(guān)概念相關(guān)概念 為了描述信息檢索的模糊聚類分析模型 我們使用以下術(shù)語(yǔ)以及記號(hào) 1 標(biāo)引詞 這是由若干個(gè)標(biāo)引詞組成的集合 n tttT 21 2 文獻(xiàn)信息 其中是標(biāo)引詞在該文獻(xiàn)中出現(xiàn) Tttttd in 21 n t i t 的頻率 使用統(tǒng)計(jì)分析可以計(jì)算出標(biāo)引詞的隸屬度 i t id t 3 文獻(xiàn)信息庫(kù)可表示為 TttttddD inddd 21 4 分類文獻(xiàn)信息集 這是將要被分類的文獻(xiàn)信息集 DddddU in 21 5 相似度 其中按照它描述文獻(xiàn)信息和之間的相關(guān)程 jiij ddr ji dd i d j d 度 這里選用最大 最小法貼近度來(lái)表示和 21ndddi tttd iii 的相關(guān)程度 則其嚴(yán)格貼近度為 21ndddj tttd jjj 2 1 n k kdkd n k kdkd jiij tt tt ddr ji ji 1 1 其中 表示 取小 運(yùn)算 表示 取大運(yùn)算 6 模糊相似矩陣 其中是相似度 相似矩陣是以分類文獻(xiàn)信息集 nmij rR ij rR 中和之間的相似度構(gòu)造出來(lái)的 它刻畫的是 n dddU 21 i d j d ij r 信息之間相關(guān)程度 n dddU 21 2 2 模糊聚類分析模糊聚類分析 在實(shí)際課題中 不同的數(shù)據(jù)可能有不同的量綱 為了不使不同量綱的數(shù)據(jù)也能進(jìn) 行比較 需要對(duì)數(shù)據(jù)進(jìn)行適當(dāng)?shù)淖儞Q 根據(jù)模糊矩陣的要求將數(shù)據(jù)壓縮到區(qū)間 0 1 數(shù)據(jù)變換 設(shè)論域?yàn)楸环诸惖膶?duì)象 每個(gè)元素又由個(gè)數(shù)據(jù)表示 n uuuU 21 m xxxxx 本科畢業(yè)設(shè)計(jì) 論文 8 對(duì)第 個(gè)元素有 i imiii xxxu 21 2 1 ni 1 標(biāo)準(zhǔn)差變換 2 2 k kik ik s xx x 2 1 2 1 mkni 2 3 n i ikk x n x 1 1 n xx s n i kik k 1 2 經(jīng)過(guò)變換后 每個(gè)變量的均值為 0 標(biāo)準(zhǔn)差為 1 并可以消除量綱的影響 但不一定 在 0 1 區(qū)間上 2 級(jí)差變換 2 4 ik ni ik ik ni ik ik xx xx x 1 1 minmax min 2 1 nk 經(jīng)過(guò)級(jí)差變換后有 且消除了量綱的影響 10 ik n x 2 2 1 選擇模糊聚類方法選擇模糊聚類方法 聚類可以分為兩種 一種是模糊等價(jià)矩陣聚類 它有兩種方法 傳遞閉包法和布 爾矩陣法 另一種是直接聚類 它包括直接聚類法 最大樹(shù)法和編網(wǎng)法 在實(shí)際的聚類 問(wèn)題中 通過(guò)建立上的模糊關(guān)系 常常是模糊相似的關(guān)系 因?yàn)檎撚蚴怯邢藜?這X 個(gè)模糊相似關(guān)系可表示為一個(gè)模糊相似矩陣 即對(duì)角線上的元素為 1 的對(duì)稱模糊方 陣 R 可以選擇的模糊聚類方法通常有四種 由文獻(xiàn) 5 23 36 可知 模糊傳遞閉包 法 直接聚類法 最大樹(shù)法和編網(wǎng)法 模糊傳遞閉包法是從模糊相似矩陣 出發(fā) 構(gòu)造一個(gè)新的模糊等價(jià)矩陣 即模糊相似矩陣的傳遞閉包 nnij rR R Rt 該矩陣滿足自反性 對(duì)稱性 以及傳遞性三個(gè)性質(zhì) 因此 可以根據(jù)模糊等價(jià)矩陣進(jìn) 行聚類 直接聚類法不計(jì)算模糊相似矩陣的傳遞閉包 而是直接用模糊相似矩R Rt 陣進(jìn)行聚類 具體步驟如下 R 1 將模糊相似矩陣中的所有不同元素從大到小的順序編排 設(shè)為R n 1 21 2 以為置信水平 選取 直接在模糊相似矩陣上找出 2 1 mk k k R 水平上的相似類 并進(jìn)行歸并 即得到水平上的等價(jià)分類 尋找相似類和歸并的 k k 原則 若 則將和分為一類 設(shè)是水平上的兩個(gè)類 若 kij r i d j d 21 B B k 則稱它們是相似的 將所有相似的類合并成一類 最后得到的分類就是 21 BB xxxxx 本科畢業(yè)設(shè)計(jì) 論文 9 水平上的等價(jià)分類 k 2 2 2 詞頻矩陣詞頻矩陣 為確定一組相關(guān)文本間的相關(guān)度 建立文本間的模糊相似關(guān)系 首先要構(gòu)造一個(gè)詞 頻矩陣 它是一個(gè)二維表 表示關(guān)鍵詞在文檔中出現(xiàn)的次數(shù) 假設(shè)這一組數(shù)F i Wtj 據(jù)中有個(gè)文檔和 個(gè)關(guān)鍵詞 則是一個(gè)的矩陣 將每一個(gè)關(guān)鍵字視為一個(gè)dtFtd 維空間上的一個(gè)向量 的個(gè)坐標(biāo)是一個(gè)數(shù)字 表示第個(gè)文本與所給的關(guān)t d Rvvjj 鍵字間的相關(guān)度 當(dāng)文檔不含有該詞時(shí) 其值為零 否則設(shè)為一個(gè)非零的正值 定 義為為文檔中關(guān)鍵詞出現(xiàn)的次數(shù) 即頻率 再利用絕對(duì)值減數(shù)法建立模糊 ij ftj i W 相似矩陣 當(dāng)時(shí) 否則 當(dāng)時(shí) 其中 Rji 1 ij rji t k jkikij ffcr 1 10 c 為一常數(shù) 可根據(jù)實(shí)際情況選定 使得 由該定義可知 為一主對(duì)角元 1 0 ij rR 均為 1 的對(duì)稱陣 2 3 基于編網(wǎng)法的模糊聚類分析模型基于編網(wǎng)法的模糊聚類分析模型 在一個(gè)合適的分類中 同一類中的對(duì)象應(yīng)該自反性 對(duì)稱性以及傳遞性三個(gè)性 質(zhì) 模糊數(shù)學(xué)的理論告訴我們 如果相似度選擇合適 相似矩陣具有自 ij r nmij rR 反性和對(duì)稱性 但是大多數(shù)相似矩陣一般不具備傳遞性 因此 僅依賴相似矩陣來(lái)R 對(duì)分類文檔信息集進(jìn)行分類是不夠的 模糊聚類分析就是根據(jù) DddddU in 21 相似矩陣來(lái)尋找一個(gè)等價(jià)關(guān)系進(jìn)行分類 其主要步驟如下 R 2 3 1 構(gòu)造模糊相似矩陣構(gòu)造模糊相似矩陣 聚類是按某種標(biāo)準(zhǔn)來(lái)鑒別中元素之間的接近程度 把彼此接近的對(duì)象歸為一X 類 為此 我們用中的數(shù)來(lái)表示中的元素和的接近或相似程度 稱為相 1 0 ij rX i x j x 似系數(shù) 相似系數(shù)構(gòu)成的模糊矩陣是上的模糊關(guān)系 確定相似系數(shù)的方 ij r ij r mnij r X 法很多 可以分為三類 1 相似系數(shù)法 2 距離法 3 主觀評(píng)分法 最常見(jiàn)的是距離法中的貼近度法 不妨假定 如若不然 1 0 k x 可以通過(guò)公式 2 5 kk kk k mM mx x 2 1 2 1 mkni 其中分別是各個(gè)的第個(gè)特征的最大 最小值 kk mM i xk 將轉(zhuǎn)換為 當(dāng)時(shí) 可以認(rèn)為是一 k x 1 0 k x 1 0 k x ni 2 1 imiii xxxx 21 個(gè)模糊向量 也就是可以看成以個(gè)特征指標(biāo)構(gòu)成的集合為論域的模糊集 于是m 的貼近度可以作為它們的相似程度 即 當(dāng)取距離貼近度時(shí) 1 x 21 xxN jiij xxNr N xxxxx 本科畢業(yè)設(shè)計(jì) 論文 10 2 6 m k jkikij xxcr 1 1 把所有的組成的矩陣為模糊相似矩陣 命名為 2 1 2 1 mjnirij 6 R 針對(duì)的分類文獻(xiàn)集 選擇一個(gè)計(jì)算相似度 DddddU in 21 的算法 可以計(jì)算出相似矩陣 jiij ddr ij rR 2 3 2 模糊聚類之編網(wǎng)法模糊聚類之編網(wǎng)法 編網(wǎng)法是由我國(guó)學(xué)者趙汝懷提出的 其特點(diǎn)是在模糊相似矩陣的截集上直接R 進(jìn)行聚類 因此 使用起來(lái)更為直觀簡(jiǎn)單 具體步驟如下 1 適當(dāng)選取 求出截矩陣 且去掉的主對(duì)角線右上半部分的所有 1 0 R R 元素 2 將主對(duì)角線上的 1 對(duì)應(yīng)地用其對(duì)象的標(biāo)號(hào)來(lái)代替 i 3 將主對(duì)角線左下方的 0 去掉 而用 代替 1 稱 所在的位置為結(jié)點(diǎn) 4 用豎直線與橫直線將結(jié)點(diǎn)與對(duì)角線上的序號(hào)連接 即編網(wǎng) 通過(guò)如此打結(jié)而連 接的對(duì)象歸為同一類 從而實(shí)現(xiàn)了等價(jià)分類 5 畫出動(dòng)態(tài)聚類圖 通過(guò)以上步驟即可完成對(duì)文檔集的分類 2 3 3 基于文檔集合的模糊聚類編網(wǎng)法的應(yīng)用基于文檔集合的模糊聚類編網(wǎng)法的應(yīng)用 如果我們現(xiàn)在要檢索混凝土斷裂方面的文獻(xiàn) 可選關(guān)鍵詞有多個(gè) 且利用每個(gè) 關(guān)鍵詞都可以得上百篇文獻(xiàn) 檢索過(guò)程中 每篇文獻(xiàn)都詳細(xì)閱讀是不貼實(shí)際的 因 此我們需要通過(guò)聚類篩選出相關(guān)度高的幾篇或者幾十篇文獻(xiàn) 設(shè)標(biāo)引詞集為 混凝土 斷裂韌度 尺度效應(yīng) 虛擬裂縫模型 同 4321 ttttT 時(shí)設(shè)D為某信息庫(kù) 從該信息庫(kù)中選出5篇文檔進(jìn)行分析 則 根 54321 dddddd 據(jù)各關(guān)鍵詞在相應(yīng)文獻(xiàn)中的出現(xiàn)頻率 使用模糊統(tǒng)計(jì)分析可計(jì)算出每個(gè)關(guān)鍵詞的隸 屬度 從而每篇文獻(xiàn)在檢索中的表示記為 5 0 3 0 1 0 1 0 43211 1111 ttttd dddd 3 0 1 0 4 0 2 0 43212 2222 ttttd dddd 1 0 3 0 5 0 2 0 43213 3 3 33 ttttd dddd 1 0 3 0 5 0 2 0 43214 4444 ttttd dddd 1 0 3 0 4 0 2 0 43215 4444 ttttd dddd 故根據(jù) 2 1 可得模糊相似矩陣為 xxxxx 本科畢業(yè)設(shè)計(jì) 論文 11 180 0 82 0 70 0 33 0 80 0 182 0 67 0 33 0 82 0 82 0 167 0 43 0 70 0 67 0 67 0 143 0 43 0 33 0 43 0 43 0 1 R 對(duì)R中的元素進(jìn)行排序?yàn)?1 0 82 0 8 0 67 0 43 0 33 從而 的截矩陣為截矩陣為R8 0 8 0 8 0 8 0 11100 11100 11100 00010 00001 8 0 0 8 0 1 R r r rRt ij ij ij 這時(shí)U被分為3類 54321 ddddd 2 4 文檔簇的模糊表示法文檔簇的模糊表示法 通過(guò)上節(jié)的模糊聚類分析方法 可得到分類的文檔簇 本部分將介紹一種模糊 度量方法來(lái)量化這些文檔簇 任意一篇文檔可表示為 則文獻(xiàn)集的度量可表示為 則文 21ndddi tttd iii 獻(xiàn)集的度量可表示為 DddddU in 21 d 2 7 21 1 21 n ddd n i nddd ttt n ttt d iii 通過(guò)以上討論 得到了文檔簇的模糊表示法 這為之后的討論提供了基礎(chǔ)依據(jù) 且對(duì)應(yīng)于文檔集的文檔簇集可表示為 DddddU in 21 21m dddU 其中為聚類數(shù) 從而 21n ddd i tttd iii xxxxx 本科畢業(yè)設(shè)計(jì) 論文 12 3 模糊概念網(wǎng)絡(luò)模糊概念網(wǎng)絡(luò) 3 1 模糊概念網(wǎng)絡(luò)的結(jié)構(gòu)模糊概念網(wǎng)絡(luò)的結(jié)構(gòu) 模糊概念網(wǎng)絡(luò)的結(jié)構(gòu)是由節(jié)點(diǎn)和弧構(gòu)成 網(wǎng)絡(luò)包括兩種類型的節(jié)點(diǎn) 概念節(jié)點(diǎn)和 文檔節(jié)點(diǎn) 連接節(jié)點(diǎn)的弧表達(dá)了節(jié)點(diǎn)之間的相關(guān)關(guān)系 并用模糊權(quán)值對(duì)關(guān)系的強(qiáng)弱進(jìn) 行量化 設(shè)概念節(jié)點(diǎn)集合 C c c c 文檔節(jié)點(diǎn)集合 D 12n1 d 2 d n d 表示和的相關(guān)度權(quán)重為 也可表示為表 i c j c i c j c ji ccf i d j c 示和概念的相關(guān)權(quán)重為 也可表示為 i d j c i df j c 規(guī)則 1 如果存在節(jié)點(diǎn) 和 其 且的關(guān)系權(quán)值為 i c j c k caccf ki jk ccf min ik F c ca a 規(guī)則 2 如果節(jié)點(diǎn)和之間存在多條路徑連接 和間的關(guān)系值為最大的路徑權(quán) i c j c i c j c 重 圖 3 1 如下 給出了一個(gè)典型模糊概念網(wǎng)絡(luò)實(shí)例 其中節(jié)點(diǎn)和相關(guān)關(guān)系權(quán)重為 3 c 4 c 1 0 7 0 1 0 43 MaxccF 圖圖3 1 模糊概念網(wǎng)路實(shí)例模糊概念網(wǎng)路實(shí)例 xxxxx 本科畢業(yè)設(shè)計(jì) 論文 13 3 2 基于文檔的模糊概念網(wǎng)絡(luò)的構(gòu)建基于文檔的模糊概念網(wǎng)絡(luò)的構(gòu)建 模糊概念網(wǎng)絡(luò)可以通過(guò)領(lǐng)域?qū)<沂止そ?但需要大量的手工勞動(dòng) 并受限于 領(lǐng)域?qū)<业膫€(gè)人水平 為了突破這種限制 文獻(xiàn) 2 提出了模糊概念網(wǎng)絡(luò)的自動(dòng)構(gòu)建方 法 本部分將對(duì)此作以詳細(xì)闡述 將一個(gè)文檔表示成關(guān)鍵詞集 統(tǒng)計(jì)詞表中每個(gè)關(guān)鍵詞在正文 標(biāo)題 n tttT 21 關(guān)鍵詞 超鏈 超鏈描述中出現(xiàn)的概率 表示為 正文i ttf 標(biāo)題i ttf 關(guān)鍵詞i ttf 和 關(guān)鍵詞頻率計(jì)算公式為 超鏈i ttf 超鏈描述i ttf i t i ttf 正文i ttf 1 A 標(biāo)題i ttf 2 A 關(guān)鍵詞i ttf 3 A 超鏈i ttf 4 A 超鏈描述i ttf 其中 和是調(diào)整系數(shù) 計(jì)算特征詞在文檔中的權(quán)重公式為 1 A 2 A 3 A 4 A 3 1 5 0 log i itdi tdf N ttfdtw 其中 表示關(guān)鍵詞的文檔數(shù)目 N表示總的文檔數(shù) 詞是概念的表現(xiàn)方式 同 i tdf i t 一個(gè)概念節(jié)點(diǎn)可能包含多個(gè)對(duì)應(yīng)詞 設(shè)概念節(jié)點(diǎn)對(duì)應(yīng)的詞夠構(gòu)成集 i c 表示成向量形式 其中表示關(guān)鍵詞在概念節(jié)點(diǎn) 21m tttT iniii wwwc 21 ij w j t 中的權(quán)重 計(jì)算文檔d與概念之間的相關(guān)度為 j c i c 3 2 2 1 i ijct m j jdt icd cTndTnMax ctwdtw cdrel 式中 表示在中的權(quán)重 表示文檔d中所有關(guān)鍵詞的權(quán)重之和 ijct ctw j t i c dTn 表示概念節(jié)點(diǎn)包含的關(guān)鍵詞的權(quán)重之和 i cTn i c 統(tǒng)一文檔中包含的詞語(yǔ)之間存在語(yǔ)義上的關(guān)聯(lián)關(guān)系 這種關(guān)聯(lián)關(guān)系從形式上表現(xiàn) 為詞與詞的共現(xiàn) 利用這些現(xiàn)象 挖掘概念之間的相關(guān)關(guān)系 選取部分樣本構(gòu)成樣本集 S M為文檔樹(shù) 設(shè)概念節(jié)點(diǎn)集合計(jì)算樣本中文檔與 m SSSS 21 m cccC 21 概念節(jié)點(diǎn)之間的相關(guān)度 對(duì)于概念節(jié)點(diǎn) 它與文檔的相關(guān)度可以表示成向量形式 i c 表示文檔與概念節(jié)點(diǎn)的相關(guān)度 概念節(jié)點(diǎn)和之間的相 Miiii eeec 21 ji e j d i c i c j c 關(guān)度的計(jì)算公式為 3 M k kj M k ki M k kjki jicc ee ee ccrel 1 2 1 2 1 xxxxx 本科畢業(yè)設(shè)計(jì) 論文 14 3 模糊概念網(wǎng)絡(luò)中概念節(jié)點(diǎn)的產(chǎn)生 可以通過(guò)兩種方式 聚類方法和逐步添加方 法 這里主要介紹聚類方法 采用聚類方法時(shí) 初始階段每個(gè)關(guān)鍵詞對(duì)應(yīng)獨(dú)立的概念 節(jié)點(diǎn) 計(jì)算概念節(jié)點(diǎn)的相關(guān)度 根據(jù)設(shè)定的閾值 相關(guān)度超過(guò)特定閾值的概念節(jié)點(diǎn)被 合并為新的節(jié)點(diǎn) 3 3 基于文檔簇的模糊概念網(wǎng)絡(luò)的構(gòu)建基于文檔簇的模糊概念網(wǎng)絡(luò)的構(gòu)建 通過(guò)3 2節(jié)的介紹 可知模糊概念網(wǎng)絡(luò)的構(gòu)建方法 但其是基于概念節(jié)點(diǎn)和文檔 節(jié)點(diǎn) 而本節(jié)將引入基于概念節(jié)點(diǎn)和文檔簇節(jié)點(diǎn)的模糊概念網(wǎng)絡(luò) 如下圖3 2所示 圖圖3 2 基于模糊簇的模糊概念網(wǎng)絡(luò)基于模糊簇的模糊概念網(wǎng)絡(luò) 從而可得到模糊集簇和概念之間的模糊概念網(wǎng)絡(luò) 其建立了文檔簇和概念之間 的相關(guān)關(guān)系 從而使得檢索所需處理的文檔數(shù)從整體上減少 可以提高檢索的效率 同時(shí) 通過(guò)模糊概念網(wǎng)絡(luò)圖的建立 使得文檔的檢索原理更加直觀 為后續(xù)處理提 供了方便 xxxxx 本科畢業(yè)設(shè)計(jì) 論文 15 4 基于文檔簇和文檔的信息檢索模型基于文檔簇和文檔的信息檢索模型 通過(guò)以上的討論 我們得到由文檔簇和概念組成的模糊概念網(wǎng)絡(luò) 其為建立基 于 文檔簇的模糊信息檢索模型提供了方便 基于文檔簇的模糊信息檢索模型 在效率上 有明顯的優(yōu)勢(shì) 其從整體上減少了檢索中所涉及的文檔數(shù)量 其需要完成兩個(gè)步驟 1 通過(guò)基于文檔簇的信息檢索 選出滿足條件的文檔簇 2 針對(duì)選出的文檔簇 再次使用模糊信息檢索模型 對(duì)該文檔簇的文檔進(jìn)行排序 將其作為檢索結(jié)果輸出 4 1 基于文檔簇的模糊信息檢索模型基于文檔簇的模糊信息檢索模型 4 1 1 文檔簇和查詢項(xiàng)的模糊集表示文檔簇和查詢項(xiàng)的模糊集表示 通過(guò)的以上的討論 我們可以得到文檔簇的模糊集表示方法 2211n d n d d i ttttttd ii i 設(shè)查詢項(xiàng)的模糊集表示為 2211nn ttttttQ 其中的為查詢項(xiàng)的相關(guān)程度 其是通過(guò)頻率及統(tǒng)計(jì)方法計(jì)算得到的詞項(xiàng)隸屬 i t i t 度 即得到了文檔簇和查詢項(xiàng)的模糊集表示 從而為后面的討論奠定了基礎(chǔ) 4 1 2 相關(guān)性相關(guān)性 為了比較查詢項(xiàng)和文檔簇的相似度 人們提出了很多比較查詢模糊向量和文Q 檔簇模糊向量的方法 這些方法都經(jīng)過(guò)了證明 以下我們做以快速回顧 i d 7 1 最常見(jiàn)的方法是余弦方法 也就是計(jì)算查詢向量和文檔簇向量之間的Q i d 余弦值 4 1 n j n j j d j n j j d j i tt tt dQSC i i 11 22 1 xxxxx 本科畢業(yè)設(shè)計(jì) 論文 16 因?yàn)樵谟?jì)算每篇文檔時(shí)都會(huì)出現(xiàn) 向量?jī)?nèi)積除以文檔向量大小后 n j j t 1 2 余弦系數(shù)應(yīng)該給出相同的相關(guān)性結(jié)果 我們注意到余弦方法通過(guò)考慮文檔長(zhǎng)度來(lái)歸一 化結(jié)果 通過(guò)內(nèi)及方法 一個(gè)較長(zhǎng)的文檔可能會(huì)得到一個(gè)比較高的分?jǐn)?shù) 僅僅因?yàn)槲?檔比較長(zhǎng) 因此有更多的機(jī)會(huì)包含查詢?cè)~ 并一定因?yàn)槲臋n是相關(guān)的 Die系數(shù)定義為 4 2 n j n j j d j n j j d j i tt tt dQSC i i 11 22 1 2 Jaccard系數(shù)定義為 4 3 n j n j n j j d jj d j n j j d j i tttt tt dQSC ii i 111 22 1 余弦方法通過(guò)將向量?jī)?nèi)積除以文檔向量的長(zhǎng)度來(lái)實(shí)現(xiàn)不同文檔長(zhǎng)度的歸一化 余 弦方法中假定文檔長(zhǎng)度對(duì)查詢沒(méi)有影響 排除歸一化因素 較長(zhǎng)的文檔更容易被認(rèn)定 為相關(guān)的 僅僅因長(zhǎng)文檔包含的詞多 所以增加了包含查詢?cè)~的可能性 除以文檔向 量長(zhǎng)度就是不考慮文檔長(zhǎng)度 2 模糊集之間的貼近度 Chebyshev貼近度 4 4 max1 1j d ji ttdQ i Hamming貼近度 4 5 n j j d ji tt n dQ i 1 2 1 1 Euclid貼近度 4 6 2 1 1 2 3 1 1 n j j d ji tt n dQ i Minkowski貼近度 xxxxx 本科畢業(yè)設(shè)計(jì) 論文 17 4 7 1 1 1 1 1 4 ptt n dQ p p n j j d ji i Lambert貼近度 4 8 n j j d j j d j i tt tt n dQ i i 1 5 1 1 絕對(duì)和差貼近度 4 9 n j j d j n j j d j i tt tt dQ i i 1 1 6 1 最大最小貼近度 4 10 n j j d j n j j d j i tt tt dQ i i 1 1 7 算術(shù)平均最小貼近度 4 11 n j j d j n j j d j i tt tt dQ i i 1 1 8 2 1 幾何平均最小貼近度 4 12 n j j d j n j j d j i tt tt dQ i i 1 1 7 4 1 3 檢索方法檢索方法 在4 1 2中 我們討論了衡量文檔簇和查詢項(xiàng)相近度的兩種方法 因此利用這兩 種方法可以得到文檔簇和查詢項(xiàng)的相近度度量方法 這樣就可以得到文檔簇和查詢項(xiàng) 相似度 利用相似度可以對(duì)查詢結(jié)果進(jìn)行排序 同時(shí) 在排序過(guò)程中 選擇合適的相 似度閾值 滿足該閾值的文檔簇進(jìn)行排序 不滿足閾值的文檔不排序 這樣可以提 xxxxx 本科畢業(yè)設(shè)計(jì) 論文 18 供檢索效率 具體實(shí)現(xiàn)步驟如下 1 求出各個(gè)文檔簇和查詢項(xiàng)之間的相似度或者貼近度 2 選出符合指定閾值的文檔簇 3 將滿足要求的文檔簇按照相關(guān)性大小進(jìn)行排序 4 2 基于文檔的模糊信息檢索模型基于文檔的模糊信息檢索模型 通過(guò)4 1的討論 我們得到了滿足相似度要求的文檔簇集 這樣就縮小了檢索的文 檔范圍 從而提高了檢索效率 下面將闡述基于文檔的模糊檢索 4 2 1 文檔和查詢項(xiàng)的模糊集表示文檔和查詢項(xiàng)的模糊集表示 類似于4 1 1中的文檔簇和查詢項(xiàng)的模糊集表示 我們可以得到文檔的模糊集表 示方法 2211ndnddi ttttttd iii 查詢項(xiàng)的模糊集表示為 2211nn ttttttQ 其中的為查詢項(xiàng)的相關(guān)程度 其是通過(guò)頻率及統(tǒng)計(jì)方法計(jì)算得到的詞項(xiàng)隸屬度 4 2 2 相關(guān)性相關(guān)性 為了比較查詢項(xiàng)和文檔簇的相似度 人們提出了很多比較查詢模糊向量和文Q 檔簇模糊向量的方法 這些方法都經(jīng)過(guò)了證明 以下我們做以快速回顧 i d 最常見(jiàn)的方法是余弦方法 也就是計(jì)算查詢向量和文檔簇向量之間的余弦Q i d 值 n j n j j d j n j j d j i tt tt dQSC i i 11 22 1 因?yàn)樵谟?jì)算每篇文檔時(shí)都會(huì)出現(xiàn) 向量?jī)?nèi)積除以文檔向量大小后 n j j t 1 2 余弦系數(shù)應(yīng)該給出相同的相關(guān)性結(jié)果 我們注意到余弦方法通過(guò)考慮文檔長(zhǎng)度來(lái)歸一 化結(jié)果 通過(guò)內(nèi)及方法 一個(gè)較長(zhǎng)的文檔可能會(huì)得到一個(gè)比較高的分?jǐn)?shù) 僅僅因?yàn)槲?檔比較長(zhǎng) 因此有更多的機(jī)會(huì)包含查詢?cè)~ 并一定因?yàn)槲臋n時(shí)相關(guān)的 4 3 檢索方法檢索方法 通過(guò)計(jì)算各個(gè)文檔的相似度或者貼近度 并根據(jù)相關(guān)性進(jìn)行排序 最后將排序 xxxxx 本科畢業(yè)設(shè)計(jì) 論文 19 結(jié)果作為檢索結(jié)果輸出 4 3 1 基于模糊集的擴(kuò)展布爾檢索基于模糊集的擴(kuò)展布爾檢索 在20世紀(jì)70年代末期 研究人員對(duì)布爾檢索進(jìn)行了擴(kuò)展 提出了模糊集檢索 我 們可以將文檔中的詞看成模糊集來(lái)計(jì)算布爾的相似度 這是因?yàn)檫@些詞在文檔中出 現(xiàn)的頻率可視為隸屬度 下面我們考慮有文檔集中所有文檔組成的集合 模糊集可以看作描述所有包D t D 含詞 的文檔的集合 這個(gè)集合可以記作 這表明文檔包含詞tD t D 5 0 8 0 21 ddd 且其隸屬度為0 8 文檔包含詞 且其隸屬度為0 5 t 2 dt 類似地 集合可以定義為所有包含詞 的文檔 這個(gè)集合可以記作 t Ds 4 0 5 0 21 ddDs 計(jì)算需要計(jì)算 計(jì)算需要計(jì)算 這些計(jì)算可以通過(guò)使用并集的最ts ts ts DD 大值和交集的最小值實(shí)現(xiàn) 因此 4 0 5 0 5 0 8 0 21 21 ddDDts ddDDts ts ts 我們可以通過(guò)應(yīng)用這些操作的結(jié)果來(lái)構(gòu)造更復(fù)雜的布爾表達(dá)式 最終 我們可以 得到包含文檔及其相似度的一個(gè)集合 這種方法的一個(gè)問(wèn)題是 這種模型不僅允許我們給查詢?cè)~賦予權(quán)重 我們可以通 過(guò)在集合中每個(gè)元素的隸屬度上乘以查詢?cè)~權(quán)重從而在模型中引入查詢?cè)~權(quán)重 另 外一個(gè)問(wèn)題是權(quán)重很低的詞匯決定相似度 隸屬度很低的詞最終是相似度計(jì)算的唯一 因素 比如下面這種情況 文檔 1 包含詞 s 和詞 t 并且詞 s 的隸屬度為 0 0001 詞 t 的隸屬度為 0 5 在請(qǐng)求查詢時(shí) 文檔 1 的得分就是 0 0001 特別是查詢中包含較多關(guān) 鍵詞項(xiàng)時(shí) 這種低隸屬度的詞決定了整個(gè)相似度的權(quán)重 這個(gè)問(wèn)題的一種解決方法是 定義一個(gè)閾值 當(dāng)其值低于時(shí) 隸屬度函數(shù)值就變?yōu)?0 為了克服布爾檢索系統(tǒng)的主 要限制 有一些學(xué)者提出構(gòu)想 希望擴(kuò)充布爾檢索系統(tǒng)的功能 而其中 Radecki 便 利用部分匹配原理 定量估算出所檢索文件與查詢語(yǔ)句間的相關(guān)程度 也有一些加 權(quán) Weights 觀念的檢索系統(tǒng)被提出 在其中 文件是以關(guān)鍵詞的加權(quán)來(lái)表示 查詢 語(yǔ)句也將傳統(tǒng)布爾檢索系統(tǒng)之查詢語(yǔ)句加入權(quán)數(shù) 而經(jīng)過(guò)匹配處理 可以在所檢索 出的每一件文件中 相對(duì)地得出一個(gè)檢索狀態(tài)值 Retrieval Status Value RSV RSV 值可用來(lái)評(píng)估所檢索出文件與加權(quán)查詢語(yǔ)句間的相關(guān)程度 然而加權(quán)布爾檢索系統(tǒng)仍有其限制 如其查詢語(yǔ)句無(wú)法處理不明確之查詢 而 不明確概念通常卻是檢索者在查詢之常有的現(xiàn)象 也是最直接的想法 另外即使加權(quán) 布爾檢索系統(tǒng)加以處理的情形 如查詢語(yǔ)句 模糊集合 0 6 語(yǔ)意模式 0 8 其所表 示的即為找出有關(guān)關(guān)鍵詞 模糊集合 重要性占六成 關(guān)鍵詞 語(yǔ)意模式 重要性占八 成的文件 而對(duì)于以上之重要性成數(shù) 也十分難以認(rèn)定 對(duì)于關(guān)鍵詞加權(quán)后的語(yǔ)意表 xxxxx 本科畢業(yè)設(shè)計(jì) 論文 20 示什么 又檢索出的文件 其 RSV 值是以一臨界值來(lái)界定 是否也有可議之處 因 此 便引用了能夠解決上述問(wèn)題的模糊語(yǔ)意法 來(lái)擴(kuò)展布爾檢

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論