模糊理論在信息檢索中的應(yīng)用(人工智能)_第1頁(yè)
模糊理論在信息檢索中的應(yīng)用(人工智能)_第2頁(yè)
模糊理論在信息檢索中的應(yīng)用(人工智能)_第3頁(yè)
模糊理論在信息檢索中的應(yīng)用(人工智能)_第4頁(yè)
模糊理論在信息檢索中的應(yīng)用(人工智能)_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、安徽三聯(lián)學(xué)院課程論文無(wú)線網(wǎng)絡(luò)技術(shù)課程(論文) 題 目: 模糊理論在信息檢索中的應(yīng)用 學(xué)生姓名 1: 孟朋朋 學(xué) 號(hào): 130101062 學(xué)生姓名 2: 王磊 學(xué) 號(hào): 130101063 所在系院: 計(jì)算機(jī)工程學(xué)院 專業(yè)班級(jí): 13計(jì)科2班 指導(dǎo)教師姓名: 裴培 職稱/學(xué)位: 助教 碩士 完成時(shí)間: 2016 年 6 月計(jì)算機(jī)工程學(xué)院 制摘要:模糊理論是為了解決真實(shí)世界中普遍存在的模糊現(xiàn)象而發(fā)展的一門學(xué)問(wèn)。模糊理論以模糊集合為基礎(chǔ) ,基本精神是接受模糊性現(xiàn)象存在的事實(shí) ,而以處理概念模糊不確定的事物為其研究目標(biāo) ,并積極地將其嚴(yán)密量化成計(jì)算機(jī)可以處理的信息。本文首先簡(jiǎn)介模糊理論 ,而后將模糊

2、理論在信息檢索上的應(yīng)用做一探討。希望通過(guò)本文 ,使大學(xué)對(duì)模糊理論有更深入的了解 ,并且思考如何將之更廣泛地應(yīng)用于圖書信息學(xué)上。關(guān)鍵詞:模糊理論模糊集合 信息檢索1對(duì)模糊理論的一般解釋 基于康托經(jīng)典集合論的精確數(shù)學(xué)要求: 一個(gè)元素 a 和一個(gè)集合 A 的關(guān)系只存在 aA 和 aA 兩種情況 。集合可以通過(guò)特征函數(shù)描述,每個(gè)集合 A 都有一個(gè)特征函數(shù) C A ( a) ,其定義用下式表示 : 1 當(dāng) a AC A ( a) = 0 當(dāng) a A該式表明, 經(jīng)典集合論容不得模糊概念。這對(duì)現(xiàn)實(shí)世界存在的大量模糊現(xiàn)象的解釋造成困難。針對(duì)這一情況, 美國(guó)自動(dòng)控制專家查德( L. A. Zaden) 于 60

3、 年代初提出了“模糊集合”( Fuzzy set) 概念。其基本出發(fā)點(diǎn)是用“隸屬函數(shù)”概念來(lái)描述差異的中間過(guò)渡。這是首次從精確性向模糊性的逼進(jìn) 。通過(guò)隸屬函數(shù)對(duì)經(jīng)典集合論中的特征函數(shù)加以推廣 ,并由此引入了“模糊子集”概念。模糊子集定義如下 : 設(shè)給定論域 u,u 到閉區(qū)間 0 ,1 的任一映射 A 為: A : u 0 ,1確定 u 的一個(gè)模糊子集 A , A 為 A 的隸屬度 。正如經(jīng)典集合論是傳統(tǒng)精確數(shù)學(xué)的基礎(chǔ)一樣, 模糊子集論也正是模糊理論的基礎(chǔ) ,同樣也可以定義模糊子集上的運(yùn)算。總之, 模糊理論可以將傳統(tǒng)的二值邏輯 0, 1 ,推廣至可取 0,1 閉區(qū)間任意值即無(wú)窮多個(gè)值的連續(xù)值邏輯

4、。2. 信息檢索中引入模糊理論的必要性 2.1傳統(tǒng)信息檢索方法存在的問(wèn)題 2.11 通過(guò)檢索語(yǔ)與索引語(yǔ)的精確匹配來(lái)進(jìn)行檢索, 只能檢索到二者完全相同的信息。 傳統(tǒng)的信息檢索以精確數(shù)學(xué)、普通的集合理論為基礎(chǔ), 檢索系統(tǒng)主要基于三種經(jīng)典檢索模型:布爾模型、 向量空間模型和概率模型。 這三種模型的檢索過(guò)程是通過(guò)檢索者輸入的關(guān)鍵詞 ( 或稱檢索語(yǔ)) 與信息所登錄的關(guān)鍵字 ( 或稱索引語(yǔ))之間的精確匹配來(lái)完成的, 只能檢索到檢索語(yǔ)與索引語(yǔ)完全相同的信息, 而對(duì)于二者在一定程度上一致或意義相近、 相關(guān)的信息卻無(wú)法查詢。 2.12傳統(tǒng)的檢索方式中檢索者雖然可以利用檢索語(yǔ)之間的邏輯運(yùn)算及其組合來(lái)表達(dá)檢索要求,

5、 但卻無(wú)法描述檢索者對(duì)檢索語(yǔ)的重視程度以及檢索語(yǔ)對(duì)信息是否貼切等許多問(wèn)題。 2.13 只能對(duì)一些具有確定含義的信息進(jìn)行訪問(wèn)和處理。在客觀世界中, 許多事物都表現(xiàn)出其不完全或不精確的一面, 例如, 我們常說(shuō)的 “ 高與矮”、“ 胖與瘦” 、 “ 美與丑”,這些詞都是屬于模糊概念, 既難以準(zhǔn)確地加以度量, 也難以明確地劃分界限。 在檢索此類信息時(shí)傳統(tǒng)的檢索方法無(wú)法進(jìn)行。2.2信息發(fā)展的模糊性2.21 信息的模糊性 現(xiàn)代科學(xué)技術(shù)的發(fā)展及其滲透, 許多新興學(xué)科、 邊緣學(xué)科、 交叉學(xué)科不斷涌現(xiàn), 使學(xué)科的分類呈現(xiàn)出模糊性。如 “ 生物電子學(xué)”, 它既涉及到生物學(xué)范疇, 又與電子學(xué)有關(guān), 在對(duì)文獻(xiàn)進(jìn)行學(xué)科

6、分類時(shí), 只能根據(jù)文獻(xiàn)對(duì)這兩門學(xué)科的側(cè)重點(diǎn)多少來(lái)大概劃分是屬于生物學(xué)還是屬于電子學(xué)方面。 在情報(bào)學(xué)范疇, 學(xué)科分類的模糊性必將反映到分類法和敘詞表中, 使分類類目和敘詞表達(dá)范圍變得模糊。 因此, 隨著科學(xué)技術(shù)的發(fā)展, 信息也呈現(xiàn)出模糊性。2.22 信息檢索結(jié)果評(píng)判的模糊性 我們經(jīng)常用 “ 文獻(xiàn)是否相關(guān)”、 “ 文獻(xiàn)是否切題” 來(lái)對(duì)信息檢索的結(jié)果進(jìn)行評(píng)判, 相應(yīng)的 “ 相關(guān)性” 、 “ 切題性”也就成了評(píng)判信息檢索結(jié)果的兩個(gè)重要指標(biāo)?!跋嚓P(guān)性” 是指信息檢索時(shí)檢索系統(tǒng)中被命中文獻(xiàn)與用戶需求文獻(xiàn)相吻合的程度。文獻(xiàn)的相關(guān)與不相關(guān)不是絕對(duì)的, 它本身就是模糊的, 且它們之間沒(méi)有明確的界限。對(duì)用戶來(lái)說(shuō),

7、 由于受多種因素 ( 比如表達(dá)信息要求不完整, 或表達(dá)不夠明確,或在檢索過(guò)程中對(duì)所需信息有所調(diào)整等)的影響, 檢索出的文獻(xiàn)與實(shí)際需求只有一定程度的主題相關(guān)。 而用戶檢索出的相關(guān)文獻(xiàn)并不一定意味著所檢文獻(xiàn)與用戶的需求相吻 合。 信息需求與文獻(xiàn)相符的性質(zhì)稱為切題性。 切題性體現(xiàn)了用戶在作判定時(shí), 文獻(xiàn)滿足用戶需求的程度, 是否切題只有在用戶閱讀后才能確定。 其原因在于 :提問(wèn)一般是固定不變的, 而信息需求是不穩(wěn)定的、 可變的。 在檢索過(guò)程中, 用戶閱讀已獲文獻(xiàn)可能會(huì)影響他原來(lái)的信息需求, 從而影響他對(duì)后來(lái)檢索出文獻(xiàn)的切題性判斷。 因此, 判斷文獻(xiàn)是否切題也沒(méi)有嚴(yán)格的界限, 它更具模糊性、 主觀性。

8、3模糊理論在信息檢索中的應(yīng)用 針對(duì)傳統(tǒng)信息檢索方法存在的問(wèn)題和現(xiàn)代信息發(fā)展的特點(diǎn), 許多學(xué)者對(duì)如何利用模糊集合理論來(lái)完善和改進(jìn)信息檢索方法做了大量的研究, 使檢索效果更理想, 檢索過(guò)程更具人性化。3.1對(duì)信息檢索結(jié)果進(jìn)行模糊聚類分析 該分析方法建立在下述假設(shè)基礎(chǔ)上: ( 1)信息集合中任一單元都可以用若干標(biāo)引詞 t i (i =1, 2, , n)表示; ( 2)一篇文獻(xiàn)中抽取的各個(gè)標(biāo)引詞對(duì)原文內(nèi)容的揭示程度存在差異; ( 3)一篇文獻(xiàn)中所使用的標(biāo)引詞個(gè)數(shù)和各標(biāo)引詞的數(shù)值, 可以作為反映文獻(xiàn)信息主要內(nèi)容的有用數(shù)據(jù)。具體步驟如下: ( 1)確定相似系數(shù)。 確定相似系數(shù)的方法有多種, 一般常用的有

9、貼近度法、 絕對(duì)值減數(shù)法和余弦計(jì)算法。 ( 2)利用相似系數(shù), 建立模糊相似矩陣 R。 所建立的模糊相似矩陣 R , 一般具有自反性、 對(duì)稱性。 ( 3)模糊聚類分析。 有兩種方法:利用模糊等價(jià)關(guān)系進(jìn)行模糊聚類分析將模糊相似矩陣 R 根據(jù)傳遞閉包法改造成模糊等價(jià)矩陣t( R), 然后進(jìn)行分類。 使用模糊集的 水平截集來(lái)實(shí)現(xiàn)模糊集與普通集之間的相互轉(zhuǎn)化。 對(duì)于任意給定的置信水平 0, 1 , 則模糊等價(jià)矩陣的 截矩陣t( R) 只有 0 和1 兩種結(jié)果 ( 當(dāng)相似系數(shù)大于或等于 時(shí)結(jié)果為 1, 反之當(dāng)相似系數(shù)小于 時(shí)結(jié)果為 0) 。 因此, 對(duì)不同的置信水平,可以得到不同的水平截集, 從而得到不

10、同的 截矩陣。 當(dāng)從 1 降至 0時(shí), 按 所得的分類結(jié)果將由細(xì)變粗, 逐步歸并 , 從而形成一個(gè)動(dòng)態(tài)的聚類圖。 這樣, 就可根據(jù)實(shí)際情況和置信水平來(lái)鑒別文獻(xiàn)之間的接近程度, 并把彼此接近的文獻(xiàn)歸為一類。利用最大樹(shù)方法進(jìn)行模糊聚類分析將相似系數(shù)從大到小排列, 以所有文檔作為頂點(diǎn), 將相似系數(shù)相同的頂點(diǎn)連接, 并在相應(yīng)的線段上注明該相似系數(shù)作為該邊的權(quán)( 不能出現(xiàn)相交線)。若在連接某兩個(gè)頂點(diǎn)時(shí)出現(xiàn)回路, 則不連接此邊, 直到全部對(duì)象連通為止,從而得到了最大樹(shù)( 此樹(shù)不一定惟一)。通過(guò)這種方法得到的樹(shù), 其邊的權(quán)最大, 所以稱為最大樹(shù)。 取 0, 1 ,去掉線段上值小于 的連線, 就可得到一個(gè)不連

11、通的圖,而剩下互相連接的連通分支就在水平 上聚于一類。 根據(jù)不同的 , 可以得到結(jié)果不同的聚類圖, 再根據(jù)實(shí)際情形,分析得到聚類結(jié)果。3.2對(duì)自然語(yǔ)言的加權(quán)標(biāo)引 自然語(yǔ)言表示中帶有大量含有模糊性的詞匯, 為了描述這些模糊詞匯, 首先需要為之建立表現(xiàn)其含義的隸屬函數(shù), 在具體運(yùn)用中, 由于事物本身具有的不確定性和人們認(rèn)識(shí)事物的局限性, 所以只能建立近似的隸屬函數(shù)表示。隸屬函數(shù)的確定方法有多種, 其中利用模糊分布函數(shù)去逼近隸屬函數(shù)的方法使用最為廣泛, 常用的幾種最主要的模糊函數(shù)分布為:( 1)左大右小的偏小型下降函數(shù) 1 X C (x)= 1+a(x-c)b -1 X >C其中:C 是論域U

12、 中任意一點(diǎn), a 和 b 是兩個(gè)參數(shù),且 a>0, b>0。( 2)右大左小的偏小型上升函數(shù) 1 X C (x)= 1+a(x-c)b (-1) X <C其中:C 是論域U 中任意一點(diǎn), a 和 b 是兩個(gè)參數(shù),且 a>0, b>0。( 3)對(duì)稱中間型正態(tài)凸函數(shù) (x) =e -k(x-c)2其中:C 是論域U 中任意一點(diǎn), k 是參數(shù), 且 k >0。用自然語(yǔ)言來(lái)描述的信息是模糊的, 但有時(shí)模糊詞匯的程度不同也會(huì)引起表示含義的不同, 例如,“漂亮” 與“很漂亮 ”兩個(gè)模糊詞匯表示的含義是有所區(qū)別的。 因此,為了更好地表述自然語(yǔ)言, 需要對(duì)模糊詞匯作定量分

13、析,以區(qū)分和確定模糊性的不同程度, 常見(jiàn)的修飾詞如:非常、特別、 很、 比較、 相當(dāng)、 有點(diǎn)、 稍微、 大略、 大約等, 稱為語(yǔ)言算子, 并分為三類:( 1)語(yǔ)氣算子用來(lái)描述模糊詞匯的表示程度, 一種為集中化算子,如: “ 很”、 “ 極” 等, 具有強(qiáng)化作用, 可以使隸屬函數(shù)的分布呈尖銳化 ;另一種為松散化算子, 如: “ 較”、“ 稍微”等, 具有使隸屬函數(shù)分布趨于平坦化的作用, 帶有語(yǔ)氣算子的模糊詞匯隸屬函數(shù)表示為: HA ( X)= A ( X) 其中:A 為模糊詞匯, H 為語(yǔ)氣算子。 可以假設(shè):H 4代表 “極” , 定義為描述的模糊詞匯的 4 次方;H 2 代表“很”,定義為描述

14、的模糊詞匯的 2 次方;H 1/2 代表 “ 稍微有點(diǎn)” , 定義為描述的模糊詞匯的1/ 2次方。由于集中化算子的冪次大于 1( >1) , 經(jīng)過(guò)乘方運(yùn)算后, 隸屬函數(shù)曲線向中央集中, 冪次越高分布越集中, 表示的范圍越狹窄;相反, 松散化算子的冪次小于 1 (<1), 經(jīng)過(guò)乘方運(yùn)算后, 隸屬函數(shù)曲線向兩邊散開(kāi), 冪次越低分布越平坦, 表示的范圍越寬廣。( 2)模糊化算子用于將肯定詞匯轉(zhuǎn)為模糊詞匯或?qū)⒛:~匯變得更加模糊 , 如:“ 大約”、 “ 近似于”、 “ 約等于” 等修飾詞都屬于模糊化算子, 帶有模糊化算子的模糊詞匯隸屬函數(shù)表示為: FA ( X)= EA ( X)= vy

15、 U ( E (x, y) T A ( y) ( 或 A ( X) ) )其中:A 若為精確詞匯, 其特征函數(shù)為 T A (x), 若為模糊詞匯, 其隸屬函數(shù)為 A (x);F 為模糊化算子;E 是論域U 上的一個(gè)相似關(guān)系; E (x , y)=e-x-y20 x -y ( >0)為參數(shù), 用于調(diào)節(jié)模糊詞匯的表示范圍。( 3)判定化算子與模糊化算子具有相反作用, 如:修飾詞 “ 傾向于” 、“ 偏向于” 等, 是將模糊詞匯進(jìn)行肯定化處理并作出傾向性判斷 , 具體處理方法有點(diǎn)類似于 “ 四舍五入” , 判定化算子在實(shí)際應(yīng)用中并不多見(jiàn)。2. 3提高用戶需求提問(wèn)與檢索系統(tǒng)輸入的相關(guān)性 由于傳統(tǒng)

16、的檢索模型對(duì)不確定性知識(shí)的處理有其固有的局限性, 在文檔信息或是用戶查詢具有模糊性的時(shí)候,它就不能很好地滿足用戶的查詢需求。 為了克服這一缺點(diǎn),可以采用基于模糊語(yǔ)言方法的信息檢索系統(tǒng)模型, 通過(guò)引入語(yǔ)言變量的概念, 在信息表示中考慮語(yǔ)言值權(quán)重, 用語(yǔ)言值權(quán)重替代數(shù)值權(quán)重, 而在文檔表示上 , 引入了數(shù)值權(quán)重。 權(quán)重系數(shù)語(yǔ)言變量采用有序語(yǔ)言值集合 S , 假設(shè) S =s i , i 0, 1, 2, , N為一語(yǔ)言值集合。 其中的每個(gè)元素均為描述某個(gè)語(yǔ)言變量的同種類型的語(yǔ)言值, 該集合中元素的個(gè)數(shù)稱為集合的勢(shì), 勢(shì)表征了語(yǔ)言值集合描述語(yǔ)言變量信息模糊程度大小的粒度, 勢(shì)值越小, 則語(yǔ)言值集合描述

17、該語(yǔ)言變量越模糊, 反之, 越精細(xì)。 但該值越大,所需的計(jì)算量也越大, 綜合權(quán)衡, 取勢(shì)值的大小為 7 或 9。若 S 具有下列性質(zhì):如果 i j, 有 s i s j 。 其中 s i 、 s j 為語(yǔ)言值在 0, 1 上所代表的模糊數(shù)。 則稱 S 為有序語(yǔ)言集合。如果其元素在 0, 1 上呈對(duì)稱分布, 則它滿足如下運(yùn)算:( 1)求極大:MAX( s i , s j )=s i , 如果 s i s j ;( 2)求極小:MIN(s i , s j ) =s j , 如果 s i s j ;( 3)求反:Neg(s i )=s j , 其中 j=N -i。隨著科技發(fā)展的多元化和現(xiàn)代信息發(fā)展的

18、特點(diǎn), 模糊集合理論在信息檢索中的應(yīng)用日趨廣泛, 因此許多學(xué)者對(duì)此進(jìn)行了大量的研究, 取得了一些成果, 但絕大部分的研究?jī)H僅是局限于理論研究, 目前我們所使用的數(shù)據(jù)庫(kù)檢索系統(tǒng)仍然主要是基于傳統(tǒng)的集合理論, 對(duì)于如何將模糊集合理論的優(yōu)勢(shì)有效的運(yùn)用于實(shí)際信息檢索之中, 還是一個(gè)亟需解決的問(wèn)題。4模糊理論在信息檢索中應(yīng)用現(xiàn)狀的分析 綜上所述, 模糊檢索對(duì)用戶查詢的檢索結(jié)果是一個(gè)建立在文獻(xiàn)集上,且其隸屬函數(shù)就是文獻(xiàn)信息對(duì)用戶查詢的相關(guān)程度的模糊子集。就目前的水平來(lái)說(shuō), 隸屬函數(shù)在很大程度上并沒(méi)能完全反映出文獻(xiàn)對(duì)用戶查詢相關(guān)度的真實(shí)情況。其主要原因是: (1)在對(duì)文獻(xiàn)信息進(jìn)行加權(quán)標(biāo)引時(shí) ,設(shè)定文獻(xiàn)信息是

19、標(biāo)引詞集上的模糊子集, 它假定了標(biāo)引詞集中各個(gè)標(biāo)引詞之間是相互獨(dú)立的 ,這符合模糊理論的要求 ,但由于概念相關(guān)的模糊性 ,兩個(gè)標(biāo)引詞在不同程度上總存在著語(yǔ)義上的關(guān)聯(lián) 。另外, 上述模糊子集的隸屬函數(shù)雖然反映了文獻(xiàn)信息對(duì)標(biāo)引詞的論述深度 ,但還沒(méi)有十分有效的方法精確地確定這個(gè)隸屬函數(shù) 。目前可以知道 ,確定這個(gè)隸屬函數(shù)的依據(jù)是文獻(xiàn)對(duì)標(biāo)引詞 t 的論述程度與標(biāo)引詞 t 在文獻(xiàn)信息中的出現(xiàn)頻數(shù)存在著某種一致性 。 (2)提問(wèn)匹配中引入的模糊算子是 Max 和 Min 算子 ,它們雖然簡(jiǎn)易計(jì)算 ,卻不能很好地反映真實(shí)的匹配過(guò)程。目前人們也定義了一些所謂的“廣義模糊算子” ,但由于它們也只能在一定程度上反映匹配過(guò)程 ,且計(jì)算復(fù)雜 ,因而還沒(méi)有被廣泛地應(yīng)用。5模糊理論應(yīng)用于信息檢索領(lǐng)域的進(jìn)一步發(fā)展 應(yīng)該說(shuō) ,模糊理論應(yīng)用于信息檢索應(yīng)包括兩個(gè)階段: 理論探討階段和實(shí)際應(yīng)用階段 。目前,模糊理論應(yīng)用于

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論