




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、信息檢索模型信息檢索模型檢索系統(tǒng)的基本模式檢索系統(tǒng)的基本模式網(wǎng)頁(yè)網(wǎng)頁(yè)互聯(lián)網(wǎng)互聯(lián)網(wǎng)匹配匹配檢索結(jié)果檢索結(jié)果用戶需求用戶需求網(wǎng)頁(yè)采集網(wǎng)頁(yè)采集分分析析處處理理第三講第三講檢索模型檢索模型建立索引建立索引索引庫(kù)索引庫(kù)信息檢索模型信息檢索模型模型模型 對(duì)真實(shí)的處理過程的理想化的抽象的描述。對(duì)真實(shí)的處理過程的理想化的抽象的描述。數(shù)學(xué)模型數(shù)學(xué)模型 用數(shù)學(xué)語言和數(shù)學(xué)方法來描述過程用數(shù)學(xué)語言和數(shù)學(xué)方法來描述過程 研究過程的屬性、作出判斷、得到結(jié)論研究過程的屬性、作出判斷、得到結(jié)論信息檢索模型信息檢索模型 是一個(gè)形式框架,該框架支持信息檢索過程的所有主要階段,包括:是一個(gè)形式框架,該框架支持信息檢索過程的所有主要
2、階段,包括: 文本表示、用戶需求表示文本表示、用戶需求表示 需求與文本的匹配需求與文本的匹配 檢索到的文本排序檢索到的文本排序信息檢索模型的定義信息檢索模型的定義 一個(gè)四元組:一個(gè)四元組:D, Q, F, R(qi,dj) D是文獻(xiàn)的邏輯視圖(文獻(xiàn)的表示)是文獻(xiàn)的邏輯視圖(文獻(xiàn)的表示) Q是用戶需求的邏輯視圖(查詢)是用戶需求的邏輯視圖(查詢) F是一種機(jī)制,用于構(gòu)建是一種機(jī)制,用于構(gòu)建D、Q和它們之間的關(guān)系和它們之間的關(guān)系 R(qi,dj)是排序函數(shù),輸出一個(gè)與查詢是排序函數(shù),輸出一個(gè)與查詢qi和文獻(xiàn)表示和文獻(xiàn)表示dj有有關(guān)的實(shí)數(shù)關(guān)的實(shí)數(shù)基本概念基本概念 文獻(xiàn)(文獻(xiàn)(Document) 泛指
3、各種機(jī)器可讀的記錄,泛指各種機(jī)器可讀的記錄,通常指一篇文章通常指一篇文章 特征項(xiàng)(特征項(xiàng)(Index Term) 也稱為索引項(xiàng)、標(biāo)引詞等也稱為索引項(xiàng)、標(biāo)引詞等 從一篇文本(查詢)抽出的從一篇文本(查詢)抽出的代表該文本(查詢)內(nèi)容的代表該文本(查詢)內(nèi)容的基本語言單位基本語言單位讓我們高舉中國(guó)特色社會(huì)讓我們高舉中國(guó)特色社會(huì)主義偉大旗幟,更加緊密主義偉大旗幟,更加緊密地團(tuán)結(jié)在黨中央周圍,萬地團(tuán)結(jié)在黨中央周圍,萬眾一心,開拓奮進(jìn),為奪眾一心,開拓奮進(jìn),為奪取全面建設(shè)小康社會(huì)新勝取全面建設(shè)小康社會(huì)新勝利、譜寫人民美好生活新利、譜寫人民美好生活新篇章而努力奮斗!篇章而努力奮斗! 讓、我們、高舉、中國(guó)特
4、色、社會(huì)讓、我們、高舉、中國(guó)特色、社會(huì)主義、偉大、旗幟、更加、緊密地、主義、偉大、旗幟、更加、緊密地、團(tuán)結(jié)、在、黨中央、周圍、團(tuán)結(jié)、在、黨中央、周圍、萬眾一心、開拓、奮進(jìn)、為、萬眾一心、開拓、奮進(jìn)、為、奪取、全面、建設(shè)、小康、社會(huì)、奪取、全面、建設(shè)、小康、社會(huì)、新、勝利、譜寫、人民、美好、新、勝利、譜寫、人民、美好、生活、新、篇章、而、努力、奮斗生活、新、篇章、而、努力、奮斗基本概念基本概念 權(quán)重權(quán)重 不是所有的詞對(duì)于表示文本內(nèi)容具有同樣的重要性不是所有的詞對(duì)于表示文本內(nèi)容具有同樣的重要性 wi,j表示文本表示文本dj中的標(biāo)引詞中的標(biāo)引詞ki的權(quán)值(假設(shè)獨(dú)立)的權(quán)值(假設(shè)獨(dú)立) ki表示標(biāo)引詞
5、,表示標(biāo)引詞,t是系統(tǒng)中標(biāo)引詞的數(shù)目是系統(tǒng)中標(biāo)引詞的數(shù)目 K所有標(biāo)引詞的集合,所有標(biāo)引詞的集合,K=k1, k2, , kt wi,j=0 表示表示ki在在dj中沒有出現(xiàn)中沒有出現(xiàn) 文本文本dj可以用標(biāo)引詞向量來表示,可以用標(biāo)引詞向量來表示,dj=w1,j, w2,j, , wt,j gi(dj)返回返回t維向量維向量dj中標(biāo)引詞中標(biāo)引詞ki的權(quán)重,的權(quán)重,gi(dj)=wi,j模型的分類模型的分類 按所使用的數(shù)學(xué)方法分類按所使用的數(shù)學(xué)方法分類 基于集合論基于集合論 布爾模型布爾模型 基于線性代數(shù)基于線性代數(shù) 向量空間模型向量空間模型 基于概率論基于概率論 概率模型概率模型布爾模型(基于集合論
6、)布爾模型(基于集合論)D(文獻(xiàn)表示)(文獻(xiàn)表示)表示為不帶權(quán)重的標(biāo)引詞的集合,或者說,二值的標(biāo)引詞權(quán)重表示為不帶權(quán)重的標(biāo)引詞的集合,或者說,二值的標(biāo)引詞權(quán)重wi,j0或者或者wi,j1Q(查詢)(查詢)表示為標(biāo)引詞的布爾表達(dá)式表示為標(biāo)引詞的布爾表達(dá)式用用and、or、not連接標(biāo)引詞構(gòu)成查詢連接標(biāo)引詞構(gòu)成查詢F(聯(lián)系機(jī)制)(聯(lián)系機(jī)制)布爾表達(dá)式轉(zhuǎn)換為集合表達(dá)式布爾表達(dá)式轉(zhuǎn)換為集合表達(dá)式布爾算子布爾算子and()、)、or()、)、not()替換為交()替換為交()、并()、并()、補(bǔ)()、補(bǔ)()R(排序)(排序)對(duì)于每個(gè)標(biāo)引詞對(duì)于每個(gè)標(biāo)引詞ki,得到一個(gè)文本的集合,得到一個(gè)文本的集合Dkid
7、j|wi,j=1在結(jié)果集合里的文本是相關(guān)的,其他是不相關(guān)的在結(jié)果集合里的文本是相關(guān)的,其他是不相關(guān)的布爾模型舉例布爾模型舉例,),(,6215363216421DDDDDDDDDDDDD1|,jijkiwdD布爾模型評(píng)價(jià)布爾模型評(píng)價(jià) 簡(jiǎn)單,定義清晰簡(jiǎn)單,定義清晰 文本或者相關(guān)或者不相關(guān),沒有強(qiáng)弱之分文本或者相關(guān)或者不相關(guān),沒有強(qiáng)弱之分 將文本分為兩個(gè)集合,相關(guān)的,不相關(guān)的,將文本分為兩個(gè)集合,相關(guān)的,不相關(guān)的,因此不需要排序因此不需要排序 可能會(huì)導(dǎo)致結(jié)果非常少或者非常多可能會(huì)導(dǎo)致結(jié)果非常少或者非常多布爾模型的實(shí)現(xiàn)布爾模型的實(shí)現(xiàn)輸入:各種文檔(輸入:各種文檔(PDF, DOC, TXT, HTM
8、L, XML)輸出:索引表輸出:索引表處理過程處理過程格式轉(zhuǎn)換格式轉(zhuǎn)換文檔編號(hào)文檔編號(hào)結(jié)構(gòu)分析結(jié)構(gòu)分析檢索最小單元識(shí)別檢索最小單元識(shí)別細(xì)結(jié)構(gòu)化細(xì)結(jié)構(gòu)化構(gòu)建索引空間構(gòu)建索引空間保存文件保存文件向量空間模型(基于線性代數(shù))向量空間模型(基于線性代數(shù))D(文獻(xiàn)表示)(文獻(xiàn)表示) 文本表示為帶權(quán)重的標(biāo)引詞的集合,文本表示為帶權(quán)重的標(biāo)引詞的集合,dj=w1,j, w2,j, , wt,j 權(quán)重表示該標(biāo)引詞與該文本的相關(guān)程度權(quán)重表示該標(biāo)引詞與該文本的相關(guān)程度Q(查詢)(查詢) 查詢也表示為帶權(quán)重的標(biāo)引詞的集合,查詢也表示為帶權(quán)重的標(biāo)引詞的集合, q=w1,q, w2,q, , wt,q 權(quán)重表示標(biāo)引詞與用
9、戶需求的相關(guān)程度權(quán)重表示標(biāo)引詞與用戶需求的相關(guān)程度F(聯(lián)系機(jī)制)(聯(lián)系機(jī)制) 文本和查詢有同樣的表示(文本和查詢有同樣的表示( t維空間的向量)維空間的向量) 查詢被當(dāng)作為假想的文本查詢被當(dāng)作為假想的文本向量空間模型(基于線性代數(shù))向量空間模型(基于線性代數(shù)) R(排序)(排序) 用向量夾角的余弦計(jì)算用向量夾角的余弦計(jì)算dj和和q的相似度的相似度tiqitijitiqijijjjwwwwqdqdqdsim1,21,21,),(從文本到向量空間從文本到向量空間文本的向量表示示例文本的向量表示示例夾角余弦計(jì)算舉例夾角余弦計(jì)算舉例常用的相似度計(jì)算方法常用的相似度計(jì)算方法特征項(xiàng)的權(quán)重設(shè)定特征項(xiàng)的權(quán)重設(shè)
10、定索引過程首先要從文獻(xiàn)中抽取重要詞,把它索引過程首先要從文獻(xiàn)中抽取重要詞,把它們映射到特征項(xiàng)集中,進(jìn)行權(quán)重計(jì)算。們映射到特征項(xiàng)集中,進(jìn)行權(quán)重計(jì)算。由于文獻(xiàn)中不同詞匯的出現(xiàn)頻率隨文章的內(nèi)由于文獻(xiàn)中不同詞匯的出現(xiàn)頻率隨文章的內(nèi)容和作者的習(xí)慣而不同,因此,最初的索引容和作者的習(xí)慣而不同,因此,最初的索引系統(tǒng)都是從應(yīng)用詞頻開始的。系統(tǒng)都是從應(yīng)用詞頻開始的。實(shí)際應(yīng)用中顯得有些粗糙實(shí)際應(yīng)用中顯得有些粗糙為什么中頻詞好?為什么中頻詞好??jī)蓚€(gè)閾值怎么選取??jī)蓚€(gè)閾值怎么選???但是,這些思想為信息檢索系統(tǒng)中項(xiàng)的選取但是,這些思想為信息檢索系統(tǒng)中項(xiàng)的選取奠定了基礎(chǔ)奠定了基礎(chǔ)為什么中頻詞好為什么中頻詞好 簡(jiǎn)單地把所有
11、的詞匯都作為文獻(xiàn)的特征項(xiàng),檢索效果并不簡(jiǎn)單地把所有的詞匯都作為文獻(xiàn)的特征項(xiàng),檢索效果并不很好很好 不同的詞匯對(duì)文獻(xiàn)的表示作用不同不同的詞匯對(duì)文獻(xiàn)的表示作用不同 一般說來,常用詞在所有文獻(xiàn)中都有著較高的頻率,區(qū)分度低一般說來,常用詞在所有文獻(xiàn)中都有著較高的頻率,區(qū)分度低 罕用詞在文獻(xiàn)集中的出現(xiàn)次數(shù)較少,難以確定它們的統(tǒng)計(jì)規(guī)律,罕用詞在文獻(xiàn)集中的出現(xiàn)次數(shù)較少,難以確定它們的統(tǒng)計(jì)規(guī)律,相關(guān)度低相關(guān)度低 而中等頻率的詞匯常常與文獻(xiàn)所表示的主題相關(guān),區(qū)分度較高,而中等頻率的詞匯常常與文獻(xiàn)所表示的主題相關(guān),區(qū)分度較高,表示能力最強(qiáng),最有價(jià)值。表示能力最強(qiáng),最有價(jià)值。有價(jià)值的特征項(xiàng)有價(jià)值的特征項(xiàng)有價(jià)值的特征
12、項(xiàng)應(yīng)具備以下特征:有價(jià)值的特征項(xiàng)應(yīng)具備以下特征: 相關(guān)度相關(guān)度 與文獻(xiàn)內(nèi)容有關(guān),以便在需要時(shí)進(jìn)行索引項(xiàng)的檢索與文獻(xiàn)內(nèi)容有關(guān),以便在需要時(shí)進(jìn)行索引項(xiàng)的檢索 區(qū)分度區(qū)分度 能將一篇文獻(xiàn)與其它文獻(xiàn)區(qū)分開能將一篇文獻(xiàn)與其它文獻(xiàn)區(qū)分開怎么度量怎么度量 項(xiàng)頻率項(xiàng)頻率tf(文獻(xiàn)內(nèi)頻率)(文獻(xiàn)內(nèi)頻率) 反比文獻(xiàn)頻率反比文獻(xiàn)頻率idf(inverse document frequency)項(xiàng)頻率項(xiàng)頻率 tf 一個(gè)項(xiàng)的重要性隨著它在文獻(xiàn)中的出現(xiàn)頻率的提一個(gè)項(xiàng)的重要性隨著它在文獻(xiàn)中的出現(xiàn)頻率的提高而提高高而提高 我們應(yīng)該采用某種依項(xiàng)的出現(xiàn)頻率單調(diào)遞增函數(shù)我們應(yīng)該采用某種依項(xiàng)的出現(xiàn)頻率單調(diào)遞增函數(shù)來估算權(quán)重來估算權(quán)重
13、 項(xiàng)在文獻(xiàn)中出現(xiàn)的次數(shù)稱為項(xiàng)頻率(項(xiàng)在文獻(xiàn)中出現(xiàn)的次數(shù)稱為項(xiàng)頻率(term frequency, tf),根據(jù)項(xiàng)頻率計(jì)算項(xiàng)的重要性的),根據(jù)項(xiàng)頻率計(jì)算項(xiàng)的重要性的函數(shù)稱為項(xiàng)頻率因子,簡(jiǎn)稱函數(shù)稱為項(xiàng)頻率因子,簡(jiǎn)稱tf因子。因子。常用的常用的tf因子因子 原始原始tf因子:直接用項(xiàng)頻率因子:直接用項(xiàng)頻率tf作為作為tf因子因子 對(duì)數(shù)對(duì)數(shù)tf因子:因子:1+ln(tf) 二元二元tf因子:不考慮項(xiàng)頻率因子:不考慮項(xiàng)頻率tf,其值根據(jù)項(xiàng)是否在文獻(xiàn)中,其值根據(jù)項(xiàng)是否在文獻(xiàn)中出現(xiàn)為出現(xiàn)為1或或0(出現(xiàn)時(shí)為(出現(xiàn)時(shí)為1,否則為,否則為0)。)。 改進(jìn)的改進(jìn)的tf因子:因子:0.5+0.5*tf/文獻(xiàn)中的最大
14、文獻(xiàn)中的最大tf 大規(guī)模的測(cè)試表明,對(duì)數(shù)大規(guī)模的測(cè)試表明,對(duì)數(shù)tf因子的效果最好因子的效果最好反比文獻(xiàn)頻率反比文獻(xiàn)頻率idf 在許多篇文獻(xiàn)中出現(xiàn)的項(xiàng)的區(qū)分度小于僅在很少幾篇文獻(xiàn)在許多篇文獻(xiàn)中出現(xiàn)的項(xiàng)的區(qū)分度小于僅在很少幾篇文獻(xiàn)中出現(xiàn)的項(xiàng)中出現(xiàn)的項(xiàng) 這表明應(yīng)該用一個(gè)依項(xiàng)在其中出現(xiàn)的文獻(xiàn)數(shù)目單調(diào)遞減函數(shù)來評(píng)這表明應(yīng)該用一個(gè)依項(xiàng)在其中出現(xiàn)的文獻(xiàn)數(shù)目單調(diào)遞減函數(shù)來評(píng)估項(xiàng)的重要性估項(xiàng)的重要性 基于這個(gè)原因,人們提出反比文獻(xiàn)頻率因子,簡(jiǎn)稱基于這個(gè)原因,人們提出反比文獻(xiàn)頻率因子,簡(jiǎn)稱idf因因子子 一般用一般用log(N/nk)或各種變形來計(jì)算?;蚋鞣N變形來計(jì)算。 其中,其中,N是文獻(xiàn)總數(shù),是文獻(xiàn)總數(shù),nk
15、是第是第k個(gè)特征項(xiàng)在其中出現(xiàn)的文獻(xiàn)數(shù),稱個(gè)特征項(xiàng)在其中出現(xiàn)的文獻(xiàn)數(shù),稱為項(xiàng)的文獻(xiàn)頻率為項(xiàng)的文獻(xiàn)頻率tf.idf tf.idftf.idf 示例示例tf.idf 示例示例向量空間模型評(píng)價(jià)向量空間模型評(píng)價(jià) 使用了更高級(jí)的數(shù)學(xué)工具,同樣清晰使用了更高級(jí)的數(shù)學(xué)工具,同樣清晰 標(biāo)引詞加權(quán)標(biāo)引詞加權(quán) 相似度有強(qiáng)弱之分相似度有強(qiáng)弱之分 可以排序可以排序 結(jié)果數(shù)量可控結(jié)果數(shù)量可控 top 10, top 20, 布爾模型布爾模型簡(jiǎn)單,定義清晰簡(jiǎn)單,定義清晰相似度沒有強(qiáng)弱相似度沒有強(qiáng)弱之分之分不排序不排序可能會(huì)導(dǎo)致結(jié)果可能會(huì)導(dǎo)致結(jié)果非常少或者非常非常少或者非常多多向量空間模型評(píng)價(jià)向量空間模型評(píng)價(jià) 項(xiàng)之間線性無關(guān)
16、的假設(shè)項(xiàng)之間線性無關(guān)的假設(shè) 在自然語言中,詞或短語之間存在著十分密切的在自然語言中,詞或短語之間存在著十分密切的聯(lián)系,即存在聯(lián)系,即存在“斜交斜交”現(xiàn)象,很難滿足假定條件,現(xiàn)象,很難滿足假定條件,對(duì)計(jì)算結(jié)果的可靠性造成一定的影響對(duì)計(jì)算結(jié)果的可靠性造成一定的影響 將復(fù)雜的語義關(guān)系,歸結(jié)為簡(jiǎn)單的向量結(jié)構(gòu),丟將復(fù)雜的語義關(guān)系,歸結(jié)為簡(jiǎn)單的向量結(jié)構(gòu),丟失了許多有價(jià)值的線索失了許多有價(jià)值的線索布爾模型(基于集合論)布爾模型(基于集合論)D(文獻(xiàn)表示)(文獻(xiàn)表示)表示為不帶權(quán)重的標(biāo)引詞的集合,或者說,二值的標(biāo)引詞權(quán)重表示為不帶權(quán)重的標(biāo)引詞的集合,或者說,二值的標(biāo)引詞權(quán)重wi,j0或者或者wi,j1Q(查詢
17、)(查詢)表示為標(biāo)引詞的布爾表達(dá)式表示為標(biāo)引詞的布爾表達(dá)式用用and、or、not連接標(biāo)引詞構(gòu)成查詢連接標(biāo)引詞構(gòu)成查詢F(聯(lián)系機(jī)制)(聯(lián)系機(jī)制)布爾表達(dá)式轉(zhuǎn)換為集合表達(dá)式布爾表達(dá)式轉(zhuǎn)換為集合表達(dá)式布爾算子布爾算子and()、)、or()、)、not()替換為交()替換為交()、并()、并()、補(bǔ)()、補(bǔ)()R(排序)(排序)對(duì)于每個(gè)標(biāo)引詞對(duì)于每個(gè)標(biāo)引詞ki,得到一個(gè)文本的集合,得到一個(gè)文本的集合Dkidj|wi,j=1在結(jié)果集合里的文本是相關(guān)的,其他是不相關(guān)的在結(jié)果集合里的文本是相關(guān)的,其他是不相關(guān)的基本概念基本概念 文獻(xiàn)(文獻(xiàn)(Document) 泛指各種機(jī)器可讀的記錄,泛指各種機(jī)器可讀的記
18、錄,通常指一篇文章通常指一篇文章 特征項(xiàng)(特征項(xiàng)(Index Term) 也稱為索引項(xiàng)、標(biāo)引詞等也稱為索引項(xiàng)、標(biāo)引詞等 從一篇文本(查詢)抽出的從一篇文本(查詢)抽出的代表該文本(查詢)內(nèi)容的代表該文本(查詢)內(nèi)容的基本語言單位基本語言單位讓我們高舉中國(guó)特色社會(huì)讓我們高舉中國(guó)特色社會(huì)主義偉大旗幟,更加緊密主義偉大旗幟,更加緊密地團(tuán)結(jié)在黨中央周圍,萬地團(tuán)結(jié)在黨中央周圍,萬眾一心,開拓奮進(jìn),為奪眾一心,開拓奮進(jìn),為奪取全面建設(shè)小康社會(huì)新勝取全面建設(shè)小康社會(huì)新勝利、譜寫人民美好生活新利、譜寫人民美好生活新篇章而努力奮斗!篇章而努力奮斗! 讓、我們、高舉、中國(guó)特色、社會(huì)讓、我們、高舉、中國(guó)特色、社會(huì)主
19、義、偉大、旗幟、更加、緊密地、主義、偉大、旗幟、更加、緊密地、團(tuán)結(jié)、在、黨中央、周圍、團(tuán)結(jié)、在、黨中央、周圍、萬眾一心、開拓、奮進(jìn)、為、萬眾一心、開拓、奮進(jìn)、為、奪取、全面、建設(shè)、小康、社會(huì)、奪取、全面、建設(shè)、小康、社會(huì)、新、勝利、譜寫、人民、美好、新、勝利、譜寫、人民、美好、生活、新、篇章、而、努力、奮斗生活、新、篇章、而、努力、奮斗模糊集模糊集 模糊集的運(yùn)算模糊集的運(yùn)算)(),(min()()(),(max()()(1)(uuuuuuuuBABABABAAA向量空間模型評(píng)價(jià)向量空間模型評(píng)價(jià)使用了更高級(jí)的數(shù)學(xué)工具,同樣清晰使用了更高級(jí)的數(shù)學(xué)工具,同樣清晰標(biāo)引詞加權(quán)標(biāo)引詞加權(quán)相似度有強(qiáng)弱之分相
20、似度有強(qiáng)弱之分可以排序可以排序結(jié)果數(shù)量可控結(jié)果數(shù)量可控 top 10, top 20, 標(biāo)引詞相互獨(dú)立標(biāo)引詞相互獨(dú)立當(dāng)今最流行的檢索模型當(dāng)今最流行的檢索模型布爾模型布爾模型簡(jiǎn)單,定義清晰簡(jiǎn)單,定義清晰相似度沒有強(qiáng)弱相似度沒有強(qiáng)弱之分之分不排序不排序可能會(huì)導(dǎo)致結(jié)果可能會(huì)導(dǎo)致結(jié)果非常少或者非常非常少或者非常多多獨(dú)立嗎?獨(dú)立嗎?廣義向量空間模型廣義向量空間模型 標(biāo)引詞并不獨(dú)立標(biāo)引詞并不獨(dú)立 標(biāo)引詞之間如何聯(lián)系標(biāo)引詞之間如何聯(lián)系 正交變換正交變換 標(biāo)準(zhǔn)正交基標(biāo)準(zhǔn)正交基從文本到向量空間從文本到向量空間多少維的向量?多少維的向量?維數(shù)急劇上升維數(shù)急劇上升 隨著數(shù)據(jù)庫(kù)表的記錄的增大,特征值會(huì)變隨著數(shù)據(jù)庫(kù)表的
21、記錄的增大,特征值會(huì)變得很大。對(duì)應(yīng)的文檔向量空間大小的維數(shù)得很大。對(duì)應(yīng)的文檔向量空間大小的維數(shù)會(huì)急劇上升。會(huì)急劇上升。 如:對(duì)于一個(gè)含有如:對(duì)于一個(gè)含有100個(gè)記錄的表來說,其文個(gè)記錄的表來說,其文檔向量空間大小的維數(shù)達(dá)到檔向量空間大小的維數(shù)達(dá)到1000是很正常的是很正常的 但如此大或更大維數(shù)的向量之間運(yùn)算的時(shí)間復(fù)但如此大或更大維數(shù)的向量之間運(yùn)算的時(shí)間復(fù)雜度會(huì)很高,直接影響查快率。雜度會(huì)很高,直接影響查快率。奇異值分解奇異值分解第一個(gè)矩陣第一個(gè)矩陣X中的每一行表示意思相關(guān)的一類詞,其中的每個(gè)非零元素表示中的每一行表示意思相關(guān)的一類詞,其中的每個(gè)非零元素表示這類詞中每個(gè)詞的重要性(或者說相關(guān)性),數(shù)值越大越相關(guān)。這類詞中每個(gè)詞的重要性(或者說相關(guān)性),數(shù)值越大越相關(guān)。最后一個(gè)矩陣最后一個(gè)矩陣Y中的每一列表示同一主題一類文章,其中每個(gè)元素表示這類中的每一列表示同一主題一類文章,其中每個(gè)元素表示這類文章中每篇文章的相關(guān)性。文章中每篇文章的相關(guān)性。中間的矩陣則表示類詞和文章類之間的相關(guān)性。中間的矩陣則表示類詞和文章類之間的相關(guān)性。因此,只要對(duì)關(guān)聯(lián)矩陣因此,只要對(duì)關(guān)聯(lián)矩陣A進(jìn)行一次奇異值分解,就可以同時(shí)完成了近義詞分進(jìn)行一次奇異值分解,就可以同時(shí)完成了
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 騰退場(chǎng)地協(xié)議書
- 洗浴服務(wù)員合同協(xié)議書
- 湖北省農(nóng)貿(mào)市場(chǎng)協(xié)議書
- 貸款打折協(xié)議書
- 美國(guó)將簽協(xié)議書
- 組織參賽協(xié)議書
- 工程現(xiàn)場(chǎng)管理員協(xié)議書
- 確權(quán)分割協(xié)議書
- 抵押車合伙經(jīng)營(yíng)協(xié)議書
- 資金轉(zhuǎn)贈(zèng)協(xié)議書
- 小學(xué)生班會(huì)民法課件
- 2025-2030年輪椅行業(yè)市場(chǎng)深度調(diào)研及發(fā)展趨勢(shì)與投資戰(zhàn)略研究報(bào)告
- 2025年中國(guó)諧波測(cè)量?jī)x器市場(chǎng)調(diào)查研究報(bào)告
- 無人機(jī)操作考試及其理論試題和答案
- 2025物理大一輪復(fù)習(xí)講義復(fù)習(xí)講義答案精析
- 第23課《“蛟龍”探?!氛n件統(tǒng)編版語文七年級(jí)下冊(cè)
- 人教版英語八下Unit8 Have you read Treasure Island yet Section A 3a-3c課件
- 工程師施工現(xiàn)場(chǎng)安全管理實(shí)務(wù)試題及答案
- 初中地理澳大利亞(第2課時(shí))課件+-2024-2025學(xué)年地理人教版(2024)七年級(jí)下冊(cè)
- 生物質(zhì)轉(zhuǎn)化技術(shù)原理考核試卷
評(píng)論
0/150
提交評(píng)論