




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、搜索引擎論文:搜索引擎核心詞提取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)【中文摘要】論文選題來源于國(guó)內(nèi)某著名互聯(lián)網(wǎng)公司搜索引擎團(tuán)隊(duì)的搜索引擎核心詞提取系統(tǒng)。索引系統(tǒng)作為搜索引擎的核心系統(tǒng)之一,需要處理海量的互聯(lián)網(wǎng)信息,但是信息的高重復(fù)度浪費(fèi)了大量的系統(tǒng)資源。為了解決這一問題,需要在索引系統(tǒng)中添加索引信息排重系統(tǒng),通過比對(duì)信息文本的核心詞來實(shí)現(xiàn)排重功能。本論文的主要工作是索引信息排重系統(tǒng)中核心詞提取子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),該子系統(tǒng)的是能夠準(zhǔn)確、快速提取信息文本中的核心詞匯,供索引信息排重系統(tǒng)使用,進(jìn)而達(dá)到索引信息排重的。論文闡述了搜索引擎核心詞提取系統(tǒng)對(duì)于企業(yè)應(yīng)用的價(jià)值和意義。介紹了搜索引擎核心詞提取系統(tǒng)相關(guān)技術(shù),包括搜索引
2、擎技術(shù)、中文分詞技術(shù)、模式匹配技術(shù)以及Linux系統(tǒng)開發(fā)技術(shù);對(duì)搜索引擎核心詞提取系統(tǒng)進(jìn)行了需求分析,提出了基于中文分詞和模式匹配技術(shù)的核心詞提取方案;設(shè)計(jì)了系統(tǒng)的架構(gòu)和功能模塊;最終實(shí)現(xiàn)了該系統(tǒng)。本論文設(shè)計(jì)、實(shí)現(xiàn)的搜索引擎核心詞提取系統(tǒng)主要應(yīng)用于索引信息排重系統(tǒng),還能將其擴(kuò)展應(yīng)用于文章相似度計(jì)算、網(wǎng)頁相似度計(jì)算以及新聞相關(guān)詞提取等。目前搜索引擎核心詞提取系統(tǒng)已經(jīng)應(yīng)用于該互聯(lián)網(wǎng)公司的搜索引擎中。該系統(tǒng)使得無線愛問搜索引擎有了更好的用戶體驗(yàn),主要體.【英文摘要】This thesis comes from the Core Word Extraction System in Search Eng
3、ine of wireless iAsk team in Sina network Co., LTD. As one of the search engines core systems, Index System needs to process huge amount of internet information. However, the high repeatability of information has caused great system resources waste. In order to solve this problem, it is necessary to
4、 add Detecting Duplicate Index Information System to Index System. The detect function is implemented by contrasting core words of informative .【關(guān)鍵詞】搜索引擎 核心詞提取 中文分詞 模式匹配 權(quán)值計(jì)算【英文關(guān)鍵詞】search engine core word extraction Chinese word segmentation pattern matching weight calculation【索購(gòu)全文】聯(lián)系Q1:138113721 Q2
5、:139938848【目錄】搜索引擎核心詞提取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)致謝5-6中文摘要6-7ABSTRACT71 引言11-131.1 課題背景111.2 國(guó)內(nèi)外現(xiàn)狀11-121.3 論文的主要工作及意義121.4 論文組織結(jié)構(gòu)12-132 搜索引擎核心詞提取系統(tǒng)相關(guān)技術(shù)13-242.1 搜索引擎132.2 搜索引擎分類13-14 全文搜索引擎13-14 目錄索引搜索引擎14 元搜索引擎142.3 搜索引擎基本工作原理14-16 全文搜索引擎14-15 目錄索引搜索引擎15 元搜索引擎15-162.4 中文分詞162.5 中文分詞算法分類16-19 基于字符串匹配的分詞方法17 基于理解的分詞方法17
6、-18 基于統(tǒng)計(jì)的分詞方法18-192.6 模式匹配技術(shù)19-21 KMP(Knuth-Morris-Pratt)算法19-20 BM(Boyer-Moore)算法20-212.7 搜索引擎核心詞提取系統(tǒng)中的開發(fā)技術(shù)21-24 Linux系統(tǒng)及開發(fā)工具21 Linux系統(tǒng)下靜態(tài)庫以及動(dòng)態(tài)庫技術(shù)21-22 Linux系統(tǒng)守護(hù)進(jìn)程22-243 搜索引擎核心詞提取系統(tǒng)需求分析及概要設(shè)計(jì)24-353.1 搜索引擎核心詞提取系統(tǒng)架構(gòu)24-28 搜索引擎框架及搜索引擎核心詞提取系統(tǒng)所處位置24-25 搜索引擎的工作流程25-27 搜索引擎核心詞提取系統(tǒng)總體結(jié)構(gòu)圖27-283.2 搜索引擎核心詞提取系統(tǒng)功能
7、需求分析283.3 中文分詞子系統(tǒng)功能需求分析28-30 中文分詞子系統(tǒng)用例分析29 中文分詞子系統(tǒng)數(shù)據(jù)處理流程29-303.4 模式匹配子系統(tǒng)功能需求分析30-31 模式匹配子系統(tǒng)用例分析30-31 模式匹配子系統(tǒng)數(shù)據(jù)處理流程313.5 權(quán)值計(jì)算子系統(tǒng)功能需求分析31-33 權(quán)值計(jì)算子系統(tǒng)用例分析31-32 權(quán)值計(jì)算子系統(tǒng)數(shù)據(jù)處理流程32-333.6 結(jié)果排序子系統(tǒng)功能需求分析33-34 結(jié)果排序子系統(tǒng)用例分析33 結(jié)果排序子系統(tǒng)數(shù)據(jù)處理流程33-343.7 總結(jié)34-354 搜索引擎核心詞提取系統(tǒng)詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)35-614.1 中文分詞子系統(tǒng)35-46 實(shí)現(xiàn)技術(shù)35-36 數(shù)組Trie樹構(gòu)造實(shí)現(xiàn)過程36-37 匹配規(guī)則37-41 無用詞匯的刪除41-42 子系統(tǒng)流程及關(guān)鍵部分實(shí)現(xiàn)邏輯42-44 進(jìn)一步改進(jìn)優(yōu)化措施44-464.2 模式匹配子系統(tǒng)46-51 關(guān)鍵詞集合匹配樹的構(gòu)造流程47-48 關(guān)鍵詞集合匹配樹的詞頻統(tǒng)計(jì)算法流程48-50 模式匹配子系統(tǒng)實(shí)現(xiàn)的關(guān)鍵數(shù)據(jù)結(jié)構(gòu)50-51 模式匹配子系統(tǒng)小結(jié)514.3 權(quán)值計(jì)算子系統(tǒng)51-54 字詞權(quán)值計(jì)算函數(shù)構(gòu)建52 字詞權(quán)值計(jì)算函數(shù)因子計(jì)算52-54 字詞權(quán)值的最終計(jì)算544.4 結(jié)果排序子系統(tǒng)54-59 B-快速排序算法的基本思想55-56 B-快速排序算法流程56-57 B-快速排序算法的實(shí)現(xiàn)以
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 稀土金屬壓延加工的綠色制造實(shí)踐與挑戰(zhàn)考核試卷
- 生理參數(shù)監(jiān)測(cè)與疾病預(yù)防考核試卷
- 方便食品包裝的可降解材料研究考核試卷
- 流體包裹體對(duì)鉻礦成礦作用的指示意義考核試卷
- 安全機(jī)器學(xué)習(xí)與模式識(shí)別考核試卷
- 經(jīng)紀(jì)人如何進(jìn)行藝人宣傳推廣與市場(chǎng)營(yíng)銷策劃考核試卷
- 珠海市高三月質(zhì)量監(jiān)測(cè)(二模)理綜生物試題
- 石家莊信息工程職業(yè)學(xué)院《Html網(wǎng)頁開發(fā)與設(shè)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 江西管理職業(yè)學(xué)院《田間試驗(yàn)與統(tǒng)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 南京理工大學(xué)紫金學(xué)院《互換性與技術(shù)測(cè)量A》2023-2024學(xué)年第二學(xué)期期末試卷
- 浙江省臺(tái)州市十校聯(lián)盟2024-2025學(xué)年高二下學(xué)期期中聯(lián)考技術(shù)試題(含答案)
- 選擇性必修3 《邏輯與思維》(思維導(dǎo)圖+核心考點(diǎn)+易混易錯(cuò))
- 公募基金與私募基金的試題及答案
- 李四光《看看我們的地球》原文閱讀
- 2023高中學(xué)業(yè)水平合格性考試歷史重點(diǎn)知識(shí)點(diǎn)歸納總結(jié)(復(fù)習(xí)必背)
- 圓柱鋼模計(jì)算書
- 合成寶石特征x
- 查擺問題及整改措施
- 年度研發(fā)費(fèi)用專項(xiàng)審計(jì)報(bào)告模板(共22頁)
- 隧道工程隧道支護(hù)結(jié)構(gòu)設(shè)計(jì)實(shí)用教案
- 得力打卡機(jī)破解Excel工作表保護(hù)密碼4頁
評(píng)論
0/150
提交評(píng)論