




已閱讀5頁,還剩91頁未讀, 繼續(xù)免費(fèi)閱讀
2005碩士論文模版 - 清華大學(xué).pdf.pdf 免費(fèi)下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
基于輸入法用戶詞庫和 查詢?nèi)罩镜娜舾裳芯?Some Research based on User Dictionary of Input Method and Query Log 申請清華大學(xué)工學(xué)碩士學(xué)位論文 培 養(yǎng) 單 位 計算機(jī)科學(xué)與技術(shù)系 學(xué) 科 計算機(jī)科學(xué)與技術(shù) 研 究 生 王 鵬 指 導(dǎo) 教 師 孫 茂 松 教 授 二 一一年四月 基 于 輸 入 法 用 戶 詞 庫 和 查 詢 日 志 的 若 干 研 究 王 鵬 關(guān)于學(xué)位論文使用授權(quán)的說明 本人完全了解清華大學(xué)有關(guān)保留 使用學(xué)位論文的規(guī)定 即 清華大學(xué)擁有在著作權(quán)法規(guī)定范圍內(nèi)學(xué)位論文的使用權(quán) 其中包 括 1 已獲學(xué)位的研究生必須按學(xué)校規(guī)定提交學(xué)位論文 學(xué)校可以 采用影印 縮印或其他復(fù)制手段保存研究生上交的學(xué)位論文 2 為 教學(xué)和科研目的 學(xué)??梢詫⒐_的學(xué)位論文作為資料在圖書館 資 料室等場所供校內(nèi)師生閱讀 或在校園網(wǎng)上供校內(nèi)師生瀏覽部分內(nèi) 容 本人保證遵守上述規(guī)定 保密的論文在解密后遵守此規(guī)定 保密的論文在解密后遵守此規(guī)定 作者簽名 導(dǎo)師簽名 日 期 日 期 摘要 I 摘 要 中文輸入法是中文計算機(jī)用戶的重要工具 但是基于中文輸入法的用 戶行為研究非常稀少 本文研究了用于中文輸入法用戶詞庫和搜索引擎查 詢?nèi)罩镜淖?詞情況 通過數(shù)據(jù)處理統(tǒng)計分析 本文介紹了用戶詞庫和查 詢?nèi)罩驹谟米钟迷~上的新特點(diǎn)并與其他數(shù)據(jù)進(jìn)行對比 結(jié)合用戶詞庫 查 詢?nèi)罩?Wiki Sogout 數(shù)據(jù) 本文論述了尋找 Wiki 中文常見詞條的方法 并分析結(jié)果 本文還介紹了通過兩個記錄用戶輸入序列信息的輸入法數(shù)據(jù) 抽取拼音錯誤模式的方法 并對結(jié)果進(jìn)行分析并試圖找到錯誤發(fā)生的原 因 總結(jié)了中文輸入法輸入錯誤的一些規(guī)律 最后 本文介紹了實(shí)現(xiàn) Win32 平臺下女書拼音輸入法的機(jī)制和原理 關(guān)鍵詞 輸入法 搜索引擎 錯誤模式 用戶詞庫 查詢?nèi)罩?Abstract II Abstract Chinese Input Method is an important tool of Chinese computer users But studies on user behaviors in Chinese Input Method are rare This paper introduces the research on Chinese characters and words used in Chinese Input Method and Search Engine Based on data processing and statistical analysis we introduce new features of Chinese Input Method user dictionaries and Search Engine query logs and compare them to other datasets We also introduce and analysis some methods to find popular Wiki Chinese words based on user dictionaries query logs Wiki and Sogout dataset And we introduce the method of extracting Pinyin error patterns by several methods based on two datasets of two Chinese input methods which include input sequences of users Then we analysis these input error patterns and try to find their reasons We summarize some rules of input errors of Chinese in input method At last we introduce how to implement Female Script Pinyin Input Method based on Win32 system Keywords Input Method Search Engine error patterns User dictionary Query log 目 錄 III 目 錄 第 1 章 引言 1 1 1 研究背景 1 1 2 研究現(xiàn)狀 1 1 3 本文的主要內(nèi)容與貢獻(xiàn) 2 第 2 章 輸入法用戶詞庫和查詢?nèi)罩居米智闆r分析 3 2 1 實(shí)驗(yàn)概述 3 2 2 數(shù)據(jù)說明 3 2 3 用戶詞庫 查詢?nèi)罩?媒體字表單字使用情況 4 2 3 1 輸入法用戶詞庫 4 2 3 2 搜索引擎查詢?nèi)罩?7 2 3 3 媒體常用字表 9 2 4 常用七千字在三個數(shù)據(jù)集中的分布情況 12 2 4 1 常用七千字在用戶詞庫中的分布 12 2 4 2 常用七千字在查詢?nèi)罩局械姆植?13 2 4 3 常用七千字在媒體字表中的分布 13 2 5 不同數(shù)據(jù)集之間單字分布比較 14 2 5 1 用戶詞庫與查詢?nèi)罩締巫址植急容^ 14 2 5 2 用戶詞庫與媒體字表比較 15 2 5 3 查詢?nèi)罩九c媒體字表比較 16 2 6 小結(jié) 17 第 3 章 輸入法用戶詞庫和查詢?nèi)罩居迷~情況分析 19 3 1 實(shí)驗(yàn)概述 19 3 2 數(shù)據(jù)說明 19 3 2 1 輸入法用戶詞庫 19 3 2 2 搜索引擎查詢?nèi)罩?19 3 2 3 其他數(shù)據(jù) 19 3 3 輸入法用戶詞庫用詞情況分析 20 目 錄 IV 3 3 1 總體情況 20 3 3 2 三千常用詞分布情況 24 3 4 查詢?nèi)罩居迷~情況分析 28 3 4 1 總體情況 28 3 4 2 三千常用詞分布情況 42 3 5 小結(jié) 46 第 4 章 基于輸入法用戶詞庫和查詢?nèi)罩镜?wiki 47 4 1 實(shí)驗(yàn)概述 47 4 2 數(shù)據(jù)介紹 47 4 2 1 輸入法用戶詞庫和查詢?nèi)罩?47 4 2 2 Wiki 鏈接詞數(shù)據(jù) 47 4 2 3 Sogout 網(wǎng)頁串頻數(shù)據(jù) 48 4 3 Wiki 中文鏈接詞條在不同數(shù)據(jù)集下的分布情況 48 4 3 1 Wiki 中文鏈接詞條在輸入法用戶詞庫的分布 48 4 3 2 Wiki 中文鏈接詞條在查詢?nèi)罩镜姆植?49 4 3 3 Wiki 中文鏈接詞條在 Sogout 串頻數(shù)據(jù)的分布 51 4 3 4 小結(jié) 53 4 4 基于不同數(shù)據(jù)集的 Wiki 常用詞條 53 4 5 小結(jié) 62 第 5 章 基于輸入法輸入數(shù)據(jù)的常見拼音錯誤模式抽取 63 5 1 實(shí)驗(yàn)背景概述 63 5 2 數(shù)據(jù)介紹 63 5 2 1 小白狗輸入法數(shù)據(jù) 63 5 2 2 大白狗輸入法數(shù)據(jù) 64 5 3 錯誤拼音模式抽取方法 65 5 3 1 小白狗輸入法數(shù)據(jù)錯誤對抽取方法 65 5 3 2 大白狗輸入法數(shù)據(jù)錯誤對抽取方法 66 5 3 3 從錯誤對抽取錯誤模式的方法 67 5 4 實(shí)驗(yàn)結(jié)果及分析 67 5 4 1 小白狗數(shù)據(jù) 67 目 錄 V 5 4 2 大白狗數(shù)據(jù) 69 5 4 3 實(shí)驗(yàn)結(jié)果分析 71 5 5 小結(jié) 74 第 6 章 女書拼音輸入法的設(shè)計與實(shí)現(xiàn) 76 6 1 背景概述 76 6 2 Win32 平臺的 IME 機(jī)制介紹 77 6 3 女書拼音輸入法的實(shí)現(xiàn)原理 79 6 4 小結(jié) 80 第 7 章 結(jié)論 82 7 1 論文成果總結(jié) 82 7 2 課題研究展望 82 參考文獻(xiàn) 84 致謝與聲明 85 個人簡歷 在學(xué)期間發(fā)表的學(xué)術(shù)論文與研究成果 86 第 1 章 引言 1 第1章 引言 1 1 研究背景 隨著網(wǎng)絡(luò)的發(fā)展 信息傳播的量和速度都顯著提高 根據(jù)最新統(tǒng)計 中國 網(wǎng)民數(shù)量已經(jīng)達(dá)到 3 84 億 互聯(lián)網(wǎng)普及率為 28 9 1 2 這種信息的高速發(fā)展 對現(xiàn)有的語言造成了很大影響 就漢語來說 每年都有很多新鮮詞匯熱門詞匯 誕生并傳播 逐漸形成了一種特有的網(wǎng)絡(luò)語言 網(wǎng)絡(luò)語言也在逐漸地影響著平 時生活中使用的語言 因此研究網(wǎng)絡(luò)中的語言狀況和對生活中語言的影響成為 一種迫切的需求 漢字輸入法是漢語使用者在計算機(jī)中輸入漢字的工具 也是網(wǎng)絡(luò)中漢語語 言的輸入方式 漢字輸入法包括拼音輸入法 五筆輸入法 聯(lián)想輸入法等多種 隨著技術(shù)的發(fā)展 拼音輸入法由于其易學(xué)易用性逐漸成為主流 輸入法作為計 算機(jī)上最常用的輸入中文的工具 其使用情況可以視為計算機(jī)上中文使用情況 的體現(xiàn) 1 2 研究現(xiàn)狀 針對漢語在網(wǎng)絡(luò)上的使用 也已經(jīng)有一些統(tǒng)計分析 3 主要針對若干大型 網(wǎng)站上的文本進(jìn)行字 詞的統(tǒng)計分析 也有針對中文搜索引擎的用戶行為進(jìn)行 研究的工作 4 在中文搜索引擎用戶行為分析的基礎(chǔ)之上 其他工作也得以展 開和拓展 7 相比網(wǎng)絡(luò)文本 輸入法是用戶在網(wǎng)絡(luò)上使用中文更直接的工具 而通過輸入法研究中文用戶行為的工作非常稀少 這可能有以下兩個原因 一 是中國 IT 產(chǎn)業(yè)發(fā)展迅猛 從較薄弱的基礎(chǔ)迅速發(fā)展為具有巨大市場價值的產(chǎn) 業(yè) 許多工作尚未跟進(jìn) 二是關(guān)于用戶輸入法行為的數(shù)據(jù)非常稀少 2006 年 6 月搜狗公司推出了搜狗拼音輸入法 是第一個問世的互聯(lián)網(wǎng)輸入 法 互聯(lián)網(wǎng)輸入法即是用戶可以通過網(wǎng)絡(luò)及時更新詞庫 并且可以將自己的詞 庫上傳到服務(wù)器中 互聯(lián)網(wǎng)輸入法的誕生促進(jìn)了輸入法的發(fā)展 并且通過網(wǎng)絡(luò) 收集到大量的用戶輸入數(shù)據(jù) 搜狗拼音輸入法注冊用戶詞庫規(guī)模已經(jīng)達(dá)到 100 萬用戶 為輸入法中語言情況的研究提供了條件 搜狗拼音輸入法是第一個 第 1 章 引言 2 問世的互聯(lián)網(wǎng)輸入法 其用戶詞庫也是第一個基于互聯(lián)網(wǎng)的輸入法用戶數(shù)據(jù)集 合 用戶在用輸入法輸入中文時會產(chǎn)生各種錯誤 對這些輸入錯誤進(jìn)行分析研 究有助于提高輸入法的使用效果 目前基于英文等字母語言的自動糾錯研究已 經(jīng)有一定歷史 2000 年就出現(xiàn)了經(jīng)典的噪聲信道錯誤模型 5 基于大規(guī)模語料 的自動糾錯也得到了較好的結(jié)果 6 由于各種原因 中文輸入時的錯誤研究還 非常稀少 1 3 本文的主要內(nèi)容與貢獻(xiàn) 本文主要可以分為兩個部分 第一部分 通過搜狗公司提供的輸入法用戶 詞庫數(shù)據(jù) 搜索引擎查詢?nèi)罩竞推渌F(xiàn)有數(shù)據(jù) 對輸入法用戶使用的語言狀況 進(jìn)行統(tǒng)計分析 并與普通話常用詞等數(shù)據(jù)進(jìn)行比較 分析網(wǎng)絡(luò)中的語言變化發(fā) 展 最后基于 Wiki 數(shù)據(jù) 進(jìn)行了中文常見詞條的選取排序?qū)嶒?yàn) 并對實(shí)驗(yàn)結(jié)果 進(jìn)行分析 第一部分主要包括第二章 第三章 第四章 第二章主要介紹了用 戶詞庫和查詢?nèi)罩局袉巫质褂们闆r分析 并與其他數(shù)據(jù)進(jìn)行對比 第三章主要 介紹了用戶詞庫和查詢?nèi)罩局性~的使用情況 第四章論述了利用不同數(shù)據(jù)集尋 找 Wiki 中文常見詞條的方法并分析結(jié)果 第二部分主要包括第五章和第六章 第五章介紹利用輸入法用戶輸入序列 的數(shù)據(jù) 嘗試了若干種抽取常見拼音錯誤模式的方法 并對結(jié)果進(jìn)行了分析 第六章介紹了在對輸入法有一定了解的基礎(chǔ)上 實(shí)現(xiàn)女書拼音輸入法的原理 最后第七章對之前的章節(jié)進(jìn)行總結(jié) 將所得結(jié)論進(jìn)行整理 并介紹了將來 的研究計劃 第 2 章 輸入法用戶詞庫和查詢?nèi)罩居米智闆r分析 3 第2章 輸入法用戶詞庫和查詢?nèi)罩居米智闆r分析 2 1 實(shí)驗(yàn)概述 本章主要研究了輸入法用戶詞庫和搜索引擎查詢?nèi)罩局械膯巫质褂们闆r 以及中文常用七千字在用戶詞庫和查詢?nèi)罩局械姆植?對比了中文傳統(tǒng)常用字 在網(wǎng)絡(luò)環(huán)境中使用的變化 另外對用戶詞庫 查詢?nèi)罩?媒體常用字表三個數(shù) 據(jù)做了比較 2 2 數(shù)據(jù)說明 輸入法用戶詞庫數(shù)據(jù)為搜狗輸入法 2006 9 5 推出正式 1 0 版 注冊用戶的 輸入數(shù)據(jù) 記錄了所有用戶輸入的詞條和次數(shù) 用戶數(shù)約 90 多萬 本實(shí)驗(yàn)使用 的是截至 2008 年 8 月 21 日的用戶詞庫 記錄方法為用戶使用輸入法上屏?xí)r的 詞條 比如用戶輸入 中國 則記錄中國 如果用戶輸入整句 我在哪里 則把 我在哪里 作為一個詞條記錄 由于分析常用字分布情況 因此把所有 詞條拆成單字統(tǒng)計 過濾了詞頻過小的詞條 總字頻 76775392841 搜狗輸入 法可以選擇用 sohu 賬號登陸 注冊的用戶才會記錄詞庫 圖 2 1 是搜狗輸入法 登陸界面 圖2 1 搜狗輸入法登陸界面 搜索引擎查詢?nèi)罩臼?sogou 搜索引擎記錄的用戶查詢記錄 經(jīng)過處理后只 第 2 章 輸入法用戶詞庫和查詢?nèi)罩居米智闆r分析 4 保留了查詢詞和次數(shù) 每天分別統(tǒng)計 使用的是 2008 年 5 月 21 日至 2009 年 7 月 2 日的查詢詞 同樣為了統(tǒng)計字頻將詞條拆成單字 并去掉了非中文字符 總字頻 5922947983 媒體常用字表是統(tǒng)計三家 Web 媒體的新聞?wù)Z料得到的字頻數(shù)據(jù) 共有單字 9270 個 總字頻 991717782 現(xiàn)代漢語通用字表 由國家語言文字工作委員會 中華人民共和國新聞 出版署 1988 年聯(lián)合發(fā)布 是根據(jù)中文常用字情況對漢字按級別劃分的字表 沒 有字頻信息 包括 1 級字 2500 個 2 級字 1000 個 3 級字 2500 個 后文中以 常用字 2 3 用戶詞庫 查詢?nèi)罩?媒體字表單字使用情況 2 3 1 輸入法用戶詞庫 經(jīng)過統(tǒng)計用戶詞庫中有單字 19679 個 總字頻 76775392841 一般來說 常用漢字大約有 5 6 千左右 用戶詞庫的 19679 個單字中包含了大量繁體字 古字 異體字等 這些字一般字頻較低 字頻最高的 20 個字如表 2 1 用戶詞庫累計覆蓋率曲線如圖 2 2 用戶詞庫中 前 87 個字覆蓋了 50 的 字頻 前 431 個字覆蓋了 80 的字頻 前 808 個字覆蓋了 90 的字頻 前 1231 個字覆蓋了 95 的字頻 前 2287 個字覆蓋了 99 的字頻 常用單字占總數(shù)的 小部分 Lg 字頻 關(guān)于 Lg Rank 的曲線如圖 2 3 線性相關(guān)系數(shù) 0 9583 并不 是很好地符合 Zipf 定律 圖 2 4 是每個單字的概率與 Rank 相乘的曲線 發(fā)現(xiàn)乘 積變化較大 不是很符合 Zipf 定律 第 2 章 輸入法用戶詞庫和查詢?nèi)罩居米智闆r分析 5 圖2 2 用戶詞庫累計覆蓋率曲線 表2 1 用戶詞庫字頻前20的字 字 字頻 累計字頻 Rank 覆蓋率 累計覆蓋率 我 2044570926 2044570926 1 2 66 2 66 你 1957197208 4001768134 2 2 55 5 21 不 1849362646 5851130780 3 2 41 7 62 的 1729427093 7580557873 4 2 25 9 87 是 1443644870 9024202743 5 1 88 11 75 了 1366191672 10390394415 6 1 78 13 53 么 945551856 11335946271 7 1 23 14 77 有 914338373 12250284644 8 1 19 15 96 好 8821771049 1 15 17 11 個 79479109110 1 04 18 14 一 78668742411 1 02 19 16 沒 76993906112 1 00 20 17 在 740057079 16223936403 13 0 96 21 13 就 692819581 16916755984 14 0 90 22 03 呵 66028869815 0 86 22 89 那 65138555516 0 85 23 74 要 58673317217 0 76 24 51 這 549162387 19364325796 18 0 72 25 22 來 546331533 19910657329 19 0 71 25 93 看 542732193 20453389522 20 0 71 26 64 第 2 章 輸入法用戶詞庫和查詢?nèi)罩居米智闆r分析 6 圖2 3 用戶詞庫Lg 字頻 關(guān)于Lg 字頻Rank 的曲線 圖2 4 用戶詞庫Rank Pr曲線 通過觀察發(fā)現(xiàn) 用戶詞庫中字頻較高的字多為口頭語中常用字 比如代詞 語氣詞 助詞等 有實(shí)際意義的較少 這與網(wǎng)絡(luò)應(yīng)用比如聊天工具 論壇成為 輸入法的主要應(yīng)用渠道有關(guān) 第 2 章 輸入法用戶詞庫和查詢?nèi)罩居米智闆r分析 7 2 3 2 搜索引擎查詢?nèi)罩?查詢?nèi)罩局杏袉巫?17715 個 總字頻 5922947983 同樣包含很多繁體字 古字 異體字等 字頻最高的 20 個字如表 2 2 表2 2 查詢?nèi)罩咀诸l前20的單字 字 字頻 累計字頻 Rank 覆蓋率 累計覆蓋率 網(wǎng) 88756312 88756312 1 1 50 1 50 人 63484646 152240958 2 1 07 2 57 的 56817576 209058534 3 0 96 3 53 電 56496830 265555364 4 0 95 4 48 小 51567707 317123071 5 0 87 5 35 天 49460201 366583272 6 0 84 6 19 下 48611819 415195091 7 0 82 7 01 色 46581866 461776957 8 0 79 7 80 圖 45773945 507550902 9 0 77 8 57 影 43526275 551077177 10 0 73 9 30 載 40495981 591573158 11 0 68 9 99 大 38612241 630185399 12 0 65 10 64 女 37353917 667539316 13 0 63 11 27 情 36121742 703661058 14 0 61 11 88 片 35055151 738716209 15 0 59 12 47 中 32249772 770965981 16 0 54 13 02 國 32125245 803091226 17 0 54 13 56 美 28335347 831426573 18 0 48 14 04 愛 27791941 859218514 19 0 47 14 51 學(xué) 27522927 886741441 20 0 46 14 97 查詢?nèi)罩纠塾嫺采w率曲線如圖 2 5 前 188 個字覆蓋了 50 字頻 前 658 個字覆蓋了 80 字頻 前 1102 個字覆蓋了 90 字頻 前 1577 個字覆蓋了 95 的字頻 前 2842 個字覆蓋了 99 的字頻 可見 無論是用戶詞庫還是查詢?nèi)罩?都含有大量低頻字 而且高頻字使用比較集中 尤其是用戶詞庫 86 個字占據(jù) 了 50 的字頻 第 2 章 輸入法用戶詞庫和查詢?nèi)罩居米智闆r分析 8 圖2 5 查詢?nèi)罩纠塾嫺采w率曲線 Lg 字頻 關(guān)于 Lg Rank 的曲線如圖 2 6 線性相關(guān)系數(shù) 0 9395 曲線形狀和 用戶詞庫類似 并不很好地符合 Zipf 定律 圖 2 7 是每個單字的概率與 Rank 相乘的曲線 發(fā)現(xiàn)乘積變化較大 不是很符合 Zipf 定律 圖2 6 查詢?nèi)罩綥g 字頻 關(guān)于Lg Rank 的曲線 第 2 章 輸入法用戶詞庫和查詢?nèi)罩居米智闆r分析 9 圖2 7 查詢?nèi)罩綬ank Pr曲線 由于使用目的不同 查詢?nèi)罩局杏袑?shí)際意義的字頻較高 虛詞的字頻相對 用戶詞庫低很多 字頻較高的字多為名詞 形容詞的組成部分 這是與搜索引 擎的功能相符的 2 3 3 媒體常用字表 媒體字表含有單字 9270 個 總字頻 991717782 字頻最高的前 20 個字如 表 2 3 累計覆蓋率曲線如圖 2 8 前 181 個字覆蓋了 50 前 604 個字覆蓋了 80 前 970 個字覆蓋了 90 前 1372 個字覆蓋了 95 前 2381 個字覆蓋了 99 三個數(shù)據(jù)集對比來看 用戶詞庫用字最集中 Log 字頻 關(guān)于 Log Rank 的曲線如圖 2 9 線性相關(guān)系數(shù) 0 8918 也不是很 好地符合 Zipf 定律 圖 2 10 是每個單字的概率與 Rank 相乘的曲線 發(fā)現(xiàn)乘積 變化較大 不是很符合 Zipf 定律 第 2 章 輸入法用戶詞庫和查詢?nèi)罩居米智闆r分析 10 圖2 8 媒體字表累計覆蓋率 表2 3 媒體字表字頻前20的單字 字 字頻 累計字頻 Rank 覆蓋率 累計覆蓋率 的 31651968 31651968 1 3 19 3 19 一 11018129 42670097 2 1 11 4 30 在 9270997 51941094 3 0 93 5 24 是 8733942 60675036 4 0 88 6 12 了 7937207 68612243 5 0 80 6 92 人 7578071 76190314 6 0 76 7 68 中 7545770 83736084 7 0 76 8 44 有 7214779 90950863 8 0 73 9 17 國 7037836 97988699 9 0 71 9 88 不 6754475 104743174 10 0 68 10 56 大 6493734 111236908 11 0 65 11 22 上 5600572 116837480 12 0 56 11 78 年 5402142 122239622 13 0 54 12 33 為 5251844 127491466 14 0 53 12 86 這 4857114 132348580 15 0 49 13 35 個 4807773 137156353 16 0 48 13 83 和 4752130 141908483 17 0 48 14 31 會 4528968 146437451 18 0 46 14 77 時 4432377 150869828 19 0 45 15 21 到 4293029 155162857 20 0 43 15 65 第 2 章 輸入法用戶詞庫和查詢?nèi)罩居米智闆r分析 11 圖2 9 媒體字表Lg 字頻 關(guān)于Lg Rank 的曲線 圖2 10 媒體字表Rank Pr曲線 三組數(shù)據(jù)字頻覆蓋情況總結(jié)如表 2 4 三組數(shù)據(jù)的共同特點(diǎn)是高頻字使用集 中 用戶詞庫和查詢?nèi)罩倦m然總字?jǐn)?shù)很大 但是包含了大量非常用字 使用相 對更集中一些 用戶詞庫單字使用最為集中 少量的單字即可達(dá)到很高覆蓋率 第 2 章 輸入法用戶詞庫和查詢?nèi)罩居米智闆r分析 12 表2 4 累計覆蓋率所用字?jǐn)?shù)對比 覆蓋相應(yīng)覆蓋率所 用字?jǐn)?shù) 用戶詞庫 查詢?nèi)罩?媒體字表 50 87 188 181 80 431 658 604 90 808 1102 970 95 1231 1577 1372 99 2287 2842 2381 總字?jǐn)?shù) 19679 17715 9270 2 4 常用七千字在三個數(shù)據(jù)集中的分布情況 2 4 1 常用七千字在用戶詞庫中的分布 常用七千字中 有 6995 個在用戶詞庫中出現(xiàn) 未出現(xiàn)的常用字如下 轪 韨 饻 绤 鹝 5 個都是 3 級字 而且確實(shí)在日常生活中很少使用 比較 1 級字 2500 個與用戶詞庫中字頻前 2500 個單字 共有部分有 2138 個 字 非共有部分 362 個字 共有部分占 85 52 用戶詞庫獨(dú)有的 362 個字中 有很多語氣詞 比如呵 嘛 嗯 嘿 哎 咯 哦 哇等 還有一些方言用字 比如冇等 還有一些網(wǎng)絡(luò)流行字和 火星文 比如囧 伱 莪等 還有一些 侮辱性 淫穢的單字 常用字獨(dú)有的 362 個字中 比較多的是一些使用范圍較 窄 字意比較具體的字 比如壩 瓣 鞭等 比較 1 2 級字 3500 個與用戶詞庫前 3500 個單字 共有部分有 3048 個 非共有部分 452 個 共有部分占 87 09 用戶詞庫獨(dú)有部分的成分與 2500 個 字的情況基本一致 常用字獨(dú)有的 452 個字中 1 級字 56 個 2 級字 396 個 1 級字未覆蓋部分減少很多 比較 1 2 3 級字 7000 個與用戶詞庫前 7000 個單字 共有部分有 5821 個 非共有部分 1179 個 共有部分占 83 16 用戶詞庫獨(dú)有的 1179 個字中 語氣 詞大量減少 主要組成部分為 火星文 另外有一些繁體字和粗俗淫穢字意 的字 常用字的獨(dú)有部分中 2 級字只有兩個秕 蛉 其余都是 3 級字 可見 在前 7000 常用字的范圍內(nèi) 用戶詞庫和常用七千字的差別主要在于 3 級字 第 2 章 輸入法用戶詞庫和查詢?nèi)罩居米智闆r分析 13 2 4 2 常用七千字在查詢?nèi)罩局械姆植?常用七千字中 有 6995 個在查詢?nèi)罩局谐霈F(xiàn) 未出現(xiàn)的 5 個字如下 拚 伋 阘 饻 馌 5 個都是 3 級字 其中饻也未在用戶詞庫中出現(xiàn) 比較 1 級字 2500 個與查詢?nèi)罩局星?2500 個字 共有部分有 2038 個 非共 有部分 462 個 共有部分占 81 52 略低于用戶詞庫 查詢?nèi)罩镜莫?dú)有部分中 與用戶詞庫不同 多是有實(shí)際意義的字 可能是新興高頻字 比如倫 聊 婷 炫等 另外還有一些低俗下流字意的字 常用字獨(dú)有部分主要還是使用面較窄 的字 比較 1 2 級字 3500 個與查詢?nèi)罩厩?3500 個字 共有部分有 2883 個 非 共有部分 617 個 共有部分占 82 37 低于用戶詞庫 查詢?nèi)罩惊?dú)有部分情況 與前 2500 字相似 常用字獨(dú)有部分中 1 級字 154 個 2 級字 463 個 1 級字 比例相比用戶詞庫較大 比較 1 2 3 級字 7000 個與查詢?nèi)罩厩?7000 個字 共有部分有 5682 個 非共有部分 1318 個 共有部分占 81 17 低于用戶詞庫 查詢?nèi)罩镜莫?dú)有部 分中 與用戶詞庫類似 有較多低俗下流字意的字和 火星文 繁體字 常 用字獨(dú)有部分中 2 級字 11 個 秕 盹 踱 餒 譬 嘁 迄 秫 锨 舀 諄 其余都是 3 級字 與用戶詞庫類似 在前 7000 常用字的范圍內(nèi) 查詢?nèi)罩竞统S闷咔ё值牟?別主要在于 3 級字 與用戶詞庫相比 查詢?nèi)罩居捎谄涫褂媚康牡膬A向性 多 為有具體意義的查詢詞 因此與常用七千字的相關(guān)度低于用戶詞庫 2 4 3 常用七千字在媒體字表中的分布 常用七千字中 有 6803 個在查詢?nèi)罩局谐霈F(xiàn) 未出現(xiàn)的 197 個字全部為 3 級字 出現(xiàn)的常用字較少可能和媒體字表字?jǐn)?shù)較少只有 9270 個有關(guān) 比較 1 級字 2500 個與媒體字表中前 2500 個字 共有部分有 2156 個 非共 有部分 344 個 共有部分占 86 24 高于用戶詞庫和查詢?nèi)罩?媒體字表的獨(dú) 有部分中 與用戶詞庫不同 多是有實(shí)際意義的字 其中有不少是中外人名 地名的組成漢字 比如薩 諾 迪 菲 廖等 比較 1 2 級字 3500 個與媒體字表前 3500 個字 共有部分有 3103 個 非 共有部分 397 個 共有部分占 88 66 高于用戶詞庫和查詢?nèi)罩?媒體字表獨(dú) 第 2 章 輸入法用戶詞庫和查詢?nèi)罩居米智闆r分析 14 有部分情況與前 2500 字相似 常用字獨(dú)有部分中 1 級字 49 個 2 級字 348 個 1 級字比例相比用戶詞庫和查詢?nèi)罩据^小 比較 1 2 3 級字 7000 個與媒體字表前 7000 個字 共有部分有 6391 個 非共有部分 609 個 共有部分占 91 30 高于用戶詞庫和查詢?nèi)罩?媒體字表 的獨(dú)有部分中 有較多繁體字 常用字獨(dú)有部分中 都是 3 級字 媒體字表由于來源較正式 因此和常用七千字的相關(guān)程度較高 常用七千字在三個數(shù)據(jù)集中的分布情況總結(jié)對比如表 2 5 表2 5 常用七千字分布情況對比 各部分對應(yīng)共有部分字?jǐn)?shù) 用戶詞庫 查詢?nèi)罩?媒體字表 前 2500 2138 2038 2156 前 3500 3048 2883 3103 前 7000 5821 5682 6391 全部 6995 6995 6803 2 5 不同數(shù)據(jù)集之間單字分布比較 2 5 1 用戶詞庫與查詢?nèi)罩締巫址植急容^ 用戶詞庫與查詢?nèi)罩镜墓灿胁糠止灿?16694 個 可見大部分用字相同 共 有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 8214 共有部分在兩個數(shù)據(jù)集中 Rank 相差大的幾乎都是非常用字 在用戶詞庫的獨(dú)有部分中 主要包含各種繁體字 在查詢?nèi)罩镜莫?dú)有部分中 主要包含生僻字 比較兩個數(shù)據(jù)前 2500 個字 共有部分 2141 個 非共有部分 359 個 共有 部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 6593 用戶詞庫的獨(dú)有部分中 主要包含 語氣字和較口語化的字 以及少量網(wǎng)絡(luò)流行字等 查詢?nèi)罩镜莫?dú)有部分中 有 實(shí)際意義的字較多 還有不少低級下流字意的字 比較兩個數(shù)據(jù)前3500個字 共有部分有3038個 共有部分Rank的Spearman 相關(guān)系數(shù)為 0 7568 用戶詞庫獨(dú)有部分中 還是主要包含語氣字 網(wǎng)絡(luò)流行字 等 查詢?nèi)罩惊?dú)有部分中多為有實(shí)際意義的字 比較前 7000 個字 共有部分有 5782 個 共有部分 Rank 的 Spearman 相關(guān) 系數(shù)為 0 8763 用戶詞庫獨(dú)有部分中 主要是火星文和繁體字 查詢?nèi)罩惊?dú)有 部分中 主要是繁體字等 第 2 章 輸入法用戶詞庫和查詢?nèi)罩居米智闆r分析 15 比較兩組數(shù)據(jù)中覆蓋 80 字頻的集合 用戶詞庫 431 字 查詢?nèi)罩?658 字 共有部分 294 個字 用戶詞庫獨(dú)有部分 137 字 查詢?nèi)罩惊?dú)有部分 364 字 共 有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 1028 說明共有部分差異較大 與之前 類似 用戶詞庫獨(dú)有部分中包含較多口語化的字 比如語氣詞 比較覆蓋 90 字頻的集合 用戶詞庫 808 字 查詢?nèi)罩?1102 字 共有部分 628 字 用戶詞庫獨(dú)有部分 181 字 查詢?nèi)罩惊?dú)有部分 475 字 共有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 3300 共有部分差異較大 獨(dú)有部分的分布情況和 80 時類似 比較覆蓋 99 字頻的集合 用戶詞庫 2287 字 查詢?nèi)罩?2842 字 共有部 分 2095 字 用戶詞庫獨(dú)有部分 192 字 查詢?nèi)罩惊?dú)有部分 747 字 共有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 6305 相關(guān)性有所提高 獨(dú)有部分分布情況和 之前仍然類似 用戶詞庫中高頻字有較多網(wǎng)絡(luò)流行因素 語氣字 流行詞使用的字 火星 文等較多 查詢?nèi)罩局杏袑?shí)際字意 有助于查詢的字較多 兩者在高頻字段的 相關(guān)性不高 2 5 2 用戶詞庫與媒體字表比較 媒體字表與用戶詞庫共有部分 9215 字 占媒體字表絕大部分 說明大部分 用字相同 一些非常用字在兩者中的Rank相差較大 共有部分Rank的Spearman 相關(guān)系數(shù)為 0 9254 高于查詢?nèi)罩九c用戶詞庫 比較用戶詞庫前 2500 個字與媒體字表 共有部分有 2216 個 獨(dú)有部分 284 個 共有部分?jǐn)?shù)量高于查詢?nèi)罩九c用戶詞庫 共有部分 Rank 的 Spearman 相關(guān) 系數(shù)為 0 7882 高于用戶詞庫與查詢?nèi)罩厩?2500 的相關(guān)系數(shù) 用戶詞庫的獨(dú)有 部分中 與之前類似 主要是語氣字以及繁體字 火星文等 媒體字表的獨(dú)有 部分中的字相對比較有實(shí)際意義 比較兩者的前 3500 個字 共有部分有 3162 個 獨(dú)有部分 338 個 共有部 分?jǐn)?shù)量高于查詢?nèi)罩九c用戶詞庫 共有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 8437 高于用戶詞庫與查詢?nèi)罩厩?500的相關(guān)系數(shù) 獨(dú)有部分的組成與前2500 字比較中的情況類似 比較兩者的前 7000 個字 共有部分有 6013 個 獨(dú)有部分 987 個 共有部 分?jǐn)?shù)量高于查詢?nèi)罩九c用戶詞庫 共有部分 Rank 的 Spearman 相關(guān)系數(shù)為 第 2 章 輸入法用戶詞庫和查詢?nèi)罩居米智闆r分析 16 0 9156 高于用戶詞庫與查詢?nèi)罩厩?7000 的相關(guān)系數(shù) 獨(dú)有部分用戶詞庫主要 包含火星文等 媒體字表主要是非常用的生僻字 比較兩者的前 80 部分 用戶詞庫 431 字 媒體字表 604 字 共有部分有 343 個 用戶詞庫獨(dú)有部分 88 個 媒體字表獨(dú)有部分 261 個 共有部分?jǐn)?shù)量高 于查詢?nèi)罩九c用戶詞庫 共有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 4656 高于 用戶詞庫與查詢?nèi)罩镜南嚓P(guān)系數(shù) 但是共有部分差異仍然較大 比較兩者的前 90 部分 用戶詞庫 808 字 媒體字表 970 字 共有部分有 669 個 用戶詞庫獨(dú)有部分 139 個 媒體字表獨(dú)有部分 301 個 共有部分?jǐn)?shù)量 高于查詢?nèi)罩九c用戶詞庫 共有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 5644 高 于用戶詞庫與查詢?nèi)罩镜南嚓P(guān)系數(shù) 比較兩者的前 99 部分 用戶詞庫 2287 字 媒體字表 2381 字 共有部分 有 2039 個 用戶詞庫獨(dú)有部分 248 個 媒體字表獨(dú)有部分 342 個 共有部分?jǐn)?shù) 量略低于查詢?nèi)罩九c用戶詞庫 共有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 7787 高于用戶詞庫與查詢?nèi)罩镜南嚓P(guān)系數(shù) 由于媒體字表來源比較正式 相比用戶詞庫 有實(shí)際字意的字頻度較高 高頻字段兩者的相關(guān)性不高 相比用戶詞庫與查詢?nèi)罩镜南嚓P(guān)性要高 2 5 3 查詢?nèi)罩九c媒體字表比較 媒體字表與查詢?nèi)罩竟灿胁糠?8453 字 占媒體字表大部分 說明大部分用 字相同 一些非常用字在兩者中的 Rank 相差較大 共有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 9145 高于查詢?nèi)罩九c用戶詞庫 比較查詢?nèi)罩厩?2500 個字與媒體字表 共有部分有 2147 個 非共有部分 353 個 共有部分?jǐn)?shù)量略高于查詢?nèi)罩九c用戶詞庫 共有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 6579 略低于查詢?nèi)罩九c用戶詞庫前 2500 的相關(guān)系數(shù) 查詢?nèi)罩?的獨(dú)有部分中 與之前類似 包含一些低俗下流的字等 媒體字表的獨(dú)有部分 中的字相對比較有實(shí)際意義 比較兩者的前 3500 個字 共有部分有 3023 個 非共有部分 477 個 共有 部分?jǐn)?shù)量略低于查詢?nèi)罩九c用戶詞庫 共有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 7547 略低于查詢?nèi)罩九c用戶詞庫前 3500 的相關(guān)系數(shù) 非共有部分部分的組 成與前 2500 字比較中的情況類似 比較兩者的前 7000 個字 共有部分有 5781 個 非共有部分 1219 個 共有 第 2 章 輸入法用戶詞庫和查詢?nèi)罩居米智闆r分析 17 部分?jǐn)?shù)量略低于查詢?nèi)罩九c用戶詞庫 共有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 8760 略低于查詢?nèi)罩九c用戶詞庫前 7000 的相關(guān)系數(shù) 獨(dú)有部分查詢?nèi)罩局?要包含繁體字和臟話等 比較兩者的前 80 部分 查詢?nèi)罩?658 字 媒體字表 604 字 共有部分有 390 個 查詢?nèi)罩惊?dú)有部分 268 個 媒體字表獨(dú)有部分 214 個 共有部分?jǐn)?shù)量 高于查詢?nèi)罩九c用戶詞庫 共有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 3129 高 于查詢?nèi)罩九c用戶詞庫的相關(guān)系數(shù) 但是共有部分差異仍然較大 比較兩者的前 90 部分 查詢?nèi)罩?1102 字 媒體字表 970 字 共有部分有 751 個 查詢?nèi)罩惊?dú)有部分 351 個 媒體字表獨(dú)有部分 219 個 共有部分?jǐn)?shù)量 高于查詢?nèi)罩九c用戶詞庫 共有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 4160 高 于查詢?nèi)罩九c用戶詞庫的相關(guān)系數(shù) 但是共有部分差異仍然較大 比較兩者的前 99 部分 查詢?nèi)罩?2842 字 媒體字表 2381 字 共有部分 有 2177 個 查詢?nèi)罩惊?dú)有部分 665 個 媒體字表獨(dú)有部分 204 個 共有部分?jǐn)?shù) 量高于查詢?nèi)罩九c用戶詞庫 共有部分 Rank 的 Spearman 相關(guān)系數(shù)為 0 6561 高于查詢?nèi)罩九c用戶詞庫的相關(guān)系數(shù) 查詢?nèi)罩九c媒體字表的相關(guān)程度也不高 比用戶詞庫與媒體字表的相關(guān)程 度要低 將三個數(shù)據(jù)集比較的結(jié)果整理如表 2 6 表2 6 三個數(shù)據(jù)集比較結(jié)果整理 共有部分字?jǐn)?shù)和相關(guān) 系數(shù) 用戶詞庫與查詢?nèi)?志 用戶詞庫與媒體字 表 查詢?nèi)罩九c媒體字 表 前 80 294 0 1028 343 0 4656 390 0 3129 前 90 628 0 3300 669 0 5644 751 0 4160 前 99 2095 0 6305 2039 0 7787 2177 0 6561 前 2500 2141 0 6593 2216 0 7882 2147 0 6579 前 3500 3038 0 7568 3162 0 8437 3023 0 7547 前 7000 5782 0 8763 6013 0 9156 5781 0 8760 全部 16694 0 8214 9215 0 9254 8453 0 9145 2 6 小結(jié) 輸入法用戶詞庫可以看成中文用戶在電腦中使用語言的較直接體現(xiàn) 用字 第 2 章 輸入法用戶詞庫和查詢?nèi)罩居米智闆r分析 18 比較生活化口語化 差別最大的就是語氣字的詞頻往往遠(yuǎn)高于其他數(shù)據(jù) 一些 在網(wǎng)絡(luò)流行的新詞包含的字在輸入法中的字頻也較高 用戶詞庫與七千常用字 的相關(guān)程度要高于查詢?nèi)罩?查詢?nèi)罩居涗洸樵冊~ 用字也是查詢詞的組成部分 虛詞部分較少 有實(shí) 際意義字的字頻要高于其他數(shù)據(jù) 查詢?nèi)罩九c其他數(shù)據(jù)的相關(guān)程度也較差 媒體字表主要是書面語構(gòu)成 書面語尤其是新聞報道常用字的頻度較高 與前兩者的相關(guān)程度幾乎相當(dāng) 第 3 章 輸入法用戶詞庫和查詢?nèi)罩居迷~情況分析 19 第3章 輸入法用戶詞庫和查詢?nèi)罩居迷~情況分析 3 1 實(shí)驗(yàn)概述 本章通過搜狗輸入法用戶詞庫數(shù)據(jù) 搜索引擎查詢?nèi)罩竞推渌F(xiàn)有數(shù)據(jù) 對輸入法用戶使用詞的語言狀況進(jìn)行統(tǒng)計分析 3 2 數(shù)據(jù)說明 3 2 1 輸入法用戶詞庫 本實(shí)驗(yàn)使用的是搜狗輸入法 2010 年 3 月 15 日的用戶詞庫數(shù)據(jù) 該數(shù)據(jù)統(tǒng) 計了所有注冊用戶使用的詞條的用戶數(shù)和詞頻 和第二章使用數(shù)據(jù)類似 該詞 庫將用戶輸入的上屏詞條整體作為一個詞條保存 保存的詞條不一定是語言學(xué) 意義上的詞 用戶詞庫記錄了詞條長度不超過 7 的詞條 2010 年 3 月 15 日的數(shù)據(jù)共 111659347 個詞條 總詞頻 327029776076 平均詞頻 2928 817 用戶數(shù)達(dá)到百 萬級 3 2 2 搜索引擎查詢?nèi)罩?本實(shí)驗(yàn)使用的查詢?nèi)罩臼撬压匪阉饕娴娜罩緮?shù)據(jù) 每日統(tǒng)計在搜狗搜索 引擎上的查詢詞和查詢次數(shù) 日志數(shù)據(jù)中只保留了 2 字詞至 7 字詞 對英文 數(shù)字等非漢字字符進(jìn)行了全角化處理 查詢?nèi)罩居涗浟?2009 年全年的查詢情 況 有詞條 81970629 個 總詞頻 1766113757 3 2 3 其他數(shù)據(jù) 本實(shí)驗(yàn)還使用了普通話常用三千詞詞表 8 包括 3815 個詞 該詞表發(fā)表 于 1992 年 可視為傳統(tǒng)漢語常用詞 可以用來與用戶詞庫等較新數(shù)據(jù)對比 該 詞條包含 1009 個單字 2571 個雙字詞 204 個三字詞 26 個四字詞 3 個五字 詞 2 個七字詞 該詞表沒有詞頻信息 第 3 章 輸入法用戶詞庫和查詢?nèi)罩居迷~情況分析 20 3 3 輸入法用戶詞庫用詞情況分析 3 3 1 總體情況 用戶詞庫詞頻前 20 的詞條如表 3 1 表3 1 輸入法用戶詞庫詞頻前20的詞條 詞條 詞頻 用戶數(shù) Rank 啊 3990088189 3578525 1 了 3848708636 7437262 2 就 2940184432 4862211 3 在 2564723683 5028618 4 好 2474029080 4981193 5 的 2414096285 5279846 6 我 2382157145 5038798 7 有 2361758812 4993551 8 呵呵 2234793465 4683200 9 沒 2225026282 4937635 10 吧 2168180403 4866926 11 去 2075258235 4857055 12 要 1974892907 4877510 13 都 1964884870 5648914 14 那 1934999163 5344280 15 什么 1773690404 5271040 16 恩 1762991445 4409577 17 說 1737688923 5107365 18 呢 1701677361 5851196 19 也 1694687752 4835222 20 將用戶詞庫的詞條按詞頻排序并計算累計覆蓋率 前 32000 個詞條的累計 覆蓋率曲線如圖 3 1 覆蓋總詞頻百分比所需要的詞條數(shù)和詞條數(shù)所占比例如表 3 2 可見輸入法用戶用詞相當(dāng)集中 不到 1 的詞條就可以覆蓋絕大多數(shù)詞頻 圖 3 2 是用戶詞庫 Log 詞頻 關(guān)于 Log Rank 的曲線 線性相關(guān)系數(shù) r 0 9998 Log 詞頻 與 Log Rank 負(fù)線性相關(guān) 符合 Zipf 定律 第 3 章 輸入法用戶詞庫和查詢?nèi)罩居迷~情況分析 21 表3 2 累計覆蓋率與所需詞條數(shù) 累計覆蓋率 所需詞條數(shù) 詞條數(shù)百分比 50 523 0 0005 60 1284 0 0011 70 3532 0 0032 80 12634 0 0113 90 93670 0 0839 95 600340 0 5377 圖3 1 用戶詞庫累計覆蓋率曲線 圖3 2 用戶詞庫Log 詞頻 關(guān)于Log Rank 的曲線 第 3 章 輸入法用戶詞庫和查詢?nèi)罩居迷~情況分析 22 表 3 3 給出了 2010 年 3 月 15 日的用戶詞庫按不同詞長統(tǒng)計的分布情況 其中單字有 2 萬多個 遠(yuǎn)遠(yuǎn)超出常用漢字個數(shù) 常用漢字大約 2000 7000 個 這是因?yàn)橛脩粼~庫中的詞條并不標(biāo)準(zhǔn) 包含大量繁體字 異體字等 表3 3 2010 3 15用戶詞庫長短詞分布 詞長 詞條數(shù) 總詞頻 1 25775 129393411999 2 4061157 146987428400 3 26841194 34609501910 4 41409430 12332722427 5 24144590 2688079719 6 11761215 820903823 7 3415986 197727798 圖 3 3 是詞條數(shù)與詞條長度的關(guān)系圖 從圖中可以看出 單字詞條數(shù)最少 因?yàn)橹皇菃巫謧€數(shù) 隨著詞條長度上升 單字的組合增多 詞條數(shù)也相應(yīng)增多 但是不同組合能成為詞的概率也減少 3 字時詞條數(shù)增長迅速 在詞條長度為 4 時達(dá)到峰值 詞條長度大于 4 時詞條總數(shù)開始下降 圖3 3 用戶詞庫詞條數(shù)關(guān)于詞條長度的分布 圖 3 4 是詞頻與詞條長度的關(guān)系圖 雙字詞詞頻最高 單字其次 單字詞 和雙字詞的詞頻遠(yuǎn)大于多字詞 第 3 章 輸入法用戶詞庫和查詢?nèi)罩居迷~情況分析 23 圖3 4 用戶詞庫詞頻關(guān)于詞條長度的分布 圖 3 5 是評價詞頻與詞長的關(guān)系圖 單字的平均輸入頻度遠(yuǎn)遠(yuǎn)大于雙字詞 和多字詞 雙字詞和多字詞的平均輸入頻度幾乎不可視 圖3 5 用戶詞庫平均詞條輸入頻度關(guān)于詞條長度的分布 以上數(shù)據(jù)表明 輸入法用戶在輸入時更偏向于每次輸入較短詞條而不是多 字的詞條 尤其以單字 雙字詞為主 這可能因?yàn)檩斎霑r以詞為單位的語
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 出血熱知識培訓(xùn)課件
- 2025年教育創(chuàng)新:《習(xí)作他了》課件的突破
- 2025年教案創(chuàng)新:《認(rèn)識自己》的深度解讀
- DB31∕T 704-2013 南美白對蝦親蝦培育技術(shù)規(guī)范
- 物流系統(tǒng)分析 課件 項目九-任務(wù)二 簡單運(yùn)輸決策優(yōu)化模型和方法
- 企業(yè)安全生產(chǎn)規(guī)章制度、安全紀(jì)律
- 企業(yè)與員工勞動合同
- 數(shù)據(jù)備份方案比較表
- 2025年浙江道路運(yùn)輸從業(yè)資格證考試
- 微信代運(yùn)營服務(wù)合同書
- 中國干眼臨床診療專家共識(2024年)解讀
- 建筑行業(yè)材料供應(yīng)應(yīng)急預(yù)案
- 電焊工安全培訓(xùn)(超詳)課件
- 機(jī)械加工企業(yè)安全生產(chǎn)應(yīng)急預(yù)案(6篇)
- GB/T 23025-2024信息化和工業(yè)化融合管理體系生產(chǎn)設(shè)備運(yùn)行管控信息模型分類與應(yīng)用指南
- 2025年上半年安徽合肥高新區(qū)管委會招聘工作人員筆試重點(diǎn)基礎(chǔ)提升(共500題)附帶答案詳解
- 學(xué)校食堂廚師崗位職責(zé)
- 職業(yè)生涯規(guī)劃的步驟與方法課件
- 2024解析:第十五章電流和電路-講核心(解析版)
- 米勒黑曼策略銷售培訓(xùn)
- 2024年下半年東方電氣長三角(杭州)創(chuàng)新研究院限公司第二批招聘易考易錯模擬試題(共500題)試卷后附參考答案
評論
0/150
提交評論