



全文預覽已結束
下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
用用 Python 進行自然語言處理 三 進行自然語言處理 三 2014 7 30 2 2 條件分布概率條件分布概率 在教程 一 中介紹了頻率分布 給定某個詞匯或其他項目的鏈表變量 mylist FreqDist mylist 會計算鏈表中每個項目出現的次數 而條件頻率分布是頻率分布的集 合 每個頻率分布有一個不同的 條件 這個條件通常是文本的類別 在上一節(jié)中 我們使用 NLTK 的 ConditionalFreqDist 數據類型實現的 FreqDist 是以 一個簡單的鏈表作為輸入 ConditionalFreqDist 是以一個配對的鏈表作為輸入 上面的例子只看兩個文體 新聞和言情 對于每個文體 遍歷文體中的每個詞以產生 文體與詞的配對 通過 genre word 顯示出來 使用此配對鏈表創(chuàng)建一個 ConditionalFreqDist 并將它保存在一個變量 cfd 中 通過 cfd 來訪問這兩個條件 每一個 都只是一個頻率分布 使用雙連詞生成隨機文本使用雙連詞生成隨機文本 可以使用條件頻率分布創(chuàng)建一個雙連詞表 bigrams 函數接受一個詞匯鏈表 并建 立一個連續(xù)的詞對鏈表 2 3 使用文本編輯器創(chuàng)建程序使用文本編輯器創(chuàng)建程序 在 Python 交互式解釋器中輸入一條命令就執(zhí)行 如果要組織多條程序 然后一次運行 可以使用文本編輯器執(zhí)行 通過 文件 菜單打開一個新的窗口 或者使用快捷鍵 Ctrl N 使用 py 后綴名保存文件 函數函數 Python 語言的函數同其他語言一樣 參數 返回值 局部變量等 模塊模塊 隨著你創(chuàng)建自定義的函數越多越多 有以下代碼可以重復使用 定義過的函數不必重 新復制 可以將它們收集在一個單獨的地方 形成一個函數模塊 使用的時候導入即可 From python py 模塊名 import function 函數名 2 4 詞典資源詞典資源 詞典或詞典資源是一個詞和或短語以及一些相關信息的幾個 如詞性和詞意定義等相 關信息 復雜的詞典資源包括字詞匯項內和跨詞項的復雜的結構 看一下 NLTK 中的一些 詞匯資源 詞匯列表語料庫詞匯列表語料庫 NLTK 包括一些僅僅包含詞匯列表的語料庫 被一些拼寫檢查程序使用 可以用它來尋 找文本預料中不尋常的或拼寫錯誤的詞匯 還有一些停用詞語料庫 就是那些高頻詞匯 停用詞通常沒設么詞匯內容 反而會使區(qū)分文本變得困難 另一個詞匯列表是名字語料庫 下面的例子找出同時出現在兩個文件中的名字即性別 曖昧的名字 如下圖所示 此圖顯示男性和女性名字的結尾字母 大多數以 a e 或 i 結尾的名字是女 性 以 h 和 l 結尾的男性和女性同樣多 以 K o r s 和 t 結尾的更可能是男性 發(fā)音的詞典發(fā)音的詞典 比較詞匯比較詞匯 表格詞典的另一個例子是比較詞表 NLTK 中包含了所謂的斯瓦迪士核心詞列表 通過 在 entries 方法中指定一個語言鏈表來訪問多語言中的同源詞 更進一步 我們可以用 函數 dict 把它轉換成一個簡單的詞典 通過添加其他源語言 我們可以讓我們這個簡單的翻譯器更為有用 讓我們使用 dict 函數把德語 英語和西班牙語 英語對相互轉換成一個詞典 然后用這些添加的映射更新 我們原來的翻譯詞典 詞匯工具 詞匯工具 Toolbox 和和 Shoebox 一個 Toolbox 文件由一個大量條目的幾個組成 其中每個條目由一個或多個字段組成 大多數字段都是可選的或重復的 這意味著這個詞匯資源不能作為一個表格或電子表格來 處理 2 5 WordNet WordNet 是面向語義的英語詞典 類似于傳統(tǒng)詞典 但具有更豐富的結構 NLTK 中包 括英語 WordNet 意義與同義詞意義與同義詞 WordNe 的層次結構的層次結構 WordNet 的同義詞集對應于抽象的概念 它們并不總是有對應的英語詞匯 這些概念 在層次結構中相互聯(lián)系在一起 一些概念也很一般 如實體 狀態(tài) 事件 這些被稱為獨 一無二的根同義詞集 WordNet 概念層次片段 每個階段對應一
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 物料分揀試題及答案
- 中醫(yī)肺癌試題及答案
- java楊輝三角是面試題及答案
- 加多寶管培生面試題及答案
- 超聲影像考試題及答案
- 門診實操考試題及答案
- 民生銀行上海面試題及答案
- 電梯遇險急救課件
- 校園動物行為觀察與研究項目培養(yǎng)
- 共同出資協(xié)議書模板
- 2024-2025年材料員考試題庫含答案【典型題】
- 兒童服務培訓課件模板
- 上海市楊浦區(qū)2024-2025學年七年級(下)期末語文試題(含答案)
- 創(chuàng)業(yè)設計裝修公司路演提案
- 2025年云南省公務員考試(行測)真題試卷(含答案)
- 數字化經濟本地化路徑-洞察及研究
- 2025至2030中國海洋功能性食品行業(yè)產業(yè)運行態(tài)勢及投資規(guī)劃深度研究報告
- 三位數顯示計時器定時器數電課程設計報告書
- 凹凸棒石(千土之王、萬用之土)
- 大氣污染控制工程課程設計_某工廠布袋除塵器的設計
- 張家界船舶工業(yè)項目建議書【模板范本】
評論
0/150
提交評論