版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
文本建模的基本概念文本建模概念文本建模的深入理解文本建模概念/01文本建模概念文本挖掘的主要方法與數據挖掘的方法是一致的,其區(qū)別在于文本挖掘的過程中,需要預先將文本類型數據轉化為結構化的數據類型數據。
對文本內容進行分析是一件非常困難的事情,其主要原因是文本數據本質上是非結構化的數據,所有的數據分析技術只是對結構化的數據才能實踐操作。
因此,若對文本內容進行分析必須將文本信息轉化為數值信息,這個過程就叫作文本建模。文本建模的深入理解/02
文本建模的本質
文本建模和對現(xiàn)實世界中其他事物進行建模的原理在本質上是一樣的,即用模型來代表關心的事物對象。
文本建模操作
在進行文本建模時,采用任何統(tǒng)計模型都不可能涵蓋文本內容全部的含義。因此,文本建模的工作必須有所側重。
構建的模型應當反映數據分析者真正關心的信息。在進行文本建模之前首先要理解文本分析的需求,理解任務需求就是要確定用戶感興趣的內容,從而找到能夠準確描述相關信息的建模方法。
文本建模操作
在文本中通常需要分析兩類信息:一類是語義信息,一類是語法信息。語義信息通常對應文本表述的概念實體,而語法對應語言組織結構方面的內容。對文本進行分析的根本目的是研究語義信息。
右圖:文本分析的信息原理
文本建模操作
文本對象具有層次關系的,因此文本建模也是有層次關系的,即在字、詞匯、句子、文檔、語料庫層次都可以構建語言模型。底層結構的文本要素可以構成更高層次的要素,在文本要素的組織過程中,底層文本要素之間構成位置關系,這些元素的位置關系可以被觀察到,并有效應用于文本建模過程。文本建模方法文本建??蛇x擇的方法很多,為了便于解釋說明,這里將其分為語言學建模方法和統(tǒng)計學建模方法。文本建模方法語言學建模方法統(tǒng)計學建模方法文本建模方法語言學建模方法更加依賴語言學領域的專業(yè)知識經驗,而統(tǒng)計學建模方法更加依賴統(tǒng)計模型和
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度虛擬現(xiàn)實設備研發(fā)與委托生產合同
- 2024年度機械設備買賣合同樣本
- 2024年度人力資源外包與招聘服務協(xié)議
- 2024年度物流園區(qū)建設與運營合同
- 2024年員工保密協(xié)議模板
- 2024年度自建房施工合同終止合同
- 2024年工程預付款資金監(jiān)管協(xié)議
- 2024出版社與作者之間的出版合同
- 2024年度企業(yè)文化建設合作協(xié)議
- 2024年建筑企業(yè)與監(jiān)理單位服務協(xié)議
- 中國女性生理健康白皮書
- 天然氣巡檢記錄表
- 甲苯磺酸瑞馬唑侖臨床應用
- 民法典講座-繼承篇
- 外包施工單位入廠安全培訓(通用)
- 糖尿病健康知識宣教課件
- 客戶接觸點管理課件
- Python語言學習通超星課后章節(jié)答案期末考試題庫2023年
- 醫(yī)學-心臟驟停急救培訓-心臟驟停急救教學課件
- 高中英語-Book 1 Unit 4 Click for a friend教學課件設計
- 年產30萬噸碳酸鈣粉建設項目可行性研究報告
評論
0/150
提交評論