




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
文本分類給定分類體系,將文本分到某個或者某幾個類別中。分類體系一般人工構(gòu)造政治、體育、軍事中美關(guān)系、恐怖事件這里講的分類主要基于內(nèi)容其他分類:文體、態(tài)度、風(fēng)格……人工方法費時費力費錢難以保證一致性專家有時候憑空想象自動方法快速一致性好來源于真實文本,可信度高自動文本分類的核心問題文本分類與其它分類一樣,其方法可以歸結(jié)為根據(jù)待分類數(shù)據(jù)的某些特征來進行匹配當(dāng)然完全的匹配不太可能必須根據(jù)某種評價標(biāo)準(zhǔn)選擇最優(yōu)的匹配結(jié)果核心問題用哪些特征表示文本才能準(zhǔn)確、快速地分類對特征的選擇主導(dǎo)了不同的文本分分類方法流派詞匹配法、知識工程方法、統(tǒng)計學(xué)習(xí)法詞匹配法詞匹配法是最早被提出的分類算法該方法僅根據(jù)文檔中是否出現(xiàn)了與類名相同的詞來判斷文檔是否屬于某個類別至多再加入同義詞的處理很顯然,這種過于簡單機械的方法無法帶來良好的分類效果。知識工程方法的缺陷分類的質(zhì)量嚴(yán)重依賴于這些規(guī)則的好壞,也就是依賴于制定規(guī)則的“人”的好壞制定規(guī)則的人都是專家級別,人力成本大幅上升常常令人難以承受而知識工程最致命的弱點是完全不具備可推廣性一個針對金融領(lǐng)域構(gòu)建的分類系統(tǒng),如果要擴充到醫(yī)療或社會保險等相關(guān)領(lǐng)域,則除了完全推倒重來以外沒有其他辦法,常常造成巨大的知識和資金浪費。統(tǒng)計學(xué)習(xí)法后來人們意識到,究竟依據(jù)什么特征來判斷文本應(yīng)當(dāng)隸屬的類別這個問題,就連人類自己都不太回答得清楚有太多所謂“只可意會,不能言傳”的東西在里面人類的判斷大多依據(jù)經(jīng)驗以及直覺因此自然而然的會有人想到何讓機器像人類一樣自己來通過對大量同類文檔的觀察來自己總結(jié)經(jīng)驗,作為今后分類的依據(jù)。這便是統(tǒng)計學(xué)習(xí)方法的基本思想統(tǒng)計學(xué)習(xí)法需要一批由人工進行了準(zhǔn)確分類的文檔作為學(xué)習(xí)的材料(稱為訓(xùn)練集)注意由人分類一批文檔比從這些文檔中總結(jié)出準(zhǔn)確的規(guī)則成本要低得多計算機從這些文檔中挖掘出一些能夠有效分類的規(guī)則這個過程被形象的稱為訓(xùn)練而總結(jié)出的規(guī)則集合常常被稱為分類器訓(xùn)練完成后,用分類器對計算機從來沒有見過的文檔進行分類現(xiàn)如今,統(tǒng)計學(xué)習(xí)方法已經(jīng)成為了文本分類領(lǐng)域絕對的主流主要的原因在于其中的很多技術(shù)擁有堅實的理論基礎(chǔ),存在明確的評價標(biāo)準(zhǔn),以及實際表現(xiàn)良好相比之下,知識工程方法中專家的主觀因素居多文本分類的過程文本表示訓(xùn)練過程分類過程訓(xùn)練文本統(tǒng)計統(tǒng)計量特征表示學(xué)習(xí)分類器新文本特征表示類別Rocchio核心向量法Rocchio是一種傳統(tǒng)的分類方法該方法為每一類別都構(gòu)造一個核心向量該核心向量是通過求這個訓(xùn)練集合的正負(fù)反饋的特征項權(quán)重(FeatureWeight)的平均值在分類中,比較測試文本的向量和核心向量的相似度。Rocchio核心向量法訓(xùn)練文本Rocchio分類+
政治-
軍事*
體育K-NearestNeighbor給定一組分完類的訓(xùn)練文本,在此基礎(chǔ)上對一個未知文本進行分類。當(dāng)指定K的個數(shù)時,計算每一個訓(xùn)練文本與測試文本的相似度,從其中取K個相似度最大的文本。對這K的文本的類別進行統(tǒng)計,若第i個類別的文本數(shù)目最多,則認(rèn)為測試文本屬于第i類。K-NearestNeighbor訓(xùn)練文本待分類文
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 汽車投標(biāo)合同范本
- 除雪灑布車行業(yè)行業(yè)發(fā)展趨勢及投資戰(zhàn)略研究分析報告
- 2025年中國生菜種植行業(yè)發(fā)展趨勢預(yù)測及投資戰(zhàn)略咨詢報告
- 2025年度二手建筑機械買賣合同模板
- 《綠豆苗的生長》(教學(xué)設(shè)計)2023-2024學(xué)年五年級下冊科學(xué)教科版
- 上海市某果蔬復(fù)配產(chǎn)品生產(chǎn)項目申請報告
- Unit 3 The Internet Listening and Talking 教學(xué)設(shè)計-2024-2025學(xué)年高中英語人教版(2019)必修第二冊
- 塔機司機室行業(yè)深度研究報告
- 2025年度高效生態(tài)菜園大棚承包經(jīng)營協(xié)議
- 2025年度魚池場地租賃及漁業(yè)廢棄物處理合同
- 四川省眉山市眉山中學(xué)2024-2025學(xué)年高二上學(xué)期11月期中考試試題2
- 2025年蘇州農(nóng)業(yè)職業(yè)技術(shù)學(xué)院高職單招高職單招英語2016-2024歷年頻考點試題含答案解析
- 公共服務(wù)均等化研究-第2篇-深度研究
- 短視頻居間代理合同范本
- 二零二五年度港口碼頭安全承包服務(wù)協(xié)議4篇
- 2024年蘇州衛(wèi)生職業(yè)技術(shù)學(xué)院高職單招語文歷年參考題庫含答案解析
- 《歡樂運動會:1 我為班級出把力》說課稿-2024-2025學(xué)年四年級上冊綜合實踐活動滬科黔科版
- 2024年南京機電職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫標(biāo)準(zhǔn)卷
- 2025年中智集團及下屬單位招聘筆試參考題庫含答案解析
- 廣東2025年高中化學(xué)學(xué)業(yè)水平考試模擬試卷試題(含答案詳解)
- 2024年中國牛排2市場調(diào)查研究報告
評論
0/150
提交評論