

下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、什么是查準(zhǔn)率和查全率 ( precision and recall ) GooSeeker什么是查準(zhǔn)率和查全率( precision and recall )查準(zhǔn)率( Precision )和查全率( recall )應(yīng)用在信息處理領(lǐng)域的多個(gè)子領(lǐng)域。信息檢索定義查準(zhǔn)率和查全率用來(lái)衡量搜索引擎的性能查全率=(檢索出的相關(guān)信息量 /系統(tǒng)中的相關(guān)信息總量) *100%查準(zhǔn)率=(檢索出的相關(guān)信息量/檢索出的信息總量)*100%查全率是衡量檢索系統(tǒng)和檢索者檢出相關(guān)信息的能力,查準(zhǔn)率是衡量檢索系統(tǒng)和檢索者拒絕非相關(guān)信息的能力。實(shí)驗(yàn)證明,在查全率和查準(zhǔn)率之間存在著相反的相互依賴關(guān)系-如果提高輸出的查全率,
2、就會(huì)降低其查準(zhǔn)率, 反之亦然。 局限性查全率的局限性主要表現(xiàn)在:查全率是檢索出的相關(guān)信息量與存儲(chǔ)在檢索系統(tǒng)中的全部相關(guān)信息量之比,但系統(tǒng)中相關(guān)信息量究竟有多少一般是不確知的,只能估計(jì);另外,查全 率或多或少具有“假設(shè)”的局限性,這種“假設(shè)”是指檢索出的相 關(guān)信息對(duì)用戶具有同等價(jià)值,但實(shí)際并非如此,對(duì)于用戶來(lái) 說(shuō),信息的相關(guān)程度在某種意義上比它的數(shù)量重要得多。 查準(zhǔn)率的局限性主要表現(xiàn)在:如果檢索結(jié)果是題錄式而非全 文式,由于題錄的內(nèi)容簡(jiǎn)單,用戶很難判斷檢索到的信息是 否與課題密切相關(guān),必須找到該題錄的全文,才能正確判斷 出該信息是否符合檢索課題的需要;同時(shí),查準(zhǔn)率中所講的 相關(guān)信息也具有“假設(shè)”
3、的局限性。信息提取 查全率和查準(zhǔn)率還可以應(yīng)用到信息提取子領(lǐng)域,用于衡量信 息提取器的性能。查全率( Recall )是測(cè)量被正確提取的信息的比例,而查準(zhǔn) 率( Precision )用來(lái)測(cè)量提取出的信息中有多少是正確的。 計(jì)算公式如下( P 是查準(zhǔn)率, R 是查全率): 查準(zhǔn)率 = 提取出的正確信息條數(shù) / 提取出的信息 條數(shù) 查全率 = 提取出的正確信息條數(shù) / 樣本中的信息條數(shù) 兩者取值在 0 和 1 之間,數(shù)值越接近 1 ,查全率或查準(zhǔn)率就 越高。除此兩指標(biāo)以外,還有 F 值評(píng)價(jià)方法,是查全率和查準(zhǔn)率的 加權(quán)幾何平均值:F = (bA2 + 1) * PR / bA2P + R 其中:b
4、 是一個(gè)預(yù)設(shè)值,是 P和 R 的相對(duì)權(quán)重,b 大于 1 時(shí) 表示 P 更重要, b 小于 1時(shí)表示 R 更重要。通常設(shè)定為 1 , 表示二者同等重要。這樣用 F 一個(gè)數(shù)值就可看出系統(tǒng)的好壞, F 值也是越接近 1 越好。文本分類 在文本分類領(lǐng)域,查準(zhǔn)率和查全率還可以用來(lái)衡量文本分類 器的性能。例如,在觀點(diǎn)挖掘( opinion mining )領(lǐng)域,衡量 分類器識(shí)別出正面觀點(diǎn)( positive opinion )的性能:查準(zhǔn)率 = 識(shí)別出的真正的正面觀點(diǎn)數(shù) / 所有的識(shí) 別為正面觀點(diǎn)的條數(shù)查全率 = 識(shí)別出的真正的正面觀點(diǎn)數(shù) / 樣本中所有的真正 正面觀點(diǎn)的條數(shù) 詳細(xì)解釋可以參看維基百科條目
5、:In a statistical classification task, the Precision for a class is thenumber of true positives (i.e. the number of items correctly labeledas belonging to the positive class) divided by the total number ofelements labeled as belonging to the positive class (i.e. the sum oftrue positives and false po
6、sitives, which are items incorrectlylabeled as belonging to the class). Recall in this context is definedas the number of true positives divided by the total number ofelements that actually belong to the positive class (i.e. the sum oftrue positives and false negatives, which are items which were no
7、tlabeled as belonging to the positive class but should have been).In a classification task, a Precision score of 1.0 for a class C meansthat every item labeled as belonging to class C does indeed belongto class C (but says nothing about the number of items from classC that were not labeled correctly
8、) whereas a Recall of 1.0 meansthat every item from class C was labeled as belonging to class C(but says nothing about how many other items were incorrectlyalso labeled as belonging to class C). 在觀點(diǎn)挖掘領(lǐng)域還有一個(gè)有趣的應(yīng)用(參看 Bing Liu, Sentiment Analysis and Subjectivity )One of the bottlenecks in applying sup
9、ervised learning is themanual effort involved in annotating a large number of trainingexamples. To save the manual labeling effort, a bootstrappingapproach to label training data automatically is reported in 80, 81.The algorithm works by first using two high precision classifiers(HP-Subj and HP-Obj)
10、 to automatically identify some subjectiveand objective sentences. The high-precision classifiers use lists oflexical items (single words or n-grams) that are good subjectivityclues. HP-Subj classifies a sentence as subjective if it contains twoor more strong subjective clues. HPObj classifies a sentence asobjective if there are no strongly subjective clues. These classifierswill give very high precision but low recall. The extracted sentencesare then added to the training data to learn patterns. The patterns(which form the subjectivity classifiers in the next iterat
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 西藏清代糧倉(cāng)管理辦法
- 自貢養(yǎng)殖大棚管理辦法
- 逆向思維訓(xùn)練培訓(xùn)課件
- 肝膽微課護(hù)理課件
- 肝病護(hù)理課件
- 甘肅高考模擬數(shù)學(xué)試卷
- 肝病中醫(yī)護(hù)理課件
- 福建省泉州初三數(shù)學(xué)試卷
- 東營(yíng)三模數(shù)學(xué)試卷
- 課件制作的培訓(xùn)總結(jié)
- 浙江杭州市2024-2025學(xué)年高一下學(xué)期6月期末考試英語(yǔ)試題及答案
- 喘息性支氣管肺炎的護(hù)理查房
- 新型電極材料成本控制-洞察及研究
- 2025年初中數(shù)學(xué)知識(shí)點(diǎn)測(cè)試題及答案
- 小學(xué)生集體活動(dòng)安全課件
- 2025-2030年中國(guó)高爾夫產(chǎn)品行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 山東威海經(jīng)發(fā)投資控股集團(tuán)有限公司及下屬子公司招聘筆試題庫(kù)2025
- 新能源汽車充電樁建設(shè)方案及流程
- 2025-2030年中國(guó)人乳寡糖(HMO)行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 動(dòng)火工作方案
- 成都市2022級(jí)(2025屆)高中畢業(yè)班摸底測(cè)試(零診)數(shù)學(xué)試卷(含答案)
評(píng)論
0/150
提交評(píng)論