




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、1carrot2聚類工具簡介 2009.04.16 2contentsncarrot2體系結(jié)構(gòu)ncarrot2聚類算法qlingo & stcncarrot2 applicationsqwebapp & workbench & dcsncarrot2 source code下載與配置、運(yùn)行ncarrot2 core、attributen可用資源3carrot2簡介ncarrot2 is an open source search results clustering engine 。nauthor:dawid weiss &stanislaw osinski n
2、 波蘭人,波茲南大學(xué)n 研究方向:text clustering, information retrieval, web mining, computational linguistics and software engineering 4carrot2體系結(jié)構(gòu)ncarrot2是一個(gè)開源的基于搜索結(jié)果的聚類引擎 5lucene索引結(jié)果nlucene索引index由若干段(segment)組成,每一段由若干的文檔(document)組成,每一個(gè)文檔由若干的域(field)組成,每一個(gè)域由若干的項(xiàng)(term)組成。項(xiàng)是最小的索引概念單位,它直接代表了一個(gè)字符串以及其在文件中的位置、出現(xiàn)次數(shù)等信息
3、。域是一個(gè)關(guān)聯(lián)的元組,由一個(gè)域名和一個(gè)域值組成,域名是一個(gè)字串,域值是一個(gè)項(xiàng),比如將“標(biāo)題”和實(shí)際標(biāo)題的項(xiàng)組成的域。文檔是提取了某個(gè)文件中的所有信息之后的結(jié)果,這些組成了段,或者稱為一個(gè)子索引。子索引可以組合為索引,也可以合并為一個(gè)新的包含了所有合并項(xiàng)內(nèi)部元素的子索引。67carrot聚類算法nlingo:基于奇異值分解的索引結(jié)果聚類算法n首先確定可感知的類標(biāo)簽,然后將文件分配到類中qpreprocessing預(yù)處理nfiltering文本過濾、stemming提干、stopword去除停用詞qfrequent phrase extractionqcluster label induction
4、qcluster content discoveryqfinal cluster formation8carrot2聚類算法nstc(suffix tree clustering)后綴樹聚類算法,一種on-line聚類算法q(1)將文檔片段作為輸入而不是整篇文檔q(2)聚類算法必須足夠快速實(shí)現(xiàn)在線計(jì)算q(3)生成的類簇必須是終端用戶可讀的描述qstc將文檔作為字符串來處理,利用文檔間相似信息qstc是新穎的、增值的、o(n)時(shí)間復(fù)雜度qstc快速的為用戶總結(jié)出類簇內(nèi)容qstc處理小數(shù)據(jù)集,所以耗時(shí)較少9q后綴樹包含了一個(gè)或者多個(gè)字符串的所有后綴,空字符串也算是其中的一個(gè)后綴q例如:banana
5、后綴為:banana anana nana ana na a 空q一般來說后在字符串末尾加$特殊字符作為結(jié)束標(biāo)記q后綴樹:n有根節(jié)點(diǎn)的有序的樹n每個(gè)內(nèi)部節(jié)點(diǎn)至少有2個(gè)子節(jié)點(diǎn)n每條邊以s的非空子字符串做標(biāo)簽,節(jié)點(diǎn)的標(biāo)簽定義為從根節(jié)點(diǎn)到該節(jié)點(diǎn)路徑上的標(biāo)簽的串聯(lián)n同一節(jié)點(diǎn)出發(fā)的兩條路徑不可能以同一詞開始10example11nstc步驟:n一、文檔清洗qtagger stemmer 句子邊界界定 stop wordn二、標(biāo)識(shí)基礎(chǔ)類簇q(1)通過文本預(yù)處理將文檔表示為詞的序列,構(gòu)成后綴樹;q(2)利用后綴樹找到基類簇,至少被兩個(gè)文檔包含的短語稱為短語束,基類簇就是要找到最大短語束b,用來描述相關(guān)短語m
6、b和出現(xiàn)該短語的文檔db,并計(jì)算各個(gè)基類簇的值s(b);n三、合并基礎(chǔ)類簇q合并基類簇,為了避免出現(xiàn)非常類似的基類簇,可以設(shè)置一個(gè)閾值k( ) |* (|)*()is bbfbtf idf w|mnmbbkb|mnnbbkb12carrot2 applicationsnworkbench carrot2文檔聚類平臺(tái),是一個(gè)獨(dú)立的gui程序,可以用來對(duì)一般搜索引擎數(shù)據(jù)或你自己的數(shù)據(jù)進(jìn)行聚類實(shí)驗(yàn)。ndcs carrot2文檔聚類服務(wù)器,將carrot2聚類作為rest服務(wù)呈現(xiàn)。nwebapp carrot2網(wǎng)絡(luò)應(yīng)用,可以將carrot2聚類作為終端用戶的網(wǎng)絡(luò)應(yīng)用呈現(xiàn)。13workbench聚類平臺(tái)
7、n下載carrot2-workbench-win32.win32.x86-3.1-dev.zip解壓,執(zhí)行carrot2-workbench.exen!problemq源碼運(yùn)行出錯(cuò)q上次的問題,查詢lucene索引時(shí)沒有聚類結(jié)果,需要重啟workbenchq聚類效果不佳,類簇標(biāo)簽多是期刊號(hào)等非重要信息,前期預(yù)處理沒有過濾掉。1415webappn下載carrot2-webapp-3.0.warn將其放于tomcat的webapps文件夾下自動(dòng)解壓n訪問http:/localhost:8080/carrot2-webapp-3.016webapp的lucene索引配置nwebapp的war包解壓
8、后,web-inf/classes/carrot2-defaultn修改suite-webapp.xmln添加lucene-attributes.xmln重新啟動(dòng)tomcatn訪問http:/localhost:8080/carrot2-webapp-3.01718基于lucene索引的聚類結(jié)果19可視化效果圖20!problemnwar包解壓q英文可以聚類,中文無結(jié)果,分詞問題q沒有aduna map可視化效果n!查詢本地lucene索引時(shí)只能索引標(biāo)題出現(xiàn)的詞n源碼問題q聚類無結(jié)果21carrot2 source code下載ncarrot2是sourceforge(全球最大的開放源代碼軟件
9、開發(fā)平臺(tái)和倉庫)代理n步驟1:安裝svn工具。下載:http:/ ,安裝n建立源碼地址文件夾,右擊 svn checkout在url of repository輸入源碼網(wǎng)址svn url https:/ source code導(dǎo)入eclipsen打開eclipsenimportgeneralexsiting projects to workspace選擇carrot2源碼路徑n去除org.carrot2.antlib工程n執(zhí)行n若出錯(cuò)說明沒有ant ?將carrot的lib下的jar包和core包放到classpath下23example: clusteringdatafromlucenen修
10、改屬性:n final string contentfieldname = content;nindexpath路徑(設(shè)置運(yùn)行時(shí)參數(shù))nindexpath=“your own lucene index path”;n查詢關(guān)鍵字:n final map processingattributes = new hashmap();nprocessingattributes.put(attributenames.query, 教育);24ncollected 27 documentsn 0 _電化教育研究_投稿須知n 1 對(duì)教育技術(shù)學(xué)科名稱及定位的反思n 2 從cssci看新世紀(jì)中國教育技術(shù)學(xué)學(xué)科地位
11、的變化n 3 邊遠(yuǎn)地區(qū)高校教育信息化建設(shè)與和諧發(fā)展的理性思考nncreated 16 clustersn電化教育研究 (16 documents)n 0 _電化教育研究_投稿須知n 2 從cssci看新世紀(jì)中國教育技術(shù)學(xué)學(xué)科地位的變化nn2008年第4期 總第180期 (3 documents)n 4 從歷史使命談教育技術(shù)的定位n 20 大學(xué)生信息素養(yǎng)培養(yǎng)模式及實(shí)施途徑研究n 23 cscl環(huán)境中基于對(duì)話學(xué)習(xí)理論的教學(xué)設(shè)計(jì)nattributes:nquery: 教育nresults-total: 27nprocessing-time-algorithm: 1091nprocessing-tim
12、e-source: 2253nlingoclusteringalgorithm.nativematrixused: falsenprocessing-time-total: 334425carrot2運(yùn)行nworkbenchqrunexternal toolsattribute metadata xmlqrunrun configuration 選擇eclipse applicationworkbenchnwebappqrunexternal toolsattribute metadata xmlqrunexternal toolsweb application setupqrunrun co
13、nfiguration26carrot2 coreqorg.carrot2.corendocument, cluster, processingresultqorg.carrot2.core.attributeninit (注釋類型), attributenames, processingqorg.carrot2.sourcensearchenginebase, searchengineresponse, simplesearchengineqorg.carrot2.source.lucenenlucenedocumentsource, fsdirectorywrapperqorg.carro
14、t2.clustering.lingonclusterbuilder, lingoclusteringalgorithm, lingoprocessingcontextqorg.carrot2.clustering.stcnorg.carrot2.text.suffixtree, org.carrot2.text.suffixtree2nbasecluster, phrase, stcclusteringalgorithm, stcclusteringparameters, stcengine, stctree27qorg.carrot2.text.analysisnextendedwhite
15、spaceanalyzer, extendedwhitespacetokenizer,qorg.carrot2.text.preprocessingntokenizer, phraseextractorqorg.carrot2.text.lingusticnlanguagecode, defaultlanguagemodelqorg.carrot2.text.preprocessing.filternclusterbuilder, lingoclusteringalgorithm, lingoprocessingcontextqorg.carrot2.text.utilnchararrayco
16、mparator, mutablechararrayqorg.carrot2.text.vsmnitremweighting, vectorspacemodelcontext, tftermweighting, lineartfidftermweighting, logtfidftermweighting, termdocumentmatrixbuilder28qorg.carrot2.matrixneigenvaluecaculator, matrixutils, nnidensedoublematrix2dqorg.carrot2.matrix.factorizationnkmeansma
17、trixfactorization, iterativematrixfactorizationqorg.carrot2.matrix.factorization.seedingnkmeansseedingstraegy, randomseedingstrategyqorg.carrot2.util.xmlqorg.carrot2.webappnwebapp.javaqorg.carrot2.workbench.corenapplication.java29可用資源n/index.html官方網(wǎng)站nhttp:/download.carrot2.o
18、rg/head/manual/index.html幫助n/forum.html論壇nreference參考文獻(xiàn)qcarrot2 and language properties in web search results clusteringqintroducing usability practices to oss: the insiders experienceqcarrot2: design of a flexible and efficient web information retrieval frameworkqan indexing and clustering architecture to support document retrieval in the main
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 安全員崗位知識(shí)培訓(xùn)課件
- 取水論證報(bào)告范文
- 求職機(jī)構(gòu)報(bào)告范文
- 情緒調(diào)控研究報(bào)告范文
- 浙江國企招聘2024金華蘭溪市興瀾旅游開發(fā)有限公司招聘4人筆試參考題庫附帶答案詳解
- 鉗工理論知識(shí)培訓(xùn)課件
- 二零二五年度辦公室租賃及智能安防系統(tǒng)合同
- 二零二五年度贈(zèng)與子女房產(chǎn)及裝修設(shè)計(jì)一體化協(xié)議
- 二零二五年度幼兒托管與環(huán)保教育服務(wù)協(xié)議
- 二零二五年度紋身藝術(shù)市場分析與營銷協(xié)議
- 2024-2025學(xué)年全國中學(xué)生天文知識(shí)競賽考試題庫(含答案)
- 2024至2030年中國非標(biāo)自動(dòng)化行業(yè)需求領(lǐng)域與供需平衡預(yù)測(cè)分析報(bào)告
- 2024年重慶市高考生物試卷(含答案解析)
- 2024年(學(xué)習(xí)強(qiáng)國)思想政治理論知識(shí)考試題庫與答案
- PS技能試題(帶素材)
- DL∕T 540-2013 氣體繼電器檢驗(yàn)規(guī)程
- CJT 362-2011 城鎮(zhèn)污水處理廠污泥處置 林地用泥質(zhì)
- 監(jiān)造服務(wù)合同范本
- 《食品安全風(fēng)險(xiǎn)管控清單》
- 電梯井腳手架搭設(shè)施工施工方法及工藝要求
- DL-T-710-2018水輪機(jī)運(yùn)行規(guī)程
評(píng)論
0/150
提交評(píng)論