林春教學提綱_第1頁
林春教學提綱_第2頁
林春教學提綱_第3頁
林春教學提綱_第4頁
林春教學提綱_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

林春2012.08.30FindingquestionmicroblogpostandrecommendanswersforitBackgroundMicroblogrevolutionChangesurfinghabitofInternet:usersfirstloginingmicroblogreach20%MaketheweblikearealsocialworldCharacteristicsofmicroblogdataMassiveuser-generatedcontent(containrareinformation)Complexandunderlyingrelationships(authorityuserorexpert)FastInformationpropagation(getfirst-handinformationabouthottopic)ChangesofinformationseekingapproachAskingquestioninsocialnetworkbecomeapopularform.這幾天海鮮吃多了,上火了,臉上冒痘痘了,嗚嗚…怎么辦?

MissionofmicroblogminingIdentifyingwhetheronepoststatessomethingbothersomeinstantlyandrecommendingasolutionorananswerforit.UnderlyingdemandIdentifyValuablesolutionRecommend1Copyright2012FUJITSUR&DCENTERCO.,LTDOurworkDemandIdentificationContentrecommendationUserrecommendationidentifythepostexpressingsomethingbothersomeoraskingforinformationcontent-basedmodel:topic&setimentdetectionclassifier-basedmodel:featureextraction&classifyrecommendlatestorexactcontentfromwebormicroblogmicroblogre-ranktogetbestanswercontent-based&collaborative

recommendationrecommendauthoritativeandinteresteduserauthoritativeuser:content-basedrecommendationinteresteduser:collaborativefilteringrecommendationCopyright2012FUJITSUR&DCENTERCO.,LTD什么是問題微博?首先必須滿足是原創(chuàng)微博,其次滿足以下條件之一:1.微博內(nèi)容明確提出問題或詢問建議,對于此類微博,如果其所提出的問題是客觀的,可以回答,則認為是可推薦微博。問題的客觀性是指其答案比較統(tǒng)一,導致問題的原因比較普遍和客觀。如:“上火了,怎么辦?”上火是普遍現(xiàn)象,可以為其推薦解決方法;而微博“社會,還真TMD有不要臉的,打壞了人,還不賠錢!我該怎么辦,才可以讓媽媽不上火”指明導致問題的原因是社會不公現(xiàn)象導致,因主觀性較強,所以不為其做推薦。2.微博內(nèi)容是陳述形式,陳述的內(nèi)容不是記錄型(記錄完成某件事情)、評價型的(對某種現(xiàn)象的看法),分析內(nèi)容的側(cè)重點,如果其陳述的重點是將要或最近發(fā)生的事,且陳述的事實具有客觀性和普遍性(客觀性描述與1相同),并且該事實困擾著用戶,還沒有有效的解決方法或好的建議。例子心若閑,事多人忙心不忙;心不閑,事少心忙人不忙。(非問題微博)天氣干燥,嘴唇上火起泡,怎么辦?(問題微博)Copyright2012FUJITSUR&DCENTERCO.,LTD數(shù)據(jù)集數(shù)據(jù)集是從新浪微博中抓取,其中正例微博是通過關(guān)鍵字搜索,再進行人工標注得到,負例微博是從微博中隨機抓取得到。訓練集有6426條微博,正例662條,負例5764條,其中正例涉及的主題有:“胃好疼難受”、“頭昏喉嚨痛”、“脖子疼”、“牙疼”、“熬夜傷不起”等。測試集有3753條微博,正例302條,負例3453條,其中正例涉及主題有:“上火怎么辦”、“油滴到衣服上”、“眼袋好重”、“紐曼怎么樣”、“自動關(guān)機自動重啟”、“佳能多少錢”、“父親節(jié)送什么”、“快速消腫”等。Copyright2012FUJITSUR&DCENTERCO.,LTD系統(tǒng)實現(xiàn)原理本系統(tǒng)分為兩大模塊:問題微博識別模塊和答案推薦模塊。問題微博識別模塊采用SVM分類器,提取微博4種不同的特征:情感特征(emotion)、事件特征(event)、詞語情感特征(percent)以及外部特征(external),分類器在不同的特征實例集上訓練模型,預(yù)測時,加載各種模型,采用投票方式得到最終類別。答案推薦模塊:分別從web和weibo中獲取相關(guān)內(nèi)容推薦給用戶。web推薦是將去除表情信息的微博作為查詢,在百度知道中搜索,然后對其結(jié)果重新計算相似度,將最相關(guān)問題的答案返回給用戶。weibo推薦是提取微博的關(guān)鍵字將其作為查詢主題,在新浪微博中搜索,并對檢索結(jié)果重排序,將前5條微博作為推薦內(nèi)容。Copyright2012FUJITSUR&DCENTERCO.,LTD微博識別特征提取內(nèi)部特征表情特征、事件特征、關(guān)鍵詞情感特征外部特征知道特征、百科特征、微博特征分類使用SVM分類器進行分類集成預(yù)測對內(nèi)部特征的預(yù)測結(jié)果進行相對投票結(jié)合相對投票結(jié)果與外部特征結(jié)果做絕對投票Copyright2012FUJITSUR&DCENTERCO.,LTD內(nèi)部特征表情特征提?。╡motion特征)輸入:微博和悲觀表情文檔處理:判斷微博是否含有悲觀表情輸出:含有,則返回1;否則,返回0事件特征提?。╡vent特征)輸入:微博處理:分詞和詞性標注,判斷是否含有詞性為t(時間),nr(人名),ns(地名),nt(機構(gòu))的詞輸出:四個二值數(shù)字(由0或1組成),如果包含以上詞性,則返回1,否則,返回0.關(guān)鍵詞情感特征提?。╬ercent特征)輸入:訓練集和微博處理:1)將訓練集根據(jù)表情符號分為3個部分:包含正面表情微博,包含負面表情微博和不包含表情微博。然后對其分詞并統(tǒng)計各集合單詞詞頻。2)對于輸入的微博,將其分詞和詞性標注,提取詞性為v,n,a,vn的詞作為關(guān)鍵詞,取其在(1)中提到的3個集合中出現(xiàn)的詞頻,并歸一化,則單詞w會返回三個值neg_ratio、pos_ratio、neu_ratio,整體微博的關(guān)鍵詞情感特征即為其比值之和。輸出:返回neg_ratio/pos_ratio和neg_ratio/neu_ratioCopyright2012FUJITSUR&DCENTERCO.,LTD外部特征:知道特征輸入:整體微博信息(去除表情符號)處理:(1)將整體微博輸入百度知道搜索,提取搜索結(jié)果第一個頁面的所有問題,然后對其進行分詞和詞性標注,去除詞性為w(標點符號)、r(代詞)、u(助詞)和沒有被標注的詞,統(tǒng)計剩余單詞的詞頻,均值化(除以問題個數(shù)),并排序,得到問題單詞列表(QuestionWordList)。(2)對微博分詞和詞性標注,去除詞性為w、r、u和沒有被標注的詞,得到微博單詞列表(PostWordList),其中每個單詞詞頻為1;計算其長度L,從QuestionWordList中獲取topL個單詞,然后計算PostWordList與其之間的余弦距離。輸出:余弦距離:浮點型Copyright2012FUJITSUR&DCENTERCO.,LTD外部特征:百科特征首先根據(jù)百科開放分類爬取其下的詞條,最終保存詞條及其上層類別(第一層類別或第二層類別)。如:詞條:魚香肉絲→烹飪→飲食→生活(目前只劃分到“飲食”那一層的類別),則烹飪是第二層類別,飲食是第一層類別。輸入:微博處理:1)統(tǒng)計其含悲觀表情的個數(shù),保存為e_count;

2)然后將其去除后,分詞和詞性標注,獲取詞性為n(名詞)、vn(名動詞)、v(動詞)、a(形容詞)的詞,將其作為關(guān)鍵詞,統(tǒng)計其個數(shù)key_count,并獲取其對應(yīng)的主題類別。則統(tǒng)計主題類別的數(shù)目topic_count和可以找到主題的關(guān)鍵詞數(shù)目topic_key_count.;3)最后根據(jù)已有的疑問詞列表,提取微博包含的疑問詞個數(shù)r_count.4)最后根據(jù)以下公式,為微博打分。微博統(tǒng)計包含的

輸出:處理過程得到的value值Copyright2012FUJITSUR&DCENTERCO.,LTD外部特征:微博特征輸入:微博處理:1)去除表情符號,分詞,詞性標注,如果其長度小于等于5,則將具有詞性標注的詞作為關(guān)鍵詞;否則,提取詞性為n,vn,v的詞,按照規(guī)則v+n,v+v,v+vn,n+v,n+n,n+nv及其組合提取關(guān)鍵詞。2)將每個關(guān)鍵詞作為輸入,在微博搜索中檢索結(jié)果,獲取前10個頁面的微博。返回的結(jié)果包括微博ID、微博內(nèi)容、發(fā)送微博博主的分數(shù),是否轉(zhuǎn)發(fā)等。3)統(tǒng)計微博中轉(zhuǎn)發(fā)條數(shù)比例(RT_ratio),名人微博比例(celeb_ratio),樂觀微博比例(Positive_ratio),悲觀微博比例(Negative_ratio),URL微博比例(URL_ratio)。4)每條微博的這5個信息量則是取關(guān)鍵詞信息量的平均值輸出:RT_ratio,celeb_ratio,Positive_ratio,Negative_ratio,URL_ratioCopyright2012FUJITSUR&DCENTERCO.,LTD分類器訓練SVM分類器,其參數(shù)設(shè)置為“-S0-K2-D3-G0.16-R0.0-N0.5-M40.0-C1.0-E0.0010-P0.1”。訓練集中存在正負實例不平衡現(xiàn)象,通過多倍復制正例使得訓練集中正例、負例條數(shù)均衡來避免。Copyright2012FUJITSUR&DCENTERCO.,LTD答案推薦答案推薦包含兩部分:基于web推薦和基于weibo推薦基于web推薦將除去表情符號的微博內(nèi)容作為查詢在百度知道中搜索,返回的第一個頁面中的所有問題及其對應(yīng)的第一個答案最為web返回的相關(guān)內(nèi)容返回。具體流程圖如下:Copyright2012FUJITSUR&DCENTERCO.,LTD基于weibo推薦目的:將微博搜索結(jié)果中最相關(guān)且信息量最大的微博內(nèi)容返回。具體策略:(1)獲取查詢詞首先,將除去表情符號的微博內(nèi)容作為查詢在百度知道中搜索,得到第一個頁面中的所有問題集合,然后計算集合中所有詞的詞頻并排序。其次,對微博內(nèi)容分詞,標注詞性,取出詞性為n,v,a,vn的詞作為關(guān)鍵詞,然后根據(jù)上一步得到的詞頻序列對候選關(guān)鍵詞排序,最多取前5個詞作為查詢詞。(2)微博搜索結(jié)果排序?qū)⒉樵冊~在微博搜索中進行搜索,取結(jié)果中的所有微博內(nèi)容,對每條微博內(nèi)容提取特征,打分,然后根據(jù)分數(shù)進行排序,取top5條微博結(jié)果最為推薦內(nèi)容返回。Copyright2012FUJITSUR&DCENTERCO.,LTD實驗結(jié)果分析問題微博識別根據(jù)以上介紹的分類器方法,微博識別精度為0.6822034,召回率0.52960527,其中關(guān)于健康類的微博其識別率相比其他類別高。其可能原因與訓練集有關(guān),訓練集中正例包含的主題大部分是關(guān)于健康類別。答案推薦目前,基于百度知道返回的答案推薦結(jié)果要比基于微博搜索的推薦好,其主要原始是用于微博搜索的關(guān)鍵詞不能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論