搜狗知識(shí)圖譜方案_第1頁(yè)
搜狗知識(shí)圖譜方案_第2頁(yè)
搜狗知識(shí)圖譜方案_第3頁(yè)
搜狗知識(shí)圖譜方案_第4頁(yè)
搜狗知識(shí)圖譜方案_第5頁(yè)
已閱讀5頁(yè),還剩33頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

搜狗搜索面向知識(shí)圖譜的搜索技術(shù)張坤

網(wǎng)頁(yè)搜索的技術(shù)發(fā)展

自然語(yǔ)言文本表示普通網(wǎng)頁(yè)音頻圖片視頻索引自然語(yǔ)言查詢排序網(wǎng)頁(yè)結(jié)果檢索向量模型互聯(lián)網(wǎng)的圖分析:Anchor和Pagerank互聯(lián)網(wǎng)的商業(yè)價(jià)值和社會(huì)價(jià)值排序函數(shù)的構(gòu)造(LearningtoRank)搜索結(jié)構(gòu)的變化自然語(yǔ)言文本表示普通網(wǎng)頁(yè)音頻圖片視頻索引自然語(yǔ)言查詢排序網(wǎng)頁(yè)結(jié)果檢索自然語(yǔ)言文本表示普通網(wǎng)頁(yè)音頻圖片視頻自然語(yǔ)言查詢豐富展現(xiàn)查詢翻譯結(jié)果翻譯推理預(yù)測(cè)統(tǒng)計(jì)推薦復(fù)雜查詢信息翻譯知識(shí)庫(kù)半結(jié)構(gòu)化信息抽取半結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)文本數(shù)據(jù)實(shí)體對(duì)齊推理補(bǔ)充數(shù)據(jù)異構(gòu)數(shù)據(jù)整合重要度計(jì)算實(shí)體抽取屬性抽取屬性值決策關(guān)系建立知立方數(shù)據(jù)本體生成系統(tǒng)索引生成檢索系統(tǒng)實(shí)體識(shí)別本體庫(kù)Pattern挖掘標(biāo)簽消岐SPARQL查詢語(yǔ)句排序推理推薦統(tǒng)計(jì)Query整體架構(gòu)圖展現(xiàn)檢索系統(tǒng)索引生成知立方數(shù)據(jù)庫(kù)構(gòu)建本體構(gòu)建各類(lèi)型實(shí)體挖掘、屬性名稱(chēng)挖掘編輯系統(tǒng)實(shí)例構(gòu)建純文本屬性、實(shí)體抽取半結(jié)構(gòu)化數(shù)據(jù)抽取異構(gòu)數(shù)據(jù)整合實(shí)體對(duì)齊、屬性值決策、關(guān)系建立實(shí)體重要度計(jì)算推理完善數(shù)據(jù)國(guó)際上流行的知識(shí)庫(kù)Wolframalpha計(jì)算知識(shí)引擎,而不是搜索引擎10萬(wàn)億條的信息

Freebase6800萬(wàn)實(shí)體10億的關(guān)系DBpediaWikipedia結(jié)構(gòu)化364萬(wàn)個(gè)條目(本體)Yago6.4億條數(shù)據(jù)本體建立——實(shí)體、屬性抽取半結(jié)構(gòu)化網(wǎng)頁(yè)屬性名計(jì)算和聚類(lèi)屬性+屬性值(候選)實(shí)體+屬性查詢?nèi)罩緞⒌氯A年齡張學(xué)友年齡($人)年齡查詢?nèi)罩痉治霰倔w建立——本體編輯13信息抽取系統(tǒng)建立14信息抽取系統(tǒng)建立數(shù)據(jù)管理和自動(dòng)抽樣系統(tǒng)網(wǎng)頁(yè)庫(kù)可視化UI系統(tǒng)模板庫(kù)模板監(jiān)控系統(tǒng)結(jié)構(gòu)化數(shù)據(jù)抓取器文本挖掘步步驚心新西游記電視劇主題曲插曲片尾曲歌曲歌手不同數(shù)據(jù)源的整合實(shí)體對(duì)齊實(shí)例對(duì)齊過(guò)程Step0Step1Step2Step3Step4bdceaabdecdeabcdeStep4Step3Step2Step1Step0agglomerative(AGNES)divisive(DIANA)屬性值決策與關(guān)系建立屬性值的決策:關(guān)系建立與補(bǔ)齊出生日期身高實(shí)體的重要性實(shí)體搜索李娜實(shí)體名稱(chēng)知立方實(shí)體庫(kù)按重要度排序0.90.80.70.61,初始化:根據(jù)實(shí)體的屬性及實(shí)體間關(guān)系初始化實(shí)體的重要度2,迭代:重要度在實(shí)體關(guān)系圖中傳遞Entity-rankvsrank推理補(bǔ)充數(shù)據(jù)與驗(yàn)證從原始三元組數(shù)據(jù),推理生成新的數(shù)據(jù),建立更多的實(shí)體間的鏈接關(guān)系,增加知識(shí)圖的邊的密度,例如:<triple><entityid=“1”name=“莫言”></entity><property><![CDATA[作品]]></property><entityid=“2”name=“紅高粱家族”></entity></triple><triple><entityid=“3”name=“生死疲勞”></entity><property><![CDATA[作者]]></property><entityid=“1”name=“莫言”</entity></triple><triple><entityid=“4”name=“白棉花”></entity><property><![CDATA[作者]]></property><entityid=“1”name=“莫言”></entity></triple>???莫言的作品:

紅高粱家族生死疲勞白棉花推理作者=>作品人物關(guān)系配偶+男性=>丈夫,配偶+女性=>妻子;電影演員電影的主演=>演員出演了這部電影半結(jié)構(gòu)化信息抽取半結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)文本數(shù)據(jù)實(shí)體對(duì)齊推理補(bǔ)充數(shù)據(jù)異構(gòu)數(shù)據(jù)整合重要度計(jì)算實(shí)體抽取屬性抽取屬性值決策關(guān)系建立知立方數(shù)據(jù)本體生成系統(tǒng)索引生成檢索系統(tǒng)實(shí)體識(shí)別本體庫(kù)Pattern挖掘標(biāo)簽消岐SPARQL查詢語(yǔ)句排序推理推薦統(tǒng)計(jì)Query整體架構(gòu)圖展現(xiàn)檢索系統(tǒng)索引生成查詢語(yǔ)義理解用戶輸入查詢?cè)~預(yù)處理語(yǔ)義分析查詢語(yǔ)句生成查詢糾錯(cuò)分詞基于CFG的句法分析基于詞典和CRF的分詞和實(shí)體識(shí)別基于模式挖掘的屬性識(shí)別基于模版匹配的SPARQL生成基于需求重要度的SPARQL排序知識(shí)庫(kù)通用詞典屬性模式實(shí)體別名基于規(guī)則的挖掘策略實(shí)體的識(shí)別和歸一網(wǎng)頁(yè)對(duì)齊百科Sogou點(diǎn)擊日志知識(shí)庫(kù)實(shí)體實(shí)體別名自然語(yǔ)言查詢基于字典的序列標(biāo)注模型CRF實(shí)體標(biāo)記實(shí)體歸一美國(guó)羅恩尼女搶匪美國(guó)<LOC>

羅恩尼<PERSON>女搶匪<MOVIE>美國(guó)<LOC>

喬阿吉姆·羅恩尼<PERSON>俠盜魅影<MOVIE>屬性的模式挖掘互聯(lián)網(wǎng)問(wèn)題答案庫(kù)知識(shí)庫(kù)打上標(biāo)記后的問(wèn)題答案屬性的表達(dá)模式去噪頻繁模式挖掘標(biāo)記實(shí)體和屬性值1.無(wú)間道誰(shuí)演的?劉德華2.誰(shuí)是無(wú)間道的主演?劉德華3.讓子彈飛誰(shuí)演的?葛優(yōu)無(wú)間道<E>主演<P>劉德華<V>讓子彈飛<E>主演<P>葛優(yōu)<V>主演的Pattern1.<MOVIE>誰(shuí)演的2.誰(shuí)是<MOVIE>的主演1.<MOVIE>誰(shuí)演的?<PERSON>2.誰(shuí)是<MOVIE>的主演?<PERSON>3.<MOVIE>誰(shuí)演的?<PERSON>基于CFG的句法分析實(shí)體推薦技術(shù)LDA實(shí)體過(guò)濾半結(jié)構(gòu)化信息抽取半結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)文本數(shù)據(jù)實(shí)體對(duì)齊推理補(bǔ)充數(shù)據(jù)異構(gòu)數(shù)據(jù)整合重要度計(jì)算實(shí)體抽取屬性抽取屬性值決策關(guān)系建立知立方數(shù)據(jù)本體生成系統(tǒng)索引生成檢索系統(tǒng)實(shí)體識(shí)別本體庫(kù)Pattern挖掘標(biāo)簽消岐SPARQL查詢語(yǔ)句排序推理推薦統(tǒng)計(jì)Query整體架構(gòu)圖展現(xiàn)檢索系統(tǒng)索引生成后臺(tái)檢索系統(tǒng)SPARQL解析正排索引推理展現(xiàn)層倒排索引SPARQL支持按屬性篩選索引層檢索層計(jì)算層推薦預(yù)測(cè)統(tǒng)計(jì)排序本體知立方數(shù)據(jù)圖檢索系統(tǒng)半結(jié)構(gòu)化信息抽取半結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)文本數(shù)據(jù)實(shí)體對(duì)齊推理補(bǔ)充數(shù)據(jù)異構(gòu)數(shù)據(jù)整合重要度計(jì)算實(shí)體抽取屬性抽取屬性值決策關(guān)系建立知立方數(shù)據(jù)本體生成系統(tǒng)索引生成檢索系統(tǒng)實(shí)體識(shí)別本體庫(kù)Pattern挖掘標(biāo)簽消岐SPARQL查詢語(yǔ)句排序推理推薦統(tǒng)計(jì)Query整體架構(gòu)圖展現(xiàn)檢索系統(tǒng)索引生成知立方信息展現(xiàn)提供知識(shí)庫(kù)信息的展示載體將知識(shí)庫(kù)中的信息轉(zhuǎn)化為用戶可消費(fèi)的內(nèi)容提供更加豐富的富文本信息提供文本之外的圖片、列表、動(dòng)畫(huà)等更加豐富的展現(xiàn)形式提供更友好的用戶交互體驗(yàn)更多的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論