




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
通用知識(shí)圖譜構(gòu)建與應(yīng)用2DataFunTalk關(guān)于我知識(shí)圖譜中臺(tái)的建設(shè)相關(guān)工作。3DataFunTalk通用圖譜構(gòu)建與應(yīng)用通用圖譜構(gòu)建與應(yīng)用DataFunTalk112345應(yīng)用探索45知識(shí)圖譜知識(shí)圖譜DataFunTalk2012年由Google提出,是一張由知識(shí)點(diǎn)(實(shí)體/概念)相互連接而成的語義網(wǎng)絡(luò)。知識(shí)圖譜讓機(jī)器理解世界知識(shí)圖譜是人工智能的底層技術(shù),讓機(jī)器學(xué)會(huì)“思考”6足用戶的搜索需求接給出權(quán)威的確定答案 **億實(shí)體**百個(gè)領(lǐng)域類型足用戶的搜索需求接給出權(quán)威的確定答案 **億實(shí)體**百個(gè)領(lǐng)域類型**十億知識(shí)三元組DataFunTalk數(shù)據(jù)接入數(shù)據(jù)爬取數(shù)據(jù)接入數(shù)據(jù)爬取DataFunTalk7通用圖譜構(gòu)建與應(yīng)用通用圖譜構(gòu)建與應(yīng)用DataFunTalk112345應(yīng)用探索89構(gòu)建思路構(gòu)建方式實(shí)體全從上到下vs從下到上人工構(gòu)建vs自動(dòng)構(gòu)建構(gòu)建思路構(gòu)建方式實(shí)體全從上到下vs從下到上人工構(gòu)建vs自動(dòng)構(gòu)建DataFunTalk規(guī)模規(guī)模建設(shè)類型開放領(lǐng)域vs垂直領(lǐng)域百科站點(diǎn)vs垂類站點(diǎn)建設(shè)類型開放領(lǐng)域vs垂直領(lǐng)域百科站點(diǎn)vs垂類站點(diǎn)人力省人力省服務(wù)穩(wěn)))DataFunTalk出生日期出生地作品妻子《出生日期朱麗倩出生地作品妻子水平擴(kuò)展,通用化構(gòu)建流程周期構(gòu)建 構(gòu)建流程 水平擴(kuò)展,通用化構(gòu)建流程周期構(gòu)建 構(gòu)建流程 不定期迭代算法DataFunTalk來源管理Schema管理清洗映射來源管理Schema管理清洗映射流批一體流批一體知識(shí)抽取實(shí)體分類實(shí)體消歧知識(shí)抽取實(shí)體分類實(shí)體消歧實(shí)時(shí)構(gòu)建構(gòu)建系統(tǒng)-系統(tǒng)特色實(shí)時(shí)構(gòu)建DataFunTalk接入方式豐富支持Hive、DB、Kafka等多維異構(gòu)數(shù)據(jù)源構(gòu)建粒度靈活支持不同量級(jí)數(shù)據(jù)按不同方式分別進(jìn)行構(gòu)建⑧構(gòu)建效率迅捷支持小時(shí)級(jí)的快速構(gòu)建與實(shí)時(shí)構(gòu)建接入層海量數(shù)據(jù)海量數(shù)據(jù)人工干預(yù)流實(shí)時(shí)流存儲(chǔ)層構(gòu)建層存儲(chǔ)層天級(jí)時(shí)延 秒級(jí)時(shí)延知識(shí)獲取DataFunTalk從不同來源、不同結(jié)構(gòu)的數(shù)據(jù)中進(jìn)行知識(shí)提取,形成知識(shí)存入到知識(shí)庫結(jié)構(gòu)化數(shù)據(jù)獲取知識(shí)?難點(diǎn):復(fù)雜表數(shù)據(jù)處理?技術(shù):數(shù)據(jù)統(tǒng)一接入半結(jié)構(gòu)化(網(wǎng)站)數(shù)據(jù)獲取知識(shí)?難點(diǎn):網(wǎng)站眾多、數(shù)據(jù)各異?技術(shù):爬蟲、解析器/包裝器非結(jié)構(gòu)化(文本)數(shù)據(jù)獲取知識(shí)?難點(diǎn):結(jié)果的準(zhǔn)確率和覆蓋率?技術(shù):知識(shí)抽取統(tǒng)一爬取系統(tǒng)?網(wǎng)頁數(shù)據(jù)?結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)關(guān)鍵:爬取管理、解析靈活統(tǒng)一爬取系統(tǒng)?網(wǎng)頁數(shù)據(jù)?結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)關(guān)鍵:爬取管理、解析靈活rid:0000300domain:00003data_type:00timestamp:151893513name:甄嬛傳data:Array[jsonObj]DataFunTalk統(tǒng)一數(shù)據(jù)接入?接口、服務(wù)->DB?Hive、HDFS表同步?接口、服務(wù)->DB關(guān)鍵:靈活可擴(kuò)展解法:通過配置指定來源、存儲(chǔ)和解析規(guī)則?id+json_data?Id包含來源+類型信息?Json_data,以KV方式統(tǒng)一存儲(chǔ)DataFunTalk靈活的任務(wù)調(diào)度方式爬取、抽取、評(píng)估一體化DataFunTalk靈活的任務(wù)調(diào)度方式爬取、抽取、評(píng)估一體化從爬取到抽取到數(shù)據(jù)驗(yàn)證,平臺(tái)高效搞定支持JS注入功能,具備動(dòng)態(tài)頁面解析能力爬取規(guī)則可視化,平臺(tái)實(shí)時(shí)驗(yàn)證,外包處理人工標(biāo)注遠(yuǎn)程標(biāo)注數(shù)據(jù)集管理人工標(biāo)注遠(yuǎn)程標(biāo)注數(shù)據(jù)集管理DataFunTalk屬性抽取屬性抽取概念抽取IP抽取關(guān)系抽取實(shí)體抽取基于模型基于模型基于模版?zhèn)鹘y(tǒng)機(jī)器學(xué)習(xí)深度神經(jīng)網(wǎng)絡(luò)基于規(guī)則屬性種子模板(姚明,葉莉)[D:屬性種子模板(姚明,葉莉)[D:person]_嫁給姚明娶了葉莉[D:person]_娶了DataFunTalk范簡單息豐富BootstraBootstra關(guān)鍵問題1.種子集構(gòu)建2.模版評(píng)估和篩選解決方式1.選擇高置信度數(shù)據(jù)(實(shí)體->tuple)2.反向驗(yàn)證(在tuple語料中看能正確抽取tuple的占比)-BERT增強(qiáng)語義-實(shí)體mention特征+實(shí)體類型特征SoftmaxSoftmax54.88%FCLayer-BERT增強(qiáng)語義-實(shí)體mention特征+實(shí)體類型特征SoftmaxSoftmax54.88%FCLayerDataFunTalk模型V2:BERT-引入關(guān)鍵詞特征-顯示建模SO與關(guān)鍵詞間的交互SoftmaxFCLayerFCLayerh(s)ht(s)ht(o)hk(s)hk(o)FCLayerFCLayerh(s)ht(s)ht(o)Keyword-maskedDeepTransformer(ht(s)ht(o)Keyword-maskedDeepTransformer(BERT)DeepTransformer(BERT) TransformerLayerL-1…[cls][s]陳宛[/s],[o]秦放[/o]的初戀[sep][cls][s:p]陳宛[/s:p],[o:p]秦放[/o:p]的初戀[sep][cls][s:p]陳宛[/s:p],[o:p]秦放[/o:p]的[k]初戀[/k][sep]男theSun》知識(shí)融合男theSun》DataFunTalk模型分類?層次化分類(主分類+輔分類)?特征:簡介、關(guān)鍵kv對、實(shí)體屬性?優(yōu)缺點(diǎn):分類模型同構(gòu),模型分類?層次化分類(主分類+輔分類)?特征:簡介、關(guān)鍵kv對、實(shí)體屬性?優(yōu)缺點(diǎn):分類模型同構(gòu),易擴(kuò)展層次化且層級(jí)不固定,人物-娛樂人物-歌手⑧實(shí)體需要多分類標(biāo)簽覆蓋層次化分層框架ü規(guī)則,解決快速結(jié)構(gòu)化分類ü模型,解決召回?cái)U(kuò)大問題ü層級(jí)&多分類,解決分體體系每天例行分類耗時(shí)<1h全庫:準(zhǔn)確>99.5%,召回>80%DataFunTalk 規(guī)則分類?分類映射規(guī)則?場景:結(jié)構(gòu)化數(shù)據(jù)、清晰垂類?方法:屬性K和V按分類詞表映射?優(yōu)缺點(diǎn):準(zhǔn)確率高,召回低,成本高子模型子模型異構(gòu)、雜亂的數(shù)據(jù)解決方案清洗規(guī)則分類規(guī)則異構(gòu)、雜亂的數(shù)據(jù)解決方案清洗規(guī)則分類規(guī)則DataFunTalkSchemaSchema庫映射規(guī)則映射規(guī)則實(shí)體分類實(shí)體分類Schema對齊Schema對齊數(shù)據(jù)清洗數(shù)據(jù)清洗?將文本分類到Schema類型體系?基于分類規(guī)則+分類模型?規(guī)則通過數(shù)據(jù)統(tǒng)計(jì)、歸納獲得?將原始屬性Key進(jìn)行統(tǒng)一?基于對齊規(guī)則(屬性映射對)?規(guī)則通過數(shù)據(jù)統(tǒng)計(jì)、聚類獲得?將屬性Value進(jìn)行規(guī)整去雜質(zhì)?基于清洗規(guī)則(匹配替換對)?規(guī)則通過數(shù)據(jù)統(tǒng)計(jì)、歸納獲得DataFunTalk屬性豐富、低質(zhì)實(shí)體混雜,對齊難度大全量結(jié)構(gòu)化實(shí)體3.9億,每天增加新增40W通用、適配廣泛支持各種類型、各種來源實(shí)體對齊實(shí)體關(guān)聯(lián)①實(shí)體關(guān)聯(lián)實(shí)體歸一實(shí)體拆分實(shí)體關(guān)聯(lián)①實(shí)體關(guān)聯(lián)實(shí)體歸一實(shí)體拆分DataFunTalk實(shí)體關(guān)聯(lián)實(shí)體關(guān)聯(lián)實(shí)體拆分實(shí)體拆分知識(shí)初始化實(shí)體歸一實(shí)體拆分增量構(gòu)建全量構(gòu)建實(shí)體對齊DataFunTalkBAYES模型XGBoost模型場景2:DataFunTalkBAYES模型XGBoost模型場景2:結(jié)構(gòu)化信息不豐富eg.經(jīng)商的退役籃球運(yùn)動(dòng)員薄實(shí)體對齊 實(shí)體資源eg.只有簡介和演唱者的《冰?》結(jié)構(gòu)化實(shí)體對齊實(shí)體對齊結(jié)構(gòu)化實(shí)體對齊跨類通用實(shí)體對齊跨類通用實(shí)體對齊建邊系統(tǒng)建邊系統(tǒng)知識(shí)關(guān)聯(lián)S:李榮浩(407195765)P:代表作實(shí)體名(實(shí)體id)李白(401011277)物;詩人李白(214800216)李白(240611076)李白(526784655)李白(205096397)李白(236971880)DataFunTalk基于超鏈接?場景:站點(diǎn)含內(nèi)鏈?方法:網(wǎng)頁爬取,鏈接到ID映射?優(yōu)缺點(diǎn):快速;覆蓋率不夠基于規(guī)則推理?場景:定義清晰、無歧義的謂詞?方法:詞表、推理引擎?缺點(diǎn):準(zhǔn)確率;耗時(shí)成本高基于模型關(guān)聯(lián)?場景:通用?方法:三元組分類?優(yōu)缺點(diǎn):泛化強(qiáng),訓(xùn)練模型推理引擎計(jì)算推理引擎計(jì)算DataFunTalk先驗(yàn)知識(shí)計(jì)算?領(lǐng)域詞表,eg:國家、星座等?對圖譜中N-1的謂詞效果顯著?自動(dòng)挖掘詞表+人工驗(yàn)證?基于規(guī)則的專家系統(tǒng)?基于Drools框架(Rete)實(shí)現(xiàn) 建邊系統(tǒng)SOSDataFunTalkPR常規(guī)特征0.9260.6540.76+type0.9500.6810.79+SPO-Bert0.9510.7020.81+KG-Emb0.9480.7260.82+統(tǒng)計(jì)特征0.9520.7320.83通用圖譜構(gòu)建與應(yīng)用通用圖譜構(gòu)建與應(yīng)用DataFunTalk112345應(yīng)用探索DataFunTalkü半數(shù)市場份額ü高性能訪問ü非結(jié)構(gòu)化存儲(chǔ)ü活躍的社區(qū)?負(fù)載不均衡,跨地訪問耗時(shí)?讀寫毛刺?(大實(shí)體/長鏈路)系統(tǒng)吞吐TPS:8000+滿足超大規(guī)模圖譜數(shù)據(jù)在線檢索和計(jì)算需求!DataFunTalk?數(shù)據(jù)規(guī)模擴(kuò)大?批量操作性能?多樣化查詢?擴(kuò)展性問題解決思路>底層圖數(shù)據(jù)庫升級(jí)>多模式存儲(chǔ)系統(tǒng)組合>數(shù)據(jù)一致性管理>松耦合分布式設(shè)計(jì)üKV庫+索引庫+圖數(shù)據(jù)庫ü控制和數(shù)據(jù)分離ü微服務(wù)+適配器模式索引庫、正排庫、圖數(shù)據(jù)庫均可靈活插拔支持業(yè)務(wù)分庫存儲(chǔ)、分布式存儲(chǔ)實(shí)驗(yàn)二:單一屬性插入同樣規(guī)模的100w數(shù)據(jù)的a1屬性值,schema屬性的不同導(dǎo)致了在時(shí)間和存儲(chǔ)空間的巨大差異6000+屬性實(shí)驗(yàn)二:單一屬性插入同樣規(guī)模的100w數(shù)據(jù)的a1屬性值,schema屬性的不同導(dǎo)致了在時(shí)間和存儲(chǔ)空間的巨大差異6000+屬性DataFunTalk強(qiáng)Schema依賴:事先定義schema屬性包含幾個(gè)屬性只插入同一個(gè)屬性,只插入同一個(gè)屬性,schema的不同是否會(huì)導(dǎo)致存儲(chǔ)性能上的差異?實(shí)驗(yàn)一:全屬性1能否通過設(shè)計(jì)合理的schema來優(yōu)化存儲(chǔ)?公共屬性顯示存+領(lǐng)域?qū)傩越M合存通用圖譜構(gòu)建與應(yīng)用通用圖譜構(gòu)建與應(yīng)用DataFunTalk112345應(yīng)用探索分發(fā)智能音箱實(shí)體卡片資源聚合query理解框詞生成篇章理解為算法提供先驗(yàn)知識(shí)為Query和資源建立連接召回排序語義搜索智能助手推薦場景分發(fā)智能音箱實(shí)體卡片資源聚合query理解框詞生成篇章理解為算法提供先驗(yàn)知識(shí)為Query和資源建立連接召回排序語義搜索智能助手推薦場景DataFunTalk問答問答內(nèi)容理解內(nèi)容理解應(yīng)用-產(chǎn)品應(yīng)用舉例DataFunTalk框詞推薦實(shí)體鏈接推理計(jì)算實(shí)體檢索應(yīng)用-實(shí)體卡片實(shí)體鏈接推理計(jì)算實(shí)體檢索DataFunTalk業(yè)務(wù):騰訊博物官、QQ瀏覽器識(shí)花君效果:提升AR掃描類產(chǎn)品的用戶體驗(yàn),支持文博(名畫/建筑/文物)和植物掃描識(shí)別功能,日覆蓋近300W相關(guān)QV業(yè)務(wù):QQ瀏覽器搜效果:上線人物、影視、自然等領(lǐng)域TOP1實(shí)體卡,相關(guān)實(shí)體領(lǐng)域TOP1滿足率提升5%+意圖識(shí)別意圖識(shí)別"田亮"4排序rank"田亮"4排序rankDataFunTalk解決搜索場景下絕大多數(shù)復(fù)雜問題verify應(yīng)用-框詞生成DataFunTalk新詞發(fā)現(xiàn)細(xì)粒度實(shí)體分類槽填充實(shí)體識(shí)別小說的實(shí)體抽取難點(diǎn)2:小說新詞發(fā)現(xiàn)細(xì)粒度實(shí)體分類槽填充實(shí)體識(shí)別小說的實(shí)體抽取難點(diǎn)2:小說實(shí)體類型繁多,不同于一般的實(shí)體類型系統(tǒng)DataFunTalk意圖分類意圖分類瀏覽器搜索使用小說領(lǐng)域的圖譜數(shù)據(jù),包括小說、角色、作者等相關(guān)的屬性和關(guān)效果:意圖基礎(chǔ)數(shù)據(jù)技術(shù)從準(zhǔn)召91.3%/57.8%提升到94.7%/69.3%,累計(jì)支持16個(gè)品類阿拉丁意圖識(shí)別,影響面8%消歧后的資源實(shí)體鏈接技術(shù)應(yīng)用-內(nèi)容理解消歧后的資源實(shí)體鏈接技術(shù)DataFunTalk用戶畫像用戶畫像?每當(dāng)聽到有人說李白傷害低都笑了,不會(huì)玩卻怪英雄弱?絲毫不輸原唱,俊凱與李榮浩同唱李白,好聽到爆炸!?李白不再隱忍,一把扯下撒貝寧遮羞布,原來撒貝寧是高攀了實(shí)體消歧,TypeMatchPriorsRelation實(shí)體消歧,TypeMatchPriorsRelationRanking實(shí)體鏈接技術(shù)DataFunTalk在理解、組織資源時(shí)不夠靈活;而且針對一些實(shí)體,用戶關(guān)心的往往也不是其全部屬性或關(guān)系。礎(chǔ)之上,構(gòu)建一種新的、更符合搜索深度理解和內(nèi)圖譜,將實(shí)體、概念、需求點(diǎn)和事件進(jìn)行更合理的組織,并探索在搜索資源聚合分發(fā)場景下的各種應(yīng)用2IP生成3實(shí)體掛靠2IP生成3實(shí)體掛靠DataFunTalk覆蓋影視綜、動(dòng)漫、游戲、小說的跨領(lǐng)域IP、系列IP等,IP生成準(zhǔn)確率98%,覆蓋率95.4%(隨機(jī)queryIP下實(shí)體掛靠準(zhǔn)確率93.66%,召回率77.58%1特征抽取季部號(hào)副標(biāo)題季部號(hào)副標(biāo)題蜘蛛俠蜘蛛俠蜘蛛俠1需求點(diǎn)生成器模型(生成、抽?。┬枨簏c(diǎn)判別器1需求點(diǎn)生成器模型(生成、抽?。┬枨簏c(diǎn)判別器需求點(diǎn)關(guān)聯(lián)3DataFunTalk22通用圖譜構(gòu)建與應(yīng)用通用圖譜構(gòu)建與應(yīng)用DataFunTalk112345應(yīng)用探索
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度供暖供氣設(shè)施施工安全協(xié)議
- 二零二五年度鋼材現(xiàn)貨交易居間服務(wù)協(xié)議
- 2025年度電子商務(wù)合伙拆伙協(xié)議終止協(xié)議
- 2025年度離職解除勞動(dòng)合同模板:傳媒廣告行業(yè)員工離職流程
- 會(huì)計(jì)財(cái)務(wù)審計(jì)作業(yè)指導(dǎo)書
- 公司股權(quán)購買協(xié)議詳細(xì)版
- 金融服務(wù)個(gè)人風(fēng)險(xiǎn)免責(zé)聲明
- 《數(shù)學(xué)思維訓(xùn)練課程:數(shù)形結(jié)合學(xué)習(xí)指導(dǎo)》
- 肉類銷售代理合同
- 關(guān)于項(xiàng)目進(jìn)度管理的解決方案
- 2021年劍橋國際少兒英語KidsBox2文本
- 金蝶云星辰初級(jí)考試題庫
- GM/T 0107-2021智能IC卡密鑰管理系統(tǒng)基本技術(shù)要求
- GB/T 6967-2009工程結(jié)構(gòu)用中、高強(qiáng)度不銹鋼鑄件
- 部編版七年級(jí)下冊語文第一單元課件
- 2023年山東省青島市統(tǒng)招專升本管理學(xué)自考真題(含答案)
- 文化產(chǎn)業(yè)政策與法規(guī)課件
- 人教版八年級(jí)下冊生物全冊教案完整版教學(xué)設(shè)計(jì)含教學(xué)反思
- 無人機(jī)警用方向應(yīng)用簡介課件
- 《思想道德修養(yǎng)與法律基礎(chǔ)》說課(獲獎(jiǎng)版)課件
- 幼兒園中班居家安全教案
評(píng)論
0/150
提交評(píng)論