



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
編輯導(dǎo)語:通過知識圖譜,不僅可以將互聯(lián)網(wǎng)的信息表達(dá)成更接近人類認(rèn)知世界的形式,而且提供了一種更好的組織、管理和利用海量信息的方式;本文作者分享了關(guān)于AI產(chǎn)品經(jīng)理的知識圖譜簡介以及利用,我們一起來了解一下。AI核心要研究的是如何讓計(jì)算機(jī)去完成以往需要人的智力才能勝任的工作,而人的智能性核心體現(xiàn)在對不同事物的感知能力、推理能力、決策能力;因AI對感知智能而言,AI感知能力,通過攝像頭、麥克風(fēng)或者其他的傳感設(shè)備,借助語音識別、圖像識別的一些算法模型,能夠進(jìn)行識別和理解。感知智能的發(fā)展能夠采集到海量的不同來源及不同存儲方式的數(shù)據(jù),如果想要用這些數(shù)據(jù)做出具體場景化的應(yīng)用,目前市面上常用的方式有兩種:了解知識圖譜是什么之前,先了解數(shù)據(jù)、信息、知識之間的關(guān)系。eg:「38.5」這是一條數(shù)據(jù),不具有任何意義?!感∶鳒y量體溫為38.5度」這是一條信息,并且38.5是一個關(guān)鍵指標(biāo)?!刚H梭w的溫度為36-37度,當(dāng)體溫超過基礎(chǔ)體溫1度及以上時,即認(rèn)為發(fā)熱,而不同的溫度范圍又可分為低熱、高熱…」這是一條知識,是通過許多病例、實(shí)驗(yàn)總結(jié)出的公認(rèn)正確的?!感∶靼l(fā)熱了,因?yàn)樗w溫為38.5度」這個結(jié)果是由知識推理而來的。知識圖譜是基于圖模型來描述知識以及構(gòu)建關(guān)聯(lián)關(guān)系模型的技術(shù)手段,現(xiàn)實(shí)世界中常用到的知識,或者我們腦海中記住的知識,通常是一段描述性的并利用圖譜的形式呈現(xiàn)出來。如下圖即是一個簡單的知識圖譜,「張柏芝」、「謝霆鋒」、「王菲」是人物主體;「出生年月」、「性別」、「年齡」為主體屬性;「前妻」、「現(xiàn)任女友」、「情敵」為知識抽象出的關(guān)系。知識推理過程知識:男女雙方在法律上曾經(jīng)成立過婚姻,后通過協(xié)議或訴訟的方式解除了婚姻,終止了夫妻間權(quán)利和義務(wù),對男方而言稱呼女方為前妻。推理過程:張柏芝和謝霆鋒之間在法律上曾經(jīng)成立過婚姻,后解除了婚姻,且張柏芝是女性,因此張柏芝是謝霆鋒的前妻。在知識圖譜技術(shù)中,「張柏芝」、「謝霆鋒」、「王菲」被稱為節(jié)點(diǎn),節(jié)點(diǎn)可以是實(shí)體也可以是抽象出的概念;加粗的黑線稱為邊,表現(xiàn)實(shí)體或概念之間的關(guān)系,如「張柏芝」和「謝霆鋒」的關(guān)系是「前妻」。圖中每一個圓都是一個節(jié)點(diǎn),連接圓的直線都是邊,可以看出知識圖譜是由節(jié)點(diǎn)和邊組成;而節(jié)點(diǎn)和節(jié)點(diǎn)之間的邊,可以是屬性、也可以是關(guān)系,例如「張柏芝」、「謝霆鋒」之間的邊代表的是關(guān)系,「張柏芝」、「性別:女」之間的邊代表的是屬性。可以用來做什么?頁間的超鏈接、搜索關(guān)鍵詞與網(wǎng)頁包含關(guān)鍵詞的匹配關(guān)系進(jìn)行精確或模糊搜索。但互聯(lián)網(wǎng)終極形態(tài)是萬物的互聯(lián),搜索的終極目的也是對萬物的直接搜索,因此僅依靠關(guān)鍵詞之間的匹配不足以滿足日益豐富的搜索需求。能是某個網(wǎng)頁中包含了「謝霆鋒的前妻是張柏芝」這句話,我們才能找到網(wǎng)頁,在從網(wǎng)頁中的信息中得知謝霆鋒的前妻是張柏芝這個結(jié)論。而上圖知識圖譜的建立,當(dāng)搜索需求產(chǎn)生時會快速的返回「張柏芝」及個人信息。知識圖譜的構(gòu)建原理及流程?google、百度搜索等搜索引擎建立的知識圖譜屬于開放域知識圖譜為垂直領(lǐng)域的知識圖譜。兩種圖譜的場景應(yīng)用不太一樣,但涉及的底層邏輯和構(gòu)建流程是相似的。知識圖譜的構(gòu)建涉及了知識表示、知識獲取、知識處理和知識利用等多方面。知識表示:簡單理解就是設(shè)計(jì)者把得到的知識,針對各種問題的類型和場景,設(shè)計(jì)成多種表現(xiàn)形式,而使用者可以直接使用這種設(shè)計(jì)好的表示方法來代表這類知識信息。例如我作為系統(tǒng)設(shè)計(jì)者,我定義了“V”為“或”的意思,其它使用者均可用“V”代表“或”。知識獲?。褐溉送ㄟ^設(shè)計(jì)、程序編碼、人機(jī)交互使機(jī)器獲取知識;例如人為建立知識庫,讓專家系統(tǒng)來獲取知識,大部分都是通過人工的方式將人類的知識存儲到機(jī)器中,這個過程就是知識獲取的過程。知識處理:包含了知識的加工、邏輯判斷、推理、知識輸出的過程。nlp自然語言處理是知識處理的核心。知識利用:將規(guī)范的知識結(jié)構(gòu)應(yīng)用到具體的場景之中,創(chuàng)造價值。在構(gòu)建技術(shù)上,數(shù)據(jù)和算法是知識圖譜的底層支持,包含了信息表示、信息抽取、信息融合、信息推理和信息決策等多個階段。信息來源:通??梢酝ㄟ^多個渠道或者來源來獲取知識圖譜的數(shù)據(jù),包含了文本、結(jié)構(gòu)化數(shù)據(jù)庫、多媒體數(shù)據(jù)、傳感器數(shù)據(jù)、人工眾包數(shù)據(jù)等。信息表示:利用計(jì)算機(jī)語言來描述人腦或者文本中的知識,來幫助進(jìn)行下一步推理。應(yīng)用到的技術(shù)手段,例如文本數(shù)據(jù),通常會使用nlp自然語言處理技術(shù),進(jìn)行實(shí)體識別、實(shí)體鏈接、關(guān)系抽取、事件抽取等從文本中抽取出知識,在利用RDF把三元組作為基本的數(shù)據(jù)模型?;具壿嫲藢?shí)體、實(shí)體屬性、實(shí)體之間的關(guān)系。信息抽?。航Y(jié)構(gòu)化和文本化的數(shù)據(jù)是目前主要使用的數(shù)據(jù)形式,從結(jié)構(gòu)化數(shù)據(jù)中抽取信息一般使用現(xiàn)有的D2R工具,如D2RServer。從文本中抽取信息主要經(jīng)歷實(shí)體識別和關(guān)系抽取兩部分,關(guān)系抽取一般可以使用基于特征模版的方法(人工打標(biāo)簽),或者機(jī)器學(xué)習(xí)的方式進(jìn)行抽取。信息融合:通常自己的數(shù)據(jù)源或者知識庫不足以構(gòu)建解決實(shí)際問題時,會去從第三方的知識庫或者收集其他渠道的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行融合;主要包含了模式層的融合和數(shù)據(jù)層的融合,核心解決的問題是避免實(shí)體與關(guān)系的沖突,或者相同實(shí)體含義但使用的不同的數(shù)據(jù)標(biāo)識符,造成了不必要冗余。知識圖譜補(bǔ)全與推理:此環(huán)節(jié)核心是依賴于補(bǔ)全算法去實(shí)現(xiàn),一種方法是基于本體推理的補(bǔ)全方法,另一種是基于圖結(jié)構(gòu)和關(guān)系路徑進(jìn)行補(bǔ)全。通常推理和補(bǔ)全是一個相互協(xié)作的過程,通過推理發(fā)現(xiàn)有問題的地方,進(jìn)行補(bǔ)全。應(yīng)用與決策:語義檢索、智能問答、智能決策系統(tǒng)、推薦系統(tǒng)。下面通過具體示例來理解知識圖譜的構(gòu)建流程:重要。拆解。在電商這個領(lǐng)域下進(jìn)行知識表示時,首先需要確認(rèn)共涉及多少個一級本體、二級本體,電商知識主要的獲取來源是知識眾包,核心涉及了本體的設(shè)計(jì),圍繞商品本身的屬性、消費(fèi)者的需求、平臺運(yùn)營管理的機(jī)制。會略有差異;例如電商的賣點(diǎn)、詳情、圖片、評價,輿情信息中的品牌和口碑,涉及了大量的文本數(shù)據(jù)、圖像數(shù)據(jù)。在進(jìn)行知識表示時涉及了各種NLP、CNN技術(shù);要求知識命名識別系統(tǒng)具有大規(guī)模實(shí)體類型識別的能力,并且把識別出的主體與知識圖譜進(jìn)行鏈接。以阿里電商認(rèn)知圖譜的示例主要包括:商品域:型號、尺碼、大小、顏色、口感、材質(zhì)..用戶域:性別、年齡、風(fēng)格、品牌、購買力…LBS域:購物場景、群體、泛品類……然后需要對實(shí)體進(jìn)行描述,除了基礎(chǔ)的屬性及屬性值以外,需要通過實(shí)體標(biāo)簽進(jìn)行實(shí)現(xiàn),大部分實(shí)體標(biāo)簽變化比較快,通常是通過知識推理獲取的;例如商品的標(biāo)簽中,可以通過材料的配比或者國家行業(yè)標(biāo)準(zhǔn)進(jìn)行處理。例如:通過知識推理,可以根據(jù)商品配料表中的數(shù)據(jù)轉(zhuǎn)化為「無糖」、「低糖」的知識點(diǎn),從而將數(shù)據(jù)轉(zhuǎn)化為知識標(biāo)簽;大部分信息在提取之后會比較零散,需要將已建立好關(guān)系的知識庫中或者第三方的知識庫來源的信息做融合,以及實(shí)體對齊、實(shí)體消歧義的技術(shù)操作。實(shí)體對齊:例如迪奧是一個品牌名,DIOR為同一個品牌的英文名,雖然是同一個品對齊和統(tǒng)一化。實(shí)體消歧:例如蘋果是一種水果,在某些上下文中它可能表達(dá)蘋果手機(jī),這時需要根據(jù)上下文進(jìn)行實(shí)體消歧。完成上述操作后,才會進(jìn)行實(shí)體的抽取,實(shí)體抽取的過程中會利用算法進(jìn)行實(shí)體間的相似性計(jì)算,主要依賴于本體庫中建立的本體之間的關(guān)系,進(jìn)行推理和補(bǔ)齊;例如不同人買了同一件商品,或買了相似商品,該以怎樣的節(jié)點(diǎn)進(jìn)行知識圖譜的關(guān)聯(lián);可以采用自動化抽取或者人工抽取的方式進(jìn)行實(shí)現(xiàn),自動化抽取可以
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廚房裝潢施工合同范本
- 醫(yī)學(xué)檢驗(yàn)課題申報(bào)書
- 合作返款合同范本
- 農(nóng)藥訂貨合同范本
- 合資種植桉樹合同范本
- 廚房電梯采購合同范本
- 單位窗簾定制合同范本
- 勞務(wù)合同范本培訓(xùn)學(xué)校
- 住房公積金優(yōu)化調(diào)整實(shí)施方案
- 口罩機(jī)合同范本
- 2024年中考數(shù)學(xué)壓軸題預(yù)測《圓的綜合壓軸題》及答案解析
- 《從零到卓越- 創(chuàng)新與創(chuàng)業(yè)導(dǎo)論》教案
- (大學(xué)生國家安全教育課程)全套10篇教學(xué)課件-國家安全教育
- 《傳感器技術(shù)與應(yīng)用》課程教學(xué)大綱
- 南京信息工程大學(xué)《流體力學(xué)(Ⅰ)》2022-2023學(xué)年第一學(xué)期期末試卷
- 2023年度個人所得稅匯算清繳培訓(xùn)
- IEC 62368-1標(biāo)準(zhǔn)解讀-中文
- 幼兒園安吉游戲活動
- 進(jìn)口冷鏈?zhǔn)称菲髽I(yè)應(yīng)急響應(yīng)制度
- 《現(xiàn)代家政導(dǎo)論》電子教案 5.2模塊五項(xiàng)目二國外家政服務(wù)業(yè)發(fā)展認(rèn)知
- 中建基礎(chǔ)設(shè)施類物資驗(yàn)收作業(yè)指導(dǎo)手冊
評論
0/150
提交評論