電商知識圖譜建設及大模型應用探索_第1頁
電商知識圖譜建設及大模型應用探索_第2頁
電商知識圖譜建設及大模型應用探索_第3頁
電商知識圖譜建設及大模型應用探索_第4頁
電商知識圖譜建設及大模型應用探索_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

#電商知識圖譜建設及大模型應用探索01電商知識圖譜概覽02電商知識圖譜構(gòu)建03電商知識圖譜應用04知識圖譜與大模型探索目錄

CONTENT#01電商知識圖譜概覽電商平臺為什么需要知識圖譜Product商品Buyer買家Seller賣家EcommercePlatform電商平臺賣家與買家的語言表達習慣不同,如何將意圖與商品匹配起來?不同賣家之間的語言表達習慣不同,如何將平臺上的商品統(tǒng)一管理?不同市場的語言不同,跨境電商平臺如何對齊不同市場商品,高效管理?電商平臺為什么需要知識圖譜深度學習或大模型優(yōu)點:在很多任務上效果可觀泛化能力強缺點:隱式模型,缺乏可解釋性需要海量數(shù)據(jù)和強大算力存在模型幻覺問題知識圖譜優(yōu)點將異構(gòu)數(shù)據(jù)源轉(zhuǎn)換為結(jié)構(gòu)化知識:實體,關(guān)系,屬性可解釋性好缺點:構(gòu)建難度大泛化能力有限V.S.電商平臺為什么需要知識圖譜知識圖譜優(yōu)點將異構(gòu)數(shù)據(jù)源轉(zhuǎn)換為結(jié)構(gòu)化知識可解釋性好缺點:構(gòu)建難度大泛化能力有限賣家買家電商平臺用戶體驗管理邏輯運營成本同款商品橫向比較不同商品相同維度對比不同維度補足多種維度挖掘商品商品多元表達各異數(shù)據(jù)異構(gòu)層級不同店鋪內(nèi)商品管理同市場內(nèi)同款商品對比同市場內(nèi)不同商品補足跨市場商品輸出同類商品聚合管理跨市場商品對比和輸出同類和跨類別商品效率分析品類上新、招商統(tǒng)一的商品知識圖譜電商平臺知識圖譜多維度:商品賣家買家多層級:類目標品跨信息源:市場場景商品+評論#02電商知識圖譜構(gòu)建電商知識圖譜構(gòu)建難點來源多:賣家商品信息買家搜索、評論表達方式多樣:不同賣家表述習慣不同不同語言表達方式不同商品展現(xiàn)方式不同:文本、圖片東南亞常用表達

錯誤拼寫信息缺失信息錯誤信息冗余特定類別需領(lǐng)域知識鑒定信息準確性信息多元Shopee

為例:數(shù)十億商品8個市場6種語言質(zhì)量參差不齊依賴領(lǐng)域知識數(shù)據(jù)量大保質(zhì)信息領(lǐng)域知識電商知識圖譜構(gòu)建基本框架電商知識圖譜構(gòu)建方法-數(shù)據(jù)源TitleVariationSpecificationImageDescriptionComment電商知識圖譜構(gòu)建方法-信息抽取電商知識圖譜的基石:Ontology定義和結(jié)構(gòu)構(gòu)建方法:專家領(lǐng)域知識數(shù)據(jù)主動挖掘Ontology結(jié)構(gòu):基礎(chǔ)定義層類別:L1-L5屬性:關(guān)鍵屬性,銷售屬性組合定義層:場景:多類目組合標簽:類目+屬性,或多屬性,寬松定義標品:類目+屬性,嚴格定義電商知識圖譜構(gòu)建方法-信息抽取信息抽取-類目信息質(zhì)量參差不齊:文本和圖片信息質(zhì)量檢測信息模糊、不完整:文本+圖片交叉驗證多語言適配:不同語言實體拉齊E.g.1

首圖圖片嘈雜,很難分辨商品主體,選擇商品明確的圖片作為模型輸入E.g.1

單從圖片看可能屬于樂器類目,但從標題中可以明確知道是兒童玩具Replace電商知識圖譜構(gòu)建方法-信息抽取信息抽取-類目信息質(zhì)量參差不齊:文本和圖片信息質(zhì)量檢測信息模糊、不完整:文本+圖片交叉驗證多語言適配:不同語言實體拉齊Image

Quality

ScoreImage

resolutionObject

NumberTextBackground…Text

Quality

ScoreRule-engine:

token

number

intitleMulti-task

cross

check:

classification

andkeywords

detection…Item

TitleSentence

Embedding......TrmTrmTrmTrmClassifierAttention

weightsInput

categoryInput

Keyphrase(s)電商知識圖譜構(gòu)建方法-信息抽取Li,

Junnan,

et

al.

"Align

before

fuse:

Vision

and

language

representation

learning

with

momentum

distillation."

Advances

inneural

informationprocessing

systems

34

(2021):9694-9705.Oquab,Maxime,et

al.

"Dinov2:Learningrobust

visual

featureswithoutsupervision."arXiv

preprintarXiv:2304.07193(2023).信息抽取-類目信息質(zhì)量參差不齊:文本和圖片信息質(zhì)量檢測信息模糊、不完整:文本+圖片交叉驗證多語言適配:不同語言實體拉齊Labse-DinoV2-Vit

improves

~5.9%accuracy

than

Albef

on

hard

categories,e.g.

Health,

Gaming,

Stationary,

etc.電商知識圖譜構(gòu)建方法-信息抽取信息抽取-類目信息質(zhì)量校驗:文本和圖片信息質(zhì)量檢測信息模糊、不完整:文本+圖片交叉驗證多語言適配:不同語言實體拉齊LabseLlamaFlan-T5MiniLMEncoderDecoderEncoderDecoderRaffel,

Colin,

et

al."Exploringthe

limits

of

transferlearningwith

aunifiedtext-to-texttransformer."Journalof

machinelearningresearch

21.140

(2020):

1-67.Touvron,

Hugo,

et

al.

"Llama

2:

Open

foundation

and

fine-tuned

chat

models."

arXiv

preprint

arXiv:2307.09288

(2023).Feng,Fangxiaoyu,

et

al.

"Language-agnostic

BERT

sentenceembedding."

arXivpreprint

arXiv:2007.01852(2020).Wang,

Wenhui,etal."Minilmv2:

Multi-headself-attention

relation

distillation

forcompressing

pretrained

transformers."arXivpreprint

arXiv:2012.15828

(2020).電商知識圖譜構(gòu)建方法-知識融合1.

Li,

Junnan,

et

al.

"Blip-2:

Bootstrapping

language-image

pre-training

with

frozen

image

encoders

and

largelanguage

models."

International

conference

onmachine

learning.

PMLR,2023.Text

Image

Alignment知識融合-實體消歧:類目:文本和圖片商品沖突屬性:一個屬性抽取了多個屬性值,例如e.g.,['red',Color,title],['black',Color,description]多個屬性值抽取了相同屬性值:e.g.,['gold',Color,title],['gold',Material,title]屬性值邊界跨不同屬性:e.g.,['red',Color,title],['red

mi',Brand,title]tshirt

orshort?top

->

tshirt電商知識圖譜構(gòu)建方法-知識融合/thunlp/OpenPromptRaffel,

Colin,

et

al."Exploringthe

limits

of

transfer

learningwith

a

unifiedtext-to-texttransformer."

Journalof

machine

learning

research

21.140

(2020):

1-67.Gen-T5

improve

~12%

accuracy

thanBERT-based

NER

onambiguousattribute

value

extraction.知識融合-實體消歧:類目:文本和圖片商品沖突屬性:一個屬性抽取了多個屬性值,例如e.g.,['red',Color,title],['black',Color,description]多個屬性抽取了相同屬性值:e.g.,['gold',Color,title],['gold',Material,title]屬性值邊界跨不同屬性:e.g.,['red',Color,title],['red

mi',Brand,title]電商知識圖譜構(gòu)建方法-知識融合知識融合-實體對齊:屬性:拼寫錯誤:edit

distance,semantic

similarity,common

wrong

case不同語言:multi-lingual

embedding

similarity,MTcross

validation同近義詞:e.g.color,clear

v.s.transparent不同表達:不同單位計算,e.g.50cm

v.s.0.5m標準值選擇:popularity

(item

occurrence,

query

occurrence)perplexity

(n-gram,

pretrained

multilingual

GPT)standard

score

(standard

value

model)return

the

top

one

as

the

standard

value

using

combinedstandard

score.同義詞判斷電商知識圖譜構(gòu)建方法-知識加工Model:iphone

14Model:iphone

15Model:ipad

miniBrand:

AppleModel:Galaxy

note

4Brand:

XiaomiModel:iwatch

series

3知識加工-信息推理:屬性商品信息不全:通過已有類目屬性信息做推理補全知識加工-不一致檢測:屬性商品信息錯誤:屬性值組合沖突方法:AMIEKGE

ReasoningShi,

Baoxu,

and

Tim

Weninger.

"Open-world

knowledge

graph

completion."

AAAI

2018.Yao,Zhen,

et

al.

"Analogical

inference

enhanced

knowledge

graph

embedding."

Proceedings

of

the

AAAIConference

on

Artificial

Intelligence.

Vol.

37.

No.

4.

2023.AnalogicalReasoningInductiveReasoning#03電商知識圖譜應用電商知識圖譜應用ToC:知識圖譜與流量應用結(jié)合RecommendationSearchHomepageLanding

PageVLP

Search:Query

屬性、標簽識別Item

屬性、標簽識別Query-Item

屬性、標簽對齊應用方式:補充召回提升相關(guān)性效果:轉(zhuǎn)化效率明顯提升HomepageDaily

Discovery:細粒度品類召回

細粒度品類排序打散,增加商品豐富度應用方式:補充召回提升多樣性效果:用戶興趣度明顯提升電商知識圖譜應用ToB:知識圖譜與商家、運營結(jié)合Seller

Center,CMT,Pricing

Center等商家系統(tǒng)選品系統(tǒng)知識推理做不一致檢測并推薦給賣家修改將不同類目、屬性、標簽等跟商品關(guān)聯(lián),并為大促活動等做商品篩選#04知識圖譜與大模型探索知識圖譜與大模型Pan,

Shirui,

et

al.

"Unifying

large

language

models

andknowledge

graphs:

A

roadmap."IEEE

Transactions

on

Knowledge

and

Data

Engineering

(2024).現(xiàn)狀:知識圖譜做大模型輸入大模型做知識圖譜輸入大模型和知識圖譜協(xié)同訓練問題:知識圖譜通常很難覆蓋十分全面,借助大模型根據(jù)不斷更新的知識自動補全知識圖譜仍然是個難點借助大模型自動補全的信息準確性校驗也有待研究電商知識圖譜與大模型電商知識圖譜構(gòu)建與大模型結(jié)合大模型和知識圖譜協(xié)同訓練基于RAG

及時更新LLM

以及KG推理速度優(yōu)化多模態(tài)知識圖譜Fan,

Siqi,

et

al.

"Not

all

Layers

of

LLMs

are

Necessary

during

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論