![專利大模型的實(shí)踐與問答探索_第1頁](http://file4.renrendoc.com/view12/M0A/32/2A/wKhkGWd_aCSAevYQAAGH4d2GbAA888.jpg)
![專利大模型的實(shí)踐與問答探索_第2頁](http://file4.renrendoc.com/view12/M0A/32/2A/wKhkGWd_aCSAevYQAAGH4d2GbAA8882.jpg)
![專利大模型的實(shí)踐與問答探索_第3頁](http://file4.renrendoc.com/view12/M0A/32/2A/wKhkGWd_aCSAevYQAAGH4d2GbAA8883.jpg)
![專利大模型的實(shí)踐與問答探索_第4頁](http://file4.renrendoc.com/view12/M0A/32/2A/wKhkGWd_aCSAevYQAAGH4d2GbAA8884.jpg)
![專利大模型的實(shí)踐與問答探索_第5頁](http://file4.renrendoc.com/view12/M0A/32/2A/wKhkGWd_aCSAevYQAAGH4d2GbAA8885.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
#專利大模型的實(shí)踐與問答探索專利大模型介紹訓(xùn)練過程專利檢索+專利大模型挑戰(zhàn)和展望目錄#01專利大模型智慧芽垂直領(lǐng)域大模型Leading
Algorithm
Capabilities…AI專家檢索AI-powered
ExpertRetrieval自動(dòng)生成檢索式
AutomaticallyGenerateSearch
ExpressionsAI技術(shù)問答
Conversational
Answers
toTechnical
QuestionsPharm
GPT內(nèi)容生成
ContentGeneration算法能力Patent
GPT精準(zhǔn)檢索和專業(yè)推薦
Precision
Search
andProfessional
RecommendationMaterials
GPT對(duì)話問答 多語言翻譯Dialogue
MultilingualQ&A
Translation總結(jié)分析
Summarizeand
Analyze基于領(lǐng)域?qū)<曳答伒膹?qiáng)化學(xué)習(xí)
Reinforcement
Learning
withExpert
Feedback監(jiān)督精調(diào)
SupervisedFine-tuningRAG檢索增強(qiáng)生成
Retrieval-AugmentedGenerationAI標(biāo)引
AutomaticIndexing藥物情報(bào)助手
Drug
SearchAssistant自研大模型Self-developedlarge-scale
modelAI助手AI
AssistantAI技術(shù)預(yù)研
AI專利對(duì)比AI-powered
Technical
AI-powered
TechnicalPre-research Pre-researchAI專利和論文解讀AI-powered
Interpretationof
Patent
and
Papers垂直數(shù)據(jù)基石
Patsnap
Data
sets專利
Patent生物序列
Bio
Sequences文獻(xiàn)
Literature新聞
News書籍
Books化學(xué)結(jié)構(gòu)
Chemical
Structures適應(yīng)癥
Indication藥物
Drug靶點(diǎn)
Target論文
Papers材料性質(zhì)
Material
PropertyAI繳費(fèi)
AssistedPaying實(shí)踐的一些經(jīng)驗(yàn):有差異化的海量數(shù)據(jù)有小模型+大模型大模型:CPT+SFT+Reward+PPO(DPO)應(yīng)用場(chǎng)景數(shù)據(jù)提取產(chǎn)品場(chǎng)景RAG在SAAS行業(yè)是必要的組合飛輪算法LLM
Algorithm數(shù)據(jù)基石Data數(shù)十個(gè)小模型Bert
Based
models芽仔專利申請(qǐng)書撰寫助手
Assisted
PatentDrafting#02專利大模型訓(xùn)練領(lǐng)域數(shù)據(jù)(專利論文等246B
tokens
)專利大模型:三個(gè)版本,不斷試錯(cuò)PatentGPT①
差異化數(shù)據(jù)集Patent
GPT:超246B訓(xùn)練數(shù)據(jù),包括全球170個(gè)受理局的超1.8億專利、超1.6億論文、超2100萬新聞、超50萬投融資、超1.1億企業(yè)、超78萬市場(chǎng)報(bào)告以及40萬本書籍?dāng)?shù)據(jù)。②
算法面向業(yè)務(wù)大小模型結(jié)合:結(jié)合智慧芽沉淀的幾十種小模型算法能力,數(shù)據(jù)處理+SFT數(shù)據(jù)挖掘+小模型的監(jiān)督數(shù)據(jù);數(shù)據(jù)配方:基于垂直大模型的應(yīng)用場(chǎng)景建立獨(dú)特的數(shù)據(jù)配方;基于領(lǐng)域?qū)<曳答伒膹?qiáng)化學(xué)習(xí):擁有超過50位知識(shí)產(chǎn)權(quán)和生物醫(yī)藥專家,反饋2萬條訓(xùn)練效果數(shù)據(jù),與人類意圖保持一致;RAG檢索增強(qiáng)生成:RAG技術(shù)加強(qiáng)大模型理解能力,結(jié)合知識(shí)庫,更好理解企業(yè)私有數(shù)據(jù),實(shí)現(xiàn)問答能力的拓展。(專利搜索)③
只比垂直業(yè)務(wù)能力,不比通用能力垂直行業(yè)能力超越ChatGPT-3.5,部分超越
ChatGPT-4;專利撰寫、專利對(duì)比、專利搜索。PatentGPT通過中國專利代理師資格考試Model
Training
eGPT-3
Apr/2020TFLnd
Chip
type (V100OP/smax)
Chip
cou130
10,00Wall
clocknt (0
15time
Totaldays)
(ydays
405timeears)
Cost
($US)years
$9MLlama
1
Jan/2023A100312
2,048
21days
118years
$4MLlama
2
Jun/2023GPT-4
Aug/2022A100A100312
2,04312
25,008
350
95days
196days
6,507years
$7Myears
$224MGemini
Nov/2023TPUv4275
57,000
100days
15,616years
$440MBase
ModelParamsC
o
n
t
e
x
tLengthTokensLRPatentGPT-0.5LLAMA213
B16
k246
B2
10-5PatentGPT-1.0LLAMA270B4
k246
B2
10-5PatentGPT-1.5Mistral
8
7B45
B16
k246
B3
10-5CPT+SFT+Reward+DPO(PPO)專利大模型:數(shù)據(jù)Data
sizeData
recipeDatasets
for
LargeLanguageModels:
A
Comprehensive
SurveyPatentGPT的數(shù)據(jù)配比/guides/large-language-models#model-size-and-performance專利大模型:算法是一系列模型大小模型結(jié)合:結(jié)合智慧芽沉淀的 幾十種小模型算法能力,在精度, 性能,穩(wěn)定性,安全,長(zhǎng)文本上發(fā) 揮更大優(yōu)勢(shì);獨(dú)特?cái)?shù)據(jù)配方和策略:基于垂直大 模型的應(yīng)用場(chǎng)景建立獨(dú)特的數(shù)據(jù)配 方;基于領(lǐng)域?qū)<曳答伒膹?qiáng)化學(xué)習(xí):擁有超過50位知識(shí)產(chǎn)權(quán)專家,2w條專家撰寫的反饋數(shù)據(jù)。形成2w
SFT和10w條人類偏好數(shù)據(jù)。RAG檢索增強(qiáng)生成:R
for
G;Gfor
R;獨(dú)立的業(yè)務(wù)Embedding(非對(duì)稱,X關(guān)系對(duì)比學(xué)習(xí)等)b)a)c)d)b)SFT:InstructionTuning
unlock
pretrain
model三類數(shù)據(jù)數(shù)量:Double
descent
phenomenon融合到pretrain去預(yù)學(xué)習(xí)(
OPT-IML)Multi-stage
Instruction
Tuning/
weighted質(zhì)量(quality)Perplexity
score?正確性,gpt4-score?)多樣性(diversity)(前兩者的組合增加指標(biāo)和LOSS選擇參考:INSTRUCTION
MINING:INSTRUCTION
DATA
SELEC-TION
FOR
TUNING
LARGE
LANGUAGE
MODELS訓(xùn)練策略數(shù)據(jù)三核心專利大模型:評(píng)估MMLUC-EvalAveragePatentGPT-0.5514548PatentGPT-1.0614653.5PatentGPT-1.5595255.5ChatGPT-3.5-turbo664756.5通用能力是否正常:MMLU,C-EVAL專利領(lǐng)域公開測(cè)試集:Patent-Match@misc{ni2024mozip,title={MoZIP:
A
Multilingual
Benchmark
to
Evaluate
Large
Language
Models
in
Intellectual
Property},author={Shiwen
Ni
and
Minghuan
Tan
and
Yuelin
Bai
etc}year={2024},eprint={2402.16389},archivePrefix={arXiv},primaryClass={cs.CL}}*PatentGPT
1.5
SFT還有一些問題。PatentMatch-ENPatentMatch-ZHAverageChatGPT-3.5
turbo34.64338.8PatentGPT
0.549.559.254.4PatentGPT
1.066.27269.1PatentGPT
1.570.665.865.7專利領(lǐng)域自建測(cè)試集(面向業(yè)務(wù)):Patent-Bench專利撰寫(Drafting)、專利總結(jié)(Summary)、專利問答(QA)(PatentGPT
vs
GPT3.5-turbo,
GPT-4
evaluate)專利抽?。嚎贵w輕重鏈提取+抗原配對(duì)信息抗原:BAFF配對(duì)抗體信息:輕鏈重鏈SEQ
IDNo.1SEQ
IDNo.2CN101851291B
一種抗人BAFF單克隆抗體的重鏈和輕鏈可變區(qū)[0017]所述的輕鏈可變區(qū)的氨基酸序列如SEQ
ID
NO.1所示,重鏈可變區(qū)的氨基酸序列如SEQ
ID
NO.2所示。[0018]所述的編碼輕鏈可變區(qū)的基因序列如SEQIDNO.3所示,編碼重鏈可變區(qū)的基因序列如SEQ
ID
NO.4所示。[0019]抗人BAFF單克隆抗體的重鏈和輕鏈的可變區(qū)應(yīng)用于以人BAFF分子為靶點(diǎn)的基因工程抗體或疫苗的制備。質(zhì)量+后處理圈定專利+標(biāo)注平臺(tái)搭建人工(400+人天)5個(gè)月“LLM加速”LLM+規(guī)則4人天完成,取代大量人工標(biāo)注“傳統(tǒng)方法”4人天提取2萬組抗體,準(zhǔn)確率>99%,較人工效率提升100倍示例文本:輸出結(jié)果PatentBert+FineTuning圈定專利+標(biāo)注平臺(tái)搭建人工標(biāo)注(100+人天)2個(gè)月“小模型方法”技術(shù)方案對(duì)比:抗體抗原實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)結(jié)論含有海量領(lǐng)域知識(shí),對(duì)解決問題,更加符合“業(yè)務(wù)”Finetune之后可以取得可觀的下游任務(wù)性能提升,但多任務(wù)的“配方指令”數(shù)據(jù)是挑戰(zhàn)。在少監(jiān)督數(shù)據(jù)下,多元關(guān)系抽取,傳統(tǒng)模型很難取得好的結(jié)果,PatentGPT有明顯的優(yōu)勢(shì)目前階段,模型規(guī)模比模型架構(gòu)更加重要(scaling
law)PRF1PRF1PRF1抗體輕重鏈配對(duì)51.8%53.7%52.7%93.7%73.3%82.2%95.5%69.5%80.4%抗原名稱提取54.9%78.3%64.5%78.6%85%81.6%90.4%85%87.6%抗體-抗原關(guān)系提取53.4%52.5%53.1%79.8%62.5%70.1%90.2%65.7%76%Bert
BasedOpenAI
GPT3.5
zeroshot(1750億參數(shù))PatentGPT
v0.3(130億參數(shù))#03專利搜索與大模型結(jié)合為什么要RAG(Retrieval
Augmented
generation)模型層面減少幻覺解決更新信息的問題少量高價(jià)值數(shù)據(jù)的利用問題業(yè)務(wù)層面獲取更可信正確的結(jié)果有引用鏈接,提高可解釋性獲取新增領(lǐng)域信息解決產(chǎn)品迭代RAG架構(gòu):Retrieval-Augmented
Generation
for
Large
Language
Models以前的搜索積累是否可以用?要做哪些改變關(guān)鍵詞抽取算法的優(yōu)化,PositionRank、Copyrnn、NER、POS
Rules.(可以重新做)對(duì)比學(xué)習(xí),樣本量的突破(10w->1000w) IPC/CPC分類算法的優(yōu)化,TextCNN,BERT
classify;(標(biāo)量向量相結(jié)合的平臺(tái))Pretrain:
PatentBertModel
ParameterTotal
sizeH=768,
L=12,A=12110MH=768,
L=12,A=12Patent_BERT_CN
(our)Patent_BERT_EN_Uncased_v2.0
(our)Pa
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年雙方房產(chǎn)購置策劃協(xié)議書
- 2025年停車場(chǎng)安全管理合同模板
- 2025年企業(yè)員工食堂經(jīng)營合同
- 2025年上海餐飲股權(quán)轉(zhuǎn)讓合同范文
- 2025年度項(xiàng)目申請(qǐng)盡職調(diào)查服務(wù)協(xié)議樣本
- 2025年冷鏈貨物運(yùn)輸服務(wù)協(xié)議樣本
- 2025年共營項(xiàng)目合作協(xié)議
- 2025年企業(yè)宣傳冊(cè)印刷合同樣本
- 2025年智能鎖銷售合同協(xié)議
- 2025年安徽貨運(yùn)叢業(yè)資格證考試題及答案
- 屋頂分布式光伏發(fā)電施工組織設(shè)計(jì)
- 《紙杯變變變》課件
- 2024年山東魯商集團(tuán)有限公司招聘筆試參考題庫含答案解析
- 財(cái)務(wù)部門職責(zé)財(cái)務(wù)部工作職能
- 《月歷上的數(shù)字的奧秘》
- 第六章ACS6000勵(lì)磁單元
- 教科版科學(xué)四年級(jí)下冊(cè)第一單元《植物的生長(zhǎng)變化》單元作業(yè)設(shè)計(jì)
- 卡通開學(xué)季安全教育幼兒開學(xué)第一課小學(xué)一二三年級(jí)PPT通用模板開學(xué)第一課安全教育主題課件開學(xué)第一課安全主題班會(huì)
- 北郵電子電路基礎(chǔ)期中習(xí)題課件
- DB21∕T 1581-2020 數(shù)字林業(yè) 森林資源分類編碼 屬性代碼
- 蛋白質(zhì)自動(dòng)測(cè)序儀
評(píng)論
0/150
提交評(píng)論