GPT4：模型能力提升推動(dòng)應(yīng)用升級(jí)

上傳人：1*** IP屬地：山西上傳時(shí)間：2025-01-14 格式：DOCX 頁(yè)數(shù)：28 大?。?49.72KB 積分：19.9 舉報(bào) 版權(quán)申訴

GPT4：模型能力提升推動(dòng)應(yīng)用升級(jí)_第2頁(yè)

GPT4：模型能力提升推動(dòng)應(yīng)用升級(jí)_第3頁(yè)

GPT4：模型能力提升推動(dòng)應(yīng)用升級(jí)_第4頁(yè)

GPT4：模型能力提升推動(dòng)應(yīng)用升級(jí)_第5頁(yè)

已閱讀5頁(yè)，還剩23頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分，請(qǐng)務(wù)必一起閱讀。1計(jì)算機(jī)華泰研究GPT-4：多模態(tài)確認(rèn)，在專業(yè)和學(xué)術(shù)上表現(xiàn)亮眼北京時(shí)間3月15日GPT-4正式發(fā)布，支持圖片、文字等多模態(tài)輸入，以及文本輸出。根據(jù)相關(guān)技術(shù)文檔，1）模型架構(gòu)（包括模型大小）、硬件、訓(xùn)練計(jì)算、數(shù)據(jù)集構(gòu)造、訓(xùn)練方法等細(xì)節(jié)未公布；2）GPT-4于2022年8月完搭建了開(kāi)源OpenAIEvals模型評(píng)估框架，支持現(xiàn)有準(zhǔn)則和自定義準(zhǔn)則。4）GPT-4API已開(kāi)放等待列表（waitlist價(jià)格提升明顯。實(shí)驗(yàn)結(jié)果表明，GPT-4在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上表現(xiàn)出了人類的水平。技術(shù)拆解：構(gòu)建深度學(xué)習(xí)堆棧，新增獎(jiǎng)勵(lì)訓(xùn)練模型GPT-4項(xiàng)目重點(diǎn)之一是構(gòu)建大范圍可預(yù)測(cè)的深度學(xué)習(xí)堆棧。堆棧（stack）能夠通過(guò)評(píng)估小計(jì)算量模型的性能，準(zhǔn)確預(yù)測(cè)大計(jì)算量模型的性能，減少訓(xùn)練成本。訓(xùn)練方法上，預(yù)訓(xùn)練之后，GPT-4采用了與InstructGPT同樣的方法進(jìn)行基于人類反饋的強(qiáng)化學(xué)習(xí)，并添加了基于規(guī)則的獎(jiǎng)勵(lì)模型來(lái)進(jìn)一步引導(dǎo)模型產(chǎn)生人類預(yù)期的結(jié)果。多模態(tài)輸入上，支持圖片和文本的多模態(tài)輸入，但是，OpenAI未在技術(shù)文檔中給出圖片模態(tài)的相關(guān)技術(shù)細(xì)節(jié)。安全性討論：引入專家提高模型安全性和一致性O(shè)penAI在技術(shù)文檔中耗費(fèi)大量篇幅討論模型安全性問(wèn)題。從目前結(jié)果看，GPT-4仍然存在“幻覺(jué)”和推理錯(cuò)誤，并在模型校準(zhǔn)上表現(xiàn)不佳。為了進(jìn)一步提高模型安全性，OpenAI聘請(qǐng)了來(lái)自AI對(duì)齊風(fēng)險(xiǎn)、網(wǎng)絡(luò)安全、生物風(fēng)險(xiǎn)和國(guó)際安全等領(lǐng)域的50多名專家對(duì)模型進(jìn)行對(duì)抗性測(cè)試，涉及幻覺(jué)、有害對(duì)模型安全性的關(guān)注，或是為未來(lái)大規(guī)模商業(yè)化應(yīng)用做鋪墊。模型能力提升，應(yīng)用或進(jìn)一步升級(jí)GPT4相比GPT3.5在多模態(tài)、推理能力、支持文本長(zhǎng)度方面有了較明顯的提升，有望推動(dòng)應(yīng)用進(jìn)一步升級(jí)。對(duì)多模態(tài)的支持有望加速PDF、圖像等領(lǐng)域的生產(chǎn)力應(yīng)用升級(jí)，或?qū)⑼苿?dòng)生產(chǎn)力應(yīng)用效率的進(jìn)一步提升。相關(guān)公司包括：萬(wàn)興科技、福昕軟件、金山辦公。更強(qiáng)的推理能力與語(yǔ)言理解能力有助于進(jìn)一步優(yōu)化服務(wù)型應(yīng)用的使用效果，包含垂類信息的搜索引擎、客服等產(chǎn)品的功能有望進(jìn)一步升級(jí)。相關(guān)公司包括：三六零、同花順。風(fēng)險(xiǎn)提示：宏觀經(jīng)濟(jì)波動(dòng)，技術(shù)進(jìn)步不及預(yù)期。本報(bào)告內(nèi)容均基于客觀信息整理，不構(gòu)成投資建議。計(jì)算機(jī)增持(維持)研究員SACNo.S0570519080006SFCNo.BQZ938聯(lián)系人SACNo.S0570121070173聯(lián)系人SACNo.S0570122080053xiechunsheng@+(86)2129872036penggang@+(86)2128972228yuanzeshi@+(86)2128972228行業(yè)走勢(shì)圖計(jì)算機(jī)滬深300(%)(3)(14)(25)Mar-22Jul-22Nov-22Mar-23資料來(lái)源：Wind，華泰研究免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分，請(qǐng)務(wù)必一起閱讀。2GPT-4：多模態(tài)確認(rèn)，在專業(yè)和學(xué)術(shù)上表現(xiàn)亮眼 3GPT-4：支持多模態(tài)輸入，安全問(wèn)題或成為L(zhǎng)LM關(guān)注焦點(diǎn) 3能力測(cè)試：在專業(yè)和學(xué)術(shù)基準(zhǔn)上表現(xiàn)出了人類的水平 4技術(shù)拆解：構(gòu)建深度學(xué)習(xí)堆棧，新增獎(jiǎng)勵(lì)訓(xùn)練模型 8項(xiàng)目重點(diǎn)：構(gòu)建大范圍可預(yù)測(cè)的深度學(xué)習(xí)堆棧 8訓(xùn)練方法：在InstructGPT方法基礎(chǔ)上增加新的獎(jiǎng)勵(lì)模型 9多模態(tài)：支持圖片輸入，未提供具體算法 10安全性討論：引入專家提高模型安全性和一致性 12局限性：仍存在推理錯(cuò)誤與校準(zhǔn)下降等問(wèn)題 12風(fēng)險(xiǎn)與改進(jìn)：聘請(qǐng)專家進(jìn)行對(duì)抗性測(cè)試 13模型能力進(jìn)一步提升，應(yīng)用有望進(jìn)一步升級(jí) 15風(fēng)險(xiǎn)提示免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分，請(qǐng)務(wù)必一起閱讀。3GPT-4支持多模態(tài)輸入，安全問(wèn)題或成關(guān)注焦點(diǎn)。北京時(shí)間3月15日凌晨，OpenAI召開(kāi)發(fā)布會(huì)，正式宣布GPT模型家族中最新的大型語(yǔ)言模型（LLM）—GPT-4。GPT-4可以接受圖像和文本輸入并產(chǎn)生文本輸出。同時(shí)，OpenAI發(fā)布了GPT-4相關(guān)技術(shù)文檔。從技術(shù)文檔結(jié)構(gòu)看，OpenAI并未對(duì)GPT-4模型本身做過(guò)多介紹，而是將大量篇幅留給模型安全性相關(guān)討論。我們認(rèn)為，在LLM走向大規(guī)模應(yīng)用的過(guò)程中，隨著模型規(guī)模和能力的提升，將暴露出更多安全方面的問(wèn)題，或?qū)⒊蔀槲磥?lái)LLM的重要關(guān)注點(diǎn)。23-38各類考試題的來(lái)源和設(shè)置，RLHF對(duì)模型的影資料來(lái)源：《GPT-4TechnicalReport》，OpenAI（2023）、華泰研究年8月完成訓(xùn)練，此后，OpenAI一直在評(píng)估、對(duì)抗性測(cè)試并迭代和改進(jìn)模型，并提出各種系統(tǒng)級(jí)安全緩解措施。此外，OpenAI在GPT-4文檔中明確提出，考慮到競(jìng)爭(zhēng)格局和大型模型（如GPT-4）的安全影響，本文檔沒(méi)有包含有關(guān)架構(gòu)（包括模型大小）、硬件、訓(xùn)練計(jì)算、數(shù)據(jù)集構(gòu)造、訓(xùn)練方法或類似內(nèi)容的進(jìn)一步細(xì)節(jié)。文檔明確提供的內(nèi)容包括：1）GPT-4是一個(gè)基于transformer的預(yù)訓(xùn)練模型，用于預(yù)測(cè)文字的下一個(gè)token；2）使用公開(kāi)可用數(shù)據(jù)（如互聯(lián)網(wǎng)數(shù)據(jù)）和第三方提供商授權(quán)的數(shù)據(jù)；3）使用來(lái)自人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）對(duì)模型進(jìn)行微調(diào)。免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分，請(qǐng)務(wù)必一起閱讀。4資料來(lái)源：《GPT-4TechnicalReport》，OpenAI（2023）、華泰研究OpenAI搭建了開(kāi)源OpenAIEvals模型評(píng)估框架。OpenAIEvals模型評(píng)估框架（/openai/evals）用于創(chuàng)建和運(yùn)行各類評(píng)估準(zhǔn)則（benchmarks支持用戶自定義評(píng)估邏輯。目前，OpenAIEvals與現(xiàn)有的基準(zhǔn)測(cè)試兼容，并可用于跟蹤部署中的模型性能。未來(lái)，OpenAI計(jì)劃逐步增加測(cè)試基準(zhǔn)的多樣性，以代表更廣泛的故障模式和更難的任務(wù)集。GPT-4API已開(kāi)放等待列表（waitlistAPI價(jià)格提升明顯。當(dāng)獲得訪問(wèn)權(quán)限后，即可以對(duì)GPT-4模型進(jìn)行純文本請(qǐng)求（圖像輸入仍然處于有限的測(cè)試階段OpenAI將自動(dòng)將模型更新為推薦的穩(wěn)定模型。此外，GPT-4提供兩個(gè)版本，GPT-4-8k和GPT-4-32k，前者支持的上下文長(zhǎng)度為8192個(gè)token，后者支持32768-context（約50頁(yè)文本，提供有限訪問(wèn)）。GPT-4-8k定價(jià)為每1k提示token0.03美元，每1k完成token0.06美元。默認(rèn)速率限制為每分鐘40k個(gè)token，每分鐘200個(gè)請(qǐng)求；GPT-4-32k定價(jià)為每1k提示token0.06美元，每1k完成token0.12美元。（API價(jià)格網(wǎng)址/pricing）GPTGPT-4API價(jià)格GPTGPT-3.5API價(jià)格資料來(lái)源：《GPT-4TechnicalReport》，OpenAI（2023）、華泰研究GPT-4在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上表現(xiàn)出了人類的水平。OpenAI在一系列不同的基準(zhǔn)上測(cè)試了GPT-4，包括最初為人類設(shè)計(jì)的模擬考試?？荚囶}目包括多項(xiàng)選擇題和自由問(wèn)答題。OpenAI為每種考試形式設(shè)計(jì)了單獨(dú)的提示（prompt并且在需要的場(chǎng)合增加了圖像輸入。GPT-4并未專門針對(duì)這些考試科目進(jìn)行訓(xùn)練，但仍取得了優(yōu)秀的成績(jī)，例如以大約前10%的成績(jī)通過(guò)模擬律師資格考試，而GPT-3.5在該考試中成績(jī)?yōu)楹?0%。免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分，請(qǐng)務(wù)必一起閱讀。5資料來(lái)源：《GPT-4TechnicalReport》，OpenAI（2023）、華泰研究GPT-4在考試中展現(xiàn)的能力未受到RLHF的顯著影響?；谌祟惙答伒膹?qiáng)化學(xué)習(xí)（RLHF）是InstructGPT中引入的方法，通過(guò)獎(jiǎng)勵(lì)的形式讓模型輸出向人類希望的方向發(fā)展。為了測(cè)試RLHF對(duì)模型能力的影響，OpenAI在GPT-4基礎(chǔ)模型和RLHF后的GPT-4模型上運(yùn)行了考試基準(zhǔn)測(cè)試中的多項(xiàng)選擇題部分。在所有考試中，基礎(chǔ)模型的平均分為73.7%，而RLHF模型的平均分為74.0%，這表明經(jīng)過(guò)RLHF后并沒(méi)有顯著改變基礎(chǔ)模型的能力。資料來(lái)源：《GPT-4TechnicalReport》，OpenAI（2023）、華泰研究免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分，請(qǐng)務(wù)必一起閱讀。6GPT-4在評(píng)估語(yǔ)言模型的傳統(tǒng)基準(zhǔn)上同樣效果卓越。在評(píng)估GPT-4在語(yǔ)言模型的測(cè)試基準(zhǔn)時(shí)，對(duì)所有模型使用了few-shot。測(cè)試基準(zhǔn)涵蓋問(wèn)題多選、常識(shí)推理、代碼、閱讀理解、數(shù)學(xué)問(wèn)題等。結(jié)果表明，GPT-4大大優(yōu)于GPT-3.5，以及以前最先進(jìn)的（SOTA）模型，甚至超過(guò)了某些在特定測(cè)試標(biāo)準(zhǔn)上訓(xùn)練過(guò)的模型。資料來(lái)源：《GPT-4TechnicalReport》，OpenAI（2023）、華泰研究GPT-4在大多數(shù)語(yǔ)言上的結(jié)果都優(yōu)于GPT3.5和現(xiàn)有語(yǔ)言模型。現(xiàn)有的多數(shù)機(jī)器學(xué)習(xí)測(cè)試基準(zhǔn)都是基于英語(yǔ)編寫的。為了測(cè)試GPT-4在其他語(yǔ)言中的表現(xiàn)，OpenAI使用AzureTranslate將MMLU基準(zhǔn)測(cè)試（涵蓋57個(gè)主題的多項(xiàng)選擇問(wèn)題）翻譯成各種語(yǔ)言。結(jié)果表明，GPT-4在大多數(shù)語(yǔ)言上的結(jié)果都優(yōu)于GPT3.5和現(xiàn)有語(yǔ)言模型的英語(yǔ)語(yǔ)言性能，包括全球使用人數(shù)較低的語(yǔ)言，如拉脫維亞語(yǔ)、威爾士語(yǔ)和斯瓦希里語(yǔ)。免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分，請(qǐng)務(wù)必一起閱讀。7資料來(lái)源：《GPT-4TechnicalReport》，OpenAI（2023）、華泰研究GPT-4在跟蹤用戶意圖的能力方面提高顯著。據(jù)OpenAI數(shù)據(jù)，OpenAI收集了通過(guò)ChatGPT和OpenAIAPI提交的用戶提示，過(guò)濾掉不允許、敏感內(nèi)容或過(guò)于簡(jiǎn)單的提示，并將這些提示和響應(yīng)發(fā)送給人工標(biāo)注員。根據(jù)指示，標(biāo)注人員在不知道答案來(lái)源于哪種模型的情況下，判斷給出的提示是否符合用戶的要求。在5214個(gè)提示數(shù)據(jù)集中，GPT-4生成的響應(yīng)在70.2%的提示上優(yōu)于GPT-3.5生成的響應(yīng)。免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分，請(qǐng)務(wù)必一起閱讀。8GPT-4項(xiàng)目的一大重點(diǎn)是構(gòu)建大范圍可預(yù)測(cè)的深度學(xué)習(xí)堆棧。簡(jiǎn)而言之，該堆棧（stack，論文中也叫基礎(chǔ)設(shè)施和優(yōu)化方法）能夠通過(guò)評(píng)估小計(jì)算量模型的性能，準(zhǔn)確預(yù)測(cè)大計(jì)算量模型的性能，減少訓(xùn)練成本。以GPT-4為例，雖然官方未給出具體的模型參數(shù)，但是指出對(duì)于GPT-4這樣的大型訓(xùn)練，進(jìn)行廣泛的特定于模型的調(diào)優(yōu)是不可行的。而大范圍可預(yù)測(cè)的深度學(xué)習(xí)堆棧，能夠通過(guò)計(jì)算比GPT-4計(jì)算量少1000x-10000x（x代表倍）的模型性能，預(yù)測(cè)出“完全體”GPT-4的性能，實(shí)現(xiàn)在訓(xùn)練之前了解模型的功能，并及時(shí)改善關(guān)于對(duì)齊、安全性和部署的決策。該方法的理論依據(jù)是：經(jīng)過(guò)適當(dāng)訓(xùn)練的大型語(yǔ)言模型的最終損失，很好地近似于用于訓(xùn)練模型的計(jì)算量的冪律。資料來(lái)源：《GPT-4TechnicalReport》，OpenAI（2023）、華泰研究除了預(yù)測(cè)最終損失，還可以使用其他可解釋的能力指標(biāo)進(jìn)行預(yù)測(cè)。其中一個(gè)指標(biāo)是HumanEval數(shù)據(jù)集的通過(guò)率。HumanEval數(shù)據(jù)集衡量的是合成不同復(fù)雜度的Python函數(shù)的能力。通過(guò)計(jì)算比GPT-4計(jì)算量少1000x模型在HumanEval數(shù)據(jù)集子集的通過(guò)率，成功預(yù)測(cè)了GPT-4在HumanEval數(shù)據(jù)集子集的通過(guò)率。資料來(lái)源：《GPT-4TechnicalReport》，OpenAI（2023）、華泰研究免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分，請(qǐng)務(wù)必一起閱讀。9預(yù)訓(xùn)練之后，GPT-4采用了與InstructGPT同樣的方法進(jìn)行RLHF。OpenAI首先從人類標(biāo)注員處收集演示數(shù)據(jù)（給定一個(gè)輸入，演示模型應(yīng)該如何響應(yīng)并對(duì)模型的輸出數(shù)據(jù)進(jìn)行排名（給定一個(gè)輸入和幾個(gè)輸出，將輸出從最好到最差進(jìn)行排序）。然后執(zhí)行以下步驟：1）利用收集到的人工標(biāo)注演示數(shù)據(jù)，使用監(jiān)督學(xué)習(xí)（SFT）來(lái)模擬演示中的行為以微調(diào)GPT-4；2）使用收集到的排名數(shù)據(jù)來(lái)訓(xùn)練獎(jiǎng)勵(lì)模型（RM該模型預(yù)測(cè)標(biāo)注員對(duì)給定輸出的平均偏好；3）使用獎(jiǎng)勵(lì)模型和強(qiáng)化學(xué)習(xí)（特別是PPO算法優(yōu)化GPT-4SFT模型。收集描述性數(shù)據(jù)，并訓(xùn)練一個(gè)有監(jiān)督模型從prompt數(shù)據(jù)庫(kù)中取樣，并得到數(shù)個(gè)模型的回答由人類訓(xùn)練師對(duì)回答進(jìn)行排序收集的數(shù)據(jù)用來(lái)訓(xùn)練我們的獎(jiǎng)勵(lì)模型并訓(xùn)練一個(gè)獎(jiǎng)勵(lì)用PPO強(qiáng)化學(xué)習(xí)算法通過(guò)獎(jiǎng)勵(lì)模型優(yōu)化策略從prompt數(shù)據(jù)庫(kù)中取樣由人類訓(xùn)練師撰寫期望的輸出值收集的數(shù)據(jù)用來(lái)以監(jiān)督學(xué)習(xí)的方式微調(diào)GPT-3模型向一個(gè)6歲智力的模型解釋強(qiáng)化學(xué)習(xí)B回答B(yǎng)回答B(yǎng)：“..”D回答D：“..”回答A：“..”C回答C：“..”從prompt數(shù)據(jù)庫(kù)中另外取樣Q示例：“寫一段關(guān)于..的故事”策略給出回答獎(jiǎng)勵(lì)模型對(duì)回答打分用獎(jiǎng)勵(lì)通過(guò)PPO算法優(yōu)化策略PPO示例：“很久以前……”RMrk對(duì)行為給出獎(jiǎng)勵(lì)與對(duì)行為給出獎(jiǎng)勵(lì)與懲罰……DD＞C＞A＞BD＞C＞A＞B資料來(lái)源：《Traininglanguagemodelstofollowinstructionswithhumanfeedback》、華泰研究基于規(guī)則的獎(jiǎng)勵(lì)模型以更細(xì)的粒度進(jìn)一步引導(dǎo)模型。RLHF微調(diào)后的模型仍然會(huì)不時(shí)出現(xiàn)人類不想看到的行為。因此，OpenAI在RLHF基礎(chǔ)上增加基于規(guī)則的獎(jiǎng)勵(lì)模型（RBRMs）。RBRM是一組zero-shot的GPT-4分類器（classifier）。分類器在RLHF微調(diào)期間針對(duì)正確行為（例如拒絕生成有害內(nèi)容或不拒絕無(wú)害請(qǐng)求向GPT-4策略模型提供額外的獎(jiǎng)勵(lì)信號(hào)。RBRM有三個(gè)輸入：提示（可選）、策略模型的輸出和人類編寫的用于如何評(píng)估輸出的規(guī)則。在安全相關(guān)的訓(xùn)練提示集上，獎(jiǎng)勵(lì)GPT-4拒絕有害內(nèi)容請(qǐng)求，例如非法建議；同樣獎(jiǎng)勵(lì)GPT-4沒(méi)有拒絕對(duì)安全和可回答問(wèn)題的請(qǐng)求。免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分，請(qǐng)務(wù)必一起閱讀。10GPT-4能夠?qū)崿F(xiàn)圖片和文本的多模態(tài)輸入。GPT-4接受由圖像和文本組成的提示（prompt，與純文本設(shè)置類似允許用戶指定任何視覺(jué)或語(yǔ)言任務(wù)，同時(shí)輸出文本信息。此外，語(yǔ)言模型中的few-shot提示和思維鏈等，在GPT-4中同樣有效。但是，OpenAI未在技術(shù)文檔中給出如何實(shí)現(xiàn)圖片的輸入，以及如何對(duì)圖片進(jìn)一步處理以注入到模型中。資料來(lái)源：《GPT-4TechnicalReport》，OpenAI（2023）、華泰研究免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分，請(qǐng)務(wù)必一起閱讀。11資料來(lái)源：《GPT-4TechnicalReport》，OpenAI（2023）、華泰研究免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分，請(qǐng)務(wù)必一起閱讀。12GPT-4仍存在“幻覺(jué)”和推理錯(cuò)誤?；糜X(jué)指的是產(chǎn)生與某些來(lái)源有關(guān)的無(wú)意義或不真實(shí)的內(nèi)容。但是，與GPT-3.5模型相比，GPT-4顯著減少了幻覺(jué)，并在內(nèi)部的對(duì)抗性事實(shí)性評(píng)估中，在所有項(xiàng)的準(zhǔn)確率均分比最新的GPT-3.5高出19pct。與ChatGPT類似，GPT-4寫的訓(xùn)練數(shù)據(jù)均是2021年9月之前的，因此缺乏對(duì)該日期之后的知識(shí)的掌握，會(huì)犯一些簡(jiǎn)單的推理錯(cuò)誤，接受用戶的明顯錯(cuò)誤陳述，或在在生成的代碼中存在安全漏洞。資料來(lái)源：《GPT-4TechnicalReport》，OpenAI（2023）、華泰研究RLHF顯著提高了GPT-4在TruthfulQA公共基準(zhǔn)測(cè)試上的表現(xiàn)，但程度仍欠佳。TruthfulQA基準(zhǔn)測(cè)試了模型從對(duì)抗選擇的一組不正確的語(yǔ)句中分離事實(shí)的能力。GPT-4基本模型在TruthfulQA基準(zhǔn)上的表現(xiàn)略好于GPT-3.5。經(jīng)過(guò)RLHF訓(xùn)練后，GPT-4相比于同樣經(jīng)過(guò)RHLF的GPT-3.5-turbo在準(zhǔn)確率上領(lǐng)先超10pct。但是，即使經(jīng)過(guò)RLHF訓(xùn)練，GPT-4在TruthfulQA上的準(zhǔn)確率也只有60%，未達(dá)到更高水平。資料來(lái)源：《GPT-4TechnicalReport》，OpenAI（2023）、華泰研究免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分，請(qǐng)務(wù)必一起閱讀。13訓(xùn)練后的GPT-4模型在模型校準(zhǔn)上出現(xiàn)性能下降。預(yù)訓(xùn)練的模型是高度校準(zhǔn)的，模型對(duì)答案的預(yù)測(cè)置信度通常與正確的概率相匹配。然而，在后訓(xùn)練（post-training）過(guò)程中，校準(zhǔn)情況發(fā)生顯著下降。OpenAI未給出具體原因。資料來(lái)源：《GPT-4TechnicalReport》，OpenAI（2023）、華泰研究OpenAI投入了大量的精力來(lái)提高GPT-4的安全性和一致性。GPT-4與較小的語(yǔ)言模型存在類似的風(fēng)險(xiǎn)，包括生成有害的建議、有bug的代碼或不準(zhǔn)確的信息。然而，GPT-4更強(qiáng)大的功能可能會(huì)帶來(lái)新的風(fēng)險(xiǎn)面。為了了解這些風(fēng)險(xiǎn)的程度，OpenAI聘請(qǐng)了來(lái)自AI對(duì)齊風(fēng)險(xiǎn)、網(wǎng)絡(luò)安全、生物風(fēng)險(xiǎn)和國(guó)際安全等領(lǐng)域的50多名專家對(duì)模型進(jìn)行對(duì)抗性測(cè)試。資料來(lái)源：《GPT-4TechnicalReport》，OpenAI（2023）、華泰研究OpenAI從11個(gè)方面對(duì)GPT-4風(fēng)險(xiǎn)進(jìn)行了一系列定性和定量評(píng)估。包括幻覺(jué)、有害內(nèi)容、虛假信息、武器擴(kuò)散、隱私、網(wǎng)絡(luò)安全等。通過(guò)評(píng)估，能夠進(jìn)一步了解GPT-4的能力、限制和風(fēng)險(xiǎn)，并幫助提供解決方案、迭代測(cè)試和構(gòu)建模型的更安全版本等。免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分，請(qǐng)務(wù)必一起閱讀。14風(fēng)險(xiǎn)名稱（英文）風(fēng)險(xiǎn)名稱（中文）風(fēng)險(xiǎn)描述Hallucinations幻覺(jué)產(chǎn)生與某些來(lái)源有關(guān)的無(wú)意義或不真實(shí)的內(nèi)容Harmfulcontent有害內(nèi)容違反策略的內(nèi)容，或可能對(duì)個(gè)人或社會(huì)造成傷害的內(nèi)容Harmsofrepresentation,allocation,andqualityofservice表示、分配和服務(wù)質(zhì)量的危害性加強(qiáng)和重現(xiàn)特定的偏見(jiàn)和世界觀，包括對(duì)某些邊緣群體的有害刻板印象和貶損聯(lián)想Disinformationandinfluenceoperations虛假信息和影響操作生成逼真而有針對(duì)性的內(nèi)容，包括新聞文章、推文、對(duì)話和電子郵件；生成旨在誤導(dǎo)的內(nèi)容的風(fēng)險(xiǎn)Proliferationofconventionalandunconventionalweapons常規(guī)和非常規(guī)武器的擴(kuò)散某些LLM能力可能具有軍民兩用的潛力，這意味著該模型可用于“商業(yè)和軍事或擴(kuò)散應(yīng)用”Privacy隱私GPT-4從各種許可的、創(chuàng)建的和公開(kāi)可用的數(shù)據(jù)源中學(xué)習(xí)，其中可能包括公開(kāi)可用的個(gè)人信息Cybersecurity網(wǎng)絡(luò)安全沒(méi)有改進(jìn)現(xiàn)有的偵察、漏洞利用和網(wǎng)絡(luò)導(dǎo)航工具，并且在復(fù)雜和高級(jí)活動(dòng)（如新型漏洞識(shí)別）方面不如現(xiàn)有工具有效Potentialforriskyemergentbehaviors潛在的危險(xiǎn)緊急行為創(chuàng)造和執(zhí)行長(zhǎng)期計(jì)劃的能力，積累權(quán)力和資源（“權(quán)力尋求”）的能力，以及表現(xiàn)出越來(lái)越“主觀”的行為等Economicimpacts經(jīng)濟(jì)影響GPT-4或后續(xù)模型可能會(huì)導(dǎo)致某些工作的自動(dòng)化。這可能導(dǎo)致勞動(dòng)力流失Acceleration加速影響AI過(guò)快發(fā)展導(dǎo)致安全標(biāo)準(zhǔn)的下降、不良規(guī)范的擴(kuò)散，加劇了與人工智能相關(guān)的社會(huì)風(fēng)險(xiǎn)Overreliance過(guò)度依賴當(dāng)用戶過(guò)度信任和依賴模型時(shí)，就會(huì)出現(xiàn)過(guò)度依賴，這可能會(huì)導(dǎo)致未被注意到的錯(cuò)誤和不充分的監(jiān)督資料來(lái)源：《GPT-4TechnicalReport》，OpenAI（2023）、華泰研究OpenAI還在模型層面對(duì)GPT-4進(jìn)行改進(jìn)。例如，在預(yù)訓(xùn)練階段，過(guò)濾了GPT-4數(shù)據(jù)集組合，減少不適當(dāng)?shù)奈谋緝?nèi)容數(shù)量；通過(guò)內(nèi)部訓(xùn)練的分類器和基于詞典的方法來(lái)識(shí)別被標(biāo)記為極有可能包含不適當(dāng)內(nèi)容的文件，并將其從預(yù)訓(xùn)練集中移除。此外，上述基于規(guī)則的獎(jiǎng)勵(lì)模型（RBRMs）引導(dǎo)了模型朝人類想要的方向改進(jìn)。與GPT-3.5相比，在敏感性問(wèn)題和不被允許的問(wèn)題上，GPT-4不正確的提示率大大下降。資料來(lái)源：《GPT-4TechnicalReport》，OpenAI（2023）、華泰研究免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分，請(qǐng)務(wù)必一起閱讀。15支持多模態(tài)，應(yīng)用范圍進(jìn)一步拓寬。GPT-4與僅能處理自然語(yǔ)言任務(wù)的GPT-3.5相比，它能夠同時(shí)處理圖像及文本輸入，并生成文本輸出。GPT-4可以完成一些傳統(tǒng)的視覺(jué)語(yǔ)言任務(wù)，如圖像描述、生成字幕、圖像分類等。此外，GPT-4還具有較強(qiáng)的邏輯分析能力，可以對(duì)圖像中的內(nèi)容進(jìn)行合理的推測(cè)，并給出用戶需要的答案?；谶@種能力，GPT-4可以完成一系列更為豐富和復(fù)雜的任務(wù)，比如根據(jù)數(shù)據(jù)圖表回答定量問(wèn)題、分析圖像中主體的異常情況、依據(jù)上傳的PDF長(zhǎng)文檔總結(jié)摘要等，進(jìn)一步擴(kuò)展了語(yǔ)言模型的應(yīng)用場(chǎng)景。我們認(rèn)為多模態(tài)的實(shí)現(xiàn)有望加速PDF、圖像等領(lǐng)域的生產(chǎn)力應(yīng)用升級(jí)，或?qū)⑼苿?dòng)生產(chǎn)力應(yīng)用效率的進(jìn)一步提升。資料來(lái)源：公司官網(wǎng)、華泰研究具備更強(qiáng)推理能力。GPT-4在處理復(fù)雜的文本任務(wù)時(shí)表現(xiàn)出了比GPT-3.5更強(qiáng)的優(yōu)勢(shì)。OpenAI團(tuán)隊(duì)分別對(duì)GPT-4和GPT-3.5在多個(gè)人類考試上進(jìn)行了測(cè)試。OpenAI團(tuán)隊(duì)并沒(méi)有針對(duì)這些考試專門訓(xùn)練GPT-4，并且在測(cè)試過(guò)程中，如果發(fā)現(xiàn)某個(gè)考試中有和訓(xùn)練數(shù)據(jù)重復(fù)的問(wèn)題，研究人員會(huì)剔除重復(fù)問(wèn)題并生成新的考試變體，再次對(duì)模型進(jìn)行測(cè)試，并取兩次考試中的最低分作為最終成績(jī)。結(jié)果顯示，在大多數(shù)考試中，尤其是與數(shù)學(xué)和推理相關(guān)的考試中，GPT-4相比于GPT-3.5有了顯著提升，在學(xué)術(shù)和專業(yè)測(cè)試中甚至能夠達(dá)到與人類相當(dāng)?shù)乃健？荚嘦niformBarExam考試簡(jiǎn)介是一種統(tǒng)一的律師資格考試，包括三個(gè)部分：GPT-4GPT-3.5分?jǐn)?shù)298/400Percentile~90th213分?jǐn)?shù)/400Percentile~10thLSAT多州隨筆考試(MEE)、多州實(shí)務(wù)考試(MPT)和多州法律考試(MBE)。法學(xué)院入學(xué)考試，包含閱讀理解、分析性推理、邏輯推理和寫作4部分。~88th~40thSATMath美國(guó)高考的數(shù)學(xué)部分，主要涉及三個(gè)領(lǐng)域：代數(shù)的核心、問(wèn)題解決和數(shù)據(jù)分析、高級(jí)數(shù)學(xué)。700/800~89th590/800~70thGRE-Quantitative美國(guó)研究生考試的數(shù)學(xué)部分，主要涉及四個(gè)領(lǐng)域：算術(shù)、代數(shù)、幾何和數(shù)據(jù)分析。/170~80th/170~25thGRE-Verbal美國(guó)研究生考試的語(yǔ)文部分，主要包括閱讀理解、文字補(bǔ)全、句子等價(jià)三種題型。/170~99th/170~63rdUSABOSemifinalExam2020是美國(guó)生物奧林匹克競(jìng)賽的半決賽考試，包含多項(xiàng)選擇題和自由回答題，主要考察生物學(xué)的理論知識(shí)和實(shí)驗(yàn)技能。87/15099th-100th43/15031st-33rd注：Percentile代表GPT-4得分超過(guò)的參與考試人數(shù)占總?cè)藬?shù)的百分比資料來(lái)源：《GPT-4TechnicalReport》，OpenAI、華泰研究免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分，請(qǐng)務(wù)必一起閱讀。16資料來(lái)源：考試官網(wǎng)、華泰研究支持更長(zhǎng)文本交互，語(yǔ)言理解生成能力進(jìn)一步提升。GPT系列模型屬于自回歸語(yǔ)言模型，它的任務(wù)是根據(jù)前面的單詞預(yù)測(cè)下一個(gè)單詞。為了生成每個(gè)單詞，模型需要利用前面所有的單詞作為信息。據(jù)OpenAI官網(wǎng)，GPT-3.5的輸入及輸出總長(zhǎng)度限制為4097個(gè)token。GPT-4支持最多32768個(gè)token的上下文對(duì)話，一方面可以讓模型捕捉到更多的信息，從而提高語(yǔ)言理解和生成的質(zhì)量和連貫性。另一方面更長(zhǎng)的輸入及輸出能夠支持更加復(fù)雜問(wèn)題的解決，如利用GPT-4輔助報(bào)稅，并得到詳細(xì)的推理過(guò)程，進(jìn)行跨文本處理任務(wù)，幫助用戶總結(jié)兩篇長(zhǎng)文章之間的共同點(diǎn)與差異等。我們認(rèn)為更強(qiáng)的推理能力與語(yǔ)言理解能力有助于進(jìn)一步優(yōu)化服務(wù)型應(yīng)用的使用效果，包含垂類信息的搜索引擎、客服等產(chǎn)品的功能有望進(jìn)一步升級(jí)。輸入及輸出最大token數(shù)對(duì)應(yīng)詞數(shù)GPT-432,76822,938GPT-3.54,0972,868GPT-32,0491,434Codex8,0015,601注：對(duì)應(yīng)詞數(shù)按1token=0.7詞換算資料來(lái)源：OpenAI，華泰研究公司代碼公司簡(jiǎn)稱MSFTUS微軟GOOGLUS谷歌688095CH福昕軟件300624CH萬(wàn)興科技688111CH金山辦公300033CH同花順601360CH三六零未上市OpenAI資料來(lái)源：Bloomberg、華泰研究宏觀經(jīng)濟(jì)波動(dòng)。若宏觀經(jīng)濟(jì)波動(dòng)，產(chǎn)業(yè)變革及新技術(shù)的落地節(jié)奏或?qū)⑹艿接绊?，宏觀經(jīng)濟(jì)波動(dòng)還可能對(duì)AI投入產(chǎn)生負(fù)面影響，從而導(dǎo)致整體行業(yè)增長(zhǎng)不及預(yù)期。技術(shù)進(jìn)步不及預(yù)期。若AI技術(shù)和大模型技術(shù)進(jìn)步不及預(yù)期，或?qū)?duì)相關(guān)的行業(yè)落地情況產(chǎn)生不利影響。本報(bào)告內(nèi)容均基于客觀信息整理，不構(gòu)成投資建議。免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分，請(qǐng)務(wù)必一起閱讀。17分析師聲明本人，謝春生，茲證明本報(bào)告所表達(dá)的觀點(diǎn)準(zhǔn)確地反映了分析師對(duì)標(biāo)的證券或發(fā)行人的個(gè)人意見(jiàn)；彼以往、現(xiàn)在或未來(lái)并無(wú)就其研究報(bào)告所提供的具體建議或所表迖的意見(jiàn)直接或間接收取任何報(bào)酬。一般聲明及披露本報(bào)告由華泰證券股份有限公司（已具備中國(guó)證監(jiān)會(huì)批準(zhǔn)的證券投資咨詢業(yè)務(wù)資格，以下簡(jiǎn)稱“本公司”）制作。本報(bào)告所載資料是僅供接收人的嚴(yán)格保密資料。本報(bào)告僅供本公司及其客戶和其關(guān)聯(lián)機(jī)構(gòu)使用。本公司不因接收人收到本報(bào)告而視其為客戶。本報(bào)告基于本公司認(rèn)為可靠的、已公開(kāi)的信息編制，但本公司及其關(guān)聯(lián)機(jī)構(gòu)(以下統(tǒng)稱為“華泰”)對(duì)該等信息的準(zhǔn)確性及完整性不作任何保證。本報(bào)告所載的意見(jiàn)、評(píng)估及預(yù)測(cè)僅反映報(bào)告發(fā)布當(dāng)日的觀點(diǎn)和判斷。在不同時(shí)期，華泰可能會(huì)發(fā)出與本報(bào)告所載意見(jiàn)、評(píng)估及預(yù)測(cè)不一致的研究報(bào)告。同時(shí)，本報(bào)告所指的證券或投資標(biāo)的的價(jià)格、價(jià)值及投資收入可能會(huì)波動(dòng)。以往表現(xiàn)并不能指引未來(lái)，未來(lái)回報(bào)并不能得到保證，并存在損失本金的可能。華泰不保證本報(bào)告所含信息保持在最新?tīng)顟B(tài)。華泰對(duì)本報(bào)告所含信息可在不發(fā)出通知的情形下做出修改，投資者應(yīng)當(dāng)自行關(guān)注相應(yīng)的更新或修改。本公司不是FINRA的注冊(cè)會(huì)員，其研究分析師亦沒(méi)有注冊(cè)為FINRA的研究分析師/不具有FINRA分析師的注冊(cè)資華泰力求報(bào)告內(nèi)容客觀、公正，但本報(bào)告所載的觀點(diǎn)、結(jié)論和建議僅供參考，不構(gòu)成購(gòu)買或出售所述證券的要約或招攬。該等觀點(diǎn)、建議并未考慮到個(gè)別投資者的具體投資目的、財(cái)務(wù)狀況以及特定需求，在任何時(shí)候均不構(gòu)成對(duì)客戶私人投資建議。投資者應(yīng)當(dāng)充分考慮自身特定狀況，并完整理解和使用本報(bào)告內(nèi)容，不應(yīng)視本報(bào)告為做出投資決策的唯一因素。對(duì)依據(jù)或者使用本報(bào)告所造成的一切后果，華泰及作者均不承擔(dān)任何法律責(zé)任。任何形式的分享證券投資收益或者分擔(dān)證券投資損失的書面或口頭承諾均為無(wú)效。除非另行說(shuō)明，本報(bào)告中所引用的關(guān)于業(yè)績(jī)的數(shù)據(jù)代表過(guò)往表現(xiàn)，過(guò)往的業(yè)績(jī)表現(xiàn)不應(yīng)作為日后回報(bào)的預(yù)示。華泰不承諾也不保證任何預(yù)示的回報(bào)會(huì)得以實(shí)現(xiàn)，分析中所做的預(yù)測(cè)可能是基于相應(yīng)的假設(shè)，任何假設(shè)的變化可能會(huì)顯著影響所預(yù)測(cè)的回報(bào)。華泰及作者在自身所知情的范圍內(nèi)，與本報(bào)告所指的證券或投資標(biāo)的不存在法律禁止的利害關(guān)系。在法律許可的情況下，華泰可能會(huì)持有報(bào)告中提到的公司所發(fā)行的證券頭寸并進(jìn)行交易，為該公司提供投資銀行、財(cái)務(wù)顧問(wèn)或者金融產(chǎn)品等相關(guān)服務(wù)或向該公司招攬業(yè)務(wù)。華泰的銷售人員、交易人員或其他專業(yè)人士可能會(huì)依據(jù)不同假設(shè)和標(biāo)準(zhǔn)、采用不同的分析方法而口頭或書面發(fā)表與本報(bào)告意見(jiàn)及建議不一致的市場(chǎng)評(píng)論和/或交易觀點(diǎn)。華泰沒(méi)有將此意見(jiàn)及建議向報(bào)告所有接收者進(jìn)行更新的義務(wù)。華泰的資產(chǎn)管理部門、自營(yíng)部門以及其他投資業(yè)務(wù)部門可能獨(dú)立做出與本報(bào)告中的意見(jiàn)或建議不一致的投資決策。投資者應(yīng)當(dāng)考慮到華泰及/或其相關(guān)人員可能存在影響本報(bào)告觀點(diǎn)客觀性的潛在利益沖突。投資者請(qǐng)勿將本報(bào)告視為投資或其他決定的唯一信賴依據(jù)。有關(guān)該方面的具體披露請(qǐng)參照本報(bào)告尾部。本報(bào)告并非意圖發(fā)送、發(fā)布給在當(dāng)?shù)胤苫虮O(jiān)管規(guī)則下不允許向其發(fā)送、發(fā)布的機(jī)構(gòu)或人員，也并非意圖發(fā)送、發(fā)布給因可得到、使用本報(bào)告的行為而使華泰違反或受制于當(dāng)?shù)胤苫虮O(jiān)管規(guī)則的機(jī)構(gòu)或人員。本報(bào)告版權(quán)僅為本公司所有。未經(jīng)本公司書面許可，任何機(jī)構(gòu)或個(gè)人不得以翻版、復(fù)制、發(fā)表、引用或再次分發(fā)他人(無(wú)論整份或部分)等任何形式侵犯本公司版權(quán)。如征得本公司同意進(jìn)行引用、刊發(fā)的，需在允許的范圍內(nèi)使用，并需在使用前獲取獨(dú)立的法律意見(jiàn)，以確定該引用、刊發(fā)符合當(dāng)?shù)剡m用法規(guī)的要求，同時(shí)注明出處為“華泰證券研究所”，且不得對(duì)本報(bào)告進(jìn)行任何有悖原意的引用、刪節(jié)和修改。本公司保留追究相關(guān)責(zé)任的權(quán)利。所有本報(bào)告中使用的商標(biāo)、服務(wù)標(biāo)記及標(biāo)記均為本公司的商標(biāo)、服務(wù)標(biāo)記及標(biāo)記。中國(guó)香港本報(bào)告由華泰證券股份有限公司制作,在香港由華泰金融控股（香港）有限公司向符合《證券及期貨條例》及其附屬法律規(guī)定的機(jī)構(gòu)投資者和專業(yè)投資者的客戶進(jìn)行分發(fā)。華泰金融控股（香港）有限公司受香港證券及期貨事務(wù)監(jiān)察委員會(huì)監(jiān)管，是華泰國(guó)際金融控股有限公司的全資子公司，后者為華泰證券股份有限公司的全資子公司。在香港獲得本報(bào)告的人員若有任何有關(guān)本報(bào)告的問(wèn)題,請(qǐng)與華泰金融控股（香港）有限公司聯(lián)系。免責(zé)聲明和披露以及分析師聲明是報(bào)告的一部分，請(qǐng)務(wù)必一起閱讀。18香港-重要監(jiān)管披露?華泰金融控股（香港）有

人人文庫(kù)> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

GPT4：模型能力提升推動(dòng)應(yīng)用升級(jí)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔