GPT4:模型能力提升推動應(yīng)用升級_第1頁
GPT4:模型能力提升推動應(yīng)用升級_第2頁
GPT4:模型能力提升推動應(yīng)用升級_第3頁
GPT4:模型能力提升推動應(yīng)用升級_第4頁
GPT4:模型能力提升推動應(yīng)用升級_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

免責(zé)聲明和披露以及分析師聲明是報告的一部分,請務(wù)必一起閱讀。1計算機華泰研究GPT-4:多模態(tài)確認(rèn),在專業(yè)和學(xué)術(shù)上表現(xiàn)亮眼北京時間3月15日GPT-4正式發(fā)布,支持圖片、文字等多模態(tài)輸入,以及文本輸出。根據(jù)相關(guān)技術(shù)文檔,1)模型架構(gòu)(包括模型大?。?、硬件、訓(xùn)練計算、數(shù)據(jù)集構(gòu)造、訓(xùn)練方法等細(xì)節(jié)未公布;2)GPT-4于2022年8月完搭建了開源OpenAIEvals模型評估框架,支持現(xiàn)有準(zhǔn)則和自定義準(zhǔn)則。4)GPT-4API已開放等待列表(waitlist價格提升明顯。實驗結(jié)果表明,GPT-4在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上表現(xiàn)出了人類的水平。技術(shù)拆解:構(gòu)建深度學(xué)習(xí)堆棧,新增獎勵訓(xùn)練模型GPT-4項目重點之一是構(gòu)建大范圍可預(yù)測的深度學(xué)習(xí)堆棧。堆棧(stack)能夠通過評估小計算量模型的性能,準(zhǔn)確預(yù)測大計算量模型的性能,減少訓(xùn)練成本。訓(xùn)練方法上,預(yù)訓(xùn)練之后,GPT-4采用了與InstructGPT同樣的方法進(jìn)行基于人類反饋的強化學(xué)習(xí),并添加了基于規(guī)則的獎勵模型來進(jìn)一步引導(dǎo)模型產(chǎn)生人類預(yù)期的結(jié)果。多模態(tài)輸入上,支持圖片和文本的多模態(tài)輸入,但是,OpenAI未在技術(shù)文檔中給出圖片模態(tài)的相關(guān)技術(shù)細(xì)節(jié)。安全性討論:引入專家提高模型安全性和一致性O(shè)penAI在技術(shù)文檔中耗費大量篇幅討論模型安全性問題。從目前結(jié)果看,GPT-4仍然存在“幻覺”和推理錯誤,并在模型校準(zhǔn)上表現(xiàn)不佳。為了進(jìn)一步提高模型安全性,OpenAI聘請了來自AI對齊風(fēng)險、網(wǎng)絡(luò)安全、生物風(fēng)險和國際安全等領(lǐng)域的50多名專家對模型進(jìn)行對抗性測試,涉及幻覺、有害對模型安全性的關(guān)注,或是為未來大規(guī)模商業(yè)化應(yīng)用做鋪墊。模型能力提升,應(yīng)用或進(jìn)一步升級GPT4相比GPT3.5在多模態(tài)、推理能力、支持文本長度方面有了較明顯的提升,有望推動應(yīng)用進(jìn)一步升級。對多模態(tài)的支持有望加速PDF、圖像等領(lǐng)域的生產(chǎn)力應(yīng)用升級,或?qū)⑼苿由a(chǎn)力應(yīng)用效率的進(jìn)一步提升。相關(guān)公司包括:萬興科技、福昕軟件、金山辦公。更強的推理能力與語言理解能力有助于進(jìn)一步優(yōu)化服務(wù)型應(yīng)用的使用效果,包含垂類信息的搜索引擎、客服等產(chǎn)品的功能有望進(jìn)一步升級。相關(guān)公司包括:三六零、同花順。風(fēng)險提示:宏觀經(jīng)濟波動,技術(shù)進(jìn)步不及預(yù)期。本報告內(nèi)容均基于客觀信息整理,不構(gòu)成投資建議。計算機增持(維持)研究員SACNo.S0570519080006SFCNo.BQZ938聯(lián)系人SACNo.S0570121070173聯(lián)系人SACNo.S0570122080053xiechunsheng@+(86)2129872036penggang@+(86)2128972228yuanzeshi@+(86)2128972228行業(yè)走勢圖計算機滬深300(%)(3)(14)(25)Mar-22Jul-22Nov-22Mar-23資料來源:Wind,華泰研究免責(zé)聲明和披露以及分析師聲明是報告的一部分,請務(wù)必一起閱讀。2GPT-4:多模態(tài)確認(rèn),在專業(yè)和學(xué)術(shù)上表現(xiàn)亮眼 3GPT-4:支持多模態(tài)輸入,安全問題或成為LLM關(guān)注焦點 3能力測試:在專業(yè)和學(xué)術(shù)基準(zhǔn)上表現(xiàn)出了人類的水平 4技術(shù)拆解:構(gòu)建深度學(xué)習(xí)堆棧,新增獎勵訓(xùn)練模型 8項目重點:構(gòu)建大范圍可預(yù)測的深度學(xué)習(xí)堆棧 8訓(xùn)練方法:在InstructGPT方法基礎(chǔ)上增加新的獎勵模型 9多模態(tài):支持圖片輸入,未提供具體算法 10安全性討論:引入專家提高模型安全性和一致性 12局限性:仍存在推理錯誤與校準(zhǔn)下降等問題 12風(fēng)險與改進(jìn):聘請專家進(jìn)行對抗性測試 13模型能力進(jìn)一步提升,應(yīng)用有望進(jìn)一步升級 15風(fēng)險提示 免責(zé)聲明和披露以及分析師聲明是報告的一部分,請務(wù)必一起閱讀。3GPT-4支持多模態(tài)輸入,安全問題或成關(guān)注焦點。北京時間3月15日凌晨,OpenAI召開發(fā)布會,正式宣布GPT模型家族中最新的大型語言模型(LLM)—GPT-4。GPT-4可以接受圖像和文本輸入并產(chǎn)生文本輸出。同時,OpenAI發(fā)布了GPT-4相關(guān)技術(shù)文檔。從技術(shù)文檔結(jié)構(gòu)看,OpenAI并未對GPT-4模型本身做過多介紹,而是將大量篇幅留給模型安全性相關(guān)討論。我們認(rèn)為,在LLM走向大規(guī)模應(yīng)用的過程中,隨著模型規(guī)模和能力的提升,將暴露出更多安全方面的問題,或?qū)⒊蔀槲磥鞮LM的重要關(guān)注點。23-38各類考試題的來源和設(shè)置,RLHF對模型的影資料來源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究年8月完成訓(xùn)練,此后,OpenAI一直在評估、對抗性測試并迭代和改進(jìn)模型,并提出各種系統(tǒng)級安全緩解措施。此外,OpenAI在GPT-4文檔中明確提出,考慮到競爭格局和大型模型(如GPT-4)的安全影響,本文檔沒有包含有關(guān)架構(gòu)(包括模型大?。?、硬件、訓(xùn)練計算、數(shù)據(jù)集構(gòu)造、訓(xùn)練方法或類似內(nèi)容的進(jìn)一步細(xì)節(jié)。文檔明確提供的內(nèi)容包括:1)GPT-4是一個基于transformer的預(yù)訓(xùn)練模型,用于預(yù)測文字的下一個token;2)使用公開可用數(shù)據(jù)(如互聯(lián)網(wǎng)數(shù)據(jù))和第三方提供商授權(quán)的數(shù)據(jù);3)使用來自人類反饋的強化學(xué)習(xí)(RLHF)對模型進(jìn)行微調(diào)。免責(zé)聲明和披露以及分析師聲明是報告的一部分,請務(wù)必一起閱讀。4資料來源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究OpenAI搭建了開源OpenAIEvals模型評估框架。OpenAIEvals模型評估框架(/openai/evals)用于創(chuàng)建和運行各類評估準(zhǔn)則(benchmarks支持用戶自定義評估邏輯。目前,OpenAIEvals與現(xiàn)有的基準(zhǔn)測試兼容,并可用于跟蹤部署中的模型性能。未來,OpenAI計劃逐步增加測試基準(zhǔn)的多樣性,以代表更廣泛的故障模式和更難的任務(wù)集。GPT-4API已開放等待列表(waitlistAPI價格提升明顯。當(dāng)獲得訪問權(quán)限后,即可以對GPT-4模型進(jìn)行純文本請求(圖像輸入仍然處于有限的測試階段OpenAI將自動將模型更新為推薦的穩(wěn)定模型。此外,GPT-4提供兩個版本,GPT-4-8k和GPT-4-32k,前者支持的上下文長度為8192個token,后者支持32768-context(約50頁文本,提供有限訪問)。GPT-4-8k定價為每1k提示token0.03美元,每1k完成token0.06美元。默認(rèn)速率限制為每分鐘40k個token,每分鐘200個請求;GPT-4-32k定價為每1k提示token0.06美元,每1k完成token0.12美元。(API價格網(wǎng)址/pricing)GPTGPT-4API價格GPTGPT-3.5API價格資料來源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究GPT-4在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上表現(xiàn)出了人類的水平。OpenAI在一系列不同的基準(zhǔn)上測試了GPT-4,包括最初為人類設(shè)計的模擬考試??荚囶}目包括多項選擇題和自由問答題。OpenAI為每種考試形式設(shè)計了單獨的提示(prompt并且在需要的場合增加了圖像輸入。GPT-4并未專門針對這些考試科目進(jìn)行訓(xùn)練,但仍取得了優(yōu)秀的成績,例如以大約前10%的成績通過模擬律師資格考試,而GPT-3.5在該考試中成績?yōu)楹?0%。免責(zé)聲明和披露以及分析師聲明是報告的一部分,請務(wù)必一起閱讀。5資料來源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究GPT-4在考試中展現(xiàn)的能力未受到RLHF的顯著影響。基于人類反饋的強化學(xué)習(xí)(RLHF)是InstructGPT中引入的方法,通過獎勵的形式讓模型輸出向人類希望的方向發(fā)展。為了測試RLHF對模型能力的影響,OpenAI在GPT-4基礎(chǔ)模型和RLHF后的GPT-4模型上運行了考試基準(zhǔn)測試中的多項選擇題部分。在所有考試中,基礎(chǔ)模型的平均分為73.7%,而RLHF模型的平均分為74.0%,這表明經(jīng)過RLHF后并沒有顯著改變基礎(chǔ)模型的能力。資料來源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究免責(zé)聲明和披露以及分析師聲明是報告的一部分,請務(wù)必一起閱讀。6GPT-4在評估語言模型的傳統(tǒng)基準(zhǔn)上同樣效果卓越。在評估GPT-4在語言模型的測試基準(zhǔn)時,對所有模型使用了few-shot。測試基準(zhǔn)涵蓋問題多選、常識推理、代碼、閱讀理解、數(shù)學(xué)問題等。結(jié)果表明,GPT-4大大優(yōu)于GPT-3.5,以及以前最先進(jìn)的(SOTA)模型,甚至超過了某些在特定測試標(biāo)準(zhǔn)上訓(xùn)練過的模型。資料來源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究GPT-4在大多數(shù)語言上的結(jié)果都優(yōu)于GPT3.5和現(xiàn)有語言模型?,F(xiàn)有的多數(shù)機器學(xué)習(xí)測試基準(zhǔn)都是基于英語編寫的。為了測試GPT-4在其他語言中的表現(xiàn),OpenAI使用AzureTranslate將MMLU基準(zhǔn)測試(涵蓋57個主題的多項選擇問題)翻譯成各種語言。結(jié)果表明,GPT-4在大多數(shù)語言上的結(jié)果都優(yōu)于GPT3.5和現(xiàn)有語言模型的英語語言性能,包括全球使用人數(shù)較低的語言,如拉脫維亞語、威爾士語和斯瓦希里語。免責(zé)聲明和披露以及分析師聲明是報告的一部分,請務(wù)必一起閱讀。7資料來源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究GPT-4在跟蹤用戶意圖的能力方面提高顯著。據(jù)OpenAI數(shù)據(jù),OpenAI收集了通過ChatGPT和OpenAIAPI提交的用戶提示,過濾掉不允許、敏感內(nèi)容或過于簡單的提示,并將這些提示和響應(yīng)發(fā)送給人工標(biāo)注員。根據(jù)指示,標(biāo)注人員在不知道答案來源于哪種模型的情況下,判斷給出的提示是否符合用戶的要求。在5214個提示數(shù)據(jù)集中,GPT-4生成的響應(yīng)在70.2%的提示上優(yōu)于GPT-3.5生成的響應(yīng)。免責(zé)聲明和披露以及分析師聲明是報告的一部分,請務(wù)必一起閱讀。8GPT-4項目的一大重點是構(gòu)建大范圍可預(yù)測的深度學(xué)習(xí)堆棧。簡而言之,該堆棧(stack,論文中也叫基礎(chǔ)設(shè)施和優(yōu)化方法)能夠通過評估小計算量模型的性能,準(zhǔn)確預(yù)測大計算量模型的性能,減少訓(xùn)練成本。以GPT-4為例,雖然官方未給出具體的模型參數(shù),但是指出對于GPT-4這樣的大型訓(xùn)練,進(jìn)行廣泛的特定于模型的調(diào)優(yōu)是不可行的。而大范圍可預(yù)測的深度學(xué)習(xí)堆棧,能夠通過計算比GPT-4計算量少1000x-10000x(x代表倍)的模型性能,預(yù)測出“完全體”GPT-4的性能,實現(xiàn)在訓(xùn)練之前了解模型的功能,并及時改善關(guān)于對齊、安全性和部署的決策。該方法的理論依據(jù)是:經(jīng)過適當(dāng)訓(xùn)練的大型語言模型的最終損失,很好地近似于用于訓(xùn)練模型的計算量的冪律。資料來源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究除了預(yù)測最終損失,還可以使用其他可解釋的能力指標(biāo)進(jìn)行預(yù)測。其中一個指標(biāo)是HumanEval數(shù)據(jù)集的通過率。HumanEval數(shù)據(jù)集衡量的是合成不同復(fù)雜度的Python函數(shù)的能力。通過計算比GPT-4計算量少1000x模型在HumanEval數(shù)據(jù)集子集的通過率,成功預(yù)測了GPT-4在HumanEval數(shù)據(jù)集子集的通過率。資料來源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究免責(zé)聲明和披露以及分析師聲明是報告的一部分,請務(wù)必一起閱讀。9預(yù)訓(xùn)練之后,GPT-4采用了與InstructGPT同樣的方法進(jìn)行RLHF。OpenAI首先從人類標(biāo)注員處收集演示數(shù)據(jù)(給定一個輸入,演示模型應(yīng)該如何響應(yīng)并對模型的輸出數(shù)據(jù)進(jìn)行排名(給定一個輸入和幾個輸出,將輸出從最好到最差進(jìn)行排序)。然后執(zhí)行以下步驟:1)利用收集到的人工標(biāo)注演示數(shù)據(jù),使用監(jiān)督學(xué)習(xí)(SFT)來模擬演示中的行為以微調(diào)GPT-4;2)使用收集到的排名數(shù)據(jù)來訓(xùn)練獎勵模型(RM該模型預(yù)測標(biāo)注員對給定輸出的平均偏好;3)使用獎勵模型和強化學(xué)習(xí)(特別是PPO算法優(yōu)化GPT-4SFT模型。收集描述性數(shù)據(jù),并訓(xùn)練一個有監(jiān)督模型從prompt數(shù)據(jù)庫中取樣,并得到數(shù)個模型的回答由人類訓(xùn)練師對回答進(jìn)行排序收集的數(shù)據(jù)用來訓(xùn)練我們的獎勵模型并訓(xùn)練一個獎勵用PPO強化學(xué)習(xí)算法通過獎勵模型優(yōu)化策略從prompt數(shù)據(jù)庫中取樣由人類訓(xùn)練師撰寫期望的輸出值收集的數(shù)據(jù)用來以監(jiān)督學(xué)習(xí)的方式微調(diào)GPT-3模型向一個6歲智力的模型解釋強化學(xué)習(xí)B回答B(yǎng)回答B(yǎng):“..”D回答D:“..”回答A:“..”C回答C:“..”從prompt數(shù)據(jù)庫中另外取樣Q示例:“寫一段關(guān)于..的故事”策略給出回答獎勵模型對回答打分用獎勵通過PPO算法優(yōu)化策略PPO示例:“很久以前……”RMrk對行為給出獎勵與對行為給出獎勵與懲罰……DD>C>A>BD>C>A>B資料來源:《Traininglanguagemodelstofollowinstructionswithhumanfeedback》、華泰研究基于規(guī)則的獎勵模型以更細(xì)的粒度進(jìn)一步引導(dǎo)模型。RLHF微調(diào)后的模型仍然會不時出現(xiàn)人類不想看到的行為。因此,OpenAI在RLHF基礎(chǔ)上增加基于規(guī)則的獎勵模型(RBRMs)。RBRM是一組zero-shot的GPT-4分類器(classifier)。分類器在RLHF微調(diào)期間針對正確行為(例如拒絕生成有害內(nèi)容或不拒絕無害請求向GPT-4策略模型提供額外的獎勵信號。RBRM有三個輸入:提示(可選)、策略模型的輸出和人類編寫的用于如何評估輸出的規(guī)則。在安全相關(guān)的訓(xùn)練提示集上,獎勵GPT-4拒絕有害內(nèi)容請求,例如非法建議;同樣獎勵GPT-4沒有拒絕對安全和可回答問題的請求。免責(zé)聲明和披露以及分析師聲明是報告的一部分,請務(wù)必一起閱讀。10GPT-4能夠?qū)崿F(xiàn)圖片和文本的多模態(tài)輸入。GPT-4接受由圖像和文本組成的提示(prompt,與純文本設(shè)置類似允許用戶指定任何視覺或語言任務(wù),同時輸出文本信息。此外,語言模型中的few-shot提示和思維鏈等,在GPT-4中同樣有效。但是,OpenAI未在技術(shù)文檔中給出如何實現(xiàn)圖片的輸入,以及如何對圖片進(jìn)一步處理以注入到模型中。資料來源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究免責(zé)聲明和披露以及分析師聲明是報告的一部分,請務(wù)必一起閱讀。11資料來源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究免責(zé)聲明和披露以及分析師聲明是報告的一部分,請務(wù)必一起閱讀。12GPT-4仍存在“幻覺”和推理錯誤?;糜X指的是產(chǎn)生與某些來源有關(guān)的無意義或不真實的內(nèi)容。但是,與GPT-3.5模型相比,GPT-4顯著減少了幻覺,并在內(nèi)部的對抗性事實性評估中,在所有項的準(zhǔn)確率均分比最新的GPT-3.5高出19pct。與ChatGPT類似,GPT-4寫的訓(xùn)練數(shù)據(jù)均是2021年9月之前的,因此缺乏對該日期之后的知識的掌握,會犯一些簡單的推理錯誤,接受用戶的明顯錯誤陳述,或在在生成的代碼中存在安全漏洞。資料來源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究RLHF顯著提高了GPT-4在TruthfulQA公共基準(zhǔn)測試上的表現(xiàn),但程度仍欠佳。TruthfulQA基準(zhǔn)測試了模型從對抗選擇的一組不正確的語句中分離事實的能力。GPT-4基本模型在TruthfulQA基準(zhǔn)上的表現(xiàn)略好于GPT-3.5。經(jīng)過RLHF訓(xùn)練后,GPT-4相比于同樣經(jīng)過RHLF的GPT-3.5-turbo在準(zhǔn)確率上領(lǐng)先超10pct。但是,即使經(jīng)過RLHF訓(xùn)練,GPT-4在TruthfulQA上的準(zhǔn)確率也只有60%,未達(dá)到更高水平。資料來源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究免責(zé)聲明和披露以及分析師聲明是報告的一部分,請務(wù)必一起閱讀。13訓(xùn)練后的GPT-4模型在模型校準(zhǔn)上出現(xiàn)性能下降。預(yù)訓(xùn)練的模型是高度校準(zhǔn)的,模型對答案的預(yù)測置信度通常與正確的概率相匹配。然而,在后訓(xùn)練(post-training)過程中,校準(zhǔn)情況發(fā)生顯著下降。OpenAI未給出具體原因。資料來源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究OpenAI投入了大量的精力來提高GPT-4的安全性和一致性。GPT-4與較小的語言模型存在類似的風(fēng)險,包括生成有害的建議、有bug的代碼或不準(zhǔn)確的信息。然而,GPT-4更強大的功能可能會帶來新的風(fēng)險面。為了了解這些風(fēng)險的程度,OpenAI聘請了來自AI對齊風(fēng)險、網(wǎng)絡(luò)安全、生物風(fēng)險和國際安全等領(lǐng)域的50多名專家對模型進(jìn)行對抗性測試。資料來源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究OpenAI從11個方面對GPT-4風(fēng)險進(jìn)行了一系列定性和定量評估。包括幻覺、有害內(nèi)容、虛假信息、武器擴散、隱私、網(wǎng)絡(luò)安全等。通過評估,能夠進(jìn)一步了解GPT-4的能力、限制和風(fēng)險,并幫助提供解決方案、迭代測試和構(gòu)建模型的更安全版本等。免責(zé)聲明和披露以及分析師聲明是報告的一部分,請務(wù)必一起閱讀。14風(fēng)險名稱(英文)風(fēng)險名稱(中文)風(fēng)險描述Hallucinations幻覺產(chǎn)生與某些來源有關(guān)的無意義或不真實的內(nèi)容Harmfulcontent有害內(nèi)容違反策略的內(nèi)容,或可能對個人或社會造成傷害的內(nèi)容Harmsofrepresentation,allocation,andqualityofservice表示、分配和服務(wù)質(zhì)量的危害性加強和重現(xiàn)特定的偏見和世界觀,包括對某些邊緣群體的有害刻板印象和貶損聯(lián)想Disinformationandinfluenceoperations虛假信息和影響操作生成逼真而有針對性的內(nèi)容,包括新聞文章、推文、對話和電子郵件;生成旨在誤導(dǎo)的內(nèi)容的風(fēng)險Proliferationofconventionalandunconventionalweapons常規(guī)和非常規(guī)武器的擴散某些LLM能力可能具有軍民兩用的潛力,這意味著該模型可用于“商業(yè)和軍事或擴散應(yīng)用”Privacy隱私GPT-4從各種許可的、創(chuàng)建的和公開可用的數(shù)據(jù)源中學(xué)習(xí),其中可能包括公開可用的個人信息Cybersecurity網(wǎng)絡(luò)安全沒有改進(jìn)現(xiàn)有的偵察、漏洞利用和網(wǎng)絡(luò)導(dǎo)航工具,并且在復(fù)雜和高級活動(如新型漏洞識別)方面不如現(xiàn)有工具有效Potentialforriskyemergentbehaviors潛在的危險緊急行為創(chuàng)造和執(zhí)行長期計劃的能力,積累權(quán)力和資源(“權(quán)力尋求”)的能力,以及表現(xiàn)出越來越“主觀”的行為等Economicimpacts經(jīng)濟影響GPT-4或后續(xù)模型可能會導(dǎo)致某些工作的自動化。這可能導(dǎo)致勞動力流失Acceleration加速影響AI過快發(fā)展導(dǎo)致安全標(biāo)準(zhǔn)的下降、不良規(guī)范的擴散,加劇了與人工智能相關(guān)的社會風(fēng)險Overreliance過度依賴當(dāng)用戶過度信任和依賴模型時,就會出現(xiàn)過度依賴,這可能會導(dǎo)致未被注意到的錯誤和不充分的監(jiān)督資料來源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究OpenAI還在模型層面對GPT-4進(jìn)行改進(jìn)。例如,在預(yù)訓(xùn)練階段,過濾了GPT-4數(shù)據(jù)集組合,減少不適當(dāng)?shù)奈谋緝?nèi)容數(shù)量;通過內(nèi)部訓(xùn)練的分類器和基于詞典的方法來識別被標(biāo)記為極有可能包含不適當(dāng)內(nèi)容的文件,并將其從預(yù)訓(xùn)練集中移除。此外,上述基于規(guī)則的獎勵模型(RBRMs)引導(dǎo)了模型朝人類想要的方向改進(jìn)。與GPT-3.5相比,在敏感性問題和不被允許的問題上,GPT-4不正確的提示率大大下降。資料來源:《GPT-4TechnicalReport》,OpenAI(2023)、華泰研究免責(zé)聲明和披露以及分析師聲明是報告的一部分,請務(wù)必一起閱讀。15支持多模態(tài),應(yīng)用范圍進(jìn)一步拓寬。GPT-4與僅能處理自然語言任務(wù)的GPT-3.5相比,它能夠同時處理圖像及文本輸入,并生成文本輸出。GPT-4可以完成一些傳統(tǒng)的視覺語言任務(wù),如圖像描述、生成字幕、圖像分類等。此外,GPT-4還具有較強的邏輯分析能力,可以對圖像中的內(nèi)容進(jìn)行合理的推測,并給出用戶需要的答案?;谶@種能力,GPT-4可以完成一系列更為豐富和復(fù)雜的任務(wù),比如根據(jù)數(shù)據(jù)圖表回答定量問題、分析圖像中主體的異常情況、依據(jù)上傳的PDF長文檔總結(jié)摘要等,進(jìn)一步擴展了語言模型的應(yīng)用場景。我們認(rèn)為多模態(tài)的實現(xiàn)有望加速PDF、圖像等領(lǐng)域的生產(chǎn)力應(yīng)用升級,或?qū)⑼苿由a(chǎn)力應(yīng)用效率的進(jìn)一步提升。資料來源:公司官網(wǎng)、華泰研究具備更強推理能力。GPT-4在處理復(fù)雜的文本任務(wù)時表現(xiàn)出了比GPT-3.5更強的優(yōu)勢。OpenAI團隊分別對GPT-4和GPT-3.5在多個人類考試上進(jìn)行了測試。OpenAI團隊并沒有針對這些考試專門訓(xùn)練GPT-4,并且在測試過程中,如果發(fā)現(xiàn)某個考試中有和訓(xùn)練數(shù)據(jù)重復(fù)的問題,研究人員會剔除重復(fù)問題并生成新的考試變體,再次對模型進(jìn)行測試,并取兩次考試中的最低分作為最終成績。結(jié)果顯示,在大多數(shù)考試中,尤其是與數(shù)學(xué)和推理相關(guān)的考試中,GPT-4相比于GPT-3.5有了顯著提升,在學(xué)術(shù)和專業(yè)測試中甚至能夠達(dá)到與人類相當(dāng)?shù)乃???荚嘦niformBarExam考試簡介是一種統(tǒng)一的律師資格考試,包括三個部分:GPT-4GPT-3.5分?jǐn)?shù)298/400Percentile~90th213分?jǐn)?shù)/400Percentile~10thLSAT多州隨筆考試(MEE)、多州實務(wù)考試(MPT)和多州法律考試(MBE)。法學(xué)院入學(xué)考試,包含閱讀理解、分析性推理、邏輯推理和寫作4部分。~88th~40thSATMath美國高考的數(shù)學(xué)部分,主要涉及三個領(lǐng)域:代數(shù)的核心、問題解決和數(shù)據(jù)分析、高級數(shù)學(xué)。700/800~89th590/800~70thGRE-Quantitative美國研究生考試的數(shù)學(xué)部分,主要涉及四個領(lǐng)域:算術(shù)、代數(shù)、幾何和數(shù)據(jù)分析。/170~80th/170~25thGRE-Verbal美國研究生考試的語文部分,主要包括閱讀理解、文字補全、句子等價三種題型。/170~99th/170~63rdUSABOSemifinalExam2020是美國生物奧林匹克競賽的半決賽考試,包含多項選擇題和自由回答題,主要考察生物學(xué)的理論知識和實驗技能。87/15099th-100th43/15031st-33rd注:Percentile代表GPT-4得分超過的參與考試人數(shù)占總?cè)藬?shù)的百分比資料來源:《GPT-4TechnicalReport》,OpenAI、華泰研究免責(zé)聲明和披露以及分析師聲明是報告的一部分,請務(wù)必一起閱讀。16資料來源:考試官網(wǎng)、華泰研究支持更長文本交互,語言理解生成能力進(jìn)一步提升。GPT系列模型屬于自回歸語言模型,它的任務(wù)是根據(jù)前面的單詞預(yù)測下一個單詞。為了生成每個單詞,模型需要利用前面所有的單詞作為信息。據(jù)OpenAI官網(wǎng),GPT-3.5的輸入及輸出總長度限制為4097個token。GPT-4支持最多32768個token的上下文對話,一方面可以讓模型捕捉到更多的信息,從而提高語言理解和生成的質(zhì)量和連貫性。另一方面更長的輸入及輸出能夠支持更加復(fù)雜問題的解決,如利用GPT-4輔助報稅,并得到詳細(xì)的推理過程,進(jìn)行跨文本處理任務(wù),幫助用戶總結(jié)兩篇長文章之間的共同點與差異等。我們認(rèn)為更強的推理能力與語言理解能力有助于進(jìn)一步優(yōu)化服務(wù)型應(yīng)用的使用效果,包含垂類信息的搜索引擎、客服等產(chǎn)品的功能有望進(jìn)一步升級。輸入及輸出最大token數(shù)對應(yīng)詞數(shù)GPT-432,76822,938GPT-3.54,0972,868GPT-32,0491,434Codex8,0015,601注:對應(yīng)詞數(shù)按1token=0.7詞換算資料來源:OpenAI,華泰研究公司代碼公司簡稱MSFTUS微軟GOOGLUS谷歌688095CH福昕軟件300624CH萬興科技688111CH金山辦公300033CH同花順601360CH三六零未上市OpenAI資料來源:Bloomberg、華泰研究宏觀經(jīng)濟波動。若宏觀經(jīng)濟波動,產(chǎn)業(yè)變革及新技術(shù)的落地節(jié)奏或?qū)⑹艿接绊?,宏觀經(jīng)濟波動還可能對AI投入產(chǎn)生負(fù)面影響,從而導(dǎo)致整體行業(yè)增長不及預(yù)期。技術(shù)進(jìn)步不及預(yù)期。若AI技術(shù)和大模型技術(shù)進(jìn)步不及預(yù)期,或?qū)ο嚓P(guān)的行業(yè)落地情況產(chǎn)生不利影響。本報告內(nèi)容均基于客觀信息整理,不構(gòu)成投資建議。免責(zé)聲明和披露以及分析師聲明是報告的一部分,請務(wù)必一起閱讀。17分析師聲明本人,謝春生,茲證明本報告所表達(dá)的觀點準(zhǔn)確地反映了分析師對標(biāo)的證券或發(fā)行人的個人意見;彼以往、現(xiàn)在或未來并無就其研究報告所提供的具體建議或所表迖的意見直接或間接收取任何報酬。一般聲明及披露本報告由華泰證券股份有限公司(已具備中國證監(jiān)會批準(zhǔn)的證券投資咨詢業(yè)務(wù)資格,以下簡稱“本公司”)制作。本報告所載資料是僅供接收人的嚴(yán)格保密資料。本報告僅供本公司及其客戶和其關(guān)聯(lián)機構(gòu)使用。本公司不因接收人收到本報告而視其為客戶。本報告基于本公司認(rèn)為可靠的、已公開的信息編制,但本公司及其關(guān)聯(lián)機構(gòu)(以下統(tǒng)稱為“華泰”)對該等信息的準(zhǔn)確性及完整性不作任何保證。本報告所載的意見、評估及預(yù)測僅反映報告發(fā)布當(dāng)日的觀點和判斷。在不同時期,華泰可能會發(fā)出與本報告所載意見、評估及預(yù)測不一致的研究報告。同時,本報告所指的證券或投資標(biāo)的的價格、價值及投資收入可能會波動。以往表現(xiàn)并不能指引未來,未來回報并不能得到保證,并存在損失本金的可能。華泰不保證本報告所含信息保持在最新狀態(tài)。華泰對本報告所含信息可在不發(fā)出通知的情形下做出修改,投資者應(yīng)當(dāng)自行關(guān)注相應(yīng)的更新或修改。本公司不是FINRA的注冊會員,其研究分析師亦沒有注冊為FINRA的研究分析師/不具有FINRA分析師的注冊資華泰力求報告內(nèi)容客觀、公正,但本報告所載的觀點、結(jié)論和建議僅供參考,不構(gòu)成購買或出售所述證券的要約或招攬。該等觀點、建議并未考慮到個別投資者的具體投資目的、財務(wù)狀況以及特定需求,在任何時候均不構(gòu)成對客戶私人投資建議。投資者應(yīng)當(dāng)充分考慮自身特定狀況,并完整理解和使用本報告內(nèi)容,不應(yīng)視本報告為做出投資決策的唯一因素。對依據(jù)或者使用本報告所造成的一切后果,華泰及作者均不承擔(dān)任何法律責(zé)任。任何形式的分享證券投資收益或者分擔(dān)證券投資損失的書面或口頭承諾均為無效。除非另行說明,本報告中所引用的關(guān)于業(yè)績的數(shù)據(jù)代表過往表現(xiàn),過往的業(yè)績表現(xiàn)不應(yīng)作為日后回報的預(yù)示。華泰不承諾也不保證任何預(yù)示的回報會得以實現(xiàn),分析中所做的預(yù)測可能是基于相應(yīng)的假設(shè),任何假設(shè)的變化可能會顯著影響所預(yù)測的回報。華泰及作者在自身所知情的范圍內(nèi),與本報告所指的證券或投資標(biāo)的不存在法律禁止的利害關(guān)系。在法律許可的情況下,華泰可能會持有報告中提到的公司所發(fā)行的證券頭寸并進(jìn)行交易,為該公司提供投資銀行、財務(wù)顧問或者金融產(chǎn)品等相關(guān)服務(wù)或向該公司招攬業(yè)務(wù)。華泰的銷售人員、交易人員或其他專業(yè)人士可能會依據(jù)不同假設(shè)和標(biāo)準(zhǔn)、采用不同的分析方法而口頭或書面發(fā)表與本報告意見及建議不一致的市場評論和/或交易觀點。華泰沒有將此意見及建議向報告所有接收者進(jìn)行更新的義務(wù)。華泰的資產(chǎn)管理部門、自營部門以及其他投資業(yè)務(wù)部門可能獨立做出與本報告中的意見或建議不一致的投資決策。投資者應(yīng)當(dāng)考慮到華泰及/或其相關(guān)人員可能存在影響本報告觀點客觀性的潛在利益沖突。投資者請勿將本報告視為投資或其他決定的唯一信賴依據(jù)。有關(guān)該方面的具體披露請參照本報告尾部。本報告并非意圖發(fā)送、發(fā)布給在當(dāng)?shù)胤苫虮O(jiān)管規(guī)則下不允許向其發(fā)送、發(fā)布的機構(gòu)或人員,也并非意圖發(fā)送、發(fā)布給因可得到、使用本報告的行為而使華泰違反或受制于當(dāng)?shù)胤苫虮O(jiān)管規(guī)則的機構(gòu)或人員。本報告版權(quán)僅為本公司所有。未經(jīng)本公司書面許可,任何機構(gòu)或個人不得以翻版、復(fù)制、發(fā)表、引用或再次分發(fā)他人(無論整份或部分)等任何形式侵犯本公司版權(quán)。如征得本公司同意進(jìn)行引用、刊發(fā)的,需在允許的范圍內(nèi)使用,并需在使用前獲取獨立的法律意見,以確定該引用、刊發(fā)符合當(dāng)?shù)剡m用法規(guī)的要求,同時注明出處為“華泰證券研究所”,且不得對本報告進(jìn)行任何有悖原意的引用、刪節(jié)和修改。本公司保留追究相關(guān)責(zé)任的權(quán)利。所有本報告中使用的商標(biāo)、服務(wù)標(biāo)記及標(biāo)記均為本公司的商標(biāo)、服務(wù)標(biāo)記及標(biāo)記。中國香港本報告由華泰證券股份有限公司制作,在香港由華泰金融控股(香港)有限公司向符合《證券及期貨條例》及其附屬法律規(guī)定的機構(gòu)投資者和專業(yè)投資者的客戶進(jìn)行分發(fā)。華泰金融控股(香港)有限公司受香港證券及期貨事務(wù)監(jiān)察委員會監(jiān)管,是華泰國際金融控股有限公司的全資子公司,后者為華泰證券股份有限公司的全資子公司。在香港獲得本報告的人員若有任何有關(guān)本報告的問題,請與華泰金融控股(香港)有限公司聯(lián)系。免責(zé)聲明和披露以及分析師聲明是報告的一部分,請務(wù)必一起閱讀。18香港-重要監(jiān)管披露?華泰金融控股(香港)有

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論