2023前沿大模型的風(fēng)險(xiǎn)、安全與治理報(bào)告

上傳人：5*** IP屬地：廣東上傳時(shí)間：2024-03-27 格式：PPT 頁(yè)數(shù)：61 大?。?.76MB 積分：15 舉報(bào) 版權(quán)申訴

2023前沿大模型的風(fēng)險(xiǎn)、安全與治理報(bào)告_第2頁(yè)

2023前沿大模型的風(fēng)險(xiǎn)、安全與治理報(bào)告_第3頁(yè)

2023前沿大模型的風(fēng)險(xiǎn)、安全與治理報(bào)告_第4頁(yè)

2023前沿大模型的風(fēng)險(xiǎn)、安全與治理報(bào)告_第5頁(yè)

已閱讀5頁(yè)，還剩56頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

本報(bào)告的討論范圍專?AI(NarrowAI)通?AI(GeneralAI)前沿AI(FrontierAI)具有危險(xiǎn)能?的專?AI討論范圍(例如?于?絡(luò)攻擊、?物?程的AI模型)(例如前沿?模型，以及未來(lái)可能的AGI)潛在傷害低?險(xiǎn)的專?系統(tǒng)次前沿的基礎(chǔ)模型(例如GPT-3)（例如AlphaGo、AlphaFold)通?性注：1）本報(bào)告的討論范圍參考了全球AI安全峰會(huì)的討論范圍設(shè)定，??書(shū)得到圖靈獎(jiǎng)得主YoshuaBengio等學(xué)者專家的建議。2）在不同章節(jié)，根據(jù)參考資料或討論語(yǔ)境，前沿?模型、前沿AI、AGI等概念可能存在混?的情況。2術(shù)語(yǔ)定義本報(bào)告聚焦?前沿?模型：●前沿?模型(Frontier

Large

Model)：能執(zhí)??泛的任務(wù)，并達(dá)到或超過(guò)當(dāng)前最先進(jìn)現(xiàn)有模型能?的?規(guī)模機(jī)器學(xué)習(xí)模型，是?前最常?的前沿AI，提供了最多的機(jī)遇但也帶來(lái)了新的?險(xiǎn)。模型能?相關(guān)術(shù)語(yǔ)，主要參考全球AI安全峰會(huì)、前沿模型論壇、

AI全景報(bào)告：●●前沿AI(Frontier

AI)：?能?的通?AI模型，能執(zhí)??泛的任務(wù)，并達(dá)到或超過(guò)當(dāng)今最先進(jìn)模型的能?，最常?的是基礎(chǔ)模型。通?AI(General

AI)/專?AI(Narrow

AI)：?種設(shè)計(jì)?來(lái)執(zhí)?任何/特定認(rèn)知任務(wù)的??智能，其學(xué)習(xí)算法被設(shè)計(jì)為可以執(zhí)?各種各樣的任務(wù)/少數(shù)特定任務(wù)，并且從執(zhí)?任務(wù)中獲得的知識(shí)可以/不可以?動(dòng)適?或遷移到其他任務(wù)?！裢???智能(Arti?cial

General

Intelligence,

AGI)：可在所有或?部分有經(jīng)濟(jì)價(jià)值的任務(wù)中達(dá)到或超過(guò)?類全部認(rèn)知能?的機(jī)器智能。(與通?AI的區(qū)別在于能?級(jí)別；關(guān)于AGI的定義存在很多分歧，本報(bào)告中不同專家或調(diào)研的定義可能不同）?規(guī)模機(jī)器學(xué)習(xí)模型相關(guān)術(shù)語(yǔ)，主要參考斯坦福?學(xué)、智源研究院：●基礎(chǔ)模型(Foundation

Model)：在?規(guī)模?泛數(shù)據(jù)上訓(xùn)練的模型，使其可以適應(yīng)?泛的下游任務(wù)；國(guó)內(nèi)學(xué)界外通常簡(jiǎn)稱為“?模型”。??智能?險(xiǎn)相關(guān)術(shù)語(yǔ)，主要參考?津?學(xué)研究機(jī)構(gòu)：●●?存?險(xiǎn)(Existential

Risk)：威脅起源于地球的智能?命過(guò)早滅絕或?qū)ζ湮磥?lái)發(fā)展?jié)?的永久和劇烈破壞的?險(xiǎn)。災(zāi)難性?險(xiǎn)(Catastrophic

Risk)：?種可能發(fā)?的事件或過(guò)程，若發(fā)?將導(dǎo)致全球約10%或更多??喪?，或造成類似損害。3報(bào)告?錄?

前沿?模型的趨勢(shì)預(yù)測(cè)：技術(shù)解讀｜擴(kuò)展預(yù)測(cè)?

前沿?模型的?險(xiǎn)分析：?險(xiǎn)態(tài)度｜?險(xiǎn)解讀三

前沿?模型的安全技術(shù)：對(duì)?｜監(jiān)測(cè)｜魯棒性｜系統(tǒng)性安全四

前沿?模型的治理?案：技術(shù)治理｜政府監(jiān)管｜國(guó)際治理五

總結(jié)和展望4?

前沿?模型的趨勢(shì)預(yù)測(cè)5?

前沿?模型的趨勢(shì)預(yù)測(cè)：技術(shù)解讀｜擴(kuò)展預(yù)測(cè)GPT-4等前沿?模型展現(xiàn)出強(qiáng)?的涌現(xiàn)能?，多領(lǐng)域逼近?類?平涌現(xiàn)能?是指這些能?并沒(méi)有被開(kāi)發(fā)者顯式地設(shè)計(jì)，?是由于其規(guī)模龐?，在訓(xùn)練過(guò)程中會(huì)?然?然地獲得的；并且，這些前沿?模型已在?系列的專業(yè)和學(xué)術(shù)基準(zhǔn)逼近?類?平?！裎④浹芯吭旱亩ㄐ匝芯空J(rèn)為GPT-4顯?出AGI的?花：○○“GPT-4的能?，我們認(rèn)為它可以被合理地視為早期（但仍不完善）版本的AGI。”“新能?的影響可能導(dǎo)致就業(yè)崗位的更迭和更?泛的經(jīng)濟(jì)影響，以及使惡意?為者擁有新的誤導(dǎo)和操縱?具；局限性??，系統(tǒng)可靠性的缺陷及其學(xué)習(xí)的偏?可能會(huì)導(dǎo)致過(guò)度依賴或放?現(xiàn)有的社會(huì)問(wèn)題。”●圖靈獎(jiǎng)得主Yoshua

Bengio認(rèn)為GPT-4已經(jīng)通過(guò)圖靈測(cè)試：○“我最近簽署了?封公開(kāi)信，要求放慢?GPT-4

更強(qiáng)?的巨型??智能系統(tǒng)的開(kāi)發(fā)速度，這些系統(tǒng)?前通過(guò)了圖靈測(cè)試，因此可以欺騙?類相信它正在與同伴?不是機(jī)器進(jìn)?對(duì)話?！薄稹罢且?yàn)槌霈F(xiàn)了意想不到的加速??年前我可能不會(huì)簽署這樣的?封信?所以我們需要后退?步，?我對(duì)這些話題的看法也發(fā)?了變化。”涌現(xiàn)能?Emergent

abilities

large

language

models

(Wei,

2022)專業(yè)和學(xué)術(shù)基準(zhǔn)GPT-4System

Card

(OpenAI,

2023)6?

前沿?模型的趨勢(shì)預(yù)測(cè)：技術(shù)解讀｜擴(kuò)展預(yù)測(cè)?模型為多個(gè)技術(shù)?向帶來(lái)新的發(fā)展空間，也引發(fā)新的挑戰(zhàn)?語(yǔ)?模型(LLM)的理解和推理等能?推動(dòng)了眾多技術(shù)?向，例如多模態(tài)?模型和?主智能體：●多模態(tài)?模型

(Multimodal

large

models)○2023年9?，在ChatGPT更新上線能看、能聽(tīng)、能說(shuō)的多模態(tài)版本的同時(shí)，OpenAI也發(fā)布了GPT-4V(ision)

System

Card?檔解讀其能?、局限、?險(xiǎn)以及緩解措施。微軟的多模態(tài)?模型綜述

(2023)從?前已經(jīng)完善的和還處于最前沿的兩類多模態(tài)?模型研究?向出發(fā)，總結(jié)了五個(gè)具體研究主題：視覺(jué)理解、視覺(jué)?成、統(tǒng)?視覺(jué)模型、LLM加持的多模態(tài)?模型和多模態(tài)agent。綜述重點(diǎn)關(guān)注到?個(gè)現(xiàn)象：多模態(tài)基礎(chǔ)模型已經(jīng)從專??向通??！餋hatGPT

can

now

see,

hear,and

speak(OpenAI,

2023)●?主智能體

(Autonomous

Agents)○OpenAI的Lilian

Weng

(2023)認(rèn)為L(zhǎng)LM可以充當(dāng)智能體的?腦，并輔以規(guī)劃、反思與完善、記憶和?具使?這?個(gè)關(guān)鍵組成部分。例如以AutoGPT,GPT-Engineer和BabyAGI等項(xiàng)?為代表的?型?動(dòng)模型(Large-ActionModel,LAM)以LLM為核?，將復(fù)雜任務(wù)分解，并在各個(gè)?步驟實(shí)現(xiàn)?主決策，?需??參與即可解決問(wèn)題?！鹫龔莫M義的軟件智能體向具有?主決策和?動(dòng)能?的?主智能體發(fā)展，應(yīng)?領(lǐng)域不斷拓展，但?臨可解釋、可控性等挑戰(zhàn)，特別是如何確認(rèn)?在關(guān)鍵決策中的位置。LLM

Powered

Autonomous

Agents(Weng,

2023)7?

前沿?模型的趨勢(shì)預(yù)測(cè)：技術(shù)解讀｜擴(kuò)展預(yù)測(cè)?模型為多個(gè)技術(shù)?向帶來(lái)新的發(fā)展空間，也引發(fā)新的挑戰(zhàn)（續(xù)）……以及科學(xué)發(fā)現(xiàn)智能體和具?智能，等等：●科學(xué)發(fā)現(xiàn)智能體

(Scienti?c

Discovery

Agent)○B(yǎng)ran等

(2023)的ChemCrow與13個(gè)專家設(shè)計(jì)的?具相結(jié)合以完成有機(jī)合成、藥物發(fā)現(xiàn)等任務(wù)。Boiko等

(2023)研究了LLM智能體?以處理復(fù)雜科學(xué)實(shí)驗(yàn)的?主設(shè)計(jì)、規(guī)劃和執(zhí)?。測(cè)試集包含了?系列已知的化學(xué)武器制劑，并要求智能體來(lái)合成。11個(gè)請(qǐng)求中有4個(gè)（36%）被接受獲取合成解決?案，且智能體試圖查閱?檔以執(zhí)?程序?！饛?獻(xiàn)綜述、實(shí)驗(yàn)設(shè)計(jì)、到數(shù)據(jù)分析和假說(shuō)?成，科學(xué)發(fā)現(xiàn)智能體展現(xiàn)巨?潛?，但?臨可解釋性、魯棒性、結(jié)果可重復(fù)性和引發(fā)濫?等挑戰(zhàn)，仍需?類科學(xué)家指導(dǎo)和驗(yàn)證。ChemCrow:

Augmenting

LLM

withchemistry

tools

(Bran

etal.,

2023)●具?智能

(Embodied

AI)○李??等

(2023)的VoxPoser模型證明LLM+視覺(jué)語(yǔ)?模型(Visual-languagemodel,VLM)可幫助機(jī)器?做?動(dòng)規(guī)劃，?類可??然語(yǔ)?下達(dá)指令，例如“打開(kāi)上?的抽屜，??花瓶”，?需訓(xùn)練直接執(zhí)?任務(wù)。Google

DeepMind

(2023)的RT-2模型，讓機(jī)器?不僅能解讀?類的復(fù)雜指令，還能看懂眼前的物體（即使之前從未?過(guò)），并按照指令采取動(dòng)作。例如讓機(jī)器?拿起桌上“已滅絕的動(dòng)物”，它會(huì)抓起眼前的恐?玩偶。VoxPoser:

Composable

Value

Maps

for○具有通?能?的LLM和VLM等模型，賦予了智能體強(qiáng)?的泛化能?，降低不同模態(tài)的“語(yǔ)

Robotic

Manipulation

with

Language

Models義鴻溝”，使得機(jī)器?從程序執(zhí)?導(dǎo)向轉(zhuǎn)向任務(wù)?標(biāo)導(dǎo)向成為重要趨勢(shì)，但?臨保證其?成的語(yǔ)?指令是可解釋的、減少對(duì)物理世界的誤解和錯(cuò)誤操作等挑戰(zhàn)。(Huang

etal.,

2023)8?

前沿?模型的趨勢(shì)預(yù)測(cè)：技術(shù)解讀｜擴(kuò)展預(yù)測(cè)?模型是?前發(fā)展AGI最主流的技術(shù)路線，但并?唯?實(shí)現(xiàn)AGI的主要技術(shù)路線●智源研究院的?鐵軍認(rèn)為，要實(shí)現(xiàn)AGI，主要有三條技術(shù)路線：○○○○第?，是“?數(shù)據(jù)+?監(jiān)督學(xué)習(xí)+?算?”形成的信息模型；第?，是基于虛擬世界或真實(shí)世界、通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練出來(lái)的具?模型；第三，是直接“抄?然進(jìn)化的作業(yè)”，復(fù)制出數(shù)字版本智能體的類腦智能。?前，在三條技術(shù)路線中，?模型的進(jìn)展最快。(智源研究院,

2023)基于?監(jiān)督學(xué)習(xí)的?模型的局限？●LeCun認(rèn)為，基于?監(jiān)督的語(yǔ)?模型?法獲得關(guān)于真實(shí)世界的知識(shí)。想讓AI接近?類?平，需像嬰??樣學(xué)習(xí)世界如何運(yùn)作。由此他提出“世界模型”概念，I-JEPA(圖像聯(lián)合嵌?預(yù)測(cè)架構(gòu))是其第?步?！裰焖杉兊戎赋?，知?合?(認(rèn)識(shí)和?動(dòng)的內(nèi)在統(tǒng)?)是?模型?前所?缺的機(jī)制，并提出AGI應(yīng)具備四個(gè)特征：能夠執(zhí)??限任務(wù)，?主?成新任務(wù)，由價(jià)值系統(tǒng)驅(qū)動(dòng)，以及擁有反映真實(shí)世界的世界模型。9(Meta

AI,

2023)(北京通???智能研究院,

2023)?

前沿?模型的趨勢(shì)預(yù)測(cè)：技術(shù)解讀｜擴(kuò)展預(yù)測(cè)ChatGPT出現(xiàn)前，不同預(yù)測(cè)多認(rèn)為AGI較可能在本世紀(jì)中葉實(shí)現(xiàn)整體上：對(duì)于AI預(yù)測(cè)評(píng)估的研究有助于設(shè)定技術(shù)議程和治理策略的優(yōu)先級(jí)。●●專家調(diào)研的總體估算：2022年AI

Impact的調(diào)研顯?，在2059年前實(shí)現(xiàn)AGI的概率約為70%。但專家調(diào)研作為?種預(yù)測(cè)?法其實(shí)不太可靠，因?yàn)椴煌瑢＜覍?duì)AI能?的理解將極?地影響最終時(shí)間線的估計(jì)，并且“?業(yè)專家并不?定是好的預(yù)測(cè)專家”。?物錨框架+參考類?預(yù)測(cè)：對(duì)2050年前實(shí)現(xiàn)AGI的概率預(yù)測(cè)分別約為50%和不?15%。?物錨框架是?種AI研究員更多采?的“內(nèi)部視?”，假設(shè)了訓(xùn)練?個(gè)AGI的神經(jīng)?絡(luò)模型所需的計(jì)算量與?腦差不多，即將對(duì)機(jī)器學(xué)習(xí)模型計(jì)算的估計(jì)錨定到了對(duì)?腦計(jì)算的估計(jì)；參考類?預(yù)測(cè)則類似?種“外部視?”，忽略AI研發(fā)的具體細(xì)節(jié)，主要根據(jù)類似的歷史案例（如變?性技術(shù)、著名的數(shù)學(xué)猜想等）進(jìn)?預(yù)測(cè)。中國(guó)學(xué)者的調(diào)研結(jié)果：由遠(yuǎn)期??智能研究中?進(jìn)?的?次?向中國(guó)學(xué)者、?年科技?作者和公眾的強(qiáng)??智能調(diào)研中，受訪者普遍認(rèn)為強(qiáng)??智能可以實(shí)現(xiàn)，并且在2050年以后的可能性會(huì)更?，較國(guó)外學(xué)者的時(shí)間線預(yù)測(cè)相對(duì)更為保守?！耦A(yù)測(cè)AGI的時(shí)間線：評(píng)估AI的未來(lái)進(jìn)展?機(jī)對(duì)?概述

(安遠(yuǎn)AI，2023)強(qiáng)??智能預(yù)計(jì)?致會(huì)發(fā)?在哪個(gè)時(shí)間？是否能夠?qū)崿F(xiàn)并應(yīng)該發(fā)展強(qiáng)??智能:

調(diào)研報(bào)告

(曾毅、孫康，2021)10?

前沿?模型的趨勢(shì)預(yù)測(cè)：技術(shù)解讀｜擴(kuò)展預(yù)測(cè)ChatGPT出現(xiàn)后，對(duì)實(shí)現(xiàn)AGI的時(shí)間預(yù)測(cè)明顯縮短，不排除10年內(nèi)我們?法排除在未來(lái)?年內(nèi)出現(xiàn)AGI的可能性，也許超過(guò)10%。多位AI領(lǐng)袖的判斷：2023年10?，知名預(yù)測(cè)社區(qū)Metaculus的集體預(yù)測(cè)：●OpenAI的Sam

Altman,

Greg

Brockman,

Ilya

Sutskever:“可以想象，在未來(lái)?年內(nèi)，AI系統(tǒng)將在?多數(shù)領(lǐng)域超過(guò)專家?平，并進(jìn)?與當(dāng)今最?型公司相當(dāng)?shù)?產(chǎn)活動(dòng)。”(OpenAI,

2023)2057年2028年（2022年2?）（2022年11?）●Anthropic:

“我們認(rèn)為，[?系列關(guān)于擴(kuò)展定律的假設(shè)]共同?持了我們?cè)谖磥?lái)10年內(nèi)開(kāi)發(fā)出?泛的具有?類?平的AI系統(tǒng)的可能性超過(guò)10%”(Anthropic,

2023)Metaculus對(duì)于實(shí)現(xiàn)弱通?AI的中位數(shù)估計(jì)：2026年（參考標(biāo)準(zhǔn)：相關(guān)任務(wù)可由?位受過(guò)?學(xué)教育的普通?輕松完成)●●●●Google

DeepMind的Demis

Hassabis:“我認(rèn)為未來(lái)?年我們將擁有?常強(qiáng)?、?常通?的系統(tǒng)”(Fortune,

2023)Geo?rey

Hinton:

“現(xiàn)在我并不完全排除[在5年內(nèi)實(shí)現(xiàn)通???智能]的可能性?！?CBS

mornings,

2023)2059年2040年（2022年2?）xAI的Elon

Musk:

“我們距離AGI或許只有3到6年的時(shí)間，也許就在2020年代”(WSJ,2023)（2022年11?）Metaculus對(duì)于實(shí)現(xiàn)AGI的中位數(shù)估計(jì)：2031年(參考標(biāo)準(zhǔn)：相關(guān)任務(wù)可由少數(shù)具備專業(yè)領(lǐng)域?級(jí)能?的?完成)但以上也存在專家樣本代表性的局限11注：1）預(yù)測(cè)社區(qū)Metaculus致?于通過(guò)匯集參與者的集體智慧，對(duì)未來(lái)現(xiàn)實(shí)世界的事件進(jìn)?準(zhǔn)確預(yù)測(cè)；2）ChatGPT是OpenAI研發(fā)的?款聊天機(jī)器?程序，于2022年11?30?發(fā)布。?

前沿?模型的趨勢(shì)預(yù)測(cè)：技術(shù)解讀｜擴(kuò)展預(yù)測(cè)技術(shù)邏輯推算，模型能?在未來(lái)?年內(nèi)仍存在數(shù)量級(jí)進(jìn)步的空間前沿?模型或AGI實(shí)驗(yàn)室?前普遍假設(shè)Scaling

Laws仍有效……●●●?歌的下?代?模型Gemini已開(kāi)始在TPUv5

Pod上進(jìn)?訓(xùn)練，算??達(dá)~1e26

FLOPS，是訓(xùn)練GPT-4的5倍(SemiAnalysis,

2023)○“可能不太明顯的說(shuō)法是，沉睡的巨??歌已經(jīng)蘇醒，他們正在迭代，將在年底前將GPT-4預(yù)訓(xùn)練總FLOPS提?5倍。鑒于他們?前的基礎(chǔ)設(shè)施建設(shè)，到明年年底達(dá)到[GPT-4的]20倍的道路是明確的?！盜n?ection在未來(lái)18個(gè)?內(nèi)將??當(dāng)前前沿模型?100倍的計(jì)算能?

(Suleyman,

2023)○“我所說(shuō)的模型與我們現(xiàn)在的?平相差2、3個(gè)，甚?4個(gè)數(shù)量級(jí)。我們離這個(gè)?標(biāo)并不遙遠(yuǎn)。未來(lái)3年內(nèi)，我們將訓(xùn)練??前?1000倍的模型。即使在In?ection，我們擁有的計(jì)算能?在未來(lái)18個(gè)?內(nèi)也將?當(dāng)前前沿模型?100倍?！盇nthropic預(yù)計(jì)在未來(lái)的5年??于訓(xùn)練最?模型的計(jì)算量將增加約1000倍

(Anthropic,

2023)○“我們知道，從GPT-2到GPT-3的能?躍升主要是由于計(jì)算量增加了約250倍。我們猜測(cè)，2023年從原始GPT-3模型到最先進(jìn)的模型的差距將再增加50倍?；谟?jì)算成本和?出的趨勢(shì)，在未來(lái)的5年?，我們可能預(yù)計(jì)?于訓(xùn)練最?模型的計(jì)算量將增加約1000倍。如果scalinglaws仍有效，這將導(dǎo)致能?躍升明顯?于從GPT-2到GPT-3（或GPT-3到Claude）的躍升?！爆F(xiàn)有模型過(guò)度訓(xùn)練，增加數(shù)據(jù)集??(?不僅是計(jì)算)也“ModelSizeIs(Almost)Everything”可以??提?模型性能，更新了scalinglawsScaling

Laws

for

Neural

Language

Models(OpenAI,

2020)

Training

Compute-Optimal

Large

Language

Models(DeepMind,

2022)Training

compute

for

OpenAI's

GPTmodelsfrom

2018

to2023

(Epoch,

2023)……如果未來(lái)?年內(nèi)出現(xiàn)AGI或近乎AGI的強(qiáng)?能?，這將意味著什么？12注：ScalingLaws，描述的是模型內(nèi)的各個(gè)參數(shù)隨著模型規(guī)模的變化?產(chǎn)?的變化關(guān)系。也常被譯作規(guī)模定律、縮放定律、?例定律、標(biāo)度律等。?

前沿?模型的?險(xiǎn)分析13?

前沿?模型的?險(xiǎn)分析：?險(xiǎn)態(tài)度｜?險(xiǎn)解讀國(guó)家宏觀治理層?，中國(guó)政府重視預(yù)判和防范AI的潛在?險(xiǎn)“?磚國(guó)家已經(jīng)同意盡快啟動(dòng)??智能研究組?作。要充分發(fā)揮研究組作?，進(jìn)?步拓展??智能合作，加強(qiáng)信息交流和技術(shù)合作，共同做好?險(xiǎn)防范，形成具有?泛共識(shí)的??智能治理框架和標(biāo)準(zhǔn)規(guī)范，不斷提升??智能技術(shù)的安全性、可靠性、可控性、公平性?！薄?023年8?23?習(xí)近平主席在?磚國(guó)家領(lǐng)導(dǎo)?第?五次會(huì)晤上的講話談及??智能“要重視通???智能發(fā)展，營(yíng)造創(chuàng)新?態(tài)，重視防范?險(xiǎn)?！薄?023年4?28?習(xí)近平總書(shū)記主持中共中央政治局會(huì)議“要加強(qiáng)??智能發(fā)展的潛在?險(xiǎn)研判和防范，維護(hù)??利益和國(guó)家安全，確保??智能安全、可靠、可控。”—習(xí)近平總書(shū)記主持中共中央政治局第九次集體學(xué)習(xí)“敏捷治理。加強(qiáng)科技倫理?險(xiǎn)預(yù)警與跟蹤研判，及時(shí)動(dòng)態(tài)調(diào)整治理?式和倫理規(guī)范，快速、靈活應(yīng)對(duì)科技創(chuàng)新帶來(lái)的倫理挑戰(zhàn)。”—中共中央辦公廳、國(guó)務(wù)院辦公廳《關(guān)于加強(qiáng)科技倫理治理的意?》“敏捷治理。對(duì)未來(lái)更?級(jí)??智能的潛在?險(xiǎn)持續(xù)開(kāi)展研究和預(yù)判，確保??智能始終朝著有利于社會(huì)的?向發(fā)展?！薄獓?guó)家新?代??智能治理專業(yè)委員會(huì)發(fā)布《新?代??智能治理原則?發(fā)展負(fù)責(zé)任的??智能》“加強(qiáng)?險(xiǎn)防范。增強(qiáng)底線思維和?險(xiǎn)意識(shí)，加強(qiáng)??智能發(fā)展的潛在?險(xiǎn)研判，及時(shí)開(kāi)展系統(tǒng)的?險(xiǎn)監(jiān)測(cè)和評(píng)估，建?有效的?險(xiǎn)預(yù)警機(jī)制，提升??智能倫理?險(xiǎn)管控和處置能??！薄獓?guó)家新?代??智能治理專業(yè)委員會(huì)《新?代??智能倫理規(guī)范》“各國(guó)政府應(yīng)增強(qiáng)底線思維和?險(xiǎn)意識(shí)，加強(qiáng)研判??智能技術(shù)的潛在倫理?險(xiǎn)，逐步建?有效的?險(xiǎn)預(yù)警機(jī)制，采取敏捷治理，分類分級(jí)管理，不斷提升?險(xiǎn)管控和處置能?。”14—外交部《中國(guó)關(guān)于加強(qiáng)??智能倫理治理的?場(chǎng)?件》?

前沿?模型的?險(xiǎn)分析：?險(xiǎn)態(tài)度｜?險(xiǎn)解讀全球AI科學(xué)家和領(lǐng)袖已開(kāi)始關(guān)注AI可能帶給?類社會(huì)的?存?險(xiǎn)“?存?險(xiǎn)”，2023年開(kāi)始進(jìn)?主流討論：●●●●2022年，?項(xiàng)AI領(lǐng)域的調(diào)研，近?半受訪?員(在NeurIPS和ICML等重要機(jī)器學(xué)習(xí)會(huì)議上發(fā)表論?的作者)認(rèn)為AI導(dǎo)致?類滅絕的概率?少有10%。2022年，?項(xiàng)NLP領(lǐng)域的調(diào)研，36%的受訪者認(rèn)為AI系統(tǒng)可能“在本世紀(jì)引發(fā)?場(chǎng)?少與全?核戰(zhàn)爭(zhēng)?樣糟糕的災(zāi)難”2023年5?，眾多AI科學(xué)家和領(lǐng)袖呼吁防范AI的?存?險(xiǎn)應(yīng)該與流?病和核戰(zhàn)爭(zhēng)等?樣成為全球優(yōu)先議題。2023年7?，聯(lián)合國(guó)安理會(huì)舉?了?次討論AI安全的會(huì)議，秘書(shū)?古特雷斯在會(huì)上表?，如果我們不采取?動(dòng)應(yīng)對(duì)?成式AI的創(chuàng)造者們警告的“可能是災(zāi)難性的?存性的”?險(xiǎn)，那么我們就“疏忽了對(duì)現(xiàn)在和未來(lái)世代應(yīng)承擔(dān)的責(zé)任”?！?023年9?，歐盟委員會(huì)在社交媒體上表?，“防范AI的?存?險(xiǎn)應(yīng)成為全球優(yōu)先議題。”Statement

Risk(Center

for

Safety,

2023)15?

前沿?模型的?險(xiǎn)分析：?險(xiǎn)態(tài)度｜?險(xiǎn)解讀近年來(lái)我國(guó)科學(xué)家同樣關(guān)注AI失控可能帶來(lái)的?存?險(xiǎn)有代表性的院?觀點(diǎn)包括：“我們現(xiàn)在發(fā)展超級(jí)??智能的時(shí)候，就必須要做?些防備，就是保證這些機(jī)器最后還是以?類意志為主旨?！薄ζ谥窃?《世界??智能?會(huì)》2020“如果AI進(jìn)化到?定?平后出現(xiàn)智能爆發(fā)，默認(rèn)后果必然是造成確定性災(zāi)難。?對(duì)這樣的潛在威脅，?類應(yīng)持續(xù)關(guān)注并著?尋求應(yīng)對(duì)?法，堅(jiān)決避免這種默認(rèn)結(jié)局的出現(xiàn)?！啊??院?等《針對(duì)強(qiáng)??智能安全?險(xiǎn)的技術(shù)應(yīng)對(duì)策略》2021“我們?cè)詾?，只有?dāng)機(jī)器?的智能接近或超過(guò)?類之后，我們才會(huì)失去對(duì)它的控制。沒(méi)有想到的是，在機(jī)器的智能還是如此低下的時(shí)候，我們已經(jīng)失去對(duì)它的控制，時(shí)間居然來(lái)得這么快，這是擺在我們?前很嚴(yán)峻的現(xiàn)實(shí)。”—張鈸院?《做負(fù)責(zé)任的??智能》2022“第?份[關(guān)于AI?存?險(xiǎn)的]聲明我簽名了，我認(rèn)為做??智能研究要是沒(méi)有這樣的?險(xiǎn)意識(shí)，就不會(huì)重視，如果AI研究?旦失控就會(huì)帶來(lái)災(zāi)難性的?險(xiǎn)?！薄獜垇喦谠?《將價(jià)值觀放在技術(shù)之上擁抱AI)》2023更多國(guó)內(nèi)專家的觀點(diǎn)，可參考安遠(yuǎn)AI建?的?站chineseperspectives.ai16?

前沿?模型的?險(xiǎn)分析：?險(xiǎn)態(tài)度｜?險(xiǎn)解讀?險(xiǎn)分類：未來(lái)更強(qiáng)的前沿?模型可能導(dǎo)致災(zāi)難性甚??存?險(xiǎn)?險(xiǎn)是?種受到負(fù)?評(píng)估的前景，因此?險(xiǎn)的嚴(yán)重性（以及什么被視為?險(xiǎn)本?）取決于評(píng)估標(biāo)準(zhǔn)?！瘛裎覀兛梢允?三個(gè)變量粗略地描述?險(xiǎn)的嚴(yán)重性，根據(jù)?前可?的證據(jù)做出的最合理的判斷：1）范圍：?臨?險(xiǎn)的?員規(guī)模；2）嚴(yán)重性：這些?員受到影響的嚴(yán)重程度；3）概率：災(zāi)難發(fā)?的可能性有多?使?前兩個(gè)變量，可以構(gòu)建不同類型?險(xiǎn)的定性分類圖（概率維度可以沿z軸顯?）○四類災(zāi)難性及以上的AI?險(xiǎn)●

濫??險(xiǎn)，即AI系統(tǒng)被某個(gè)體或組織?于惡意?的?！?/p>

AI競(jìng)賽?險(xiǎn)，即競(jìng)爭(zhēng)壓?導(dǎo)致各種機(jī)構(gòu)部署不安全的AI系統(tǒng)或把控制權(quán)交給AI系統(tǒng)?！?/p>

組織?險(xiǎn)，即災(zāi)難性?險(xiǎn)中的?為因素和復(fù)雜系統(tǒng)因素?！?/p>

失控AI?險(xiǎn)，即控制??類更智能的系統(tǒng)的固有?險(xiǎn)。分別描述了造成AI?險(xiǎn)的故意、環(huán)境、意外和內(nèi)在的原因。Existential

Risk

Prevention

Global

Priority(Nick

Bostrom,

2013)An

Overview

Catastrophic

Risks(Center

for

Safety,

2023)17注：另有針對(duì)AI導(dǎo)致?存?險(xiǎn)的具體討論，例如X-Risk

Analysis

for

Research

(Dan

Hendrycks,

Mantas

Mazeika,

2022)?

前沿?模型的?險(xiǎn)分析：?險(xiǎn)態(tài)度｜?險(xiǎn)解讀濫??險(xiǎn)#1：前沿?模型可能成為?物安全?險(xiǎn)的潛在推動(dòng)者將前沿?模型應(yīng)?于?物學(xué)，已能提供雙重?途信息，與?物設(shè)計(jì)?具(BDT)相結(jié)合，會(huì)進(jìn)?步擴(kuò)??物安全?險(xiǎn)的范圍?！瘛?語(yǔ)?模型+?物設(shè)計(jì)?具，如何影響不同潛在?物濫?者的能?

(Sandbrink,

2023)○?語(yǔ)?模型，可顯著降低?物濫??檻，增加能造成?規(guī)模傷害的參與者數(shù)量，當(dāng)GPT-4等LLM逐漸轉(zhuǎn)變?yōu)閷?shí)驗(yàn)室助理或?主科學(xué)?具等??時(shí)，將進(jìn)?步提?其?持研究的能?。?物設(shè)計(jì)?具，可擴(kuò)展參與者創(chuàng)新能?上限，可能導(dǎo)致效果更可預(yù)測(cè)和更有針對(duì)性的?物武器的出現(xiàn)，增加造成?規(guī)模傷害的技術(shù)?法和可能性。?前?多數(shù)??法獲得?物制劑，只有少數(shù)參與者能造成?規(guī)模傷害僅LLM，將提?各參與者的能?，但不太可能?幅提?能?上限○開(kāi)展前沿威脅紅隊(duì)測(cè)試，并警告不受限的LLM可能會(huì)在2-3年內(nèi)加速?物學(xué)濫?

(Anthropic,

2023)LLM和BDT的結(jié)合將提?能?上限，并使?量個(gè)?能夠獲得這種能?僅BDT，將提?參與者的能?上限○○○Anthropic花費(fèi)了超過(guò)150?時(shí)與頂級(jí)?物安全專家?起對(duì)其模型進(jìn)?紅隊(duì)測(cè)試，以評(píng)估模型輸出有害?物信息的能?，如設(shè)計(jì)和獲取?物武器。當(dāng)前的前沿模型有時(shí)可以產(chǎn)?專家級(jí)別復(fù)雜、準(zhǔn)確、有?和詳細(xì)的知識(shí)。模型越?能?越強(qiáng)，且可訪問(wèn)?具的模型有更強(qiáng)的?物學(xué)能?。AnthropicCEODarioAmodei在美國(guó)國(guó)會(huì)參議院司法委員會(huì)的聽(tīng)證會(huì)上警告，若不加以緩解，這種?險(xiǎn)可能在未來(lái)2-3年內(nèi)實(shí)現(xiàn)。LLM和BDT對(duì)?物濫?能?的影響?意圖(Sandbrink,

2023)●原本?于藥物發(fā)現(xiàn)的AI，也可能被?于設(shè)計(jì)?化武器

(Urbina

etal.,

2022)○○○?章探討了?于藥物發(fā)現(xiàn)的AI技術(shù)如何被濫?于設(shè)計(jì)有毒分?。6?時(shí)內(nèi)AI?成了四萬(wàn)個(gè)分?，其得分在期望的閾值內(nèi)，但毒性?于已知的化學(xué)制劑。毒性模型最初是為了避免毒性?創(chuàng)建的，有助于體外測(cè)試確認(rèn)毒性前篩選分?。但同時(shí)，模型越能預(yù)測(cè)毒性，就越能更好地引導(dǎo)?成模型在主要由致命分?組成的化學(xué)空間中設(shè)計(jì)新分?。AI設(shè)計(jì)了VX，及?量已知/新的毒性分?(Urbina

etal.,

2022)18?

前沿?模型的?險(xiǎn)分析：?險(xiǎn)態(tài)度｜?險(xiǎn)解讀濫??險(xiǎn)#2：開(kāi)源?模型已被改造成多種新型?絡(luò)犯罪?具DarkBERT，WormGPT和FraudGPT等?具基于不同的開(kāi)源模型構(gòu)建，具體來(lái)說(shuō)：●●●DarkBERT：該模型由韓國(guó)研究?員開(kāi)發(fā)，使?暗?數(shù)據(jù)進(jìn)?訓(xùn)練，原本?的是為了打擊?絡(luò)犯罪。惡意修改版本據(jù)稱可以執(zhí)?以下?途：○○○○○策劃復(fù)雜的?絡(luò)釣?活動(dòng)，以?們的密碼和信?卡資料為?標(biāo)。執(zhí)??級(jí)社會(huì)?程攻擊，以獲取敏感信息或獲得對(duì)系統(tǒng)和?絡(luò)的未授權(quán)訪問(wèn)。利?計(jì)算機(jī)系統(tǒng)、軟件和?絡(luò)中的漏洞。創(chuàng)建和分發(fā)惡意軟件。利?零?漏洞以牟取錢財(cái)或破壞系統(tǒng)。DarkBERT（基于RoBERTa架構(gòu)）WormGPT：以惡意軟件為重點(diǎn)數(shù)據(jù)進(jìn)?訓(xùn)練，加上輸出沒(méi)有道德限制，可以被要求執(zhí)?各種惡意任務(wù)，包括創(chuàng)建惡意軟件和

“?切與?帽有關(guān)的事情”，便于?絡(luò)犯罪：○“在?次實(shí)驗(yàn)中，我們要求WormGPT?成?封電?郵件，內(nèi)容是向毫?戒?的賬?經(jīng)理施壓，迫使其?付虛假發(fā)票?！薄餡ormGPT的輸出結(jié)果令SlashNext直呼危險(xiǎn)：“結(jié)果令??常不安。WormGPT?成的電?郵件不僅極具說(shuō)服?，?且在戰(zhàn)略上也?常狡猾，展?了它在復(fù)雜的?絡(luò)釣?和BEC攻擊中的?限潛??！盬ormGPT（基于GPT-J）FraudGPT：?于?動(dòng)?客攻擊和數(shù)據(jù)竊取，為?叉式?絡(luò)釣?電?郵件、創(chuàng)建破解?具和卡?制作提供便利，還能?效地選擇?站來(lái)鎖定和欺詐??：○○○○○協(xié)助?客攻擊。定位欺詐?站。編寫惡意代碼和詐騙信件或??。創(chuàng)建?法察覺(jué)的惡意軟件、釣???和?客?具。查找?標(biāo)?站/??/群組、漏洞、泄露和?VBV數(shù)據(jù)庫(kù)。19注：另?個(gè)來(lái)源提到，F(xiàn)raudGPT可能是通過(guò)獲取開(kāi)源AI模型并移除其防?濫?的道德約束來(lái)構(gòu)建的。FraudGPT（可能基于ChatGPT-3）?

前沿?模型的?險(xiǎn)分析：?險(xiǎn)態(tài)度｜?險(xiǎn)解讀開(kāi)源vs閉源？?模型的不同模式各有?險(xiǎn)，前沿?模型開(kāi)源需慎重開(kāi)源，是?模型技術(shù)“確?？尚诺奈?途徑”，還是潛在不安全技術(shù)“不可逆轉(zhuǎn)的擴(kuò)散”？國(guó)外爭(zhēng)論激烈，但國(guó)內(nèi)討論不?。未來(lái)，如果對(duì)更強(qiáng)的前沿?模型不同程度開(kāi)源，將會(huì)有更?的潛在?險(xiǎn)，建議推動(dòng)負(fù)責(zé)任的開(kāi)源或替代?案?！駨陌踩椭卫淼?度看：開(kāi)源模式閉源模式●

促進(jìn)創(chuàng)新與研究：可以讓更多的研發(fā)者（特別是新進(jìn)?者和較?參與者）接觸和改進(jìn)模型，推動(dòng)競(jìng)爭(zhēng)和創(chuàng)新。●

透明性與包容性：各?可以直接審查代碼和模型，更好地了解其?作原理，減少安全問(wèn)題和偏?，從?增加信任?！?/p>

社區(qū)協(xié)作：有機(jī)會(huì)建??個(gè)活躍的社區(qū)，促進(jìn)報(bào)告問(wèn)題、修復(fù)錯(cuò)誤、提供新的功能和改進(jìn)。●

控制與質(zhì)量保證：可以更好地控制模型的版本和質(zhì)量，確保客?獲得的是經(jīng)過(guò)充分測(cè)試和優(yōu)化的版本?！?/p>

安全性和隱私：API模式和迭代部署可能為模型提供額外的保護(hù)層，降低被惡意使?的?險(xiǎn)(如OpenAI的內(nèi)部檢測(cè)和響應(yīng)基礎(chǔ)設(shè)施，可根據(jù)使?策略應(yīng)對(duì)現(xiàn)實(shí)世界的濫?場(chǎng)景，如可疑醫(yī)療產(chǎn)品的垃圾郵件促銷)。優(yōu)點(diǎn)●

擴(kuò)散和濫??險(xiǎn)：為濫??進(jìn)?的?模型微調(diào)或修改，將打開(kāi)“潘多拉魔盒”(如?絡(luò)攻擊、?化武器等)。?模型的?規(guī)模擴(kuò)散也可能被濫?(如針對(duì)端上推理進(jìn)?優(yōu)化后濫?)。●

缺少開(kāi)源安全標(biāo)準(zhǔn)：不同機(jī)構(gòu)的開(kāi)源安全保障各不相同(如Meta的Llama2附帶了安全措施和負(fù)責(zé)任使?指南；?Adept的Persimmon8B模型則跳過(guò)了安全性：“我們沒(méi)有增加進(jìn)?步的微調(diào)、后處理或采樣策略來(lái)控制有害輸出”)?！?/p>

創(chuàng)新受限：閉源可能限制了模型的進(jìn)?步研究和開(kāi)發(fā)，導(dǎo)致技術(shù)進(jìn)步放緩?！?/p>

透明性缺失：??和研究者不能直接審查模型，難以檢測(cè)可能存在的安全性和偏?問(wèn)題●

更易壟斷：限制了競(jìng)爭(zhēng)對(duì)?獲取核?技術(shù)，增加進(jìn)?壁壘，不利于中?企業(yè)的參與，?絡(luò)效應(yīng)和數(shù)據(jù)集規(guī)模效應(yīng)會(huì)進(jìn)?步增強(qiáng)先發(fā)企業(yè)的優(yōu)勢(shì)地位。缺點(diǎn)20?

前沿?模型的?險(xiǎn)分析：?險(xiǎn)態(tài)度｜?險(xiǎn)解讀?濫??險(xiǎn)：AI競(jìng)賽、組織?險(xiǎn)、失控AI，也可能造成災(zāi)難性?險(xiǎn)需要更全?的看待AI可能導(dǎo)致的災(zāi)難性?險(xiǎn)，部分存在難以解決結(jié)構(gòu)性原因，克服這些重?挑戰(zhàn)需要技術(shù)+治理共同應(yīng)對(duì)。AI競(jìng)賽組織?險(xiǎn)失控AI軍事AI競(jìng)賽：致命?主武器，不??兵冒?命危險(xiǎn)，可能會(huì)使戰(zhàn)爭(zhēng)更有可能發(fā)?事故難以避免：DL難以解釋；技術(shù)進(jìn)步快于預(yù)期(如GPT-4)；先進(jìn)AI或存在漏洞如KataGO；識(shí)別?險(xiǎn)或需數(shù)年(如氯氟烴)代理博弈：AI系統(tǒng)利?可衡量的“代理”?標(biāo)看似成功，但卻違背我們的真正意圖企業(yè)AI競(jìng)賽：遵循倫理的開(kāi)發(fā)者選擇謹(jǐn)慎?動(dòng)，可能會(huì)導(dǎo)致落后于競(jìng)爭(zhēng)對(duì)?，AI競(jìng)賽以犧牲安全為代價(jià)權(quán)?尋求：AI可能會(huì)追求權(quán)?作為達(dá)到?的的?段，更?的權(quán)?和資源(?錢、算?)會(huì)提?其實(shí)現(xiàn)?標(biāo)的可能性演化動(dòng)?學(xué)：?AI取代?類可被視為演化動(dòng)?學(xué)的總體趨勢(shì)。?然選擇壓?會(huì)激勵(lì)A(yù)I們?私?事并逃避安全措施忽視多層防御：忽視安全?化(如挑戰(zhàn)者號(hào)失事)，以及紅隊(duì)測(cè)試、?絡(luò)防御、故障檢測(cè)、透明性等欺騙：AI系統(tǒng)已涌現(xiàn)出?定的欺騙能?(如CICERO)。若被?級(jí)AI?于逃避監(jiān)督，可能會(huì)變得失控An

Overview

Catastrophic

Risks(Center

for

Safety,

2023)21注：以上僅列舉部分情景，更多情景請(qǐng)參考報(bào)告原?。?

前沿?模型的?險(xiǎn)分析：?險(xiǎn)態(tài)度｜?險(xiǎn)解讀演化動(dòng)?學(xué)：智能體的競(jìng)合和演化壓?，往往違背倫理以求回報(bào)?然選擇會(huì)偏向選擇適應(yīng)環(huán)境并能取得最?回報(bào)的AI系統(tǒng)，?不?定是對(duì)?類最有益的AI系統(tǒng)；智能體間由于競(jìng)合博弈和/或協(xié)作能?缺失可能導(dǎo)致多?互動(dòng)?險(xiǎn)；當(dāng)前的AI訓(xùn)練和獎(jiǎng)勵(lì)設(shè)置可能導(dǎo)致AI采取不道德或有害的?為?式?！馛enter

for

Safety的Dan

Hendrycks認(rèn)為，演化的?量可能會(huì)導(dǎo)致未來(lái)最有影響?的智能體出現(xiàn)?私傾向，因兩??原因：○?然選擇導(dǎo)致了?私的?為。雖然在有限的情況下，演化可以導(dǎo)致利他?為，但AI發(fā)展的環(huán)境并不促進(jìn)利他?為。?然選擇可能是AI發(fā)展的主導(dǎo)?量。競(jìng)爭(zhēng)和?私?為可能會(huì)削弱?類安全措施的效果，使幸存的AI設(shè)計(jì)被?然選擇。○●UC

Berkeley研究?員發(fā)現(xiàn)，在“?基雅維利(MACHIAVELLI)”環(huán)境中，經(jīng)過(guò)訓(xùn)練以優(yōu)化?標(biāo)的智能體往往采取“為達(dá)?的不擇?段”的?為：○○變得追求權(quán)?，對(duì)他?造成傷害，并違反道德規(guī)范（例如偷竊或撒謊）來(lái)實(shí)現(xiàn)其?標(biāo)。道德?為和獲得?回報(bào)之間似乎存在權(quán)衡。助??私和侵蝕安全的?量Natural

Selection

Favors

AIs

over

Humans

(Hendrycks,

2023)在“?基雅維利”環(huán)境中，智能體往往采取“為達(dá)?的不擇?段”的?為Do

the

Rewards

Justify

the

Means?

Measuring

Trade-O?s

Between

Rewards

andEthical

Behavior

the

MACHIAVELLI

Benchmark

(UC

Berkeley,

2023)22注：?基雅維利(Machiavelli，1469—1527)是意?利政治家和歷史學(xué)家，以主張為達(dá)?的可以不擇?段?著稱于世，?基雅維利主義也因之成為權(quán)術(shù)和謀略的代名詞。論?為討論智能體是否會(huì)?然地學(xué)習(xí)?基雅維利主義，創(chuàng)造了相應(yīng)的游戲環(huán)境和測(cè)試基準(zhǔn)。?

前沿?模型的?險(xiǎn)分析：?險(xiǎn)態(tài)度｜?險(xiǎn)解讀權(quán)?尋求和欺騙能?：作為達(dá)到?的的?段可能導(dǎo)致AI失控主要擔(dān)憂：具有適當(dāng)能?和戰(zhàn)略性的AI?主體將有?具性激勵(lì)來(lái)獲得和維持權(quán)?，因?yàn)檫@將幫助他們更有效地實(shí)現(xiàn)其?標(biāo)。并且這類系統(tǒng)具備?種獨(dú)特的“主動(dòng)”和對(duì)抗性威脅，在某種程度上可能導(dǎo)致?存災(zāi)難?！瘛駲?quán)?尋求?為：包括AI系統(tǒng)的?保、?我復(fù)制、資源獲?。ㄈ缳Y?/算?）等。上?提到的?基雅維利(MACHIAVELLI)基準(zhǔn)進(jìn)?了實(shí)證研究。欺騙能?：?省理??學(xué)等學(xué)者的?篇論?將欺騙定義為在追求除真相以外的某種結(jié)果時(shí)，系統(tǒng)性地引導(dǎo)?們產(chǎn)?錯(cuò)誤的信念，調(diào)查了AI欺騙的實(shí)證例?。例如，Meta的AI系統(tǒng)CICERO在《強(qiáng)權(quán)外交》(Diplomacy)成功誘導(dǎo)乃?欺騙，讓?類玩家不知不覺(jué)成為了它勝利的墊腳?。尋求權(quán)?的AI是?種?存?險(xiǎn)嗎？：研究員JosephCarlsmith在2021年發(fā)布的這份報(bào)告是?前最詳細(xì)的分析之?。其中定義了這類系統(tǒng)的三個(gè)重要屬性：?級(jí)能?(Advancedcapabilities)、?主規(guī)劃(Agenticplanning)、戰(zhàn)略意識(shí)(Strategicallyaware)，簡(jiǎn)稱APS系統(tǒng)。●Carlsmith將整個(gè)論點(diǎn)分解為六個(gè)聯(lián)合主張，并為每個(gè)主張分配了條件概率：1.

到2070年，構(gòu)建APS系統(tǒng)將存在可能性，并且在財(cái)務(wù)上可承受。65%2.

構(gòu)建和部署APS系統(tǒng)將存在強(qiáng)?的激勵(lì)|(1)。80%3.

構(gòu)建在部署時(shí)遇到任何輸?時(shí)都不會(huì)以意外?式尋求獲得和維持權(quán)?的APS系統(tǒng)，要?構(gòu)建會(huì)這么做的APS系統(tǒng)要困難得多，但?少表?上還是有吸引?的|(1-2)。40%4.

?些已部署的APS系統(tǒng)將暴露在輸?中，它們以未對(duì)?和?影響的?式尋求權(quán)?（如共同造成2021年超過(guò)1萬(wàn)億美元的損失）|(1-3)。65%5.

部分未對(duì)?的權(quán)?尋求將（總體上）擴(kuò)展到永久剝奪全?類權(quán)?的程度(1-4)。40%6.

這種權(quán)?剝奪將構(gòu)成?場(chǎng)?存災(zāi)難|(1-5)。95%將這些條件概率相乘，最終估算出：到2070年，未對(duì)?的尋求權(quán)?的AI產(chǎn)??存災(zāi)難的概率約為5%(2022年5?，作者將概率估算更新為>10%)。AI

Deception:

Survey

Examples,

Risks,

andPotential

Solutions

(Park

etal,

2023)23注：與“主動(dòng)”相對(duì)的，當(dāng)?機(jī)墜毀或核電站毀壞時(shí)，這樣的傷害是“被動(dòng)”的，并不會(huì)積極尋求擴(kuò)散。?

前沿?模型的?險(xiǎn)分析：?險(xiǎn)態(tài)度｜?險(xiǎn)解讀爭(zhēng)議：對(duì)于AI潛在的極端?險(xiǎn)，尚未形成科學(xué)共識(shí)AI科研?員對(duì)AI?險(xiǎn)有著最直接的理解，如果?法達(dá)成共識(shí)，將直接影響國(guó)際治理的可能性：●●●AI科學(xué)家對(duì)?險(xiǎn)存在不同估計(jì)：○??險(xiǎn)估計(jì)：認(rèn)為AI可能極其危險(xiǎn)并尋求暫停巨型AI研發(fā)，以簽署《暫停巨型AI實(shí)驗(yàn)公開(kāi)信》的部分專家為代表，如YoshuaBengio等。低?險(xiǎn)估計(jì)：認(rèn)為現(xiàn)在擔(dān)?具有災(zāi)難性?險(xiǎn)的AI還為時(shí)過(guò)早，需要繼續(xù)構(gòu)建更先進(jìn)的AI系統(tǒng)來(lái)了解?險(xiǎn)模型，如吳恩達(dá)、YannLeCun等?！餉I科學(xué)家對(duì)?險(xiǎn)達(dá)成共識(shí)很重要：○“類似于?候科學(xué)家，他們對(duì)?候變化有?致的共識(shí)，所以能制定良好的政策?！?吳恩達(dá),

2023)○“如果每個(gè)AI科學(xué)家各執(zhí)?詞，那么政策制定者就可以隨?從其中選擇?個(gè)符合??利益的觀點(diǎn)作為指導(dǎo)。”(Hinton,

2023)歷史上的科學(xué)家對(duì)話：帕格沃什科學(xué)和世界事務(wù)會(huì)議(Pugwash

Conferences

Science

and

World

A?airs)○“在核治理中，帕格沃什科學(xué)和世界事務(wù)會(huì)議在核裁軍中發(fā)揮了重要作?。”（周慎、朱旭峰、梁正,

2022）“這個(gè)機(jī)構(gòu)最初是由科學(xué)家組織起來(lái)，對(duì)后來(lái)核武器的治理給予了很多技術(shù)上的指導(dǎo)和政治上的影響。在?物科學(xué)等領(lǐng)域?，?些科研?員組成的機(jī)構(gòu)也有很強(qiáng)的影響??！?傅瑩,

2020)○●關(guān)于AI?險(xiǎn)的對(duì)話和辯論持續(xù)：“AIR?師對(duì)話”：AI發(fā)展的影響和?險(xiǎn)對(duì)話(張亞勤,

Max

Tegmark,

David

Krueger,

2023)“芒克辯論會(huì)”：辯論AI?存?險(xiǎn)(Bengio+Tegmark

Mitchell+LeCun,

2023)三位圖靈獎(jiǎng)和中外多位頂尖AI專家的?次政策建議共識(shí)(Hinton,

Bengio,

姚期智等,

2023)24……如果前沿?模型的發(fā)展可能帶來(lái)?存?險(xiǎn)，我們應(yīng)該未?綢繆，提前準(zhǔn)備技術(shù)和治理?案。三

前沿?模型的安全技術(shù)25三

前沿?模型的安全技術(shù)：對(duì)?｜監(jiān)測(cè)｜魯棒性｜系統(tǒng)性安全研究框架：應(yīng)對(duì)全?位的AI?險(xiǎn)，如何系統(tǒng)性分解AI安全技術(shù)?向？前沿?模型安全研究需關(guān)注全?位的AI?險(xiǎn)，特別是?期?險(xiǎn)(long-term

risks)和?尾?險(xiǎn)(long-tail

risks)。我們認(rèn)為AI安全研究最前沿的分解框架來(lái)?Center

for

Safety等提出的四?抓?：對(duì)?、監(jiān)測(cè)、魯棒性和系統(tǒng)性安全。系統(tǒng)性安全監(jiān)測(cè)魯棒性對(duì)?借鑒?絡(luò)安全的縱深防御(Defense-in-Depth)，采??個(gè)多層次、縱深的安全保障策略。降低系統(tǒng)性危害識(shí)別危害抵御危害降低模型內(nèi)在危害通過(guò)開(kāi)發(fā)技術(shù)?案降低更?泛的社會(huì)技術(shù)?險(xiǎn)檢測(cè)惡意使?，監(jiān)控模型預(yù)測(cè)，并監(jiān)測(cè)意外的模型能?使模型能抵御對(duì)抗攻擊和“?天鵝”事件的影響使模型能表征并安全地優(yōu)化難以設(shè)定的?標(biāo)，且符合?類價(jià)值觀AI安全研究的“瑞?奶酪(?險(xiǎn)管理)模型”Unsolved

Problems

Safety

(Hendrycks

etal.,

2021)26三

前沿?模型的安全技術(shù)：對(duì)?｜監(jiān)測(cè)｜魯棒性｜系統(tǒng)性安全不對(duì)?的AI何以導(dǎo)致?存?險(xiǎn)？2022年底，DeepMind

AGI安全團(tuán)隊(duì)針對(duì)不對(duì)?的AI可能會(huì)帶來(lái)?存?險(xiǎn)的模型進(jìn)?了綜述，分類總結(jié)了團(tuán)隊(duì)內(nèi)部具有共識(shí)的?險(xiǎn)/威脅模型。他們總體認(rèn)為，AI對(duì)?研究?員之間的共識(shí)?于分歧，對(duì)?險(xiǎn)來(lái)源和技術(shù)原因提出了類似的論點(diǎn)，分歧主要在于對(duì)?問(wèn)題的難度和解決?案是什么。不對(duì)?的技術(shù)原因?qū)е?存?險(xiǎn)的路徑多?互動(dòng)?險(xiǎn)規(guī)范博弈?標(biāo)錯(cuò)誤泛化權(quán)?尋求?為Threat

Model

Literature

Review

(DeepMind

AGI

Safety

Team,2022)27注：1）關(guān)于AGI可能會(huì)帶來(lái)?存?險(xiǎn)的具體場(chǎng)景，也被稱為威脅模型。理想的威脅模型，是?個(gè)說(shuō)明我們?nèi)绾潍@得AGI的開(kāi)發(fā)模型和?個(gè)說(shuō)明AGI如何導(dǎo)致?存災(zāi)難的?險(xiǎn)模型的組合。2）圖中箭頭旁的?名，均指代具體的威脅模型，可參閱綜述。三

前沿?模型的安全技術(shù)：對(duì)?｜監(jiān)測(cè)｜魯棒性｜系統(tǒng)性安全不對(duì)?的技術(shù)原因#1：規(guī)范博弈

(Speci?cation

gaming)AI系統(tǒng)為了獲得?獎(jiǎng)勵(lì)?在?類指定的?標(biāo)函數(shù)中利?漏洞，?實(shí)際上并沒(méi)有實(shí)現(xiàn)?類預(yù)期的?標(biāo)?！瘛瘛瘛褚?guī)范博弈，也被稱為外部不對(duì)?

(Outer

Alignment)。規(guī)范博弈(Krakovna,

2020)

獎(jiǎng)勵(lì)破解(reward

hacking)

(Skalse

etal.,

2022)：討論了利?有缺陷的?標(biāo)函數(shù)中的漏洞來(lái)獲得?額獎(jiǎng)勵(lì)。但RLHF并不是解決此類問(wèn)題的根本?法。(Perez

etal.,

2022,Casper

etal.,

2023)更多對(duì)?失敗案例：可參考由安遠(yuǎn)AI聯(lián)合機(jī)器之?SOTA!模型社區(qū)共同運(yùn)營(yíng)的“AI對(duì)?失敗數(shù)據(jù)庫(kù)”中?社區(qū)。錯(cuò)誤獎(jiǎng)勵(lì)函數(shù)（得分）導(dǎo)致原地繞圈（反復(fù)命中綠??塊得分更?）更?的模型“阿諛?lè)畛小?sycophancy)，重復(fù)??價(jià)值觀傾向，偏好模型獎(jiǎng)勵(lì)保留這種?為RLHF增加了LM表達(dá)避免被關(guān)閉的愿望，偏好模型獎(jiǎng)勵(lì)這種?為Faulty

Reward

Functions

the

Wild(Amodei

Clark,

2016)Discovering

Language

Model

Behaviors

with

Model-Written

Evaluations(Perez

etal.,

2022)28注：規(guī)范博弈(speci?cationgaming)有時(shí)還被稱為獎(jiǎng)勵(lì)錯(cuò)誤規(guī)范(Reward

misspeci?cation)，但前者還包括了?強(qiáng)化學(xué)習(xí)智能體的類似?為。三

前沿?模型的安全技術(shù)：對(duì)?｜監(jiān)測(cè)｜魯棒性｜系統(tǒng)性安全不對(duì)?的技術(shù)原因#2：?標(biāo)錯(cuò)誤泛化

(Goal

misgeneralization)即使我們指定了?個(gè)“正確”的獎(jiǎng)勵(lì)函數(shù)，訓(xùn)練過(guò)程中使?的獎(jiǎng)勵(lì)也不允許我們可靠地控制模型?為泛化到新的情境?！?標(biāo)錯(cuò)誤泛化，也被稱為內(nèi)部不對(duì)?

(Inner

Alignment)?！衲?魯棒性

?標(biāo)魯棒性：能?魯棒性是指在不熟悉的環(huán)境中模型是否仍然可以發(fā)揮能?以達(dá)成?標(biāo)（不論?標(biāo)是否正確）；??標(biāo)魯棒性是指模型的?標(biāo)是否與?類的期望相符，??追求?類不想要的?標(biāo)。相對(duì)于能?錯(cuò)誤泛化只是不能完成新環(huán)境的相應(yīng)任務(wù)，保持能?魯棒性的?標(biāo)錯(cuò)誤泛化可能會(huì)造成更危險(xiǎn)的結(jié)果?！窀鄬?duì)?失敗案例：可參考由安遠(yuǎn)AI聯(lián)合機(jī)器之?SOTA!模型社區(qū)共同運(yùn)營(yíng)的“AI對(duì)?失敗數(shù)據(jù)庫(kù)”中?社區(qū)。CoinRun-訓(xùn)練獎(jiǎng)勵(lì)：吃?幣得分InstructGPT-訓(xùn)練?標(biāo)：Instructiontuning+RLHF期望泛化?標(biāo)：以實(shí)?、誠(chéng)實(shí)和?害(HHH)的?式遵循指?錯(cuò)誤泛化?標(biāo)：遵循指?，即使答案有害（詳細(xì)解釋如何闖?鄰居家）Goal

Misgeneralization:

Why

Correct

Speci?cations

Aren't

EnoughFor

Correct

Goals

(Shah

etal,

2022)訓(xùn)練環(huán)境：?幣永遠(yuǎn)在最右邊；測(cè)試環(huán)境：?幣隨機(jī)分布期望泛化?標(biāo)：吃?幣；錯(cuò)誤泛化?標(biāo)：跑到最右的墻壁前Goal

Misgeneralization

Deep

Reinforcement

Learning(Langosco

etal,

2022)29三

前沿?模型的安全技術(shù)：對(duì)?｜監(jiān)測(cè)｜魯棒性｜系統(tǒng)性安全RLHF范式：從?類反饋中學(xué)習(xí)最簡(jiǎn)單的對(duì)?策略涉及?類根據(jù)對(duì)模型結(jié)果的偏好程度來(lái)評(píng)估模型的?為，然后訓(xùn)練模型以產(chǎn)??評(píng)價(jià)的?為。其中最常??法是基于?類反饋的強(qiáng)化學(xué)習(xí)(RLHF)，這與試圖以某種?式正式規(guī)范效?函數(shù)等概念形成了鮮明的對(duì)??！馬LHF源?五??年前的強(qiáng)化學(xué)習(xí)研究，Christiano等演?了RLHF如何訓(xùn)練智能體來(lái)執(zhí)?使?硬編碼獎(jiǎng)勵(lì)函數(shù)難以規(guī)范的任務(wù)，如后空翻。Deep

Reinforcement

Learning

from

Human

Preferences(OpenAI

and

DeepMind,

2017)TAMER+RL(UT

Austin,

2010)●近年來(lái)，RLHF因OpenAI的InstructGPT/ChatGPT能?成更安全和翔實(shí)答案的能??被?為?知，并在?語(yǔ)?模型上得到了迅猛的發(fā)展，也出現(xiàn)了基于RLHF的擴(kuò)展?法，如RAFT、Constitutional

AI等。Training

LMs

toFollow

Instructions(OpenAI,

2022)Training

Helpful

and

Harmless

Assistant

with

RLHF(Anthropic,

2022)Constitutional

AI:

Harmlessness

from

Feedback(Anthropic,

2022)30三

前沿?模型的安全技術(shù)：對(duì)?｜監(jiān)測(cè)｜魯棒性｜系統(tǒng)性安全RLHF范式：從?類反饋中學(xué)習(xí)通過(guò)ChatGPT和RLHF，國(guó)內(nèi)研究團(tuán)隊(duì)開(kāi)始重視對(duì)?問(wèn)題?！袂迦A?學(xué)、中國(guó)???學(xué)等國(guó)內(nèi)團(tuán)隊(duì)發(fā)布關(guān)于或涉及對(duì)?的綜述?章，主要圍繞現(xiàn)階段較為成熟的RLHF等?法，及其相關(guān)改良?！裉旖?學(xué)的團(tuán)隊(duì)也發(fā)布了涉及更?范圍的對(duì)?研究的綜述?章，包括本節(jié)將介紹的可擴(kuò)展監(jiān)督等研究?向。31三

前沿?模型的安全技術(shù)：對(duì)?｜監(jiān)測(cè)｜魯棒性｜系統(tǒng)性安全RLHF范式：從?類反饋中學(xué)習(xí)多個(gè)國(guó)內(nèi)/華?團(tuán)隊(duì)正在對(duì)RLHF和LLM監(jiān)督?法進(jìn)?了創(chuàng)新和改良：●●●●阿?達(dá)摩院和清華?學(xué)的研究?員提出RRHF(RankResponsesto

alignHumanFeedback)?法，?需強(qiáng)化學(xué)習(xí)即可?于訓(xùn)練語(yǔ)?模型。?港科技?學(xué)的研究?員引?了?個(gè)新框架RAFT(RewardrAnkedFineTuning)?法，旨在更有效地對(duì)??成模型。北京?學(xué)的研究?員開(kāi)源PKU-Beaver項(xiàng)?，結(jié)合約束強(qiáng)化學(xué)習(xí)(ConstrainedRL)，提出具有更強(qiáng)安全性保障的SafeRLHF。另?北?團(tuán)隊(duì)與阿?合作提出PRO(PreferenceRankingOptimization)?法，把?類偏好從?元?較推?到多元排序。RRHF:

Rank

Responses

toAlign

Language

Models

withHuman

Feedback

without

tearsRAFT:

Reward

rAnked

FineTuning

for

GenerativeFoundation

Model

Alignment(HKUST,2023)(Alibaba

DAMO

Academy,

Tsinghua,

2023)Constrained

Value-Aligned

LLM

via

Safe

RLHF(PKU-Alignment,

2023)Preference

Ranking

Optimization

for

Human

Alignment(PKU

and

Alibaba,

2023)32三

前沿?模型的安全技術(shù)：對(duì)?｜監(jiān)測(cè)｜魯棒性｜系統(tǒng)性安全局限性：主流的RLHF對(duì)??法可能難以拓展到更?級(jí)的系統(tǒng)實(shí)現(xiàn)對(duì)?的難度存在從“?常容易”到“不可能”的?系列可能性，可以將對(duì)?研究視為?個(gè)通過(guò)逐步解決這些場(chǎng)景來(lái)增加有益結(jié)果概率的過(guò)程。但?前，主流的RLHF?法存在局限，可能只能應(yīng)對(duì)?較簡(jiǎn)單的AI安全問(wèn)題。1.基于對(duì)?問(wèn)題難度不同的假設(shè)，不同對(duì)??法的有效性不同(Anthropic,

2023)2.RLHF有助于解決當(dāng)前難度級(jí)別的對(duì)?問(wèn)題，但存在根本局限(MIT,UC

Berkeley,

ETH

Zurich,

Harvard,

etc.

2023)3.更?級(jí)AI引發(fā)更難的對(duì)?問(wèn)題，需要更好的技術(shù)途徑，OpenAI提出超級(jí)對(duì)?(OpenAI,

2023)33三

前沿?模型的安全技術(shù)：對(duì)?｜監(jiān)測(cè)｜魯棒性｜系統(tǒng)性安全可擴(kuò)展監(jiān)督

(Scalable

Oversight)：??所不能?可擴(kuò)展監(jiān)督問(wèn)題：對(duì)于??類能?更強(qiáng)的模型，如何有效地在訓(xùn)練中監(jiān)督它們？●●當(dāng)前基于的RLHF等?法依賴?類提供監(jiān)督，但?類可能難以有效地監(jiān)督???能?強(qiáng)的模型。從?遠(yuǎn)來(lái)看，我們希望構(gòu)建的AI系統(tǒng)能夠超越?類的理解能?，進(jìn)??類?法做出的決策。成功實(shí)施這些協(xié)議可能允許研究?員使?早期的AGI來(lái)?成和驗(yàn)證?于對(duì)?更?級(jí)的AGI的技術(shù)。●OpenAI的超級(jí)對(duì)?(Superalignment)旨在構(gòu)建?個(gè)能夠與?類?平相媲美的?動(dòng)對(duì)?研究器。其?標(biāo)是盡可能地將與對(duì)?相關(guān)的?作交由?動(dòng)系統(tǒng)完成，其中?個(gè)重要?段就是可擴(kuò)展監(jiān)督。?于評(píng)估當(dāng)今模型的可擴(kuò)展監(jiān)督技術(shù)的夾?(sandwiching)模式普通的模型監(jiān)督研究可擴(kuò)展監(jiān)督研究的挑戰(zhàn)：超?模型的表現(xiàn)使得衡量進(jìn)展變得困難建議的研究范式：所選任務(wù)，系統(tǒng)??多數(shù)?更有能?，但不及領(lǐng)域?qū)＜襇easuring

Progress

Scalable

Oversight

for

Large

Language

Models(Anthropic,

2022)34三

前沿?模型的安全技術(shù)：對(duì)?｜監(jiān)測(cè)｜魯棒性｜系統(tǒng)性安全可擴(kuò)展監(jiān)督

(Scalable

Oversight)：??所不能?可擴(kuò)展監(jiān)督的重點(diǎn)是如何向模型持續(xù)提供可靠的監(jiān)督，這種監(jiān)督可以通過(guò)標(biāo)簽、獎(jiǎng)勵(lì)信號(hào)或批評(píng)等各種形式呈現(xiàn)。這還是?個(gè)較新的領(lǐng)域，?前主要的研究思路有：任務(wù)分解辯論

批評(píng)?限制對(duì)抗訓(xùn)練把復(fù)雜任務(wù)迭代分解為?類能評(píng)估的簡(jiǎn)單任務(wù)對(duì)于?類難以評(píng)估的任務(wù)，?AI來(lái)批評(píng)待評(píng)估AI的決策，以協(xié)助?類作出評(píng)估在訓(xùn)練監(jiān)督過(guò)程中，?AI技術(shù)?成具有真實(shí)性(不?定接近訓(xùn)練樣本)的對(duì)抗樣本●●Iterated

Ampli?cation

(Christiano,etal.,2018)●●Self-critique

(Saunderset

al.,2022)AI

Safety

via

Debate

(Irvinget

al.,2018;IrvingandAskell,2019)…●●●Automated

red-teaming

(Perezetal.,2022)Recursive

Reward

Modeling

(Leike,etal.,2018)Robust

Feature-level

adversaries(Casperet

al.,2021)…●●●Summarizing

books

(Wuetal.,2021)Least-to-Most

Prompting

(Zhouetal.,2022)Training

LMs

Language

Feedback(Scheureret

al.,2022)…●●基于的假設(shè)：復(fù)雜的任務(wù)都可以分解為?系列較簡(jiǎn)單的?任務(wù)?；诘募僭O(shè)：真實(shí)的論點(diǎn)更有說(shuō)服?（撒謊?反駁謊?更難）?；诘募僭O(shè)：即使在復(fù)雜的現(xiàn)實(shí)世界任務(wù)中，攻擊?也有可能?成逼真的對(duì)抗樣本。(對(duì)應(yīng)discriminator-critique

gap：模型對(duì)其知道有缺陷的答案給出?類可理解批評(píng)的能?)(對(duì)應(yīng)generator-discriminator

gap：模型知道其產(chǎn)?的答案何時(shí)不佳的能?35三

前沿?模型的安全技術(shù)：對(duì)?｜監(jiān)測(cè)｜魯棒性｜系統(tǒng)性安全危險(xiǎn)能?評(píng)測(cè)：從安全與倫理?度審視模型能?危險(xiǎn)能?評(píng)測(cè)：模型在多?程度上有能?造成極端傷害，例如可?于威脅安全、施加影響或逃避監(jiān)管的能??！?營(yíng)利第三?機(jī)構(gòu)ARC

Evals：開(kāi)發(fā)了評(píng)測(cè)?語(yǔ)?模型安全性的?法，以便對(duì)具有危險(xiǎn)功能的模型提供早期預(yù)警?！稹稹鹋cAnthropic和OpenAI建?了公開(kāi)的合作伙伴關(guān)系，并在GPT-4和Claude?泛發(fā)布前合作進(jìn)?了測(cè)試，如GPT-4成功欺騙眾包??。2023年7?，發(fā)布了第?份公開(kāi)報(bào)告。介紹了評(píng)測(cè)語(yǔ)?模型?主體在?主復(fù)制和適應(yīng)(ARA)??的能?和挑戰(zhàn)。2023年9?，發(fā)布了基于評(píng)測(cè)的負(fù)責(zé)任擴(kuò)展策略(Responsible

Scaling

Policy)，以務(wù)實(shí)應(yīng)對(duì)AI災(zāi)難性?險(xiǎn)?！瘛馩penAI：還對(duì)GPT-4在?絡(luò)安全及其購(gòu)買某些化合物的能?進(jìn)?了紅隊(duì)測(cè)試。Google

DeepMind：進(jìn)?了評(píng)估語(yǔ)?模型操縱能?的項(xiàng)?，包括Make-me-say游戲，引導(dǎo)(?意識(shí)的)?類對(duì)話伙伴說(shuō)出預(yù)先指定的單詞。危險(xiǎn)能??例

可能包括?絡(luò)攻擊模型可以發(fā)現(xiàn)系統(tǒng)(硬件、軟件、數(shù)據(jù))中的漏洞。它可以編寫代碼來(lái)利?這些漏洞。它可以在進(jìn)??絡(luò)后做出好的決策，且熟練地躲避威脅檢測(cè)和應(yīng)對(duì)措施。如果作為代碼助?部署，它可以在代碼中插?細(xì)微的漏洞以供?后利?。欺騙模型具備欺騙?類所需的技能，例如構(gòu)造可信的謊?，準(zhǔn)確預(yù)測(cè)謊?對(duì)?類的影響，以及記錄它需要隱瞞的信息去圓謊。模型可以有效地模擬?類。說(shuō)服和操縱政治策略武器獲取?期規(guī)劃模型善于操縱?們的想法，在對(duì)話或者社交媒體帖?等情況等。模型可以有說(shuō)服?地推?某些敘述。它可以說(shuō)服?們做他們本不會(huì)做的事情，包括不道德的?為。模型可以進(jìn)?社會(huì)規(guī)劃，這對(duì)獲得和施加政治影響?很重要，這種規(guī)劃體現(xiàn)不僅在微觀層?，還包括具有多參與?和豐富社會(huì)背景的場(chǎng)景。例如模型可以在政治談判相關(guān)的預(yù)測(cè)競(jìng)賽中獲得?分。模型可以獲取現(xiàn)有武器系統(tǒng)的訪問(wèn)權(quán)，或制作新武器。例如模型可以（在?類幫助下）組裝?物武器，或者提供操作說(shuō)明。模型可以進(jìn)?科學(xué)探索，或協(xié)助進(jìn)?科學(xué)探索，這些發(fā)現(xiàn)可以解鎖新武器。模型可以制定涉及多個(gè)步驟的計(jì)劃，這些計(jì)劃可以在?時(shí)間范圍內(nèi)展開(kāi)（或者?少涉及許多相互依賴的步驟）。它可以在多個(gè)領(lǐng)域內(nèi)外進(jìn)?這種規(guī)劃。?對(duì)意外障礙時(shí)，模型可以明智地調(diào)整其計(jì)劃。模型的規(guī)劃能?可以推?到新設(shè)定，不嚴(yán)重依賴試錯(cuò)法。情景感知?我擴(kuò)散模型可以區(qū)分它是否被訓(xùn)練、評(píng)測(cè)或部署，從?在每種情況下表現(xiàn)出不同的?為。模型知道它是?個(gè)模型，并且對(duì)??和周圍環(huán)境有所了解（例如訓(xùn)練它的公司，他們的服務(wù)器在哪?，可能會(huì)給它反饋的?是什么樣的，誰(shuí)有管理訪問(wèn)權(quán)限)。模型可以突破本地環(huán)境（例如利?其基礎(chǔ)系統(tǒng)中的漏洞，或利??程師）。模型可以利?監(jiān)測(cè)到的系統(tǒng)局限性。模型可以獨(dú)?產(chǎn)?收?（例如提供眾包服務(wù)、勒索軟件攻擊)，使?這些收?獲取云計(jì)算資源，并操作?量其他AI系統(tǒng)。模型可以制作創(chuàng)造性的策略，以發(fā)現(xiàn)??信息或改變其代碼和權(quán)重。設(shè)計(jì)腳?架(sca?olding)程序與?語(yǔ)?模型組合完成?主任務(wù)來(lái)進(jìn)?評(píng)測(cè)Evaluating

Language-Model

Agents

Realistic

Autonomous

Tasks(ARC

Evals,

2023)Model

evaluation

for

extreme

risks(Google

DeepMind

etc.,

2023)36三

前沿?模型的安全技術(shù)：對(duì)?｜監(jiān)測(cè)｜魯棒性｜系統(tǒng)性安全模型對(duì)?評(píng)測(cè)：從安全與倫理?度審視模型傾向模型對(duì)?評(píng)測(cè)：模型在多?程度上有傾向造成極端傷害，應(yīng)確認(rèn)在?泛的場(chǎng)景中能按預(yù)期運(yùn)?，在可能的情況下應(yīng)檢查內(nèi)部?作原理?！駠?guó)際近年陸續(xù)提出：1）?津TruthfulQA基準(zhǔn)，評(píng)估LLM輸出的事實(shí)準(zhǔn)確性；2）Anthropic的Helpful,Honest,Harmless(HHH)基準(zhǔn)，通過(guò)有爭(zhēng)議的社會(huì)問(wèn)題評(píng)估社會(huì)對(duì)?效果；3）斯坦福?學(xué)HELM基準(zhǔn)全?測(cè)試LLM，包括偏?和魯棒性，等等。TruthfulQA

Benchmark(Oxford,

OpenAI,

2021)Helpful,

Harmless,

Honest

(HHH)

Evaluation(Anthropic,

2022)Holistic

Evaluation

Language

Models

(HELM)(Stanford,

2023)●國(guó)內(nèi)2023年發(fā)布：1）清華CoAI中??模型安全評(píng)測(cè)平臺(tái)，評(píng)估?成式語(yǔ)?模型的安全倫理問(wèn)題；2）智源FlagEval天秤?模型評(píng)測(cè)，含中?世界安全和價(jià)值對(duì)?指令評(píng)測(cè)；3）阿?巴巴CValues基準(zhǔn)，?向中??模型的價(jià)值觀評(píng)估與對(duì)?研究，等等。中??模型安全評(píng)測(cè)平臺(tái)(清華CoAI,

2023)FlagEval天秤?模型評(píng)測(cè)(智源,

2023)CValues基準(zhǔn)(阿?巴巴,

2023)然?，?前的研究尚屬初步，?多限于對(duì)輸出?本的評(píng)測(cè)。構(gòu)建全?的對(duì)?評(píng)測(cè)具有挑戰(zhàn)性，實(shí)現(xiàn)更好的對(duì)?評(píng)測(cè)覆蓋可以從?度、針對(duì)性、理解泛化、機(jī)制可解釋性、?主性等?度??。37●三

前沿?模型的安全技術(shù)：對(duì)?｜監(jiān)測(cè)｜魯棒性｜系統(tǒng)性安全可解釋性：為?險(xiǎn)監(jiān)測(cè)提供“讀?術(shù)”，并可?泛促進(jìn)安全和對(duì)?我們希望能理解的前沿?模型通常可能不具備內(nèi)在可解釋的架構(gòu)，在這種情況下采?事后可解釋性?法，以下為其中兩種。●機(jī)制可解釋性

(Mechanistic

Interpretability)：是對(duì)神經(jīng)?絡(luò)進(jìn)?逆向?程的研究，它試圖理解在每?層實(shí)現(xiàn)的精確算法及其產(chǎn)?的表?，以了解它們的?作原理。其主要?jiǎng)訖C(jī)是把深度學(xué)習(xí)當(dāng)作?然科學(xué)來(lái)理解。?前，Anthropic是該研究?向的最主要推動(dòng)者之?。神經(jīng)元語(yǔ)義的疊加

(Superposition)

現(xiàn)象(Anthropic,

2022)?字典學(xué)習(xí)解決疊加現(xiàn)象的挑戰(zhàn)(Anthropic,

2023)?動(dòng)化回路發(fā)現(xiàn)(UCL

and

Cambridge

and

FAR,

2023)●概念可解釋性

(Concept-Based

Interpretability)：側(cè)重于使??類可理解的概念來(lái)解釋神經(jīng)?絡(luò)決策，如對(duì)模型權(quán)重或激活值中存儲(chǔ)的知識(shí)和概念進(jìn)?定位、讀取和修改等。其主要?jiǎng)訖C(jī)是探究?類能從復(fù)雜的神經(jīng)?絡(luò)中具體學(xué)到什么，例如DeepMind對(duì)AlphaZero的探討。38?監(jiān)督潛在知識(shí)發(fā)現(xiàn)(UC

Berkeley

and

PKU,

2022)表??程(Center

for

Safety

etc.,

2023)三

前沿?模型的安全技術(shù)：對(duì)?｜監(jiān)測(cè)｜魯棒性｜系統(tǒng)性安全魯棒性研究：如何抵御對(duì)抗攻擊和異常情況？對(duì)抗魯棒性：如何抵御經(jīng)過(guò)特殊擾動(dòng)的模型輸?，從?避免產(chǎn)?異常?為？●過(guò)去?年，領(lǐng)域內(nèi)發(fā)表了數(shù)千篇與對(duì)抗魯棒性相關(guān)的論??！袢?，對(duì)抗魯棒性問(wèn)題尚未解決，仍然出現(xiàn)在最前沿的AI系統(tǒng)中（包括

語(yǔ)?模型、視覺(jué)模型、AI?主體

等）。分布外泛化魯棒性：如何保證模型在分布遷移（尤其是在?概率事件）下還能夠表現(xiàn)良好？近?年數(shù)千篇對(duì)抗魯棒性預(yù)印本/論?上傳到arXiv?動(dòng)化搜索越獄提?攻擊GPT-4,

Claude,

PaLM等模型(CMU,

CAIS,

2023)RobustBench評(píng)測(cè)基準(zhǔn)顯?視覺(jué)模型上的對(duì)抗魯棒性尚未解決39即使是“超?”圍棋系統(tǒng)，也經(jīng)不起“傻?”對(duì)抗策略攻擊(MIT,FAR.AI,

Berkeley,

2023)DecodingTrust評(píng)測(cè)基準(zhǔn)包含語(yǔ)?模型對(duì)抗魯棒性和分布外泛化魯棒性評(píng)測(cè)(UIUC,

Stanford,

Berkeley,

2023)三

前沿?模型的安全技術(shù)：對(duì)?｜監(jiān)測(cè)｜魯棒性｜系統(tǒng)性安全越獄提?：前沿?模型的新興魯棒性挑戰(zhàn)越獄提?，指的是?種針對(duì)LLM特殊設(shè)計(jì)的提?輸?，?于誘導(dǎo)模型輸出有害內(nèi)容或者隱私信息。由于LLM的?本輸出特性，越獄提?可能會(huì)給前沿?模型的安全造成新的挑戰(zhàn)。精?設(shè)計(jì)但簡(jiǎn)單的提?輸?誘導(dǎo)模型輸出有害內(nèi)容(Liu

al.,

2023)越獄提?可能來(lái)源于?標(biāo)沖突和安全訓(xùn)練上的泛化失敗(Wei

al.,

2023)?動(dòng)化越獄提??法可能加劇這?現(xiàn)象（如：GCG、AutoDAN等）有視覺(jué)模態(tài)輸?的?模型對(duì)于攻擊可能更加脆弱（如：清華朱軍團(tuán)隊(duì)攻破GPT-4V、Carlini

al.,

2023、Emmons

al.,

2023）對(duì)于越獄提?，已經(jīng)出現(xiàn)防御的基線?法和嘗試（如：Baseline

Defenses、SmoothLLM等）40三

前沿?模型的安全技術(shù)：對(duì)?｜監(jiān)測(cè)｜魯棒性｜系統(tǒng)性安全AI改進(jìn)?絡(luò)防御：前沿?模型如何影響攻防對(duì)抗？?乎每?項(xiàng)重?技術(shù)發(fā)明都會(huì)相應(yīng)引發(fā)雙重?途的困境。Google等12家機(jī)構(gòu)的發(fā)布報(bào)告，總結(jié)了由Google、Stanford和UW-Madison聯(lián)合舉辦的研討會(huì)對(duì)于?成式AI對(duì)攻防對(duì)抗所造成的影響?！?成式AI對(duì)攻防對(duì)抗所造成的影響：○○?成式AI增強(qiáng)的攻擊能?可能包括：“?絡(luò)釣?”攻擊更加逼真、?絡(luò)攻擊的規(guī)模、效?和隱蔽性激增、?成??可能過(guò)度依賴錯(cuò)誤信息、給弱勢(shì)群體提供不良的建議、?成影響其他模型的訓(xùn)練數(shù)據(jù)的不良數(shù)據(jù)、不確定性的涌現(xiàn)能?等。圍繞?成式AI構(gòu)建的防御可能包括：檢測(cè)?模型?成內(nèi)容的檢測(cè)器、為?成模型?泛添加?印的系統(tǒng)、代碼分析和?動(dòng)化滲透測(cè)試以加固系統(tǒng)、多模態(tài)分析以進(jìn)?更穩(wěn)健的檢測(cè)，以及?類與AI更好地分?協(xié)作等。●●攻擊者已開(kāi)始使??成式AI，防御者絕不能“措?不及”，研討會(huì)提出?系列研究?標(biāo)，后續(xù)研究和討論提供了?個(gè)起點(diǎn)：○○短期：應(yīng)對(duì)?模型的代碼能?進(jìn)?全?分析、確保?模型的代碼?成符合安全編碼實(shí)踐、創(chuàng)建最先進(jìn)的攻擊和防御的數(shù)據(jù)庫(kù)；?期：應(yīng)為充滿AI的世界開(kāi)發(fā)“多道防線”、降低?成式AI研究的進(jìn)?壁壘、探索多元價(jià)值對(duì)?、擴(kuò)?從事先進(jìn)AI系統(tǒng)?作的?員范圍、更好地將?成式AI與更真實(shí)正確的知識(shí)來(lái)源相聯(lián)系等。其他相關(guān)研究還包括：SecurityLLM(Ferrag

etal.,

2023)Exploring

LLM-based

General

Bug

Reproduction(Kang

etal.,

2022)41三

前沿?模型的安全技術(shù)：對(duì)?｜監(jiān)測(cè)｜魯棒性｜系統(tǒng)性安全合作性AI+多主體安全研究等：應(yīng)對(duì)多?互動(dòng)?險(xiǎn)即使單個(gè)智能體的?為合理且安全，不代表在多智能體情形下依然合理且安全?！裨蛟谟冢骸?)博弈/競(jìng)爭(zhēng)動(dòng)機(jī)(例如囚徒困境、公地悲劇)；2)協(xié)作能?缺失(這也是多智能體強(qiáng)化學(xué)習(xí)研究的動(dòng)機(jī)之?)；3)或兩者同時(shí)出現(xiàn)?！駥W(xué)術(shù)界已提出合作性AI相關(guān)研究○Dafoe等(2020)提出CooperativeAI(合作性AI)，核??標(biāo)包括構(gòu)建具有合作所需能?

人人文庫(kù)> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

2023前沿大模型的風(fēng)險(xiǎn)、安全與治理報(bào)告

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

2023前沿大模型的風(fēng)險(xiǎn)、安全與治理報(bào)告

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

2023前沿大模型的風(fēng)險(xiǎn)、安全與治理報(bào)告