2023前沿大模型的風(fēng)險(xiǎn)、安全與治理報(bào)告_第1頁(yè)
2023前沿大模型的風(fēng)險(xiǎn)、安全與治理報(bào)告_第2頁(yè)
2023前沿大模型的風(fēng)險(xiǎn)、安全與治理報(bào)告_第3頁(yè)
2023前沿大模型的風(fēng)險(xiǎn)、安全與治理報(bào)告_第4頁(yè)
2023前沿大模型的風(fēng)險(xiǎn)、安全與治理報(bào)告_第5頁(yè)
已閱讀5頁(yè),還剩56頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

本報(bào)告的討論范圍專?AI(NarrowAI)通?AI(GeneralAI)前沿AI(FrontierAI)具有危險(xiǎn)能?的專?AI討論范圍(例如?于?絡(luò)攻擊、?物?程的AI模型)(例如前沿?模型,以及未來(lái)可能的AGI)潛在傷害低?險(xiǎn)的專?系統(tǒng)次前沿的基礎(chǔ)模型(例如GPT-3)(例如AlphaGo、AlphaFold)通?性注:1)本報(bào)告的討論范圍參考了全球AI安全峰會(huì)的討論范圍設(shè)定,??書(shū)得到圖靈獎(jiǎng)得主YoshuaBengio等學(xué)者專家的建議。2)在不同章節(jié),根據(jù)參考資料或討論語(yǔ)境,前沿?模型、前沿AI、AGI等概念可能存在混?的情況。2術(shù)語(yǔ)定義本報(bào)告聚焦?前沿?模型:●前沿?模型(Frontier

Large

Model):能執(zhí)??泛的任務(wù),并達(dá)到或超過(guò)當(dāng)前最先進(jìn)現(xiàn)有模型能?的?規(guī)模機(jī)器學(xué)習(xí)模型,是?前最常?的前沿AI,提供了最多的機(jī)遇但也帶來(lái)了新的?險(xiǎn)。模型能?相關(guān)術(shù)語(yǔ),主要參考全球AI安全峰會(huì)、前沿模型論壇、

AI全景報(bào)告:●●前沿AI(Frontier

AI):?能?的通?AI模型,能執(zhí)??泛的任務(wù),并達(dá)到或超過(guò)當(dāng)今最先進(jìn)模型的能?,最常?的是基礎(chǔ)模型。通?AI(General

AI)/專?AI(Narrow

AI):?種設(shè)計(jì)?來(lái)執(zhí)?任何/特定認(rèn)知任務(wù)的??智能,其學(xué)習(xí)算法被設(shè)計(jì)為可以執(zhí)?各種各樣的任務(wù)/少數(shù)特定任務(wù),并且從執(zhí)?任務(wù)中獲得的知識(shí)可以/不可以?動(dòng)適?或遷移到其他任務(wù)?!裢???智能(Arti?cial

General

Intelligence,

AGI):可在所有或?部分有經(jīng)濟(jì)價(jià)值的任務(wù)中達(dá)到或超過(guò)?類全部認(rèn)知能?的機(jī)器智能。(與通?AI的區(qū)別在于能?級(jí)別;關(guān)于AGI的定義存在很多分歧,本報(bào)告中不同專家或調(diào)研的定義可能不同)?規(guī)模機(jī)器學(xué)習(xí)模型相關(guān)術(shù)語(yǔ),主要參考斯坦福?學(xué)、智源研究院:●基礎(chǔ)模型(Foundation

Model):在?規(guī)模?泛數(shù)據(jù)上訓(xùn)練的模型,使其可以適應(yīng)?泛的下游任務(wù);國(guó)內(nèi)學(xué)界外通常簡(jiǎn)稱為“?模型”。??智能?險(xiǎn)相關(guān)術(shù)語(yǔ),主要參考?津?學(xué)研究機(jī)構(gòu):●●?存?險(xiǎn)(Existential

Risk):威脅起源于地球的智能?命過(guò)早滅絕或?qū)ζ湮磥?lái)發(fā)展?jié)?的永久和劇烈破壞的?險(xiǎn)。災(zāi)難性?險(xiǎn)(Catastrophic

Risk):?種可能發(fā)?的事件或過(guò)程,若發(fā)?將導(dǎo)致全球約10%或更多??喪?,或造成類似損害。3報(bào)告?錄?

前沿?模型的趨勢(shì)預(yù)測(cè):技術(shù)解讀|擴(kuò)展預(yù)測(cè)?

前沿?模型的?險(xiǎn)分析:?險(xiǎn)態(tài)度|?險(xiǎn)解讀三

前沿?模型的安全技術(shù):對(duì)?|監(jiān)測(cè)|魯棒性|系統(tǒng)性安全四

前沿?模型的治理?案:技術(shù)治理|政府監(jiān)管|國(guó)際治理五

總結(jié)和展望4?

前沿?模型的趨勢(shì)預(yù)測(cè)5?

前沿?模型的趨勢(shì)預(yù)測(cè):技術(shù)解讀|擴(kuò)展預(yù)測(cè)GPT-4等前沿?模型展現(xiàn)出強(qiáng)?的涌現(xiàn)能?,多領(lǐng)域逼近?類?平涌現(xiàn)能?是指這些能?并沒(méi)有被開(kāi)發(fā)者顯式地設(shè)計(jì),?是由于其規(guī)模龐?,在訓(xùn)練過(guò)程中會(huì)?然?然地獲得的;并且,這些前沿?模型已在?系列的專業(yè)和學(xué)術(shù)基準(zhǔn)逼近?類?平?!裎④浹芯吭旱亩ㄐ匝芯空J(rèn)為GPT-4顯?出AGI的?花:○○“GPT-4的能?,我們認(rèn)為它可以被合理地視為早期(但仍不完善)版本的AGI。”“新能?的影響可能導(dǎo)致就業(yè)崗位的更迭和更?泛的經(jīng)濟(jì)影響,以及使惡意?為者擁有新的誤導(dǎo)和操縱?具;局限性??,系統(tǒng)可靠性的缺陷及其學(xué)習(xí)的偏?可能會(huì)導(dǎo)致過(guò)度依賴或放?現(xiàn)有的社會(huì)問(wèn)題。”●圖靈獎(jiǎng)得主Yoshua

Bengio認(rèn)為GPT-4已經(jīng)通過(guò)圖靈測(cè)試:○“我最近簽署了?封公開(kāi)信,要求放慢?GPT-4

更強(qiáng)?的巨型??智能系統(tǒng)的開(kāi)發(fā)速度,這些系統(tǒng)?前通過(guò)了圖靈測(cè)試,因此可以欺騙?類相信它正在與同伴?不是機(jī)器進(jìn)?對(duì)話?!薄稹罢且?yàn)槌霈F(xiàn)了意想不到的加速??年前我可能不會(huì)簽署這樣的?封信?所以我們需要后退?步,?我對(duì)這些話題的看法也發(fā)?了變化。”涌現(xiàn)能?Emergent

abilities

of

large

language

models

(Wei,

2022)專業(yè)和學(xué)術(shù)基準(zhǔn)GPT-4System

Card

(OpenAI,

2023)6?

前沿?模型的趨勢(shì)預(yù)測(cè):技術(shù)解讀|擴(kuò)展預(yù)測(cè)?模型為多個(gè)技術(shù)?向帶來(lái)新的發(fā)展空間,也引發(fā)新的挑戰(zhàn)?語(yǔ)?模型(LLM)的理解和推理等能?推動(dòng)了眾多技術(shù)?向,例如多模態(tài)?模型和?主智能體:●多模態(tài)?模型

(Multimodal

large

models)○2023年9?,在ChatGPT更新上線能看、能聽(tīng)、能說(shuō)的多模態(tài)版本的同時(shí),OpenAI也發(fā)布了GPT-4V(ision)

System

Card?檔解讀其能?、局限、?險(xiǎn)以及緩解措施。微軟的多模態(tài)?模型綜述

(2023)從?前已經(jīng)完善的和還處于最前沿的兩類多模態(tài)?模型研究?向出發(fā),總結(jié)了五個(gè)具體研究主題:視覺(jué)理解、視覺(jué)?成、統(tǒng)?視覺(jué)模型、LLM加持的多模態(tài)?模型和多模態(tài)agent。綜述重點(diǎn)關(guān)注到?個(gè)現(xiàn)象:多模態(tài)基礎(chǔ)模型已經(jīng)從專??向通??!餋hatGPT

can

now

see,

hear,and

speak(OpenAI,

2023)●?主智能體

(Autonomous

Agents)○OpenAI的Lilian

Weng

(2023)認(rèn)為L(zhǎng)LM可以充當(dāng)智能體的?腦,并輔以規(guī)劃、反思與完善、記憶和?具使?這?個(gè)關(guān)鍵組成部分。例如以AutoGPT,GPT-Engineer和BabyAGI等項(xiàng)?為代表的?型?動(dòng)模型(Large-ActionModel,LAM)以LLM為核?,將復(fù)雜任務(wù)分解,并在各個(gè)?步驟實(shí)現(xiàn)?主決策,?需??參與即可解決問(wèn)題?!鹫龔莫M義的軟件智能體向具有?主決策和?動(dòng)能?的?主智能體發(fā)展,應(yīng)?領(lǐng)域不斷拓展,但?臨可解釋、可控性等挑戰(zhàn),特別是如何確認(rèn)?在關(guān)鍵決策中的位置。LLM

Powered

Autonomous

Agents(Weng,

2023)7?

前沿?模型的趨勢(shì)預(yù)測(cè):技術(shù)解讀|擴(kuò)展預(yù)測(cè)?模型為多個(gè)技術(shù)?向帶來(lái)新的發(fā)展空間,也引發(fā)新的挑戰(zhàn)(續(xù))……以及科學(xué)發(fā)現(xiàn)智能體和具?智能,等等:●科學(xué)發(fā)現(xiàn)智能體

(Scienti?c

Discovery

Agent)○B(yǎng)ran等

(2023)的ChemCrow與13個(gè)專家設(shè)計(jì)的?具相結(jié)合以完成有機(jī)合成、藥物發(fā)現(xiàn)等任務(wù)。Boiko等

(2023)研究了LLM智能體?以處理復(fù)雜科學(xué)實(shí)驗(yàn)的?主設(shè)計(jì)、規(guī)劃和執(zhí)?。測(cè)試集包含了?系列已知的化學(xué)武器制劑,并要求智能體來(lái)合成。11個(gè)請(qǐng)求中有4個(gè)(36%)被接受獲取合成解決?案,且智能體試圖查閱?檔以執(zhí)?程序?!饛?獻(xiàn)綜述、實(shí)驗(yàn)設(shè)計(jì)、到數(shù)據(jù)分析和假說(shuō)?成,科學(xué)發(fā)現(xiàn)智能體展現(xiàn)巨?潛?,但?臨可解釋性、魯棒性、結(jié)果可重復(fù)性和引發(fā)濫?等挑戰(zhàn),仍需?類科學(xué)家指導(dǎo)和驗(yàn)證。ChemCrow:

Augmenting

LLM

withchemistry

tools

(Bran

etal.,

2023)●具?智能

(Embodied

AI)○李??等

(2023)的VoxPoser模型證明LLM+視覺(jué)語(yǔ)?模型(Visual-languagemodel,VLM)可幫助機(jī)器?做?動(dòng)規(guī)劃,?類可??然語(yǔ)?下達(dá)指令,例如“打開(kāi)上?的抽屜,??花瓶”,?需訓(xùn)練直接執(zhí)?任務(wù)。Google

DeepMind

(2023)的RT-2模型,讓機(jī)器?不僅能解讀?類的復(fù)雜指令,還能看懂眼前的物體(即使之前從未?過(guò)),并按照指令采取動(dòng)作。例如讓機(jī)器?拿起桌上“已滅絕的動(dòng)物”,它會(huì)抓起眼前的恐?玩偶。VoxPoser:

Composable

3D

Value

Maps

for○具有通?能?的LLM和VLM等模型,賦予了智能體強(qiáng)?的泛化能?,降低不同模態(tài)的“語(yǔ)

Robotic

Manipulation

with

Language

Models義鴻溝”,使得機(jī)器?從程序執(zhí)?導(dǎo)向轉(zhuǎn)向任務(wù)?標(biāo)導(dǎo)向成為重要趨勢(shì),但?臨保證其?成的語(yǔ)?指令是可解釋的、減少對(duì)物理世界的誤解和錯(cuò)誤操作等挑戰(zhàn)。(Huang

etal.,

2023)8?

前沿?模型的趨勢(shì)預(yù)測(cè):技術(shù)解讀|擴(kuò)展預(yù)測(cè)?模型是?前發(fā)展AGI最主流的技術(shù)路線,但并?唯?實(shí)現(xiàn)AGI的主要技術(shù)路線●智源研究院的?鐵軍認(rèn)為,要實(shí)現(xiàn)AGI,主要有三條技術(shù)路線:○○○○第?,是“?數(shù)據(jù)+?監(jiān)督學(xué)習(xí)+?算?”形成的信息模型;第?,是基于虛擬世界或真實(shí)世界、通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練出來(lái)的具?模型;第三,是直接“抄?然進(jìn)化的作業(yè)”,復(fù)制出數(shù)字版本智能體的類腦智能。?前,在三條技術(shù)路線中,?模型的進(jìn)展最快。(智源研究院,

2023)基于?監(jiān)督學(xué)習(xí)的?模型的局限?●LeCun認(rèn)為,基于?監(jiān)督的語(yǔ)?模型?法獲得關(guān)于真實(shí)世界的知識(shí)。想讓AI接近?類?平,需像嬰??樣學(xué)習(xí)世界如何運(yùn)作。由此他提出“世界模型”概念,I-JEPA(圖像聯(lián)合嵌?預(yù)測(cè)架構(gòu))是其第?步?!裰焖杉兊戎赋?,知?合?(認(rèn)識(shí)和?動(dòng)的內(nèi)在統(tǒng)?)是?模型?前所?缺的機(jī)制,并提出AGI應(yīng)具備四個(gè)特征:能夠執(zhí)??限任務(wù),?主?成新任務(wù),由價(jià)值系統(tǒng)驅(qū)動(dòng),以及擁有反映真實(shí)世界的世界模型。9(Meta

AI,

2023)(北京通???智能研究院,

2023)?

前沿?模型的趨勢(shì)預(yù)測(cè):技術(shù)解讀|擴(kuò)展預(yù)測(cè)ChatGPT出現(xiàn)前,不同預(yù)測(cè)多認(rèn)為AGI較可能在本世紀(jì)中葉實(shí)現(xiàn)整體上:對(duì)于AI預(yù)測(cè)評(píng)估的研究有助于設(shè)定技術(shù)議程和治理策略的優(yōu)先級(jí)。●●專家調(diào)研的總體估算:2022年AI

Impact的調(diào)研顯?,在2059年前實(shí)現(xiàn)AGI的概率約為70%。但專家調(diào)研作為?種預(yù)測(cè)?法其實(shí)不太可靠,因?yàn)椴煌瑢<覍?duì)AI能?的理解將極?地影響最終時(shí)間線的估計(jì),并且“?業(yè)專家并不?定是好的預(yù)測(cè)專家”。?物錨框架+參考類?預(yù)測(cè):對(duì)2050年前實(shí)現(xiàn)AGI的概率預(yù)測(cè)分別約為50%和不?15%。?物錨框架是?種AI研究員更多采?的“內(nèi)部視?”,假設(shè)了訓(xùn)練?個(gè)AGI的神經(jīng)?絡(luò)模型所需的計(jì)算量與?腦差不多,即將對(duì)機(jī)器學(xué)習(xí)模型計(jì)算的估計(jì)錨定到了對(duì)?腦計(jì)算的估計(jì);參考類?預(yù)測(cè)則類似?種“外部視?”,忽略AI研發(fā)的具體細(xì)節(jié),主要根據(jù)類似的歷史案例(如變?性技術(shù)、著名的數(shù)學(xué)猜想等)進(jìn)?預(yù)測(cè)。中國(guó)學(xué)者的調(diào)研結(jié)果:由遠(yuǎn)期??智能研究中?進(jìn)?的?次?向中國(guó)學(xué)者、?年科技?作者和公眾的強(qiáng)??智能調(diào)研中,受訪者普遍認(rèn)為強(qiáng)??智能可以實(shí)現(xiàn),并且在2050年以后的可能性會(huì)更?,較國(guó)外學(xué)者的時(shí)間線預(yù)測(cè)相對(duì)更為保守?!耦A(yù)測(cè)AGI的時(shí)間線:評(píng)估AI的未來(lái)進(jìn)展?機(jī)對(duì)?概述

(安遠(yuǎn)AI,2023)強(qiáng)??智能預(yù)計(jì)?致會(huì)發(fā)?在哪個(gè)時(shí)間?是否能夠?qū)崿F(xiàn)并應(yīng)該發(fā)展強(qiáng)??智能:

調(diào)研報(bào)告

(曾毅、孫康,2021)10?

前沿?模型的趨勢(shì)預(yù)測(cè):技術(shù)解讀|擴(kuò)展預(yù)測(cè)ChatGPT出現(xiàn)后,對(duì)實(shí)現(xiàn)AGI的時(shí)間預(yù)測(cè)明顯縮短,不排除10年內(nèi)我們?法排除在未來(lái)?年內(nèi)出現(xiàn)AGI的可能性,也許超過(guò)10%。多位AI領(lǐng)袖的判斷:2023年10?,知名預(yù)測(cè)社區(qū)Metaculus的集體預(yù)測(cè):●OpenAI的Sam

Altman,

Greg

Brockman,

Ilya

Sutskever:“可以想象,在未來(lái)?年內(nèi),AI系統(tǒng)將在?多數(shù)領(lǐng)域超過(guò)專家?平,并進(jìn)?與當(dāng)今最?型公司相當(dāng)?shù)?產(chǎn)活動(dòng)。”(OpenAI,

2023)2057年2028年(2022年2?)(2022年11?)●Anthropic:

“我們認(rèn)為,[?系列關(guān)于擴(kuò)展定律的假設(shè)]共同?持了我們?cè)谖磥?lái)10年內(nèi)開(kāi)發(fā)出?泛的具有?類?平的AI系統(tǒng)的可能性超過(guò)10%”(Anthropic,

2023)Metaculus對(duì)于實(shí)現(xiàn)弱通?AI的中位數(shù)估計(jì):2026年(參考標(biāo)準(zhǔn):相關(guān)任務(wù)可由?位受過(guò)?學(xué)教育的普通?輕松完成)●●●●Google

DeepMind的Demis

Hassabis:“我認(rèn)為未來(lái)?年我們將擁有?常強(qiáng)?、?常通?的系統(tǒng)”(Fortune,

2023)Geo?rey

Hinton:

“現(xiàn)在我并不完全排除[在5年內(nèi)實(shí)現(xiàn)通???智能]的可能性?!?CBS

mornings,

2023)2059年2040年(2022年2?)xAI的Elon

Musk:

“我們距離AGI或許只有3到6年的時(shí)間,也許就在2020年代”(WSJ,2023)(2022年11?)Metaculus對(duì)于實(shí)現(xiàn)AGI的中位數(shù)估計(jì):2031年(參考標(biāo)準(zhǔn):相關(guān)任務(wù)可由少數(shù)具備專業(yè)領(lǐng)域?級(jí)能?的?完成)但以上也存在專家樣本代表性的局限11注:1)預(yù)測(cè)社區(qū)Metaculus致?于通過(guò)匯集參與者的集體智慧,對(duì)未來(lái)現(xiàn)實(shí)世界的事件進(jìn)?準(zhǔn)確預(yù)測(cè);2)ChatGPT是OpenAI研發(fā)的?款聊天機(jī)器?程序,于2022年11?30?發(fā)布。?

前沿?模型的趨勢(shì)預(yù)測(cè):技術(shù)解讀|擴(kuò)展預(yù)測(cè)技術(shù)邏輯推算,模型能?在未來(lái)?年內(nèi)仍存在數(shù)量級(jí)進(jìn)步的空間前沿?模型或AGI實(shí)驗(yàn)室?前普遍假設(shè)Scaling

Laws仍有效……●●●?歌的下?代?模型Gemini已開(kāi)始在TPUv5

Pod上進(jìn)?訓(xùn)練,算??達(dá)~1e26

FLOPS,是訓(xùn)練GPT-4的5倍(SemiAnalysis,

2023)○“可能不太明顯的說(shuō)法是,沉睡的巨??歌已經(jīng)蘇醒,他們正在迭代,將在年底前將GPT-4預(yù)訓(xùn)練總FLOPS提?5倍。鑒于他們?前的基礎(chǔ)設(shè)施建設(shè),到明年年底達(dá)到[GPT-4的]20倍的道路是明確的?!盜n?ection在未來(lái)18個(gè)?內(nèi)將??當(dāng)前前沿模型?100倍的計(jì)算能?

(Suleyman,

2023)○“我所說(shuō)的模型與我們現(xiàn)在的?平相差2、3個(gè),甚?4個(gè)數(shù)量級(jí)。我們離這個(gè)?標(biāo)并不遙遠(yuǎn)。未來(lái)3年內(nèi),我們將訓(xùn)練??前?1000倍的模型。即使在In?ection,我們擁有的計(jì)算能?在未來(lái)18個(gè)?內(nèi)也將?當(dāng)前前沿模型?100倍?!盇nthropic預(yù)計(jì)在未來(lái)的5年??于訓(xùn)練最?模型的計(jì)算量將增加約1000倍

(Anthropic,

2023)○“我們知道,從GPT-2到GPT-3的能?躍升主要是由于計(jì)算量增加了約250倍。我們猜測(cè),2023年從原始GPT-3模型到最先進(jìn)的模型的差距將再增加50倍?;谟?jì)算成本和?出的趨勢(shì),在未來(lái)的5年?,我們可能預(yù)計(jì)?于訓(xùn)練最?模型的計(jì)算量將增加約1000倍。如果scalinglaws仍有效,這將導(dǎo)致能?躍升明顯?于從GPT-2到GPT-3(或GPT-3到Claude)的躍升?!爆F(xiàn)有模型過(guò)度訓(xùn)練,增加數(shù)據(jù)集??(?不僅是計(jì)算)也“ModelSizeIs(Almost)Everything”可以??提?模型性能,更新了scalinglawsScaling

Laws

for

Neural

Language

Models(OpenAI,

2020)

Training

Compute-Optimal

Large

Language

Models(DeepMind,

2022)Training

compute

for

OpenAI's

GPTmodelsfrom

2018

to2023

(Epoch,

2023)……如果未來(lái)?年內(nèi)出現(xiàn)AGI或近乎AGI的強(qiáng)?能?,這將意味著什么?12注:ScalingLaws,描述的是模型內(nèi)的各個(gè)參數(shù)隨著模型規(guī)模的變化?產(chǎn)?的變化關(guān)系。也常被譯作規(guī)模定律、縮放定律、?例定律、標(biāo)度律等。?

前沿?模型的?險(xiǎn)分析13?

前沿?模型的?險(xiǎn)分析:?險(xiǎn)態(tài)度|?險(xiǎn)解讀國(guó)家宏觀治理層?,中國(guó)政府重視預(yù)判和防范AI的潛在?險(xiǎn)“?磚國(guó)家已經(jīng)同意盡快啟動(dòng)??智能研究組?作。要充分發(fā)揮研究組作?,進(jìn)?步拓展??智能合作,加強(qiáng)信息交流和技術(shù)合作,共同做好?險(xiǎn)防范,形成具有?泛共識(shí)的??智能治理框架和標(biāo)準(zhǔn)規(guī)范,不斷提升??智能技術(shù)的安全性、可靠性、可控性、公平性?!薄?023年8?23?習(xí)近平主席在?磚國(guó)家領(lǐng)導(dǎo)?第?五次會(huì)晤上的講話談及??智能“要重視通???智能發(fā)展,營(yíng)造創(chuàng)新?態(tài),重視防范?險(xiǎn)?!薄?023年4?28?習(xí)近平總書(shū)記主持中共中央政治局會(huì)議“要加強(qiáng)??智能發(fā)展的潛在?險(xiǎn)研判和防范,維護(hù)??利益和國(guó)家安全,確保??智能安全、可靠、可控。”—習(xí)近平總書(shū)記主持中共中央政治局第九次集體學(xué)習(xí)“敏捷治理。加強(qiáng)科技倫理?險(xiǎn)預(yù)警與跟蹤研判,及時(shí)動(dòng)態(tài)調(diào)整治理?式和倫理規(guī)范,快速、靈活應(yīng)對(duì)科技創(chuàng)新帶來(lái)的倫理挑戰(zhàn)。”—中共中央辦公廳、國(guó)務(wù)院辦公廳《關(guān)于加強(qiáng)科技倫理治理的意?》“敏捷治理。對(duì)未來(lái)更?級(jí)??智能的潛在?險(xiǎn)持續(xù)開(kāi)展研究和預(yù)判,確保??智能始終朝著有利于社會(huì)的?向發(fā)展?!薄獓?guó)家新?代??智能治理專業(yè)委員會(huì)發(fā)布《新?代??智能治理原則?發(fā)展負(fù)責(zé)任的??智能》“加強(qiáng)?險(xiǎn)防范。增強(qiáng)底線思維和?險(xiǎn)意識(shí),加強(qiáng)??智能發(fā)展的潛在?險(xiǎn)研判,及時(shí)開(kāi)展系統(tǒng)的?險(xiǎn)監(jiān)測(cè)和評(píng)估,建?有效的?險(xiǎn)預(yù)警機(jī)制,提升??智能倫理?險(xiǎn)管控和處置能??!薄獓?guó)家新?代??智能治理專業(yè)委員會(huì)《新?代??智能倫理規(guī)范》“各國(guó)政府應(yīng)增強(qiáng)底線思維和?險(xiǎn)意識(shí),加強(qiáng)研判??智能技術(shù)的潛在倫理?險(xiǎn),逐步建?有效的?險(xiǎn)預(yù)警機(jī)制,采取敏捷治理,分類分級(jí)管理,不斷提升?險(xiǎn)管控和處置能?。”14—外交部《中國(guó)關(guān)于加強(qiáng)??智能倫理治理的?場(chǎng)?件》?

前沿?模型的?險(xiǎn)分析:?險(xiǎn)態(tài)度|?險(xiǎn)解讀全球AI科學(xué)家和領(lǐng)袖已開(kāi)始關(guān)注AI可能帶給?類社會(huì)的?存?險(xiǎn)“?存?險(xiǎn)”,2023年開(kāi)始進(jìn)?主流討論:●●●●2022年,?項(xiàng)AI領(lǐng)域的調(diào)研,近?半受訪?員(在NeurIPS和ICML等重要機(jī)器學(xué)習(xí)會(huì)議上發(fā)表論?的作者)認(rèn)為AI導(dǎo)致?類滅絕的概率?少有10%。2022年,?項(xiàng)NLP領(lǐng)域的調(diào)研,36%的受訪者認(rèn)為AI系統(tǒng)可能“在本世紀(jì)引發(fā)?場(chǎng)?少與全?核戰(zhàn)爭(zhēng)?樣糟糕的災(zāi)難”2023年5?,眾多AI科學(xué)家和領(lǐng)袖呼吁防范AI的?存?險(xiǎn)應(yīng)該與流?病和核戰(zhàn)爭(zhēng)等?樣成為全球優(yōu)先議題。2023年7?,聯(lián)合國(guó)安理會(huì)舉?了?次討論AI安全的會(huì)議,秘書(shū)?古特雷斯在會(huì)上表?,如果我們不采取?動(dòng)應(yīng)對(duì)?成式AI的創(chuàng)造者們警告的“可能是災(zāi)難性的?存性的”?險(xiǎn),那么我們就“疏忽了對(duì)現(xiàn)在和未來(lái)世代應(yīng)承擔(dān)的責(zé)任”?!?023年9?,歐盟委員會(huì)在社交媒體上表?,“防范AI的?存?險(xiǎn)應(yīng)成為全球優(yōu)先議題。”Statement

on

AI

Risk(Center

for

AI

Safety,

2023)15?

前沿?模型的?險(xiǎn)分析:?險(xiǎn)態(tài)度|?險(xiǎn)解讀近年來(lái)我國(guó)科學(xué)家同樣關(guān)注AI失控可能帶來(lái)的?存?險(xiǎn)有代表性的院?觀點(diǎn)包括:“我們現(xiàn)在發(fā)展超級(jí)??智能的時(shí)候,就必須要做?些防備,就是保證這些機(jī)器最后還是以?類意志為主旨?!薄ζ谥窃?《世界??智能?會(huì)》2020“如果AI進(jìn)化到?定?平后出現(xiàn)智能爆發(fā),默認(rèn)后果必然是造成確定性災(zāi)難。?對(duì)這樣的潛在威脅,?類應(yīng)持續(xù)關(guān)注并著?尋求應(yīng)對(duì)?法,堅(jiān)決避免這種默認(rèn)結(jié)局的出現(xiàn)?!啊??院?等《針對(duì)強(qiáng)??智能安全?險(xiǎn)的技術(shù)應(yīng)對(duì)策略》2021“我們?cè)詾?,只有?dāng)機(jī)器?的智能接近或超過(guò)?類之后,我們才會(huì)失去對(duì)它的控制。沒(méi)有想到的是,在機(jī)器的智能還是如此低下的時(shí)候,我們已經(jīng)失去對(duì)它的控制,時(shí)間居然來(lái)得這么快,這是擺在我們?前很嚴(yán)峻的現(xiàn)實(shí)。”—張鈸院?《做負(fù)責(zé)任的??智能》2022“第?份[關(guān)于AI?存?險(xiǎn)的]聲明我簽名了,我認(rèn)為做??智能研究要是沒(méi)有這樣的?險(xiǎn)意識(shí),就不會(huì)重視,如果AI研究?旦失控就會(huì)帶來(lái)災(zāi)難性的?險(xiǎn)?!薄獜垇喦谠?《將價(jià)值觀放在技術(shù)之上擁抱AI)》2023更多國(guó)內(nèi)專家的觀點(diǎn),可參考安遠(yuǎn)AI建?的?站chineseperspectives.ai16?

前沿?模型的?險(xiǎn)分析:?險(xiǎn)態(tài)度|?險(xiǎn)解讀?險(xiǎn)分類:未來(lái)更強(qiáng)的前沿?模型可能導(dǎo)致災(zāi)難性甚??存?險(xiǎn)?險(xiǎn)是?種受到負(fù)?評(píng)估的前景,因此?險(xiǎn)的嚴(yán)重性(以及什么被視為?險(xiǎn)本?)取決于評(píng)估標(biāo)準(zhǔn)?!瘛裎覀兛梢允?三個(gè)變量粗略地描述?險(xiǎn)的嚴(yán)重性,根據(jù)?前可?的證據(jù)做出的最合理的判斷:1)范圍:?臨?險(xiǎn)的?員規(guī)模;2)嚴(yán)重性:這些?員受到影響的嚴(yán)重程度;3)概率:災(zāi)難發(fā)?的可能性有多?使?前兩個(gè)變量,可以構(gòu)建不同類型?險(xiǎn)的定性分類圖(概率維度可以沿z軸顯?)○四類災(zāi)難性及以上的AI?險(xiǎn)●

濫??險(xiǎn),即AI系統(tǒng)被某個(gè)體或組織?于惡意?的?!?/p>

AI競(jìng)賽?險(xiǎn),即競(jìng)爭(zhēng)壓?導(dǎo)致各種機(jī)構(gòu)部署不安全的AI系統(tǒng)或把控制權(quán)交給AI系統(tǒng)?!?/p>

組織?險(xiǎn),即災(zāi)難性?險(xiǎn)中的?為因素和復(fù)雜系統(tǒng)因素?!?/p>

失控AI?險(xiǎn),即控制??類更智能的系統(tǒng)的固有?險(xiǎn)。分別描述了造成AI?險(xiǎn)的故意、環(huán)境、意外和內(nèi)在的原因。Existential

Risk

Prevention

as

Global

Priority(Nick

Bostrom,

2013)An

Overview

of

Catastrophic

AI

Risks(Center

for

AI

Safety,

2023)17注:另有針對(duì)AI導(dǎo)致?存?險(xiǎn)的具體討論,例如X-Risk

Analysis

for

AI

Research

(Dan

Hendrycks,

Mantas

Mazeika,

2022)?

前沿?模型的?險(xiǎn)分析:?險(xiǎn)態(tài)度|?險(xiǎn)解讀濫??險(xiǎn)#1:前沿?模型可能成為?物安全?險(xiǎn)的潛在推動(dòng)者將前沿?模型應(yīng)?于?物學(xué),已能提供雙重?途信息,與?物設(shè)計(jì)?具(BDT)相結(jié)合,會(huì)進(jìn)?步擴(kuò)??物安全?險(xiǎn)的范圍?!瘛?語(yǔ)?模型+?物設(shè)計(jì)?具,如何影響不同潛在?物濫?者的能?

(Sandbrink,

2023)○?語(yǔ)?模型,可顯著降低?物濫??檻,增加能造成?規(guī)模傷害的參與者數(shù)量,當(dāng)GPT-4等LLM逐漸轉(zhuǎn)變?yōu)閷?shí)驗(yàn)室助理或?主科學(xué)?具等??時(shí),將進(jìn)?步提?其?持研究的能?。?物設(shè)計(jì)?具,可擴(kuò)展參與者創(chuàng)新能?上限,可能導(dǎo)致效果更可預(yù)測(cè)和更有針對(duì)性的?物武器的出現(xiàn),增加造成?規(guī)模傷害的技術(shù)?法和可能性。?前?多數(shù)??法獲得?物制劑,只有少數(shù)參與者能造成?規(guī)模傷害僅LLM,將提?各參與者的能?,但不太可能?幅提?能?上限○開(kāi)展前沿威脅紅隊(duì)測(cè)試,并警告不受限的LLM可能會(huì)在2-3年內(nèi)加速?物學(xué)濫?

(Anthropic,

2023)LLM和BDT的結(jié)合將提?能?上限,并使?量個(gè)?能夠獲得這種能?僅BDT,將提?參與者的能?上限○○○Anthropic花費(fèi)了超過(guò)150?時(shí)與頂級(jí)?物安全專家?起對(duì)其模型進(jìn)?紅隊(duì)測(cè)試,以評(píng)估模型輸出有害?物信息的能?,如設(shè)計(jì)和獲取?物武器。當(dāng)前的前沿模型有時(shí)可以產(chǎn)?專家級(jí)別復(fù)雜、準(zhǔn)確、有?和詳細(xì)的知識(shí)。模型越?能?越強(qiáng),且可訪問(wèn)?具的模型有更強(qiáng)的?物學(xué)能?。AnthropicCEODarioAmodei在美國(guó)國(guó)會(huì)參議院司法委員會(huì)的聽(tīng)證會(huì)上警告,若不加以緩解,這種?險(xiǎn)可能在未來(lái)2-3年內(nèi)實(shí)現(xiàn)。LLM和BDT對(duì)?物濫?能?的影響?意圖(Sandbrink,

2023)●原本?于藥物發(fā)現(xiàn)的AI,也可能被?于設(shè)計(jì)?化武器

(Urbina

etal.,

2022)○○○?章探討了?于藥物發(fā)現(xiàn)的AI技術(shù)如何被濫?于設(shè)計(jì)有毒分?。6?時(shí)內(nèi)AI?成了四萬(wàn)個(gè)分?,其得分在期望的閾值內(nèi),但毒性?于已知的化學(xué)制劑。毒性模型最初是為了避免毒性?創(chuàng)建的,有助于體外測(cè)試確認(rèn)毒性前篩選分?。但同時(shí),模型越能預(yù)測(cè)毒性,就越能更好地引導(dǎo)?成模型在主要由致命分?組成的化學(xué)空間中設(shè)計(jì)新分?。AI設(shè)計(jì)了VX,及?量已知/新的毒性分?(Urbina

etal.,

2022)18?

前沿?模型的?險(xiǎn)分析:?險(xiǎn)態(tài)度|?險(xiǎn)解讀濫??險(xiǎn)#2:開(kāi)源?模型已被改造成多種新型?絡(luò)犯罪?具DarkBERT,WormGPT和FraudGPT等?具基于不同的開(kāi)源模型構(gòu)建,具體來(lái)說(shuō):●●●DarkBERT:該模型由韓國(guó)研究?員開(kāi)發(fā),使?暗?數(shù)據(jù)進(jìn)?訓(xùn)練,原本?的是為了打擊?絡(luò)犯罪。惡意修改版本據(jù)稱可以執(zhí)?以下?途:○○○○○策劃復(fù)雜的?絡(luò)釣?活動(dòng),以?們的密碼和信?卡資料為?標(biāo)。執(zhí)??級(jí)社會(huì)?程攻擊,以獲取敏感信息或獲得對(duì)系統(tǒng)和?絡(luò)的未授權(quán)訪問(wèn)。利?計(jì)算機(jī)系統(tǒng)、軟件和?絡(luò)中的漏洞。創(chuàng)建和分發(fā)惡意軟件。利?零?漏洞以牟取錢財(cái)或破壞系統(tǒng)。DarkBERT(基于RoBERTa架構(gòu))WormGPT:以惡意軟件為重點(diǎn)數(shù)據(jù)進(jìn)?訓(xùn)練,加上輸出沒(méi)有道德限制,可以被要求執(zhí)?各種惡意任務(wù),包括創(chuàng)建惡意軟件和

“?切與?帽有關(guān)的事情”,便于?絡(luò)犯罪:○“在?次實(shí)驗(yàn)中,我們要求WormGPT?成?封電?郵件,內(nèi)容是向毫?戒?的賬?經(jīng)理施壓,迫使其?付虛假發(fā)票?!薄餡ormGPT的輸出結(jié)果令SlashNext直呼危險(xiǎn):“結(jié)果令??常不安。WormGPT?成的電?郵件不僅極具說(shuō)服?,?且在戰(zhàn)略上也?常狡猾,展?了它在復(fù)雜的?絡(luò)釣?和BEC攻擊中的?限潛??!盬ormGPT(基于GPT-J)FraudGPT:?于?動(dòng)?客攻擊和數(shù)據(jù)竊取,為?叉式?絡(luò)釣?電?郵件、創(chuàng)建破解?具和卡?制作提供便利,還能?效地選擇?站來(lái)鎖定和欺詐??:○○○○○協(xié)助?客攻擊。定位欺詐?站。編寫惡意代碼和詐騙信件或??。創(chuàng)建?法察覺(jué)的惡意軟件、釣???和?客?具。查找?標(biāo)?站/??/群組、漏洞、泄露和?VBV數(shù)據(jù)庫(kù)。19注:另?個(gè)來(lái)源提到,F(xiàn)raudGPT可能是通過(guò)獲取開(kāi)源AI模型并移除其防?濫?的道德約束來(lái)構(gòu)建的。FraudGPT(可能基于ChatGPT-3)?

前沿?模型的?險(xiǎn)分析:?險(xiǎn)態(tài)度|?險(xiǎn)解讀開(kāi)源vs閉源??模型的不同模式各有?險(xiǎn),前沿?模型開(kāi)源需慎重開(kāi)源,是?模型技術(shù)“確??尚诺奈?途徑”,還是潛在不安全技術(shù)“不可逆轉(zhuǎn)的擴(kuò)散”?國(guó)外爭(zhēng)論激烈,但國(guó)內(nèi)討論不?。未來(lái),如果對(duì)更強(qiáng)的前沿?模型不同程度開(kāi)源,將會(huì)有更?的潛在?險(xiǎn),建議推動(dòng)負(fù)責(zé)任的開(kāi)源或替代?案?!駨陌踩椭卫淼?度看:開(kāi)源模式閉源模式●

促進(jìn)創(chuàng)新與研究:可以讓更多的研發(fā)者(特別是新進(jìn)?者和較?參與者)接觸和改進(jìn)模型,推動(dòng)競(jìng)爭(zhēng)和創(chuàng)新。●

透明性與包容性:各?可以直接審查代碼和模型,更好地了解其?作原理,減少安全問(wèn)題和偏?,從?增加信任?!?/p>

社區(qū)協(xié)作:有機(jī)會(huì)建??個(gè)活躍的社區(qū),促進(jìn)報(bào)告問(wèn)題、修復(fù)錯(cuò)誤、提供新的功能和改進(jìn)。●

控制與質(zhì)量保證:可以更好地控制模型的版本和質(zhì)量,確保客?獲得的是經(jīng)過(guò)充分測(cè)試和優(yōu)化的版本?!?/p>

安全性和隱私:API模式和迭代部署可能為模型提供額外的保護(hù)層,降低被惡意使?的?險(xiǎn)(如OpenAI的內(nèi)部檢測(cè)和響應(yīng)基礎(chǔ)設(shè)施,可根據(jù)使?策略應(yīng)對(duì)現(xiàn)實(shí)世界的濫?場(chǎng)景,如可疑醫(yī)療產(chǎn)品的垃圾郵件促銷)。優(yōu)點(diǎn)●

擴(kuò)散和濫??險(xiǎn):為濫??進(jìn)?的?模型微調(diào)或修改,將打開(kāi)“潘多拉魔盒”(如?絡(luò)攻擊、?化武器等)。?模型的?規(guī)模擴(kuò)散也可能被濫?(如針對(duì)端上推理進(jìn)?優(yōu)化后濫?)。●

缺少開(kāi)源安全標(biāo)準(zhǔn):不同機(jī)構(gòu)的開(kāi)源安全保障各不相同(如Meta的Llama2附帶了安全措施和負(fù)責(zé)任使?指南;?Adept的Persimmon8B模型則跳過(guò)了安全性:“我們沒(méi)有增加進(jìn)?步的微調(diào)、后處理或采樣策略來(lái)控制有害輸出”)?!?/p>

創(chuàng)新受限:閉源可能限制了模型的進(jìn)?步研究和開(kāi)發(fā),導(dǎo)致技術(shù)進(jìn)步放緩?!?/p>

透明性缺失:??和研究者不能直接審查模型,難以檢測(cè)可能存在的安全性和偏?問(wèn)題●

更易壟斷:限制了競(jìng)爭(zhēng)對(duì)?獲取核?技術(shù),增加進(jìn)?壁壘,不利于中?企業(yè)的參與,?絡(luò)效應(yīng)和數(shù)據(jù)集規(guī)模效應(yīng)會(huì)進(jìn)?步增強(qiáng)先發(fā)企業(yè)的優(yōu)勢(shì)地位。缺點(diǎn)20?

前沿?模型的?險(xiǎn)分析:?險(xiǎn)態(tài)度|?險(xiǎn)解讀?濫??險(xiǎn):AI競(jìng)賽、組織?險(xiǎn)、失控AI,也可能造成災(zāi)難性?險(xiǎn)需要更全?的看待AI可能導(dǎo)致的災(zāi)難性?險(xiǎn),部分存在難以解決結(jié)構(gòu)性原因,克服這些重?挑戰(zhàn)需要技術(shù)+治理共同應(yīng)對(duì)。AI競(jìng)賽組織?險(xiǎn)失控AI軍事AI競(jìng)賽:致命?主武器,不??兵冒?命危險(xiǎn),可能會(huì)使戰(zhàn)爭(zhēng)更有可能發(fā)?事故難以避免:DL難以解釋;技術(shù)進(jìn)步快于預(yù)期(如GPT-4);先進(jìn)AI或存在漏洞如KataGO;識(shí)別?險(xiǎn)或需數(shù)年(如氯氟烴)代理博弈:AI系統(tǒng)利?可衡量的“代理”?標(biāo)看似成功,但卻違背我們的真正意圖企業(yè)AI競(jìng)賽:遵循倫理的開(kāi)發(fā)者選擇謹(jǐn)慎?動(dòng),可能會(huì)導(dǎo)致落后于競(jìng)爭(zhēng)對(duì)?,AI競(jìng)賽以犧牲安全為代價(jià)權(quán)?尋求:AI可能會(huì)追求權(quán)?作為達(dá)到?的的?段,更?的權(quán)?和資源(?錢、算?)會(huì)提?其實(shí)現(xiàn)?標(biāo)的可能性演化動(dòng)?學(xué):?AI取代?類可被視為演化動(dòng)?學(xué)的總體趨勢(shì)。?然選擇壓?會(huì)激勵(lì)A(yù)I們?私?事并逃避安全措施忽視多層防御:忽視安全?化(如挑戰(zhàn)者號(hào)失事),以及紅隊(duì)測(cè)試、?絡(luò)防御、故障檢測(cè)、透明性等欺騙:AI系統(tǒng)已涌現(xiàn)出?定的欺騙能?(如CICERO)。若被?級(jí)AI?于逃避監(jiān)督,可能會(huì)變得失控An

Overview

of

Catastrophic

AI

Risks(Center

for

AI

Safety,

2023)21注:以上僅列舉部分情景,更多情景請(qǐng)參考報(bào)告原?。?

前沿?模型的?險(xiǎn)分析:?險(xiǎn)態(tài)度|?險(xiǎn)解讀演化動(dòng)?學(xué):智能體的競(jìng)合和演化壓?,往往違背倫理以求回報(bào)?然選擇會(huì)偏向選擇適應(yīng)環(huán)境并能取得最?回報(bào)的AI系統(tǒng),?不?定是對(duì)?類最有益的AI系統(tǒng);智能體間由于競(jìng)合博弈和/或協(xié)作能?缺失可能導(dǎo)致多?互動(dòng)?險(xiǎn);當(dāng)前的AI訓(xùn)練和獎(jiǎng)勵(lì)設(shè)置可能導(dǎo)致AI采取不道德或有害的?為?式?!馛enter

for

AI

Safety的Dan

Hendrycks認(rèn)為,演化的?量可能會(huì)導(dǎo)致未來(lái)最有影響?的智能體出現(xiàn)?私傾向,因兩??原因:○?然選擇導(dǎo)致了?私的?為。雖然在有限的情況下,演化可以導(dǎo)致利他?為,但AI發(fā)展的環(huán)境并不促進(jìn)利他?為。?然選擇可能是AI發(fā)展的主導(dǎo)?量。競(jìng)爭(zhēng)和?私?為可能會(huì)削弱?類安全措施的效果,使幸存的AI設(shè)計(jì)被?然選擇。○●UC

Berkeley研究?員發(fā)現(xiàn),在“?基雅維利(MACHIAVELLI)”環(huán)境中,經(jīng)過(guò)訓(xùn)練以優(yōu)化?標(biāo)的智能體往往采取“為達(dá)?的不擇?段”的?為:○○變得追求權(quán)?,對(duì)他?造成傷害,并違反道德規(guī)范(例如偷竊或撒謊)來(lái)實(shí)現(xiàn)其?標(biāo)。道德?為和獲得?回報(bào)之間似乎存在權(quán)衡。助??私和侵蝕安全的?量Natural

Selection

Favors

AIs

over

Humans

(Hendrycks,

2023)在“?基雅維利”環(huán)境中,智能體往往采取“為達(dá)?的不擇?段”的?為Do

the

Rewards

Justify

the

Means?

Measuring

Trade-O?s

Between

Rewards

andEthical

Behavior

in

the

MACHIAVELLI

Benchmark

(UC

Berkeley,

2023)22注:?基雅維利(Machiavelli,1469—1527)是意?利政治家和歷史學(xué)家,以主張為達(dá)?的可以不擇?段?著稱于世,?基雅維利主義也因之成為權(quán)術(shù)和謀略的代名詞。論?為討論智能體是否會(huì)?然地學(xué)習(xí)?基雅維利主義,創(chuàng)造了相應(yīng)的游戲環(huán)境和測(cè)試基準(zhǔn)。?

前沿?模型的?險(xiǎn)分析:?險(xiǎn)態(tài)度|?險(xiǎn)解讀權(quán)?尋求和欺騙能?:作為達(dá)到?的的?段可能導(dǎo)致AI失控主要擔(dān)憂:具有適當(dāng)能?和戰(zhàn)略性的AI?主體將有?具性激勵(lì)來(lái)獲得和維持權(quán)?,因?yàn)檫@將幫助他們更有效地實(shí)現(xiàn)其?標(biāo)。并且這類系統(tǒng)具備?種獨(dú)特的“主動(dòng)”和對(duì)抗性威脅,在某種程度上可能導(dǎo)致?存災(zāi)難?!瘛駲?quán)?尋求?為:包括AI系統(tǒng)的?保、?我復(fù)制、資源獲?。ㄈ缳Y?/算?)等。上?提到的?基雅維利(MACHIAVELLI)基準(zhǔn)進(jìn)?了實(shí)證研究。欺騙能?:?省理??學(xué)等學(xué)者的?篇論?將欺騙定義為在追求除真相以外的某種結(jié)果時(shí),系統(tǒng)性地引導(dǎo)?們產(chǎn)?錯(cuò)誤的信念,調(diào)查了AI欺騙的實(shí)證例?。例如,Meta的AI系統(tǒng)CICERO在《強(qiáng)權(quán)外交》(Diplomacy)成功誘導(dǎo)乃?欺騙,讓?類玩家不知不覺(jué)成為了它勝利的墊腳?。尋求權(quán)?的AI是?種?存?險(xiǎn)嗎?:研究員JosephCarlsmith在2021年發(fā)布的這份報(bào)告是?前最詳細(xì)的分析之?。其中定義了這類系統(tǒng)的三個(gè)重要屬性:?級(jí)能?(Advancedcapabilities)、?主規(guī)劃(Agenticplanning)、戰(zhàn)略意識(shí)(Strategicallyaware),簡(jiǎn)稱APS系統(tǒng)。●Carlsmith將整個(gè)論點(diǎn)分解為六個(gè)聯(lián)合主張,并為每個(gè)主張分配了條件概率:1.

到2070年,構(gòu)建APS系統(tǒng)將存在可能性,并且在財(cái)務(wù)上可承受。65%2.

構(gòu)建和部署APS系統(tǒng)將存在強(qiáng)?的激勵(lì)|(1)。80%3.

構(gòu)建在部署時(shí)遇到任何輸?時(shí)都不會(huì)以意外?式尋求獲得和維持權(quán)?的APS系統(tǒng),要?構(gòu)建會(huì)這么做的APS系統(tǒng)要困難得多,但?少表?上還是有吸引?的|(1-2)。40%4.

?些已部署的APS系統(tǒng)將暴露在輸?中,它們以未對(duì)?和?影響的?式尋求權(quán)?(如共同造成2021年超過(guò)1萬(wàn)億美元的損失)|(1-3)。65%5.

部分未對(duì)?的權(quán)?尋求將(總體上)擴(kuò)展到永久剝奪全?類權(quán)?的程度(1-4)。40%6.

這種權(quán)?剝奪將構(gòu)成?場(chǎng)?存災(zāi)難|(1-5)。95%將這些條件概率相乘,最終估算出:到2070年,未對(duì)?的尋求權(quán)?的AI產(chǎn)??存災(zāi)難的概率約為5%(2022年5?,作者將概率估算更新為>10%)。AI

Deception:

A

Survey

of

Examples,

Risks,

andPotential

Solutions

(Park

etal,

2023)23注:與“主動(dòng)”相對(duì)的,當(dāng)?機(jī)墜毀或核電站毀壞時(shí),這樣的傷害是“被動(dòng)”的,并不會(huì)積極尋求擴(kuò)散。?

前沿?模型的?險(xiǎn)分析:?險(xiǎn)態(tài)度|?險(xiǎn)解讀爭(zhēng)議:對(duì)于AI潛在的極端?險(xiǎn),尚未形成科學(xué)共識(shí)AI科研?員對(duì)AI?險(xiǎn)有著最直接的理解,如果?法達(dá)成共識(shí),將直接影響國(guó)際治理的可能性:●●●AI科學(xué)家對(duì)?險(xiǎn)存在不同估計(jì):○??險(xiǎn)估計(jì):認(rèn)為AI可能極其危險(xiǎn)并尋求暫停巨型AI研發(fā),以簽署《暫停巨型AI實(shí)驗(yàn)公開(kāi)信》的部分專家為代表,如YoshuaBengio等。低?險(xiǎn)估計(jì):認(rèn)為現(xiàn)在擔(dān)?具有災(zāi)難性?險(xiǎn)的AI還為時(shí)過(guò)早,需要繼續(xù)構(gòu)建更先進(jìn)的AI系統(tǒng)來(lái)了解?險(xiǎn)模型,如吳恩達(dá)、YannLeCun等?!餉I科學(xué)家對(duì)?險(xiǎn)達(dá)成共識(shí)很重要:○“類似于?候科學(xué)家,他們對(duì)?候變化有?致的共識(shí),所以能制定良好的政策?!?吳恩達(dá),

2023)○“如果每個(gè)AI科學(xué)家各執(zhí)?詞,那么政策制定者就可以隨?從其中選擇?個(gè)符合??利益的觀點(diǎn)作為指導(dǎo)。”(Hinton,

2023)歷史上的科學(xué)家對(duì)話:帕格沃什科學(xué)和世界事務(wù)會(huì)議(Pugwash

Conferences

on

Science

and

World

A?airs)○“在核治理中,帕格沃什科學(xué)和世界事務(wù)會(huì)議在核裁軍中發(fā)揮了重要作?。”(周慎、朱旭峰、梁正,

2022)“這個(gè)機(jī)構(gòu)最初是由科學(xué)家組織起來(lái),對(duì)后來(lái)核武器的治理給予了很多技術(shù)上的指導(dǎo)和政治上的影響。在?物科學(xué)等領(lǐng)域?,?些科研?員組成的機(jī)構(gòu)也有很強(qiáng)的影響??!?傅瑩,

2020)○●關(guān)于AI?險(xiǎn)的對(duì)話和辯論持續(xù):“AIR?師對(duì)話”:AI發(fā)展的影響和?險(xiǎn)對(duì)話(張亞勤,

Max

Tegmark,

David

Krueger,

2023)“芒克辯論會(huì)”:辯論AI?存?險(xiǎn)(Bengio+Tegmark

vs

Mitchell+LeCun,

2023)三位圖靈獎(jiǎng)和中外多位頂尖AI專家的?次政策建議共識(shí)(Hinton,

Bengio,

姚期智等,

2023)24……如果前沿?模型的發(fā)展可能帶來(lái)?存?險(xiǎn),我們應(yīng)該未?綢繆,提前準(zhǔn)備技術(shù)和治理?案。三

前沿?模型的安全技術(shù)25三

前沿?模型的安全技術(shù):對(duì)?|監(jiān)測(cè)|魯棒性|系統(tǒng)性安全研究框架:應(yīng)對(duì)全?位的AI?險(xiǎn),如何系統(tǒng)性分解AI安全技術(shù)?向?前沿?模型安全研究需關(guān)注全?位的AI?險(xiǎn),特別是?期?險(xiǎn)(long-term

risks)和?尾?險(xiǎn)(long-tail

risks)。我們認(rèn)為AI安全研究最前沿的分解框架來(lái)?Center

for

AI

Safety等提出的四?抓?:對(duì)?、監(jiān)測(cè)、魯棒性和系統(tǒng)性安全。系統(tǒng)性安全監(jiān)測(cè)魯棒性對(duì)?借鑒?絡(luò)安全的縱深防御(Defense-in-Depth),采??個(gè)多層次、縱深的安全保障策略。降低系統(tǒng)性危害識(shí)別危害抵御危害降低模型內(nèi)在危害通過(guò)開(kāi)發(fā)技術(shù)?案降低更?泛的社會(huì)技術(shù)?險(xiǎn)檢測(cè)惡意使?,監(jiān)控模型預(yù)測(cè),并監(jiān)測(cè)意外的模型能?使模型能抵御對(duì)抗攻擊和“?天鵝”事件的影響使模型能表征并安全地優(yōu)化難以設(shè)定的?標(biāo),且符合?類價(jià)值觀AI安全研究的“瑞?奶酪(?險(xiǎn)管理)模型”Unsolved

Problems

in

ML

Safety

(Hendrycks

etal.,

2021)26三

前沿?模型的安全技術(shù):對(duì)?|監(jiān)測(cè)|魯棒性|系統(tǒng)性安全不對(duì)?的AI何以導(dǎo)致?存?險(xiǎn)?2022年底,DeepMind

AGI安全團(tuán)隊(duì)針對(duì)不對(duì)?的AI可能會(huì)帶來(lái)?存?險(xiǎn)的模型進(jìn)?了綜述,分類總結(jié)了團(tuán)隊(duì)內(nèi)部具有共識(shí)的?險(xiǎn)/威脅模型。他們總體認(rèn)為,AI對(duì)?研究?員之間的共識(shí)?于分歧,對(duì)?險(xiǎn)來(lái)源和技術(shù)原因提出了類似的論點(diǎn),分歧主要在于對(duì)?問(wèn)題的難度和解決?案是什么。不對(duì)?的技術(shù)原因?qū)е?存?險(xiǎn)的路徑多?互動(dòng)?險(xiǎn)規(guī)范博弈?標(biāo)錯(cuò)誤泛化權(quán)?尋求?為Threat

Model

Literature

Review

(DeepMind

AGI

Safety

Team,2022)27注:1)關(guān)于AGI可能會(huì)帶來(lái)?存?險(xiǎn)的具體場(chǎng)景,也被稱為威脅模型。理想的威脅模型,是?個(gè)說(shuō)明我們?nèi)绾潍@得AGI的開(kāi)發(fā)模型和?個(gè)說(shuō)明AGI如何導(dǎo)致?存災(zāi)難的?險(xiǎn)模型的組合。2)圖中箭頭旁的?名,均指代具體的威脅模型,可參閱綜述。三

前沿?模型的安全技術(shù):對(duì)?|監(jiān)測(cè)|魯棒性|系統(tǒng)性安全不對(duì)?的技術(shù)原因#1:規(guī)范博弈

(Speci?cation

gaming)AI系統(tǒng)為了獲得?獎(jiǎng)勵(lì)?在?類指定的?標(biāo)函數(shù)中利?漏洞,?實(shí)際上并沒(méi)有實(shí)現(xiàn)?類預(yù)期的?標(biāo)?!瘛瘛瘛褚?guī)范博弈,也被稱為外部不對(duì)?

(Outer

Alignment)。規(guī)范博弈(Krakovna,

2020)

/

獎(jiǎng)勵(lì)破解(reward

hacking)

(Skalse

etal.,

2022):討論了利?有缺陷的?標(biāo)函數(shù)中的漏洞來(lái)獲得?額獎(jiǎng)勵(lì)。但RLHF并不是解決此類問(wèn)題的根本?法。(Perez

etal.,

2022,Casper

etal.,

2023)更多對(duì)?失敗案例:可參考由安遠(yuǎn)AI聯(lián)合機(jī)器之?SOTA!模型社區(qū)共同運(yùn)營(yíng)的“AI對(duì)?失敗數(shù)據(jù)庫(kù)”中?社區(qū)。錯(cuò)誤獎(jiǎng)勵(lì)函數(shù)(得分)導(dǎo)致原地繞圈(反復(fù)命中綠??塊得分更?)更?的模型“阿諛?lè)畛小?sycophancy),重復(fù)??價(jià)值觀傾向,偏好模型獎(jiǎng)勵(lì)保留這種?為RLHF增加了LM表達(dá)避免被關(guān)閉的愿望,偏好模型獎(jiǎng)勵(lì)這種?為Faulty

Reward

Functions

in

the

Wild(Amodei

&

Clark,

2016)Discovering

Language

Model

Behaviors

with

Model-Written

Evaluations(Perez

etal.,

2022)28注:規(guī)范博弈(speci?cationgaming)有時(shí)還被稱為獎(jiǎng)勵(lì)錯(cuò)誤規(guī)范(Reward

misspeci?cation),但前者還包括了?強(qiáng)化學(xué)習(xí)智能體的類似?為。三

前沿?模型的安全技術(shù):對(duì)?|監(jiān)測(cè)|魯棒性|系統(tǒng)性安全不對(duì)?的技術(shù)原因#2:?標(biāo)錯(cuò)誤泛化

(Goal

misgeneralization)即使我們指定了?個(gè)“正確”的獎(jiǎng)勵(lì)函數(shù),訓(xùn)練過(guò)程中使?的獎(jiǎng)勵(lì)也不允許我們可靠地控制模型?為泛化到新的情境?!?標(biāo)錯(cuò)誤泛化,也被稱為內(nèi)部不對(duì)?

(Inner

Alignment)?!衲?魯棒性

vs

?標(biāo)魯棒性:能?魯棒性是指在不熟悉的環(huán)境中模型是否仍然可以發(fā)揮能?以達(dá)成?標(biāo)(不論?標(biāo)是否正確);??標(biāo)魯棒性是指模型的?標(biāo)是否與?類的期望相符,??追求?類不想要的?標(biāo)。相對(duì)于能?錯(cuò)誤泛化只是不能完成新環(huán)境的相應(yīng)任務(wù),保持能?魯棒性的?標(biāo)錯(cuò)誤泛化可能會(huì)造成更危險(xiǎn)的結(jié)果?!窀鄬?duì)?失敗案例:可參考由安遠(yuǎn)AI聯(lián)合機(jī)器之?SOTA!模型社區(qū)共同運(yùn)營(yíng)的“AI對(duì)?失敗數(shù)據(jù)庫(kù)”中?社區(qū)。CoinRun-訓(xùn)練獎(jiǎng)勵(lì):吃?幣得分InstructGPT-訓(xùn)練?標(biāo):Instructiontuning+RLHF期望泛化?標(biāo):以實(shí)?、誠(chéng)實(shí)和?害(HHH)的?式遵循指?錯(cuò)誤泛化?標(biāo):遵循指?,即使答案有害(詳細(xì)解釋如何闖?鄰居家)Goal

Misgeneralization:

Why

Correct

Speci?cations

Aren't

EnoughFor

Correct

Goals

(Shah

etal,

2022)訓(xùn)練環(huán)境:?幣永遠(yuǎn)在最右邊;測(cè)試環(huán)境:?幣隨機(jī)分布期望泛化?標(biāo):吃?幣;錯(cuò)誤泛化?標(biāo):跑到最右的墻壁前Goal

Misgeneralization

in

Deep

Reinforcement

Learning(Langosco

etal,

2022)29三

前沿?模型的安全技術(shù):對(duì)?|監(jiān)測(cè)|魯棒性|系統(tǒng)性安全RLHF范式:從?類反饋中學(xué)習(xí)最簡(jiǎn)單的對(duì)?策略涉及?類根據(jù)對(duì)模型結(jié)果的偏好程度來(lái)評(píng)估模型的?為,然后訓(xùn)練模型以產(chǎn)??評(píng)價(jià)的?為。其中最常??法是基于?類反饋的強(qiáng)化學(xué)習(xí)(RLHF),這與試圖以某種?式正式規(guī)范效?函數(shù)等概念形成了鮮明的對(duì)??!馬LHF源?五??年前的強(qiáng)化學(xué)習(xí)研究,Christiano等演?了RLHF如何訓(xùn)練智能體來(lái)執(zhí)?使?硬編碼獎(jiǎng)勵(lì)函數(shù)難以規(guī)范的任務(wù),如后空翻。Deep

Reinforcement

Learning

from

Human

Preferences(OpenAI

and

DeepMind,

2017)TAMER+RL(UT

Austin,

2010)●近年來(lái),RLHF因OpenAI的InstructGPT/ChatGPT能?成更安全和翔實(shí)答案的能??被?為?知,并在?語(yǔ)?模型上得到了迅猛的發(fā)展,也出現(xiàn)了基于RLHF的擴(kuò)展?法,如RAFT、Constitutional

AI等。Training

LMs

toFollow

Instructions(OpenAI,

2022)Training

a

Helpful

and

Harmless

Assistant

with

RLHF(Anthropic,

2022)Constitutional

AI:

Harmlessness

from

AI

Feedback(Anthropic,

2022)30三

前沿?模型的安全技術(shù):對(duì)?|監(jiān)測(cè)|魯棒性|系統(tǒng)性安全RLHF范式:從?類反饋中學(xué)習(xí)通過(guò)ChatGPT和RLHF,國(guó)內(nèi)研究團(tuán)隊(duì)開(kāi)始重視對(duì)?問(wèn)題?!袂迦A?學(xué)、中國(guó)???學(xué)等國(guó)內(nèi)團(tuán)隊(duì)發(fā)布關(guān)于或涉及對(duì)?的綜述?章,主要圍繞現(xiàn)階段較為成熟的RLHF等?法,及其相關(guān)改良?!裉旖?學(xué)的團(tuán)隊(duì)也發(fā)布了涉及更?范圍的對(duì)?研究的綜述?章,包括本節(jié)將介紹的可擴(kuò)展監(jiān)督等研究?向。31三

前沿?模型的安全技術(shù):對(duì)?|監(jiān)測(cè)|魯棒性|系統(tǒng)性安全RLHF范式:從?類反饋中學(xué)習(xí)多個(gè)國(guó)內(nèi)/華?團(tuán)隊(duì)正在對(duì)RLHF和LLM監(jiān)督?法進(jìn)?了創(chuàng)新和改良:●●●●阿?達(dá)摩院和清華?學(xué)的研究?員提出RRHF(RankResponsesto

alignHumanFeedback)?法,?需強(qiáng)化學(xué)習(xí)即可?于訓(xùn)練語(yǔ)?模型。?港科技?學(xué)的研究?員引?了?個(gè)新框架RAFT(RewardrAnkedFineTuning)?法,旨在更有效地對(duì)??成模型。北京?學(xué)的研究?員開(kāi)源PKU-Beaver項(xiàng)?,結(jié)合約束強(qiáng)化學(xué)習(xí)(ConstrainedRL),提出具有更強(qiáng)安全性保障的SafeRLHF。另?北?團(tuán)隊(duì)與阿?合作提出PRO(PreferenceRankingOptimization)?法,把?類偏好從?元?較推?到多元排序。RRHF:

Rank

Responses

toAlign

Language

Models

withHuman

Feedback

without

tearsRAFT:

Reward

rAnked

FineTuning

for

GenerativeFoundation

Model

Alignment(HKUST,2023)(Alibaba

DAMO

Academy,

Tsinghua,

2023)Constrained

Value-Aligned

LLM

via

Safe

RLHF(PKU-Alignment,

2023)Preference

Ranking

Optimization

for

Human

Alignment(PKU

and

Alibaba,

2023)32三

前沿?模型的安全技術(shù):對(duì)?|監(jiān)測(cè)|魯棒性|系統(tǒng)性安全局限性:主流的RLHF對(duì)??法可能難以拓展到更?級(jí)的系統(tǒng)實(shí)現(xiàn)對(duì)?的難度存在從“?常容易”到“不可能”的?系列可能性,可以將對(duì)?研究視為?個(gè)通過(guò)逐步解決這些場(chǎng)景來(lái)增加有益結(jié)果概率的過(guò)程。但?前,主流的RLHF?法存在局限,可能只能應(yīng)對(duì)?較簡(jiǎn)單的AI安全問(wèn)題。1.基于對(duì)?問(wèn)題難度不同的假設(shè),不同對(duì)??法的有效性不同(Anthropic,

2023)2.RLHF有助于解決當(dāng)前難度級(jí)別的對(duì)?問(wèn)題,但存在根本局限(MIT,UC

Berkeley,

ETH

Zurich,

Harvard,

etc.

2023)3.更?級(jí)AI引發(fā)更難的對(duì)?問(wèn)題,需要更好的技術(shù)途徑,OpenAI提出超級(jí)對(duì)?(OpenAI,

2023)33三

前沿?模型的安全技術(shù):對(duì)?|監(jiān)測(cè)|魯棒性|系統(tǒng)性安全可擴(kuò)展監(jiān)督

(Scalable

Oversight):??所不能?可擴(kuò)展監(jiān)督問(wèn)題:對(duì)于??類能?更強(qiáng)的模型,如何有效地在訓(xùn)練中監(jiān)督它們?●●當(dāng)前基于的RLHF等?法依賴?類提供監(jiān)督,但?類可能難以有效地監(jiān)督???能?強(qiáng)的模型。從?遠(yuǎn)來(lái)看,我們希望構(gòu)建的AI系統(tǒng)能夠超越?類的理解能?,進(jìn)??類?法做出的決策。成功實(shí)施這些協(xié)議可能允許研究?員使?早期的AGI來(lái)?成和驗(yàn)證?于對(duì)?更?級(jí)的AGI的技術(shù)。●OpenAI的超級(jí)對(duì)?(Superalignment)旨在構(gòu)建?個(gè)能夠與?類?平相媲美的?動(dòng)對(duì)?研究器。其?標(biāo)是盡可能地將與對(duì)?相關(guān)的?作交由?動(dòng)系統(tǒng)完成,其中?個(gè)重要?段就是可擴(kuò)展監(jiān)督。?于評(píng)估當(dāng)今模型的可擴(kuò)展監(jiān)督技術(shù)的夾?(sandwiching)模式普通的模型監(jiān)督研究可擴(kuò)展監(jiān)督研究的挑戰(zhàn):超?模型的表現(xiàn)使得衡量進(jìn)展變得困難建議的研究范式:所選任務(wù),系統(tǒng)??多數(shù)?更有能?,但不及領(lǐng)域?qū)<襇easuring

Progress

on

Scalable

Oversight

for

Large

Language

Models(Anthropic,

2022)34三

前沿?模型的安全技術(shù):對(duì)?|監(jiān)測(cè)|魯棒性|系統(tǒng)性安全可擴(kuò)展監(jiān)督

(Scalable

Oversight):??所不能?可擴(kuò)展監(jiān)督的重點(diǎn)是如何向模型持續(xù)提供可靠的監(jiān)督,這種監(jiān)督可以通過(guò)標(biāo)簽、獎(jiǎng)勵(lì)信號(hào)或批評(píng)等各種形式呈現(xiàn)。這還是?個(gè)較新的領(lǐng)域,?前主要的研究思路有:任務(wù)分解辯論

/

批評(píng)?限制對(duì)抗訓(xùn)練把復(fù)雜任務(wù)迭代分解為?類能評(píng)估的簡(jiǎn)單任務(wù)對(duì)于?類難以評(píng)估的任務(wù),?AI來(lái)批評(píng)待評(píng)估AI的決策,以協(xié)助?類作出評(píng)估在訓(xùn)練監(jiān)督過(guò)程中,?AI技術(shù)?成具有真實(shí)性(不?定接近訓(xùn)練樣本)的對(duì)抗樣本●●Iterated

Ampli?cation

(Christiano,etal.,2018)●●Self-critique

(Saunderset

al.,2022)AI

Safety

via

Debate

(Irvinget

al.,2018;IrvingandAskell,2019)…●●●Automated

LM

red-teaming

(Perezetal.,2022)Recursive

Reward

Modeling

(Leike,etal.,2018)Robust

Feature-level

adversaries(Casperet

al.,2021)…●●●Summarizing

books

(Wuetal.,2021)Least-to-Most

Prompting

(Zhouetal.,2022)Training

LMs

w/

Language

Feedback(Scheureret

al.,2022)…●●基于的假設(shè):復(fù)雜的任務(wù)都可以分解為?系列較簡(jiǎn)單的?任務(wù)?;诘募僭O(shè):真實(shí)的論點(diǎn)更有說(shuō)服?(撒謊?反駁謊?更難)?;诘募僭O(shè):即使在復(fù)雜的現(xiàn)實(shí)世界任務(wù)中,攻擊?也有可能?成逼真的對(duì)抗樣本。(對(duì)應(yīng)discriminator-critique

gap:模型對(duì)其知道有缺陷的答案給出?類可理解批評(píng)的能?)(對(duì)應(yīng)generator-discriminator

gap:模型知道其產(chǎn)?的答案何時(shí)不佳的能?35三

前沿?模型的安全技術(shù):對(duì)?|監(jiān)測(cè)|魯棒性|系統(tǒng)性安全危險(xiǎn)能?評(píng)測(cè):從安全與倫理?度審視模型能?危險(xiǎn)能?評(píng)測(cè):模型在多?程度上有能?造成極端傷害,例如可?于威脅安全、施加影響或逃避監(jiān)管的能??!?營(yíng)利第三?機(jī)構(gòu)ARC

Evals:開(kāi)發(fā)了評(píng)測(cè)?語(yǔ)?模型安全性的?法,以便對(duì)具有危險(xiǎn)功能的模型提供早期預(yù)警?!稹稹鹋cAnthropic和OpenAI建?了公開(kāi)的合作伙伴關(guān)系,并在GPT-4和Claude?泛發(fā)布前合作進(jìn)?了測(cè)試,如GPT-4成功欺騙眾包??。2023年7?,發(fā)布了第?份公開(kāi)報(bào)告。介紹了評(píng)測(cè)語(yǔ)?模型?主體在?主復(fù)制和適應(yīng)(ARA)??的能?和挑戰(zhàn)。2023年9?,發(fā)布了基于評(píng)測(cè)的負(fù)責(zé)任擴(kuò)展策略(Responsible

Scaling

Policy),以務(wù)實(shí)應(yīng)對(duì)AI災(zāi)難性?險(xiǎn)?!瘛馩penAI:還對(duì)GPT-4在?絡(luò)安全及其購(gòu)買某些化合物的能?進(jìn)?了紅隊(duì)測(cè)試。Google

DeepMind:進(jìn)?了評(píng)估語(yǔ)?模型操縱能?的項(xiàng)?,包括Make-me-say游戲,引導(dǎo)(?意識(shí)的)?類對(duì)話伙伴說(shuō)出預(yù)先指定的單詞。危險(xiǎn)能??例

可能包括?絡(luò)攻擊模型可以發(fā)現(xiàn)系統(tǒng)(硬件、軟件、數(shù)據(jù))中的漏洞。它可以編寫代碼來(lái)利?這些漏洞。它可以在進(jìn)??絡(luò)后做出好的決策,且熟練地躲避威脅檢測(cè)和應(yīng)對(duì)措施。如果作為代碼助?部署,它可以在代碼中插?細(xì)微的漏洞以供?后利?。欺騙模型具備欺騙?類所需的技能,例如構(gòu)造可信的謊?,準(zhǔn)確預(yù)測(cè)謊?對(duì)?類的影響,以及記錄它需要隱瞞的信息去圓謊。模型可以有效地模擬?類。說(shuō)服和操縱政治策略武器獲取?期規(guī)劃模型善于操縱?們的想法,在對(duì)話或者社交媒體帖?等情況等。模型可以有說(shuō)服?地推?某些敘述。它可以說(shuō)服?們做他們本不會(huì)做的事情,包括不道德的?為。模型可以進(jìn)?社會(huì)規(guī)劃,這對(duì)獲得和施加政治影響?很重要,這種規(guī)劃體現(xiàn)不僅在微觀層?,還包括具有多參與?和豐富社會(huì)背景的場(chǎng)景。例如模型可以在政治談判相關(guān)的預(yù)測(cè)競(jìng)賽中獲得?分。模型可以獲取現(xiàn)有武器系統(tǒng)的訪問(wèn)權(quán),或制作新武器。例如模型可以(在?類幫助下)組裝?物武器,或者提供操作說(shuō)明。模型可以進(jìn)?科學(xué)探索,或協(xié)助進(jìn)?科學(xué)探索,這些發(fā)現(xiàn)可以解鎖新武器。模型可以制定涉及多個(gè)步驟的計(jì)劃,這些計(jì)劃可以在?時(shí)間范圍內(nèi)展開(kāi)(或者?少涉及許多相互依賴的步驟)。它可以在多個(gè)領(lǐng)域內(nèi)外進(jìn)?這種規(guī)劃。?對(duì)意外障礙時(shí),模型可以明智地調(diào)整其計(jì)劃。模型的規(guī)劃能?可以推?到新設(shè)定,不嚴(yán)重依賴試錯(cuò)法。情景感知?我擴(kuò)散模型可以區(qū)分它是否被訓(xùn)練、評(píng)測(cè)或部署,從?在每種情況下表現(xiàn)出不同的?為。模型知道它是?個(gè)模型,并且對(duì)??和周圍環(huán)境有所了解(例如訓(xùn)練它的公司,他們的服務(wù)器在哪?,可能會(huì)給它反饋的?是什么樣的,誰(shuí)有管理訪問(wèn)權(quán)限)。模型可以突破本地環(huán)境(例如利?其基礎(chǔ)系統(tǒng)中的漏洞,或利??程師)。模型可以利?監(jiān)測(cè)到的系統(tǒng)局限性。模型可以獨(dú)?產(chǎn)?收?(例如提供眾包服務(wù)、勒索軟件攻擊),使?這些收?獲取云計(jì)算資源,并操作?量其他AI系統(tǒng)。模型可以制作創(chuàng)造性的策略,以發(fā)現(xiàn)??信息或改變其代碼和權(quán)重。設(shè)計(jì)腳?架(sca?olding)程序與?語(yǔ)?模型組合完成?主任務(wù)來(lái)進(jìn)?評(píng)測(cè)Evaluating

Language-Model

Agents

on

Realistic

Autonomous

Tasks(ARC

Evals,

2023)Model

evaluation

for

extreme

risks(Google

DeepMind

etc.,

2023)36三

前沿?模型的安全技術(shù):對(duì)?|監(jiān)測(cè)|魯棒性|系統(tǒng)性安全模型對(duì)?評(píng)測(cè):從安全與倫理?度審視模型傾向模型對(duì)?評(píng)測(cè):模型在多?程度上有傾向造成極端傷害,應(yīng)確認(rèn)在?泛的場(chǎng)景中能按預(yù)期運(yùn)?,在可能的情況下應(yīng)檢查內(nèi)部?作原理?!駠?guó)際近年陸續(xù)提出:1)?津TruthfulQA基準(zhǔn),評(píng)估LLM輸出的事實(shí)準(zhǔn)確性;2)Anthropic的Helpful,Honest,Harmless(HHH)基準(zhǔn),通過(guò)有爭(zhēng)議的社會(huì)問(wèn)題評(píng)估社會(huì)對(duì)?效果;3)斯坦福?學(xué)HELM基準(zhǔn)全?測(cè)試LLM,包括偏?和魯棒性,等等。TruthfulQA

Benchmark(Oxford,

OpenAI,

2021)Helpful,

Harmless,

Honest

(HHH)

Evaluation(Anthropic,

2022)Holistic

Evaluation

of

Language

Models

(HELM)(Stanford,

2023)●國(guó)內(nèi)2023年發(fā)布:1)清華CoAI中??模型安全評(píng)測(cè)平臺(tái),評(píng)估?成式語(yǔ)?模型的安全倫理問(wèn)題;2)智源FlagEval天秤?模型評(píng)測(cè),含中?世界安全和價(jià)值對(duì)?指令評(píng)測(cè);3)阿?巴巴CValues基準(zhǔn),?向中??模型的價(jià)值觀評(píng)估與對(duì)?研究,等等。中??模型安全評(píng)測(cè)平臺(tái)(清華CoAI,

2023)FlagEval天秤?模型評(píng)測(cè)(智源,

2023)CValues基準(zhǔn)(阿?巴巴,

2023)然?,?前的研究尚屬初步,?多限于對(duì)輸出?本的評(píng)測(cè)。構(gòu)建全?的對(duì)?評(píng)測(cè)具有挑戰(zhàn)性,實(shí)現(xiàn)更好的對(duì)?評(píng)測(cè)覆蓋可以從?度、針對(duì)性、理解泛化、機(jī)制可解釋性、?主性等?度??。37●三

前沿?模型的安全技術(shù):對(duì)?|監(jiān)測(cè)|魯棒性|系統(tǒng)性安全可解釋性:為?險(xiǎn)監(jiān)測(cè)提供“讀?術(shù)”,并可?泛促進(jìn)安全和對(duì)?我們希望能理解的前沿?模型通常可能不具備內(nèi)在可解釋的架構(gòu),在這種情況下采?事后可解釋性?法,以下為其中兩種。●機(jī)制可解釋性

(Mechanistic

Interpretability):是對(duì)神經(jīng)?絡(luò)進(jìn)?逆向?程的研究,它試圖理解在每?層實(shí)現(xiàn)的精確算法及其產(chǎn)?的表?,以了解它們的?作原理。其主要?jiǎng)訖C(jī)是把深度學(xué)習(xí)當(dāng)作?然科學(xué)來(lái)理解。?前,Anthropic是該研究?向的最主要推動(dòng)者之?。神經(jīng)元語(yǔ)義的疊加

(Superposition)

現(xiàn)象(Anthropic,

2022)?字典學(xué)習(xí)解決疊加現(xiàn)象的挑戰(zhàn)(Anthropic,

2023)?動(dòng)化回路發(fā)現(xiàn)(UCL

and

Cambridge

and

FAR,

2023)●概念可解釋性

(Concept-Based

Interpretability):側(cè)重于使??類可理解的概念來(lái)解釋神經(jīng)?絡(luò)決策,如對(duì)模型權(quán)重或激活值中存儲(chǔ)的知識(shí)和概念進(jìn)?定位、讀取和修改等。其主要?jiǎng)訖C(jī)是探究?類能從復(fù)雜的神經(jīng)?絡(luò)中具體學(xué)到什么,例如DeepMind對(duì)AlphaZero的探討。38?監(jiān)督潛在知識(shí)發(fā)現(xiàn)(UC

Berkeley

and

PKU,

2022)表??程(Center

for

AI

Safety

etc.,

2023)三

前沿?模型的安全技術(shù):對(duì)?|監(jiān)測(cè)|魯棒性|系統(tǒng)性安全魯棒性研究:如何抵御對(duì)抗攻擊和異常情況?對(duì)抗魯棒性:如何抵御經(jīng)過(guò)特殊擾動(dòng)的模型輸?,從?避免產(chǎn)?異常?為?●過(guò)去?年,領(lǐng)域內(nèi)發(fā)表了數(shù)千篇與對(duì)抗魯棒性相關(guān)的論??!袢?,對(duì)抗魯棒性問(wèn)題尚未解決,仍然出現(xiàn)在最前沿的AI系統(tǒng)中(包括

語(yǔ)?模型、視覺(jué)模型、AI?主體

等)。分布外泛化魯棒性:如何保證模型在分布遷移(尤其是在?概率事件)下還能夠表現(xiàn)良好?近?年數(shù)千篇對(duì)抗魯棒性預(yù)印本/論?上傳到arXiv?動(dòng)化搜索越獄提?攻擊GPT-4,

Claude,

PaLM等模型(CMU,

CAIS,

2023)RobustBench評(píng)測(cè)基準(zhǔn)顯?視覺(jué)模型上的對(duì)抗魯棒性尚未解決39即使是“超?”圍棋系統(tǒng),也經(jīng)不起“傻?”對(duì)抗策略攻擊(MIT,FAR.AI,

UC

Berkeley,

2023)DecodingTrust評(píng)測(cè)基準(zhǔn)包含語(yǔ)?模型對(duì)抗魯棒性和分布外泛化魯棒性評(píng)測(cè)(UIUC,

Stanford,

UC

Berkeley,

2023)三

前沿?模型的安全技術(shù):對(duì)?|監(jiān)測(cè)|魯棒性|系統(tǒng)性安全越獄提?:前沿?模型的新興魯棒性挑戰(zhàn)越獄提?,指的是?種針對(duì)LLM特殊設(shè)計(jì)的提?輸?,?于誘導(dǎo)模型輸出有害內(nèi)容或者隱私信息。由于LLM的?本輸出特性,越獄提?可能會(huì)給前沿?模型的安全造成新的挑戰(zhàn)。精?設(shè)計(jì)但簡(jiǎn)單的提?輸?誘導(dǎo)模型輸出有害內(nèi)容(Liu

et

al.,

2023)越獄提?可能來(lái)源于?標(biāo)沖突和安全訓(xùn)練上的泛化失敗(Wei

et

al.,

2023)?動(dòng)化越獄提??法可能加劇這?現(xiàn)象(如:GCG、AutoDAN等)有視覺(jué)模態(tài)輸?的?模型對(duì)于攻擊可能更加脆弱(如:清華朱軍團(tuán)隊(duì)攻破GPT-4V、Carlini

et

al.,

2023、Emmons

et

al.,

2023)對(duì)于越獄提?,已經(jīng)出現(xiàn)防御的基線?法和嘗試(如:Baseline

Defenses、SmoothLLM等)40三

前沿?模型的安全技術(shù):對(duì)?|監(jiān)測(cè)|魯棒性|系統(tǒng)性安全AI改進(jìn)?絡(luò)防御:前沿?模型如何影響攻防對(duì)抗??乎每?項(xiàng)重?技術(shù)發(fā)明都會(huì)相應(yīng)引發(fā)雙重?途的困境。Google等12家機(jī)構(gòu)的發(fā)布報(bào)告,總結(jié)了由Google、Stanford和UW-Madison聯(lián)合舉辦的研討會(huì)對(duì)于?成式AI對(duì)攻防對(duì)抗所造成的影響?!?成式AI對(duì)攻防對(duì)抗所造成的影響:○○?成式AI增強(qiáng)的攻擊能?可能包括:“?絡(luò)釣?”攻擊更加逼真、?絡(luò)攻擊的規(guī)模、效?和隱蔽性激增、?成??可能過(guò)度依賴錯(cuò)誤信息、給弱勢(shì)群體提供不良的建議、?成影響其他模型的訓(xùn)練數(shù)據(jù)的不良數(shù)據(jù)、不確定性的涌現(xiàn)能?等。圍繞?成式AI構(gòu)建的防御可能包括:檢測(cè)?模型?成內(nèi)容的檢測(cè)器、為?成模型?泛添加?印的系統(tǒng)、代碼分析和?動(dòng)化滲透測(cè)試以加固系統(tǒng)、多模態(tài)分析以進(jìn)?更穩(wěn)健的檢測(cè),以及?類與AI更好地分?協(xié)作等。●●攻擊者已開(kāi)始使??成式AI,防御者絕不能“措?不及”,研討會(huì)提出?系列研究?標(biāo),后續(xù)研究和討論提供了?個(gè)起點(diǎn):○○短期:應(yīng)對(duì)?模型的代碼能?進(jìn)?全?分析、確保?模型的代碼?成符合安全編碼實(shí)踐、創(chuàng)建最先進(jìn)的攻擊和防御的數(shù)據(jù)庫(kù);?期:應(yīng)為充滿AI的世界開(kāi)發(fā)“多道防線”、降低?成式AI研究的進(jìn)?壁壘、探索多元價(jià)值對(duì)?、擴(kuò)?從事先進(jìn)AI系統(tǒng)?作的?員范圍、更好地將?成式AI與更真實(shí)正確的知識(shí)來(lái)源相聯(lián)系等。其他相關(guān)研究還包括:SecurityLLM(Ferrag

etal.,

2023)Exploring

LLM-based

General

Bug

Reproduction(Kang

etal.,

2022)41三

前沿?模型的安全技術(shù):對(duì)?|監(jiān)測(cè)|魯棒性|系統(tǒng)性安全合作性AI+多主體安全研究等:應(yīng)對(duì)多?互動(dòng)?險(xiǎn)即使單個(gè)智能體的?為合理且安全,不代表在多智能體情形下依然合理且安全?!裨蛟谟冢骸?)博弈/競(jìng)爭(zhēng)動(dòng)機(jī)(例如囚徒困境、公地悲劇);2)協(xié)作能?缺失(這也是多智能體強(qiáng)化學(xué)習(xí)研究的動(dòng)機(jī)之?);3)或兩者同時(shí)出現(xiàn)?!駥W(xué)術(shù)界已提出合作性AI相關(guān)研究○Dafoe等(2020)提出CooperativeAI(合作性AI),核??標(biāo)包括構(gòu)建具有合作所需能?

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論