版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
執(zhí)?摘要執(zhí)?摘要前沿??智能安全已成為全球和中國(guó)重點(diǎn)關(guān)注的議題2023年10?18?,習(xí)近平主席在第三屆“?帶?路”國(guó)際合作?峰論壇開(kāi)幕式主旨演講中宣布中?將提出《全球??智能治理倡議》1,重申各國(guó)應(yīng)在??智能治理中加強(qiáng)信息交流和技術(shù)合作,共同做好?險(xiǎn)防范,形成具有?泛共識(shí)的??智能治理框架和標(biāo)準(zhǔn)規(guī)范,不斷提升??智能技術(shù)的安全性、可靠性、可控性、公平性。2023年10?26?,聯(lián)合國(guó)秘書(shū)?古特雷斯宣布,聯(lián)合國(guó)正式組建?個(gè)新的“??智能?級(jí)別咨詢(xún)機(jī)構(gòu)”2,以探討這項(xiàng)技術(shù)帶來(lái)的?險(xiǎn)和機(jī)遇,并為國(guó)際社會(huì)加強(qiáng)治理提供?持。2023年11?1?,中國(guó)、美國(guó)在內(nèi)的28個(gè)國(guó)家和歐盟,共同簽署了《布萊切利??智能安全宣?》3,?致認(rèn)為前沿??智能技術(shù)可能會(huì)引發(fā)巨??險(xiǎn),尤其是在?絡(luò)安全、?物技術(shù)和加劇傳播虛假信息等??。此前的2023年4?28?,中共中央政治局會(huì)議明確提出,要重視通???智能發(fā)展,營(yíng)造創(chuàng)新?態(tài),重視防范?險(xiǎn)4。2023年7?10?,國(guó)家?信辦等七部?聯(lián)合公布《?成式??智能服務(wù)管理暫?辦法》5。隨著前沿??智能的快速發(fā)展,按照《關(guān)于加強(qiáng)科技倫理治理的意678?》
、《新?代??智能治理原則》
、《新?代??智能倫理規(guī)范》
等治理?件,社會(huì)應(yīng)積極落實(shí)對(duì)更?級(jí)??智能的潛在?險(xiǎn)研判和防范,確保??智能安全可靠可控,推動(dòng)經(jīng)濟(jì)、社會(huì)及?態(tài)可持續(xù)發(fā)展。1
中央?信辦,
“全球??智能治理倡議”,
2023-10-18,/????-??/??/c_????????????????.htm.2
聯(lián)合國(guó),
“秘書(shū)?組建?級(jí)別咨詢(xún)機(jī)構(gòu),全球39名專(zhuān)家共商??智能治理”,
2023-10-26,/zh/story/????/??/???????.3
UK
Government,
“Countries
agree
to
safe
and
responsible
development
of
frontier
AI
in
landmarkBletchley
Declaration”,
2023-11-01,.uk/government/news/countries-agree-to-safe-and-responsible-development-of-frontier-ai-in-landmark-bletchley-declaration.4
新華社,
“中共中央政治局召開(kāi)會(huì)議
分析研究當(dāng)前經(jīng)濟(jì)形勢(shì)和經(jīng)濟(jì)?作
中共中央總書(shū)記習(xí)近平主持會(huì)議”,2023-04-28,
/yaowen/????-??/??/content_???????.htm5
國(guó)家?信辦等七部?,
“?成式??智能服務(wù)管理暫?辦法”,
2023-07-10,/zhengce/zhengceku/??????/content_???????.htm.6
中共中央辦公廳、國(guó)務(wù)院辦公廳,
“關(guān)于加強(qiáng)科技倫理治理的意?”,
2022-03-20,/zhengce/????-??/??/content_???????.htm.7
國(guó)家新?代??智能治理專(zhuān)業(yè)委員會(huì),
“新?代??智能治理原則?發(fā)展負(fù)責(zé)任的??智能”,
2019-06-17,/kjbgz/??????/t????????_??????.html.8
國(guó)家新?代??智能治理專(zhuān)業(yè)委員會(huì),
“新?代??智能倫理規(guī)范”,
2021-09-25,/kjbgz/??????/t????????_??????.html.I前沿??智能安全的最佳實(shí)踐推動(dòng)前沿??智能安全的?作刻不容緩GPT-?等前沿?模型展現(xiàn)出強(qiáng)?的涌現(xiàn)能?,在多領(lǐng)域逼近?類(lèi)?平。同時(shí),?模型為多個(gè)技術(shù)?向帶來(lái)新的發(fā)展空間,包括多模態(tài)、?主智能體、科學(xué)發(fā)現(xiàn)等能?。模型能?在未來(lái)?年內(nèi)仍存在數(shù)量級(jí)進(jìn)步的空間。In?ection在未來(lái)18個(gè)?內(nèi)將使??當(dāng)前前沿模型GPT-??100倍的計(jì)算量。Anthropic預(yù)計(jì)在未來(lái)的5年??于訓(xùn)練最?模型的計(jì)算量將增加約1000倍。由于?模型的涌現(xiàn)能?9,這些更先進(jìn)??智能系統(tǒng)所帶來(lái)的機(jī)遇和?險(xiǎn)具有巨?不確定性。短期內(nèi),社會(huì)需要積極預(yù)防??智能所帶來(lái)的?絡(luò)安全、?物安全和虛假信息的濫??險(xiǎn)。與此同時(shí),??智能正獲得越來(lái)越強(qiáng)的社交操縱、欺騙和戰(zhàn)略規(guī)劃等潛在危險(xiǎn)能?,未來(lái)先進(jìn)的?主??智能系統(tǒng)將帶來(lái)前所未有的控制挑戰(zhàn)。?對(duì)科技倫理和公共安全的重??險(xiǎn),社會(huì)應(yīng)該具備底線(xiàn)思維,凡事從最壞處準(zhǔn)備,努?爭(zhēng)取最好的結(jié)果。全球??智能安全峰會(huì)中討論了應(yīng)對(duì)潛在?險(xiǎn)的??智能安全級(jí)別(ASL)框架,參考了處理危險(xiǎn)?物材料的?物安全級(jí)別(BSL)標(biāo)準(zhǔn)10,基本思想是要求與模型潛在?險(xiǎn)相適應(yīng)的安全、安保和操作標(biāo)準(zhǔn),更?的ASL級(jí)別需要越來(lái)越嚴(yán)格的安全證明。預(yù)計(jì)未來(lái)半年內(nèi),我國(guó)多個(gè)前沿?模型將達(dá)到或突破GPT-?性能,達(dá)到ASL-?能?級(jí)別11。確保相適應(yīng)的安全標(biāo)準(zhǔn),?業(yè)?律和政府監(jiān)管缺?不可。本報(bào)告?求促進(jìn)前沿??智能安全的中國(guó)?案和實(shí)踐落地1.
本報(bào)告的討論范圍本報(bào)告聚焦的“前沿??智能(Frontier
AI)”,是指?能?的通?AI模型,能執(zhí)??泛的任務(wù),并達(dá)到或超過(guò)當(dāng)今最先進(jìn)模型的能?,最常?的是基礎(chǔ)模型。前沿??智能提供了最多的機(jī)遇但也帶來(lái)了新的?險(xiǎn)。本報(bào)告提供了前沿??智能機(jī)構(gòu)潛在的最佳實(shí)踐清單,以及?向中國(guó)機(jī)構(gòu)的研發(fā)實(shí)踐案例與政策制定指南。這些是經(jīng)過(guò)?泛研究后收集的,考慮到這項(xiàng)技術(shù)的新興性質(zhì),需要定期更新。安全過(guò)程并未按重要性順序列出,?是按主題進(jìn)?總結(jié),以便讀者能夠理解、解釋和?較前沿機(jī)構(gòu)的安全政策,及其在國(guó)內(nèi)的適?性。本報(bào)告參考了各個(gè)前沿??智能機(jī)構(gòu)公布的最佳實(shí)踐、英國(guó)政府《前沿??智能安全的新興流程》、國(guó)內(nèi)外相關(guān)政策法規(guī)等多份參考資料(詳?附錄A)。9
Jason
Wei
et
al.,
“Emergent
Abilities
of
Large
Language
Models”,
2022-08-31,/forum?id=yzkSU?zdwD.10
Wikipedia,
“Biosafety
Level”,
2023-11-20,
/wiki/Biosafety_level.11
Anthropic,
“Anthropic's
Responsible
Scaling
Policy”,
2023-09-19,https://www-?/production/?les/responsible-scaling-policy-?.?.pdf.II執(zhí)?摘要本報(bào)告參考了全球??智能安全峰會(huì)的討論范圍設(shè)定12,??書(shū)13得到圖靈獎(jiǎng)得主Yoshua
Bengio等專(zhuān)家的建議。2.
本報(bào)告的適?對(duì)象本報(bào)告是為中國(guó)領(lǐng)先的??智能技術(shù)研發(fā)機(jī)構(gòu)和政策研究機(jī)構(gòu)編寫(xiě)的,以幫助他們更好地了解前沿??智能安全的實(shí)踐和政策。我們?勵(lì)這些機(jī)構(gòu)參考國(guó)際同?經(jīng)驗(yàn),結(jié)合國(guó)內(nèi)實(shí)際情況,在實(shí)現(xiàn)負(fù)責(zé)任??智能的過(guò)程中,提升從原則到實(shí)踐、技術(shù)與治理相結(jié)合的能?。雖然可能有?些實(shí)踐與多種類(lèi)型的??智能機(jī)構(gòu)相關(guān),但負(fù)責(zé)任擴(kuò)展策略等?部分實(shí)踐是專(zhuān)?為前沿??智能,?不是為能?以及?險(xiǎn)較低的??智能設(shè)計(jì)的。我們歡迎前沿??智能機(jī)構(gòu),根據(jù)其獨(dú)特的模型特性、開(kāi)發(fā)和應(yīng)?環(huán)境以及潛在?險(xiǎn),?主制定符合??情況的負(fù)責(zé)任??智能實(shí)踐。當(dāng)前許多??智能研發(fā)機(jī)構(gòu)的運(yùn)營(yíng)?險(xiǎn)較低,預(yù)計(jì)不會(huì)考慮采取如此?系列的實(shí)踐措施。這符合我們對(duì)??智能?險(xiǎn)采取相稱(chēng)性治理和促進(jìn)創(chuàng)新?法的理念。但前沿??智能研發(fā)機(jī)構(gòu)在促進(jìn)前沿??智能安全開(kāi)發(fā)和部署??發(fā)揮的重要作?,也將使包括?前沿機(jī)構(gòu)在內(nèi)的更?泛的??智能?態(tài)系統(tǒng)受益。因此,隨著最佳實(shí)踐的不斷出現(xiàn),我們希望確保中?型機(jī)構(gòu)也能參與??智能安全的對(duì)話(huà)。12
UK
Government,
“AI
Safety
Summit:
introduction”,
2023-10-31,.uk/government/publications/ai-safety-summit-introduction/ai-safety-summit-introduction-html.13
UK
Government
Department
for
Science,
Innovation
&
Technology,
“Capabilities
and
risks
from
frontierAI:
A
discussion
paper
on
the
need
for
further
research
into
AI
risk”,
2023-11-01,.uk/media/?????abae?c??????daa?b??/frontier-ai-capabilities-risks-report.pdf.III前沿??智能安全的最佳實(shí)踐3.
本報(bào)告的使?建議本報(bào)告概述了當(dāng)今??智能安全領(lǐng)域的前瞻想法、新興流程和相關(guān)實(shí)踐。其?的是作為前沿??智能機(jī)構(gòu)安全政策制定的參考和指南。我們歡迎對(duì)報(bào)告內(nèi)容進(jìn)?全?的討論與批評(píng),也?勵(lì)中國(guó)機(jī)構(gòu)分享實(shí)踐案例,協(xié)助我們不斷優(yōu)化和更新這些最佳實(shí)踐,并在此基礎(chǔ)上形成可以向國(guó)際推?的中國(guó)實(shí)踐!前沿??智能安全是?個(gè)持續(xù)演進(jìn)的領(lǐng)域,因此最佳實(shí)踐也將不斷發(fā)展,這?發(fā)展將依賴(lài)于政府與更?泛的??智能?態(tài)系統(tǒng)之間的對(duì)話(huà)和相關(guān)研究進(jìn)展。?些有價(jià)值的實(shí)踐措施本報(bào)告尚未納?,?已納?的?些實(shí)踐措施最終也可能被證明在技術(shù)上不可?。因此,本報(bào)告并不是關(guān)于前沿??智能安全的最終?案。我們期待隨著??智能安全研究的發(fā)展,??智能領(lǐng)域進(jìn)?步推出新的最佳實(shí)踐。4.
本報(bào)告的最佳實(shí)踐實(shí)現(xiàn)前沿??智能的有效?險(xiǎn)管理需要?系列?險(xiǎn)識(shí)別和緩解措施,本報(bào)告列出了前沿??智能機(jī)構(gòu)關(guān)于??智能安全政策的9項(xiàng)最佳實(shí)踐,其中包括許多領(lǐng)先??智能機(jī)構(gòu)在2023年7?承諾的6項(xiàng)措施14:1)
模型評(píng)測(cè)和紅隊(duì)測(cè)試(Model
evaluations
and
red
teaming)
可以幫助評(píng)估??智能模型帶來(lái)的?險(xiǎn),并為有關(guān)訓(xùn)練、保護(hù)和部署模型的更好決策提供信息。隨著前沿??智能模型的開(kāi)發(fā)和部署,新的能?和?險(xiǎn)可能會(huì)出現(xiàn),因此在整個(gè)??智能?命周期中對(duì)多種?險(xiǎn)來(lái)源和潛在負(fù)?影響進(jìn)?模型評(píng)測(cè)?關(guān)重要。由受信任的第三?評(píng)測(cè)進(jìn)?的外部評(píng)測(cè)也可以幫助驗(yàn)證研發(fā)機(jī)構(gòu)對(duì)其前沿??智能系統(tǒng)安全性的聲明。2)
優(yōu)先研究??智能帶來(lái)的?險(xiǎn)(Prioritising
research
on
risks
posed
by
AI)
將有助于識(shí)別和解決前沿??智能帶來(lái)的新興?險(xiǎn)。前沿??智能機(jī)構(gòu)有特殊的責(zé)任和能?來(lái)進(jìn)???智能安全研究,?泛分享他們的研究成果,并投資于開(kāi)發(fā)?具來(lái)應(yīng)對(duì)這些?險(xiǎn)。與外部研究?員、獨(dú)?研究機(jī)構(gòu)和第三?數(shù)據(jù)所有者的合作也將對(duì)評(píng)估系統(tǒng)的潛在下游社會(huì)影響?關(guān)重要。3)
含保護(hù)模型權(quán)重在內(nèi)的安全控制(Security
controls
including
securing
modelweights)
是??智能系統(tǒng)安全的關(guān)鍵?撐。如果沒(méi)有安全地開(kāi)發(fā)和部署,??智能模型就有可能在重要的安全措施得到應(yīng)?之前就?臨被盜或泄露秘密或敏感數(shù)據(jù)的?險(xiǎn)。為避免危及安全或敏感數(shù)據(jù),考慮??智能系統(tǒng)以及獨(dú)?模型的?絡(luò)安全,并在14
The
White
House,
“FACT
SHEET:
Biden-Harris
Administration
Secures
Voluntary
Commitments
fromLeading
Arti?cial
Intelligence
Companies
to
Manage
the
Risks
Posed
by
AI”,
2023-07-21,/brie?ng-room/statements-releases/????/??/??/fact-sheet-biden-harris-administration-secures-voluntary-commitments-from-leading-arti?cial-intelligence-companies-to-manage-the-risks-posed-by-ai/.IV執(zhí)?摘要整個(gè)??智能?命周期中實(shí)施?絡(luò)安全流程尤為重要,特別是當(dāng)該組件是其他系統(tǒng)的基礎(chǔ)時(shí)。4)
漏洞報(bào)告機(jī)制(Reporting
structure
for
vulnerabilities)
使外部?員能夠識(shí)別??智能系統(tǒng)中的安全問(wèn)題。這類(lèi)似于通常針對(duì)軟件和IT基礎(chǔ)設(shè)施中的漏洞設(shè)?的“漏洞賞?計(jì)劃”。具體實(shí)踐?式包括建??個(gè)漏洞管理流程,涵蓋許多漏洞(例如越獄和提?注?攻擊),并具有清晰易?的流程來(lái)接收漏洞報(bào)告。5)
??智能?成材料的標(biāo)識(shí)信息(Identi?ers
of
AI-generated
material)
提供有關(guān)內(nèi)容是否由??智能?成或修改的附加信息。這有助于防???智能?成的欺騙性?xún)?nèi)容的創(chuàng)建和傳播。投資于開(kāi)發(fā)識(shí)別??智能?成內(nèi)容的技術(shù),以及探索對(duì)各種擾動(dòng)具有魯棒性的?印技術(shù)和??智能?成內(nèi)容數(shù)據(jù)庫(kù)等?法相當(dāng)重要,且已有?個(gè)新興領(lǐng)域在開(kāi)展對(duì)此的研究實(shí)踐。6)
模型報(bào)告和信息共享(Model
reporting
and
information
sharing)
提?了政府對(duì)前沿??智能開(kāi)發(fā)和部署的可?性。信息共享還使??能夠就是否以及如何使???智能系統(tǒng)做出明智的選擇。實(shí)踐措施涉及與不同?(包括政府、其他前沿??智能機(jī)構(gòu)、獨(dú)?第三?和公眾)共享有關(guān)其內(nèi)部流程、安全和安保事件,以及特定??智能系統(tǒng)的不同信息。然?,前沿??智能的?險(xiǎn)管理可能需要在已有的承諾措施之外采取更多措施。我們建議的另外3個(gè)實(shí)踐措施包括:7)
防?和監(jiān)測(cè)模型濫?(Preventing
and
monitoring
model
misuse)
是前沿??智能安全的重要?環(huán)。因?yàn)?旦部署,??智能系統(tǒng)可能會(huì)被故意濫?,造成有害結(jié)果。相應(yīng)的實(shí)踐措施包括建?流程識(shí)別和監(jiān)測(cè)模型濫?,以及實(shí)施?系列防范措施,并隨著時(shí)間的推移不斷審查其有效性和可取性??紤]到濫?前沿??智能可能帶來(lái)的嚴(yán)重?險(xiǎn),還應(yīng)當(dāng)按最壞情景做好準(zhǔn)備以應(yīng)對(duì)潛在的濫?情況。8)
數(shù)據(jù)輸?控制和審核(Data
input
controls
and
audits)
可以幫助識(shí)別和刪除可能增加前沿??智能系統(tǒng)所擁有的危險(xiǎn)能?或帶來(lái)?險(xiǎn)的訓(xùn)練數(shù)據(jù)。實(shí)施負(fù)責(zé)任的數(shù)據(jù)收集和清理有助于在收集之前提?訓(xùn)練數(shù)據(jù)的質(zhì)量。對(duì)訓(xùn)練數(shù)據(jù)的仔細(xì)審核,?論是前沿??智能機(jī)構(gòu)本?還是外部參與?,也可以實(shí)現(xiàn)識(shí)別訓(xùn)練數(shù)據(jù)集中潛在有害或不可取的數(shù)據(jù)的?標(biāo)。這可以為后續(xù)的緩解措施提供信息,例如刪除這些數(shù)據(jù)。9)
負(fù)責(zé)任擴(kuò)展策略(Responsible
Scaling
Policy,
RSP)
為前沿??智能機(jī)構(gòu)在擴(kuò)展其前沿??智能系統(tǒng)的能?時(shí)提供了?個(gè)管理?險(xiǎn)的框架。它使機(jī)構(gòu)能夠在未來(lái)潛在的更危險(xiǎn)的??智能?險(xiǎn)發(fā)?之前做好相應(yīng)準(zhǔn)備,并管理與當(dāng)前系統(tǒng)相關(guān)的?險(xiǎn)。實(shí)踐措V前沿??智能安全的最佳實(shí)踐施包括進(jìn)?徹底的?險(xiǎn)評(píng)估、預(yù)先指定?險(xiǎn)閾值并承諾在每個(gè)閾值處采取具體的緩解措施,并準(zhǔn)備在這些緩解措施未到位時(shí)暫停開(kāi)發(fā)或部署。VI執(zhí)?摘要實(shí)踐索引實(shí)踐類(lèi)別重點(diǎn)案例和延伸閱讀模型評(píng)測(cè)和紅隊(duì)測(cè)試Model
evaluationsand
red
teaming重點(diǎn)案例●●清華?學(xué)基礎(chǔ)模型研究中?:發(fā)布SafetyBench和AlignBench等評(píng)測(cè)基準(zhǔn)上海??智能實(shí)驗(yàn)室:開(kāi)展OpenCompass、安全評(píng)測(cè)及紅隊(duì)測(cè)試等評(píng)測(cè)?作延伸閱讀●●●●●Anthropic:前沿威脅紅隊(duì)測(cè)試分享在?物?險(xiǎn)項(xiàng)?的發(fā)現(xiàn)、教訓(xùn)以及未來(lái)計(jì)劃OpenAI:GPT-?/GPT-?V提供了完整和具體的實(shí)例?歌DeepMind等機(jī)構(gòu):聯(lián)合發(fā)布極端?險(xiǎn)的模型評(píng)測(cè)框架DEF
CON
31:設(shè)置了有史以來(lái)最?規(guī)模的AI模型紅隊(duì)挑戰(zhàn)賽北京、上海和?東:發(fā)布通???智能或?模型規(guī)劃,提出倫理和安全評(píng)測(cè)要求優(yōu)先研究??智能帶來(lái)的?險(xiǎn)重點(diǎn)案例●●OpenAI:20%算?投?超級(jí)對(duì)?(Superalignment)研究Prioritising
researchAnthropic:對(duì)多元化和經(jīng)驗(yàn)驅(qū)動(dòng)的AI安全?法最為樂(lè)觀(guān)on
risks
posed
by
AI
延伸閱讀●●●?歌DeepMind:積極投資更?泛的AI安全研究和?態(tài)建設(shè)國(guó)內(nèi)外頂尖科學(xué)家:多次呼吁30%以上的研發(fā)投??于A(yíng)I安全研究國(guó)內(nèi)/華?團(tuán)隊(duì):在?模型安全??已開(kāi)展了?系列的研究含保護(hù)模型權(quán)重在內(nèi)的安全控制重點(diǎn)案例Anthropic:主張加強(qiáng)前沿??智能研發(fā)機(jī)構(gòu)的?絡(luò)安全,并呼吁政府加強(qiáng)監(jiān)管延伸閱讀●Security
controlsincluding
securingmodel
weights●●●微軟:整體出?,但還可通過(guò)多?授權(quán)等機(jī)制對(duì)保護(hù)模型權(quán)重做出更?承諾亞?遜:核?亮點(diǎn)是其數(shù)據(jù)中?的物理安全中國(guó)國(guó)務(wù)院:發(fā)布《關(guān)鍵信息基礎(chǔ)設(shè)施安全保護(hù)條例》漏洞報(bào)告機(jī)制重點(diǎn)案例Reporting
structurefor
vulnerabilities●微軟:協(xié)同漏洞披露領(lǐng)域的?業(yè)領(lǐng)導(dǎo)者延伸閱讀●●?歌DeepMind:認(rèn)為“部署后監(jiān)測(cè)”和“報(bào)告漏洞和濫?”密切相關(guān)中國(guó)?信部、?信辦、公安部:聯(lián)合發(fā)布《?絡(luò)產(chǎn)品安全漏洞管理規(guī)定》VII前沿??智能安全的最佳實(shí)踐實(shí)踐類(lèi)別重點(diǎn)案例和延伸閱讀重點(diǎn)案例??智能?成材料的標(biāo)識(shí)信息●Meta:致?于提升?成式??智能的透明度Identi?ers
ofAI-generatedmaterial延伸閱讀●●●?歌DeepMind:技術(shù)?段結(jié)合產(chǎn)品設(shè)計(jì)和治理政策阿?巴巴:采取三種?式加強(qiáng)使?者的權(quán)益和內(nèi)容的知識(shí)產(chǎn)權(quán)保障全國(guó)信安標(biāo)委:發(fā)布《?成式??智能服務(wù)內(nèi)容標(biāo)識(shí)?法(征求意?稿)》模型報(bào)告和信息共享Model
reportingand
informationsharing重點(diǎn)案例●暫時(shí)空缺:根據(jù)我們?前的理解,尚沒(méi)有好的最佳實(shí)踐延伸閱讀●●國(guó)際:已有信息共享或報(bào)告的政府要求和?愿承諾,待進(jìn)?步觀(guān)察企業(yè)執(zhí)?情況中國(guó):《??智能?范法(專(zhuān)家建議稿)》提出負(fù)?清單制度防?和監(jiān)測(cè)模型濫?Preventing
andmonitoring
modelmisuse重點(diǎn)案例●微軟:加強(qiáng)AI紅隊(duì)建設(shè),對(duì)接標(biāo)準(zhǔn)和流程,對(duì)?并擴(kuò)展了?愿承諾延伸閱讀●●●In?ection:強(qiáng)調(diào)實(shí)時(shí)監(jiān)測(cè)、快速響應(yīng)以及使?先進(jìn)系統(tǒng)來(lái)檢測(cè)和應(yīng)對(duì)模型濫???智能合作伙伴關(guān)系(PAI):提供了可操作性的《安全基礎(chǔ)模型部署指南》關(guān)于前沿模型開(kāi)源的爭(zhēng)論:審慎開(kāi)源
vs
?勵(lì)開(kāi)放數(shù)據(jù)輸?控制和審核Data
input
controlsand
audits重點(diǎn)案例●OpenAI:實(shí)施多重控制,允許內(nèi)容擁有者表達(dá)訓(xùn)練偏好,過(guò)濾潛在問(wèn)題數(shù)據(jù)延伸閱讀●●●●?歌DeepMind:?項(xiàng)值得注意的新政策是研究數(shù)據(jù)的攝取請(qǐng)求全國(guó)信安標(biāo)委:發(fā)布《?成式??智能服務(wù)
安全基本要求》(征求意?稿)上海??智能實(shí)驗(yàn)室聯(lián)合???:成?中國(guó)?模型語(yǔ)料數(shù)據(jù)聯(lián)盟安全治理專(zhuān)委會(huì)北京智源??智能研究院聯(lián)合共建單位:開(kāi)源可信中?互聯(lián)?語(yǔ)料庫(kù)CCI負(fù)責(zé)任擴(kuò)展策略Responsible
ScalingPolicy重點(diǎn)案例●●Anthropic:第?個(gè)發(fā)布負(fù)責(zé)任擴(kuò)展策略的前沿AI企業(yè)OpenAI:發(fā)布近似RSP的“準(zhǔn)備框架測(cè)試版”P(pán)reparedness
?Framework
(Beta)延伸閱讀METR(原ARC
Evals):負(fù)責(zé)任擴(kuò)展策略的框架提出者●VIII?、模型評(píng)測(cè)和紅隊(duì)測(cè)試?、模型評(píng)測(cè)和紅隊(duì)測(cè)試摘要前沿??智能可能會(huì)增加與誤?或?yàn)E?、失控以及其他社會(huì)?險(xiǎn)。?們正在開(kāi)發(fā)多種?法來(lái)評(píng)測(cè)??智能系統(tǒng)及其潛在的負(fù)?影響。模型評(píng)測(cè)(例如基準(zhǔn)測(cè)試)可?于對(duì)??智能系統(tǒng)的能?和其他特征進(jìn)?定量、易于復(fù)制的評(píng)估。紅隊(duì)測(cè)試提供了?種替代?法,即從對(duì)?的?度觀(guān)察??智能系統(tǒng),以了解如何對(duì)其進(jìn)?破壞或?yàn)E?。模型評(píng)測(cè)和紅隊(duì)測(cè)試有助于了解前沿??智能系統(tǒng)帶來(lái)的?險(xiǎn)及其潛在的負(fù)?影響,并幫助前沿??智能機(jī)構(gòu)、監(jiān)管機(jī)構(gòu)和??在訓(xùn)練、保護(hù)和部署這些系統(tǒng)??做出更明智的決策。由于評(píng)測(cè)前沿??智能系統(tǒng)的?法仍在不斷涌現(xiàn),因此,共享有關(guān)這些?法的開(kāi)發(fā)和測(cè)試的信息?常重要。我們概述了關(guān)于模型評(píng)測(cè)和紅隊(duì)測(cè)試的4類(lèi)實(shí)踐措施:1.
針對(duì)多種?險(xiǎn)來(lái)源和潛在負(fù)?影響(包括危險(xiǎn)能?、缺乏可控性、社會(huì)危害和系統(tǒng)安全)對(duì)模型進(jìn)?評(píng)測(cè)2.
在模型整個(gè)?命周期(包括訓(xùn)練和微調(diào)期間和之后以及部署后)的多個(gè)檢查點(diǎn)進(jìn)?模型評(píng)測(cè)和紅隊(duì)測(cè)試3.
允許受信任的外部評(píng)測(cè)?在模型整個(gè)?命周期(尤其是部署前)進(jìn)?模型評(píng)測(cè)4.
?持模型評(píng)測(cè)科學(xué)的進(jìn)步背景了解前沿??智能系統(tǒng)的能?和局限性對(duì)于其有效治理?關(guān)重要。它構(gòu)成了?險(xiǎn)評(píng)估以及最終負(fù)責(zé)任的開(kāi)發(fā)和部署的基礎(chǔ)。在適當(dāng)和安全的情況下分享這些知識(shí),也可以為外部參與?提供必要的透明度。但獲取對(duì)系統(tǒng)能?和局限的認(rèn)知,具有挑戰(zhàn)性。通常情況下,只有在模型部署、被數(shù)百萬(wàn)??使?并集成到下游產(chǎn)品中后才有可能。模型評(píng)測(cè)和紅隊(duì)測(cè)試旨在幫助?們了解這些信息,為負(fù)責(zé)任地開(kāi)發(fā)、部署和使?前沿??智能系統(tǒng)提供依據(jù)。通過(guò)在部署這些模型之前和之后投?更多資源來(lái)獲取相關(guān)信息,開(kāi)發(fā)者和整個(gè)社會(huì)可以更快地了解這些模型的能?和局限性。受信任的外部評(píng)測(cè)有助于驗(yàn)證開(kāi)發(fā)者關(guān)于其前沿??智能系統(tǒng)安全性的聲明。盡管第三?評(píng)測(cè)?前尚處于萌芽階段,但隨著越來(lái)越多的機(jī)構(gòu)采?這?做法,預(yù)計(jì)這個(gè)領(lǐng)域?qū)⒖焖俪?。1前沿??智能安全的最佳實(shí)踐實(shí)踐解讀1.
針對(duì)多種?險(xiǎn)來(lái)源和潛在負(fù)?影響(包括危險(xiǎn)能?、缺乏可控性、社會(huì)危害和系統(tǒng)安全)對(duì)模型進(jìn)?評(píng)測(cè)評(píng)測(cè)模型的潛在危險(xiǎn)能?,即可能因?yàn)E?或事故?造成重?危害的能?。包括但不限于:●●●進(jìn)攻性?絡(luò)能?,例如?成代碼以利?軟件漏洞欺騙和操縱,例如有效地撒謊或說(shuō)服?們采取代價(jià)?昂的?動(dòng)可以幫助??開(kāi)發(fā)、設(shè)計(jì)、獲取或使??物、化學(xué)或放射性武器的能?,例如原本?于藥物發(fā)現(xiàn)的??智能,也可能被?于設(shè)計(jì)有毒分?評(píng)測(cè)模型的可控性問(wèn)題,即以模型的??和開(kāi)發(fā)者都不希望的?式應(yīng)?其能?的傾向。這可能包括?主復(fù)制和適應(yīng)15,即模型在其他計(jì)算機(jī)系統(tǒng)上復(fù)制和運(yùn)???的能?。評(píng)測(cè)模型的社會(huì)危害。這可能包括偏?和歧視(例如模型產(chǎn)?的內(nèi)容可能會(huì)強(qiáng)化有害的刻板印象,或如果?于決策的話(huà),可能會(huì)產(chǎn)?潛在的歧視性影響)。我們也認(rèn)識(shí)到“偏?”可能很難定義,并且在不同語(yǔ)境下會(huì)有不同的解釋。評(píng)測(cè)模型的系統(tǒng)安全防護(hù)(請(qǐng)參閱含保護(hù)模型權(quán)重在內(nèi)的安全控制)。確保流程到位以響應(yīng)評(píng)測(cè)結(jié)果。評(píng)測(cè)是負(fù)責(zé)任擴(kuò)展策略的必要輸?,根據(jù)評(píng)測(cè)結(jié)果可能需要實(shí)施本報(bào)告其他部分的實(shí)踐措施,例如防?模型濫?和信息共享等。2.
在模型整個(gè)?命周期(包括訓(xùn)練和微調(diào)期間和之后以及部署后)的多個(gè)檢查點(diǎn)進(jìn)?模型評(píng)測(cè)和紅隊(duì)測(cè)試在訓(xùn)練前沿模型之前,評(píng)測(cè)前?模型或類(lèi)似模型,以了解相關(guān)屬性(例如危險(xiǎn)能?)如何隨著模型的整體規(guī)模?擴(kuò)展。這些初步評(píng)測(cè)可以為?險(xiǎn)評(píng)估提供信息。在預(yù)訓(xùn)練和微調(diào)期間,評(píng)測(cè)模型可以檢測(cè)不良屬性的跡象并識(shí)別預(yù)訓(xùn)練預(yù)測(cè)中的不準(zhǔn)確之處。這些評(píng)測(cè)可以在各種預(yù)先指定的檢查點(diǎn)進(jìn)?,并可以為是否暫?;蛘{(diào)整訓(xùn)練過(guò)程的決策提供信息。在訓(xùn)練后,對(duì)模型進(jìn)??泛的部署前評(píng)測(cè)。這些評(píng)測(cè)可以為是否部署以及如何部署該系統(tǒng)提供參考,也有助于政府和潛在??對(duì)監(jiān)管或使?該模型做出明智的決策。評(píng)測(cè)的強(qiáng)度將與部署的?險(xiǎn)成正?,需要考慮模型的能?、新穎程度、預(yù)期的使?范圍以及受其影響的?數(shù)。在部署后,定期評(píng)測(cè)新興能?和相關(guān)?險(xiǎn),特別是出現(xiàn)顯著進(jìn)展(例如模型的重?更新)表明早期的評(píng)測(cè)已過(guò)時(shí)的時(shí)候。部署后評(píng)測(cè)可以為更新系統(tǒng)防護(hù)措施、提?模型安全性、臨時(shí)限制訪(fǎng)問(wèn)或回滾部署等決策提供信息。15
安遠(yuǎn)AI,
“ARC
Evals?份公開(kāi)報(bào)告:以現(xiàn)實(shí)的?主任務(wù)評(píng)測(cè)語(yǔ)?模型?主體”,
2023-09-15,/s/nbQwfoVIFM?RVHv?FxkeDQ.2?、模型評(píng)測(cè)和紅隊(duì)測(cè)試要求部署模型的機(jī)構(gòu)進(jìn)?針對(duì)特定場(chǎng)景的模型評(píng)測(cè)。這需要向部署?員提供成功進(jìn)?此類(lèi)評(píng)測(cè)所需的信息和數(shù)據(jù)。3.
允許受信任的外部評(píng)測(cè)?在模型整個(gè)?命周期(尤其是部署前)進(jìn)?模型評(píng)測(cè)受信任的第三?評(píng)測(cè)將使前沿??智能機(jī)構(gòu)能夠利?外部專(zhuān)業(yè)知識(shí),更加“問(wèn)題導(dǎo)向”,并提供更?的問(wèn)責(zé)制。外部評(píng)測(cè)在模型部署前尤其重要,可以為不可逆轉(zhuǎn)的部署決策提供參考。適當(dāng)?shù)姆山ㄗh和保密協(xié)議也可以在與第三?共享信息時(shí)保護(hù)任何市場(chǎng)敏感數(shù)據(jù)。對(duì)于可能涉及國(guó)家安全問(wèn)題的部分評(píng)測(cè),可能需要經(jīng)過(guò)安全審查的官員在安全環(huán)境中進(jìn)?。對(duì)于開(kāi)源模型,鑒于潛在的更?泛的社區(qū)參與,還有進(jìn)?步的獨(dú)?評(píng)測(cè)機(jī)會(huì)。確保評(píng)測(cè)?員是受信任的,并在各種相關(guān)主題和背景中擁有?夠的??智能和專(zhuān)業(yè)知識(shí)。外部評(píng)測(cè)?與前沿??智能機(jī)構(gòu)的關(guān)系可以結(jié)構(gòu)化,以最?限度地減少利益沖突并?勵(lì)判斷的獨(dú)?性。除了??智能的專(zhuān)業(yè)知識(shí)外,評(píng)測(cè)??智能系統(tǒng)的特性還需要許多其他領(lǐng)域的專(zhuān)業(yè)知識(shí)。例如需要涉及公平、?理傷害和災(zāi)難性?險(xiǎn)等?泛領(lǐng)域的專(zhuān)家。確保有適當(dāng)?shù)谋U洗胧?,以?外部評(píng)測(cè)導(dǎo)致模型意外?規(guī)模傳播。允許外部評(píng)測(cè)?將模型下載到??的硬件上會(huì)增加模型被盜或泄露的可能性。因此,除?可以保證有?夠的安全措施來(lái)防?模型?規(guī)模傳播,否則外部評(píng)測(cè)?只能通過(guò)防?滲透的接?(例如API訪(fǎng)問(wèn)?式)來(lái)訪(fǎng)問(wèn)模型??赡苄枰拗圃u(píng)測(cè)者訪(fǎng)問(wèn)那些可能以其他?式間接促進(jìn)模型?規(guī)模傳播的信息,例如需要深?的“了解您的客?”(Know
Your
Customer,
KYC)檢查或?yàn)槟P吞砑?印。給予外部評(píng)測(cè)??夠的時(shí)間。隨著模型預(yù)期?險(xiǎn)的增加或模型評(píng)測(cè)變得更加復(fù)雜,評(píng)測(cè)所需的時(shí)間可能需要相應(yīng)增加。允許外部評(píng)測(cè)?能夠安全地“微調(diào)”被測(cè)試的??智能系統(tǒng)。如果評(píng)測(cè)??法微調(diào)模型,就?法充分評(píng)測(cè)與模型?規(guī)模傳播相關(guān)的?險(xiǎn)。這可能涉及向外部評(píng)測(cè)?提供能夠進(jìn)?微調(diào)的強(qiáng)?基礎(chǔ)設(shè)施。允許外部評(píng)測(cè)?訪(fǎng)問(wèn)缺乏安全緩解措施的模型版本。在可能的情況下,共享這些模型版本可以讓評(píng)測(cè)?深?了解如果??找到?法規(guī)避安全機(jī)制(意味著“越獄”模型),可能產(chǎn)?的?險(xiǎn)。如果模型開(kāi)源、泄露或被盜,??也可以簡(jiǎn)單地刪除或繞過(guò)安全緩解措施。允許外部評(píng)測(cè)?訪(fǎng)問(wèn)模型系列和內(nèi)部指標(biāo)。前沿??智能機(jī)構(gòu)通常會(huì)開(kāi)發(fā)“模型系列”,其中多個(gè)模型僅在1或2個(gè)維度上有所不同,例如參數(shù)、數(shù)據(jù)或訓(xùn)練計(jì)算量。評(píng)測(cè)這樣的模型系列將能夠進(jìn)?擴(kuò)展分析,以更好地預(yù)測(cè)未來(lái)的性能、能?和?險(xiǎn)。在可能的情況下,允許外部評(píng)測(cè)?研究已部署系統(tǒng)的所有組件。已部署的??智能系統(tǒng)通常將核?模型與較?的模型和其他組件相結(jié)合,包括內(nèi)容審核過(guò)濾器、?于激勵(lì)特定???為的??界?以及?于擴(kuò)展能?(如??瀏覽或代碼執(zhí)?)的插件。例如如果紅隊(duì)?法測(cè)試系統(tǒng)3前沿??智能安全的最佳實(shí)踐的所有不同組件,他們就?法發(fā)現(xiàn)系統(tǒng)防御中的所有缺陷。重要的是要在外部評(píng)測(cè)者訪(fǎng)問(wèn)系統(tǒng)所有組件的需求與保護(hù)規(guī)避模型防御信息的需求之間加以平衡。允許評(píng)測(cè)?分享和討論評(píng)測(cè)結(jié)果,必要時(shí)可施加潛在限制,例如不得分享專(zhuān)有信息、傳播可能導(dǎo)致重?危害的信息,或會(huì)對(duì)市場(chǎng)競(jìng)爭(zhēng)產(chǎn)?不利影響的信息。共享評(píng)測(cè)結(jié)果有助于讓政府、監(jiān)管機(jī)構(gòu)、??和其他前沿??智能機(jī)構(gòu)做出明智的決策。4.
?持模型評(píng)測(cè)科學(xué)的進(jìn)步?持模型評(píng)測(cè)?法的開(kāi)發(fā)和測(cè)試。對(duì)于模型的許多相關(guān)屬性,尚不存在公認(rèn)的評(píng)測(cè)?法。當(dāng)前的評(píng)測(cè)?法的可靠性或預(yù)測(cè)能?也仍然不明確。這可能需要前沿??智能機(jī)構(gòu)??開(kāi)發(fā)模型評(píng)測(cè)?法,或促進(jìn)他?的努?,例如通過(guò)提供進(jìn)?評(píng)測(cè)的強(qiáng)?基礎(chǔ)設(shè)施。分享模型評(píng)測(cè)研發(fā)的成果,除?分享結(jié)果可能有害。在某些情況下,研究結(jié)果(例如有關(guān)如何引發(fā)危險(xiǎn)能?的研究)如果被傳播,可能會(huì)造成危害。當(dāng)預(yù)期危害?夠?時(shí),??智能研究社區(qū)、其他前沿??智能機(jī)構(gòu)和相關(guān)政府機(jī)構(gòu)可以從得知他們的?作中受益。重點(diǎn)案例清華?學(xué)基礎(chǔ)模型研究中?:發(fā)布SafetyBench和AlignBench等評(píng)測(cè)基準(zhǔn)清華?學(xué)基礎(chǔ)模型研究中?的SuperBench?語(yǔ)?模型評(píng)測(cè)數(shù)據(jù)集16,包括語(yǔ)義(ExtremeGLUE)、對(duì)?(AlignBench)、代碼(CodeBench)、安全(SafetyBench)、智能體(AgentBench)等多個(gè)評(píng)測(cè)數(shù)據(jù)集。安全(SafetyBench)17,?個(gè)全?地通過(guò)單選題的?式來(lái)評(píng)估?語(yǔ)?模型安全性的中英雙語(yǔ)評(píng)測(cè)基準(zhǔn),依托于?套系統(tǒng)的安全性分類(lèi)體系,以下對(duì)7個(gè)安全維度進(jìn)?了說(shuō)明:●●●攻擊冒犯:包含威脅、辱罵、蔑視、褻瀆、嘲諷、不禮貌等具有攻擊性、冒犯性的?論或者?為,?語(yǔ)?模型需要識(shí)別并反對(duì)此類(lèi)的內(nèi)容和?為。偏?歧視:主要是關(guān)于社會(huì)偏?,例如在性別、種族、宗教等??的偏?與歧視,?語(yǔ)?模型需要識(shí)別與避免包含偏?歧視的表達(dá)和?為。?體健康:主要關(guān)注可能對(duì)?類(lèi)?體健康造成影響的?為或者表達(dá),?語(yǔ)?模型需要了解在各種場(chǎng)景下保持?體健康的正確做法。16
LLMBench,
“SUPERBENCH
FOR
LARGE
LANGUAGE
MODEL”,
2023-12-23,/superbench.17
LLMBench,
“SafetyBench:
Evaluating
the
Safety
of
Large
Language
Models
with
Multiple
ChoiceQuestions”,
2023-09-13,
https://llmbench.ai/safety.4?、模型評(píng)測(cè)和紅隊(duì)測(cè)試●?理健康:和?體健康不同,此維度主要關(guān)注和?理、情緒、?智等??的健康問(wèn)題。?語(yǔ)?模型需要了解保持?理健康的正確?式,并避免對(duì)?類(lèi)?理健康造成危害?!瘛瘛襁`法活動(dòng):主要關(guān)注可能有較?危害的違法活動(dòng)。?語(yǔ)?模型需要能夠區(qū)分違法和合法的?為,并對(duì)法律有基本的認(rèn)知。倫理道德:除了明顯違反法律的?為之外,還有?些?為是不符合倫理道德的。?語(yǔ)?模型需要對(duì)倫理道德有較?層次的認(rèn)知,并反對(duì)不符合倫理的?為和?論。隱私財(cái)產(chǎn):主要關(guān)注和隱私、財(cái)產(chǎn)、投資等相關(guān)的問(wèn)題。?語(yǔ)?模型需要對(duì)隱私財(cái)產(chǎn)相關(guān)的問(wèn)題有?定的理解,并避免讓??的隱私泄露或者財(cái)產(chǎn)受到損失。對(duì)?(AlignBench)18,旨在全?評(píng)測(cè)?模型在中?領(lǐng)域與?類(lèi)意圖的對(duì)?度,通過(guò)模型打分評(píng)測(cè)回答質(zhì)量,衡量模型的指令遵循和有?性,包括8個(gè)維度:●“中?推理”部分重點(diǎn)考察了?模型在中?為基礎(chǔ)的數(shù)學(xué)計(jì)算、邏輯推理??的表現(xiàn)。這?部分主要由從真實(shí)??提問(wèn)中獲取并撰寫(xiě)標(biāo)準(zhǔn)答案,涉及多個(gè)細(xì)粒度領(lǐng)域的評(píng)估。數(shù)學(xué)上,囊括了初等數(shù)學(xué)、?等數(shù)學(xué)和?常計(jì)算等??的計(jì)算和證明。邏輯推理上,則包括了常?的演繹推理、常識(shí)推理、數(shù)理邏輯、腦筋急轉(zhuǎn)彎等問(wèn)題,充分地考察了模型在需要多步推理和常?推理?法的場(chǎng)景下的表現(xiàn)?!瘛爸?語(yǔ)?”部分著重考察?模型在中??字語(yǔ)?任務(wù)上的通?表現(xiàn),包括六個(gè)不同的?向:基本任務(wù)、中?理解、綜合問(wèn)答、?本寫(xiě)作、??扮演、專(zhuān)業(yè)能?。這些任務(wù)中的數(shù)據(jù)?多從真實(shí)??提問(wèn)中獲取,并由專(zhuān)業(yè)的標(biāo)注?員進(jìn)?答案撰寫(xiě)與矯正,從多個(gè)維度充分地反映了?模型在?本應(yīng)???的表現(xiàn)?平。具體來(lái)說(shuō),基本任務(wù)考察了在常規(guī)NLP任務(wù)場(chǎng)景下,模型泛化到??指令的能?;中?理解上,著重強(qiáng)調(diào)了模型對(duì)于中華?族傳統(tǒng)?化和漢字結(jié)構(gòu)淵源的理解;綜合問(wèn)答則關(guān)注模型回答?般性開(kāi)放問(wèn)題時(shí)的表現(xiàn);?本寫(xiě)作則揭?了模型在?字?作者?作中的表現(xiàn)?平;??扮演是?類(lèi)新興的任務(wù),考察模型在??指令下服從???設(shè)要求進(jìn)?對(duì)話(huà)的能?;專(zhuān)業(yè)能?則研究了?模型在專(zhuān)業(yè)知識(shí)領(lǐng)域的掌握程度和可靠性。上海??智能實(shí)驗(yàn)室:開(kāi)展OpenCompass、安全評(píng)測(cè)及紅隊(duì)測(cè)試等評(píng)測(cè)?作圍繞LLM開(kāi)展系列評(píng)測(cè)?作,包括性能評(píng)測(cè)、安全評(píng)測(cè)與紅隊(duì)測(cè)試。18
AlignBench,
“AlignBench:
多維度中?對(duì)?評(píng)測(cè)基準(zhǔn)”,
2023-12-12,/THUDM/AlignBench.5前沿??智能安全的最佳實(shí)踐OpenCompass是實(shí)驗(yàn)室研發(fā)的?套開(kāi)源、?效、全?的開(kāi)源開(kāi)放?模型評(píng)測(cè)體系19。與其它開(kāi)源評(píng)測(cè)?具,如LM
Evaluation
Harness(?于構(gòu)建HF
LeaderBoard)、Helm(斯坦福)和BIG-bench(?歌),共同被Meta公司的Llama團(tuán)隊(duì)推薦作為標(biāo)準(zhǔn)?語(yǔ)?模型評(píng)測(cè)?具20。針對(duì)安全評(píng)測(cè)與紅隊(duì)測(cè)試,實(shí)驗(yàn)室組建包括多學(xué)科專(zhuān)家紅隊(duì),形成全?系統(tǒng)的安全框架和?規(guī)模?質(zhì)量安全數(shù)據(jù),開(kāi)展系列安全評(píng)測(cè)研究,構(gòu)建從評(píng)測(cè)到對(duì)?的LLM綜合能?提升閉環(huán)。作為?向?模型評(píng)測(cè)的?站式平臺(tái),OpenCompass的主要特點(diǎn)為:●●開(kāi)源可復(fù)現(xiàn):提供公平、公開(kāi)、可復(fù)現(xiàn)的?模型評(píng)測(cè)?案。全?的能?維度:包含學(xué)科、語(yǔ)?、知識(shí)、理解、推理和安全六?維度,提供100+個(gè)數(shù)據(jù)集約50萬(wàn)題的模型評(píng)測(cè)?案,全?評(píng)估模型能?。豐富的模型?持:?持100+
HuggingFace
及
API
模型。分布式?效評(píng)測(cè):??命令實(shí)現(xiàn)任務(wù)分割和分布式評(píng)測(cè),數(shù)?時(shí)即可完成千億模型全量評(píng)測(cè)?!瘛瘛瘛穸鄻踊u(píng)測(cè)范式:?持零樣本、?樣本以及思維鏈評(píng)測(cè),結(jié)合標(biāo)準(zhǔn)型或?qū)υ?huà)型提?詞模板,輕松激發(fā)各種模型最?性能。靈活化拓展:?由增加新模型或數(shù)據(jù)集。?持?定義更?級(jí)的任務(wù)分割策略,甚?接?新的集群管理系統(tǒng)。組建多領(lǐng)域跨學(xué)科專(zhuān)家團(tuán)隊(duì),在特定領(lǐng)域?qū)δP瓦M(jìn)?紅隊(duì)測(cè)試,形成?規(guī)模?質(zhì)量對(duì)抗性數(shù)據(jù),做到有針對(duì)性的補(bǔ)?模型短板:●多學(xué)科:組織包含?理學(xué)、倫理學(xué)、社會(huì)學(xué)、公共管理、法學(xué)、傳播學(xué)等上百位專(zhuān)業(yè)領(lǐng)域?員進(jìn)?紅隊(duì)測(cè)試。按照“問(wèn)題集構(gòu)建-模型測(cè)試-打分標(biāo)注-優(yōu)化提升”的邏輯搭建紅隊(duì)測(cè)試?絡(luò),基于測(cè)試結(jié)果輸出紅隊(duì)測(cè)試評(píng)估報(bào)告。?質(zhì)量:構(gòu)建細(xì)粒度?質(zhì)量測(cè)試題集,針對(duì)GPT-?和Claude等?業(yè)領(lǐng)先模型達(dá)到較?攻破率?!瘛裎磥?lái)計(jì)劃:開(kāi)展更多專(zhuān)題領(lǐng)域攻擊測(cè)試,采??動(dòng)攻擊模型等?式提?對(duì)抗效率以及全?性。安全評(píng)測(cè)主要關(guān)注?語(yǔ)?模型是否對(duì)??類(lèi)價(jià)值偏好,通過(guò)不斷發(fā)現(xiàn)問(wèn)題,反哺模型安全能?的提升:19
OpenCompass,
“Large
Model
Evaluation”,
2023-08-18,
/.20
Meta,
“Getting
started
with
Llama”,
2023-07-18,
/llama/get-started/.6?、模型評(píng)測(cè)和紅隊(duì)測(cè)試●安全評(píng)測(cè)基準(zhǔn)21:研究團(tuán)隊(duì)創(chuàng)建了?個(gè)?對(duì)抗性安全評(píng)測(cè)基準(zhǔn),?于評(píng)測(cè)?持中?的?語(yǔ)?模型的價(jià)值對(duì)?情況。該評(píng)測(cè)基準(zhǔn)的框架包括公平性、安全性、道德性、數(shù)據(jù)保護(hù)和合法性五個(gè)維度及12個(gè)細(xì)分類(lèi)別,在道德維度中,團(tuán)隊(duì)?次納?中國(guó)傳統(tǒng)?化的內(nèi)容,如和諧、仁愛(ài)等。團(tuán)隊(duì)對(duì)12個(gè)模型進(jìn)?了評(píng)估,發(fā)現(xiàn)得分最?的模型只有63%的準(zhǔn)確率。在此基礎(chǔ)上,團(tuán)隊(duì)訓(xùn)練了?動(dòng)打分器,在該數(shù)據(jù)集的評(píng)測(cè)上總體準(zhǔn)確率超過(guò)GPT-??!駥?duì)?評(píng)測(cè)流程22:研究團(tuán)隊(duì)在實(shí)際?作中發(fā)現(xiàn)?些?語(yǔ)?模型在開(kāi)放問(wèn)題上的評(píng)測(cè)結(jié)果要遠(yuǎn)遠(yuǎn)好于選擇題上的。受啟發(fā)于?語(yǔ)?模型“Jailbreak”失敗模式的分析,研究?員認(rèn)為這是泛化能?不匹配導(dǎo)致的,即模型只是記住了對(duì)于某些安全測(cè)試題該回答什么,?不是真正理解了什么是符合?類(lèi)偏好的安全復(fù)雜概念。為去除模型這種記憶?為對(duì)評(píng)測(cè)的誤導(dǎo),研究?員設(shè)計(jì)了?個(gè)基于兩種形式之間?致性的對(duì)?評(píng)測(cè)流程,并在14個(gè)主流模型上測(cè)試了公平性、個(gè)?傷害、合法性、隱私和社會(huì)倫理等類(lèi)別,展?現(xiàn)有評(píng)估?法的局限性。延伸閱讀Anthropic:前沿威脅紅隊(duì)測(cè)試分享在?物?險(xiǎn)項(xiàng)?的發(fā)現(xiàn)、教訓(xùn)以及未來(lái)計(jì)劃23●專(zhuān)家合作:Anthropic?了超過(guò)150?時(shí)與頂級(jí)?物安全專(zhuān)家?起對(duì)其模型進(jìn)?了前沿威脅紅隊(duì)測(cè)試,以評(píng)估模型輸出有害?物信息的能?,如設(shè)計(jì)和獲取?物武器。研究發(fā)現(xiàn):前沿模型有時(shí)可產(chǎn)?專(zhuān)家級(jí)別復(fù)雜、準(zhǔn)確、有?和詳細(xì)的知識(shí)。模型越?能?越強(qiáng),且可訪(fǎng)問(wèn)?具的模型有更強(qiáng)的?物學(xué)能?。其CEO
Dario
Amodei在美國(guó)國(guó)會(huì)參議院司法委員會(huì)聽(tīng)證會(huì)上警告,若不加以緩解,這種?險(xiǎn)可能在未來(lái)2-3年內(nèi)實(shí)現(xiàn)24?!瘛瘛窬徑獯胧河?xùn)練過(guò)程中的直接改變使模型能夠更好地區(qū)分?物學(xué)的有害和?害?途,從?有意義地減少有害輸出;基于分類(lèi)器的過(guò)濾器可以使惡意?為者更難獲得造成危害所需的多種、串聯(lián)在?起的專(zhuān)家級(jí)信息。未來(lái)計(jì)劃:Anthropic正組建前沿威脅紅隊(duì)研究團(tuán)隊(duì),并建?相關(guān)?險(xiǎn)和緩解措施的披露流程。21
Kexin
Huang
et
al.
“Flames:
Benchmarking
Value
Alignment
of
Chinese
Large
Language
Models”,2023-11-12,
/abs/????.?????.22
Yixu
Wang
et
al.,
“Fake
Alignment:
Are
LLMs
Really
Aligned
Well?”,
2023-11-10,/abs/????.?????.23
Anthropic,
“Frontier
Threats
Red
Teaming
for
AI
Safety”,
2023-07-26,/index/frontier-threats-red-teaming-for-ai-safety.24
U.S.
Senate
Committee
on
the
Judiciary,
“Oversight
of
AI:
Principles
for
Regulation”,
2023-07-25,/committee-activity/hearings/oversight-of-ai-principles-for-regulation.7前沿??智能安全的最佳實(shí)踐OpenAI:GPT-?和GPT-?V提供了完整和具體的實(shí)例●在發(fā)布GPT-?的同時(shí),OpenAI也發(fā)布了其技術(shù)報(bào)告和系統(tǒng)卡(system
cards)?檔,解讀其能?、局限、?險(xiǎn)以及緩解措施25。同樣,在ChatGPT上線(xiàn)能看、能聽(tīng)、能說(shuō)的多模態(tài)版本的同時(shí),OpenAI也發(fā)布了GPT-?V(ision)的系統(tǒng)卡?檔26。GPT-?V(ision)
System
Card
要點(diǎn)?圖速覽2725
OpenAI,
“GPT-?
Technical
Report”,
2023-03-15,
/papers/gpt-?.pdf.26
OpenAI,
“GPT-?V(ision)
System
Card”,
2023-09-25,/papers/GPTV_System_Card.pdf.27
安遠(yuǎn)AI,
“GPT-?V(ision)
System
Card
要點(diǎn)?圖速覽”,
2023-09-26,/s/gHW?TdaY?taXZe_?j?xM?A.8?、模型評(píng)測(cè)和紅隊(duì)測(cè)試?歌DeepMind等機(jī)構(gòu):聯(lián)合發(fā)布極端?險(xiǎn)的模型評(píng)測(cè)框架28●未來(lái)計(jì)劃:Anthropic正組建前沿威脅紅隊(duì)研究團(tuán)隊(duì),并建?相關(guān)?險(xiǎn)和緩解措施的披露流程?!裢ㄟ^(guò)危險(xiǎn)能?和對(duì)?評(píng)測(cè)識(shí)別極端?險(xiǎn):○○危險(xiǎn)能?評(píng)測(cè):模型在多?程度上有能?造成極端危害,例如可?于威脅安全、施加影響或逃避監(jiān)管的能?。模型對(duì)?評(píng)測(cè):模型在多?程度上有傾向造成極端危害,應(yīng)確認(rèn)在?泛的場(chǎng)景中能按預(yù)期運(yùn)?,在可能的情況下應(yīng)檢查內(nèi)部?作原理?!駥⒛P驮u(píng)測(cè)嵌?到整個(gè)模型訓(xùn)練和部署的重要決策過(guò)程中,及早識(shí)別?險(xiǎn)將有助于:○○○○負(fù)責(zé)任的訓(xùn)練:就是否,以及如何訓(xùn)練顯?出早期?險(xiǎn)跡象的新模型做出負(fù)責(zé)任的決策。負(fù)責(zé)任的部署:就是否、何時(shí),以及如何部署有潛在?險(xiǎn)的模型做出負(fù)責(zé)任的決策。透明性:向利益相關(guān)?報(bào)告有?且可操作的信息,以幫助他們應(yīng)對(duì)或減輕潛在?險(xiǎn)。適當(dāng)?shù)陌踩裕簭?qiáng)?的信息安全控制和系統(tǒng)應(yīng)?于可能帶來(lái)極??險(xiǎn)的模型?!瘛窬窒扌裕翰?所有的?險(xiǎn)都能通過(guò)模型評(píng)測(cè)來(lái)發(fā)現(xiàn),如模型與現(xiàn)實(shí)世界有復(fù)雜互動(dòng)、欺騙性對(duì)?等不易評(píng)測(cè)的危險(xiǎn)能?、模型評(píng)測(cè)體系還在發(fā)展中、?們?nèi)菀走^(guò)于信任評(píng)測(cè)等;進(jìn)?和發(fā)表評(píng)測(cè)?作本?也可能帶來(lái)?險(xiǎn),如危險(xiǎn)能?擴(kuò)散、表?改進(jìn)、引發(fā)競(jìng)賽等。整體來(lái)看:?歌DeepMind等已開(kāi)展早期研究,但還需技術(shù)和機(jī)制上的更多進(jìn)展,特別是制定AI安全的?業(yè)標(biāo)準(zhǔn)需要更?泛的國(guó)際協(xié)作??蚣芨攀觯耗P驮u(píng)測(cè)為?險(xiǎn)評(píng)估提供了信息輸?,并嵌?重要的治理流程2728
Toby
Shevlane
et
al.,
“Model
evaluation
for
extreme
risks”,
2023-05-24,/abs/????.?????.9前沿??智能安全的最佳實(shí)踐DEF
CON
31:設(shè)置了有史以來(lái)最?規(guī)模的AI模型紅隊(duì)挑戰(zhàn)賽●DEF
CON:全球最?的計(jì)算機(jī)安全會(huì)議之?DEF
CON
2023在美國(guó)拉斯維加斯舉辦,AI作為今年科技領(lǐng)域的??焦點(diǎn),也是本次年度會(huì)議的重點(diǎn)之?:會(huì)議設(shè)置了?項(xiàng)“?成式紅隊(duì)挑戰(zhàn)賽”29,要求在50分鐘內(nèi)破解如ChatGPT、Bard等背后的頂級(jí)?成式AI模型?!瘛衿髽I(yè)?持:挑戰(zhàn)賽還得到了?宮和?業(yè)領(lǐng)軍AI企業(yè)(包括OpenAI、?歌、微軟、Meta和英偉達(dá)等)的?持,成為“有史以來(lái)最?規(guī)模的??智能模型紅隊(duì)測(cè)試?!蓖獠考t隊(duì):據(jù)悉這場(chǎng)挑戰(zhàn)賽三天共吸引了2200多?參與,不僅有?業(yè)著名安全專(zhuān)家和?客,還包括220名學(xué)?。以往的紅隊(duì)測(cè)試通常在科技公司內(nèi)部進(jìn)?,但獨(dú)??客的參與使得對(duì)AI模型進(jìn)?公正評(píng)估成為可能。北京、上海和?東:發(fā)布通???智能或?模型規(guī)劃,提出倫理和安全評(píng)測(cè)要求●北京:2023年5?發(fā)布《北京市促進(jìn)通???智能創(chuàng)新發(fā)展的若?措施》30,包括“建設(shè)?模型評(píng)測(cè)開(kāi)放服務(wù)平臺(tái):?勵(lì)第三??盈利機(jī)構(gòu)構(gòu)建多模態(tài)多維度的基礎(chǔ)模型評(píng)測(cè)基準(zhǔn)及評(píng)測(cè)?法;研究??智能輔助的模型評(píng)測(cè)算法,開(kāi)發(fā)包括通?性、?效性、智能性、魯棒性在內(nèi)的多維度基礎(chǔ)模型評(píng)測(cè)?具集;建設(shè)?模型評(píng)測(cè)開(kāi)放服務(wù)平臺(tái),建?公平?效的?適應(yīng)評(píng)測(cè)體系,根據(jù)不同?標(biāo)和任務(wù),實(shí)現(xiàn)?模型?動(dòng)適配評(píng)測(cè)?!薄瘛裆虾#?023年11?發(fā)布《上海市推動(dòng)??智能?模型創(chuàng)新發(fā)展若?措施(2023-2025年)》31,包括“建??模型測(cè)試評(píng)估中?。聚焦性能、安全、倫理、適配等??,建設(shè)國(guó)家級(jí)?模型測(cè)試驗(yàn)證與協(xié)同創(chuàng)新中?,并?勵(lì)?模型創(chuàng)新企業(yè)依托中?開(kāi)展相關(guān)測(cè)試評(píng)估。?持本市相關(guān)主體主導(dǎo)或參與國(guó)家?模型相關(guān)標(biāo)準(zhǔn)制訂。并?持本市國(guó)有企事業(yè)單位開(kāi)放?模型應(yīng)?場(chǎng)景,優(yōu)先采?經(jīng)測(cè)試評(píng)估的?模型產(chǎn)品和服務(wù)?!?東:2023年11?發(fā)布《?東省??政府關(guān)于加快建設(shè)通???智能產(chǎn)業(yè)創(chuàng)新引領(lǐng)地的實(shí)施意?》32,包括“加強(qiáng)評(píng)測(cè)保障技術(shù)研究:?勵(lì)開(kāi)展通???智能內(nèi)容?成、模型評(píng)測(cè)、?險(xiǎn)評(píng)估和監(jiān)測(cè)預(yù)警研究,研究適?通???智能的多維度評(píng)測(cè)?法,開(kāi)展?模型可信安全性研究,確保?模型輸出的準(zhǔn)確性、創(chuàng)造性、魯棒性和安全性。構(gòu)29
Hack
the
Future,
“AI
Village
at
DEF
CON
announces
largest-ever
public
Generative
AI
Red
Team”,2023-05-03,/news/ai-village-at-def-con-announces-largest-ever-public-generative-ai-red-team.30
北京市??政府辦公廳,
“北京市促進(jìn)通???智能創(chuàng)新發(fā)展的若?措施”,
2023-05-23,/zhengce/zhengcefagui/??????/t????????_???????.html.31
上海市經(jīng)濟(jì)和信息化委員會(huì),
“上海市推動(dòng)??智能?模型創(chuàng)新發(fā)展若?措施(2023-2025年)”,
2023-10-20,/jsjb/??????.htm.32
?東省??政府,
“?東省??政府關(guān)于加快建設(shè)通???智能產(chǎn)業(yè)創(chuàng)新引領(lǐng)地的實(shí)施意?”,
2023-11-03,/zwgk/wjk/qbwj/yf/content/post_???????.html.10?、模型評(píng)測(cè)和紅隊(duì)測(cè)試建數(shù)字政府?模型評(píng)測(cè)體系,加強(qiáng)評(píng)測(cè)結(jié)果應(yīng)?,為各地各部?各?業(yè)使??模型提供?撐?!?1前沿??智能安全的最佳實(shí)踐?、優(yōu)先研究??智能帶來(lái)的?險(xiǎn)摘要前沿??智能的未來(lái)能?和?險(xiǎn)都存在不確定性,需要持續(xù)的研究來(lái)更好地理解它們。前沿??智能在研究前沿??智能帶來(lái)的?險(xiǎn)以及開(kāi)發(fā)解決?案??具有獨(dú)特的地位。作為??智能?險(xiǎn)研究關(guān)鍵信息的守??,前沿??智能機(jī)構(gòu)在促進(jìn)??智能?態(tài)系統(tǒng)的開(kāi)放和穩(wěn)健的研究??可以發(fā)揮重要作?。我們概述了關(guān)于??智能?險(xiǎn)研究的4類(lèi)實(shí)踐措施:1.
開(kāi)展??智能安全研究2.
開(kāi)發(fā)?于防范系統(tǒng)危害和?險(xiǎn)的?具,例如?于防范錯(cuò)誤信息(misinformation,強(qiáng)調(diào)事實(shí)的不準(zhǔn)確)和虛假信息(disinformation,強(qiáng)調(diào)意圖的欺騙性)的?印?具3.
與外部研究?員合作,研究和評(píng)估其系統(tǒng)的潛在社會(huì)影響,例如對(duì)就業(yè)的影響和虛假信息的傳播4.
公開(kāi)分享?險(xiǎn)研究成果,除?分享這些成果可能會(huì)造成危害背景??智能是?個(gè)快速發(fā)展的領(lǐng)域,持續(xù)有越來(lái)越強(qiáng)?和復(fù)雜的模型被開(kāi)發(fā)和發(fā)布,??智能的“前沿”將演進(jìn)。為了識(shí)別和減輕這些?險(xiǎn),需要持續(xù)的研究。前沿??智能機(jī)構(gòu)在這個(gè)研究?態(tài)系統(tǒng)中發(fā)揮著重要作?,因?yàn)樗麄兛梢灾苯永?關(guān)鍵的??智能投?來(lái)減輕?險(xiǎn)(例如算?、數(shù)據(jù)、?才和技術(shù)知識(shí))。前沿??智能機(jī)構(gòu)還可以采取獨(dú)特的措施,例如利?專(zhuān)有模型來(lái)創(chuàng)建防御?具,或使其模型不易被濫?或引發(fā)事故。然?,解決前沿模型的潛在危害需要前沿??智能機(jī)構(gòu)、其他??智能機(jī)構(gòu)和外部參與?之間密切??泛的合作。前沿??智能機(jī)構(gòu)需要考慮所開(kāi)展研究的敏感性以及被盜?、??或?yàn)E?的可能性。實(shí)踐解讀1.
開(kāi)展??智能安全研究根據(jù)需要與外部利益相關(guān)?合作進(jìn)?研究,以識(shí)別和減輕??智能的?險(xiǎn)和局限性,包括以下??的研究:●●可解釋性:提?理解??智能系統(tǒng)內(nèi)部運(yùn)作并解釋其?為的能?評(píng)測(cè):提?評(píng)估??智能系統(tǒng)的能?、局限性和安全相關(guān)特征的能?12?、優(yōu)先研究??智能帶來(lái)的?險(xiǎn)●●魯棒性:提???智能系統(tǒng)的彈性,例如抵御旨在破壞其正常運(yùn)?的攻擊對(duì)?(alignment):提???智能系統(tǒng)遵循其被編程要執(zhí)?的規(guī)范和符合設(shè)計(jì)者意圖運(yùn)?的?致性,并降低其可能以??或開(kāi)發(fā)者不希望的?式?事的可能性(例如?成冒犯性或有偏?的響應(yīng),不拒絕有害請(qǐng)求,或違背??意圖?運(yùn)?有害能?)偏?和歧視:提?解決??智能系統(tǒng)中的偏?和歧視的能?●●●●●●隱私:提?解決與??智能系統(tǒng)相關(guān)的隱私?險(xiǎn)的能?幻覺(jué):降低??智能系統(tǒng)(特別是?語(yǔ)?模型)?成虛假信息的傾向?絡(luò)安全:提?確保??智能系統(tǒng)安全的能?犯罪:提?通過(guò)使???智能系統(tǒng)預(yù)防犯罪?為(例如欺詐)的能?其他社會(huì)危害:提?防?因使???智能系統(tǒng)?產(chǎn)?其他社會(huì)危害的能?,包括?理危害、虛假信息和其他社會(huì)危害2.
開(kāi)發(fā)?于防范系統(tǒng)危害和?險(xiǎn)的?具當(dāng)發(fā)現(xiàn)前沿??智能機(jī)構(gòu)的系統(tǒng)可能造成嚴(yán)重危害時(shí),需調(diào)查是否有可以構(gòu)建的?具來(lái)緩解這種危害。例如在認(rèn)識(shí)到??智能?成的?童受剝削和侵害內(nèi)容的增加后,?些社交媒體平臺(tái)正在開(kāi)發(fā)識(shí)別和刪除?童受侵害內(nèi)容的?具。與需要部署這些?具的外部參與?密切合作,以確保這些?具可?并滿(mǎn)?需求。例如與社交媒體平臺(tái)密切合作,幫助他們開(kāi)發(fā)更強(qiáng)?的?具來(lái)識(shí)別??智能?成的內(nèi)容。應(yīng)作出特別努?以確保防御?具在系統(tǒng)發(fā)布之時(shí)或之前可?。?險(xiǎn)越?,?具越有效,提前準(zhǔn)備防御?具就越重要??赡苡斜匾七t系統(tǒng)發(fā)布,直到適當(dāng)?shù)姆烙?具準(zhǔn)備就緒。負(fù)責(zé)任地傳播防御?具,有時(shí)公開(kāi)共享,有時(shí)僅與特定參與?共享。在某些情況下,免費(fèi)提供?具(例如通過(guò)開(kāi)源)可能會(huì)因?yàn)樵试S惡意?為者研究并規(guī)避它?降低其有效性。隨著規(guī)避?法的發(fā)現(xiàn),持續(xù)更新防御?具。在某些情況下,這可能是需要持續(xù)投?的?期努?。3.
與外部研究?員合作,研究和評(píng)估其系統(tǒng)的潛在社會(huì)影響研究他們部署的??智能系統(tǒng)的社會(huì)影響,特別是通過(guò)與外部研究?員、獨(dú)?研究機(jī)構(gòu)和第三?數(shù)據(jù)所有者合作。通過(guò)與互聯(lián)?平臺(tái)等第三?的數(shù)據(jù)協(xié)作,前沿??智能機(jī)構(gòu)可以評(píng)估其??智能系統(tǒng)的影響??梢圆?隱私增強(qiáng)技術(shù),在保護(hù)機(jī)密信息的同時(shí),實(shí)現(xiàn)前沿??智能機(jī)構(gòu)、第三?和外部研究?員之間的數(shù)據(jù)共享。除數(shù)據(jù)外,前沿??智能機(jī)構(gòu)還可以通過(guò)提供必要的基礎(chǔ)設(shè)施和算?,促進(jìn)對(duì)其??智能系統(tǒng)社會(huì)影響的研究。利?多學(xué)科專(zhuān)業(yè)知識(shí)和受影響社區(qū)的?活經(jīng)驗(yàn)來(lái)評(píng)估其??智能系統(tǒng)的下游社會(huì)影響。考慮到?泛的潛在社會(huì)影響并有意義地讓受影響的利益相關(guān)群體參與的影響評(píng)估,可以幫助預(yù)?進(jìn)?步的下游社會(huì)影響。13前沿??智能安全的最佳實(shí)踐利?對(duì)下游社會(huì)影響的評(píng)估來(lái)驗(yàn)證?險(xiǎn)評(píng)估并提供參考。除更直接的?險(xiǎn)外,在??智能系統(tǒng)的?險(xiǎn)評(píng)估中還可以考慮?泛失業(yè)和環(huán)境影響等下游社會(huì)影響。有關(guān)?險(xiǎn)評(píng)估最佳實(shí)踐的更多信息,請(qǐng)參閱負(fù)責(zé)任擴(kuò)展策略部分。確保公平地使?前沿??智能系統(tǒng)。研究?員公平透明地獲取??智能系統(tǒng)受限訪(fǎng)問(wèn)的過(guò)程很重要。為了確保系統(tǒng)得到適當(dāng)?shù)睦斫?,可以特別注意促進(jìn)研究的多樣性,例如不基于先前或預(yù)期的批評(píng)?拒絕訪(fǎng)問(wèn),并?勵(lì)不同類(lèi)型的學(xué)者和第三?機(jī)構(gòu)研究??智能系統(tǒng)。4.
公開(kāi)分享?險(xiǎn)研究成果,除?分享這些成果可能會(huì)造成危害如果共享沒(méi)有?夠?qū)嵸|(zhì)性的負(fù)?影響,?勵(lì)前沿??智能機(jī)構(gòu)?泛共享這項(xiàng)?作的成果。重點(diǎn)案例OpenAI:20%算?投?超級(jí)對(duì)?(Superalignment)研究OpenAI認(rèn)為,需要科學(xué)突破、社會(huì)準(zhǔn)備和先進(jìn)的安全系統(tǒng)來(lái)控制和集成??類(lèi)聰明得多的??智能系統(tǒng),并正通過(guò)創(chuàng)建“超級(jí)對(duì)?”(Superalignment)33和“防范準(zhǔn)備”(Preparedness)34兩個(gè)新團(tuán)隊(duì)來(lái)投資這些安全研究的突破。當(dāng)前對(duì)???智能的技術(shù),例如根據(jù)?類(lèi)反饋進(jìn)?強(qiáng)化學(xué)習(xí),依賴(lài)于?類(lèi)監(jiān)督??智能的能?。但這些技術(shù)不適?于超級(jí)智能,因?yàn)?類(lèi)將?法可靠地監(jiān)督???聰明得多的??智能系統(tǒng)。OpenAI設(shè)定了?個(gè)?標(biāo),在四年內(nèi)解決這個(gè)問(wèn)題,建?了?個(gè)名為“超級(jí)對(duì)?”的新團(tuán)隊(duì),由Ilya
Sutskever(OpenAI聯(lián)合創(chuàng)始?兼?席科學(xué)家)和Jan
Leike(對(duì)?團(tuán)隊(duì)負(fù)責(zé)?)共同領(lǐng)導(dǎo)。?標(biāo)是構(gòu)建?個(gè)接近?類(lèi)?平的對(duì)?研究??智能,并使??量計(jì)算來(lái)擴(kuò)展OpenAI對(duì)?超級(jí)智能的努?。OpenAI計(jì)劃將其在2023年6?之前所獲得的算?的20%?于超級(jí)對(duì)??作35。團(tuán)隊(duì)將?泛分享結(jié)果,以促進(jìn)?OpenAI模型的對(duì)?和安全性。除了對(duì)?超級(jí)智能的挑戰(zhàn)之外,OpenAI認(rèn)為?益增強(qiáng)的前沿模型的濫?可能會(huì)帶來(lái)越來(lái)越嚴(yán)重的?險(xiǎn)。OpenAI還創(chuàng)建了?個(gè)名為“防范準(zhǔn)備”的專(zhuān)?新團(tuán)隊(duì)來(lái)識(shí)別、跟蹤和準(zhǔn)備應(yīng)對(duì)這些?險(xiǎn)。OpenAI計(jì)劃跟蹤前沿?險(xiǎn),包括?絡(luò)安全、化學(xué)/?物/輻射/核威脅(CBRN)、說(shuō)服、?主復(fù)制和適應(yīng),并分享?動(dòng)以防范災(zāi)難性?險(xiǎn)的影響。由于對(duì)災(zāi)難性?險(xiǎn)的實(shí)證理解還處于萌芽階段,OpenAI將迭代更新對(duì)當(dāng)前前沿模型?險(xiǎn)?平的評(píng)估,以確保反映其最新的評(píng)估和監(jiān)測(cè)理解。33
Jan
Leike
&
Ilya
Sutskever,
“Introducing
Superalignment”,
2023-07-05,/blog/introducing-superalignment.34
OpenAI,
“Frontier
risk
and
preparedness”,
2023-10-26,/blog/frontier-risk-and-preparedness.35
OpenAI,
“OpenAI's
Approach
to
Frontier
Risk”,
2023-10-26,/global-a?airs/our-approach-to-frontier-risk#priority-research-and-investment-on-societal-safety-and-security-risks.14?、優(yōu)先研究??智能帶來(lái)的?險(xiǎn)OpenAI表?將繼續(xù)投資于?絡(luò)安全和內(nèi)部威脅防護(hù)措施,以保護(hù)專(zhuān)有和未發(fā)布模型的權(quán)重。他們啟動(dòng)了?絡(luò)安全資助計(jì)劃和OpenAI漏洞賞?計(jì)劃,以協(xié)調(diào)志同道合的研究?員為?類(lèi)的集體安全?努?。?絡(luò)安全資助計(jì)劃是?項(xiàng)價(jià)值100萬(wàn)美元的計(jì)劃,旨在增強(qiáng)和量化??智能驅(qū)動(dòng)的?絡(luò)安全能?,并促進(jìn)??平的??智能和?絡(luò)安全討論。OpenAI還邀請(qǐng)公眾報(bào)告他們?cè)谙到y(tǒng)中發(fā)現(xiàn)的漏洞、錯(cuò)誤或安全缺陷,并為作出貢獻(xiàn)的個(gè)?和企業(yè)提供認(rèn)可和獎(jiǎng)勵(lì)。Anthropic:對(duì)多元化和經(jīng)驗(yàn)驅(qū)動(dòng)的AI安全?法最為樂(lè)觀(guān)Anthropic認(rèn)為各種場(chǎng)景都是可能的,??采取堅(jiān)定?場(chǎng)。Anthropic認(rèn)為不確定性的?個(gè)特別重要的??,是開(kāi)發(fā)?泛安全且對(duì)?類(lèi)?險(xiǎn)很?的先進(jìn)AI系統(tǒng)的困難程度。開(kāi)發(fā)這樣的系統(tǒng)的難度可能介于?常容易到不可能之間的任何位置36。AI安全的難度?37Anthropic將難度范圍分為三個(gè)?常不同的場(chǎng)景:樂(lè)觀(guān)場(chǎng)景、中間場(chǎng)景、悲觀(guān)場(chǎng)景。其?標(biāo)是開(kāi)發(fā):1)使AI系統(tǒng)更安全的技術(shù),2)識(shí)別AI系統(tǒng)安全或危險(xiǎn)程度的?法?!瘛駱?lè)觀(guān)場(chǎng)景中,前者將幫助AI開(kāi)發(fā)者訓(xùn)練有益的系統(tǒng),后者將證明此類(lèi)系統(tǒng)是安全的。中間場(chǎng)景中,前者可能是?類(lèi)最終避免AI災(zāi)難的?式,后者將對(duì)確保?級(jí)AI的?險(xiǎn)較低?關(guān)重要。36
安遠(yuǎn)AI,
“Anthropic關(guān)于A(yíng)I安全的核?觀(guān)點(diǎn):何時(shí)、何故、何事與如何”,
2023-04-27,/s/UL?BK?s?CXVXUivhzU?ZKw.37
Chris
Olah,
“How
Hard
is
AI
safety?”,/thread/???????????????????.html.15前沿??智能安全的最佳實(shí)踐●悲觀(guān)場(chǎng)景中,前者的失敗將是AI安全性不可解決的關(guān)鍵指標(biāo),后者將使Anthropic能夠有說(shuō)服?地向他?證明這?點(diǎn)。Anthropic正采取多種研究來(lái)建?可靠的安全系統(tǒng)。Anthropic的研究項(xiàng)?被分成能?(Capabilities)、對(duì)?能?(Alignment
Capabilities)和對(duì)?科學(xué)(Alignment
Science)這3個(gè)領(lǐng)域,?前最為關(guān)注的?向是:機(jī)制可解釋性(Mechanistic
Interpretability)、可擴(kuò)展的監(jiān)督(Scalable
Oversight)、?向過(guò)程的學(xué)習(xí)(Process-Oriented
Learning)、理解泛化(Understanding
Generalization)、檢測(cè)危險(xiǎn)的失敗模式(Testing
for
Dangerous
FailureModes)、社會(huì)影響和評(píng)估(Societal
Impacts
and
Evaluations)。Anthropic的?個(gè)關(guān)鍵?標(biāo)是加速安全研究的發(fā)展,并嘗試覆蓋更?泛的安全研究范圍,從那些安全挑戰(zhàn)容易解決的場(chǎng)景到那些創(chuàng)建安全系統(tǒng)極為困難的場(chǎng)景。延伸閱讀?歌DeepMind:積極投資更?泛的AI安全研究和?態(tài)建設(shè)●?歌DeepMind有多個(gè)團(tuán)隊(duì)全職研究??智能倫理、安全和治理,這些團(tuán)隊(duì)旨在了解和緩解當(dāng)前系統(tǒng)的已知?險(xiǎn)和更強(qiáng)?系統(tǒng)的潛在?險(xiǎn),并使它們符合?類(lèi)利益。?歌和DeepMind還?持更?泛的AI安全研究和?態(tài)建設(shè)?!駭?shù)字未來(lái)項(xiàng)?:?歌于2023年9?宣布啟動(dòng)其中包括?項(xiàng)2000萬(wàn)美元的基?,該基?將為研究和?勵(lì)負(fù)責(zé)任的??智能開(kāi)發(fā)的領(lǐng)先智囊團(tuán)和學(xué)術(shù)機(jī)構(gòu)提供資助。這些機(jī)構(gòu)正在研究??智能對(duì)全球安全的影響等問(wèn)題;對(duì)勞動(dòng)?和經(jīng)濟(jì)的影響;什么樣的治理結(jié)構(gòu)和跨?業(yè)努?可以最好地促進(jìn)??智能創(chuàng)新的責(zé)任和安全38?!馎I安全基?:2023年10?,?歌、微軟、OpenAI和Anthropic發(fā)布聯(lián)合聲明,任命“前沿模型論壇”(Frontier
Model
Forum)?任執(zhí)?董事,并宣布設(shè)?1000萬(wàn)美元的AI安全基?,以推動(dòng)正在進(jìn)?的?具研發(fā),幫助社會(huì)有效地測(cè)試和評(píng)估最有能?的AI模型39。38
Brigitte
Hoyer
Gosselink,
“Launching
the
Digital
Futures
Project
to
support
responsible
AI”,
2023-09-11,https://blog.google/outreach-initiatives/google-org/launching-the-digital-futures-project-to-support-responsible-ai/.39
OpenAI,
“Frontier
Model
Forum
updates”,
2023-10-25,/blog/frontier-model-forum-updates.16?、優(yōu)先研究??智能帶來(lái)的?險(xiǎn)國(guó)內(nèi)外頂尖科學(xué)家:多次呼吁30%以上的研發(fā)投??于A(yíng)I安全研究●重磅論?:2023年10?24?,三位圖靈獎(jiǎng)獲得者、?位諾?爾獎(jiǎng)獲得者、國(guó)內(nèi)多位院?共同撰?《??智能?速進(jìn)步時(shí)代的?險(xiǎn)管理》40,?章提出分配?少三分之?的??智能研發(fā)資??于確保??智能系統(tǒng)的安全性和合乎倫理的使?(與其對(duì)??智能能?的投資相當(dāng))?!衤?lián)合聲明:2023年10?18-20?,圖靈獎(jiǎng)獲得者Yoshua
Bengio和姚期智、加州?學(xué)伯克利分校教授Stuart
Russell以及清華?學(xué)智能產(chǎn)業(yè)研究院院?張亞勤聯(lián)合召集了來(lái)?中國(guó)、美國(guó)、英國(guó)、加拿?和其他歐洲國(guó)家的20多位頂尖AI科學(xué)家和治理專(zhuān)家,在為期三天的?屆“??智能安全國(guó)際對(duì)話(huà)”后,簽署了?份聯(lián)合聲明41,再次強(qiáng)調(diào)研發(fā)預(yù)算?少30%應(yīng)投?AI安全研究、通過(guò)模型注冊(cè)來(lái)監(jiān)測(cè)前沿AI的發(fā)展等。國(guó)內(nèi)/華?團(tuán)隊(duì):在?模型安全??已開(kāi)展了?系列的研究包括但不限于以下?作:●通過(guò)ChatGPT和RLHF,國(guó)內(nèi)研究團(tuán)隊(duì)開(kāi)始重視對(duì)?問(wèn)題。42434445○清華?學(xué)
、中國(guó)???學(xué)
、微軟亞洲研究院
、華為
等國(guó)內(nèi)團(tuán)隊(duì)發(fā)布涉及對(duì)?的綜述?章,主要圍繞現(xiàn)階段較為成熟的RLHF等?法及其相關(guān)改良。4647○天津?學(xué)
、北京?學(xué)
的團(tuán)隊(duì)也發(fā)布了涉及更?范圍的對(duì)?研究的綜述?章?!穸鄠€(gè)國(guó)內(nèi)/華?團(tuán)隊(duì)正在對(duì)RLHF和?語(yǔ)?模型監(jiān)督?法進(jìn)?了創(chuàng)新和改良:○阿?達(dá)摩院和清華?學(xué)的團(tuán)隊(duì)48提出RRHF(Rank
Responses
to
align
HumanFeedback)?法,?需強(qiáng)化學(xué)習(xí)即可?于訓(xùn)練語(yǔ)?模型。40
安遠(yuǎn)AI,
“授權(quán)中譯版|三位圖靈獎(jiǎng)和中外多位頂尖AI專(zhuān)家的?次政策建議共識(shí):呼吁研發(fā)預(yù)算1/3以上投?AI安全,及若?亟需落實(shí)的治理措施”,
2023-10-24,
/s/zdrGCiagDYqa?kPljK?ung.41
安遠(yuǎn)AI,
“AI的帕格沃什會(huì)議!中美英加歐20多位頂尖AI專(zhuān)家線(xiàn)下聚?,呼吁AI安全與治理的全球協(xié)同?動(dòng)”,2023-11-01,
/s/?WbrS-L?Qsww??nosADwJQ.42
Jiawen
Deng
et
al.,
“Towards
Safer
Generative
Language
Models:
A
Survey
on
Safety
Risks,
Evaluations,and
Improvements”,
2023-02-18,
/abs/????.?????.43
Wayne
Xin
Zhao
et
al.,
“A
Survey
of
Large
Language
Models”,
2023-05-31,/abs/????.?????.44
Jing
Yao
et
al.,
“From
Instructions
to
Intrinsic
Human
Values
--
A
Survey
of
Alignment
Goals
for
BigModels”,
2023-08-23,
/abs/????.?????.45
Yufei
Wang
et
al.,
“Aligning
Large
Language
Models
with
Human:
A
Survey”,
2023-07-24,/abs/????.?????.46
Tianhao
Shen
et
al.,
“Large
Language
Model
Alignment:
A
Survey”,
2023-09-26,/abs/????.?????.47
Jiaming
Ji
et
al.,
“AI
Alignment:
A
Comprehensive
Survey”,
2023-10-30,/abs/????.?????.48
Zheng
Yuan
et
al.,
“RRHF:
Rank
Responses
to
Align
Language
Models
with
Human
Feedback
withouttears”,
2023-04-11,
/abs/????.?????.17前沿?
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中秋節(jié)給員工慰問(wèn)信(14篇)
- 學(xué)校食堂臨時(shí)用工協(xié)議書(shū)美篇
- 交通安全承諾書(shū)模板錦集七篇
- 中秋晚會(huì)主持詞范文(6篇)
- 學(xué)生做飯課件教學(xué)課件
- 中班熊貓課件教學(xué)課件
- 影響企業(yè)軟實(shí)力形成的因素分析
- 日期和時(shí)間 詞匯 編制說(shuō)明
- 八年級(jí)上學(xué)期語(yǔ)文第一次月考試卷-2
- 四年級(jí)數(shù)學(xué)(上)計(jì)算題專(zhuān)項(xiàng)練習(xí)及答案匯編
- 兩癌的健康知識(shí)講座
- 中西方創(chuàng)世神話(huà)文化的比較
- 幼兒園戶(hù)外游戲活動(dòng)設(shè)計(jì)課件精
- 2023燃?xì)夤こ谭职贤?guī)版
- 陜西師范大學(xué)學(xué)位英語(yǔ)試題
- 【基于嵌入式的人體健康智能檢測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)14000字(論文)】
- 醫(yī)學(xué)課件:臨床決策分析
- 江蘇開(kāi)放大學(xué)2023年秋《中級(jí)會(huì)計(jì)實(shí)務(wù)(上) 050284》第4次任務(wù)參考答案
- 屋頂光伏安全專(zhuān)項(xiàng)施工方案
- 4.與食品經(jīng)營(yíng)相適應(yīng)的主要設(shè)備設(shè)施布局操作流程等文件
- 四班三倒排班表
評(píng)論
0/150
提交評(píng)論