商湯中國(guó)信通院-大模型可信賴研究報(bào)告2023_第1頁(yè)
商湯中國(guó)信通院-大模型可信賴研究報(bào)告2023_第2頁(yè)
商湯中國(guó)信通院-大模型可信賴研究報(bào)告2023_第3頁(yè)
商湯中國(guó)信通院-大模型可信賴研究報(bào)告2023_第4頁(yè)
商湯中國(guó)信通院-大模型可信賴研究報(bào)告2023_第5頁(yè)
已閱讀5頁(yè),還剩77頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

本研究報(bào)告自2023年09月啟動(dòng)編制,分計(jì)、文稿起草、征求意見和修改完善五個(gè)階段,針對(duì)大模型可信賴問題面向大模型的技術(shù)提供方、服務(wù)應(yīng)用方開展了深度訪談和調(diào)研本報(bào)告由上海商湯智能科技有限公司和中國(guó)信息通信研究院云計(jì)算與大數(shù)據(jù)研究所共同撰寫,撰寫過程得到了人工智能關(guān)鍵技術(shù)本報(bào)告主要貢獻(xiàn)單位(排名不分先后)包括:螞蟻科技集團(tuán)股份有限公司、阿里巴巴集團(tuán)、阿里云計(jì)算有限公司、北京百度網(wǎng)近年來,深度學(xué)習(xí)技術(shù)取得了突破性進(jìn)展,大模型作為其中的典型代表,已經(jīng)在自然語(yǔ)言處理、圖像處理、多模態(tài)應(yīng)用等領(lǐng)域取得了令人矚目的成果,為經(jīng)濟(jì)社會(huì)發(fā)展帶來新機(jī)遇。但隨著大模型應(yīng)用規(guī)模擴(kuò)大、應(yīng)用場(chǎng)景拓展,其風(fēng)險(xiǎn)問題也逐漸凸顯,如安全漏洞、隱私泄露、易受攻擊、偏見歧視、侵權(quán)濫用等,如何有效防范全球各界對(duì)大模型的可信賴問題展開了廣泛的探索研究。在國(guó)際層面,政府間國(guó)際組織從人工智能倫理準(zhǔn)則等基本共識(shí)出發(fā),逐各主要經(jīng)濟(jì)體正加快推進(jìn)大模型治理監(jiān)管相關(guān)政策制定步伐。在產(chǎn)業(yè)層面,各行業(yè)機(jī)構(gòu)與科技企業(yè)積極關(guān)注大模型風(fēng)險(xiǎn),通過行業(yè)自本報(bào)告重點(diǎn)針對(duì)產(chǎn)業(yè)界大模型可信賴實(shí)踐開展研究。首先,重點(diǎn)梳理了大模型發(fā)展現(xiàn)狀,點(diǎn)明大模型的風(fēng)險(xiǎn)來源。其次,從大模型涉及的關(guān)鍵要素和可信維度出發(fā),全面分析大模型面臨的各項(xiàng)風(fēng)險(xiǎn)并進(jìn)行整理歸納,形成大模型風(fēng)險(xiǎn)全景視圖。再次,針對(duì)大模型在框架、數(shù)據(jù)、模型和生成內(nèi)容等層面的風(fēng)險(xiǎn),系統(tǒng)梳理了產(chǎn)業(yè)界保障大模型可信賴的關(guān)鍵舉措。最后,本報(bào)告指出了當(dāng)前大模型可大模型與行業(yè)融合正不斷加深,風(fēng)險(xiǎn)問題仍在不斷暴露,相應(yīng)的可信賴實(shí)踐也在持續(xù)涌現(xiàn)。本研究報(bào)告對(duì)大模型可信賴實(shí)踐的認(rèn)識(shí)和理解還有待加強(qiáng),報(bào)告中如有不足之處,還請(qǐng)各方專家讀者不 1 1 1 3 7 7 8 9 21 25 27 27 28 31 35 37 40 7 8 27 1一、大模型發(fā)展現(xiàn)狀近十余年間,人工智能技術(shù)泛化能力、創(chuàng)新能力及應(yīng)用效能不斷提升,成為了推動(dòng)經(jīng)濟(jì)及社會(huì)發(fā)展的重要引擎。2015年前后,人臉識(shí)別算法達(dá)到接近人眼的識(shí)別能力,被視為人工智能技術(shù)工業(yè)級(jí)應(yīng)用水平的代表性事件。2022年,以ChatGPT為代表的大模型為用戶帶來了全新交互體驗(yàn)。通過其在內(nèi)容生成、文本轉(zhuǎn)化和邏輯推理等任務(wù)下的高效、易操作表現(xiàn),大模型正逐步成為當(dāng)前主流應(yīng)用程隨著數(shù)據(jù)、算法和算力的不斷突破,大模型將不斷優(yōu)化演進(jìn)。在數(shù)據(jù)方面,海量、多模態(tài)數(shù)據(jù)將持續(xù)應(yīng)用于大模型預(yù)訓(xùn)練,提升跨語(yǔ)種、多模態(tài)特征的海量知識(shí)挖掘及執(zhí)行等復(fù)雜任務(wù)的處理。在算力方面,智算中心及算力網(wǎng)絡(luò)等基礎(chǔ)設(shè)施加速建設(shè),為大模型的開發(fā)和服務(wù)提供充足性能支持。到2026年,Gartner預(yù)測(cè)超過80%的企業(yè)將使用生成式人工智能的API或模型,或在生產(chǎn)環(huán)境中部署支持大模型應(yīng)用。以通用智能體、具身智能和類腦智能等為代表的人工智能已經(jīng)成為全球新興技術(shù)領(lǐng)域的核心競(jìng)爭(zhēng)力,各國(guó)政府加快2研發(fā)、部署人工智能技術(shù),推動(dòng)產(chǎn)業(yè)高速發(fā)展。據(jù)統(tǒng)計(jì)1,我國(guó)人工智能核心產(chǎn)業(yè)規(guī)模已達(dá)5000億美元,企業(yè)數(shù)量超過4300家。2023年始,我國(guó)大模型市場(chǎng)火爆,百度、商湯科技、科大訊飛、阿里巴巴等單位先后發(fā)布自研大模型,并于2023年下半年逐步面向用戶提供服務(wù)。大模型廣泛應(yīng)用于能源、金融、教育、醫(yī)療、交通、政務(wù)以能源、金融為首的兩大行業(yè)結(jié)合行業(yè)數(shù)據(jù)建設(shè)基礎(chǔ),積極布局大大模型技術(shù)生態(tài)逐步完善,大幅降低行業(yè)應(yīng)用門檻。一方面,開源大模型加速大模型應(yīng)用滲透,打通預(yù)訓(xùn)練、微調(diào)、部署、評(píng)測(cè)等開發(fā)階段,進(jìn)一步降低大模型研發(fā)應(yīng)用成本。2023年7月,上海人工智能實(shí)驗(yàn)室正式開源了書生·浦語(yǔ)大模型70億參數(shù)的輕量級(jí)版系,同時(shí)提供免費(fèi)商用,受到了學(xué)術(shù)和產(chǎn)業(yè)界的廣泛關(guān)注。同年7月,OpenAI向用戶正式開放了代碼解析插件CodeInterpreter,使得ChatGPT和GPT-4可以根據(jù)用戶問題來編寫和執(zhí)行代碼,從而拓展了模型在數(shù)據(jù)分析、復(fù)雜計(jì)算與功能調(diào)用方面的能力。另一方面,大模型正在逐步向智能體方向進(jìn)化,從理解生成邁向復(fù)雜任務(wù)處理能力。通過將大模型與動(dòng)作執(zhí)行器結(jié)合,智能體可以在接受用戶輸入后,通過大模型進(jìn)行規(guī)劃和決策,并對(duì)第三方插件或工具進(jìn)行調(diào)/yaowen/3大模型在快速發(fā)展的同時(shí)也帶來了一系列潛在的風(fēng)險(xiǎn)和挑戰(zhàn)。一方面,大模型所需的海量數(shù)據(jù)、復(fù)雜參數(shù)以及工程難度放大了人工智能固有的技術(shù)風(fēng)險(xiǎn),如數(shù)據(jù)竊取、泄露等安全問題,模型黑盒導(dǎo)致決策結(jié)果難預(yù)測(cè)和難解釋問題,以及模型面對(duì)隨機(jī)擾動(dòng)和惡意攻擊的魯棒性問題。另一方面,大模型的多場(chǎng)景通用性也放大了隱私風(fēng)險(xiǎn)、歧視風(fēng)險(xiǎn)和濫用風(fēng)險(xiǎn)等應(yīng)用風(fēng)險(xiǎn)。這些問題引發(fā)了全球范全球大模型治理正處于探索階段,從人工智能倫理準(zhǔn)則等基本共識(shí)國(guó)際組織積極制定人工智能治理原則及倡議,重點(diǎn)關(guān)注大模型通過了《人工智能倫理問題建議書》,旨在促使人工智能系統(tǒng)造福人類、社會(huì)、環(huán)境和生態(tài)系統(tǒng)、防止危害,同時(shí)促進(jìn)和平利用人工智能系統(tǒng)。2023年6月,聯(lián)合國(guó)秘書長(zhǎng)安東尼奧·古特雷斯明確提出計(jì)劃在今年年底建立一個(gè)國(guó)際人工智能監(jiān)管機(jī)構(gòu),定期審查人工確保人工智能以人為本、值得信賴并負(fù)責(zé)任,通過國(guó)際倫理和其他相關(guān)倡議促進(jìn)合作,應(yīng)用人工智能帶來的廣泛風(fēng)險(xiǎn)。同年11界互聯(lián)網(wǎng)大會(huì)發(fā)布了《發(fā)展負(fù)責(zé)任的生成式人工智能研究報(bào)告及共識(shí)文件》,就發(fā)展負(fù)責(zé)任的生成式人工智能提出十條共識(shí)。在標(biāo)準(zhǔn)4方面,ISO/IECJTC1/SC42人工智能分委會(huì)正在開展人工智能可信賴國(guó)際標(biāo)準(zhǔn)研制工作,為指導(dǎo)利益相關(guān)方研發(fā)、使用可信賴人工智能相關(guān)技術(shù)和系統(tǒng)提供參考,主要標(biāo)準(zhǔn)包括ISO/IECTR24028:2020《人工智能的可信賴概述》、ISO/IEC38507:2022《組織使用人工智中國(guó)在人工智能監(jiān)管方面主張“包容審慎的分類分級(jí)監(jiān)管”原則,國(guó)家網(wǎng)信辦已于2023年7月10日頒布了首部面向大模型監(jiān)管的《生成式人工智能服務(wù)管理暫行辦法》,后續(xù)將進(jìn)一步針對(duì)生成式人工智能技術(shù)特點(diǎn)及其在有關(guān)行業(yè)和領(lǐng)域的服務(wù)應(yīng)用,制定相應(yīng)的分類分級(jí)監(jiān)管規(guī)則或指引。2023年10月8日,中國(guó)科技部發(fā)布《科技倫理審查辦法(試行)》,提出從事人工智能科技活動(dòng)的單位,研究?jī)?nèi)容涉及科技倫理敏感領(lǐng)域的,應(yīng)設(shè)立科技倫理(審查)委員會(huì),并建立倫理高風(fēng)險(xiǎn)科技活動(dòng)的清單制度,對(duì)可能產(chǎn)生較大國(guó)家網(wǎng)信辦發(fā)布《全球人工智能治理倡議》,提出發(fā)展人工智能應(yīng)堅(jiān)持相互尊重、平等互利的原則,各國(guó)無(wú)論大小、強(qiáng)弱,無(wú)論社會(huì)制度如何,都有平等發(fā)展和利用人工智能的權(quán)利。在標(biāo)準(zhǔn)方面,中國(guó)信息通信研究院已經(jīng)啟動(dòng)《大規(guī)模預(yù)訓(xùn)練模型技術(shù)和應(yīng)用評(píng)估方法》系列標(biāo)準(zhǔn)研制的工作,全面覆蓋大模型的開發(fā)、部署和應(yīng)用環(huán)節(jié),其中第四部分可信要求是目前國(guó)內(nèi)首項(xiàng)針對(duì)大模型領(lǐng)域的可信賴標(biāo)準(zhǔn)。與此同時(shí),全國(guó)信息安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)已經(jīng)啟動(dòng)包括5《信息安全技術(shù)生成式人工智能服務(wù)安全基本要求》在內(nèi)的三項(xiàng)生歐盟現(xiàn)行人工智能立法仍主要集中在傳統(tǒng)人工智能,但已經(jīng)開始關(guān)注通用人工智能以及生成式人工智能的問題,主張尊重人格尊投票通過《人工智能法案》,該法案基于風(fēng)險(xiǎn)等級(jí)將人工智能系統(tǒng)分成四類,并制定了不同程度的監(jiān)管要求。該法案提出生成式人工智能系統(tǒng)通常屬于有限風(fēng)險(xiǎn)的人工智能系統(tǒng),需遵守最低限度的透明度義務(wù),但可能會(huì)因其適用的領(lǐng)域和生成的內(nèi)容而落入高風(fēng)險(xiǎn)人工智能系統(tǒng)的范疇,并明確了通用人工智能、生成式人工智能以及基礎(chǔ)模型提供者等不同主體的合規(guī)義務(wù)。為配合法案落地,歐洲電信標(biāo)準(zhǔn)化協(xié)會(huì)(ETSI)正在計(jì)劃將人工智能安全工作組重組為人工美國(guó)主張監(jiān)管需以促進(jìn)人工智能負(fù)責(zé)任的創(chuàng)新為目標(biāo),應(yīng)通過監(jiān)管和非監(jiān)管措施減少人工智能開發(fā)和部署的不必要障礙,同時(shí)保護(hù)美國(guó)的技術(shù)、經(jīng)濟(jì)和國(guó)家安全、公民自由、人權(quán)、法治、隱私和顧問委員會(huì)(PCAST)成立生成式人工智能工作組,以幫助評(píng)估關(guān)鍵機(jī)遇和風(fēng)險(xiǎn),并就如何更好地確保這些技術(shù)的開發(fā)和部署盡可能公平、負(fù)責(zé)任和安全提供意見。2023年10月30日,美國(guó)總統(tǒng)拜登簽署人工智能行政令,旨在加強(qiáng)對(duì)人工智能潛在風(fēng)險(xiǎn)的監(jiān)管,發(fā)展安全、可靠和值得信賴的人工智能,促進(jìn)人工智能創(chuàng)新,確保美國(guó)6在人工智能領(lǐng)域繼續(xù)領(lǐng)跑全球。同時(shí)行政令在標(biāo)準(zhǔn)方面,提出美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究所(NIST)將制定嚴(yán)格的人工智能安全測(cè)試標(biāo)準(zhǔn),人工智能系統(tǒng)在公開發(fā)布前需根據(jù)這些標(biāo)準(zhǔn)進(jìn)行廣泛的測(cè)試以業(yè)界人士積極呼吁加強(qiáng)人工智能監(jiān)管,企業(yè)加速大模型可信賴技術(shù)落地。2023年3月,特斯拉首席執(zhí)行官埃隆·馬斯克、蘋果聯(lián)合創(chuàng)始人史蒂夫·沃茲尼亞克以及其他上千名AI研究人員簽署公開大模型的潛在危險(xiǎn)。由微軟等企業(yè)發(fā)起的商業(yè)軟件聯(lián)盟(BSA)公軟和OpenAI七家企業(yè)自愿向美國(guó)政府做出圍繞安全、保障和信任等原則的自愿性承諾,主要內(nèi)容包括開發(fā)部署面向生成內(nèi)容的數(shù)字水印技術(shù),公開披露模型或系統(tǒng)的功能、局限性和適用領(lǐng)域,以及優(yōu)先研究人工智能系統(tǒng)帶來的社會(huì)風(fēng)險(xiǎn)等。目前,微軟、谷歌、OpenAI、百度、商湯科技、螞蟻等企業(yè)都發(fā)布了面向大模型的可信賴工具或平臺(tái),例如商湯科技的可信AI基礎(chǔ)設(shè)施平臺(tái)SenseTrust包含完整覆蓋數(shù)據(jù)、模型、應(yīng)用治理環(huán)節(jié)的可信AI治理工具,助力打7大模型治理和監(jiān)管已經(jīng)成為全球國(guó)際組織和主要經(jīng)濟(jì)體的首要目標(biāo),各國(guó)的監(jiān)管機(jī)構(gòu)正在嘗試通過法律法規(guī)以及標(biāo)準(zhǔn)文件對(duì)大模型進(jìn)行治理和監(jiān)管,行業(yè)各界也積極推動(dòng)人工智能治理工作。但與傳統(tǒng)人工智能的風(fēng)險(xiǎn)相比,大模型的風(fēng)險(xiǎn)來源涉及框架、數(shù)據(jù)、模二、大模型風(fēng)險(xiǎn)分析一是框架風(fēng)險(xiǎn),深度學(xué)習(xí)框架面臨物理、網(wǎng)絡(luò)層面的惡意攻擊,導(dǎo)致大模型所依賴的基礎(chǔ)設(shè)施穩(wěn)定性和安全性難以保障;二是數(shù)據(jù)風(fēng)險(xiǎn),采集及處理海量、多模態(tài)的訓(xùn)練數(shù)據(jù)可能會(huì)引入更多的有害數(shù)據(jù),容易引發(fā)個(gè)人隱私泄露、知識(shí)產(chǎn)權(quán)侵權(quán)、數(shù)據(jù)偏見等問題;三是模型風(fēng)險(xiǎn),現(xiàn)階段,大模型抗干擾能力相對(duì)較弱,存在遭受惡意攻擊、決策偏見以及模型運(yùn)營(yíng)風(fēng)險(xiǎn)等問題;四是生成內(nèi)容風(fēng)險(xiǎn),大模型存在“幻覺”現(xiàn)象,答非所問、違規(guī)不良信息生成等問題成為大模型最受關(guān)注的風(fēng)險(xiǎn)。大模型高效、便捷的內(nèi)容生成能力大幅降8低了詐騙、釣魚郵件等惡意行為的門檻,而針對(duì)生成內(nèi)容的追溯保本報(bào)告以可靠性、健壯性、安全性、公平性、可問責(zé)、可解釋等大模型可信賴目標(biāo)為重點(diǎn)方向,從框架、數(shù)據(jù)、模型、生成內(nèi)容等大模型風(fēng)險(xiǎn)要素角度分析,并結(jié)合數(shù)據(jù)采集、模型預(yù)訓(xùn)練、模型微調(diào)、部署運(yùn)行、優(yōu)化更新等大模型全生命周期治理理念,提出大(二)框架層面,軟件漏洞是現(xiàn)有深度學(xué)習(xí)框架短板大模型領(lǐng)域的基礎(chǔ)設(shè)施風(fēng)險(xiǎn)主要包括深度學(xué)習(xí)框架和開發(fā)套件等軟件層面的漏洞,以及運(yùn)行環(huán)境的不穩(wěn)定性??赡艿娘L(fēng)險(xiǎn)涵蓋物在大模型訓(xùn)練階段,深度學(xué)習(xí)框架、開發(fā)組件以及第三方依賴庫(kù)存在潛在漏洞,增加了受到外部惡意攻擊的風(fēng)險(xiǎn)。在這個(gè)階段,9攻擊者有可能通過惡意程序入侵等手段,竊取模型、訓(xùn)練數(shù)據(jù)以及訓(xùn)練腳本等核心資產(chǎn),從而導(dǎo)致大模型的訓(xùn)練數(shù)據(jù)和模型參數(shù)文件的泄露。早在2020年9月,TensorFlow漏洞2個(gè)。這些漏洞可能導(dǎo)致任意代碼執(zhí)行、信息泄露以及拒絕服深度學(xué)習(xí)框架的運(yùn)行環(huán)境容錯(cuò)性低,核心資產(chǎn)保護(hù)面臨挑戰(zhàn)。大模型的運(yùn)行環(huán)境不穩(wěn)定性風(fēng)險(xiǎn)主要來自大模型服務(wù)的運(yùn)維以及模型迭代更新時(shí)穩(wěn)健性較差所導(dǎo)致的服務(wù)等級(jí)協(xié)議(SLA)服務(wù)水平不足,從而可能影響大模型服務(wù)可用性。在訓(xùn)練和推理過程中,由于設(shè)備、網(wǎng)絡(luò)或通信故障,可能導(dǎo)致模型訓(xùn)練或推理任務(wù)中斷。此外,大模型的運(yùn)行環(huán)境同樣面臨安全性風(fēng)險(xiǎn)。一方面,缺乏基礎(chǔ)設(shè)施與其他系統(tǒng)的嚴(yán)格網(wǎng)絡(luò)隔離可能導(dǎo)致來自內(nèi)部其他系統(tǒng)的橫向滲透風(fēng)險(xiǎn)。如果攻擊者成功侵入基礎(chǔ)設(shè)施系統(tǒng)并注入后門、木馬等惡意程序,整個(gè)系統(tǒng)將面臨嚴(yán)重的安全風(fēng)險(xiǎn)。另一方面,大模型的運(yùn)行環(huán)境缺乏面向訓(xùn)練數(shù)據(jù)、模型和網(wǎng)絡(luò)通信的安全防護(hù)措施,使得訓(xùn)練數(shù)據(jù)、模型參數(shù)文件等核心資產(chǎn)容易受到泄露、篡改和竊取等(三)數(shù)據(jù)層面,隱私風(fēng)險(xiǎn)與有害數(shù)據(jù)導(dǎo)致模型不可靠大模型的訓(xùn)練依賴于大規(guī)模、多樣化且高質(zhì)量的數(shù)據(jù)集。這些訓(xùn)練數(shù)據(jù)通常涵蓋各類網(wǎng)頁(yè)、公共語(yǔ)料庫(kù)、社交媒體、書籍、期刊等公開數(shù)據(jù)來源,其中未經(jīng)篩選和審核的數(shù)據(jù)成為大模型不可忽視的潛在風(fēng)險(xiǎn)。因此,在大模型的全新范式下,數(shù)據(jù)來源不可信、數(shù)據(jù)違規(guī)處理、投毒攻擊、數(shù)據(jù)內(nèi)容有害、數(shù)據(jù)偏見、數(shù)據(jù)樣本不足大模型訓(xùn)練數(shù)據(jù)的采集、預(yù)處理等數(shù)據(jù)處理活動(dòng)可能涉及數(shù)據(jù)在數(shù)據(jù)來源管理方面,主要問題集中在數(shù)據(jù)來源的不可靠性和不可追溯性。大模型訓(xùn)練數(shù)據(jù)通常涵蓋圖像、視頻、文本、音頻等多種數(shù)據(jù)類型,涉及自采集、商業(yè)采購(gòu)、公開數(shù)據(jù)集等多種渠道。然而,部分公開數(shù)據(jù)集的來源缺乏充分的驗(yàn)證和審核,導(dǎo)致預(yù)訓(xùn)練數(shù)據(jù)集中存在來源不清、被惡意投毒的數(shù)據(jù)。大量訓(xùn)練數(shù)據(jù)采集的在隱私泄露方面,數(shù)據(jù)采集階段可能會(huì)由于采集方式、采集工具的不合規(guī),導(dǎo)致未獲取個(gè)人信息授權(quán),使得預(yù)訓(xùn)練數(shù)據(jù)集含有未授權(quán)個(gè)人信息。在數(shù)據(jù)預(yù)處理階段,由于數(shù)據(jù)脫敏機(jī)制的不完善,個(gè)人信息未完全去標(biāo)識(shí)化,致使預(yù)訓(xùn)練模型學(xué)習(xí)、理解到含有個(gè)人信息的知識(shí),其生成內(nèi)容可能會(huì)含有個(gè)人信息或關(guān)聯(lián)個(gè)人信息,存有害內(nèi)容、低質(zhì)量數(shù)據(jù)導(dǎo)致模型生成違規(guī)內(nèi)容。大模型通過學(xué)習(xí)海量數(shù)據(jù)中的知識(shí)、理解常識(shí)并生成內(nèi)容,數(shù)據(jù)中存在有害內(nèi)容和數(shù)據(jù)偏見等質(zhì)量問題可能導(dǎo)致模型生成內(nèi)容存在違規(guī)信息或決策在數(shù)據(jù)內(nèi)容有害性風(fēng)險(xiǎn)方面,模型預(yù)訓(xùn)練階段使用大量無(wú)監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練數(shù)據(jù)集,如果其中存在一定量的有害內(nèi)容,將影響預(yù)訓(xùn)練模型的理解和生成能力。同時(shí),在模型微調(diào)階段,微調(diào)數(shù)據(jù)若包含不準(zhǔn)確、虛假信息等內(nèi)容,可能導(dǎo)致模型無(wú)法正確對(duì)下游任務(wù)模數(shù)據(jù)偏見風(fēng)險(xiǎn)主要源自大模型的預(yù)訓(xùn)練和微調(diào)階段。一方面,模型預(yù)訓(xùn)練所使用的數(shù)據(jù)集樣本分布可能缺乏均衡性,包括性別、民族、宗教、教育等相關(guān)樣本比例關(guān)系不當(dāng)。另一方面,模型微調(diào)階段可能由于人工標(biāo)注員的主觀意識(shí)形態(tài)偏差,引入對(duì)微調(diào)數(shù)據(jù)的構(gòu)建和價(jià)值排序的偏見,從而導(dǎo)致微調(diào)數(shù)據(jù)存在價(jià)值觀上的偏見歧(四)模型層面,提示詞攻擊誘發(fā)模型脆弱性風(fēng)險(xiǎn)主要包括提示注入攻擊等安全性問題、健壯性不足、偏見歧視以及提示注入攻擊成為大模型安全性首要風(fēng)險(xiǎn)。提示注入攻擊是一類以輸入提示詞作為攻擊手段的惡意攻擊。攻擊者精心構(gòu)造和設(shè)計(jì)特定的提示詞,達(dá)到繞過大模型過濾策略的目的。根據(jù)竊取目標(biāo)和一是目標(biāo)劫持,攻擊者通過輸入惡意示例的方式劫持模型的輸出結(jié)果,并要求模型輸出與其原輸出內(nèi)容不同的特定結(jié)果,從而惡意篡改生成內(nèi)容。二是提示泄露,攻擊者通過一些誘導(dǎo)性的上下文提示,竊取大模型預(yù)制的初始化提示內(nèi)容,包括模型應(yīng)該遵循的規(guī)則和特定敏感話題。攻擊者可以通過該類攻擊手段了解大模型的行為模式或者過濾策略。三是越獄攻擊,攻擊者通過模擬對(duì)話、角色扮演等虛構(gòu)場(chǎng)景和行為方式,設(shè)定一系列特定的問答規(guī)則,嘗試分散大模型的注意力,規(guī)避過濾策略,生成帶有惡意目的的特定輸出除直接對(duì)大模型的輸入內(nèi)容進(jìn)行提示注入攻擊,攻擊者也可以通過文件中內(nèi)嵌惡意代碼等形式間接進(jìn)行提示注入攻擊。以微軟NewBingChat為代表的大模型,其結(jié)合檢索和API調(diào)用功能的新組件引入了間接提示注入的風(fēng)險(xiǎn)。攻擊者有可能通過在提示詞中嵌入含有惡意代碼或有害內(nèi)容的網(wǎng)頁(yè)鏈接或文件等手段,試圖規(guī)避輸入大模型在健壯性和泛化性方面仍然面臨挑戰(zhàn)。與傳統(tǒng)的小參數(shù)量機(jī)器學(xué)習(xí)模型相比,雖然大模型通過使用億級(jí)參數(shù)的訓(xùn)練數(shù)據(jù)進(jìn)行無(wú)監(jiān)督學(xué)習(xí)表現(xiàn)出對(duì)抗樣本攻擊和外部干擾的相對(duì)強(qiáng)健性,但仍存在健壯性和泛化性不足的潛在風(fēng)險(xiǎn)。例如,在大模型的輸入提示詞中引入一定程度的錯(cuò)別字符或文字、邏輯錯(cuò)誤的詞句以及段落等大模型的決策偏見歧視問題愈發(fā)突出。大模型的算法決策公平性是可信賴能力的重要指標(biāo),尤其在金融、醫(yī)療、教育等特殊行業(yè)長(zhǎng)尾問題仍然是潛在偏見之一。其次,大模型本身可能根據(jù)數(shù)據(jù)樣本的分布和屬性,進(jìn)一步提升對(duì)某類樣本的敏感度,從而間接放大對(duì)這些偏見性知識(shí)的感知,進(jìn)而導(dǎo)致更為嚴(yán)大模型運(yùn)營(yíng)面臨多方面挑戰(zhàn),API安全問題至關(guān)重要。當(dāng)前,模型即服務(wù)(MaaS)等高效而敏捷的部署方式正逐步成為現(xiàn)有大模型系統(tǒng)與服務(wù)的主流形式。一方面,在大模型服務(wù)實(shí)際運(yùn)營(yíng)環(huán)節(jié),存在諸多服務(wù)運(yùn)營(yíng)相關(guān)的風(fēng)險(xiǎn),包括但不限于批量注冊(cè)、盜號(hào)、撞庫(kù)等賬號(hào)安全性問題,以及惡意使用、機(jī)器作弊、審核資源浪費(fèi)等運(yùn)營(yíng)安全性問題。以ChatGPT為例,該服務(wù)推出僅兩個(gè)月,注冊(cè)用戶已超過1億。隨著用戶規(guī)模不斷增長(zhǎng),各類違規(guī)賬號(hào)也在不斷活另一方面,大模型主要通過API提供對(duì)外服務(wù)。在服務(wù)運(yùn)營(yíng)階段,攻擊者可能通過注入漏洞利用攻擊、未授權(quán)漏洞利用攻擊、越權(quán)訪問漏洞利用攻擊、代碼設(shè)計(jì)漏洞攻擊以及第三方組件漏洞利用攻擊研究人員發(fā)現(xiàn)通過提示詞混合Python代碼的模板函數(shù)可以利用大模型應(yīng)用框架LangChain的接口遠(yuǎn)程執(zhí)行任意Python(五)生成內(nèi)容層面,安全風(fēng)險(xiǎn)和不可追溯是重點(diǎn)難題當(dāng)前,大模型的生成內(nèi)容中仍然存在一定程度的內(nèi)容安全和不可追溯風(fēng)險(xiǎn),主要包括虛假有害內(nèi)容、上下文邏輯性錯(cuò)誤、問答與提問的相關(guān)性較差、與社會(huì)主流價(jià)值觀沖突等風(fēng)險(xiǎn),進(jìn)一步降低了以大模型為生產(chǎn)工具的惡意行為的門檻,對(duì)個(gè)人、組織以及社會(huì)的生成內(nèi)容“幻覺”現(xiàn)象頻發(fā)。大模型對(duì)輸入的問題生成不真實(shí)、與現(xiàn)實(shí)世界常識(shí)相違背的虛假有害信息的現(xiàn)象,被稱為“幻覺”問題。大模型常見的幻覺主要有三類:第一是和用戶輸入沖突的幻覺,大模型的理解能力極大依賴于訓(xùn)練數(shù)據(jù)集的規(guī)模、種類、樣本的豐富度,理解能力的不足將會(huì)導(dǎo)致大模型無(wú)法準(zhǔn)確生成用戶輸入的問題答案,影響大模型的生成內(nèi)容可信度。第二是和已生成的上下文沖突的幻覺,盡管目前大模型具備廣泛的世界知識(shí),但其仍是一個(gè)預(yù)測(cè)并逐字逐句生成輸出結(jié)果,其生成的內(nèi)容雖符合訓(xùn)練數(shù)據(jù)中語(yǔ)句的表達(dá)連貫性,卻可能缺乏合理、清晰的邏輯性,與上下文內(nèi)容沖突或生成重復(fù)性內(nèi)容。第三是和事實(shí)知識(shí)沖突的幻覺,這一類幻覺的研究難度更大,對(duì)用戶實(shí)際使用體驗(yàn)的干擾也最大。例如,大模型在生成醫(yī)療建議時(shí)可能會(huì)捏造錯(cuò)誤的藥品劑量,誤導(dǎo)缺少專業(yè)生成內(nèi)容與社會(huì)主流價(jià)值觀沖突。大模型的生成內(nèi)容的安全性問題至關(guān)重要,如果大模型生成民族仇視、偏見和歧視、政治和軍事敏感、淫穢色情以及恐怖暴力等惡意內(nèi)容,會(huì)對(duì)傳統(tǒng)道德和社會(huì)核心價(jià)值觀造成沖擊,對(duì)個(gè)人、組織和社會(huì)都具有極其嚴(yán)重的負(fù)面生成內(nèi)容欠缺合理、科學(xué)的推理過程。目前大模型的可解釋性問題仍然研究學(xué)者重點(diǎn)關(guān)注的方向,針對(duì)大模型的可解釋性研究主要分為事前解釋和事后解釋,其中事前解釋是通過研究不同特征對(duì)預(yù)測(cè)結(jié)果的影響程度進(jìn)行解釋說明,事后解釋更加側(cè)重利用規(guī)則以及可解釋性強(qiáng)的算法評(píng)估原有大模型的可解釋性。然而,大模型所使用的訓(xùn)練數(shù)據(jù)和算法結(jié)構(gòu)仍然是黑盒,難以完全解釋目前大模型生成內(nèi)容不易追溯和保護(hù)。大模型由于具備通過學(xué)習(xí)海量的世界知識(shí)生成內(nèi)容的能力,因此在訓(xùn)練數(shù)據(jù)和生成內(nèi)容方面會(huì)產(chǎn)生一系列的版權(quán)歸屬和保護(hù)難題。目前大模型服務(wù)通常會(huì)采用數(shù)字水印技術(shù)在生成內(nèi)容中嵌入不可見、具備可追溯能力的標(biāo)識(shí),該類標(biāo)識(shí)一般內(nèi)含用戶ID信息、大模型服務(wù)信息以及時(shí)間戳等信息,用于追溯不良違規(guī)生成內(nèi)容,但目前仍然面臨生成內(nèi)容被二次創(chuàng)作、剪輯和裁切之后,標(biāo)識(shí)內(nèi)容可能會(huì)無(wú)法讀取等問題,導(dǎo)致無(wú)法正確追溯到原始的大模型服務(wù),難以明確界定責(zé)任歸屬。在知識(shí)產(chǎn)權(quán)的溯源方面,由于現(xiàn)有大模型的學(xué)習(xí)機(jī)制,其生成的內(nèi)容有可能與原始的訓(xùn)練數(shù)據(jù)具有一定相似度,難以界定生成的內(nèi)容是否對(duì)原始作品產(chǎn)生成內(nèi)容誤用濫用現(xiàn)象對(duì)個(gè)人、團(tuán)體以及社會(huì)造成不良影響。由于目前仍然缺乏對(duì)于使用大模型生成能力的有效監(jiān)督手段,部分用戶在未充分進(jìn)行培訓(xùn)和教育的前提下,可能將隱私信息誤輸入到大模型中,導(dǎo)致個(gè)人信息泄露。例如,2023年3月,三星半導(dǎo)體部導(dǎo)致公司機(jī)密泄露。部分惡意使用者利用FraudGPT等惡意大模型作為違法活動(dòng)的工具生成詐騙短信和釣魚郵件,通過代碼生成工具三、大模型可信賴實(shí)踐(一)框架層面,可信框架與執(zhí)行環(huán)境保障運(yùn)行安全降低深度學(xué)習(xí)框架受惡意訪問和攻擊的可能性,另一方面通過構(gòu)建1.可信賴框架降低惡意訪問與攻擊風(fēng)險(xiǎn)可信賴框架的實(shí)現(xiàn)需要從框架自身管理層面、框架外的平臺(tái)層安全漏洞管理機(jī)制通過對(duì)AI框架進(jìn)行定期的漏洞掃描,識(shí)別并記錄框架漏洞信息,定時(shí)更新安全補(bǔ)丁修復(fù)漏洞,提升框架安全能力。惡意程序檢測(cè)機(jī)制通過將檢測(cè)模塊直接集成在深度學(xué)習(xí)框架或者基礎(chǔ)設(shè)施中,實(shí)現(xiàn)檢測(cè)在訓(xùn)練或者推理任務(wù)執(zhí)行的容器或虛擬機(jī)是否存在惡意攻擊宿主機(jī)、宿主機(jī)上其他容器或者執(zhí)行越權(quán)訪問等容器逃逸行為。判別是否存在勒索病毒以及惡意程序,并產(chǎn)生告警信息。訪問控制和身份鑒別機(jī)制有效管理并核驗(yàn)登錄用戶的真實(shí)身份,對(duì)于多次登錄失敗的用戶,應(yīng)啟用結(jié)束會(huì)話、限制非法登錄次2.核心資產(chǎn)保護(hù)機(jī)制保障運(yùn)行環(huán)境安全可信為保障深度學(xué)習(xí)框架的運(yùn)行環(huán)境安全可信,通過構(gòu)建加解密機(jī)制、完整性校驗(yàn)機(jī)制、訓(xùn)練任務(wù)中斷恢復(fù)機(jī)制以及運(yùn)行環(huán)境隔離機(jī)加解密機(jī)制通過在深度學(xué)習(xí)框架和人工智能基礎(chǔ)設(shè)施中添加加解密模塊,實(shí)現(xiàn)對(duì)訓(xùn)練和推理過程中的數(shù)據(jù)和模型參數(shù)文件等AI核心資產(chǎn)進(jìn)行保護(hù),防止未授權(quán)人員進(jìn)行非法訪問、篡改數(shù)據(jù)。完整性校驗(yàn)機(jī)制通過對(duì)數(shù)據(jù)和模型相關(guān)文件進(jìn)行完整性校驗(yàn),提升大模型在預(yù)訓(xùn)練、微調(diào)以及后續(xù)部署運(yùn)行階段的可靠性,通過密碼算法或者完整性校驗(yàn)機(jī)制對(duì)數(shù)據(jù)和模型參數(shù)文件進(jìn)行加解密處理,核驗(yàn)各階段的文件完整性。訓(xùn)練任務(wù)中斷恢復(fù)機(jī)制可以在故障發(fā)生后及時(shí)保存訓(xùn)練任務(wù)上下文及模型參數(shù)等信息,并且可支持在新的訓(xùn)練節(jié)點(diǎn)加載訓(xùn)練任務(wù)上下文及模型參數(shù)等信息,正?;謴?fù)原始訓(xùn)練任務(wù),大幅提升大模型在訓(xùn)練階段的可靠性。運(yùn)行環(huán)境隔離機(jī)制通過設(shè)置獨(dú)立的安全區(qū)域保障AI資產(chǎn)在訓(xùn)練和推理過程中的安全性。以可信執(zhí)行環(huán)境技術(shù)(TEE)為例,TEE是處理器中一個(gè)獨(dú)立的安全與存儲(chǔ)加密和網(wǎng)絡(luò)通信加密一起,TEE可以保護(hù)落盤和通信過程中的數(shù)據(jù)隱私和安全。隨著TEE技術(shù)的發(fā)展,在計(jì)算核心與內(nèi)存之間增加安全處理器,以保護(hù)被計(jì)算核心使用的數(shù)據(jù)安全和隱私的機(jī)密(二)數(shù)據(jù)層面,安全檢測(cè)及處理助力大模型可靠數(shù)據(jù)的使用貫穿大模型全生命周期,安全保障與有效處理是保障大模型可靠的關(guān)鍵舉措。在數(shù)據(jù)層面,可信賴實(shí)踐主要涉及數(shù)據(jù)全流程的安全合規(guī)處理、數(shù)據(jù)安全沙箱技術(shù)、投毒檢測(cè)以及數(shù)據(jù)分1.安全合規(guī)的數(shù)據(jù)處理機(jī)制降低數(shù)據(jù)處理風(fēng)險(xiǎn)大模型的數(shù)據(jù)處理活動(dòng)主要包含數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理及模型在數(shù)據(jù)采集環(huán)節(jié),通常會(huì)建立數(shù)據(jù)采集來源管理、數(shù)據(jù)采集業(yè)務(wù)評(píng)估、數(shù)據(jù)采集審批流程、采集合規(guī)審批等管理機(jī)制,確保數(shù)據(jù)采集的合規(guī)性、正當(dāng)性和執(zhí)行上的一致性。針對(duì)數(shù)據(jù)來源問題,知正當(dāng)性進(jìn)行審查,去除含有大量不良違法信息的有害數(shù)據(jù)來源,并在數(shù)據(jù)預(yù)處理環(huán)節(jié),數(shù)據(jù)處理人員會(huì)將收集到的原始數(shù)據(jù)進(jìn)行清洗、去重、格式化等多步驟的預(yù)處理以確保數(shù)據(jù)質(zhì)量。在該過程中,數(shù)據(jù)處理人員會(huì)嚴(yán)格篩查,去除那些不完整、錯(cuò)誤、帶毒或含有敏感信息的數(shù)據(jù)。隨后數(shù)據(jù)處理人員通過自動(dòng)化工具和人工相結(jié)合的方式,對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行標(biāo)注和篩選,以識(shí)別訓(xùn)練數(shù)據(jù)中是否包含敏感信息。此外,業(yè)務(wù)部門通過構(gòu)建敏感內(nèi)容反饋機(jī)制,利用生成內(nèi)容自身特性,將敏感內(nèi)容作為負(fù)面樣本訓(xùn)練敏感信息鑒在大模型訓(xùn)練階段,通常會(huì)首先進(jìn)行個(gè)人信息安全影響評(píng)估,確保大模型的研發(fā)和運(yùn)營(yíng)過程滿足現(xiàn)有個(gè)人信息保護(hù)的合規(guī)要求。通過核對(duì)個(gè)人信息保護(hù)評(píng)估清單,推動(dòng)面向個(gè)人信息保護(hù)的產(chǎn)品功能設(shè)計(jì),確保人工智能產(chǎn)品設(shè)計(jì)流程合規(guī),保障數(shù)據(jù)收集和處理2.數(shù)據(jù)安全沙箱技術(shù)實(shí)現(xiàn)數(shù)據(jù)可用不可見數(shù)據(jù)安全沙箱是一項(xiàng)通過構(gòu)建可隔離、可調(diào)試、運(yùn)行環(huán)境安全等功能來分離數(shù)據(jù)、模型使用權(quán)和所有權(quán)的技術(shù)。在大模型微調(diào)場(chǎng)景中,數(shù)據(jù)擁有方可通過沙箱客戶端將數(shù)據(jù)通過加密信道上傳到沙箱中,隨后通過數(shù)據(jù)安全沙箱對(duì)加密數(shù)據(jù)進(jìn)行預(yù)處理和模型微調(diào),并通過安全信道反饋微調(diào)后的模型,保證了模型擁有方的預(yù)訓(xùn)練模3.投毒檢測(cè)與數(shù)據(jù)分析識(shí)別有害內(nèi)容在數(shù)據(jù)投毒檢測(cè)方面,通過數(shù)據(jù)去毒工具在數(shù)據(jù)預(yù)處理環(huán)節(jié)檢測(cè)訓(xùn)練數(shù)據(jù)是否存在異常。數(shù)據(jù)投毒檢測(cè)可采用多種不同的檢測(cè)手段?;谝?guī)則、關(guān)鍵詞進(jìn)行檢測(cè)是一種常見但有效的方式,可在豐富完善檢測(cè)規(guī)則的基礎(chǔ)上,以較高的效率將被投毒的、危害安全的訓(xùn)練數(shù)據(jù)進(jìn)行截獲去除。也可采用傳統(tǒng)語(yǔ)言模型或大語(yǔ)言模型的手段,針對(duì)數(shù)據(jù)投毒問題進(jìn)行相應(yīng)的設(shè)計(jì)和優(yōu)化,通過語(yǔ)義相似度等在數(shù)據(jù)分析工具方面,可采用分類統(tǒng)計(jì)、向量聚類、大模型識(shí)別等方法,對(duì)數(shù)據(jù)內(nèi)容門類、語(yǔ)料形式、語(yǔ)料來源、作者等數(shù)據(jù)分布進(jìn)行統(tǒng)計(jì)和分析,使參與到模型預(yù)訓(xùn)練中的訓(xùn)練數(shù)據(jù)配比均勻、優(yōu)質(zhì)來源和優(yōu)質(zhì)形式的數(shù)據(jù)占比較高,修正性別、民族、宗教、教育等統(tǒng)計(jì)偏見,使模型在運(yùn)營(yíng)階段避免可能存在的安全性、公平性(三)模型層面,全流程防控增強(qiáng)大模型可信在模型層面,可信賴實(shí)踐可從設(shè)計(jì)開發(fā)、模型訓(xùn)練和部署運(yùn)行三個(gè)階段展開。設(shè)計(jì)開發(fā)階段主要涉及大模型研發(fā)前期的安全和倫理設(shè)計(jì)評(píng)估;在模型訓(xùn)練階段,主要涉及大模型預(yù)訓(xùn)練、微調(diào)過程的可信賴能力檢測(cè)、加固措施;在部署運(yùn)行階段,主要涉及大模型1.安全和倫理設(shè)計(jì)評(píng)估為大模型研發(fā)提供全方位保障大模型的安全性設(shè)計(jì)評(píng)估是面向大模型設(shè)計(jì)初期的一項(xiàng)安全性評(píng)審工作,主要涉及安全審核和安全功能設(shè)計(jì)兩方面。在安全審核方面,通常會(huì)根據(jù)大模型設(shè)計(jì)需求構(gòu)建威脅模型,并生成安全設(shè)計(jì)核查表對(duì)大模型安全性設(shè)計(jì)進(jìn)行評(píng)審,保障大模型的設(shè)計(jì)需求滿足安全合規(guī)要求。在安全功能設(shè)計(jì)方面,大模型研發(fā)人員會(huì)根據(jù)安全審核結(jié)果,對(duì)大模型進(jìn)行安全功能設(shè)計(jì),包括但不限于生成內(nèi)容過大模型的倫理設(shè)計(jì)評(píng)估主要依據(jù)人工智能倫理治理相關(guān)法律法規(guī)和標(biāo)準(zhǔn)文件,面向數(shù)據(jù)、算法以及應(yīng)用管理風(fēng)險(xiǎn)三方面,圍繞產(chǎn)品設(shè)計(jì)、開發(fā)、部署、運(yùn)營(yíng)的全生命周期,分階段、分目標(biāo)的對(duì)大模型倫理風(fēng)險(xiǎn)進(jìn)行分類分級(jí)管理,并根據(jù)風(fēng)險(xiǎn)的等級(jí)進(jìn)行內(nèi)部自評(píng)估以及外部專家評(píng)審,以確保大模型的訓(xùn)練數(shù)據(jù)、決策機(jī)制以及生成內(nèi)容符合倫理道德。目前,針對(duì)大模型倫理評(píng)估工作,商湯建立了覆蓋產(chǎn)品全生命周期的風(fēng)險(xiǎn)控制機(jī)制,初步形成了大模型的倫理治理閉環(huán)。通過建立數(shù)據(jù)風(fēng)險(xiǎn)、算法風(fēng)險(xiǎn)以及應(yīng)用風(fēng)險(xiǎn)三方面的倫理評(píng)估機(jī)制,對(duì)產(chǎn)品設(shè)計(jì)、開發(fā)、部署、運(yùn)營(yíng)的全生命周期實(shí)施分2.評(píng)測(cè)與對(duì)齊是模型訓(xùn)練可信賴的關(guān)鍵技術(shù)措施公平性不足的主流方法,通過將評(píng)測(cè)結(jié)果作為獎(jiǎng)勵(lì)模型的反饋優(yōu)化數(shù)據(jù),對(duì)模型進(jìn)行針對(duì)性的微調(diào)與對(duì)齊,大模型能夠在模型層面更大模型可信賴評(píng)測(cè)是提升模型抵抗外部惡意攻擊、干擾信息以及決策偏見的重要手段。大模型可信賴的重點(diǎn)評(píng)測(cè)對(duì)象是安全性、健壯性以及公平性。在安全性測(cè)試方面,評(píng)測(cè)人員通常采用對(duì)抗性提示的方式對(duì)大模型進(jìn)行目標(biāo)劫持、提示泄露以及越獄等安全性評(píng)測(cè)。在健壯性測(cè)試方面,評(píng)測(cè)人員通常會(huì)采用錯(cuò)別字、同義替換、無(wú)關(guān)提示、修改語(yǔ)義等方式,對(duì)生成內(nèi)容的一致性、穩(wěn)定性進(jìn)行評(píng)國(guó)家、性別、種族等敏感屬性進(jìn)行公平性評(píng)測(cè),通過比對(duì)輸入內(nèi)容中是否含有敏感屬性的輸出結(jié)果差異,統(tǒng)計(jì)模型的公平性表現(xiàn)。在評(píng)測(cè)完成后,評(píng)測(cè)人員會(huì)協(xié)同研發(fā)人員共同構(gòu)建面向安全性、健壯性和公平性的模型加固方案,包括但不限于增量學(xué)習(xí)、設(shè)計(jì)針對(duì)性思維鏈技術(shù)有效提升模型邏輯表達(dá)能力。為保障大模型的生成內(nèi)容具備更加合理的推理性邏輯表達(dá),微調(diào)階段的標(biāo)注人員可通過思維鏈技術(shù),在同一提示詞中引入多項(xiàng)解釋性示例,引導(dǎo)模型生成具備一定推理邏輯的回答。比如,在數(shù)理邏輯任務(wù)中,可在示例部分編寫步驟分解形式的解釋說明內(nèi)容,指導(dǎo)模型更容易生成推理步人類反饋強(qiáng)化學(xué)習(xí)(RLHF)是現(xiàn)階段大模型對(duì)齊研究的主要方法。RLHF是一項(xiàng)通過人工反饋回答內(nèi)容的好壞順序指引大模型的比如,商湯科技已經(jīng)將模型評(píng)估測(cè)試與RLHF技術(shù)結(jié)合,將相關(guān)測(cè)試結(jié)果反饋于模型強(qiáng)化學(xué)習(xí)的過程之中,幫助進(jìn)一步提升大模型風(fēng)3.投訴反饋、風(fēng)險(xiǎn)監(jiān)控以及應(yīng)急處置構(gòu)建模型運(yùn)營(yíng)能力投訴反饋機(jī)制是針對(duì)大模型生成內(nèi)容優(yōu)化更新的重要手段。目前投訴反饋機(jī)制主要是通過成立投訴反饋監(jiān)管治理機(jī)構(gòu),對(duì)所有的不良違法生成內(nèi)容進(jìn)行處理。為了更好的推動(dòng)模型的持續(xù)優(yōu)化,模運(yùn)營(yíng)人員會(huì)持續(xù)對(duì)大模型的運(yùn)營(yíng)情況進(jìn)行風(fēng)險(xiǎn)監(jiān)控并對(duì)有害內(nèi)容進(jìn)行溯源,通過對(duì)大模型記錄的用戶上傳內(nèi)容、用戶上傳時(shí)間、IP地址、設(shè)備信息等信息進(jìn)行核查,可實(shí)現(xiàn)對(duì)該內(nèi)容的制作者和使用者應(yīng)急處置用戶惡意行為抑制有害內(nèi)容生成與傳播。大模型運(yùn)營(yíng)期間運(yùn)營(yíng)人員會(huì)對(duì)用戶異常行為、違規(guī)用戶帳號(hào)進(jìn)行監(jiān)控處置。針對(duì)用戶異常行為,運(yùn)營(yíng)人員通過對(duì)用戶行為進(jìn)行分析,根據(jù)異?;钴S度、登錄情況以及輸入內(nèi)容進(jìn)行判斷處置。針對(duì)違規(guī)用戶帳號(hào),(四)生成內(nèi)容層面,過濾與標(biāo)識(shí)實(shí)現(xiàn)內(nèi)容可控可問責(zé)在生成內(nèi)容方面,可信賴實(shí)踐主要涉及生成內(nèi)容評(píng)測(cè)、內(nèi)容審核機(jī)制以及內(nèi)容可追溯能力的建設(shè),實(shí)現(xiàn)內(nèi)容安全可控并具備一定程度的可追溯能力。為緩解大模型“幻覺”現(xiàn)象,生成內(nèi)容評(píng)測(cè)主內(nèi)容審核機(jī)制通常會(huì)采取機(jī)器審核和人工復(fù)審結(jié)合的形式。為進(jìn)一步提升二次編輯導(dǎo)致生成內(nèi)容難以追溯的問題,數(shù)字水印技術(shù)正在1.生成內(nèi)容評(píng)測(cè)為模型優(yōu)化更新提供反饋樣本生成內(nèi)容真實(shí)性測(cè)試抑制深度合成圖像等惡意攻擊。評(píng)測(cè)人員可通過內(nèi)容真實(shí)性測(cè)試檢測(cè)圖像中面部表情一致性與動(dòng)作序列連貫性,并結(jié)合頻譜、聲音和文字等多模態(tài)信息,準(zhǔn)確鑒別包括圖像編生成內(nèi)容準(zhǔn)確性測(cè)試客觀反饋大模型“幻覺”水平。在生成內(nèi)對(duì)生成內(nèi)容的質(zhì)量進(jìn)行評(píng)估,目前商湯科技主要采用整體評(píng)價(jià)、相關(guān)性、可讀性、擬人性、專業(yè)性等五個(gè)指標(biāo)對(duì)文本生成質(zhì)量進(jìn)行評(píng)價(jià),并從生成內(nèi)容事實(shí)性錯(cuò)誤,生成內(nèi)容邏輯性錯(cuò)誤,生成內(nèi)容和生成內(nèi)容安全性評(píng)測(cè)守衛(wèi)大模型生成內(nèi)容紅線。在生成內(nèi)容安全性測(cè)試方面,評(píng)測(cè)人員可采用“紅隊(duì)測(cè)試”的方法,通過構(gòu)建惡意問題數(shù)據(jù)集對(duì)生成內(nèi)容安全性進(jìn)行評(píng)測(cè),其評(píng)測(cè)的維度包括但不限于身心健康、隱私財(cái)產(chǎn)、倫理道德、偏見歧視、違法犯罪、政治2.內(nèi)容審核機(jī)制有效過濾有害輸入及輸出內(nèi)容大模型的生成內(nèi)容審核機(jī)制主要由機(jī)器審核和人工復(fù)審構(gòu)成。機(jī)器審核是一種對(duì)大模型有害輸入、輸出內(nèi)容進(jìn)行檢測(cè)、識(shí)別的機(jī)制,可以有效識(shí)別并過濾有害、不準(zhǔn)確、不恰當(dāng)?shù)膬?nèi)容,通常采用關(guān)鍵詞和語(yǔ)義分析等技術(shù)。人工復(fù)審機(jī)制是目前實(shí)現(xiàn)大模型生成內(nèi)容安全的重要保障。通過人工復(fù)審的方式,對(duì)大模型輸入、輸出的內(nèi)容進(jìn)行再次核驗(yàn)。人工復(fù)審需記錄審核時(shí)間、審核覆蓋度、抽檢方式、審核處置結(jié)論等信息。除人工復(fù)審機(jī)制外,還可以采用巡查審查等方式,定期對(duì)經(jīng)過了機(jī)器審核、人工復(fù)審的內(nèi)容進(jìn)行整體巡查,并及時(shí)根據(jù)巡查結(jié)果優(yōu)化調(diào)整審核規(guī)則及策略。巡查審核需記3.健壯性數(shù)字水印助力實(shí)現(xiàn)內(nèi)容可追溯可問責(zé)數(shù)字水印技術(shù)是一種將信息嵌入到數(shù)字媒體(如圖像、音頻和視頻)中的技術(shù),以便在不改變?cè)济襟w質(zhì)量的前提下,對(duì)其進(jìn)行標(biāo)識(shí)或保護(hù)。這種技術(shù)目前被廣泛應(yīng)用于版權(quán)保護(hù)、內(nèi)容認(rèn)證和數(shù)旋轉(zhuǎn)、縮放等攻擊時(shí)仍能被正確檢測(cè)的能力。為保障生成內(nèi)容的可追溯性,通常會(huì)采用糾錯(cuò)編碼、多重水印、深度學(xué)習(xí)等水印嵌入方大模型的發(fā)展雖然仍處于初期階段,但大模型顯現(xiàn)的風(fēng)險(xiǎn)問題使大模型治理已經(jīng)成為社會(huì)關(guān)注焦點(diǎn)。隨著業(yè)界紛紛發(fā)布大模型服務(wù),大模型產(chǎn)業(yè)正在逐步邁向百家爭(zhēng)鳴的時(shí)代,但伴隨著大模型參數(shù)量、上下文理解能力、生成任務(wù)能力以及多模態(tài)支持能力的不斷更新?lián)Q代,其引發(fā)的相關(guān)風(fēng)險(xiǎn)日益突出。與傳統(tǒng)判別式模型相比,目前大模型的風(fēng)險(xiǎn)主要集中在低質(zhì)量訓(xùn)練數(shù)據(jù)、提示注入攻擊以及生成內(nèi)容的“幻覺”現(xiàn)象,導(dǎo)致用戶對(duì)于大模型的使用仍然保持謹(jǐn)慎態(tài)度。因此,大模型治理的呼聲也隨之而出,甚至部分業(yè)界人士呼吁暫停先進(jìn)大模型的研發(fā)工作,社會(huì)各界對(duì)于大模型可信賴的實(shí)本研究報(bào)告對(duì)如何實(shí)現(xiàn)大模型的可信賴目標(biāo)給出了一系列的實(shí)踐方案,基于可靠性、安全性、公平性、健壯性以及可解釋性等可信賴屬性,從技術(shù)、管理、監(jiān)管等維度對(duì)大模型的可信賴目標(biāo)實(shí)現(xiàn)進(jìn)行了分析研究,并初步梳理了現(xiàn)有產(chǎn)業(yè)的可信賴實(shí)踐案例。但大敏捷治理的態(tài)度,通過技術(shù)、管理相互協(xié)同的治理手段,共同構(gòu)建(二)展望聚焦大模型的可解釋性、價(jià)值對(duì)齊研究。一方面,大模型由于算法“黑箱”問題,目前仍然存在可解釋性問題,需要加強(qiáng)事前、事后可解釋的技術(shù)措施和監(jiān)督,探索生成個(gè)體預(yù)測(cè)的局部解釋和總體模型推理邏輯的全局解釋。比如,部分研究學(xué)者正在通過指令微調(diào)的方式解釋單個(gè)生成內(nèi)容的預(yù)測(cè)結(jié)果,以及OpenAI正在嘗試采用GPT4.0解釋GPT2.0的神經(jīng)元激活過程了解大模型內(nèi)部的工作機(jī)理。另一方面,由于大模型的生成內(nèi)容具有價(jià)值屬性,其價(jià)值觀需要符合主流社會(huì)價(jià)值觀念,但現(xiàn)有的對(duì)齊技術(shù)主要是基于人類反饋強(qiáng)化學(xué)習(xí)技術(shù),同樣也受制于人類反饋的數(shù)據(jù)質(zhì)量和時(shí)效性,以及現(xiàn)有部分對(duì)齊手段很可能被獎(jiǎng)勵(lì)模型通過學(xué)習(xí)欺騙式的獎(jiǎng)勵(lì)策略實(shí)現(xiàn)“欺騙式”對(duì)齊,因此需要探索與人類水平媲美的、同時(shí)具備高可靠性的自動(dòng)對(duì)齊機(jī)器,使對(duì)齊工作從人工反饋逐漸轉(zhuǎn)向具備可擴(kuò)展監(jiān)督能力的自動(dòng)化對(duì)齊系統(tǒng),進(jìn)一步提升大模型的更新迭代效率鼓勵(lì)大模型可信賴技術(shù)多方協(xié)同。大模型可信賴目標(biāo)的實(shí)現(xiàn)需要面向框架、數(shù)據(jù)和算法多項(xiàng)要素,綜合開發(fā)、測(cè)試、運(yùn)營(yíng)等多種人類反饋強(qiáng)化學(xué)習(xí)、內(nèi)容審核等技術(shù)進(jìn)一步降低大模型風(fēng)險(xiǎn)。與此同時(shí),需要加強(qiáng)技術(shù)人員與監(jiān)管方的溝通,共同建立可信賴大模型監(jiān)管體系,遵循大模型治理思路,從技術(shù)、管理、監(jiān)管多方面根本2.生態(tài)維度構(gòu)建評(píng)測(cè)標(biāo)準(zhǔn)生態(tài),推動(dòng)大模型測(cè)評(píng)體系建立。目前多家大模型企業(yè)、研究機(jī)構(gòu)和高校正在積極構(gòu)建大模型的可信賴技術(shù)能力,并積極參與可信賴標(biāo)準(zhǔn)的研制工作,加快推動(dòng)大模型可信賴標(biāo)準(zhǔn)文件出臺(tái)。但當(dāng)前針對(duì)大模型測(cè)評(píng)的標(biāo)準(zhǔn)項(xiàng)目仍然比較欠缺,同時(shí)也缺乏科學(xué)有效的測(cè)評(píng)工具和測(cè)評(píng)方法,難以科學(xué)、高效評(píng)估大模型的生成內(nèi)容質(zhì)量。因此,需要加強(qiáng)構(gòu)建大模型測(cè)評(píng)體系,研制大模構(gòu)建可信產(chǎn)業(yè)共識(shí),細(xì)化行業(yè)大模型可信賴能力建設(shè)。當(dāng)前大模型的發(fā)展重心已經(jīng)從通用大模型面向行業(yè)進(jìn)行細(xì)化發(fā)展,多家企業(yè)紛紛發(fā)布針對(duì)金融、醫(yī)療等領(lǐng)域的行業(yè)大模型,比如商湯科技醫(yī)療健康大模型“大醫(yī)”。但目前針對(duì)大模型可信賴的研究仍然比較從行業(yè)大模型全生命周期的維度考慮如何實(shí)現(xiàn)可信賴目標(biāo),探索打3.治理維度遵循“包容審慎、分類分級(jí)”監(jiān)管原則,探索大模型分類分級(jí)兼顧技術(shù)多樣性發(fā)展與可信賴目標(biāo)的實(shí)現(xiàn)。另一方面,目前特定行業(yè)大模型用戶對(duì)于風(fēng)險(xiǎn)的敏感度不同,加強(qiáng)探索大模型風(fēng)險(xiǎn)分類分級(jí)治理,通過沙箱、自動(dòng)化評(píng)測(cè)、MLOps等工程化技術(shù)手段推動(dòng)大為迎接大模型的全新挑戰(zhàn),加強(qiáng)全行業(yè)、全社會(huì)的人工智能風(fēng)險(xiǎn)治理能力已成為全球各方亟待解決的緊迫命題。我們正式推出“SenseTrust”——商湯可信人工智能基礎(chǔ)設(shè)施,并將持續(xù)通過“商湯AI安全治理開放平臺(tái)”等多種形式,為行業(yè)提供AI治理公益技數(shù)據(jù)合規(guī)審查及偏見評(píng)估等治理工具。數(shù)據(jù)脫敏工具能夠面向活體檢測(cè)、車牌檢測(cè)、文字文檔信息檢測(cè)等廣泛應(yīng)用場(chǎng)景,提供高水平的數(shù)據(jù)脫敏技術(shù),并且具備接口靈活,平臺(tái)覆蓋面廣,實(shí)時(shí)脫敏等優(yōu)勢(shì)。數(shù)據(jù)脫敏服務(wù)還可根據(jù)實(shí)際業(yè)務(wù)需求實(shí)現(xiàn)是否具備重標(biāo)識(shí)的能力,在特定場(chǎng)景下可還原已去標(biāo)識(shí)化的敏感數(shù)據(jù)。數(shù)據(jù)去毒工具能夠在數(shù)據(jù)預(yù)處理環(huán)節(jié)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行帶毒性檢測(cè),判定數(shù)據(jù)是否存在異常,對(duì)毒性進(jìn)行判斷并提出去毒方案此外,面向數(shù)據(jù)要素可信流通,商湯創(chuàng)新打造了“數(shù)據(jù)沙箱”工具。通過沙箱包裝后,結(jié)合隱私計(jì)算集群協(xié)同調(diào)度,實(shí)現(xiàn)數(shù)據(jù)可用不可見,在保證數(shù)據(jù)隱私安全的前期下實(shí)現(xiàn)數(shù)據(jù)價(jià)值轉(zhuǎn)化,促進(jìn)數(shù)據(jù)要素流程利用。目前數(shù)據(jù)沙箱可面向兩個(gè)應(yīng)用場(chǎng)景:一是多用戶擁有不同場(chǎng)景分布的數(shù)據(jù),提供聯(lián)合訓(xùn)練方案,并且具有攜帶離線模型可以完成不泄露數(shù)據(jù)的反演;二是針對(duì)用戶端擁有大量數(shù)據(jù)的場(chǎng)景,可使用數(shù)據(jù)加密訓(xùn)練方案,可以在保護(hù)隱私的前提下完成能夠針對(duì)傳統(tǒng)“小模型”、生成式“大模型”,以及基礎(chǔ)模型提供標(biāo)準(zhǔn)化和定制化的模型評(píng)測(cè)能力。我們針對(duì)傳統(tǒng)“小模型”開發(fā)的模型體檢平臺(tái),能夠面向活體識(shí)別、圖像分類、目標(biāo)檢測(cè)等商業(yè)化需求提供一鍵式評(píng)測(cè),用戶只需提供模型和評(píng)測(cè)數(shù)據(jù)即可進(jìn)行。目前已在商湯的大量商業(yè)化模型檢測(cè)方面獲得驗(yàn)證。模型體檢內(nèi)容包括對(duì)抗安全、魯棒安全、后門安全、可解釋性和公平性評(píng)測(cè)。同時(shí),我們針對(duì)生成式“大模型”和基礎(chǔ)模型測(cè)評(píng)建構(gòu)了百萬(wàn)體量的測(cè)試數(shù)據(jù)集,能夠?qū)崿F(xiàn)對(duì)大模型的倫理屬性、安全屬性,以及模型能力針對(duì)模型體檢出的問題,商湯“SenseTrust”還能夠進(jìn)一步提供模型加固解決方案,主要包括魯棒性訓(xùn)練和AI防火墻兩個(gè)部分。魯棒性訓(xùn)練模塊可以在不損失精度的情況下強(qiáng)化模型的安全性和魯棒性,當(dāng)前主要包括對(duì)抗訓(xùn)練和針對(duì)性的數(shù)據(jù)增強(qiáng)。魯棒性訓(xùn)練模塊是模型開發(fā)的代碼插件,已融入商湯目前的模型開發(fā)流程。AI防火墻模塊主要用于過濾可疑攻擊樣本,可以在不重新訓(xùn)練模型的情況下提升模型部署的安全性。當(dāng)前AI防火墻可以有效抵御主流的黑盒攻擊和物理攻擊方式。AI防火墻和部署的質(zhì)量模型相結(jié)合,在提升在應(yīng)用層面,我們?cè)谏婕皵?shù)據(jù)保護(hù)、數(shù)字取證及偽造檢測(cè)等技術(shù)領(lǐng)域有著深厚的積累,并逐步開發(fā)了基于生成、鑒偽和溯源三位在深偽鑒別方面,商湯“SenseTrust”提供包括數(shù)十種先進(jìn)攻擊手段的偽造生成平臺(tái),為鑒偽檢測(cè)和溯源提供豐富多樣的攻擊案例和海量數(shù)據(jù)支持。并可通過持續(xù)集成先進(jìn)偽造算法,在zero/few-shot場(chǎng)景下快速響應(yīng)難例樣本和長(zhǎng)尾類型,幫助提升鑒偽算法的泛化性。商湯“SenseTrust”偽造檢測(cè)大模型,可充分利用面部表情一致性、動(dòng)作序列連貫性,并結(jié)合頻譜、聲音和文字等多模態(tài)信息,準(zhǔn)確鑒別包括圖像編輯、換臉、活化以及各種先進(jìn)擴(kuò)散模型(如:StableDiffusion)合成的高清人像。主流評(píng)測(cè)數(shù)據(jù)集上算法檢測(cè)精度可達(dá)到99%以上,在應(yīng)對(duì)新技術(shù)復(fù)合偽造方法上(如:通過MidJourney),檢測(cè)能力也高出行業(yè)同類產(chǎn)品20%以上。為實(shí)現(xiàn)偽造數(shù)據(jù)溯源,商湯通過自研基于解耦-重建的偽造檢測(cè)算法,能夠從偽造數(shù)據(jù)中分離出真實(shí)內(nèi)容及偽影痕跡。在針對(duì)10余種主流偽造算提高檢測(cè)算法的可解釋性和可信度。這一技術(shù)為行業(yè)首創(chuàng),并作為偽解決方案已投入實(shí)戰(zhàn),為十余家銀行的安全系統(tǒng)提供服務(wù),對(duì)各類灰黑產(chǎn)攻擊攔截成功率超行業(yè)同類產(chǎn)品20%以上,有效防范了灰在確權(quán)溯源和內(nèi)容保護(hù)方面,商湯“SenseTrust”數(shù)字水印結(jié)合頻域分析、深度學(xué)習(xí)、擴(kuò)散模型等技術(shù),將特定信息嵌入到數(shù)字載體中,同時(shí)不影響載體的使用價(jià)值,也不易被人的知覺系統(tǒng)察覺,只有通過

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論