




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
2023目錄第一章人工智能邁向發(fā)展新階段............................................................................................-1-1.1人工智能發(fā)展迎來全新時代.......................................................................................-1-1.2人工智能可信面臨全新挑戰(zhàn).......................................................................................-2-1.3全球人工智能治理機制進展.......................................................................................-5-1.3.1基于政策法規(guī)的治理機制..................................................................................-5-1.3.2基于生態(tài)共識的治理機制..................................................................................-9-第二章可信AI產(chǎn)業(yè)實踐深入發(fā)展 .-11-2.1應用AI12-2.1.113-2.1.214-2.1.316-2.2應用AI17-2.2.118-2.2.220-2.2.321-2.3互聯(lián)網(wǎng)平臺公平性探索..................................................................................................-22-2.3.1糾偏營銷定價歧視................................................................................................-24-2.3.2改善信息繭房現(xiàn)象................................................................................................-25-2.3.3強化弱勢群體保護................................................................................................-26-2.4AI26-2.4.128-2.4.2IoT(物聯(lián)網(wǎng))28-2.4.330-第三章面向大模型和AIGC的可信AI31-3.1大模型和AIGC31-3.1.131-3.1.2大模型時代下AIGC33-3.2大模型的生成式攻擊和防御.......................................................................................-35-3.2.1大模型的生成式攻擊..........................................................................................-35-3.2.2面對生成式攻擊的防御挑戰(zhàn).............................................................................-37-3.3大模型自身的安全風險與隱患...................................................................................-39-3.3.1大模型的數(shù)據(jù)泄漏問題......................................................................................-39-3.3.2大模型的倫理道德問題......................................................................................-42-3.3.3大模型的攻擊對抗問題......................................................................................-44-3.4大模型的可解釋性及公平性.......................................................................................-47-3.4.1大模型的可解釋性................................................................................................-48-3.4.2大模型的公平性....................................................................................................-49-第四章以技術為保障的可信AI評估......................................................................................-50-4.1可信AI檢測工具...........................................................................................................-50-4.2可信AI檢測框架...........................................................................................................-53-4.3檢測實例分析...................................................................................................................-55-第五章發(fā)展建議和趨勢展望......................................................................................................-57-5.1發(fā)展建議............................................................................................................................-57-5.1.1技術維度..................................................................................................................-57-5.1.2產(chǎn)業(yè)維度..................................................................................................................-59-5.1.3生態(tài)維度..................................................................................................................-60-5.1.4監(jiān)管維度..................................................................................................................-61-5.2未來展望............................................................................................................................-62-英文縮略語對照表.........................................................................................................................-64-插圖目錄1-1可信人工智能技術發(fā)展...................................................................................................1-21-3典型場景風險分析.............................................................................................................1-4可信人工智能技術與監(jiān)管治理進程............................................................................
-3--4--5--6-圖2-1可信AI發(fā)展階段判斷 .-11-圖2-2AI魯棒性的一般技術架構13-圖2-315-圖2-418-圖2-521-圖2-622-圖2-7公平性AI23-圖2-827-圖2-9TEE-DP算法方案29-圖3-133-圖3-234-圖3-3大模型和AIGC36-圖3-4生成式模型的AI生成內(nèi)容甄別38-圖3-539圖3-640圖3-741-圖3-842-圖3-945-圖3-1046-圖3-1147圖3-1250圖4-1當前面向可信AI各子領域的常見工具51-圖4-256-表格目錄表1-1近期代表性政策法規(guī)......................................................................................................-7-表1-2近期代表性監(jiān)管框架.....................................................................................................-8-表1-3近期可信相關代表性標準.............................................................................................-9-表1-4近期代表性企業(yè)可信探索 ..-10-表4-1可信AI檢測指標體系...................................................................................................-53-人工智能邁向發(fā)展新階段人工智能邁向發(fā)展新階段1.1優(yōu)化算法、通用數(shù)據(jù)、硬件算力推動人工智能技術底座不斷夯實。算法層面,已開啟千億級甚至萬億級參數(shù)量預訓練模型的研發(fā)IDC2022年全449717.3%2023537319.5%202328000家,中國約占15%。大模型降低人工智能應用門檻,推動產(chǎn)業(yè)應用創(chuàng)新,應用生態(tài)初步顯現(xiàn)。大模型是傳統(tǒng)人工智能能力的集大成者和新業(yè)態(tài)的創(chuàng)造者,一方面降低人工智能應用門檻,通過零樣本、小樣本學習即可+AI工程化應用落地進程。另一方面驅動產(chǎn)業(yè)應用創(chuàng)新,使傳統(tǒng)任務系統(tǒng)架構大幅簡化,降低生產(chǎn)成本,提升應用效果和效率,加速數(shù)據(jù)和1.2AIAI訓練數(shù)據(jù)的收集、使用、共享可能導致對個人隱私的侵犯和濫用,用戶常常需要在AIAIAI并正由單點的可信AI技術解決方案發(fā)展向包含事前評估、事中攻防和事后治理的人工智能模型全生命周期管理發(fā)展。1-1
來源:螞蟻集團大模型在技術、產(chǎn)業(yè)和社會等多方面引發(fā)新問題,可信需求更加凸顯。從技術維度來看,大模型使用深度神經(jīng)網(wǎng)絡結構,其繼承于深度學習的自有技術局限進一步放大,模型不可解釋、數(shù)據(jù)模型竊取等問題凸顯。從產(chǎn)業(yè)維度來看,大模型潛在的壟斷風險,在賦能產(chǎn)業(yè)的同時可能發(fā)生產(chǎn)業(yè)鏈風險傳遞;大模型本身參數(shù)規(guī)模大、性能相對較強,而配套的標準、評估體系的不健全、不規(guī)范將威脅產(chǎn)業(yè)安全。從社會維度來看,大模型高效生成信息的能力可能帶來對弱勢群體權利的侵害、對勞動力的替代,并可能降低有害信息傳AIAI來源:中國信息通信研究院1-2大模型引發(fā)的不同維度風險受益于大模型技術快速迭代及“模型即服務”趨勢顯現(xiàn),傳統(tǒng)企業(yè)可享受低成本構建應用模型的便利,經(jīng)濟社會進入與人工智能全面融合發(fā)展新階段,也可能形成新的風險。參考《中國新一代人工智能科技產(chǎn)業(yè)發(fā)展(2023)》對人工智能應用領域的判斷,我們分析了大模型時代智慧城市、制造、金融、教育、醫(yī)療等領域應用風險:智慧城市可能因數(shù)據(jù)過度收集而增加數(shù)據(jù)監(jiān)管難度,威脅公民、企業(yè)甚至國家安全;制造場景數(shù)據(jù)合規(guī)性、可信度未知,質量和安全層面均存有疑問,可能因錯誤指令導致機器人運行故障;醫(yī)療場景一旦生成錯誤診療方案,嚴重情況下將有致命風險,且事故責任主體難以確認;金融場景涉及客戶隱私保護和公平性問題,如對特定人群的信用偏見產(chǎn)生貸款等服務歧視;教育場景涉及誤導及幫助學生利用生成類工具投機取巧的學術倫理問題;新媒體和數(shù)字內(nèi)容場景下可能存在虛假內(nèi)容生成、知識產(chǎn)權歸屬和侵犯等問題。1.3
1-3
來源:根據(jù)公開資料整理基于政策法規(guī)的治理機制各地區(qū)人工智能治理各有亮點,整體向以“硬法”為保障的風險防控體系邁進,正在圍繞生成式人工智能監(jiān)管、人工智能倫理治理以及人工智能數(shù)據(jù)版權等議題發(fā)布政策法規(guī),并開始出現(xiàn)人工智來源:中國信息通信研究院1-4可信人工智能技術與監(jiān)管治理進程近期,大模型和AIGC的興起帶來可信AI《人工智能法案》談判授權草案重點確保人工智能系統(tǒng)由人監(jiān)督,實現(xiàn)安全、透明、可追溯、非歧視和環(huán)保;意大利、西班牙、法國等政府于近期對ChatGPT)20234險”。在地方層面,2021AI評測中心,此外,上海發(fā)布的首部人工智能省級法規(guī)《上海市促進人工智能產(chǎn)業(yè)發(fā)展條例》提出探索分級治理和沙盒監(jiān)管,設立人工智能倫理專家委員會;北京將推動實行包容審慎監(jiān)管試點、建設通用人工智能領域科技倫理治理公共服務平臺。1-1近期代表性政策法規(guī)國家/組織發(fā)布時間政策法規(guī)內(nèi)容英國2023年3月發(fā)布人工智能新監(jiān)管框架的提案《支持創(chuàng)新的人工智能監(jiān)管方法》,涉及安全性、透明性、公平性、問責制、競爭和賠償?shù)任鍌€方面。2023年5月英國競爭監(jiān)管機構對人工智能展開調(diào)查,專注于大型語言模型和生成人工智能等“基礎模型”。美國2022年10月白宮發(fā)布《人工智能權利法案藍圖》,提出五項原則:(1)安全有效的系統(tǒng);(2)算法歧視保護;(3)數(shù)據(jù)隱私;(4)通知和解釋清晰、及時和可訪問;(5)設計自動系統(tǒng)失敗時使用的替代方案、考慮因素和退出機制。2023年3月美國科技政策辦公室發(fā)布“促進隱私保護數(shù)據(jù)共享和分析的國家戰(zhàn)略”,推進建設保護隱私數(shù)據(jù)共享和分析(PPDSA)技術,在公平的同時促進創(chuàng)新、建立問責機制、盡量減少弱勢群體的風險。2023年4月美國商務部國家電信和信息管理局發(fā)布《人工智能問責政策征求意見》。G72023年4月七國集團數(shù)字與科技部長發(fā)布聯(lián)合聲明,同意對人工智能采取基于風險的監(jiān)管,計劃開展關于生成式人工智能的討論。中國2022年11月互聯(lián)網(wǎng)信息辦公室、工業(yè)和信息化部、公安部發(fā)布《互聯(lián)網(wǎng)信息服務深度合成管理規(guī)定》,強調(diào)不得2023年4月中國國家網(wǎng)信辦就AIGC研發(fā)和應用發(fā)布了《生成式人工智能服務管理辦法》征求意見稿。韓國2023年5月將在2023年9和可持續(xù)性。歐盟2023年5月GPT數(shù)據(jù)中受版權保護的數(shù)據(jù)摘要等。澳大利亞2023年6月EdHusic布兩份討論檔案就如何使用人工智能征求各界意來源:根據(jù)公開資料整理相關國家和組織也正在發(fā)布人工智能監(jiān)管測試框架、可信人工智能風險管理評估指南、人工智能倫理建議等開放式規(guī)則,堅持共治性、靈活性原則,強化協(xié)同治理,重點關注技術創(chuàng)新與安全監(jiān)管的兼顧方法,促使AI向善,打造可信人工智能良性生態(tài)。1-2近期代表性監(jiān)管框架國家/組織 發(fā)布時間 內(nèi)容發(fā)布全球首個人工智能監(jiān)管測試框架和工具集新加坡美國-歐盟貿(mào)易
20225
A.I.Verify,旨在融合測試和過程檢查,促進企業(yè)和相關利益者之間透明性。發(fā)布可信人工智能和風險管理評估與衡量工具聯(lián)合路線圖,為人工智能風險管理和可信人工智能方
202212月的協(xié)作方法。NISTAI《AI1.0AI與技術研究院美國國家科學基金會與澳大利亞國家科學機構CSIRO聯(lián)合國教科文組織合作中心聯(lián)合國
2023120232202332023320236
以使之能夠在控制多樣性風險的同時,促進可信賴、負責任AI系統(tǒng)的開發(fā)與應用。合作資助解決負責任和合乎道德的人工智能問題,加速在負責任和道德的人工智能解決方案方面開創(chuàng)性研究。ChatGPT應用取得巨大成功的背景下,呼吁各2021AI咨詢機構,定期審查AI治理安排,并就這些安排如何與人權、法治和共同利益保持一致提出建議。來源:根據(jù)公開資料整理基于生態(tài)共識的治理機制近期人工智能國內(nèi)外標準研究主要涉及安全性、可靠性、公平性、風險管理等領域,并開始注重人工智能穩(wěn)定性、透明性,以及人工智能應用后為組織和社會帶來的倫理道德影響。但總體來看,現(xiàn)階段針對通用大模型的標準仍較為欠缺,沒有與人工智能的總體治理框架緊密結合。2021年,中國信通院成立人工智能工程化推進委員會大模型工作組,聯(lián)合各方共同梳理明晰大模型發(fā)展痛點難點問題,形成技術和應用評測標準體系;中國國家人工智能總體組已于2023年5月設立大模型專題組,并啟動大模型標準化選題建議。1-3近期可信相關代表性標準組織時間標準名稱ISO/IEC2022年4月《信息技術IT治理組織使用人工智能的治理影響》2023年2月《信息技術人工智能風險管理指南》在研《人工智能功能安全與人工智能系統(tǒng)》在研《信息技術人工智能機器學習模型與人工智能系統(tǒng)可解釋性的目標和方法》在研在研《信息技術人工智能人工智能系統(tǒng)的透明分類》IEEE2023年5月《基于人工智能醫(yī)療設備的性能和安全評估》2023年6月《基于人工智能圖像識別服務的魯棒性測試和評估》在研《人工智能組織治理的推薦實踐》在研《可解釋人工智能的架構框架指南》在研《自主和智能系統(tǒng)中仿真同理心的倫理考慮標準》中國電子2023年3月《人工智能倫理治理標準化指南》全國信息技術標準化技術委員會在研《人工智能深度學習框架多硬件平臺適配技術規(guī)范》在研《人工智能管理體系》全國信息安全標準化技術委員會在研《信息安全技術機器學習算法安全評估規(guī)范》在研《信息安全技術人工智能計算平臺安全框架》中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟在研《可信人工智能組織治理能力成熟度模型》在研《大規(guī)模預訓練模型技術和應用評估方法第5部分:安全可信》來源:根據(jù)公開資料整理企業(yè)是可信人工智能的實踐主體,是人工智能技術研發(fā)和創(chuàng)新應用的領先者,要以高度負責的態(tài)度對待其所開發(fā)和使用的人工智AI自治工作,積極落實人工智能技術、產(chǎn)品和服務的可信要求。企業(yè) 發(fā)布時間 相關產(chǎn)品/計劃微軟企業(yè) 發(fā)布時間 相關產(chǎn)品/計劃微軟20233月Security技術應用在了網(wǎng)絡安全領域。英偉達20234月NeMoAI模型設置“護欄”,防止它們產(chǎn)生不良的輸出。谷歌20234月推出生成式人工智能網(wǎng)絡安全套件。OpenAI20234月發(fā)布了ChatGPT安全方法(OurapproachtoAIsafety)以確保安全、可靠地為全球用戶提供ChatGPT服務。英特爾BCG20235月AI,為企業(yè)提供定制和專有的解決方案,同時將私人數(shù)據(jù)與他們的可信任環(huán)境隔離OpenAI20235月首席執(zhí)行官SamAltman呼吁美國國會成立一個監(jiān)管人工OpenAI100萬美元開展人工智能治理的研究計劃。百度20231月發(fā)布模型可解釋算法庫InterpreteDL、可信AI工具集TrustAI、安全與隱私工具PaddleSleeve。華為20232月參與發(fā)起“人工智能安全可信護航計劃”,探索人工智AI商湯20234月推出“AI安全治理開放平臺”,可提供模型體檢和開源的防御解決方案,推動建設開放、可信的人工智能創(chuàng)新生態(tài)。 ,。來源:根據(jù)公開資料整理產(chǎn)業(yè)實踐深入發(fā)展AI產(chǎn)業(yè)實踐深入發(fā)展人工智能技術在各個行業(yè)的深入應用,帶來了前所未有的機遇AI成為了產(chǎn)業(yè)界關注的焦點。2021年,中國信通院在國內(nèi)首本《可信人工智能白皮書》中首次系統(tǒng)提出可信人工智能全景框架,提煉出行業(yè)內(nèi)較為統(tǒng)一的可信人工智能特征要素。在安AI2-1AI
來源:螞蟻集團AIAIAIAI魯棒性技術對抗惡意攻擊AI魯棒性技術對抗惡意攻擊AI一項重要且復雜的課題,涵蓋不同成因、不同數(shù)據(jù)類型的魯棒性問題及其防御機制。魯棒性問題的成因主要分為以下四種:隨機攻擊(在自然條件下隨機發(fā)生的,例如隨機噪聲、缺失、分布漂移)、盲盒攻擊(僅僅基于先驗條件下的攻擊,例如文字同音詞替換、圖像風格遷移)、黑盒攻擊(不能夠獲取模型的參數(shù)信息,但能獲取模型推理結果)和白盒攻擊(被攻擊模型的模型參數(shù)可以被獲取,通常用于評估最壞情況下的模型安全和魯棒性)。其中,高回報的場景如人臉識別更多面臨黑盒攻擊,而實際業(yè)務場景則更常見隨機攻擊和盲盒攻擊,白盒攻擊在實際業(yè)務中較為少見。不同數(shù)據(jù)類型的攻擊形式具有明顯差異,有效的防御手法應依數(shù)據(jù)類型而定,包括基于檢測的防御、預處理防御、模型結構加固、魯棒性loss提升魯棒性技術的關鍵在于結合不同的數(shù)據(jù)類型和攻擊方式,采用相應的防御手法,以實現(xiàn)模型的安全性和可靠性。此外,對魯棒性問題進行全面深入的研究,并將所獲得的知識和技術應用到具AI2-2AI
來源:螞蟻集團面向不同數(shù)據(jù)類型和攻擊方式,提供針對性的防御優(yōu)化能力。提升文本識別對抗能力在文本場景中,攻擊者的攻擊手法多、成本低且會不斷更新。以賭博推廣文本的識別場景為例,攻擊者會采用各種策略,如文字形變、音變、語種混雜等,嘗試在不改變原有文本語義的前提下,規(guī)避識別(例如,將一句常見的賭博推廣語“快加入我隊伍,一起躺贏賺紅包”,轉變?yōu)椤摆b咖叺我隊伍,一起躺贏賺葒笣”,仍然能傳達出賭博推廣的信息)。類似的變形變種技巧難以窮舉,對于識別模型來說,是極大的挑戰(zhàn)。業(yè)界目前常用穩(wěn)定化特征、對抗訓練等魯棒性技術予以應對。首先,模型開發(fā)者可以提取更為穩(wěn)定的特征,例如字音、字形和深度表征,這些特征更能反映文本的本質含義,而不易受表面形式的干擾。其次,模型開發(fā)者可以采用基于參數(shù)的對抗訓練方法,如快Gradient提升圖像偽造識別能力在圖像場景中,模型的魯棒性問題在學術界和工業(yè)界都有大量2014(PGDC&WDeepFool2-3
來源:螞蟻集團2014與之相對的,通過在樣本側的修改進行攻擊嘗試,是生產(chǎn)實踐泛指圖像編輯篡改類技術)手段生成虛假的商戶門頭照,以此來繞過(PS圖片即使人眼都很難做出正確判斷)、訓練數(shù)據(jù)集中黑樣本很少、覆蓋的PS(一旦某種PSPS模擬生成PS同時也有利用基于模型參數(shù)對抗的算法AWP(AdversarialPerturbation)TRADES(TRadeoff-inspiredAdversarialDEfenseviaSurrogate-lossminimization)AIGC技術發(fā)展十分迅速,生成的偽造圖像質量也越來越高,PSAIGCPSAIGCAIGC偽造內(nèi)容的AIGC時代重要課題之一,而如何利用魯棒性技術提升對不同的AIGC提升生物核身檢測能力近年來,人臉識別、聲紋識別及指紋識別等生物識別技術在各領域廣泛應用,其影響力跨越支付安全、智能門禁、公共安全等多個領域。然而,隨之而來的挑戰(zhàn)就是如何有效抵御攻擊者使用深度偽造技術制作的假圖像、音頻和視頻等進行欺詐。聲紋識別場景中,語音合成與語音轉換技術的發(fā)展,使得攻擊者能夠制造出極具欺騙性的偽造語音,這對聲紋識別系統(tǒng)構成了嚴括輔助信息和增強算子兩大領域,輔助信息技術通過為模型提供額外的有用信息,從而提高模型的判斷力,常見的輔助信息包括活體深度圖、攻擊反射圖、傅里葉頻譜以及心率脈沖信號等。例如,活3D3DSobelLaplacian需要關注的是,生物識別應用中魯棒性技術的發(fā)展并不是孤立的,而應與其他技術,如傳感器技術、圖像生成、大模型技術等,共同發(fā)展,實現(xiàn)相互推動。只有這樣,我們才能在面對日益復雜和多變的安全挑戰(zhàn)時,提供出更為準確、可靠和魯棒的解決方案。AI對很多產(chǎn)業(yè)場景而言,可解釋性是一種剛需。互聯(lián)網(wǎng)金融場景中,需要對用戶賬戶被限權引發(fā)投訴等服務訴求進行可解釋回應;監(jiān)管場景中,盡職調(diào)查、可疑交易報送等義務履行都有強可解釋的要求;風險運營和風險審理等場景中,對證據(jù)提示、風險歸因、手法挖掘等也有不同的要求。2-4
來源:螞蟻集團從“讓人理解模型”和“讓模型理解人”出發(fā),實現(xiàn)專家經(jīng)驗和機器學習的有機融合。從可解釋AIAI另一類則研究如何吸收已有的專家經(jīng)驗,例如可解釋檢索、邏輯圖譜等算法,使得模型結果符合人工的邏輯推理過程,出現(xiàn)了諸如人機結合、邏輯交互、可視化的人工經(jīng)驗AI用于模型歸因的可解釋用于模型歸因的可解釋模型歸因所使用的特征通常經(jīng)過人工構造,具有業(yè)務視角的可解釋性,輸出結果相對標準化,更容易被業(yè)務部門和監(jiān)管機構讀取和接受,在金融征信、客戶運營、智慧醫(yī)療等行業(yè)中應用廣泛??山忉尩姆椒ê凸ぞ呖梢詭椭脩羯钊肓私饽P偷臎Q策過程,從而提Shapley可加性解釋ELI5決策樹解釋器ELI5SHAP和ELI5此外,許多業(yè)務場景需要對時空數(shù)據(jù)進行建模。序列模型是一種常見工具,并在近年來引入了深度學習算法,極大提升了效能,擴展了應用場景。與計算機視覺和自然語言處理等領域不同,序列模型的輸入數(shù)據(jù)通常是呈現(xiàn)為序列形式的事件數(shù)據(jù),一個典型的用戶行為序列包括注冊、登錄、信息修改、支付等事件,每個事件都帶有豐富的屬性(如時間戳、金額、設備信息),通過屬性、子序列和模型級別的可解釋算法可以對模型的輸入數(shù)據(jù)、序列信息、序列組合進行分析和解釋,基于Attention(注意力機制)的方法或者基于梯度和分解歸因的算法,如逐層相關性傳遞算法LRP(Layer-wiseRelevancePropagation)IG(IntegratedGradients)等方法得到類似熱力圖高亮,seqSHAP(SHAP時間序列SHAPSeries和KernalSHAP(核心SHAPKernal將序SequentialMask)序列模型尤其是深度學習模型,因其復雜性和黑箱特性,模型的解釋性往往需要結合專家知識進行輔助性判定。例如序列級的可->->->復雜關系網(wǎng)絡的可解釋復雜關系網(wǎng)絡的可解釋金融、搜索、推薦、營銷等領域往往存在著復雜的關系網(wǎng)絡,例如金融領域中的資金流動網(wǎng)絡、搜索引擎中的網(wǎng)頁鏈接網(wǎng)絡、推薦系統(tǒng)中的用戶行為網(wǎng)絡、營銷領域中的客戶關系網(wǎng)絡。這些網(wǎng)絡中節(jié)點關系錯綜復雜,傳統(tǒng)的統(tǒng)計分析方法往往難以捕捉,而圖模型可解釋正是一種能夠可視化抽取復雜關系網(wǎng)絡信息的方法。圖模型是一種復雜關系網(wǎng)絡的建模工具,能夠很好抽取網(wǎng)絡中節(jié)點、路徑、子圖的信息,可視化呈現(xiàn)復雜的關系,圖模型可解釋方法可以幫助用戶深入了解模型的決策過程,提高模型的可理解性和可靠性。常見的圖模型可解釋方法包括節(jié)點可解釋、路徑可解釋和子圖可解釋等,能夠更加直觀地描述復雜關系網(wǎng)絡中的節(jié)點、路徑和子圖,從而提高圖模型的透明度。例如節(jié)點可解釋能夠給出節(jié)點的關鍵信息及重要鄰居,幫助銀行等貸款機構更好地理解客戶的信用風險和財務狀況,從而更準確地評估貸款額度;路徑的可解釋可用于涉黑客戶的資金鏈路視角分析風險,能夠幫助金融機構更好地識別潛在的風險和機會,提高業(yè)務的效率和準確性;子圖級別的可解釋方法能夠基于圖上社區(qū)挖掘的結果,自動提取常見的子圖模式,據(jù)此可以定義手法相似的團伙,進而洞察新的作案模式。2-5
來源:螞蟻集團左(圖模型路徑可解釋):算法利用進出平衡、時間臨近等原則,構建優(yōu)化模型,對涉黑的資金鏈路進行追蹤,通過精準的路徑分析,業(yè)務方可以更加有效地識別和打擊黑灰產(chǎn),降低洗錢風險水位。(圖模型子圖拓撲可解釋通過刻畫子圖的相似程度對子圖進行聚類或者相似性檢索,在風險運營中可以通過這些解釋信息定義手法相似的團伙,進而洞察新的作案模式。融合專家知識的可解釋復雜場景的可解釋性往往需要依賴AI模型和領域專家知識的有效互補。一些行業(yè)基于領域專家先驗知識和知識圖譜的邏輯可解釋方法,在知識融合上做了有價值的創(chuàng)新。比如在互聯(lián)網(wǎng)法庭等智AI2-6
來源:螞蟻集團用戶投訴“他賣我賬號,一千多,我付款了,他注銷賬號”,系統(tǒng)通過特征提取語義理解+禁限售品類”的可解釋說明和相關證據(jù)?;ヂ?lián)網(wǎng)平臺公平性探索互聯(lián)網(wǎng)平臺公平性探索AI字鴻溝的的必要舉措,同時也讓平臺型業(yè)務更加開放包容,為小微AI(公平性是一個前沿且寬泛的領域,學術界以及監(jiān)管機構仍處在對公平性的探索中,主要強調(diào)需要建設可衡量公平的指標,通過追蹤指標的表現(xiàn)更全面的審視公平性的變化以及技術能力的影響。針對公平性問題,需要分步驟解決三個問題:量化看清搜推營不公平現(xiàn)象、尋找造成不公平的主要原因、針對性優(yōu)化不公平模型。2-7AI
來源:螞蟻集團糾偏營銷定價歧視營銷定價算法在市場經(jīng)濟中已經(jīng)廣泛應用。這種算法是通過大數(shù)據(jù)、人工智能等技術手段,對消費者進行個性化定價,以達到最優(yōu)化的銷售效果,例如,酒店在同一時間段內(nèi),對于訪問其網(wǎng)站的不同用戶給出不同的房價。但是,以人工智能為驅動的結果導向式的方法增強了價格歧視的程度和普遍性,是中國用戶最有體感的公平性問題之一。在營銷定價中,殺熟歧視問題是由算法中的變量選擇和權重設定引起的,算法可能會將消費者的歷史購買行為、所在AI營銷定價中的算法應用需要降低數(shù)據(jù)偏差帶來的歧視、殺熟風險。為了解決這一問題,需要在算法設計中引入公平性原則。一是對算法中的變量和權重進行透明、公開和平等的處理,以確保定價公正合理。二是建設特征消除的智能算法(比如對抗技術、多目標技術)將用戶的關鍵信息隱匿掉后再給模型決策應用,這樣定價過程中會更公平地對待每個用戶。此外,通過引入更全面的定價機制也可以一定程度上消除價格歧視,如亞馬遜使用動態(tài)定價算法,基于用戶的購物模式、競爭對手的價格、利潤率、庫存以及其它各種數(shù)據(jù),商品會根據(jù)需求每天變動價格250萬次,一定程度上消除了顧客被“殺熟”的風險。改善信息繭房現(xiàn)象搜索推薦業(yè)務中的不公平問題體現(xiàn)在商品多樣性方面,具體來說,在搜索推薦結果中,某些品牌或商家的商品排名較高,會引起更多的點擊和購買行為,導致這些品牌或商家在搜索推薦結果中更占優(yōu)勢。這種情況下,當消費者使用搜索引擎時,搜索引擎會根據(jù)消費者的歷史搜索記錄和行為習慣進行推薦,這可能會導致消費者只看到符合自己偏好的信息,被推薦的商品所限制而忽略了其他更多的信息,從而形成信息繭房。此外,搜索推薦業(yè)務應避免對任何品牌或商家進行不公正的偏待,保障消費者的選擇權利。比如在內(nèi)容推薦的應用上,短視頻平臺通過深度學習技術框架建立模型預估了用戶對某個內(nèi)容產(chǎn)生互動的概率,并在推薦機制中設置了一定比例的興趣探索內(nèi)容與不常觀看內(nèi)容,實現(xiàn)了推薦內(nèi)容的多樣性。同時,也需要鼓勵消費者增強強化弱勢群體保護公平性還有一方面的重點是需要加強對青少年、老年人、殘障用戶等弱勢群體在互聯(lián)網(wǎng)平臺服務上的保護。近幾年發(fā)展迅猛的短視頻行業(yè)中,弱勢群體因為特征數(shù)據(jù)少、群體量占比較低,在獲取短視頻內(nèi)容時往往會受到熱門視頻、年輕用戶偏好、針對性誘騙的影響面臨著不公平的情況,暴力、偏激、虛假信息等內(nèi)容可能會對他們的身心健康產(chǎn)生不良影響。為了保障弱勢群體的權益,短視頻平臺通常需要采取一些措施,保護他們獲取公正、真實、豐富的信息的權利,確保公平性和平等性。首先,短視頻平臺會建立網(wǎng)絡內(nèi)容審核機制,加強內(nèi)容審核的力度,避免不良信息的傳播和傳遞。同時,短視頻平臺需要單獨建立弱勢群體的針對性推薦視頻種類以及推薦策略,加大健康、生活相關的符合弱勢群體社會保護性質的短視頻推薦。總之,青少年、老年人及弱勢群體不應該作為平臺牟利的目標人群,而是需要增加投入強化對他們權益的保護,共同推動互聯(lián)網(wǎng)平臺的良性發(fā)展。AI人工智能帶來的數(shù)據(jù)隱私和安全問題在個人、企業(yè)乃至國家層隱私泄露等個問題,陸續(xù)出臺相關政策。從企業(yè)層面來看,數(shù)據(jù)是企業(yè)的核心資產(chǎn),出于商業(yè)競爭和數(shù)據(jù)保護等考慮,企業(yè)不愿意也不放心將其核心數(shù)據(jù)直接提供給合作方使用。從個人層面來看,個人也擔心在互聯(lián)網(wǎng)大環(huán)境中的隱私泄露,不愿意將上網(wǎng)行為數(shù)據(jù)暴露給他人。2-8
來源:螞蟻集團多方建模旨在符合各項法律、法規(guī)及政策的前提下進行順暢高效的數(shù)據(jù)合作,解決“信息隱私”和“數(shù)據(jù)孤島”問題,達成合作共贏。目前業(yè)界有三大主流的技術方案:基于硬件的可信執(zhí)行環(huán)境Execution(MPC,Multi-PartyComputation)Learning)方案。在實際應用中,需要結合具體場景、數(shù)據(jù)量來選擇對應的技術方案,同時也要結合成本預算、隱私保護等級和收益來綜合考量。終端社交內(nèi)容中的隱私保護在眾多內(nèi)容風險場景中,聊天文本中存在很多賭博類、色情類、涉政類以及欺詐類話術,對于風險主體識別非常重要。由于隱私合規(guī)的限制,大部分聊天類數(shù)據(jù)無法在服務端進行存儲,只能通過實時策略或實時模型進行風險識別。通過將模型部署在終端設備上,同時結合GAN-InstaHide(GenerativeAdversarialNetworks-InstanceHidingscheme,生成對抗網(wǎng)絡-實例隱藏策略)等算法,可以有效保護用戶隱私。相比2)InstanceEncoding隱私增強算法,降低樣本表征中蘊含的原始數(shù)據(jù)信息,使樣本表征難以反推復原出原始數(shù)據(jù),保護用戶隱私,同時使得密文表征可以PerSecond,)IoT(物聯(lián)網(wǎng))人臉特征隱私保護算法人臉識別技術被廣泛應用在核身、支付等各類場景,在業(yè)務蓬/作為用戶感知強的應用場景,生物信息的隱私保護極其關鍵和重要,近年來中華人民共和國最高人民法院、工信部等頒布《信息安全技術個人信息安全規(guī)范》等相2-9TEE-DP
來源:螞蟻集團REETEE中,有效保證了本地鏈路中人臉特征的安全性。TEE-DP方案可以有效保護人臉特征庫,并具有系統(tǒng)安全、特征不可逆、識別精度無損、資源開銷小、計算效率高等優(yōu)點。如何嚴格遵循監(jiān)管的要求,有效保護刷臉用戶的隱私安全,是當前人臉識別業(yè)務的研究重點,也是各大廠商面臨的挑戰(zhàn)。螞蟻TEE-DPTEE和加噪算法的優(yōu)點,以DPTEE為基礎,先在云側建立密態(tài)特征庫和密態(tài)加噪特征庫,然后一起下發(fā)到REE(RichExecutionEnvironment)首先在REETEE二階段的方式能夠有效緩解TEEREE了DP多方安全計算助力行業(yè)跨機構協(xié)作在法律與相關政策的推動下,各類機構都在積極開展數(shù)據(jù)安全與合規(guī)能力建設,多方安全計算是一種被廣泛采納的數(shù)據(jù)可信流通技術方案,在普惠金融、智慧醫(yī)療、保險科技、智慧城市等方向均取得了良好效果。30+萬名低風險客戶,幫助銀行高效完成風險管控,擴大普惠信貸服務范圍。在聯(lián)合營銷領域中,第四范式的云知聯(lián)邦學習平臺構建了多方安全計算全棧解決方案,某個區(qū)域銀行本行通過其他卡機構補充優(yōu)質跨行消費行為、資金流動性數(shù)據(jù),利用聯(lián)邦學習等算法聯(lián)合建模得到優(yōu)質高凈值客戶,AUC(曲線下面積)KS(Kolmogorov-Smirnov檢驗10%習技術實現(xiàn)了跨數(shù)據(jù)源數(shù)據(jù)虛擬融合,針對全基因組關聯(lián)分析AssociationStudy)、罕見病專病靶向性基因研究等這類依賴大樣本量的研究,解決因單一機構樣本量不足而導致研究結果可信度下降的問題。目前多方安全計算平臺建設參與商眾多,涉及各行業(yè),但各方的數(shù)據(jù)、平臺無法直接打通,因此跨平臺互聯(lián)互通是亟待解決的方向,互聯(lián)互通生態(tài)有助于多樣化數(shù)據(jù)的可信鏈接,有利于業(yè)務模型改善,是可信數(shù)據(jù)生態(tài)建設中不可或缺的部分。面向大模型和AIGC的可信AI探索AIGC隨著人工智能行業(yè)的發(fā)展和研究工作的不斷累積,為了在各個機器學習任務下見證更加智能與精準的結果,人工智能算法模型的規(guī)模正在逐年提升。大模型的涌現(xiàn)和人工智能產(chǎn)業(yè)的不斷完善豐富了現(xiàn)如今各行各業(yè)的生產(chǎn)和生活內(nèi)容,使大模型時代下AIGC的發(fā)展達到了新的高度。大規(guī)模深度學習模型發(fā)展歷程2012AlexNet為代表的早期經(jīng)典模型參數(shù)量20182OpenAIGPTGoogle的、OpenAI的、Meta的、Nvidia的Microsoft的DialoGPTGoogle的MeenaMeta的Blender停止,業(yè)界的各大公司在互相競爭與互相啟發(fā)中不斷提出新的AI大模型,從而在自然語言處理、計算機視覺、對話系統(tǒng)等多任務和多模態(tài)場景上獲得性能的突破。參與競賽的大型企業(yè)包括國外的GoogleBrain、DeepMind、OpenAIMetaMicrosoft,國內(nèi)如百度、阿里巴巴、華為等公司也都參與在大模型的時代浪潮中。如AIAI構建大模型的核心技術通常包括預訓練(Pre-training)、指令Inrutonuersedi-tn,、基于人類反饋的強化學習(ReinforcementLearningwithHumanFeedback,RLHF)等,訓練大模型的數(shù)據(jù)也從傳統(tǒng)的網(wǎng)頁、書籍、程序代碼擴展到了更多領域的多模態(tài)數(shù)據(jù)中。大規(guī)模的參數(shù)量使大模型獲得了“知識涌現(xiàn)”能力,在參數(shù)規(guī)模達到一定水平時,知識涌現(xiàn)的模型相比于傳統(tǒng)模型表現(xiàn)出更強的上下文學習能力(In-contextLearning,ICL)、理解任務指令來執(zhí)行新任務的泛化能力(InstructionFollowing,IF)以及對于中間步驟的思維鏈推理能力(ChainofThought,COT),ChatGPT等大模型應用能夠形成更加智能的場景理解能力和答案生成能力。然而,如今的大模型仍然面對著訓練成本高昂、靜態(tài)訓練數(shù)據(jù)的時效性、訓練結果的真實性等問題和局限,走向通用人工智能(ArtificialGeneralIntelligenceAGI)AIGC的產(chǎn)業(yè)生態(tài)與可信挑戰(zhàn)ICASurveyofLargeLanguageModelsGPT、等代表的大模型帶來的驚人效果開始,語言模型的能力就已能夠基本覆蓋并在效果上突破所有目前的NLP任務。在視覺大模型方面,基于擴散模型(DiffusionModel)的DALL-E-2和ImagenXDLAIBoxFacebook的ZionEX、以及快手Persia來源:根據(jù)《ASurveyofLargeLanguageModels》統(tǒng)計3-1各大企業(yè)的大模型發(fā)展與生態(tài)大模型在多模態(tài)上出色的性能表現(xiàn)使基于大模型的中心化應用開始不斷涌現(xiàn),國內(nèi)諸如百度“文心一言”、華為“盤古”、阿里LaMDAPaLM等大模型、MetaLLaMA,以大模型為API(ApplicationProgramming來源:中國信息通信研究院、清華大學3-2大模型時代下面臨的安全可信挑戰(zhàn)然而,在大模型的產(chǎn)業(yè)應用中,與大模型有關的安全事件正不斷發(fā)生。例如,三星企業(yè)員工使用大模型造成其內(nèi)部資料外泄,數(shù)萬人簽名呼吁暫停研發(fā)比更強大的AI6目前,大模型的安全風險主要包括大模型生成內(nèi)容風險、大模型自身安全風險以及一些其他風險問題,其中,大模型生成內(nèi)容風險涉及生成虛假有害信息、網(wǎng)絡攻擊賦能等模型的生成式內(nèi)容引發(fā)的安全問題;大模型自身安全風險涉及隱私泄漏問題、倫理道德問題、模型攻擊對抗問題等。此外,大模型的可解釋性和公平性問題也是目前討論頗深的前瞻性話題。大模型的生成式攻擊和防御大模型的生成式攻擊和防御AIGC時代,人工智能的內(nèi)容創(chuàng)作相比以往時期更加智能化與精準化,高質量的多模態(tài)生成內(nèi)容AIGC所帶來的內(nèi)容創(chuàng)作賦能使文章和新聞創(chuàng)作、音樂創(chuàng)作、視頻和影像創(chuàng)作、藝術創(chuàng)作等領域發(fā)揮出了更大的潛能與價值,但也便利了別有用心的攻擊者實施快速有效的虛假信息傳播與網(wǎng)絡攻擊行為。因此,在真假難辯的互AI探索可信AI大模型的生成式攻擊大模型的生成式攻擊通過使用AI大模型可以在極低的成本下AIGC的虛假信息傳播。大模型的使用可以加快虛假內(nèi)容的制作速度,使信息內(nèi)容治理面臨著全新的挑戰(zhàn)。在文本內(nèi)容方面,惡意用戶可以利用AI3-3AIGC
來源:清華大學AIGCackesatT可以在幾秒內(nèi)生成一條完整的詐騙套路,從各種攻擊鏈與社會工程的攻擊工具入手,突破具備系統(tǒng)級防御手段的入侵檢測系統(tǒng),實現(xiàn)多種網(wǎng)絡攻擊行為。由于大模型所涉及的學習知識包含了網(wǎng)絡攻擊IC讓不成熟的攻擊者實現(xiàn)頗具破壞力的網(wǎng)絡攻擊。研究表明,以ChatGPT為代表的AIAI面對生成式攻擊的防御挑戰(zhàn)面對AI的檢測與防御能力的突破是大型機器學習平臺需要解決的迫生成式大模型的AIAI所創(chuàng)作的精巧的生AIAIGC鑒別的技術路線主要使用人工標注的數(shù)據(jù)集,并構建二分類模型對內(nèi)容是由人類生成還是由AIAI大模型時有著巨大的局限性,同時AIGC技術本身的優(yōu)化目標即是使內(nèi)容創(chuàng)作更近似于人類生成,在未來面對更加智能的大模型所生成的內(nèi)容時,常規(guī)的鑒別手段存在完全失效的可能。3-4AI
來源:清華大學基于模型水印的AIAI模型所創(chuàng)作的內(nèi)容設置身份信息,幫助使用者明確當前內(nèi)容是否為AI創(chuàng)作的內(nèi)容。然而,面對大模型時代下的生成模型,水印微調(diào)需要在海量的計算資源才能完成,如何經(jīng)濟有效地驗證如大語言模型的AI來源:清華大學3-5基于模型水印的身份標識方法的邏輯架構大模型自身的安全風險與隱患隨著大模型部署的熱潮如期而至,ChatGPT等大語言模型的訪AI大模型逐漸暴露了其平臺內(nèi)所隱藏的安全隱患,使人們意識到現(xiàn)階段的AI大模型的數(shù)據(jù)泄漏問題大模型的數(shù)據(jù)泄漏風險是目前影響范圍最廣、危害程度最大的大模型安全風險,其暴露的用戶隱私與企業(yè)機密信息在整個社會范圍內(nèi)都引起了巨大的反響,以至于三星、軟銀、松下、摩根大通等企業(yè)甚至已完全禁止其內(nèi)部員工使用如ChatGPT等的大語言模型。大模型的提示語泄漏。在AIGC技術的發(fā)展下,基于提示語AI+Prompt運營方的新型重要知識產(chǎn)權。然而,20232BingChat的Prompt3-6
來源:清華大學AI大模型,如ChatGPTChatGPT20天發(fā)生了三起半導體機密資料外泄事件,隨后要求員工不得在工作場所使用生成式人工智能;由于數(shù)據(jù)隱私問題,意大利對ChatGPT并暫時限制OpenAIAI3-7
來源:清華大學承載大模型的軟件漏洞導致的數(shù)據(jù)泄漏。大模型的運營需要基于云計算系統(tǒng)的包括海量etrlrcesngn)和ProcessingBug、安全隱患會導致安全與隱私問題。大模型對多個開源或閉源軟件庫有復雜的依賴關系,而這些軟件庫的Bug會導致大模型的敏感數(shù)據(jù)23年3htT依賴的開源庫eis的ug1%用戶數(shù)據(jù)遭到泄漏。其次,支持大模型的操作系統(tǒng)層面漏洞同樣會導致數(shù)據(jù)泄漏,攻擊者可以在操作系統(tǒng)層面利用內(nèi)存讀取、緩存管理模式等側信道信息重構關鍵模型信息,從而引發(fā)數(shù)據(jù)泄露威脅。來源:清華大學3-8承載大模型的軟件漏洞導致的數(shù)據(jù)泄漏大模型的倫理道德問題大模型的倫理問題同樣給AI大模型的使用帶來了嚴重的安全風險。例如,大模型學習的數(shù)據(jù)中存在仇恨言論、違法犯罪等有害身心健康的內(nèi)容,對于敏感話題內(nèi)容的監(jiān)管仍然面臨巨大挑戰(zhàn)。同時,過度依賴大模型的內(nèi)容生成服務導致了更多抄襲行為的發(fā)生,全球多所高校和學術機構已宣布禁止學生使用ChatGPT違規(guī)內(nèi)容輸出的倫理問題。面對輸入的敏感問題,現(xiàn)有大模型通常在內(nèi)容生成后的下游接入內(nèi)容檢測模型,對大模型生成的內(nèi)容進行有害內(nèi)容的檢測與分類。然而,訓練內(nèi)容檢測模型需要人工標注的有害內(nèi)容數(shù)據(jù)集,靜態(tài)且有限規(guī)模的人工標注數(shù)據(jù)集無法完全覆蓋日新月異的用戶輸入,使得總有模型生成的有害內(nèi)容繞過檢測模型的風險,最終使大模型錯誤地輸出了不良內(nèi)容。究其根本,是有害樣本的人工標注難以全面覆蓋用戶動態(tài)更新的敏感話題,致使內(nèi)容檢測模型的無效并使有害內(nèi)容最終被大模型輸出。教育公平性的倫理問題。在教育方面,對于生成式大模型的過度依賴已經(jīng)引起了人們的擔憂。據(jù)報道,巴黎政治學院、香港浸會大學等全球多所高校已禁止學生使用ChatGPTAIGC服務的輔助功能來幫助教育科研事業(yè)的發(fā)展仍然需要更多深入的探大模型社會責任的倫理問題。大模型驚人的智能表現(xiàn)引發(fā)了社AI實現(xiàn)AI的可控將一直是AGI發(fā)展路上需要思考的問題。大模型的攻擊對抗問題大模型的本質是基于AI的訓練步驟和PromptAI面向大模型的提示語攻擊通過給出AIChatGPTChatGPT存在的缺陷之一是對輸入措辭的調(diào)整或多次嘗試同一提示很敏感。也就是說,輸入一個敏感問題,模型可以聲稱不知道答案,但重新(Prompt(Jailbreaking)AI3-9
來源:清華大學面向大模型的數(shù)據(jù)投毒攻擊通過在訓練數(shù)據(jù)中注入惡意樣本或AI面向大模型的數(shù)據(jù)重構攻擊可以利用黑盒查詢等手段恢復大模型的訓練數(shù)據(jù)。有經(jīng)驗的攻擊者可以通過查詢大語言模型來推斷和上的數(shù)據(jù)重構攻擊能夠67%的訓練文本語料,這些被恢復的百字規(guī)模的文本序列中包面向大模型的成員推斷攻擊則可以判斷某些特定數(shù)據(jù)是否在目標模型的訓練集里,從而推斷數(shù)據(jù)是否具備某些屬性。由于如ChatGPT的大語言模型在模型見過的訓練數(shù)據(jù)和模型沒見過的其他數(shù)據(jù)上表現(xiàn)是不同的,因此同樣存在著面臨成員推斷攻擊的威脅。3-10
來源:清華大學面向大模型的模型竊取攻擊的攻擊者可以設計問題來問詢目標黑盒的大模型,再根據(jù)目標模型的回答來優(yōu)化訓練自己的模型,使自己的模型與目標大模型的表現(xiàn)接近。盡管對于上千億參數(shù)的大模型實現(xiàn)完全功能的竊取并不現(xiàn)實,但對于目標領域任務攻擊者完全可以實現(xiàn)模型知識竊取,來訓練本地體積更小的模型。面向大模型的模型劫持攻擊通過提供攻擊者設定的訓練數(shù)據(jù),使模型在其擁有者沒有發(fā)覺的情況下,讓目標模型成功執(zhí)行攻擊者設定的任務。當大模型對外提供訓練接口時,大規(guī)模的樣本投毒很容易使AI圖
來源:清華大學3.4面向大模型的海綿樣本攻擊能夠增大模型延遲和能源消耗,推動模型推理的底層硬件系統(tǒng)在性能上達到最壞狀態(tài),從而破壞機器學習模型的可用性。海綿樣本與網(wǎng)絡攻擊中的拒絕服務攻擊(DoS,DenialofService)的本質類似,攻擊會致使大模型在用戶會話中反應過慢、過度消耗資源。3.4大模型的可解釋性和公平性問題是可信AI角度下一個重要的前瞻性話題。由上千億級參數(shù)量累計的大語言模型看似獲得了前所未有的知識涌現(xiàn),然而其內(nèi)在的黑盒本質使“大模型的可解釋性是否變得更強或更弱”仍然是未解之謎。同時,大模型在面對公平性問題的決策時可能會表現(xiàn)得更為偏激。如何有效實踐大模型的可解釋性和公平性是未來模型安全發(fā)展的一大挑戰(zhàn)。大模型的可解釋性可解釋性是一種以人類可理解的方式去解釋或展示AIAI模型AI2017年,美國國防先進研究計劃局2019AI(Post-hoc)基于事前解釋的可解釋性方法。事前解釋方法又稱為透明模型(TransparentModel)基于事后解釋的可解釋性方法。事后解釋方法則通常利用規(guī)則或具有可解釋能力的簡單替代模型來衡量原始大模型的可解釋性。其次,也有方法使用樣例驅動的方式,通過識別和呈現(xiàn)其他與輸入實例語義相似的已標注實例來解釋輸入實例的預測。此外,還有基于探針的模型可解釋性方法,將大模型的編碼表征輸入其他可解釋模型上來分析原模型所學習到的知識與語義。然而,在現(xiàn)階段,以ChatGPT為首的大語言模型在可解釋性方面仍然是未解之謎。除了使用超大規(guī)模的參數(shù)量來構建具有黑盒屬性的模型外,大語言模型所使用的語料、架構多數(shù)是完全未知的,面對如此龐大的黑盒模型,完全解釋其內(nèi)在的機理與決策依據(jù)還需要更加漫長的時間來檢驗。此外,目前現(xiàn)有大模型的推理邏輯的正確性還有待驗證。以ChatGPT(Hallucination)大模型的公平性如果要使大模型參與到現(xiàn)實問題的決策中,特別是面向社會性的決策問題,就一定要兼顧預測的公平性。由于構建和學習語言大模型時一般需要使用超大規(guī)模的語料數(shù)據(jù)集,數(shù)據(jù)集中難免存在人類社會對性別、膚色、年齡等的偏見知識,在有偏數(shù)據(jù)中訓練的大模型會對特定人群輸出帶有偏見的預測結果,目前,ChatGPT答案輸出的意識形態(tài)明顯傾向于西方社會,在基于種族和性別的描述回答中,ChatGPT生成的答案也有明顯的白人男性傾向。除了訓練數(shù)AI模型公平性的另外一個原因是大模型本身,AI種屬性的實例樣本顯著優(yōu)于其他屬性的樣本時,模型不可避免地以更高的頻率針對這一特殊屬性進行參數(shù)優(yōu)化,從而變相放大了偏見知識,最終給社會帶來嚴重的內(nèi)容安全隱患。來源:PoliticalCompass3-12大模型意識形態(tài)偏見所引發(fā)的公平性問題為了解決大模型學習中存在的公平性問題,目前的研究方法主AIAI評估以技術為保障的可信AI評估可信AI可信AI技術的不斷發(fā)展和應用,如何檢測AI可信程度受到公AI以劃分為三個主要階段:(2018但是AI應用仍處于初級階段,更多地關注AIAI從業(yè)者主要致力于提升AIAI的可信問題的關注度相對較低,可信AI(2018-2020影響日益顯著,公眾開始認識并探討AIAI服務AI企業(yè)開始開發(fā)并推出針對特定可信AI評估工具FairlearnIBMRobustness。發(fā)展階段(2021):AI的問題和挑戰(zhàn)初步形成社AI是針對特定的可信AI智能監(jiān)管測試框架和工具集A.I.;螞蟻集團也推出了專注于AI4-1AI
來源:螞蟻集團AIGC的出現(xiàn)和推廣,相關評估也陸續(xù)開展,AIGC(helpful)與安全性(harmless)評測兩大方向AIGC在各類任務中的表現(xiàn)和適應能力,如邏輯推理、文本理解、問題解答等,安全性評測則涵蓋內(nèi)容安全、數(shù)據(jù)安全和倫理安全,著重評估AIGC在處理數(shù)據(jù)、信息和道德問題時的穩(wěn)健性和責任性?,F(xiàn)有的評估方式主要分為標準數(shù)據(jù)集評測和大眾評測兩種,標準數(shù)據(jù)集評測是在AIGC進行定量分析,從而獲取其精確的性能指標,評測效率高,在無數(shù)據(jù)泄露情況下更加全面合理;大眾評測則更加靈活開放,不設定固定測試集,讓用戶以匿名的方式對AIGC產(chǎn)品進行實際使用后的反饋評價,能夠很好解決測試集泄露造成的過擬合問題。這兩種評測方式結合使用使我們可以全面、深入地理解AIGC已開源Evals伯克利大學推出eloAI總的來說,隨著可信AIAI檢AI相應的可信AI可信AI可信AI檢測是運用技術手段對AI模型服務的可信度和可靠性AI標和方式如下表所示。4-1AI檢測指標體系檢測維度檢測指標評估方式魯棒性泛化性使用模型建模時未見過的數(shù)據(jù),評估模型性能指標與建模時的差異。數(shù)據(jù)魯棒性模型對自然噪聲和數(shù)據(jù)缺失時表現(xiàn)的魯棒性。評測時可以模擬噪聲和缺失,觀察模型性能指標降低的情況。對抗性魯棒性模型在人為惡意攻擊如梯度攻擊時的魯棒性。評測時可公平性分組公平性模型對于不同群體之間的公平性,如性別、種族、年齡等。評測時將數(shù)據(jù)按照特定群體屬性進行分組,比較模型在不同群體上的性能差異。差異公平性模型對于不同群體之間差異的敏感性,如收入差異、地理差異等。評測時將數(shù)據(jù)按照特定差異進行分組,比較模型在不同差異水平上的性能差異。機會公平性模型提供給不同群體或特征的機會是否公平均等,如就業(yè)機會、貸款機會等。評測時統(tǒng)計分析不同群體之間的機會差異。隱私數(shù)據(jù)隱私模型對于訓練數(shù)據(jù)中個人身份、敏感信息的保護程度。評測時使用不同的隱私攻擊方法,如成員推斷攻擊、屬性推斷攻擊等,評估模型對于數(shù)據(jù)隱私的防護能力。參數(shù)隱私模型在訓練過程中參數(shù)的隱私保護程度。評測時使用參數(shù)反演攻擊、模型倒推攻擊等方法,評估模型對于參數(shù)隱私的保護程度。輸出隱私模型對于預測輸出中個人隱私信息的泄露程度。評測時使用敏感信息推斷攻擊、后處理方法等,評估模型對于輸出隱私的保護程度。差分隱私模型在差分隱私保護下的隱私保護程度。評測時應用差分隱私機制,評估模型在不同隱私預算下的隱私保護能力。泛化隱私模型對于未見過數(shù)據(jù)的隱私保護程度。評測時使用未見過的數(shù)據(jù)集進行測試,評估模型在新數(shù)據(jù)上的隱私保護性能??山忉尳忉屨_性模型解釋是否忠實地反映了模型判斷的理由。評測時使解釋完整性模型解釋對于模型覆蓋的完整度。評測時使用解釋對模型進行重構,若重構誤差較小,則解釋對于模型行為覆蓋得越全面、詳細,完備性越高。解釋一致性模型解釋在相同輸入下的解釋一致性程度。評測時對不同部署下的模型及其解釋,檢測其模型輸出級模型解釋的一致程度。解釋連續(xù)性模型解釋在相似輸入下的解釋連續(xù)性程度。評測時對樣本進行輕微擾動或選擇相似樣本,比較其解釋與原樣本解釋的連續(xù)程度。解釋差異性模型解釋在針對不同目標變量解釋時的差異程度。評測時選擇不同的目標變量要求模型進行解釋,比較其在不同目標變量下的解釋的差異度。解釋簡潔性模型解釋信息是否簡潔。評測時對模型解釋的信息熵及頭部信息含量進行評估。來源:螞蟻集團AI可信AI檢測技術的發(fā)展涵蓋了魯棒性、可解釋性、隱私和公平性的各方面,學術界和產(chǎn)業(yè)界結合理論研究和實際應用開發(fā)了大量技術、工具和平臺,幫助AIAI術旨在提高AI用于保護敏感數(shù)據(jù)并確保AI系統(tǒng)符合隱私法規(guī)和規(guī)定。AI企業(yè)在向客戶提供AI服務的同時,應制定和遵循自身的可信AI檢測標準和流程,并向客戶清晰地展示這些信息,提高透明度,從而獲AI信AIAIAI的需求和關注點也各信AI檢測標準和流程,更好地推動行業(yè)可信AI在實施可信AI鑒”AIosehcifr和Iaget測試數(shù)據(jù)集旨在評估機器學習模型在對抗攻擊下的魯棒性。該平臺AI4-2
來源:螞蟻集團螞蟻集團的蟻鑒AIAI安全性的綜合評AIAI這些工具和平臺為AI然而也要認識到,盡管研究進展迅速,但可信評估的研究常常滯后于應用技術的發(fā)展,這可能導致潛在的安全風險在實際應用中被忽略或未能及時解決,可能會給社會帶來巨大的危害。隨著技術的發(fā)展?jié)撛趩栴}也會越來越多,我們應該意識到其重要性,并采取行動來推動相關研究和實踐。這既需要更多的實踐和經(jīng)驗積累,考慮社會、法律和倫理等多個方面的因素,不斷改進和完善評估方法,也需要加強學術界、產(chǎn)業(yè)界和監(jiān)管機構的溝通與合作,共同制定標準和指南,推動可信AI測評落地,建立起可信賴的AI系統(tǒng),避免潛在的安全風險,確保AI技術為社會帶來積極的影響。發(fā)展建議和趨勢展望發(fā)展建議和趨勢展望5.1技術維度5.1.1技術維度AI隱私和安全保護,防止數(shù)據(jù)泄露和濫用,保證AIAI魯棒性,用GPT4.0解釋GPT2.0部的工作機理,用大模型監(jiān)督大模型生成內(nèi)容的倫理問題等一系列有價值的探索也在飛速進展中。AIAI系統(tǒng)難以理解和預測,需要進一步引入可信可控的人機交互機制來推進人工智能技術的深度進化。在數(shù)據(jù)處理方面,需要標注人員對訓練數(shù)據(jù)進行必要區(qū)分和管理,避免輸入側的誤導性信息;在模型訓練AI系統(tǒng)加強多方協(xié)同的技術運轉模式,保障可信AIAI技AI多方協(xié)同,可以提高人們對AI系統(tǒng)的信任度,促進可信AI的推廣AIAI的技術運作從根本上提高人們對AIAI的產(chǎn)業(yè)維度5.1.2產(chǎn)業(yè)維度發(fā)展與時俱進的可信人工智能,盡快形成新技術趨勢下的可信AIGC等的產(chǎn)生和發(fā)展更是以難以想象的速度飛奔向前,在帶來爆發(fā)式增長和全新生產(chǎn)方式的同時,也提升了算法黑盒化程度,降低了系統(tǒng)遭受攻擊的門檻,公眾對大模型隱私保護的關注度大幅提升,對大模型廠商提出更高技術和倫理要求。建議做好產(chǎn)業(yè)前沿跟蹤,形成覆落地。當前人工智能已進入工程化落地時代,人工智能深耕行業(yè)應用、推進傳統(tǒng)行業(yè)智能化轉型是大勢所趨。大模型的發(fā)展重心也正在逐步由學術打榜向工程實踐轉移,強調(diào)以通用的人工智能能力支+生態(tài)維度5.1.3生態(tài)維度加強標準制定,推動標準體系邁向評測評估。企業(yè)、研究機構以及高校等正在不斷加快自身可信技術能力建設,增強核心能力自主性,共同努力推進可信人工智能標準研制,加速研究成果的標準化轉變。近期大模型成果接連發(fā)布,然而針對大模型的性能測評研究目前仍十分匱乏,既缺乏性能評測框架,又沒有科學評測方法,很難公正、準確地評估各模型。因此,建議加快打造國內(nèi)權威、公平科學的自動化、自適應評測平臺,加強對開源許可證的探索,圍監(jiān)管維度5.1.4監(jiān)管維度以審慎監(jiān)管劃定風險底線。一是分級分類,做好與現(xiàn)有體系的銜接,面向場景適用需求審慎監(jiān)管,采取差異化的監(jiān)管方式方法。例如,互聯(lián)網(wǎng)信息服務深度合成活動被一些不法分子利用,國家網(wǎng)信辦出臺了相關管理規(guī)定予以規(guī)范;大模型在醫(yī)療場
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國智能數(shù)控瀝青針入度儀數(shù)據(jù)監(jiān)測研究報告
- 腫瘤疾病護理常規(guī)
- 2025至2030年中國攝像機用光纜攝像頭數(shù)據(jù)監(jiān)測研究報告
- 太陽能熱電聯(lián)產(chǎn)項目概述
- 輸電線路遷改資金投入與財務分析
- 第三單元第一課 《將電腦接入網(wǎng)絡》-教學設計 2023-2024學年新世紀版(2018)初中信息技術七年級上冊
- 2025至2030年中國平板軌道小車數(shù)據(jù)監(jiān)測研究報告
- 18《威尼斯的小艇》 教學設計-2023-2024學年語文五年級下冊統(tǒng)編版
- 2025年度飯店員工工作環(huán)境改善與美化合同
- 二零二五年度商鋪租賃合同解除及商業(yè)風險評估報告合同
- 醫(yī)院DRG付費知識培訓課件
- 高考語文一輪復習:文學類文本閱讀練習
- (2024年)保安培訓圖文課件
- 中醫(yī)養(yǎng)生保健素養(yǎng)知識講座
- 雷達干擾技術概述
- JBT 7901-2023 金屬材料實驗室均勻腐蝕全浸試驗方法 (正式版)
- 2024年南通建筑電工證考試題模擬試題電工培訓試題及答案(全國通用)
- 2025小學道德與法治開學第一課(思想政治理論教育課)
- 基于STM32Cube的嵌入式系統(tǒng)應用 教案
- 動畫分鏡頭腳本設計課件
- 江蘇省成人高等教育畢業(yè)生登記表
評論
0/150
提交評論