生成式人工智能模型訓(xùn)練階段的個(gè)人信息保護(hù)問(wèn)題

上傳人：策*** IP屬地：山西上傳時(shí)間：2024-12-08 格式：DOCX 頁(yè)數(shù)：6 大小：25.65KB 積分：19.9 舉報(bào) 版權(quán)申訴

生成式人工智能模型訓(xùn)練階段的個(gè)人信息保護(hù)問(wèn)題_第2頁(yè)

生成式人工智能模型訓(xùn)練階段的個(gè)人信息保護(hù)問(wèn)題_第3頁(yè)

生成式人工智能模型訓(xùn)練階段的個(gè)人信息保護(hù)問(wèn)題_第4頁(yè)

免費(fèi)預(yù)覽已結(jié)束，剩余2頁(yè)可下載查看

 下載本文檔

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

生成式人工智能模型訓(xùn)練階段的個(gè)人信息保護(hù)問(wèn)題生成式人工智能（GenerativeAI，下稱“生成式AI”）訓(xùn)練階段的面臨諸多法律風(fēng)險(xiǎn)，其中，在訓(xùn)練階段的數(shù)據(jù)收集和處理過(guò)程中引發(fā)的個(gè)人信息保護(hù)問(wèn)題尤為值得關(guān)注。模型訓(xùn)練階段的個(gè)人信息保護(hù)問(wèn)題集中涉及來(lái)源的合法性、深度處理引發(fā)的敏感信息識(shí)別與保護(hù)、數(shù)據(jù)泄露以及在個(gè)人信息跨境流動(dòng)場(chǎng)景下的合規(guī)問(wèn)題。由此衍生出了諸多治理路徑來(lái)對(duì)上述問(wèn)題進(jìn)行規(guī)制，如進(jìn)行數(shù)據(jù)分類分級(jí)，聚焦訓(xùn)練數(shù)據(jù)透明度、引入“監(jiān)管沙箱”制度等。

本文詳細(xì)梳理前述問(wèn)題和治理路徑，以期為合理構(gòu)建生成式AI訓(xùn)練數(shù)據(jù)的個(gè)人信息保護(hù)體系提供可行性思路。

一、問(wèn)題的提出如今，以ChatGPT為代表的生成式AI的快速發(fā)展，已為全球經(jīng)濟(jì)的高質(zhì)量發(fā)展注入新動(dòng)能，正逐步改變著人們的生活和生產(chǎn)方式。但在新技術(shù)帶來(lái)生產(chǎn)力提升的同時(shí)，還要考慮到數(shù)據(jù)在流通過(guò)程中的保護(hù)、安全與合規(guī)發(fā)展，以及AI開(kāi)發(fā)和使用過(guò)程中的風(fēng)險(xiǎn)規(guī)制。生成式AI模型訓(xùn)練通常需要巨量且高質(zhì)量的數(shù)據(jù)，這些數(shù)據(jù)往往包含大量個(gè)人信息，這便引起社會(huì)公眾及政策制定者對(duì)生成式AI在收集和使用數(shù)據(jù)過(guò)程中對(duì)個(gè)人信息保護(hù)的擔(dān)憂。甚至在實(shí)踐中引發(fā)大量相關(guān)訴訟。僅2023年一年，美國(guó)就發(fā)生了十多起AI大模型訓(xùn)練司法訴訟案件，例如，在一起集體訴訟案件中，原告在起訴狀中明確指控OpenAI的網(wǎng)絡(luò)抓取工具侵犯了個(gè)人信息，并通過(guò)盜用個(gè)人信息并納入OpenAI產(chǎn)品的方式侵犯了個(gè)人的財(cái)產(chǎn)權(quán)和隱私權(quán)。隨著生成式AI在日常生活中扮演愈發(fā)重要的角色，有效解決AI模型訓(xùn)練帶來(lái)的個(gè)人信息保護(hù)風(fēng)險(xiǎn)至關(guān)重要。然而，在理論研究中，現(xiàn)有成果卻較少涉及模型訓(xùn)練過(guò)程的個(gè)人信息保護(hù)問(wèn)題，這與訓(xùn)練數(shù)據(jù)在生成式AI中的重要地位不相適應(yīng)。在實(shí)踐中，各國(guó)政策制定者和AI開(kāi)發(fā)者對(duì)模型訓(xùn)練的規(guī)制既要重視個(gè)體權(quán)益的保護(hù)，又不能抑制新興技術(shù)的發(fā)展與應(yīng)用，充滿復(fù)雜性和挑戰(zhàn)性。二、生成式AI模型訓(xùn)練階段的個(gè)人信息保護(hù)問(wèn)題生成式AI生成較為準(zhǔn)確且完成度較高的結(jié)論依賴在模型訓(xùn)練過(guò)程中對(duì)數(shù)據(jù)進(jìn)行加工，這就意味著海量的高質(zhì)量數(shù)據(jù)是生成式AI得以高質(zhì)量有效運(yùn)行的必備養(yǎng)料。在這種處理模式下的個(gè)人信息如同“砧板上的肥肉”一樣為無(wú)數(shù)AI系統(tǒng)所覬覦，但缺乏科學(xué)合理且行之有效的法律保護(hù)措施，從而導(dǎo)致個(gè)人信息被違規(guī)利用。2.1來(lái)源合法性海量的高質(zhì)量數(shù)據(jù)是生成式AI模型訓(xùn)練的必備能源和養(yǎng)料。一個(gè)高質(zhì)量的數(shù)據(jù)集需滿足四個(gè)基本標(biāo)準(zhǔn)：數(shù)據(jù)集必須足夠龐大以涵蓋問(wèn)題的多次迭代、數(shù)據(jù)必須有明確的標(biāo)簽和注釋、數(shù)據(jù)必須具有代表性和公正性、數(shù)據(jù)必須符合隱私法規(guī)。因此，數(shù)據(jù)來(lái)源的合法性是模型訓(xùn)練的合規(guī)基石?！渡墒饺斯ぶ悄芊?wù)管理暫行辦法》第7條規(guī)定，生成式AI訓(xùn)練數(shù)據(jù)應(yīng)當(dāng)使用具有合法來(lái)源的數(shù)據(jù)。從行業(yè)實(shí)踐的情況看，生成式AI訓(xùn)練數(shù)據(jù)的來(lái)源渠道多樣，不但有自有數(shù)據(jù)，還包含了抓取的公開(kāi)數(shù)據(jù)、購(gòu)買(mǎi)的第三方數(shù)據(jù)集以及合成數(shù)據(jù)等。然而，這些方式獲取的數(shù)據(jù)集充斥著不當(dāng)許可的數(shù)據(jù)，極易引發(fā)正當(dāng)使用的爭(zhēng)議。例如OpenAI就利用Reedit鏈接等爬蟲(chóng)技術(shù)抓取維基百科等網(wǎng)頁(yè)的公開(kāi)數(shù)據(jù)為ChatGPT進(jìn)行訓(xùn)練。這一方式極易逾越數(shù)據(jù)安全保護(hù)的紅線，造成個(gè)人信息保護(hù)問(wèn)題。一方面，在利用爬蟲(chóng)技術(shù)收集數(shù)據(jù)的過(guò)程中很難符合“知情同意原則”、“最小化原則”等規(guī)定。如：我國(guó)《個(gè)人信息保護(hù)法》（以下簡(jiǎn)稱“《個(gè)保法》”）第6條規(guī)定了個(gè)人信息處理活動(dòng)應(yīng)當(dāng)遵循的最小化原則；第13條規(guī)定處理個(gè)人信息的7種情形，除去個(gè)人信息主體明確同意的前置性條件之外其余均為嚴(yán)格的法定豁免情形?！渡墒饺斯ぶ悄芊?wù)安全基本要求》第５條也規(guī)定了模型訓(xùn)練在個(gè)人信息方面規(guī)定：在使用包含個(gè)人信息的語(yǔ)料前，應(yīng)取得對(duì)應(yīng)個(gè)人同意；在使用包含敏感個(gè)人信息的語(yǔ)料前，應(yīng)取得對(duì)應(yīng)個(gè)人單獨(dú)同意。歐盟的《通用數(shù)據(jù)保護(hù)條例》（下稱“GDPR”）第5條和第6條也規(guī)定了個(gè)人數(shù)據(jù)的使用必須遵循合法性和最小化原則。根據(jù)OpenAI官網(wǎng)的表述，若用戶不同意輸入其個(gè)人信息作為訓(xùn)練數(shù)據(jù)庫(kù)，可以根據(jù)《使用條款》的相關(guān)規(guī)定，通過(guò)郵件發(fā)送的方式進(jìn)行拒絕授權(quán)。從表述上來(lái)看OpenAI似乎在個(gè)人信息的使用中采取了一種選擇退出的機(jī)制，但是實(shí)際上若輸入信息中包含個(gè)人信息，默認(rèn)的選擇退出機(jī)制并不符合個(gè)人信息保護(hù)相關(guān)法規(guī)中的知情同意要求。另一方面，如果在爬取數(shù)據(jù)的過(guò)程中故意通過(guò)技術(shù)手段繞過(guò)或者突破技術(shù)保護(hù)措施，就會(huì)侵犯用戶個(gè)人信息安全。2023年6月，美國(guó)公益律師事務(wù)所（ClarksonLawFirm）代表匿名客戶在加州聯(lián)邦法院對(duì)OpenAI公司提起了一起集體訴訟，指控內(nèi)容便是OpenAI在未經(jīng)用戶同意的情況下非法收集和使用大量個(gè)人信息。此階段對(duì)個(gè)人信息的收集幾乎完全脫離了《個(gè)保法》基本的“告知同意”原則，導(dǎo)致法律規(guī)定在此階段幾乎失去了約束力。2.2深度處理引發(fā)的敏感信息保護(hù)問(wèn)題ChatGPT對(duì)個(gè)人信息的利用所依賴的神經(jīng)卷積模型相較于傳統(tǒng)算法模型而言更加復(fù)雜，對(duì)于各種要素的分析也更加深入，深度神經(jīng)網(wǎng)絡(luò)會(huì)發(fā)掘出個(gè)人信息中潛藏的信息。因此，生成式AI在模型訓(xùn)練過(guò)程中會(huì)將收集到的個(gè)人信息進(jìn)行匯聚或融合，以提高其生成內(nèi)容的質(zhì)量和準(zhǔn)確性。但個(gè)人信息匯聚或融合后的整體屬性存在潛在的敏感性風(fēng)險(xiǎn)，即使單獨(dú)來(lái)看某些個(gè)人信息并不敏感。例如，AI開(kāi)發(fā)者收集了用戶的購(gòu)物歷史記錄，這些數(shù)據(jù)單獨(dú)來(lái)看并不敏感，因?yàn)樗鼉H顯示了用戶購(gòu)買(mǎi)的商品記錄。然而，當(dāng)這些購(gòu)買(mǎi)記錄與其他數(shù)據(jù)（如購(gòu)買(mǎi)頻率、特定種類商品的偏好）結(jié)合時(shí)，可能透露出用戶的敏感信息，如健康狀況。如果用戶購(gòu)買(mǎi)了多次醫(yī)療設(shè)備或藥品（如血壓計(jì)、降血糖藥等），結(jié)合購(gòu)買(mǎi)日期和頻率，就可能推斷出用戶存在高血壓、糖尿病等健康問(wèn)題。全國(guó)網(wǎng)絡(luò)安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)于2024年9月18日發(fā)布的《網(wǎng)絡(luò)安全標(biāo)準(zhǔn)實(shí)踐指南——敏感個(gè)人信息識(shí)別指南》規(guī)定了敏感個(gè)人信息的識(shí)別規(guī)則，既要考慮單項(xiàng)敏感個(gè)人信息的識(shí)別，也要考慮多項(xiàng)一般個(gè)人信息匯聚或融合后的整體屬性?！秱€(gè)保法》第28條規(guī)定了敏感個(gè)人信息的范圍以及只有在具有特定的目的和充分的必要性，并采取嚴(yán)格保護(hù)措施的情形下，個(gè)人信息處理者方可處理敏感個(gè)人信息；第29條規(guī)定了處理敏感個(gè)人信息應(yīng)當(dāng)取得個(gè)人的單獨(dú)同意，但實(shí)踐中，模型訓(xùn)練卻難以滿足這些要求。此外，由于生成式AI的強(qiáng)大分析能力，即使是碎片化不完整的信息，也有可能被ChatGPT進(jìn)行標(biāo)簽化重組與其他類似數(shù)據(jù)一起進(jìn)行深度挖掘，進(jìn)而推斷出敏感信息。2.3“算法黑箱”技術(shù)引發(fā)個(gè)人信息不透明生成式AI采用自然語(yǔ)言處理技術(shù)對(duì)獲取的數(shù)據(jù)進(jìn)行模型訓(xùn)練，運(yùn)用超高強(qiáng)度的算力挖掘數(shù)據(jù)中存在的統(tǒng)計(jì)規(guī)律以實(shí)現(xiàn)深度學(xué)習(xí)。這種技術(shù)的運(yùn)用使AI模型可以利用互聯(lián)網(wǎng)上幾乎所有的無(wú)人工標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練，實(shí)現(xiàn)無(wú)監(jiān)督學(xué)習(xí)，極大地降低了訓(xùn)練成本，提高了計(jì)算機(jī)自然語(yǔ)言學(xué)習(xí)的成效。但這種自然語(yǔ)言統(tǒng)計(jì)規(guī)律卻保存在數(shù)以千億計(jì)的模型參數(shù)中，并非如硬盤(pán)中存儲(chǔ)的數(shù)據(jù)被人所確知。這就導(dǎo)致了不但普羅大眾無(wú)法知悉人工智能運(yùn)行的內(nèi)在邏輯和過(guò)程，甚至連開(kāi)發(fā)者也無(wú)法詳細(xì)了解模型到底掌握了何種自然語(yǔ)言統(tǒng)計(jì)規(guī)律。這一不公開(kāi)、不透明的算法運(yùn)行過(guò)程便是“算法黑箱”。生成式AI模型訓(xùn)練過(guò)程中對(duì)個(gè)人信息的處理也同樣被置于“算法黑箱”之中，難以窺探其中“奧妙”。各國(guó)數(shù)據(jù)保護(hù)法律幾乎都規(guī)定了數(shù)據(jù)處理的透明度要求，如《個(gè)保法》第7、24條規(guī)定了個(gè)人信息處理應(yīng)當(dāng)遵循公開(kāi)透明原則。但這種“算法黑箱”卻導(dǎo)致個(gè)人信息處理顯著缺乏透明度，難以辨析模型訓(xùn)練時(shí)使用的個(gè)人信息的權(quán)利狀態(tài)與隱私風(fēng)險(xiǎn)。這就導(dǎo)致個(gè)人信息處理的公開(kāi)透明原則無(wú)法嚴(yán)格貫徹，嚴(yán)重侵害用戶的知情權(quán)。此外，既然連開(kāi)發(fā)者也無(wú)法了解“算法黑箱”中個(gè)人信息是如何被處理的，那么就更無(wú)法向用戶進(jìn)行詳細(xì)告知，也難以遵守個(gè)人信息處理的知情同意規(guī)則。并且生成式AI大模型具備“涌現(xiàn)”特性，即系統(tǒng)中的定量變化導(dǎo)致行為質(zhì)變。涌現(xiàn)的一個(gè)重要特征是“不可解釋性”，即無(wú)法通過(guò)任何構(gòu)成或共存規(guī)律從更簡(jiǎn)單的情形中推導(dǎo)出來(lái)，數(shù)據(jù)處理的中間業(yè)態(tài)也就幾乎無(wú)法進(jìn)行回溯。因此，模型訓(xùn)練有可能進(jìn)一步降低問(wèn)責(zé)制，難以對(duì)個(gè)人信息主體權(quán)益進(jìn)行有效保護(hù)。2.4個(gè)人信息泄露由于生成式AI模型訓(xùn)練過(guò)程中需要不斷收集訓(xùn)練數(shù)據(jù)，因而會(huì)自動(dòng)將爬取的數(shù)據(jù)和用戶信息存儲(chǔ)起來(lái)，這就存在多方面的數(shù)據(jù)泄露風(fēng)險(xiǎn)。第一，開(kāi)發(fā)者并未向用戶提供檢查訓(xùn)練數(shù)據(jù)及其個(gè)人信息存儲(chǔ)庫(kù)的方式，也未對(duì)用戶個(gè)人信息的存儲(chǔ)期限以及具體保護(hù)措施進(jìn)行詳細(xì)的說(shuō)明。雖然各國(guó)法律對(duì)開(kāi)發(fā)者收集和存儲(chǔ)數(shù)據(jù)提出了限制性要求，如《個(gè)保法》第17條規(guī)定個(gè)人信息并非可以無(wú)限期地保留，其存儲(chǔ)時(shí)間應(yīng)當(dāng)受到限制。但在實(shí)踐中，開(kāi)發(fā)者這種對(duì)信息存儲(chǔ)期限的做法十分模糊，顯然不利于用戶的個(gè)人信息權(quán)益的保護(hù)。第二，開(kāi)發(fā)者或掌握數(shù)據(jù)訪問(wèn)權(quán)限的人員可能在威逼利誘下將存儲(chǔ)的個(gè)人信息非法轉(zhuǎn)讓給第三方，增加了個(gè)人信息泄露的風(fēng)險(xiǎn)。第三，前文闡述到，在模型訓(xùn)練過(guò)程中，生成式AI通過(guò)深度學(xué)習(xí)對(duì)個(gè)人信息過(guò)度挖掘，使得去標(biāo)識(shí)化的個(gè)人信息甚至匿名化信息被重新識(shí)別，也可能造成個(gè)人信息的泄露。最后，黑客攻擊也會(huì)導(dǎo)致極為慘重的數(shù)據(jù)集泄露。黑客通過(guò)植入污染數(shù)據(jù)來(lái)操縱訓(xùn)練數(shù)據(jù)集，或通過(guò)模型反轉(zhuǎn)獲取和重新識(shí)別訓(xùn)練數(shù)據(jù)的方式反向攻擊（AIInversionAttck）模型，侵犯用戶的合法權(quán)益。此外，生成式AI展現(xiàn)出來(lái)的強(qiáng)大能力會(huì)使得用戶將越來(lái)越多地與它們建立關(guān)系，并逐漸信任它們。用戶在與其互動(dòng)的過(guò)程中可能會(huì)被誘導(dǎo)收集個(gè)人信息或其他資料，存在泄露個(gè)人信息的風(fēng)險(xiǎn)。2.5個(gè)人信息跨境流動(dòng)風(fēng)險(xiǎn)生成式AI模型訓(xùn)練一方面需要多樣化和大規(guī)模的數(shù)據(jù)，另一方面需要強(qiáng)大的算力作為支撐，從而提升模型生成內(nèi)容的質(zhì)量和多樣性。兩種要求衍生出不同的數(shù)據(jù)出境場(chǎng)景，從而產(chǎn)生不同的個(gè)人信息保護(hù)風(fēng)險(xiǎn)。場(chǎng)景一：海量數(shù)據(jù)需求伴生個(gè)人信息出境生成式AI模型通常需要從多元化的語(yǔ)言、文化和行為模式中汲取數(shù)據(jù)，以便模型在生成內(nèi)容時(shí)能夠具備更廣泛的適應(yīng)性和實(shí)用性。這些數(shù)據(jù)往往跨越多個(gè)國(guó)家和地區(qū)，因此需要通過(guò)數(shù)據(jù)跨境傳輸來(lái)匯集全球化的數(shù)據(jù)資源。然而，這種跨國(guó)數(shù)據(jù)收集和使用行為會(huì)觸發(fā)多國(guó)數(shù)據(jù)保護(hù)法的適用，引發(fā)合規(guī)風(fēng)險(xiǎn)。如，根據(jù)GDPR的規(guī)定，個(gè)人信息的跨境傳輸只能在確保接收國(guó)具備足夠的數(shù)據(jù)保護(hù)水平或簽訂了標(biāo)準(zhǔn)合同條款的前提下進(jìn)行。我國(guó)《個(gè)保法》也對(duì)個(gè)人信息的出境設(shè)定了嚴(yán)格的條件，包括申請(qǐng)個(gè)人信息保護(hù)認(rèn)證或簽訂個(gè)人信息出境標(biāo)準(zhǔn)合同并完成備案等。這些法律差異可能導(dǎo)致跨境傳輸過(guò)程中的不一致性，增加了法律風(fēng)險(xiǎn)。場(chǎng)景二：跨境調(diào)用算力或算法模型導(dǎo)致數(shù)據(jù)出境生成式AI模型訓(xùn)練需要強(qiáng)大的算力作為支撐。但是，許多國(guó)家生成式AI產(chǎn)業(yè)鏈的基礎(chǔ)設(shè)施層仍待完善，境內(nèi)開(kāi)發(fā)者可能存在算力不足以及AI算法和模型落后的問(wèn)題。在該種情況下，不少開(kāi)發(fā)者在探討跨境調(diào)用境外算力或算法模型的可能性。如跨境調(diào)用境外算力，則其收集的訓(xùn)練數(shù)據(jù)將會(huì)被傳輸至境外進(jìn)行訓(xùn)練，相關(guān)訓(xùn)練數(shù)據(jù)和搭建后的模型亦可能被存儲(chǔ)至境外數(shù)據(jù)中心，從而引發(fā)數(shù)據(jù)跨境相關(guān)風(fēng)險(xiǎn)。三、治理路徑探析3.1進(jìn)行數(shù)據(jù)分類分級(jí)歐盟《人工智能法案》依據(jù)風(fēng)險(xiǎn)等級(jí)對(duì)AI系統(tǒng)進(jìn)行分類分級(jí)監(jiān)管。該法案將AI應(yīng)用劃分為最小風(fēng)險(xiǎn)、有限風(fēng)險(xiǎn)、高風(fēng)險(xiǎn)和不可接受的風(fēng)險(xiǎn)四個(gè)等級(jí)，并制定了對(duì)應(yīng)的監(jiān)管要求。根據(jù)法案第三章第10條的規(guī)定，對(duì)于風(fēng)險(xiǎn)較高的生成式AI應(yīng)用，不僅需要滿足更為嚴(yán)格的數(shù)據(jù)保護(hù)要求，包括滿足有關(guān)透明度、數(shù)據(jù)質(zhì)量、記錄保存、人工監(jiān)督和穩(wěn)健性的具體要求。還要求這類應(yīng)用進(jìn)行定期的風(fēng)險(xiǎn)評(píng)估。如要求高風(fēng)險(xiǎn)AI系統(tǒng)的開(kāi)發(fā)者記錄數(shù)據(jù)處理使用的全流程，審查數(shù)據(jù)來(lái)源。GDPR也實(shí)施了嚴(yán)格的個(gè)人數(shù)據(jù)分類分級(jí)保護(hù)。根據(jù)GDPR，個(gè)人數(shù)據(jù)被分為一般數(shù)據(jù)和特殊類別數(shù)據(jù)，后者包括種族、宗教、健康、性取向等敏感信息。在生成式AI模型訓(xùn)練過(guò)程中，處理這些特殊類別數(shù)據(jù)時(shí)，開(kāi)發(fā)者需獲得用戶的明確同意，并提供額外的保護(hù)措施，如數(shù)據(jù)最小化、匿名化等。盡管美國(guó)缺乏統(tǒng)一的聯(lián)邦數(shù)據(jù)保護(hù)法，但不少州通過(guò)州一級(jí)的立法形成了對(duì)不同類別數(shù)據(jù)分別進(jìn)行規(guī)制的制度框架，體現(xiàn)了分類分級(jí)保護(hù)的理念。如加利福尼亞州，通過(guò)《加利福尼亞消費(fèi)者隱私法案》規(guī)定了個(gè)人數(shù)據(jù)的分類分級(jí)和保護(hù)。該法案要求企業(yè)對(duì)收集到的用戶數(shù)據(jù)進(jìn)行分類，特別是對(duì)敏感個(gè)人信息進(jìn)行嚴(yán)格保護(hù)。生成式AI在處理數(shù)據(jù)時(shí)，必須告知用戶其信息的用途，并為用戶提供刪除或限制數(shù)據(jù)使用的權(quán)利。在生成式AI模型的訓(xùn)練階段，雖然企業(yè)采用數(shù)據(jù)分類分級(jí)來(lái)保護(hù)個(gè)人信息是一種有效的策略，但在實(shí)際應(yīng)用中面臨著一些問(wèn)題和阻礙。如不同的領(lǐng)域和行業(yè)對(duì)數(shù)據(jù)分類分級(jí)的標(biāo)準(zhǔn)各不相同，增加了統(tǒng)一分類和分級(jí)標(biāo)準(zhǔn)的難度；自動(dòng)化工具的局限性使得數(shù)據(jù)分類分級(jí)過(guò)程中存在誤分類的風(fēng)險(xiǎn)；對(duì)數(shù)據(jù)過(guò)度去標(biāo)識(shí)化可能會(huì)削弱模型的訓(xùn)練效果等。這些問(wèn)題亟需在實(shí)踐中進(jìn)一步研究與解決。3.2引入監(jiān)管沙箱制度“監(jiān)管沙箱”制度是指一個(gè)“安全空間”，企業(yè)可以在其中測(cè)試創(chuàng)新性的產(chǎn)品、服務(wù)、商業(yè)模式和交付機(jī)制，不會(huì)因從事相關(guān)活動(dòng)而立即受到通常的監(jiān)管后果。該制度于2015年由英國(guó)金融行為監(jiān)管局提出，最早應(yīng)用在金融科技領(lǐng)域，是監(jiān)管機(jī)構(gòu)支持金融創(chuàng)新的一種重要制度嘗試。隨后，新加坡、澳大利亞、美國(guó)等國(guó)陸續(xù)在金融科技監(jiān)管領(lǐng)域開(kāi)展類似試點(diǎn)。將該制度應(yīng)用在AI領(lǐng)域是一項(xiàng)創(chuàng)新之舉，具體是指AI開(kāi)發(fā)者在產(chǎn)品投放市場(chǎng)之前，在一個(gè)可控、安全的環(huán)境中使用真實(shí)的或模擬的數(shù)據(jù)集來(lái)實(shí)驗(yàn)新技術(shù)或解決方案。對(duì)于監(jiān)管機(jī)構(gòu)、生成式AI開(kāi)發(fā)者及使用者而言，通過(guò)構(gòu)建“監(jiān)管沙箱”可以更好地觀察和應(yīng)對(duì)生成式AI所帶來(lái)的風(fēng)險(xiǎn)。歐盟《人工智能法案》將AI監(jiān)管沙箱設(shè)定為各成員國(guó)強(qiáng)制義務(wù)，以減輕企業(yè)監(jiān)管負(fù)擔(dān)。建立沙箱數(shù)據(jù)集的統(tǒng)一標(biāo)準(zhǔn)，建設(shè)沙箱傳輸、整合、共享數(shù)據(jù)的平臺(tái)，實(shí)現(xiàn)數(shù)據(jù)互聯(lián)與共享，強(qiáng)化信息披露等。通過(guò)完善的技術(shù)安全保障措施降低數(shù)據(jù)安全隱患，確保數(shù)據(jù)存儲(chǔ)、加工和交付的安全。因此，“監(jiān)管沙箱”便成為數(shù)字化轉(zhuǎn)型中的主要規(guī)制工具。歐盟《人工智能法案》便將“監(jiān)管沙箱”作為規(guī)制學(xué)習(xí)和創(chuàng)建“靈活、有利于創(chuàng)新、面向未來(lái)、以證據(jù)為基礎(chǔ)、有彈性的規(guī)制框架”的工具，以應(yīng)對(duì)AI的顛覆性挑戰(zhàn)。英國(guó)信息專員辦公室（InformationCommissioner'sOffice，下稱“ICO”）在《關(guān)于數(shù)據(jù)保護(hù)法應(yīng)如何適用于生成式人工智能模型的開(kāi)發(fā)和使用的征求意見(jiàn)中》也明確AI開(kāi)發(fā)者可以通過(guò)“監(jiān)管沙箱”獲得ICO的建議和支持。伴隨著各國(guó)對(duì)“監(jiān)管沙箱”的理解不斷深入，AI領(lǐng)域“監(jiān)管沙箱”制度的實(shí)踐探索也逐步豐富，許多國(guó)家正在帶頭開(kāi)發(fā)試點(diǎn)。相關(guān)實(shí)踐內(nèi)容參見(jiàn)下表：表：主要國(guó)家AI“監(jiān)管沙箱”試點(diǎn)概況國(guó)家開(kāi)始時(shí)間內(nèi)容

挪威

2020年挪威數(shù)據(jù)保護(hù)局在個(gè)人信息保護(hù)中推出了一個(gè)監(jiān)管沙箱，旨在促進(jìn)AI領(lǐng)域創(chuàng)新的同時(shí)保護(hù)用戶隱私

法國(guó)

2020年由教育行業(yè)的5家企業(yè)參與測(cè)試AI系統(tǒng),法國(guó)數(shù)據(jù)保護(hù)當(dāng)局在監(jiān)測(cè)、評(píng)估風(fēng)險(xiǎn)的同時(shí)，為參與企業(yè)提供技術(shù)和人力支持

韓國(guó)

2019年韓國(guó)科技部、貿(mào)易、工業(yè)和能源部以及中小企業(yè)和初創(chuàng)企業(yè)部建立監(jiān)管沙箱，為AI企業(yè)提供有時(shí)間限制的監(jiān)管豁免，以測(cè)試創(chuàng)新產(chǎn)品、服務(wù)和商業(yè)模式。沙盒還根據(jù)實(shí)際數(shù)據(jù)為政府法規(guī)提供信息德國(guó)2015年德國(guó)的AI戰(zhàn)略計(jì)劃建立AI生活實(shí)驗(yàn)室和試驗(yàn)平臺(tái)，如

高速公路生活實(shí)驗(yàn)室，創(chuàng)建新的實(shí)驗(yàn)條款作為監(jiān)管沙箱的法律基礎(chǔ)，并創(chuàng)建監(jiān)管沙箱網(wǎng)絡(luò)以及提供監(jiān)管沙箱手冊(cè)。促進(jìn)企業(yè)在自動(dòng)駕駛領(lǐng)域的創(chuàng)新，并讓政府確定所需的監(jiān)管改革瑞士2022年由無(wú)人駕駛農(nóng)機(jī)、無(wú)人機(jī)、機(jī)器翻譯、作業(yè)糾錯(cuò)和停車(chē)調(diào)度等領(lǐng)域的5家企業(yè)參與測(cè)試研發(fā)AI系統(tǒng)西班牙2023年測(cè)試在生物識(shí)別、關(guān)鍵基礎(chǔ)設(shè)施和教育培訓(xùn)等8個(gè)領(lǐng)域中的高風(fēng)險(xiǎn)AI系統(tǒng)雖然引入“監(jiān)管沙箱”制度對(duì)AI的創(chuàng)新和發(fā)展有著諸多好處，如平衡創(chuàng)新與安全、創(chuàng)設(shè)靈活監(jiān)管、減輕監(jiān)管負(fù)擔(dān)等，但仍存在一定局限性，如沙箱侵權(quán)責(zé)任減免事由缺失、相關(guān)激勵(lì)措施有待規(guī)范，以及對(duì)數(shù)據(jù)利用的相關(guān)規(guī)定不完善等。這些問(wèn)題的解決丞需政府、學(xué)術(shù)界和產(chǎn)業(yè)界的共同努力。3.3聚焦提升訓(xùn)練數(shù)據(jù)透明度針對(duì)生成式AI訓(xùn)練階段的個(gè)人信息保護(hù)問(wèn)題，許多國(guó)家和地區(qū)聚焦訓(xùn)練數(shù)據(jù)透明度的提升。數(shù)據(jù)的透明度通常指指的是指開(kāi)發(fā)者在收集、使用和處理數(shù)據(jù)時(shí)，向用戶清晰、公開(kāi)地說(shuō)明其數(shù)據(jù)處理的目的、方式、范圍和用戶權(quán)利，從而增強(qiáng)用戶對(duì)數(shù)據(jù)處理過(guò)程的信任，并確保他們能夠更好地掌握自己的個(gè)人信息。新加坡《生成式人工智能治理模型框架》明確生成式AI訓(xùn)練內(nèi)容來(lái)源的透明度可為最終用戶提供有用的信號(hào)，從而確保用戶能夠了解數(shù)據(jù)的來(lái)源和使用方式。實(shí)踐中，新加坡在“國(guó)家AI戰(zhàn)略”中推出AI治理測(cè)試框架和軟件工具包——AIVerify，其中，向個(gè)人披露AI在技術(shù)系統(tǒng)中的使用情況便是AIVerify測(cè)試框架下的支柱之一，通過(guò)文件證據(jù)（例如公司政策和溝通材料）的流程檢查進(jìn)行評(píng)估，為可能受AI系統(tǒng)影響的個(gè)人提供適當(dāng)?shù)男畔?。AIVerify提供的透明性報(bào)告能夠幫助開(kāi)發(fā)者和監(jiān)管者深入了解數(shù)據(jù)的處理方式，并確保生成式AI模型在使用數(shù)據(jù)時(shí)是透明的。歐盟委員會(huì)《人工智能和數(shù)據(jù)保護(hù)指南》認(rèn)為，盡管模型訓(xùn)練階段必然需要大型數(shù)據(jù)集，但應(yīng)采用一種設(shè)計(jì)范式，嚴(yán)格評(píng)估所使用數(shù)據(jù)的性質(zhì)和數(shù)量，減少冗余或邊緣數(shù)據(jù)，逐漸增加訓(xùn)練集的規(guī)模。英國(guó)也建議提升訓(xùn)練數(shù)據(jù)方面的信息透明度，例如：在《創(chuàng)新友好的人工智能監(jiān)管（2023）》中建議提升訓(xùn)練數(shù)據(jù)方面的信息透明度，在合理透明度和可解釋性原則方面，希望監(jiān)管者對(duì)AI生命周期中的相關(guān)主體設(shè)置期待—積極提供其使用的數(shù)據(jù)以及訓(xùn)練數(shù)據(jù)方面的信息。在產(chǎn)業(yè)層面，生成式AI開(kāi)發(fā)者在實(shí)踐中也極為關(guān)注訓(xùn)練數(shù)據(jù)透明度的提升。GoogleAI定期發(fā)布隱私和安全透明度報(bào)告，向公眾展示其數(shù)據(jù)保護(hù)的措施和技術(shù)，包括生成式AI訓(xùn)練中如何應(yīng)用隱私保護(hù)技術(shù)。Apple不僅通過(guò)隱私透明度報(bào)告展示其數(shù)據(jù)保護(hù)措施，還為用戶提供了細(xì)粒度的隱私控制選項(xiàng)。用戶可以選擇是否參與模型訓(xùn)練和數(shù)據(jù)收集，并能查看和刪除相關(guān)數(shù)據(jù)。這些產(chǎn)業(yè)實(shí)踐不僅增強(qiáng)了用戶對(duì)生成式AI的信任，也為未來(lái)的技術(shù)可持續(xù)發(fā)展提供了穩(wěn)固的基礎(chǔ)。3.4采用嚴(yán)格的測(cè)試和評(píng)估措施為了確保生成式AI在模型訓(xùn)練過(guò)程中對(duì)個(gè)人信息的保護(hù)符合法律要求，多個(gè)國(guó)家采取了嚴(yán)格的測(cè)試和評(píng)估措施，確保生成式AI的開(kāi)發(fā)者和使用者能夠有效保護(hù)個(gè)人信息，并符合數(shù)據(jù)保護(hù)法律的要求。當(dāng)前，不少國(guó)家和地區(qū)已經(jīng)采用或正在推動(dòng)紅隊(duì)測(cè)試（RedTeaming）作為生成式AI模型訓(xùn)練過(guò)程中的個(gè)人信息保護(hù)的手段。紅隊(duì)測(cè)試是網(wǎng)絡(luò)安全領(lǐng)域的一種常見(jiàn)測(cè)試方法，旨在模擬惡意攻擊者對(duì)系統(tǒng)、網(wǎng)絡(luò)或應(yīng)用進(jìn)行攻擊，識(shí)別潛在的漏洞和安全風(fēng)險(xiǎn)在生成式AI領(lǐng)域，紅隊(duì)測(cè)試通常由一個(gè)專門(mén)的“紅隊(duì)”負(fù)責(zé)，測(cè)試模型的邊界以及在各種領(lǐng)域生成不良輸出的潛力。通過(guò)模擬攻擊行為，紅隊(duì)測(cè)試能夠有效評(píng)估AI系統(tǒng)在處理和保護(hù)個(gè)人數(shù)據(jù)方面的能力，并幫助提高模型的整體安全性。美國(guó)總統(tǒng)拜登于2023年10月30日簽署頒布的《關(guān)于安全、可靠、可信地開(kāi)發(fā)和使用人工智能的行政命令》（ExecutiveOrderontheSafe,Secure,andTrustworthyDevelopmentandUseofArtificialIntelligence）強(qiáng)調(diào)了AI紅隊(duì)測(cè)試的必要性。該命令將“AI紅隊(duì)測(cè)試”定義為一種“結(jié)構(gòu)化的測(cè)試活動(dòng)，旨在發(fā)現(xiàn)AI系統(tǒng)中的缺陷和漏洞”，通常由專門(mén)的“紅隊(duì)”通過(guò)對(duì)抗性方法進(jìn)行。歐盟也將紅隊(duì)測(cè)試作為其AI監(jiān)管方法的核心。歐盟于2024年初通過(guò)的《人工智能法》要求“具有系統(tǒng)性風(fēng)險(xiǎn)的通用AI模型”在其生命周期內(nèi)進(jìn)行嚴(yán)格的紅隊(duì)測(cè)試或“對(duì)抗性測(cè)試”。新加坡推出的AIVerify治理測(cè)試框架規(guī)定了通過(guò)第三方測(cè)試提供外部驗(yàn)證和增加信任。韓國(guó)個(gè)人信息保護(hù)委員會(huì)（PIPC）發(fā)布的《關(guān)于處理公開(kāi)數(shù)據(jù)以開(kāi)發(fā)和服務(wù)AI的指南》在管理和組織防護(hù)措施中考慮運(yùn)行AI隱私紅隊(duì)。英國(guó)ICO在“生成式人工智能和數(shù)據(jù)保護(hù)”咨詢中提出了合法利益評(píng)估標(biāo)準(zhǔn)，為生成式AI抓取個(gè)人數(shù)據(jù)進(jìn)行模型訓(xùn)練提供了合法依據(jù)。明確AI開(kāi)發(fā)者應(yīng)進(jìn)行三步測(cè)試:一是目的性測(cè)試，即處理目的是否合法。二是必要性測(cè)試，即個(gè)人信息處理活動(dòng)對(duì)于目的而言是必需的。三是平衡測(cè)試，AI開(kāi)發(fā)者所追求的利益沒(méi)有被用戶的優(yōu)先性權(quán)利或基本權(quán)利與自由推翻。綜上所述，多個(gè)國(guó)家和地區(qū)通過(guò)測(cè)試確保生成式AI模型訓(xùn)練過(guò)程中的個(gè)人信息保護(hù)。這些機(jī)制不僅幫助生成式AI開(kāi)發(fā)者確保其技術(shù)合規(guī)，還加強(qiáng)了個(gè)人信息在模型訓(xùn)練過(guò)程中的安全性，提升數(shù)據(jù)保護(hù)能力。四、思考與展望當(dāng)前，生成式AI通過(guò)將海量數(shù)據(jù)與先進(jìn)的智能算法注入各行各業(yè)，不僅極大地提高了生

人人文庫(kù)> 全部分類> 應(yīng)用文書(shū) > 研究報(bào)告

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

生成式人工智能模型訓(xùn)練階段的個(gè)人信息保護(hù)問(wèn)題

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

生成式人工智能模型訓(xùn)練階段的個(gè)人信息保護(hù)問(wèn)題

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔