生成式人工智能在檔案數(shù)字場景中的應用研究_第1頁
生成式人工智能在檔案數(shù)字場景中的應用研究_第2頁
生成式人工智能在檔案數(shù)字場景中的應用研究_第3頁
生成式人工智能在檔案數(shù)字場景中的應用研究_第4頁
生成式人工智能在檔案數(shù)字場景中的應用研究_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1引言人工智能生成內(nèi)容(ArtificialIntelligenceGenerateContent,下簡稱AIGC),通過人工智能實現(xiàn)文本、圖像、音頻、視頻及其跨模態(tài)間的內(nèi)容生成,可用于繪畫創(chuàng)作、文本寫作、音像生成、游戲開發(fā)等多種類型的內(nèi)容創(chuàng)作。AIGC技術是生成算法、預訓練模型、多模態(tài)等人工智能(AI)技術的累積融合[1]。傳統(tǒng)AI利用機器學習技術學習數(shù)據(jù)分布,在文本識別、語音識別、圖像識別、運營決策、風險評估和醫(yī)療診斷等領域廣泛應用。生成式人工智能[2]在歸納數(shù)據(jù)分布的基礎上,學習數(shù)據(jù)產(chǎn)生的模式并創(chuàng)造新樣本,實現(xiàn)在文字創(chuàng)造、圖像語音生成、代碼生成等領域的技術應用。AI領域正在經(jīng)歷從感知、理解到生成、創(chuàng)造的躍遷。截至2023年5月26日,在中國學術期刊網(wǎng)以“AIGC”“ChatGPT”“生成式人工智能”“生成式AI”為主題檢索近三年發(fā)表學術期刊675篇,與檔案學相關文獻2篇,探討了ChatGPT實現(xiàn)檔案數(shù)字化、檔案鑒定、檔案分類和檢索、檔案保護和安全等多種檔案管理任務[3],提出了ChatGPT火爆背后的冷思考[4]。從文獻學的角度,AIGC技術在檔案領域的研究和應用還剛剛起步。《“十四五”檔案事業(yè)發(fā)展規(guī)劃》提出“推動檔案工作與新技術深度融合,為檔案事業(yè)發(fā)展提供持續(xù)動力”。AIGC作為一種新型內(nèi)容創(chuàng)作方式,給文化、教育、金融、娛樂和公共服務等諸多領域帶來了積極影響,本文擬在檔案視角下探索AIGC技術的多種應用場景,為數(shù)字時代下的智慧檔案建設創(chuàng)新尋找新的思路。2基于AIGC技術的檔案應用場景AIGC具有三大前沿能力:智能數(shù)字內(nèi)容孿生能力、智能數(shù)字內(nèi)容編輯能力和智能數(shù)字內(nèi)容創(chuàng)作能力[5]。技術被廣泛應用于文本、音頻和視覺等不同模態(tài)數(shù)據(jù),形成了豐富多樣的技術應用,在檔案的視角下,AIGC技術可深度賦能檔案文化遺產(chǎn)保護、服務利用及資源開發(fā)、公共教育與文創(chuàng)開發(fā)等領域。2.1數(shù)字孿生:賦能檔案文化遺產(chǎn)保護智能數(shù)字內(nèi)容孿生能力構建了現(xiàn)實世界到數(shù)字世界的映射,是通過對客觀世界內(nèi)容感知、理解的基礎上,以多模態(tài)數(shù)字化內(nèi)容呈現(xiàn)的形式實現(xiàn)對原物理世界的模擬復刻和場景再現(xiàn)。一是數(shù)字修復還原新視覺。AIGC視覺模型通過對作品屬性特征和元素搭配的理解,在海量數(shù)據(jù)中進行知識和分布學習,實現(xiàn)高質(zhì)量的數(shù)字修復?!陡淮荷骄訄D》被毀于300多年前,百度文心利用“視覺生成大模型+單樣本微調(diào)”的技術策略,完成了高清晰度、高還原度的殘卷修復。數(shù)字智能增強能力可應用于照片、音頻、視頻等聲像檔案的修復,采用大模型去除破壞干擾因素,實現(xiàn)多維音、畫質(zhì)增強和提升。在三維視覺領域,智能增強技術克服了傳統(tǒng)數(shù)字化采集的局限,保留了三維世界的深度、材質(zhì)和光照等重要信息,對場景及細節(jié)進行快速和精準的復刻。全球首個超時空參與式博物館“數(shù)字藏經(jīng)洞”真實再現(xiàn)了敦煌百年前藏經(jīng)洞及室藏6萬余卷文物的珍貴歷史場景,項目還開發(fā)了沉浸式遠程會診系統(tǒng),實現(xiàn)無障礙遠程文物會診?;蛹o錄片《古籍尋游記》在不傷害文物的低噪情況下重建了敦煌石窟中文物的三維結構。二是聲像檔案傳承新聲音。語音智能轉譯技術已用于重大活動的實時建檔、口述檔案的實時轉寫、音視頻檔案數(shù)據(jù)化以及實時字幕輔助等場景。2019年,浙江省檔案館在全國率先使用科大訊飛檔案機,實現(xiàn)口述歷史采集室建設運行、重點檔案保護與開發(fā)等工作中的成果轉化及推廣。AIGC語音合成、圖像合成等多模態(tài)融合技術的應用可實現(xiàn)“故人重現(xiàn)”“經(jīng)典回溯”“古今同臺”等場景[6],使深藏在檔案館里的偉人聲音、非遺藝術等聲像檔案“活”起來。世界首部人工智能配音紀錄片《創(chuàng)新中國》通過AI學習已逝著名配音藝術家李易老師過往紀錄片的聲音資料合成配音,讓李易的聲音重現(xiàn)。技術的應用還有助于民間聲像檔案的動態(tài)傳承,我國“地方方言檔案資料庫”由于開發(fā)缺乏方言元數(shù)據(jù)標準和國標音標著錄等因素影響,庫內(nèi)資源大都停留在靜態(tài)保存的階段[7],借助AIGC技術可生成形式多樣的方言學習素材,讓即將消失的鄉(xiāng)音重新發(fā)聲,使豐富的地方文化得到有效的傳承。2.2數(shù)字編輯:賦能服務利用與資源開發(fā)AIGC智能數(shù)字內(nèi)容編輯能力構建了數(shù)字世界與物理世界間的交互通道。新一代知識增強大語言模型(LLM),以谷歌BERT、OpenAI的GPT和百度文心等為代表,為人機交流提供了智能的交互方式。自然語言處理技術的引入,可實現(xiàn)文本信息的抽取、自動摘要分類和數(shù)據(jù)分析等操作,通過對內(nèi)容的語義理解,從研究問題中衍生出新的發(fā)現(xiàn),實現(xiàn)對資源的開發(fā)。一是檔案智能檢索交互新轉變。傳統(tǒng)的檔案信息檢索通過輸入檢索詞等方式進行模糊檢索,增加了非專業(yè)利用者的搜索和利用難度。大語言模型的運用,用戶可通過自然語言交互的方式獲得需要的信息,還可對后續(xù)問題展開更深層的知識拓展。搜索引擎正逐步實現(xiàn)從“模糊搜索”到“精準推送”的轉變。ChatGPT是文本生成式AIGC的典型代表,基于人類反饋的強化學習(RLHF)技術解決了如何使AI模型產(chǎn)生與人類常識和認知、需求和價值觀保持一致的難題,它的出現(xiàn)將計算機理解人類語言和反饋解決方法水平提高到全新的層次[8]。微軟集成ChatGPT的新版Bing根據(jù)用戶的想法調(diào)整搜索查詢,能通過對話的方式調(diào)整搜索結果,優(yōu)化檢索體驗。二是檔案社會關懷價值新體現(xiàn)。AIGC技術在文本、圖像和音視頻間多模態(tài)的相互轉化,將檢索結果按照用戶所能接受的最佳模態(tài)呈現(xiàn),為我國數(shù)量龐大的視障、聽障、感官逐漸衰退的老年群體以及智能設備使用無力的邊緣人群提供多維感官的交互體驗[9],可實現(xiàn)個性化檔案服務與社會化人文關懷的完美結合。對于特殊群體,智能檢索在社會關懷價值上的體現(xiàn)也更趨多元化,百度輸入法搭載文心PLATO對話大模型推出AI侃侃功能,為用戶提供真實的情感陪伴式聊天服務,用戶在知識獲取的同時,體驗真實的情感陪伴,讓冰冷的知識更有溫度。三是檔案編研開發(fā)挖掘新深度。傳統(tǒng)的信息組織思路是基于學科、主題、關鍵詞等所反映的少量特征信息,而生成式AI可依據(jù)的特征維度更豐富,知識組織之間細粒度和關聯(lián)性更突出。通過對文本的數(shù)據(jù)分析與知識發(fā)現(xiàn),識別文本信息共性并關聯(lián)相近內(nèi)容,實現(xiàn)深入內(nèi)容層面的檔案開發(fā),形成豐富的檔案資源開發(fā)成果,促進人文研究領域從文本梳理到知識鏈接、從信息檢索到知識發(fā)現(xiàn)的轉變。耶魯大學“讓二戰(zhàn)大屠殺受害者發(fā)聲(LetThemSpeak)”項目,在近3000份大屠殺幸存者留下的視聽材料和文字證詞中,以文本挖掘和可視化技術幫助研究者探尋檔案記錄背后更深層次的語義關系和集體記憶[10]。瑞典國家圖書館使用開源Transformer模型對26PB的瑞典語數(shù)據(jù)創(chuàng)建數(shù)據(jù)集,幫助語言分析人員回顧瑞典語幾個世紀的演變。2.3數(shù)字創(chuàng)作:賦能公共教育與文創(chuàng)開發(fā)AIGC智能數(shù)字內(nèi)容創(chuàng)作能力使計算機從對數(shù)據(jù)的理解上升到對數(shù)據(jù)的創(chuàng)作。從數(shù)據(jù)中學習抽象概念,并基于概念創(chuàng)作出新的內(nèi)容,包括了AI視頻創(chuàng)作、數(shù)字人、劇本創(chuàng)作、游戲開發(fā)等。我國檔案館公共教育活動多以參觀庫房、觀看展覽、影片、聽講解等傳統(tǒng)形式為主,未充分考慮教育群體的特點和需求[11]。AIGC技術的應用為不同群體策劃知識服務活動,實現(xiàn)知識傳授和互動實踐的良性循環(huán)。一是檔案主題動漫啟蒙新思路?!皺n案教育從娃娃抓起”,針對年齡段較小的教育群體,檔案動漫等形式更容易被接受。AI短片制作可實現(xiàn)AI動畫表演、場景和角色生成、細節(jié)動態(tài)效果生成、自動布光渲染、虛擬拍攝及衍生品開發(fā)等。微軟NUWA-XL人工智能僅用16句描述詞生成了長達11分鐘的2D動畫。Netflix、微軟小冰日本分部、WITSTUDIO共同創(chuàng)作了首部發(fā)行級別AIGC動畫短片《犬與少年》。首部AIGC中文漫畫《ARES覺醒》已在騰訊動漫平臺上連載,藝術家王睿將高澤龍小說《元宇宙2086》文本轉化為可視圖像,實現(xiàn)了AIGC生成完整情節(jié)的漫畫[12]。以AIGC輔助開展檔案主題動漫的創(chuàng)作為幼兒檔案文化和意識的啟蒙開拓了新的思路。二是檔案數(shù)字人互動新體驗。針對青少年群體,兼具知識性和互動性的虛擬數(shù)字人更符合其發(fā)展特點。2021年元宇宙概念盛行,國內(nèi)外虛擬數(shù)字人扎堆出現(xiàn)。這一階段,虛擬人大多存在“動作神態(tài)僵硬、對話交互性弱、視頻效果粗糙”等缺陷,宣傳意義大于實踐。隨著AIGC技術發(fā)展,技術平臺依靠短時間的視頻素材進行多模態(tài)預訓練,可實現(xiàn)小樣本快速定制虛擬人產(chǎn)品,在人像驅動、智能對話和語音交互等領域也逐漸成熟。通過給予數(shù)字化檔案訓練語料,虛擬數(shù)字人可充當不同年齡段學習群體的檔案數(shù)字助教和孿生學伴,提供檔案智能問答、沉浸式情境教學、交流研討等知識服務,為青少年群體提供更逼真、更人性化的交互體驗。三是檔案劇本創(chuàng)作開發(fā)新視角。數(shù)字內(nèi)容創(chuàng)作為歷史文化檔案的開發(fā)創(chuàng)造了新的視角。技術通過對多模態(tài)歷史檔案數(shù)據(jù)的分析歸納,按照預設風格快速生成劇本方案,為檔案開發(fā)人員進行篩選和二次加工開拓創(chuàng)作思路,以文案設計、劇本創(chuàng)作、游戲開發(fā)等形式實現(xiàn)歷史的重現(xiàn)?!笆澜缬洃洝ぶ袊墨I遺產(chǎn)創(chuàng)意競賽”獲獎項目:劇本殺《歷獄1665》,根據(jù)中國第一歷史檔案館藏的24件清朝內(nèi)閣秘本檔為劇本創(chuàng)作對象,實現(xiàn)了歷史事件的創(chuàng)新開發(fā)。除了文案、劇本設計等形式,AIGC技術還可應用于游戲中的智能NPC、場景建模、AI劇情、AI繪圖等方面,為檔案故事創(chuàng)作的解密游戲、劇情游戲提供技術支持。3生成式數(shù)字應用場景中的風險挑戰(zhàn)與對策3.1檔案數(shù)據(jù)信息安全性檔案系統(tǒng)的部署和使用大都在局域網(wǎng)或者政務網(wǎng),調(diào)用檔案數(shù)據(jù)的敏感性、安全和合規(guī)性最為關鍵。現(xiàn)行較為流行的直接調(diào)用外部模型接口的方式可能引發(fā)檔案資源的跨境泄露,如檔案信息被惡意使用或濫用,將引發(fā)深度合成詐騙、誹謗、假冒身份等新型違法犯罪行為。同時,在利用AIGC技術向用戶提供在線檔案服務與多場景交流互動過程中留下的個性特征、常用服務、辦事習慣等用戶隱私信息會通過人工智能跟蹤、統(tǒng)計、分析等途徑留下痕跡,在更好地為用戶提供信息檢索、業(yè)務問答、文創(chuàng)推薦等智能服務的同時也增加了用戶隱私泄露的風險。因此,在確保檔案數(shù)據(jù)信息和用戶隱私安全的前提下,自主研發(fā)部署適合于檔案部門的訓練模型,妥善應對數(shù)據(jù)來源、訓練、組織、輸出等各個環(huán)節(jié)的風險挑戰(zhàn)。3.2檔案開發(fā)價值導向性AIGC技術可完成語音轉寫、多語言音畫同步、智能視頻剪輯、概念圖優(yōu)化、劇本生成等多項創(chuàng)作初期任務,將部分流程性、重復性勞動的工作自動化,提高工作效率和準確度。但對于類似紅色檔案精神挖掘、特色檔案記憶傳承、傳統(tǒng)檔案價值觀體現(xiàn)等具有深層次價值導向的編研及利用開發(fā)無法發(fā)揮人類在提升內(nèi)容價值、精準分析事物、妥善處理情感元素等方面的優(yōu)勢,無法替代人類完成決策性的生成任務。因此,需要創(chuàng)作者在生成技術的輔助下進行篩選和二次加工,采用人機協(xié)作的工作方式,深度挖掘檔案中蘊含的歷史、文化、精神等獨特價值。3.3生成專業(yè)數(shù)據(jù)可信性生成式人工智能輸出數(shù)據(jù)的可信性很大部分取決于原始訓練語料數(shù)據(jù)集的專業(yè)性。檔案中存在著較多非標準化語言和文檔格式,小部分數(shù)據(jù)化后的文本檔案數(shù)據(jù)質(zhì)量欠佳以及檔案中因不同地區(qū)語言及背景文化產(chǎn)生的差異等等,都容易產(chǎn)生非專業(yè)性、非標準化訓練語料,導致生成輸出數(shù)據(jù)產(chǎn)生虛假、瑕疵信息和不專業(yè)信息。因此,需要加強檔案數(shù)據(jù)標準化和規(guī)范化建設,構建高質(zhì)量、專業(yè)性的訓練數(shù)據(jù)集和生成內(nèi)容質(zhì)量評價標準。3.4基礎設施建設可行性生成式AI模型的實現(xiàn)需要強大的計算資源和存儲設備來支撐訓練和推理過程,自建IDC數(shù)據(jù)中心等基礎設施的成本昂貴,對于檔案部門來說是難以承受的。同時,為保證模型的精度,參數(shù)訓練量一般需達到百億、千億到萬億級別,對文本和聲像檔案數(shù)據(jù)化的數(shù)據(jù)量和準確度要求極高,檔案部門現(xiàn)有的電子檔案數(shù)據(jù)量難以滿足。為此,需進一步加強檔案數(shù)據(jù)化建設,合理選擇預

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論