版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
ICS號(hào)
中國(guó)標(biāo)準(zhǔn)文獻(xiàn)分類號(hào)
CEST/CESXXX-XXXX
團(tuán)體標(biāo)準(zhǔn)
T/CESXXX-XXXX
電力系統(tǒng)的大語言模型微調(diào)數(shù)據(jù)準(zhǔn)備規(guī)范
DataPreparationRequirementsandStandardsforLargeLanguage
Models(征求意見稿)inthePowerSystem
bileterminalintelligentinteractivemulti-rounddialogueprocessspecification
XXXX-XX-XX發(fā)布XXXX-XX-XX實(shí)施
中國(guó)電工技術(shù)學(xué)會(huì)發(fā)布
Ⅱ
T/CESXXX-XXXX
1范圍
本文件適用于電力系統(tǒng)的大語言模型的數(shù)據(jù)準(zhǔn)備,包括數(shù)據(jù)的采集、清理、標(biāo)注、注釋
和整理等所有環(huán)節(jié)。此標(biāo)準(zhǔn)的目的在于規(guī)范在大語言模型訓(xùn)練中的數(shù)據(jù)處理過程,以保證數(shù)
據(jù)的可用性、一致性和可追溯性。本文件規(guī)定了人工智能大語言模型在電力系統(tǒng)中的微調(diào)數(shù)
據(jù)準(zhǔn)備規(guī)范,本文件共分為數(shù)據(jù)準(zhǔn)備要求、數(shù)據(jù)準(zhǔn)備規(guī)范、數(shù)據(jù)準(zhǔn)備流程等。
本文件適用于各單位使用大語言模型技術(shù)解決相關(guān)業(yè)務(wù)需求,適用于電力系統(tǒng)人工智能
大語言模型的應(yīng)用開發(fā)等業(yè)務(wù)場(chǎng)景,幫助業(yè)務(wù)人員以及開發(fā)人員完成模型訓(xùn)練、模型微調(diào)等
相關(guān)工作。
2規(guī)范性引用文件
下列文件對(duì)于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適
用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
GB/T5271.28-2001信息技術(shù)詞匯第28部分:人工智能基本概念與專家系統(tǒng)
GB/T41867-2022信息技術(shù)人工智能術(shù)語
3術(shù)語和定義
下列術(shù)語和定義僅適用于本文件。
3.1人工智能ArtificialIntelligence
人工智能是一門交叉學(xué)科,通常視為計(jì)算機(jī)科學(xué)的分支,研究表現(xiàn)出與人類智能(如推
理和學(xué)習(xí))相關(guān)的各種功能的模型和系統(tǒng)。
3.2大語言模型LargeLanguageModel
大語言模型也稱大型語言模型,是一種人工智能模型,旨在理解和生成人類語言。在大
規(guī)模文本語料上訓(xùn)練、包含百億級(jí)別(或更多)參數(shù)的語言模型。
3.3指令微調(diào)InstructionTuning
指令微調(diào)是指可以幫助大語言模型實(shí)現(xiàn)人類語言指令遵循的能力,在零樣本設(shè)置中泛化
到未見任務(wù)上的學(xué)習(xí)方法。
3.4數(shù)據(jù)準(zhǔn)備DataPreparation
指的是將原始數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換、標(biāo)記和結(jié)構(gòu)化以適用于大語言模型的過程。
3.5數(shù)據(jù)源DataSources
數(shù)據(jù)源指的是用于訓(xùn)練和應(yīng)用大語言模型的原始數(shù)據(jù),包括但不限于文本、圖像、報(bào)告
和傳感器數(shù)據(jù)。
1
T/CESXXX-XXXX
3.6數(shù)據(jù)預(yù)處理DataPreprocessing
數(shù)據(jù)預(yù)處理指的是在得到原始數(shù)據(jù)之后對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)清洗、去重、去噪
以及數(shù)據(jù)標(biāo)準(zhǔn)化等步驟。
4縮略語
下列縮略語適用于本文件。
Json:JS對(duì)象簡(jiǎn)譜(JavaScriptObjectNotation)
BOM:字節(jié)順序標(biāo)記(ByteOrderMark)
5總則
本文件規(guī)定了人工智能大語言模型在電力系統(tǒng)中的微調(diào)數(shù)據(jù)準(zhǔn)備規(guī)范,本文件共分為數(shù)
據(jù)準(zhǔn)備要求、數(shù)據(jù)準(zhǔn)備規(guī)范、數(shù)據(jù)處理流程等。其中數(shù)據(jù)準(zhǔn)備主要用于規(guī)范電力系統(tǒng)的大模
型在微調(diào)訓(xùn)練中的數(shù)據(jù)收集、數(shù)據(jù)格式以及數(shù)據(jù)隱私與安全等,數(shù)據(jù)準(zhǔn)備規(guī)范主要用于規(guī)范
電力系統(tǒng)大模型微調(diào)訓(xùn)練中的數(shù)據(jù)預(yù)處理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)標(biāo)簽與注釋、數(shù)據(jù)及劃分、數(shù)據(jù)
格式化、數(shù)據(jù)集質(zhì)量評(píng)估、數(shù)據(jù)增強(qiáng)以及數(shù)據(jù)更新與維護(hù)等,數(shù)據(jù)處理流程主要用于規(guī)范數(shù)
據(jù)預(yù)處理的一般步驟和中文數(shù)據(jù)預(yù)處理的步驟等。具體內(nèi)容組織框架見圖1:
圖1組織框架
2
T/CESXXX-XXXX
6數(shù)據(jù)準(zhǔn)備規(guī)范
6.1數(shù)據(jù)收集
本文件主要從數(shù)據(jù)來源、數(shù)據(jù)多樣性與數(shù)據(jù)質(zhì)量三個(gè)方面對(duì)數(shù)據(jù)收集過程進(jìn)行相關(guān)的規(guī)
范性要求,確保大語言模型微調(diào)技術(shù)應(yīng)用過程中訓(xùn)練數(shù)據(jù)符合要求。
(1)數(shù)據(jù)來源
電力系統(tǒng)的數(shù)據(jù)要求是通過傳感器、智能設(shè)備、視頻監(jiān)控設(shè)備、音頻通信設(shè)備、移動(dòng)終
端等進(jìn)行數(shù)據(jù)采集,收集海量結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的業(yè)務(wù)數(shù)據(jù)集合。在電力系統(tǒng)中,
大語言模型的微調(diào)與訓(xùn)練所使用的數(shù)據(jù)應(yīng)來自可靠和權(quán)威的電力系統(tǒng)數(shù)據(jù)源,包括電力公司、
政府部門和獨(dú)立研究機(jī)構(gòu)等。
(2)數(shù)據(jù)多樣性
在大語言模型訓(xùn)練過程中所使用的數(shù)據(jù)要求應(yīng)涵蓋電力系統(tǒng)各個(gè)方面,包括發(fā)電、輸電、
配電、設(shè)備狀態(tài)、市場(chǎng)數(shù)據(jù)和電力負(fù)荷等,需要根據(jù)具體的業(yè)務(wù)場(chǎng)景及需求,保證數(shù)據(jù)的多
樣性和豐富性。
(3)數(shù)據(jù)質(zhì)量
大語言模型訓(xùn)練中應(yīng)過濾低質(zhì)量數(shù)據(jù),保證數(shù)據(jù)的準(zhǔn)確性和一致性,可分為兩類方法:
基于分類器的方法和基于啟發(fā)式的方法。
6.2數(shù)據(jù)格式
大語言模型微調(diào)訓(xùn)練中應(yīng)對(duì)多樣化的原始數(shù)據(jù)集進(jìn)行對(duì)齊,本文件主要從數(shù)據(jù)結(jié)構(gòu)化和
數(shù)據(jù)標(biāo)注兩個(gè)方面進(jìn)行要求。
(1)數(shù)據(jù)結(jié)構(gòu)化
數(shù)據(jù)應(yīng)以適當(dāng)格式進(jìn)行結(jié)構(gòu)化,便于模型的理解和分析。電力系統(tǒng)中的數(shù)據(jù)來源復(fù)雜多
樣,應(yīng)對(duì)收集到的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,使用統(tǒng)一的格式標(biāo)準(zhǔn)對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,使得
大語言模型微調(diào)過程中能夠更好的訓(xùn)練,保證模型訓(xùn)練的效果。
(2)數(shù)據(jù)標(biāo)注
在電力系統(tǒng)大模型訓(xùn)練中應(yīng)對(duì)數(shù)據(jù)中的重要信息進(jìn)行標(biāo)記和注釋,幫助模型理解數(shù)據(jù)的
語境和含義。可采用的方法有眾包、半監(jiān)督、主動(dòng)學(xué)習(xí)以及弱監(jiān)督等,其中眾包是人工標(biāo)注,
半監(jiān)督方法指利用部分標(biāo)注數(shù)據(jù)訓(xùn)練一個(gè)分類器等輔助標(biāo)注更多的數(shù)據(jù),主動(dòng)學(xué)習(xí)方法指先
從每次選出模型任務(wù)最難的樣本中進(jìn)行人工標(biāo)注再接著訓(xùn)練,然后進(jìn)行多次迭代,弱監(jiān)督方
法是設(shè)計(jì)一種標(biāo)簽函數(shù),通?;趩l(fā)式。
3
T/CESXXX-XXXX
6.3數(shù)據(jù)預(yù)處理
大語言模型的數(shù)據(jù)清洗應(yīng)包括:去除噪聲數(shù)據(jù)、去除重復(fù)數(shù)據(jù)、統(tǒng)一標(biāo)號(hào)、缺失值處理、
語言檢測(cè)和文本語言標(biāo)準(zhǔn)化等。數(shù)據(jù)清洗的具體步驟和技巧根據(jù)具體項(xiàng)目和業(yè)務(wù)需求導(dǎo)致數(shù)
據(jù)的要求而有所不同。電力系統(tǒng)的大模型微調(diào)訓(xùn)練中要求去除不需要的數(shù)據(jù),修復(fù)數(shù)據(jù)集中
的缺失值或錯(cuò)誤,處理異常數(shù)據(jù)和噪聲,將數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的格式和單位,保證數(shù)據(jù)質(zhì)量,
避免對(duì)模型的干擾,提高模型訓(xùn)練的效率。在清洗數(shù)據(jù)時(shí),應(yīng)進(jìn)行反復(fù)測(cè)試和驗(yàn)證。
6.4數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)轉(zhuǎn)換應(yīng)將電力系統(tǒng)的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的、適合模型使用的形式,保證數(shù)據(jù)的一致性
和可用性。應(yīng)包括數(shù)據(jù)編碼和數(shù)據(jù)歸一化,數(shù)據(jù)編碼是將數(shù)據(jù)進(jìn)行編碼,數(shù)據(jù)歸一化是將數(shù)
據(jù)進(jìn)行歸一化處理。
6.5數(shù)據(jù)標(biāo)簽與注釋
電力系統(tǒng)的大語言模型微調(diào)中應(yīng)為數(shù)據(jù)添加標(biāo)簽和注釋,包括人工標(biāo)注法和自動(dòng)標(biāo)注技
術(shù)。其中自動(dòng)標(biāo)注技術(shù)可通過機(jī)器學(xué)習(xí)算法自動(dòng)給數(shù)據(jù)添加標(biāo)簽,常用的有實(shí)體識(shí)別、事件
標(biāo)注等。實(shí)體識(shí)別是標(biāo)記電力系統(tǒng)中的關(guān)鍵實(shí)體,如設(shè)備、線路、電力站等,事件標(biāo)注是標(biāo)
記電力系統(tǒng)中的關(guān)鍵事件,如故障、維護(hù)、市場(chǎng)活動(dòng)等。
6.6數(shù)據(jù)集劃分
對(duì)數(shù)據(jù)數(shù)據(jù)集進(jìn)行劃分要求如下:
(1)將數(shù)據(jù)集劃分為訓(xùn)練集,驗(yàn)證集和測(cè)試集三個(gè)數(shù)據(jù)集;
(2)使用交叉驗(yàn)證來評(píng)估模型的性能
(3)通過分層抽樣保證每個(gè)類別的數(shù)據(jù)在三個(gè)測(cè)試集中具有代表性,避免數(shù)據(jù)偏差。
(4)訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù)集由輸入和輸出實(shí)例組成,這些實(shí)例表示模型如何執(zhí)行。使
用的訓(xùn)練和驗(yàn)證數(shù)據(jù)必須采用JSON(JSONL)文檔格式,其中每一行代表一個(gè)
{prompt-completion}對(duì)。
訓(xùn)練數(shù)據(jù)的格式實(shí)例:
{"prompt":"<prompttext>","completion":"<idealgeneratedtext>"}
{"prompt":"<prompttext>","completion":"<idealgeneratedtext>"}
{"prompt":"<prompttext>","completion":"<idealgeneratedtext>"}
除JSONL格式外,訓(xùn)練和驗(yàn)證數(shù)據(jù)文件必須以UTF-8編碼并包含字節(jié)順序標(biāo)記
(BOM),并且文件大小必須小于200MB。
4
T/CESXXX-XXXX
6.7數(shù)據(jù)格式化
數(shù)據(jù)格式化應(yīng)根據(jù)所選擇的模型,將數(shù)據(jù)格式化為適合電力系統(tǒng)大語言模型接受的標(biāo)準(zhǔn)
輸入格式,包括文本編碼、圖像的張量化等。
6.8數(shù)據(jù)集質(zhì)量評(píng)估
在電力系統(tǒng)的大語言模型微調(diào)訓(xùn)練中應(yīng)評(píng)估數(shù)據(jù)集的質(zhì)量,確保數(shù)據(jù)的準(zhǔn)確性、一致性
和完整性。應(yīng)對(duì)數(shù)據(jù)集進(jìn)行及時(shí)更新與維護(hù),保證數(shù)據(jù)集中的數(shù)據(jù)具有良好的時(shí)效性,便于
不同版本的記錄。
6.9數(shù)據(jù)增強(qiáng)
在準(zhǔn)備電力系統(tǒng)大語言模型微調(diào)數(shù)據(jù)中應(yīng)通過增加數(shù)據(jù)樣本和多樣性來提高模型性能,
解決數(shù)據(jù)不平衡問題,增加小類別的樣本,可采用的方法包括Mixup、AutoAugment以及利
用GAN生成新樣本等等。
6.10數(shù)據(jù)更新與維護(hù)
電力系統(tǒng)中大語言模型微調(diào)中應(yīng)及時(shí)對(duì)數(shù)據(jù)進(jìn)行更新和維護(hù),確保數(shù)據(jù)的時(shí)效性和可靠
性。在數(shù)據(jù)準(zhǔn)備過程中應(yīng)確定數(shù)據(jù)更新頻率,規(guī)定數(shù)據(jù)來源(包括實(shí)時(shí)監(jiān)測(cè)、傳感器、數(shù)據(jù)
庫等),建立數(shù)據(jù)監(jiān)控系統(tǒng),確保及時(shí)處理數(shù)據(jù)異常變化情況,需要記錄數(shù)據(jù)更新與維護(hù)的
所有操作,建立清晰的數(shù)據(jù)維護(hù)歷史。
6.11數(shù)據(jù)隱私和安全
(1)隱私保護(hù)
電力數(shù)據(jù)可能包含大量的敏感信息,如用戶的用電量、電費(fèi)等,這些信息需要得到嚴(yán)格
的保護(hù)。因此對(duì)大語言微調(diào)數(shù)據(jù)準(zhǔn)備過程中涉及到的隱私數(shù)據(jù)要求如下:
a)應(yīng)對(duì)敏感信息存儲(chǔ)和記錄,對(duì)所記錄的數(shù)據(jù)進(jìn)行訪問時(shí)要設(shè)定權(quán)限嚴(yán)格管控,以達(dá)
到防止對(duì)數(shù)據(jù)進(jìn)行未經(jīng)授權(quán)的訪問和數(shù)據(jù)泄露等安全問題的產(chǎn)生。
b)應(yīng)大語言模型設(shè)置數(shù)據(jù)安全標(biāo)準(zhǔn)等級(jí)規(guī)定,保障電力系統(tǒng)中大量的實(shí)時(shí)監(jiān)測(cè)和控制
系統(tǒng)的穩(wěn)定運(yùn)轉(zhuǎn)。
(2)安全性
結(jié)合電力數(shù)據(jù)的有關(guān)特性,對(duì)數(shù)據(jù)安全性方面作出如下要求:
a)應(yīng)數(shù)據(jù)應(yīng)存儲(chǔ)和傳輸于安全的環(huán)境中,防止數(shù)據(jù)泄露和濫用。
b)大語言模型構(gòu)建過程中應(yīng)告知使用時(shí)收集用戶數(shù)據(jù)的范圍,提供數(shù)據(jù)信息撤銷、清
除等操作。
5
T/CESXXX-XXXX
c)針對(duì)電力系統(tǒng)中數(shù)據(jù)的特性,要求大語言模型規(guī)范數(shù)據(jù)安全等級(jí)。
d)在對(duì)大模型進(jìn)行微調(diào)訓(xùn)練過程中,要求對(duì)數(shù)據(jù)進(jìn)行全面的安全性評(píng)估,以確保大語
言模型在電力領(lǐng)域的應(yīng)用滿足相關(guān)法規(guī)和安全要求。
7大語言模型微調(diào)數(shù)據(jù)準(zhǔn)備流程規(guī)范
本文件規(guī)定了在電力系統(tǒng)中通用的大語言模型微調(diào)數(shù)據(jù)準(zhǔn)備流程規(guī)范,在應(yīng)用過程中應(yīng)
該結(jié)合具體的業(yè)務(wù)要求及應(yīng)用場(chǎng)景適時(shí)調(diào)整。具體的流程見圖2:
圖2電力系統(tǒng)中通用的大語言模型微調(diào)數(shù)據(jù)準(zhǔn)備流程
(1)數(shù)據(jù)收集
電力系統(tǒng)大語言微調(diào)數(shù)據(jù)的具體要求收集電力系統(tǒng)的原始數(shù)據(jù),包括但不限于發(fā)電、輸
電、變電、配電、用電和調(diào)度等各環(huán)節(jié)的數(shù)據(jù),以及能源數(shù)據(jù)、天氣數(shù)據(jù)等多類型數(shù)據(jù)。
(2)數(shù)據(jù)清洗與數(shù)據(jù)集構(gòu)建
大語言模型對(duì)訓(xùn)練數(shù)據(jù)的具體要求包括:
a)對(duì)已收集的電力系統(tǒng)原始數(shù)據(jù)進(jìn)行篩選、標(biāo)注和整理;
b)開展數(shù)據(jù)預(yù)處理,如去除無關(guān)、重復(fù)、錯(cuò)誤、低質(zhì)量的數(shù)據(jù)等,有效減少訓(xùn)練數(shù)據(jù)
中的噪聲和偏差,提高大語言模型關(guān)于電力系統(tǒng)場(chǎng)景數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度餐飲連鎖企業(yè)食材集中配送服務(wù)合同3篇
- 2024年版船舶租賃合同格式3篇
- 2024年版施工單位與監(jiān)理單位合作協(xié)議
- 2024事業(yè)單位合同管理信息系統(tǒng)開發(fā)與維護(hù)合同2篇
- 2025年伊犁下載貨運(yùn)從業(yè)資格證模擬考試題
- 2024商場(chǎng)餐飲品牌租賃與市場(chǎng)營(yíng)銷策略合同3篇
- 洛陽師范學(xué)院《大數(shù)據(jù)基礎(chǔ)理論與應(yīng)用》2023-2024學(xué)年第一學(xué)期期末試卷
- 表面處理工程安裝施工承包合同
- 建筑綠化勞務(wù)合同
- 酒店行業(yè)技術(shù)人才招聘合同范本
- 半導(dǎo)體封裝過程wirebond中wireloop的研究及其優(yōu)化
- 15m鋼棧橋施工方案
- FZ∕T 97040-2021 分絲整經(jīng)機(jī)
- 應(yīng)聘人員面試登記表(應(yīng)聘者填寫)
- T∕CAAA 005-2018 青貯飼料 全株玉米
- s鐵路預(yù)應(yīng)力混凝土連續(xù)梁(鋼構(gòu))懸臂澆筑施工技術(shù)指南
- 撥叉831006設(shè)計(jì)說明書
- 10KV高壓線防護(hù)施工方案——杉木桿
- 石油鉆井八大系統(tǒng)ppt課件
- 對(duì)標(biāo)管理辦法(共7頁)
- R語言入門教程(超經(jīng)典)
評(píng)論
0/150
提交評(píng)論