《電力系統(tǒng)的大語言模型微調(diào)數(shù)據(jù)準(zhǔn)備規(guī)范》_第1頁
《電力系統(tǒng)的大語言模型微調(diào)數(shù)據(jù)準(zhǔn)備規(guī)范》_第2頁
《電力系統(tǒng)的大語言模型微調(diào)數(shù)據(jù)準(zhǔn)備規(guī)范》_第3頁
《電力系統(tǒng)的大語言模型微調(diào)數(shù)據(jù)準(zhǔn)備規(guī)范》_第4頁
《電力系統(tǒng)的大語言模型微調(diào)數(shù)據(jù)準(zhǔn)備規(guī)范》_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

ICS號(hào)

中國(guó)標(biāo)準(zhǔn)文獻(xiàn)分類號(hào)

CEST/CESXXX-XXXX

團(tuán)體標(biāo)準(zhǔn)

T/CESXXX-XXXX

電力系統(tǒng)的大語言模型微調(diào)數(shù)據(jù)準(zhǔn)備規(guī)范

DataPreparationRequirementsandStandardsforLargeLanguage

Models(征求意見稿)inthePowerSystem

bileterminalintelligentinteractivemulti-rounddialogueprocessspecification

XXXX-XX-XX發(fā)布XXXX-XX-XX實(shí)施

中國(guó)電工技術(shù)學(xué)會(huì)發(fā)布

T/CESXXX-XXXX

1范圍

本文件適用于電力系統(tǒng)的大語言模型的數(shù)據(jù)準(zhǔn)備,包括數(shù)據(jù)的采集、清理、標(biāo)注、注釋

和整理等所有環(huán)節(jié)。此標(biāo)準(zhǔn)的目的在于規(guī)范在大語言模型訓(xùn)練中的數(shù)據(jù)處理過程,以保證數(shù)

據(jù)的可用性、一致性和可追溯性。本文件規(guī)定了人工智能大語言模型在電力系統(tǒng)中的微調(diào)數(shù)

據(jù)準(zhǔn)備規(guī)范,本文件共分為數(shù)據(jù)準(zhǔn)備要求、數(shù)據(jù)準(zhǔn)備規(guī)范、數(shù)據(jù)準(zhǔn)備流程等。

本文件適用于各單位使用大語言模型技術(shù)解決相關(guān)業(yè)務(wù)需求,適用于電力系統(tǒng)人工智能

大語言模型的應(yīng)用開發(fā)等業(yè)務(wù)場(chǎng)景,幫助業(yè)務(wù)人員以及開發(fā)人員完成模型訓(xùn)練、模型微調(diào)等

相關(guān)工作。

2規(guī)范性引用文件

下列文件對(duì)于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適

用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。

GB/T5271.28-2001信息技術(shù)詞匯第28部分:人工智能基本概念與專家系統(tǒng)

GB/T41867-2022信息技術(shù)人工智能術(shù)語

3術(shù)語和定義

下列術(shù)語和定義僅適用于本文件。

3.1人工智能ArtificialIntelligence

人工智能是一門交叉學(xué)科,通常視為計(jì)算機(jī)科學(xué)的分支,研究表現(xiàn)出與人類智能(如推

理和學(xué)習(xí))相關(guān)的各種功能的模型和系統(tǒng)。

3.2大語言模型LargeLanguageModel

大語言模型也稱大型語言模型,是一種人工智能模型,旨在理解和生成人類語言。在大

規(guī)模文本語料上訓(xùn)練、包含百億級(jí)別(或更多)參數(shù)的語言模型。

3.3指令微調(diào)InstructionTuning

指令微調(diào)是指可以幫助大語言模型實(shí)現(xiàn)人類語言指令遵循的能力,在零樣本設(shè)置中泛化

到未見任務(wù)上的學(xué)習(xí)方法。

3.4數(shù)據(jù)準(zhǔn)備DataPreparation

指的是將原始數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換、標(biāo)記和結(jié)構(gòu)化以適用于大語言模型的過程。

3.5數(shù)據(jù)源DataSources

數(shù)據(jù)源指的是用于訓(xùn)練和應(yīng)用大語言模型的原始數(shù)據(jù),包括但不限于文本、圖像、報(bào)告

和傳感器數(shù)據(jù)。

1

T/CESXXX-XXXX

3.6數(shù)據(jù)預(yù)處理DataPreprocessing

數(shù)據(jù)預(yù)處理指的是在得到原始數(shù)據(jù)之后對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)清洗、去重、去噪

以及數(shù)據(jù)標(biāo)準(zhǔn)化等步驟。

4縮略語

下列縮略語適用于本文件。

Json:JS對(duì)象簡(jiǎn)譜(JavaScriptObjectNotation)

BOM:字節(jié)順序標(biāo)記(ByteOrderMark)

5總則

本文件規(guī)定了人工智能大語言模型在電力系統(tǒng)中的微調(diào)數(shù)據(jù)準(zhǔn)備規(guī)范,本文件共分為數(shù)

據(jù)準(zhǔn)備要求、數(shù)據(jù)準(zhǔn)備規(guī)范、數(shù)據(jù)處理流程等。其中數(shù)據(jù)準(zhǔn)備主要用于規(guī)范電力系統(tǒng)的大模

型在微調(diào)訓(xùn)練中的數(shù)據(jù)收集、數(shù)據(jù)格式以及數(shù)據(jù)隱私與安全等,數(shù)據(jù)準(zhǔn)備規(guī)范主要用于規(guī)范

電力系統(tǒng)大模型微調(diào)訓(xùn)練中的數(shù)據(jù)預(yù)處理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)標(biāo)簽與注釋、數(shù)據(jù)及劃分、數(shù)據(jù)

格式化、數(shù)據(jù)集質(zhì)量評(píng)估、數(shù)據(jù)增強(qiáng)以及數(shù)據(jù)更新與維護(hù)等,數(shù)據(jù)處理流程主要用于規(guī)范數(shù)

據(jù)預(yù)處理的一般步驟和中文數(shù)據(jù)預(yù)處理的步驟等。具體內(nèi)容組織框架見圖1:

圖1組織框架

2

T/CESXXX-XXXX

6數(shù)據(jù)準(zhǔn)備規(guī)范

6.1數(shù)據(jù)收集

本文件主要從數(shù)據(jù)來源、數(shù)據(jù)多樣性與數(shù)據(jù)質(zhì)量三個(gè)方面對(duì)數(shù)據(jù)收集過程進(jìn)行相關(guān)的規(guī)

范性要求,確保大語言模型微調(diào)技術(shù)應(yīng)用過程中訓(xùn)練數(shù)據(jù)符合要求。

(1)數(shù)據(jù)來源

電力系統(tǒng)的數(shù)據(jù)要求是通過傳感器、智能設(shè)備、視頻監(jiān)控設(shè)備、音頻通信設(shè)備、移動(dòng)終

端等進(jìn)行數(shù)據(jù)采集,收集海量結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的業(yè)務(wù)數(shù)據(jù)集合。在電力系統(tǒng)中,

大語言模型的微調(diào)與訓(xùn)練所使用的數(shù)據(jù)應(yīng)來自可靠和權(quán)威的電力系統(tǒng)數(shù)據(jù)源,包括電力公司、

政府部門和獨(dú)立研究機(jī)構(gòu)等。

(2)數(shù)據(jù)多樣性

在大語言模型訓(xùn)練過程中所使用的數(shù)據(jù)要求應(yīng)涵蓋電力系統(tǒng)各個(gè)方面,包括發(fā)電、輸電、

配電、設(shè)備狀態(tài)、市場(chǎng)數(shù)據(jù)和電力負(fù)荷等,需要根據(jù)具體的業(yè)務(wù)場(chǎng)景及需求,保證數(shù)據(jù)的多

樣性和豐富性。

(3)數(shù)據(jù)質(zhì)量

大語言模型訓(xùn)練中應(yīng)過濾低質(zhì)量數(shù)據(jù),保證數(shù)據(jù)的準(zhǔn)確性和一致性,可分為兩類方法:

基于分類器的方法和基于啟發(fā)式的方法。

6.2數(shù)據(jù)格式

大語言模型微調(diào)訓(xùn)練中應(yīng)對(duì)多樣化的原始數(shù)據(jù)集進(jìn)行對(duì)齊,本文件主要從數(shù)據(jù)結(jié)構(gòu)化和

數(shù)據(jù)標(biāo)注兩個(gè)方面進(jìn)行要求。

(1)數(shù)據(jù)結(jié)構(gòu)化

數(shù)據(jù)應(yīng)以適當(dāng)格式進(jìn)行結(jié)構(gòu)化,便于模型的理解和分析。電力系統(tǒng)中的數(shù)據(jù)來源復(fù)雜多

樣,應(yīng)對(duì)收集到的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,使用統(tǒng)一的格式標(biāo)準(zhǔn)對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,使得

大語言模型微調(diào)過程中能夠更好的訓(xùn)練,保證模型訓(xùn)練的效果。

(2)數(shù)據(jù)標(biāo)注

在電力系統(tǒng)大模型訓(xùn)練中應(yīng)對(duì)數(shù)據(jù)中的重要信息進(jìn)行標(biāo)記和注釋,幫助模型理解數(shù)據(jù)的

語境和含義。可采用的方法有眾包、半監(jiān)督、主動(dòng)學(xué)習(xí)以及弱監(jiān)督等,其中眾包是人工標(biāo)注,

半監(jiān)督方法指利用部分標(biāo)注數(shù)據(jù)訓(xùn)練一個(gè)分類器等輔助標(biāo)注更多的數(shù)據(jù),主動(dòng)學(xué)習(xí)方法指先

從每次選出模型任務(wù)最難的樣本中進(jìn)行人工標(biāo)注再接著訓(xùn)練,然后進(jìn)行多次迭代,弱監(jiān)督方

法是設(shè)計(jì)一種標(biāo)簽函數(shù),通?;趩l(fā)式。

3

T/CESXXX-XXXX

6.3數(shù)據(jù)預(yù)處理

大語言模型的數(shù)據(jù)清洗應(yīng)包括:去除噪聲數(shù)據(jù)、去除重復(fù)數(shù)據(jù)、統(tǒng)一標(biāo)號(hào)、缺失值處理、

語言檢測(cè)和文本語言標(biāo)準(zhǔn)化等。數(shù)據(jù)清洗的具體步驟和技巧根據(jù)具體項(xiàng)目和業(yè)務(wù)需求導(dǎo)致數(shù)

據(jù)的要求而有所不同。電力系統(tǒng)的大模型微調(diào)訓(xùn)練中要求去除不需要的數(shù)據(jù),修復(fù)數(shù)據(jù)集中

的缺失值或錯(cuò)誤,處理異常數(shù)據(jù)和噪聲,將數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的格式和單位,保證數(shù)據(jù)質(zhì)量,

避免對(duì)模型的干擾,提高模型訓(xùn)練的效率。在清洗數(shù)據(jù)時(shí),應(yīng)進(jìn)行反復(fù)測(cè)試和驗(yàn)證。

6.4數(shù)據(jù)轉(zhuǎn)換

數(shù)據(jù)轉(zhuǎn)換應(yīng)將電力系統(tǒng)的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的、適合模型使用的形式,保證數(shù)據(jù)的一致性

和可用性。應(yīng)包括數(shù)據(jù)編碼和數(shù)據(jù)歸一化,數(shù)據(jù)編碼是將數(shù)據(jù)進(jìn)行編碼,數(shù)據(jù)歸一化是將數(shù)

據(jù)進(jìn)行歸一化處理。

6.5數(shù)據(jù)標(biāo)簽與注釋

電力系統(tǒng)的大語言模型微調(diào)中應(yīng)為數(shù)據(jù)添加標(biāo)簽和注釋,包括人工標(biāo)注法和自動(dòng)標(biāo)注技

術(shù)。其中自動(dòng)標(biāo)注技術(shù)可通過機(jī)器學(xué)習(xí)算法自動(dòng)給數(shù)據(jù)添加標(biāo)簽,常用的有實(shí)體識(shí)別、事件

標(biāo)注等。實(shí)體識(shí)別是標(biāo)記電力系統(tǒng)中的關(guān)鍵實(shí)體,如設(shè)備、線路、電力站等,事件標(biāo)注是標(biāo)

記電力系統(tǒng)中的關(guān)鍵事件,如故障、維護(hù)、市場(chǎng)活動(dòng)等。

6.6數(shù)據(jù)集劃分

對(duì)數(shù)據(jù)數(shù)據(jù)集進(jìn)行劃分要求如下:

(1)將數(shù)據(jù)集劃分為訓(xùn)練集,驗(yàn)證集和測(cè)試集三個(gè)數(shù)據(jù)集;

(2)使用交叉驗(yàn)證來評(píng)估模型的性能

(3)通過分層抽樣保證每個(gè)類別的數(shù)據(jù)在三個(gè)測(cè)試集中具有代表性,避免數(shù)據(jù)偏差。

(4)訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù)集由輸入和輸出實(shí)例組成,這些實(shí)例表示模型如何執(zhí)行。使

用的訓(xùn)練和驗(yàn)證數(shù)據(jù)必須采用JSON(JSONL)文檔格式,其中每一行代表一個(gè)

{prompt-completion}對(duì)。

訓(xùn)練數(shù)據(jù)的格式實(shí)例:

{"prompt":"<prompttext>","completion":"<idealgeneratedtext>"}

{"prompt":"<prompttext>","completion":"<idealgeneratedtext>"}

{"prompt":"<prompttext>","completion":"<idealgeneratedtext>"}

除JSONL格式外,訓(xùn)練和驗(yàn)證數(shù)據(jù)文件必須以UTF-8編碼并包含字節(jié)順序標(biāo)記

(BOM),并且文件大小必須小于200MB。

4

T/CESXXX-XXXX

6.7數(shù)據(jù)格式化

數(shù)據(jù)格式化應(yīng)根據(jù)所選擇的模型,將數(shù)據(jù)格式化為適合電力系統(tǒng)大語言模型接受的標(biāo)準(zhǔn)

輸入格式,包括文本編碼、圖像的張量化等。

6.8數(shù)據(jù)集質(zhì)量評(píng)估

在電力系統(tǒng)的大語言模型微調(diào)訓(xùn)練中應(yīng)評(píng)估數(shù)據(jù)集的質(zhì)量,確保數(shù)據(jù)的準(zhǔn)確性、一致性

和完整性。應(yīng)對(duì)數(shù)據(jù)集進(jìn)行及時(shí)更新與維護(hù),保證數(shù)據(jù)集中的數(shù)據(jù)具有良好的時(shí)效性,便于

不同版本的記錄。

6.9數(shù)據(jù)增強(qiáng)

在準(zhǔn)備電力系統(tǒng)大語言模型微調(diào)數(shù)據(jù)中應(yīng)通過增加數(shù)據(jù)樣本和多樣性來提高模型性能,

解決數(shù)據(jù)不平衡問題,增加小類別的樣本,可采用的方法包括Mixup、AutoAugment以及利

用GAN生成新樣本等等。

6.10數(shù)據(jù)更新與維護(hù)

電力系統(tǒng)中大語言模型微調(diào)中應(yīng)及時(shí)對(duì)數(shù)據(jù)進(jìn)行更新和維護(hù),確保數(shù)據(jù)的時(shí)效性和可靠

性。在數(shù)據(jù)準(zhǔn)備過程中應(yīng)確定數(shù)據(jù)更新頻率,規(guī)定數(shù)據(jù)來源(包括實(shí)時(shí)監(jiān)測(cè)、傳感器、數(shù)據(jù)

庫等),建立數(shù)據(jù)監(jiān)控系統(tǒng),確保及時(shí)處理數(shù)據(jù)異常變化情況,需要記錄數(shù)據(jù)更新與維護(hù)的

所有操作,建立清晰的數(shù)據(jù)維護(hù)歷史。

6.11數(shù)據(jù)隱私和安全

(1)隱私保護(hù)

電力數(shù)據(jù)可能包含大量的敏感信息,如用戶的用電量、電費(fèi)等,這些信息需要得到嚴(yán)格

的保護(hù)。因此對(duì)大語言微調(diào)數(shù)據(jù)準(zhǔn)備過程中涉及到的隱私數(shù)據(jù)要求如下:

a)應(yīng)對(duì)敏感信息存儲(chǔ)和記錄,對(duì)所記錄的數(shù)據(jù)進(jìn)行訪問時(shí)要設(shè)定權(quán)限嚴(yán)格管控,以達(dá)

到防止對(duì)數(shù)據(jù)進(jìn)行未經(jīng)授權(quán)的訪問和數(shù)據(jù)泄露等安全問題的產(chǎn)生。

b)應(yīng)大語言模型設(shè)置數(shù)據(jù)安全標(biāo)準(zhǔn)等級(jí)規(guī)定,保障電力系統(tǒng)中大量的實(shí)時(shí)監(jiān)測(cè)和控制

系統(tǒng)的穩(wěn)定運(yùn)轉(zhuǎn)。

(2)安全性

結(jié)合電力數(shù)據(jù)的有關(guān)特性,對(duì)數(shù)據(jù)安全性方面作出如下要求:

a)應(yīng)數(shù)據(jù)應(yīng)存儲(chǔ)和傳輸于安全的環(huán)境中,防止數(shù)據(jù)泄露和濫用。

b)大語言模型構(gòu)建過程中應(yīng)告知使用時(shí)收集用戶數(shù)據(jù)的范圍,提供數(shù)據(jù)信息撤銷、清

除等操作。

5

T/CESXXX-XXXX

c)針對(duì)電力系統(tǒng)中數(shù)據(jù)的特性,要求大語言模型規(guī)范數(shù)據(jù)安全等級(jí)。

d)在對(duì)大模型進(jìn)行微調(diào)訓(xùn)練過程中,要求對(duì)數(shù)據(jù)進(jìn)行全面的安全性評(píng)估,以確保大語

言模型在電力領(lǐng)域的應(yīng)用滿足相關(guān)法規(guī)和安全要求。

7大語言模型微調(diào)數(shù)據(jù)準(zhǔn)備流程規(guī)范

本文件規(guī)定了在電力系統(tǒng)中通用的大語言模型微調(diào)數(shù)據(jù)準(zhǔn)備流程規(guī)范,在應(yīng)用過程中應(yīng)

該結(jié)合具體的業(yè)務(wù)要求及應(yīng)用場(chǎng)景適時(shí)調(diào)整。具體的流程見圖2:

圖2電力系統(tǒng)中通用的大語言模型微調(diào)數(shù)據(jù)準(zhǔn)備流程

(1)數(shù)據(jù)收集

電力系統(tǒng)大語言微調(diào)數(shù)據(jù)的具體要求收集電力系統(tǒng)的原始數(shù)據(jù),包括但不限于發(fā)電、輸

電、變電、配電、用電和調(diào)度等各環(huán)節(jié)的數(shù)據(jù),以及能源數(shù)據(jù)、天氣數(shù)據(jù)等多類型數(shù)據(jù)。

(2)數(shù)據(jù)清洗與數(shù)據(jù)集構(gòu)建

大語言模型對(duì)訓(xùn)練數(shù)據(jù)的具體要求包括:

a)對(duì)已收集的電力系統(tǒng)原始數(shù)據(jù)進(jìn)行篩選、標(biāo)注和整理;

b)開展數(shù)據(jù)預(yù)處理,如去除無關(guān)、重復(fù)、錯(cuò)誤、低質(zhì)量的數(shù)據(jù)等,有效減少訓(xùn)練數(shù)據(jù)

中的噪聲和偏差,提高大語言模型關(guān)于電力系統(tǒng)場(chǎng)景數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論