版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
ICS
CCST/GDEIIA
團體標準
T/GDEIIA
基于大模型的政務咨詢系統(tǒng)技術要求
與評估方法
Technicalrequirementsandevaluationmethodsforgovernment
consultationsystembasedonlargemodel
(征求意見稿)
2023-xx-xx發(fā)布2023-xx-xx實施
廣東省電子信息行業(yè)協(xié)會發(fā)布
基于大模型的政務咨詢系統(tǒng)技術要求與評估方法
1范圍
本文件面向以大規(guī)模與訓練模型為技術底座,能夠提供智能問答、政務咨詢、知識搜索等功能的基
于大模型的政務咨詢系統(tǒng)。
本文件規(guī)定了基于大模型的政務咨詢系統(tǒng)的功能、性能要求和評估方法,主要包括大模型基礎能力、
政務咨詢業(yè)務能力、系統(tǒng)安全應用能力及指標評估方法四個部分。
本文件適用于基于大模型的政務咨詢系統(tǒng)及同類產品的的研發(fā)、評估和驗收等工作。
2規(guī)范性引用文件
下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅所注日期的版本適用于本文
件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
GB/T35282-2023信息安全技術電子政務移動辦公系統(tǒng)安全技術規(guī)范
GB/T31506-2022信息安全技術政務網站系統(tǒng)安全指南
3術語和定義
3.1
大模型largemodel
一種基于海量通用數(shù)據(jù)訓練得到的大規(guī)模預訓練模型,具備多個領域的任務能力且通用性較高,但
在實際應用場景中仍需結合生產數(shù)據(jù)進行二次開發(fā)。
4縮略語
下列縮略語適用于本文件。
ROUGE:面向召回率的評價方法(Recall-OrientedUnderstudyforGistingEvaluation)
LCS:最長公共子序列(Longestcommonsubsequence)
5指標要求及評估方法概述
5.1評估方法概述
針對模型能力部分的評估方法包括檢查和測試兩類測評方法,具體為:
a)檢查:檢查是通過對測評對象進行觀察、查驗、分析以幫助測評人員理解、澄清或取得證據(jù)的
過程。檢查主要有評審、核查、審查、觀察、研究和分析等,檢查對象是文檔等;
b)測試:測試是指使用預定的方法/工具使測評對象產生特定的結果,將運行結果與預期的結果
進行比對的過程,主要包括人工評測、工具測試等測試操作。
5.2指標要求及評估方式概述
表1指標項與評估方式對照表
指標維度指標項評估方式
模型能力模型信息披露檢查
4
指標維度指標項評估方式
文本分類測試
語義理解測試
澄清反問測試
情感分析測試
信息摘要測試
內容生成測試
信息檢索檢查
智能對話檢查
系統(tǒng)功能政務咨詢檢查
文件解讀檢查
智能填表檢查
準確性測試
完整性測試
友好性測試
系統(tǒng)性能
穩(wěn)定性測試
實效性測試
響應時間測試
內容安全檢驗、測試
數(shù)據(jù)安全檢查
系統(tǒng)安全可用
應用安全檢查
服務可靠性檢查
6指標要求及評估方式詳述
6.1模型能力
6.1.1模型信息披露
指標要求:系統(tǒng)提供方應向系統(tǒng)使用方披露模型基本信息。
評估目的:收集模型基本信息以作為模型能力評估及模型成本投入的參考信息。
評估方法:模型參數(shù)、訓練數(shù)據(jù)、訓練框架、時間成本及算力需求信息披露,具體如下:
a)披露參測預訓練模型的模型參數(shù)。對于單流結構模型,披露模型需要存儲的參數(shù)量;對
于雙流或多流結構模型,分別統(tǒng)計各模型需要存儲的參數(shù)量,披露模型需要存儲的參數(shù)
量總和。
b)披露參測預訓練模型的訓練階段的數(shù)據(jù)集大小。
c)披露參測預訓練模型依賴的訓練框架類別。
d)估算預訓練模型訓練全程各節(jié)點的時間消耗總和,基于訓練使用的設備信息,將訓練設
備對標到基準設備下,計算模型訓練時使用設備與基準設備的性能比值,換算出參測預
訓練模型在基準設備下的總訓練時長。
e)估算預訓練模型訓練全程各節(jié)點的時間消耗總和,基于訓練使用的設備信息,將訓練設
備對標到基準設備下,計算模型訓練時使用設備與基準設備的性能比值,換算出參測預
訓練模型在基準設備下的總訓練時長。
5
6.1.2文本分類
指標要求:模型應具備通用領域、政務領域、及政務業(yè)務領域文本分類能力。
評估目的:評估大模型對文本分類任務的性能。
評估方法:評估大模型對通用領域、政務領域、及政務業(yè)務領域文本進行分類的準確率,計算方法
見公式:
P1
PC=×100%
式中:P
——文本分類準確率;
PC——分類正確的文本數(shù);
P1——待分類的總文本數(shù);
6.1.3語義理P解
指標要求:模型應具備語義理解能力,包括意圖理解、政務專有名詞理解等。
評估目的:評估大模型對語義理解任務的性能。
評估方法:評估對用戶咨詢話術中語義理解能力,包括意圖理解、政務專有名詞理解等,具體如下:
a)意圖理解性能評估方法:評估大模型對用戶咨詢話術中單意圖、多意圖的理解準確率,
計算方法見公式
F1
PF=×100%
式中:F
PF——意圖識別準確率;
F1——正確識別意圖的總句數(shù);
F——意圖識別數(shù)據(jù)總句數(shù);
b)政務專有名詞理解性能評估方法:評估大模型對政務專業(yè)名詞解釋的準確率,計算方法
見公式:
F1
P?=×100%
式中:F
——政務專有名詞理解準確率;
PC——政務專有名詞正確解釋的總句數(shù);
PF1——政務專有名詞解釋的總句數(shù);
6.1.4信息摘要
指標要求:模型應具備信息摘要能力,以支持用戶在政策、法規(guī)、辦事指南、通知等文件中快速獲
取關鍵信息。
評估目的:評估大模型信息摘要的性能。
評估方式:評估大模型完成信息摘要任務的客觀指標ROUGE-L-f值,計算方法見公式:
6
???(?,?)
R???=
len(Y)
???(?,?)
P???=
len(Y)
2
(1+?)????P???
式中:F???=2
????+?P???
X——參考摘要;
Y——生成摘要;
LCS(X,Y)——X和Y的最大公共子字符串(LCS)的長度;
β——超參數(shù);
6.1.5內容生成
指標要求:模型應具備內容生成能力,可針對用戶咨詢問題生成可讀易懂的回復內容。
評估目的:評估大模型生成內容的質量。
評估方法:采用人工評價法,對生成內容進行流暢性、連貫性主觀評價,具體評分要求參考下表:
表2內容生成評分準則
評分準則
評分
流暢性連貫性
1分文本不具備可讀性;文本和前文邏輯矛盾;
文本具有可讀性,但存在大量搭配不當?shù)日Z法
分文本和前文存在少量邏輯矛盾;
2錯誤;
文本和前文無明顯邏輯矛盾,但和前文轉折不
分文本基本流暢,存在少碰語法錯誤;
3夠流暢;
4分文本流暢,存在少量搭配不當;文本和前文無邏輯矛盾,且和前文轉折流暢;
5分文本十分流暢,無任何語法錯誤;文本和前文無邏輯矛盾,且和前文連貫一致。
6.2系統(tǒng)功能
6.2.1信息檢索
指標要求:系統(tǒng)應具備信息檢索能力,在信息庫中快速檢索出用戶詢問或搜索的對應內容。
評估目的:檢驗系統(tǒng)是否具備政務信息檢索功能。
評估方法:
a)材料調研:
1)材料中簡述實現(xiàn)信息檢索功能的技術方法;
2)材料中簡述信息檢索功能實現(xiàn)情況(如信息源、檢索維度、檢索方式等)。
b)模擬演示
1)依照材料中信息檢索功能實現(xiàn)情況進行系統(tǒng)操作演示;
2)記錄系統(tǒng)演示效果。
6.2.2政務咨詢
指標要求:系統(tǒng)應具備政務咨詢能力,可針對用戶咨詢的政務相關問題做出回答。
評估目的:檢驗系統(tǒng)是否具備政務咨詢功能。
評估方法:
7
a)材料調研:
1)材料中簡述實現(xiàn)政務咨詢功能的技術方法;
2)材料中簡述信息政務咨詢能力范圍(如咨詢內容覆蓋度、咨詢方式、轉人工邏輯等)。
b)模擬演示
1)演示材料中提到的信息檢索能力;
2)記錄系統(tǒng)演示效果。
6.2.3智能對話
指標要求:
a)應具備單輪對話能力;
b)應具備多輪對話能力;
c)應具備多類型智能對話能力,如任務式對話、閑聊式對話等;
d)宜具備多語種對話能力。
評估目的:評估系統(tǒng)是否具備智能對話多項能力。
評估方法:
a)材料調研:
1)材料中簡述系統(tǒng)具備哪些智能對話能力;
2)材料中簡述系統(tǒng)智能對話優(yōu)化方式。
b)模擬演示
1)演示材料中提到的智能對話能力;
2)記錄系統(tǒng)演示效果。
6.2.4政策解讀
指標要求:系統(tǒng)宜具備政策解讀能力,以輔助工作人員快速了解各類政府文件中的內容。
評估目的:檢驗系統(tǒng)是否具備政策解讀功能。
評估方法:
a)材料調研:
1)材料中簡述實現(xiàn)政策解讀功能的使用方法;
2)材料中簡述信息政策解讀能力范圍(如內容顆粒度、解讀內容呈現(xiàn)等)。
b)模擬演示
1)演示材料中提到的政策解讀能力;
2)記錄系統(tǒng)演示效果。
6.2.5智能填表
指標要求:系統(tǒng)宜具備智能填表能力,以輔助工作人員及用戶快速填制相關表格。
評估目的:檢驗系統(tǒng)是否具備智能填表功能。
評估方法:
a)材料調研:
1)材料中簡述實現(xiàn)智能填表功能的使用方法;
2)材料中簡述信息智能填表能力范圍(如表單類型、可填內容等)。
b)模擬演示
8
1)演示材料中提到的智能填表能力;
2)記錄系統(tǒng)演示效果。
6.3服務性能
6.3.1準確性
指標要求:系統(tǒng)政務問詢能力應具備準確性,回復內容應包含問題中提到的關鍵知識點,并且可對
用戶意圖進行準確理解,模糊意圖問題進行澄清和反問等能力。
評估目的:評估政務問詢回答準確性。
評估方法:采用人工評價法,對問詢答案進行準確性主觀評價,具體評分要求參考下表:
表3政務咨詢準確性評分準則
評分準則
評分
準確性
1分用戶意圖完全識別錯誤,答非所問;
2分用戶意圖未完全理解,關鍵知識點回答存在小部分錯誤或遺漏;
3分用戶意圖理解全面且準確,關鍵知識點回答存在小部分錯誤或遺漏;
用戶意圖理解全面且準確,關鍵知識點全部正確回答,但是答案中包含與
4分
其他意圖相關的信息;
用戶意圖理解全面且準確,關鍵知識點全部正確回答,并且語句描述自然
5分
易懂,沒有其他意圖相關的冗余信息。
6.3.2完整性
指標要求:系統(tǒng)政務問詢能力應具備完整性,回復內容應確保答案內容全面、完整、無重要信息遺
漏,并提供關聯(lián)知識參考。
評估目的:評估政務問詢回答完整性。
評估方法:采用人工評價法,對問詢答案進行完整性主觀評價,具體評分要求參考下表:
表4政務咨詢完整性評分準則
評分準則
評分
完整性
答案不完整,缺少所有關鍵細節(jié)和解釋,無多知識點整合能力,無知識依
1分
據(jù)來源或知識依據(jù)來源錯誤;
答案不完整,缺少部分關鍵細節(jié)和解釋,對多知識點整合完整不完整,知
2分
識依據(jù)來源清晰;
答案基本完整,但一些關鍵細節(jié)的解釋但不夠完整和詳細,對多知識點整
3分
合略有遺漏,知識依據(jù)來源清晰;
答案完整,包含了大部分的關鍵細節(jié)和解釋,但有一些細微的不完整之處,
4分
對多知識點整合完整,知識依據(jù)來源清晰;
答案完整,答案包含了所有的關鍵細節(jié)和解釋,對多知識點整合完整,沒
5分
有任何遺漏,知識依據(jù)來源清晰。
6.3.3友好性
指標要求:系統(tǒng)政務問詢能力應具備友好性,應確保系統(tǒng)回答的內容易于理解和接受,符合用戶的
語言習慣和心理預期,盡可能用通俗易懂便于理解的形式回答問題,提高用戶的滿意度和體驗感。
評估目的:評估政務問詢回答友好性。
評估方法:采用人工評價法,對問詢答案進行完整性主觀評價,具體評分要求參考下表:
表5政務咨詢友好性評分準則
9
評分準則
評分
友好性
1分答案的表達方式晦澀難懂,對負面情緒有不友好回答;
答案表達方式不夠清晰或不夠易于理解,出現(xiàn)大量難懂政策詞匯,對負面
2分
情緒無友好性回答;
3分答案表達方式清晰但缺乏一些深入的解釋,對負面情緒無友好性回答;
答案表達方式清晰且易理解,具備邏輯性及總結能力,對負面情緒無友好
4分
性回答;
答案表達方式非常清晰易于理解,具備邏輯性及總結能力,對負面情緒能
5分
做出安撫性回答。
6.3.4時效性
指標要求:系統(tǒng)政務問詢能力應具備時效性,確保輸出輸出的時效性,輸出內容在有效期內,能夠
識別并過濾過期內容。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年滬科版五年級英語上冊階段測試試卷
- 2024年湘師大新版八年級數(shù)學上冊階段測試試卷
- 醫(yī)學研究中的儀器設備管理與保養(yǎng)技巧
- 醫(yī)學統(tǒng)計中的數(shù)學應用與教育啟示
- 2025中國鐵路南寧局集團限公司招聘36人(四)高頻重點提升(共500題)附帶答案詳解
- 2025中國日報社招聘25人高頻重點提升(共500題)附帶答案詳解
- 2025中冶集團武漢勘察研究院招聘171人高頻重點提升(共500題)附帶答案詳解
- 2025下半年湖南臨港開發(fā)投資集團限公司招聘16人高頻重點提升(共500題)附帶答案詳解
- 2025下半年安徽宿州市市直事業(yè)單位招聘7人高頻重點提升(共500題)附帶答案詳解
- 2025下半年四川綿陽市梓潼縣事業(yè)單位招聘工作人員86人高頻重點提升(共500題)附帶答案詳解
- 眼鏡學智慧樹知到答案2024年溫州醫(yī)科大學
- 2024年電大勞動與社會保障法期末考試題庫及答案
- MOOC 傳熱學-西安交通大學 中國大學慕課答案
- 2024年四川省自然資源投資集團有限責任公司招聘筆試參考題庫附帶答案詳解
- 賈玲春晚搞笑公司年會小品《真假老師》臺詞劇本完整版
- 簡約插畫風校園教師讀書分享會內容PPT匯報
- 中醫(yī)臨床路徑眼科
- 國家開放大學《工程經濟與管理》章節(jié)測試參考答案
- 一年級上數(shù)學教案解決問題復習課_人教版
- 行進間單手低手上籃教案
- 簡約中國風蘭花信紙背景模板
評論
0/150
提交評論