《基于大模型的政務咨詢系統(tǒng)技術要求與評估方法》_第1頁
《基于大模型的政務咨詢系統(tǒng)技術要求與評估方法》_第2頁
《基于大模型的政務咨詢系統(tǒng)技術要求與評估方法》_第3頁
《基于大模型的政務咨詢系統(tǒng)技術要求與評估方法》_第4頁
《基于大模型的政務咨詢系統(tǒng)技術要求與評估方法》_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ICS

CCST/GDEIIA

團體標準

T/GDEIIA

基于大模型的政務咨詢系統(tǒng)技術要求

與評估方法

Technicalrequirementsandevaluationmethodsforgovernment

consultationsystembasedonlargemodel

(征求意見稿)

2023-xx-xx發(fā)布2023-xx-xx實施

廣東省電子信息行業(yè)協(xié)會發(fā)布

基于大模型的政務咨詢系統(tǒng)技術要求與評估方法

1范圍

本文件面向以大規(guī)模與訓練模型為技術底座,能夠提供智能問答、政務咨詢、知識搜索等功能的基

于大模型的政務咨詢系統(tǒng)。

本文件規(guī)定了基于大模型的政務咨詢系統(tǒng)的功能、性能要求和評估方法,主要包括大模型基礎能力、

政務咨詢業(yè)務能力、系統(tǒng)安全應用能力及指標評估方法四個部分。

本文件適用于基于大模型的政務咨詢系統(tǒng)及同類產品的的研發(fā)、評估和驗收等工作。

2規(guī)范性引用文件

下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅所注日期的版本適用于本文

件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。

GB/T35282-2023信息安全技術電子政務移動辦公系統(tǒng)安全技術規(guī)范

GB/T31506-2022信息安全技術政務網站系統(tǒng)安全指南

3術語和定義

3.1

大模型largemodel

一種基于海量通用數(shù)據(jù)訓練得到的大規(guī)模預訓練模型,具備多個領域的任務能力且通用性較高,但

在實際應用場景中仍需結合生產數(shù)據(jù)進行二次開發(fā)。

4縮略語

下列縮略語適用于本文件。

ROUGE:面向召回率的評價方法(Recall-OrientedUnderstudyforGistingEvaluation)

LCS:最長公共子序列(Longestcommonsubsequence)

5指標要求及評估方法概述

5.1評估方法概述

針對模型能力部分的評估方法包括檢查和測試兩類測評方法,具體為:

a)檢查:檢查是通過對測評對象進行觀察、查驗、分析以幫助測評人員理解、澄清或取得證據(jù)的

過程。檢查主要有評審、核查、審查、觀察、研究和分析等,檢查對象是文檔等;

b)測試:測試是指使用預定的方法/工具使測評對象產生特定的結果,將運行結果與預期的結果

進行比對的過程,主要包括人工評測、工具測試等測試操作。

5.2指標要求及評估方式概述

表1指標項與評估方式對照表

指標維度指標項評估方式

模型能力模型信息披露檢查

4

指標維度指標項評估方式

文本分類測試

語義理解測試

澄清反問測試

情感分析測試

信息摘要測試

內容生成測試

信息檢索檢查

智能對話檢查

系統(tǒng)功能政務咨詢檢查

文件解讀檢查

智能填表檢查

準確性測試

完整性測試

友好性測試

系統(tǒng)性能

穩(wěn)定性測試

實效性測試

響應時間測試

內容安全檢驗、測試

數(shù)據(jù)安全檢查

系統(tǒng)安全可用

應用安全檢查

服務可靠性檢查

6指標要求及評估方式詳述

6.1模型能力

6.1.1模型信息披露

指標要求:系統(tǒng)提供方應向系統(tǒng)使用方披露模型基本信息。

評估目的:收集模型基本信息以作為模型能力評估及模型成本投入的參考信息。

評估方法:模型參數(shù)、訓練數(shù)據(jù)、訓練框架、時間成本及算力需求信息披露,具體如下:

a)披露參測預訓練模型的模型參數(shù)。對于單流結構模型,披露模型需要存儲的參數(shù)量;對

于雙流或多流結構模型,分別統(tǒng)計各模型需要存儲的參數(shù)量,披露模型需要存儲的參數(shù)

量總和。

b)披露參測預訓練模型的訓練階段的數(shù)據(jù)集大小。

c)披露參測預訓練模型依賴的訓練框架類別。

d)估算預訓練模型訓練全程各節(jié)點的時間消耗總和,基于訓練使用的設備信息,將訓練設

備對標到基準設備下,計算模型訓練時使用設備與基準設備的性能比值,換算出參測預

訓練模型在基準設備下的總訓練時長。

e)估算預訓練模型訓練全程各節(jié)點的時間消耗總和,基于訓練使用的設備信息,將訓練設

備對標到基準設備下,計算模型訓練時使用設備與基準設備的性能比值,換算出參測預

訓練模型在基準設備下的總訓練時長。

5

6.1.2文本分類

指標要求:模型應具備通用領域、政務領域、及政務業(yè)務領域文本分類能力。

評估目的:評估大模型對文本分類任務的性能。

評估方法:評估大模型對通用領域、政務領域、及政務業(yè)務領域文本進行分類的準確率,計算方法

見公式:

P1

PC=×100%

式中:P

——文本分類準確率;

PC——分類正確的文本數(shù);

P1——待分類的總文本數(shù);

6.1.3語義理P解

指標要求:模型應具備語義理解能力,包括意圖理解、政務專有名詞理解等。

評估目的:評估大模型對語義理解任務的性能。

評估方法:評估對用戶咨詢話術中語義理解能力,包括意圖理解、政務專有名詞理解等,具體如下:

a)意圖理解性能評估方法:評估大模型對用戶咨詢話術中單意圖、多意圖的理解準確率,

計算方法見公式

F1

PF=×100%

式中:F

PF——意圖識別準確率;

F1——正確識別意圖的總句數(shù);

F——意圖識別數(shù)據(jù)總句數(shù);

b)政務專有名詞理解性能評估方法:評估大模型對政務專業(yè)名詞解釋的準確率,計算方法

見公式:

F1

P?=×100%

式中:F

——政務專有名詞理解準確率;

PC——政務專有名詞正確解釋的總句數(shù);

PF1——政務專有名詞解釋的總句數(shù);

6.1.4信息摘要

指標要求:模型應具備信息摘要能力,以支持用戶在政策、法規(guī)、辦事指南、通知等文件中快速獲

取關鍵信息。

評估目的:評估大模型信息摘要的性能。

評估方式:評估大模型完成信息摘要任務的客觀指標ROUGE-L-f值,計算方法見公式:

6

???(?,?)

R???=

len(Y)

???(?,?)

P???=

len(Y)

2

(1+?)????P???

式中:F???=2

????+?P???

X——參考摘要;

Y——生成摘要;

LCS(X,Y)——X和Y的最大公共子字符串(LCS)的長度;

β——超參數(shù);

6.1.5內容生成

指標要求:模型應具備內容生成能力,可針對用戶咨詢問題生成可讀易懂的回復內容。

評估目的:評估大模型生成內容的質量。

評估方法:采用人工評價法,對生成內容進行流暢性、連貫性主觀評價,具體評分要求參考下表:

表2內容生成評分準則

評分準則

評分

流暢性連貫性

1分文本不具備可讀性;文本和前文邏輯矛盾;

文本具有可讀性,但存在大量搭配不當?shù)日Z法

分文本和前文存在少量邏輯矛盾;

2錯誤;

文本和前文無明顯邏輯矛盾,但和前文轉折不

分文本基本流暢,存在少碰語法錯誤;

3夠流暢;

4分文本流暢,存在少量搭配不當;文本和前文無邏輯矛盾,且和前文轉折流暢;

5分文本十分流暢,無任何語法錯誤;文本和前文無邏輯矛盾,且和前文連貫一致。

6.2系統(tǒng)功能

6.2.1信息檢索

指標要求:系統(tǒng)應具備信息檢索能力,在信息庫中快速檢索出用戶詢問或搜索的對應內容。

評估目的:檢驗系統(tǒng)是否具備政務信息檢索功能。

評估方法:

a)材料調研:

1)材料中簡述實現(xiàn)信息檢索功能的技術方法;

2)材料中簡述信息檢索功能實現(xiàn)情況(如信息源、檢索維度、檢索方式等)。

b)模擬演示

1)依照材料中信息檢索功能實現(xiàn)情況進行系統(tǒng)操作演示;

2)記錄系統(tǒng)演示效果。

6.2.2政務咨詢

指標要求:系統(tǒng)應具備政務咨詢能力,可針對用戶咨詢的政務相關問題做出回答。

評估目的:檢驗系統(tǒng)是否具備政務咨詢功能。

評估方法:

7

a)材料調研:

1)材料中簡述實現(xiàn)政務咨詢功能的技術方法;

2)材料中簡述信息政務咨詢能力范圍(如咨詢內容覆蓋度、咨詢方式、轉人工邏輯等)。

b)模擬演示

1)演示材料中提到的信息檢索能力;

2)記錄系統(tǒng)演示效果。

6.2.3智能對話

指標要求:

a)應具備單輪對話能力;

b)應具備多輪對話能力;

c)應具備多類型智能對話能力,如任務式對話、閑聊式對話等;

d)宜具備多語種對話能力。

評估目的:評估系統(tǒng)是否具備智能對話多項能力。

評估方法:

a)材料調研:

1)材料中簡述系統(tǒng)具備哪些智能對話能力;

2)材料中簡述系統(tǒng)智能對話優(yōu)化方式。

b)模擬演示

1)演示材料中提到的智能對話能力;

2)記錄系統(tǒng)演示效果。

6.2.4政策解讀

指標要求:系統(tǒng)宜具備政策解讀能力,以輔助工作人員快速了解各類政府文件中的內容。

評估目的:檢驗系統(tǒng)是否具備政策解讀功能。

評估方法:

a)材料調研:

1)材料中簡述實現(xiàn)政策解讀功能的使用方法;

2)材料中簡述信息政策解讀能力范圍(如內容顆粒度、解讀內容呈現(xiàn)等)。

b)模擬演示

1)演示材料中提到的政策解讀能力;

2)記錄系統(tǒng)演示效果。

6.2.5智能填表

指標要求:系統(tǒng)宜具備智能填表能力,以輔助工作人員及用戶快速填制相關表格。

評估目的:檢驗系統(tǒng)是否具備智能填表功能。

評估方法:

a)材料調研:

1)材料中簡述實現(xiàn)智能填表功能的使用方法;

2)材料中簡述信息智能填表能力范圍(如表單類型、可填內容等)。

b)模擬演示

8

1)演示材料中提到的智能填表能力;

2)記錄系統(tǒng)演示效果。

6.3服務性能

6.3.1準確性

指標要求:系統(tǒng)政務問詢能力應具備準確性,回復內容應包含問題中提到的關鍵知識點,并且可對

用戶意圖進行準確理解,模糊意圖問題進行澄清和反問等能力。

評估目的:評估政務問詢回答準確性。

評估方法:采用人工評價法,對問詢答案進行準確性主觀評價,具體評分要求參考下表:

表3政務咨詢準確性評分準則

評分準則

評分

準確性

1分用戶意圖完全識別錯誤,答非所問;

2分用戶意圖未完全理解,關鍵知識點回答存在小部分錯誤或遺漏;

3分用戶意圖理解全面且準確,關鍵知識點回答存在小部分錯誤或遺漏;

用戶意圖理解全面且準確,關鍵知識點全部正確回答,但是答案中包含與

4分

其他意圖相關的信息;

用戶意圖理解全面且準確,關鍵知識點全部正確回答,并且語句描述自然

5分

易懂,沒有其他意圖相關的冗余信息。

6.3.2完整性

指標要求:系統(tǒng)政務問詢能力應具備完整性,回復內容應確保答案內容全面、完整、無重要信息遺

漏,并提供關聯(lián)知識參考。

評估目的:評估政務問詢回答完整性。

評估方法:采用人工評價法,對問詢答案進行完整性主觀評價,具體評分要求參考下表:

表4政務咨詢完整性評分準則

評分準則

評分

完整性

答案不完整,缺少所有關鍵細節(jié)和解釋,無多知識點整合能力,無知識依

1分

據(jù)來源或知識依據(jù)來源錯誤;

答案不完整,缺少部分關鍵細節(jié)和解釋,對多知識點整合完整不完整,知

2分

識依據(jù)來源清晰;

答案基本完整,但一些關鍵細節(jié)的解釋但不夠完整和詳細,對多知識點整

3分

合略有遺漏,知識依據(jù)來源清晰;

答案完整,包含了大部分的關鍵細節(jié)和解釋,但有一些細微的不完整之處,

4分

對多知識點整合完整,知識依據(jù)來源清晰;

答案完整,答案包含了所有的關鍵細節(jié)和解釋,對多知識點整合完整,沒

5分

有任何遺漏,知識依據(jù)來源清晰。

6.3.3友好性

指標要求:系統(tǒng)政務問詢能力應具備友好性,應確保系統(tǒng)回答的內容易于理解和接受,符合用戶的

語言習慣和心理預期,盡可能用通俗易懂便于理解的形式回答問題,提高用戶的滿意度和體驗感。

評估目的:評估政務問詢回答友好性。

評估方法:采用人工評價法,對問詢答案進行完整性主觀評價,具體評分要求參考下表:

表5政務咨詢友好性評分準則

9

評分準則

評分

友好性

1分答案的表達方式晦澀難懂,對負面情緒有不友好回答;

答案表達方式不夠清晰或不夠易于理解,出現(xiàn)大量難懂政策詞匯,對負面

2分

情緒無友好性回答;

3分答案表達方式清晰但缺乏一些深入的解釋,對負面情緒無友好性回答;

答案表達方式清晰且易理解,具備邏輯性及總結能力,對負面情緒無友好

4分

性回答;

答案表達方式非常清晰易于理解,具備邏輯性及總結能力,對負面情緒能

5分

做出安撫性回答。

6.3.4時效性

指標要求:系統(tǒng)政務問詢能力應具備時效性,確保輸出輸出的時效性,輸出內容在有效期內,能夠

識別并過濾過期內容。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論