




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1本標準規(guī)定了數據流程服務技術的體系規(guī)范,適用于數據流程服務需求方、數據流程服務方、數據交易所、行業(yè)協(xié)會及行業(yè)管理部門在相關業(yè)務規(guī)范中作為參照,主要適用于:a)數據流程服務需求方采購數據流程服務時,對數據和服務產品及其供應商進行評價;b)從事數據流程服務、銷售數據產品的企業(yè)或機構,建立數據和服務產品技術規(guī)范;c)從事數據資產評估、數據交易服務的企業(yè)和機構,建立數據和服務產品交易規(guī)則、規(guī)范;d)政府相關管理部門、產業(yè)園區(qū)等對數據流程服務進行事中、事后監(jiān)管核查;e)其他需要應用的場合。2規(guī)范性引用文件下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T38667-2020信息技術大數據數據分類指南GB/T36344—2018信息技術數據質量評價指標3術語和定義下列術語和定義適用于本文件。3.1數據流程服務英文首字母縮寫DPS,DataProcessService,是圍繞數據處理流程形成的一系列服務,它使用數字技術,從實體世界或信息系統(tǒng)中采集、獲取數據,并按后續(xù)應用、流通要求處理、輸出數據。3.2數據采集和預處理指下述服務及產生的數據。采集事實、概念或指令等對象信息,形成原始數據,并對其進行處理,以保證數據質量達到后續(xù)使用的規(guī)范性要求。3.3數據分析集成指下述服務及產生的數據。分析多源數據,進行集成融合,以滿足后續(xù)應用和服務的規(guī)范性要求。3.4數據標注指下述服務及產生的數據。通過標記、注釋等工作,對數據進行處理,提取對象的特征,以保證數據質量達到后續(xù)數字應用使用的規(guī)范性要求。3.5內容審核2指下述服務及產生的數據。對互聯網用戶上傳、發(fā)布或共享的內容(文字,圖片,音頻,視頻等數據)進行識別,通過標記、注釋等工作,提取違反相關法規(guī)或應用要求的內容特征,為后續(xù)處理提供依據的服務。3.6數據流通分發(fā)指下述服務及產生的數據。按照數據流通需要,對數據進行脫敏、隱私化、標準化處理并對外輸出開發(fā)。3.7數據流程服務工具平臺為DPS各項業(yè)務開發(fā)和提供用于服務操作、管理的工具軟件及業(yè)務平臺。3.8數據流程支持服務支持DPS企業(yè)、從業(yè)者和相關機構提升能力、加強合作、便利交易的服務,如業(yè)務培訓、規(guī)范評價等。3.9結構化數據/非結構化數據按結構化特征分類,數據可劃分為:結構化數據,如零售、財務、生物信息學、地理數據等;非結構化數據.如圖像、視頻、傳感器數據、網頁等;半結構化數據.如應用系統(tǒng)日志、電子郵件等。(GB/T38667-2020,7.2.3按結構化特征分類)3.10數據需求方/數據服務客戶指提出數據服務需求的機構,包括組織內部的部門和外部的機構,在本標準中統(tǒng)稱為需求方。需求方一般包括行業(yè)用戶、人工智能企業(yè)和行業(yè)應用開發(fā)企業(yè)和機構。3.11數據服務方/數據服務供應商指為需求方提供數據服務的機構,包括組織內部的部門和外部的機構,在本標準中統(tǒng)稱為服務方。3.12變更數據捕獲(CDC)變更數據捕獲(CDC,ChangeDataCapture),它是數據庫領域的技術,主要用于捕獲數據庫的一些變更,然后可以把變更數據發(fā)送到下游。3.13語音/文本/圖像/視頻/點云數據指以音頻、文本、圖像、視頻、點云形式存在的,含有一定內容的原始的,或附有經過標注處理而產生的文字和標簽的音頻、文本、圖像、視頻、點云,統(tǒng)稱為語音/文本/圖像/視頻/點云數據。點云是某個坐標系下的點的數據集。每個點包含了三維坐標、顏色、強度值等信息。點云在普通圖像的基礎上多了一個維度,直接提供了三維空間數據。3.14語音活動檢測語音活動檢測,又稱語音端點檢測,語音邊界檢測。目的是從聲音信號流里識別和消除長時間的靜音期,以達到在不降低業(yè)務質量的情況下節(jié)省話路資源的作用,它是IP電話應用的重要組成部分。靜音抑制可以節(jié)省寶貴的帶寬資源,可以有利于減少用戶感覺到的端到端的時延。33.15背景噪聲/底噪背景噪聲,或“本底噪聲”。一般指在發(fā)生、檢查、測量或記錄系統(tǒng)中與信號存在與否無關的一切干擾。但在工業(yè)噪聲或環(huán)境噪聲測量中則是指被測噪聲源以外的周圍環(huán)境噪聲。如對在工廠附近的街道測量噪聲來說,若要測量的是交通噪聲,則工廠噪聲便是背景噪聲。若測量的目的在于測定工廠噪聲,交通噪聲便成為背景噪聲。在噪聲測量過程中.必須注意背景噪聲的干擾程度。3.16混響/混響時間聲波在室內傳播時,要被墻壁、天花板、地板等障礙物反射,每反射一次都要被障礙物吸收一些。這樣,當聲源停止發(fā)聲后,聲波在室內要經過多次反射和吸收,最后才消失,我們就感覺到聲源停止發(fā)聲后還有若干個聲波混合持續(xù)一段時間(室內聲源停止發(fā)聲后仍然存在的聲延續(xù)現象)。這種現象叫做混響,這段時間叫做混響時間。3.17信噪比信噪比,又稱為訊噪比。是指一個電子設備或者電子系統(tǒng)中信號與噪聲的比例。這里面的信號指的是來自設備外部需要通過這臺設備進行處理的電子信號,噪聲是指經過該設備后產生的原信號中并不存在的無規(guī)則的額外信號(或信息并且該種信號并不隨原信號的變化而變化。同樣是“原信號不存在”還有一種東西叫“失真”,失真和噪聲實際上有一定關系,二者的不同是失真是有規(guī)律的,而噪聲則是無規(guī)律的。3.18切音因錄音操作導致的收音設備獲取信號不完整,常表現為開始時或結尾處數據不完整。3.19截幅因信號波形的幅度太大,而超出系統(tǒng)的線性范圍的現象,稱為截幅。截幅,就是把信號的幅值限制在某一固定的最大值的過程。有時,也稱為限幅。3.20采樣率采樣頻率,也稱為采樣速度或者采樣率,定義了每秒從連續(xù)信號中提取并組成離散信號的采樣個數,它用赫茲(Hz)來表示。采樣頻率的倒數是采樣周期或者叫作采樣時間,它是采樣之間的時間間隔。通俗的講采樣頻率是指計算機每秒鐘采集多少個信號樣本。3.21比特率比特率是指每秒傳送的比特(bit)數。單位為bps(BitPerSecond),比特率越高,每秒傳送數據就越多,音質就越清晰。聲音中的比特率是指將模擬聲音信號轉換成數字聲音信號后,單位時間內的二進制數據量,是間接衡量音頻質量的一個指標。3.22聲道聲道是指聲音在錄制或播放時在不同空間位置采集或回放的相互獨立的音頻信號,所以聲道數也就是聲音錄制時的音源數量或回放時相應的揚聲器數量。聲卡所支持的聲道數是衡量聲卡檔次的重要指標之一,從單聲道到最新的環(huán)繞立體聲。3.23丟幀4丟幀指由設備引起的一段時間的信號丟失,即說話內容和底噪信息全部丟失。3.24前后預留指一段音頻實際說話段的前后非說話段。3.25噪聲符號噪聲符號指代用以表示非說話段的,含有特殊意義的符號。3.26時間邊界指對一段語音數據在原始音頻中的開始時間標記和結束時間標記。3.27轉寫指將音頻的內容由聲音的形式轉化為文字標記的過程或動作。3.28說話人指音頻中發(fā)出聲音的自然人。A、客服類說話人客服類說話人指客服類對話中的說話人,常由客服人員和客戶人員組成,如中國移動通信的通話音頻,有移動客服和移動客戶組成。B、訪談訪談類說話人指訪談類對話中的說話人,常由主持人和嘉賓組成,如訪談節(jié)目《魯豫有約》中,有魯豫作為主持人,其他人作為嘉賓。C、對話對話類說話人指自然對話中的說話人。口音(或謂:腔調)是一種對詞或特殊音節(jié)的模塊化強調程度的變化。這些變化都是由口腔肌肉和舌頭的動作所產生??谝羰强梢酝高^自小培養(yǎng)及練習而得來的。因此從口音可以反映人的出生地方或社會背景。學習某一種口音會使某個社會階層產生認同感。演員學習口音為了使角色更傳神。一個人的口音亦會隨著居住地點的轉移以及適應時間而產生變化。3.30語音合成TTSTTS即texttospeech,是語音合成應用的一種,它將儲存于電腦中的文件,如幫助文件或者網頁,轉換成自然語音輸出。TTS不僅能幫助有視覺障礙的人閱讀計算機上的信息,更能增加文本文檔的可讀性?,F在的TTS應用包括語音驅動的郵件以及聲音敏感系統(tǒng),并常與聲音識別程序一起使用。4總則數據流程服務存在多種數據類型和服務場景,不同數據類型和不同服務場景的技術規(guī)范指標不完全相同,但對規(guī)范性的評價流程和指標統(tǒng)一。數據流程服務技術規(guī)范體系采用自愿原則。55服務場景及其技術規(guī)范準則由于不同業(yè)務場景對數據流程服務質量評價有不同的標準,因此本標準體系將數據流程服務技術規(guī)范分為通用技術規(guī)范和場景技術規(guī)范兩方面。前者聚焦與場景無關的數據類型通用技術的規(guī)范,后者聚焦于面向各業(yè)務場景的服務技術規(guī)范。本標準體系第1部分,即本文件聚焦通用技術規(guī)范,第4部分及之后聚焦場景技術規(guī)范。6結構化數據流程服務技術規(guī)范結構化數據流程服務技術規(guī)范包括服務流程規(guī)范、服務技術規(guī)范和服務成果規(guī)范三方面。6.1服務流程數據處理過程要有健全的流程管理機制,保障數據處理結果的準確性、完整性、一致性、時效性、可訪問性和安全性,做到可溯源、可追蹤。結構化數據處理推薦流程:需求分析數據采集預處理分析集成質量稽核流通分發(fā)6.1.1需求分析根據需求方對數據處理的要求,明確采集數據源、采集范圍、采集方式和頻率,確定數據的合法合規(guī)和準確性,形成數據供需清單;編制信息資源目錄,明確信息資源的分類、格式、數據項名稱、數據類型、共享屬性、開放屬性、更新周期等內容,形成信息資源清單,并實現數據資源格式化和結構化。6.1.2數據采集根據需求分析結論進行數據采集。采集方式可采用程序內布碼埋點、Api接口、網絡爬蟲、數據庫對接、文件交換、郵件訂閱等。6.1.3預處理針對采集到的原始數據中存在的二義性、重復、不完整、違反業(yè)務規(guī)則等問題進行數據預處理。預處理任務可包括解析轉換、糾錯、異常值處理、缺失值處理、過濾、去重、標準化(格式標準化、值域標準化等)、數據入庫等。6.1.4分析集成分析集成是分析散落在不同數據源的業(yè)務實體數據,基于面向對象的數據組織原則,將數據按業(yè)務實體進行拉通并融合。高效的分析集成工作需要建立業(yè)務模型。模型設計包括概念模型設計、邏輯模型設計、物理模型設計三個階段。概念模型設計,用于識別核心業(yè)務流程,抽象業(yè)務流程中的實體和關系,定義業(yè)務域,完成實體關系的領域劃分。邏輯模型設計,用于概念模型實體化,添加屬性和屬性定義,實體關系的梳理,歸納,定義物理化方式,添加必要的說明和描述。物理模型,需基于實際物理平臺,完成平臺的設置和優(yōu)化,添加必要的元數據字段用于管理,生成最終建表語句并優(yōu)化。6分析集成技術方法可包括數據挖掘、數據聚合、數據關聯分析、聚類分析、假設檢驗等,屬于大數據中關系挖掘的重要手段。6.1.5質量稽核根據服務成果標準及稽核規(guī)則,對數據質量進行監(jiān)控預警并產出質量報告。服務方要對數據質量負責。數據質量從數據的規(guī)范性、完整性、準確性、一致性、時效性和可訪問性(GB/T36344—2018,指標說明)等多個層面實現對數據的全面稽核和預警,做到事前質量檢查、事中運行監(jiān)控、事后歸納總結,結合系統(tǒng)提供的全方位評估并提高數據質量,指導決策者的決定。服務方應制定數據質量管理目標,建立相應的數據質量管理體系及實施機制、優(yōu)化數據質量并持續(xù)改進,滿足需求方數據應用的需求。對數據質量進行全程監(jiān)控,做到數據質量全程追溯,可直接定位到問題數據所在的數據庫>數據表>數據字段>數據值。且在監(jiān)控到異常數據時應及時通過郵件、短信等方式通知到相關數據管理者。支持自動生成數據質量報告,以文字或圖形化的方式展示數據質量及規(guī)范落地執(zhí)行情況。支持數據質量規(guī)則的可視化配置,且實時展示數據質量規(guī)則的運行狀態(tài)、運行結果??杀A魯祿|量規(guī)則的校驗歷史,數據質量的變化規(guī)律,找出數據問題。6.1.6流通分發(fā)流通分發(fā)是根據需求方要求,將數據傳輸導入到目標系統(tǒng)中,實現數據在不同應用系統(tǒng)之間的共享或轉移。流通分發(fā)方式可包括數據資源目錄、郵件訂閱、API接口、文件下載、離線文件交換。6.2服務技術完成流程中各環(huán)節(jié)服務任務所采用的技術及其規(guī)范。服務技術評價指標一般情況下要根據業(yè)務場景確定標準值,同時不同水平的指標值也代表著不同水平的服務成本,推薦的評價指標值可參見本標準體系具體場景部分,如“第4部分:數據流程服務智慧園區(qū)場景技術規(guī)范”等。6.2.1數據采集技術對數據采集進行安全管控,嚴格控制人員權限,采集數據和采集過程要有日志記錄,保障數據采集可以追溯。保障采集傳輸安全和一致性,采用身份認證、數字簽名、加密算法、SSL/TSL傳輸協(xié)議等方式保障數據采集的安全性和完整性。具體采集技術序號技術名稱功能描述評價指標或原則1數據庫直連基于現有數據庫,通過指定路徑快速安全訪問并獲取數據。通過JDBC方式直連業(yè)務系統(tǒng),根據約定周期抽取數據增量數據的更新頻率、訪問和獲取數據的便利性2CDC通過解析日志變化情況,獲取數據變更數據延遲、數據庫負載影響、數據變更狀態(tài)完整性3SDK前端業(yè)務軟件集成SDK;通過SDK直連抓取數據數據延遲、采集數據完整性、更新難度74API接口業(yè)務系統(tǒng)通過調用應用程序的接口實時采集數據,基于不同數據接口按需調取,快速對接自己的數據庫接口可用率。接口可用率=(服務可用時間/服務總時間)×100%;接口查詢延遲時間5物聯網設備直傳根據物聯網設備通信傳輸協(xié)議直接接入按需調取,快速對接自己的數據庫物聯網協(xié)議覆蓋度、并發(fā)數、接口延遲時間6網絡爬蟲主動抓取互聯網上所需數據,實現全網內容批量更新和重點信息實時更新。有效性(對抗驗證碼、防火墻策略)、數據時效性6.2.2預處理技術序號技術名稱功能描述評價指標或原則1解析轉換信息實時解析,將非結構化、半結構化數據轉換成為結構化數據。服務成本變化率、數據時效性、數據維度可擴展性2糾錯利用統(tǒng)計分析或人工智能的方法檢測屬性可能的錯誤值或異常值,并加以修正。按照屬性值的平均值或中值來替換屬性值;簡單規(guī)則庫(常識性規(guī)則和業(yè)務特定規(guī)則等)檢測和修正錯誤;使用不同屬性間的約束檢測和修正錯誤;使用外部數據源檢測和修正錯誤。規(guī)則庫完整性、自動化程度3異常值處理異常值數據指無意義的數據、壞數據,包含所有難以被機器正確理解和翻譯的數據,如非結構化文本。刪除含有異常值的記錄;將異常值視為缺失值,按照缺失值進行處理;可用前后兩個值的平均值修正;不直接在具有異常值的數據集上進行數據挖掘。規(guī)則庫完整性、自動化程度4缺失值處理指值實際存在,但沒有存入值所屬字段。可以從本數據源或其他數據源推導出來;可用平均值、中間值、最大值、最小值或更為復雜的概率統(tǒng)計函數值代替缺失的值,但準確性比較低;人工輸入一個可接受的值。規(guī)則庫完整性、自動化程度5空值處理完整性檢查,檢查表中某一列字段數據是否含有空值。規(guī)則庫完整性、自動化程度6去重檢查數據是否唯一,識別表中的重復數據。規(guī)則庫完整性、自動化程度7格式標準化基于數據元標準檢查表中某字段數據的數據格式是否正確。根據業(yè)務內涵訂立標準。例如:郵箱格式、8身份證格式等8值域標準化檢查表中某字段數據取值是否在指定范圍或指定維度值內。根據業(yè)務內涵訂立標準。參照相關領域國標或行標。例如:年齡字段數據取值范圍是否在0-150內9記錄數檢查一張表記錄條數是否在指定閾值范圍內或與歷史數據比較波動值是否在一定范圍內。根據業(yè)務內涵訂立標準。例如:檢查“用戶訪問明細表”今日新增記錄數與昨日相比上下波動范圍是否在-10%~10%內。邏輯性對表內或兩張表間的某一列數據或某幾列數據的表達式與其他某一列或某幾列數據的表達式比較,檢查數據邏輯是否正確。例如:對“可視電話用根據業(yè)務內涵訂立標準。戶情況統(tǒng)計表”邏輯檢驗:未超出套餐使用量的活躍用戶數+超出套餐使用量的活躍用戶數=活躍用戶數。及時性檢查單表數據更新時間是否在指定時間范圍內。根據需求訂立標準拉鏈表檢查檢查拉鏈表的數據是否有斷鏈、交叉鏈、重復鏈。根據業(yè)務內涵訂立斷鏈率、交叉率、重復率標校驗數據是否符合用戶自定義SQL腳本內根據需求訂立標準6.2.3分析集成技術序號技術名稱功能描述評價指標或原則1關聯數據存儲將實體、關系按照時間組成時空網絡,實從微觀角度看清來龍去脈;從宏觀角度看到同類事物的共同發(fā)展通性,對未來進行預測,是圖存儲和圖分析技術的統(tǒng)一體。存儲有效性和基于圖的關聯查詢時長。2關聯數據快速分析關聯分析算法基于多種存儲方案,包括以Oracle、MySQL為代表的傳統(tǒng)型關系數據庫,以Hadoop、HBase為代表的鍵值對的存儲方案。數據分析結果返回時長3關聯數據和傳統(tǒng)數據同步更新該系統(tǒng)解決方案既包含宏觀大數據、更突出微觀大數據的統(tǒng)一體。處理完備性(增、刪、關系數據庫實時性、同9步率4聚類分析聚類分析用于洞察數據的分布,獲取數據的特征和進行異常檢測分類主題合理性、分析耗時5假設檢驗利用抽取的樣本信息去判斷總體假設是否合理,即判斷總體的真實情況與假設是否存在顯著的系統(tǒng)性差異差異檢測準確度、分析耗時6.2.4質量稽核技術序號技術名稱功能描述評價指標或原則1數據稽核可通過全表掃描或者數據抽樣方式對數據進行檢查,數據抽樣分情況使用分層抽樣和隨機抽樣方式對數據進行抽查數據抽樣應具備代表性2稽核規(guī)則應支持值閾檢查、規(guī)范檢查、邏輯檢查、及時性檢查、完整性檢查、波動性檢查和自定義SQL檢查。規(guī)則支持度。如果SQL結果或以上檢查不在值閾范圍,則觸發(fā)報警。3質量稽核報告應體現數據完整性、規(guī)范性、一致性、準確性、關聯性,能通過報告及時并快速定位問題。報告完整性。數據來源、指標定義、數據處理、報告結論4數據波動性檢查表中某字段數據值對比之前業(yè)務周期數據值的浮動是否在一定范圍內。根據業(yè)務內涵訂立標準。例如:校驗“商品收益表”中某商品今日收益總額與昨日相比上下波動范圍是否在-5%~5%內。6.2.5流通分發(fā)技術流通分發(fā)方式分為服務方主動推送和需求方主動拉取,需求方可通過數據訂閱設置推送方式和時間來完成數據獲取,也可通過申請秘鑰通過Api接口或文件方式主動拉取完成數據獲取。需求方依靠數據資源目錄和元數據來管理、解讀獲取的數據。序號技術名稱功能描述評價指標或原則1數據資源目錄提供統(tǒng)一的數據資源視圖,為數據生產者、管理者、使用者提供快速查詢入口。資源編目可按四個角度對數據服務進行分類,包括:組織機構、業(yè)務主題、管理專題三個維度。包括數據目錄及服務目錄,第三方服務可以直接掛載,然后通過服務目錄對外提供服務。數據目錄支持API接口、文件、數據庫交換等方式。支持數據需求者通過數據資源目錄進行數據訪問申請,數據管理者進行訪問授權,分類合理性、存儲效率、檢索時長通過的用戶可以通過接口、數據庫、文件等多種方式進行數據使用。2元數據管理元數據是對數據的描述,通過描述數據的模型、產生、使用、業(yè)務含義、數據所有者等信息,幫助數據使用方了解和使用數據。元數據分為業(yè)務元數據、技術元數據和管理元數據。業(yè)務元數據描述數據的來源、數據字典、業(yè)務含義、統(tǒng)計數據;技術元數據描述數據的存儲情況、血緣關系、質量稽核報告;管理元數據描述數據的所有者、權限使用范圍、分類分級、數據冷熱情況。數據找得到、數據讀得懂,數據語言統(tǒng)一。采集和管理范圍、應用情況和范圍、標準化程度、自動化程度3Api接口基于云端百種數據接口,企業(yè)可按需調取,快速搭建自己的數據庫,滿足企業(yè)實現低成本、高效調用數據的需求。按需最小化原則,保障數據傳輸的安全性,保障數據服務合法、可控、可追溯和權責一致。服務穩(wěn)定性、服務性能、數據傳輸的安全性4在線文件下載通過在線按需查找相關數據,將查詢結果傳送到本地計算機磁盤上并保存起來。5離線文件交換將本地存儲的文件上傳到目標數據平臺,按照指定的方式獲取所需要的結果。通過FTP、SFTP等文件傳輸協(xié)議進行離線文件傳輸,完成數據交換6郵件訂閱通過對多維度數據動態(tài)抓取和監(jiān)控預警,以郵件形式把數據的動態(tài)變化發(fā)送到用戶郵箱中,系統(tǒng)性地解決對企業(yè)的全面盡調和監(jiān)控中的痛點。在線進行數據訂閱,并通過郵件發(fā)送和接收7數據聯邦通過訪問一個全局虛擬數據庫,通過全局虛擬數據庫管理系統(tǒng)將分布在不同物理數據庫中的數據抽象成一個統(tǒng)一的數據視圖,為不同的應用系統(tǒng)提供全局信息服務,實現不同應用系統(tǒng)和數據源之間的信息共享和數據交換。數據聯邦實施應考慮數據安全、數據延時、數據的有效性、數據的一致性和質量,以及數據的可用性、數據模型改變的影響、性能、數據訪問量等一系列問題。模型的效果(評價指標KS/AUC1等)、聯邦學習息安全技術數據安全能力成熟度模型》)注1:AUC值:AUC(AreaUnderCurve),衡量模型對于正負樣本的整體區(qū)分能力。KS值:KS(Kolmogorov-Smirnov),衡量模型對于正負樣本的最佳區(qū)分情況,區(qū)分度越大說明模型的風險排序能力越強,與AUC結合使用判斷。6.2.6數據安全技術數據安全:數據安全應構建數據的分級分類機制,建立數據應用、管理、備份和恢復的安全保護管理機制和策略,對數據完整性、保密性、隱私性、可信性等進行保護。數據安全涉及階段包括:采集、預處理、分析集成和流通分發(fā)4個階段序號技術名稱功能描述評價指標或原則1數據分類分級重要數據、核心數據和個人信息、其他分級數據中敏感數據要進行數據加密脫敏,避免在存儲還傳輸過程泄露或出現數據越權導致的數據安全問題。參考《網絡安全標準實踐指南——網絡數據分類分級指引》2安全審計建立安全審計規(guī)章制度和管理機制;建設安全審計組織團隊;結合大數據和人工智能技術建設安全審計平臺;定期開展安全審計工作,防范于未然。審計完整性1、管理和預防能力、技術先進性3身份認證鑒別通信中另一端的真實身份,防止偽造和假冒等情況發(fā)生,包括數字簽名、數字證書、匿名認證完整性、真實性、不可否認性4訪問控制數據庫庫表級、行列權限、接口IP白名單、TPS限制控制粒度5數據加密、脫敏對數據加密脫敏,防止數據主觀、不經意或被動泄露運算速度、安全性、資源消耗6數據區(qū)塊鏈對數據資產進行確權,授權和鑒權,并且調動數據計算引擎,實現數據用途和用量的可控。滿足央行、工信部等主管部門的相關測評要求注1:審計內容應包括:1、審計范圍應覆蓋到服務器和重要客戶端上的每個操作系統(tǒng)用戶和數據庫用戶;2、審計內容應包括重要用戶行為、系統(tǒng)資源的異常使用和重要系統(tǒng)命令的使用等系統(tǒng)內重要的安全相關事件;3、審計記錄應包括事件的日期、時間、類型、主體標識、客體標識和結果等;4、應保護審計記錄,避免受到未預期的刪除、修改或覆蓋等;5、應能夠根據記錄數據進行分析,并生成審計報表;6、應保護審計進程,避免受到未預期的中斷。6.3服務成果數據流程服務成果即為加工處理后的數據,其標準保障數據內外部使用一致性和準確性,解決數據指標中同名不同徑,同徑不同名,口徑不清晰,命名難理解,計算不易懂等問題,提升數據治理、加快數據流通、避免數據歧義。數據標準分為業(yè)務數據標準和技術數據標準。業(yè)務數據標準分為主數據標準、元數據標準、指標標準;技術數據標準描述了數據模型定義規(guī)范,數據模型應有統(tǒng)一的命名規(guī)范、數據類型,以便于數據理解和流通。主數據標準參照各業(yè)務場景相關領域標準,如《世界各國和地區(qū)名稱代碼》、《表示貨幣和資金的代碼》、《術語工作》系列標準。元數據標準,影響數據流通,相關數據標準參照《數據元和交換格式信息交換日期和時間表示法》、《信息技術元數據注冊系統(tǒng)(MDR)》系列標準等。技術數據標準參照各行業(yè)相關標準,如《基于云計算的電子政務公共平臺管理規(guī)范第1部分:服務質量評估》、《信息技術生物特征樣本質量》系列標準等。7非結構化數據流程服務技術規(guī)范針對多種非結構化數據類型,分別提出便于指導服務采購和操作實踐的流程、工具、質量和格式規(guī)范。7.1語音數據服務技術規(guī)范語音數據存在于多種場景中,數據處理后也用于多種應用里,技術規(guī)范將廣泛覆蓋多樣的情況。7.1.1語音數據采集和預處理技術規(guī)范指標及測量針對語音數據采集和預處理服務的流程、質量和成果應該滿足的技術指標,以及測量這些指標的方式、方法等。采集設定流程數據采集是指按照指定需求場景要求,使用指定設備,收集并交付原始數據。采集流程首要需要明確采集對象、設備要求,通過試采環(huán)節(jié)確定交付數據標準,并在指定時間內完成數據交付。流程設計如下:需求確定需求確定階段試采階段質檢階段交付階段正采階段A.需求確定階段本階段的目標是解讀并充分理解需求,明確合格標準,確定需求內容無歧義。本階段的主要任務包括確定采集對象,采集工具及參數。采集對象確定內容包括但不限于:采集目標類型,采集目標數量,采集目標分布,采集目標環(huán)境、采集目標形態(tài)等要求;采集工具及參數確定內容包括但不限于:采集工具類型,采集工具分布,采集工具搭設,采集工具調參,采集工具配合,采集工藝等。B.試采階段本階段的目標是為正式采集進行前期準備,通過試采部分數據,驗證服務成果是否符合需求確定內容。本階段的主要任務包括試采集,試采集質量檢驗和判定標準確定,輸出數據采集方案。試采集:按照采集文檔要求產出第一批數據,通過內外規(guī)則及軟硬件磨合,反哺采集工藝及采集流程,保障采集工藝可復現,采集流程可實施。試采集質量檢驗和判定標準確定:與需求方、項目管理者、項目執(zhí)行團隊確定質量驗收標準,并對試采集數據進行檢驗。質量驗收標準參見。輸出數據采集整體方案:數據采集方案,采集質量控制方案,采集風險預案,項目執(zhí)行日志,數據存儲方案等C.正式采集階段本階段的目標是完成規(guī)定任務量的采集服務。本階段的主要任務是按照數據采集整體方案,保障采集工期,采集計劃順利執(zhí)行,達到采集質量和交付要求。D.質檢階段本階段的目標是保障正式采集的數據符合質量驗收標準。本階段的主要任務是對采集好的數據進行清洗和質檢,審核方式可以采用同步審核和完成抽檢,并且根據檢驗情況可與正采階段形成多輪循環(huán)流程。同步審核:對采集數據實時質量監(jiān)控,保障采集質量控制方案落地,采集過程及時糾偏,輸出階段性采集數據指標;完成抽檢:對質檢數據進行比例抽檢,驗證同步審核結果準確且置信,數據成果符合質量驗收標準。E.交付階段本階段的目標是完成項目,贏得需求方滿意。本階段的主要任務是將符合質量驗收標準的合格數據交付,包括數據驗收、數據結算和需求交付。數據驗收:需求方對提交的全量數據進行比例抽檢,確認數據可用且符合制定的質量驗收標準要求,滿足則觸發(fā)數據合格結算,不滿足預期則進行糾偏返修。數據結算:對交付的符合驗收指標的有效數據進行結算信息確認,包括但不限于報價信息、關鍵指標、數據量級、結算賬期等。需求交付:實現流程閉環(huán),輸出采集交付報告,原始數據及授權文件回傳,設備返還,調研服務滿意度等。采集工具要求語音采集工具通常包括采集設備和軟件平臺。采集設備有麥克風、麥克風陣列、手機、錄音筆、專業(yè)錄音棚及工業(yè)級錄音設備。手機、錄音筆等,用于常規(guī)語音數據的采集;專業(yè)錄音設備用于高標準數據的采集。采集設備功能要求符合相關設備質量標準。采集軟件平臺功能要求一般包括:.采集文本可以展示在獨特的UI界面上,方便用戶注意信息文本,保證語音采集要求;.結合云服務開發(fā),可降低數據傳輸風險;.過程需有管理邏輯,用戶管理、文本管理和聲音文件管理齊全,方便管理員進行審核提.音頻數據展示,方便了解語音詳細數據,指導正確語音采集。采集質量標準采集質量涉及采集服務成果質量和流程質量兩方面。A.流程質量要素及測量方式:指標名稱指標定義及要求計算邏輯一次交付達成率項目數據一次交付時準確率的達成情況,用于衡量項目的質量保證能力。一次交付達成率=(一次交付準確率/目標準確率)×100%單次交付合格率項目數據每次(按項目與業(yè)務約定的交付周期:日、周、月、數據包)交付時準確率的達成情況,用于評估交付能力。單次交付合格率=1-(項目單次交付不合格數量/項目單次交付數量)×100%終審交付達成率項目數據終審通過的數量,用于衡量項目的交付質量情況。終審交付達成率=(終審交付的合格數據量/目標交付合格的數據量)×100%交付周期延時率量級要求項目:實際交付周期與目標交付周期的時間差。用于評估交付能力交付延時率=實際交付周期-約定交付周期)/約定交付周期)×100%B.成果質量及測量方式:語音采集項目類型一般有喚醒詞采集、命令詞采集、普通文本朗讀采集、自然對話文本采集、會議數據采集、其他噪聲采集等。每一個子類項目各自質量檢驗側重點不同,如無特殊要求,可參照正確性檢驗規(guī)范來要求。正確性檢驗規(guī)范應包含數據的采樣率、比特率、聲道、前后預留、切音、截幅、丟幀、底噪、混響、響度、信噪比、口音要求等相關的指標量化要求。采集數據格式采集格式:一般為wav,mp3,v3,m4a,pcm等格式音頻文件。預處理格式:json、xml、txt等格式。采集數據的包裝格式推薦按照以下格式:-xx語音數據庫--wav---speakerid---00001.wav--userinfo.txt音頻文件存儲格式為,總文件夾名稱wav,子文件夾名稱為說話人編號,同一個說話人的語音在一個子文件夾中。Userinfo為錄音人的說話人信息,考慮到個人隱私和數據合規(guī)性,采集數據需要獲取采集人的授權協(xié)議,同時記錄的信息遵循最小化原則,性別、年齡、地域籍貫,若項目對設備機型或距離有要求的,也需記錄,如下圖:7.1.2語音數據標注/內容審核技術規(guī)范指標及測量針對語音數據標注/內容審核服務的流程、質量和成果應該滿足的技術指標,以及測量這些指標的方式、方法等。標注/審核設定流程標注需求承接需要將各種類型數據進行集成封裝,通過數據載體或平臺,傳輸到標注側進行人工分類識別處理,標注側最終對需求側提供標準化的、可供檢索、分析或可視化的數據分類服務交付。標注服務流程如下:需求確定需求確定階段試標階段質檢階段交付階段正標階段A.需求確定階段本階段的目標是解讀并充分理解需求,明確合格標準,確定需求內容無歧義。本階段的主要任務包括確定需求對接,需求評估。需求對接:了解標注背景、數據源特征、數據密級、交付工期、驗收指標、作業(yè)要求等;需求評估:分析需求側強關注指標及需求成果,規(guī)劃資源。B.試標階段本階段的目標是為正式標注/審核進行前期準備,通過試標部分數據,驗證服務成果是否符合需求確定內容。本階段的主要任務包括需求承接,試標質量檢驗和判定標準確定,制定標注/審核方案。需求承接:在安全密級、成本、資源的綜合平衡下,選擇匹配的承接團隊進行試標,并在試標過程中進行標準優(yōu)化、標注模式確認、人效測試、成本評估等;試標質量檢驗和判定標準確定,與需求方、項目管理者、項目執(zhí)行團隊確定質量驗收標準,并對試標注/審核數據進行檢驗。質量驗收標準參見。制定方案:制定數據解決方案,規(guī)劃進度、質量、成本管控細節(jié),確認報價、工期、驗收流程等關鍵信息,對齊需求側,最終落地標注管理預案。C.正式標注/審核階段本階段的目標是完成規(guī)定任務量的標注/審核服務。本階段的主要任務進行標注管理,即觀察數據源是否符合分類標準使用需求,對標注周期、質量進行跟進,標注突發(fā)風險識別及處理;D.質檢階段本階段的目標是保障正式標注/審核的數據符合質量驗收標準。本階段的主要任務是對標注好的數據進行質檢并且根據檢驗情況可與正式標注/審核階段形成多輪循環(huán)流程。E.交付階段本階段的目標是完成項目,贏得需求方滿意。本階段的主要任務是將符合質量驗收標準的合格數據交付,包括數據驗收、數據結算和需求交付。數據驗收:測算質檢結果合格率,與需求側確認數據處理各項指標是否符合需求側預期指標,符合驗收要求則對需求側驗收結論書面輸出,交付標注結果;數據結算:對交付的符合驗收指標的有效數據進行結算信息確認,包括但不限于報價信息、關鍵指標、數據量級、結算賬期等;需求交付:實現流程閉環(huán),對需求側提供完整的交付報告、調研滿意程度、持續(xù)提供售后服務。標注/審核工具要求智能語音應用的實現涉及多種語音處理技術,如ASR(語音識別)、NLP(自然語言處理)、TTS(語音合成)、Wakeup(語音喚醒)、VoicePrint(聲紋識別)、DM(對話管理)等。其中最為重要且應用廣泛的,主要有ASR、NLP、TTS。ASR:語音轉文本,相當于是該智能系統(tǒng)中的“耳朵”;NLP:自然語言理解,對文本信息進行處理,并做出對應指令,相當于是該智能系統(tǒng)中的“大腦”;TTS:文本轉語音,相當于是該智能系統(tǒng)當中的“嘴巴”。其中NLP屬于文本數據服務技術,參見7.2。語音數據流程服務主要涉及ASR、TTS兩種技術規(guī)范。對于語音標注工具的要求,主要有:此外,標注/審核工具,還需要具備有方便、快捷、可視化的數據流轉和統(tǒng)計的功能,便于利用數據化進行標注作業(yè)流程管理。標注/審核質量標準1)ASR在語音ASR轉寫當中,主要操作為對音頻進行截取、對截取部分音頻進行文本轉寫、對截取部分音頻進行屬性判斷,各環(huán)節(jié)操作規(guī)范如下:音頻截取,根據實際應用場景需要對音頻進行分割截取,并保證所截取音頻與理想分段音頻貼合;音頻文本轉寫,將音頻文件內容用漢字表示轉寫為文本,轉寫內容需要和實際發(fā)音內容完全一致,不允許出現修改和刪減的問題音頻屬性判斷。確定是否包含有效語音,確定語音的噪音情況,確定說話人數量,確定說話人性別,確定是否包括口音:其中對于標注是否符合規(guī)范的判斷標準和依據,如下表所示:操作技術規(guī)范規(guī)范邏輯規(guī)范說明和要求音頻截取音頻截取貼合程度 實際截取音頻與理想截取音頻盡可能貼合,不過多截取導致音頻缺失,也不留白過多,具體指標值需根據業(yè)務場景確定。音頻文本轉寫字準率/句準率句準率=1-句錯率;句錯率(SER)=(錯誤句數/總句數)×100%字準率=1-字錯率;字錯率(WER)=(錯誤字數/總字數)×100%字錯率是語音識別領域的關鍵性評估指標,WER越低表示效果越好;根據應用場景不同以及語音檢測工具不同,對于高質量音頻轉寫要求,要求有所不同。具體指標值需根據業(yè)務場景確定音頻屬性判斷音頻屬性判斷合格率音頻屬性判斷合格率=(音頻屬性判斷正確數/音頻屬性判斷總數)×100%根據應用場景不同以及語音檢測工具不同,對于高質量音頻判斷要求。具體指標值需根據業(yè)務場景確定2)TTS在TTS語音合成當中,主要的標注任務包括:文本語料收集、文本對齊、斷句切分、拼音、韻律精標、音素切分、主觀評測、離線測評等。同時,任務涉及“全局區(qū)間”、“局部區(qū)間”、“幀”的標注層設置。全局區(qū)間:針對整條音頻進行標注,全局區(qū)間的起止位置即整條音頻的開始結束位置,主要是標注一些全局信息,如整條音頻的轉寫內容,語種等.局部區(qū)間:針對切分出的部分音頻段進行標注,主要標注拼音、音素以及其他針對部分時間段標注的信息.幀:指標注音頻的某一時刻,主要標注韻律.操作操作定義技術規(guī)范文本語通過音、視頻等材料收集文.依據規(guī)則文檔把握制作音庫的需求特征;料收集本并進行順滑整理,為錄音提供素材。.尋找錯別字少、標點規(guī)范、三觀正常的內容。文本對對音頻和文本內容進行校對.每個音頻里發(fā)音人字音朗讀準確,無音頻質齊處理。量問題、無發(fā)音準確性問題;斷句切分對長片段語音數據進行斷句處理,得到音頻與對應的規(guī)范后的文本。.切出的語句最好要語法正確,語義完整,語氣完整,無音頻質量問題、無發(fā)音準確性問題;拼音精標對預測后文件進行檢查。.根據讀音進行拼音的聲調和音素拼寫標注;停頓的順序位置也要準確;.保證第一層文本內容與第二層漢字內容完全一致。韻律精標對預測后文件進行檢查。.對音節(jié)、音步、韻律詞、韻律短語、語調短語、句子等韻律等級進行劃分;.保證第一層文本內容與第二層漢字內容完全一致。音素切分做完拼音檢查后,將語音按照給定音素序列進行強制切分,得到每一個音素的時間段信息。主觀評對于給定的語音,試聽完根據第一感受,給出主觀評分(MOS-MeanOpinionScore,即平均主觀意見分)。.從不同維度對單條數據的整體感受打分;離線測評對于給定的語音&文本,先聽語音,再根據試聽結果,結合文本比對,找出語音片段中的前后端錯誤。.區(qū)分不同音庫需要反饋的前后端問題,前端類比人類的語言中樞(根據句子預測應該讀音和停頓),后端類比人類的發(fā)音器官(根據預測結果發(fā)聲)。標注/審核數據格式1)ASRa.被截取音頻片段的起止時間戳;c.該截取音頻對應的轉寫文本等。2)TTS7.1.3語音數據流通分發(fā)技術規(guī)范指標及測量針對語音數據流通分發(fā)服務服務的流程、質量和成果應該滿足的技術指標,以及測量這些指標的方式、方法等。流通分發(fā)設定流程數據分發(fā)是根據數據應用要求,將數據服務成果交付需求方。需求方包含公司內外部客戶,交付數據包含客戶定制項目,也包括自有數據。數據流通分發(fā)整體流程包括以下環(huán)節(jié):需求確定階段需求確定階段協(xié)議確定階段流通處理階段交付階段A.需求確定階段根據業(yè)務需求評估流通數據類型、體量、要素等,約定數據傳輸方案,與內部服務團隊確定數據資源,將獲取的少量數據樣本與承接方進行共享,基于樣本評估需求落地可行性。B.協(xié)議確定階段進行合規(guī)評估,識別敏感數據所屬類別及敏感級別,確保風險可控;簽訂保密協(xié)議。C.流通處理階段數據獲?。簩Λ@得采集許可的數據進行批量入庫,實際獲取的數量、來源等對齊評估部數據脫敏:對于涉及用戶隱私的數據,采用信息加密、信息替換、信息模糊化等策略和技術方法進行數據脫敏;D.交付階段按約定方式回傳數據及結果,或采用隱私計算技術提供服務。通過本地上傳、API、公司數據庫流轉等渠道將數據分發(fā)至指定需求方。流通分發(fā)工具要求流通分發(fā)可采用多種方式和工具進行:流通分發(fā)質量標準流通分發(fā)質量由內容質量和傳輸質量構成。數據內容質量參照采集質量標準和標注/審核質量標準。傳輸質量參照相關傳輸方式技術規(guī)范,其中API接口標準參1)api接口定義可通過平臺預先定義的函數或一種約定協(xié)議,對平臺或工具發(fā)起數據服務請求。如上傳數據、下載數據。2)規(guī)范要求3)常用場景流通分發(fā)數據格式流通分發(fā)數據格式參照采集數據格式和標注/審核數據格式。7.2文本數據服務技術規(guī)范7.2.1文本數據采集和預處理成果技術規(guī)范指標及測量針對文本數據采集和預處理服務最終交付的成果應該滿足的技術指標,以及測量這些指標的方式。方法和參考工具等。包含如下(但不限于如下列舉信息):采集設定流程參照采集工具要求文本采集涉及兩類場景,一類針對新聞資訊類、行業(yè)互聯網和政府開放的數據,就是將非結構化的網絡文本信息從大量的網頁中抽取出來保存到結構化的數據庫中的過程。收集后的海量內容素材,經過數據清洗過程,處理成可用于標注的文本內容。另一類針對某指定語義內容進行泛化,文本采集途徑通常為人工采集,可人工使用EXCEL匯總或某些數據服務平臺工具編制。采集質量標準采集質量涉及采集服務成果質量和流程質量兩方面。A.流程質量要素及測量方式:指標名稱指標定義及要求計算邏輯一次交付達成率項目數據一次交付時準確率的達成情況,用于衡量項目的質量保證能力。一次交付達成率=一次交付準確率/目標準確率*100%單次交付合格率項目數據每次(按項目與業(yè)務約定的交付周期:日、周、月、數據包)交付時準確率的達成情況,用于評估交付能力。單次交付合格率=1-(項目單次交付不合格數量/項目單次交付數量)終審交付達成率項目數據終審通過的數量,用于衡量項目的交付質量情況。終審交付達成率=終審交付的合格數據量/目標交付合格的數據量*100%交付周期延時率量級要求項目:實際交付周期與目標交付周期的時間差。用于評估交付能力交付延時率=(實際交付周期-約定交付周期)/約定交付周期文本采集項目類型一般分為線上采集、線下采集,線上采集例如評論采集、留言信息采集、文章采集等,線下采集例如語句擴寫、對話采集等,每個采集任務的質量質檢側重點根據項目具體需求會有所不同,如無特殊要求,可參照正確性質檢規(guī)范來要求。正確性檢驗規(guī)范包含數據的準確性、相關性、邏輯正確性、常識正確性、合規(guī)合法等相關指標量化要求。);2)待標注數據-帶預標注結果);采集數據格式文字數據處理支持csv、url、doc等常用交付格式,內含標注字段如UID、垂類領域、關鍵詞、標題、評論、前端原文鏈接等。7.2.2文本數據標注/內容審核技術規(guī)范指標及測量針對文本數據標注服務最終交付的成果應該滿足的技術指標,以及測量這些指標的技術方式、方法和參考工具等。包含如下:標注/審核設定流程參照。標注/審核工具要求素簽記輔助工具說明將需要修改的詞進行滑動選中,修改;對于長篇幅內對于文字型的項目,能夠直接高亮關鍵詞定位,二次專業(yè)劃詞翻譯插件,依托大量權威詞典涵蓋中英索可以通過小窗口打開搜索工具進行搜索,縮短適用于所有網頁,可以實時自動計算選中的字數,劃詞即顯示翻譯結果,支持多有道翻譯、百度翻譯、標注功能:文本分類、實體詞抽?。次谋厩蟹郑?、實體關系標注。.全文存在10個“您好”;.將第1個“您好”新增為文本段且標簽選為“標簽A”,第2-10個“您好”自動新增為文本段且標簽也為“您好”。標注/審核質量標準適用項目類型指標名稱指標定義及要求計算邏輯文本分類正負例準確率即一級分類準確率,“屬于當前一級分類”為正例,“不屬于當前一級分類”為負例。正負例準確率是文本分類模型學習的奠基指標,應不小于95%。正負例準確率=標注正確的一級分類數據量/標注總數據量最小子類驗收關鍵指標,即標簽類目的最細化分類判斷準確率。最小子類目準確率是影響模型精度的強關注指標,通常要求90%~95%。最小子類目準確率=標注正確的最小子類目數據量/標注總數據量文本提取/摘要關鍵詞分級準確率文本抽取類型標注中,對于關鍵詞等級及對應等級的詞匯選擇標注,分級正確且詞選正確,為最終正確,這也是關鍵詞抽取類項目的最高準確要求,通常建議指標設定在80%~90%。關鍵詞分級準確率=對應等級詞選正確數/所有等級對應詞選數總和排序打分排序分層一致率文本排序打分類型的項目,有部分邊界地帶case難以精確評分,便通過排序分層來歸類該case所屬范疇。其操作方式為兩個作業(yè)人員對一個case進行打分,如打分結果相鄰,則判定排序分層一致。排序分層一致率設定在80%-95%,都屬于合理范圍。排序分層一致率=同一case被兩人標注結果相近的個數/同一case被兩人標注的總數通用指標盲審一致率對于主觀性強的文本項目,通常采用盲審一致率來輔助準確率的評估,其操作方式為兩個作業(yè)人員對一個case進行標注,如標注結果一致,則判定標注正確,一致率可以在一定程度上反映整體準確率。盲審一致率通常要求不低于70%。盲審一致率=同一case被兩人標注結果相同的個數/同一case被兩人標注的總數測量方式說明抽樣檢查定向抽檢隨機抽檢是面向抽檢對象總任務池,設置一定條件(標注賬號/任務日期/標注結果/標注輪次等)進行任務篩選,滿足抽取條件的任務將被定向抽樣檢查。隨機抽檢隨機抽檢是抽檢對象的總任務池中每個任務都有同等被抽中的可能,是一種完全依照機會均等的原則進行的抽樣檢查。多輪次兩輪多輪次審核將一個標注任務互斥分發(fā)給2個作業(yè)人員,如2人判斷結果一致,則默認該任務標注正確;如判斷結果不一致,則任務自動流入質檢池,由質檢人員裁決其準確情況。評估再抽樣評估是在抽檢池中,設置一定條件(抽檢日期/數量比例/數據來源等)進行任務篩選,滿足抽取條件的任務將流入評估池進行再質檢和評價估量。標注結果數據。人人人標注/審核數據格式文字數據處理支持csv、url、doc等常用交付格式,內含標注字段如UID、垂類領域、關鍵詞、標題、評論、前端原文鏈接等。7.2.3文本數據流通分發(fā)技術規(guī)范指標及測量流通分發(fā)設定流程參照。流通分發(fā)工具要求流通分發(fā)可采用多種方式和工具進行:流通分發(fā)質量標準流通分發(fā)質量由內容質量和傳輸質量構成。數據內容質量參照采集質量標準和標注/審核質量標準。傳輸質量參照相關傳輸方式技術規(guī)范,其中API接口標準參照語音數據流通分發(fā)質量標準。流通分發(fā)數據格式7.3圖像數據服務技術規(guī)范7.3.1圖像數據采集和預處理成果技術規(guī)范指標及測量針對圖像數據采集和預處理服務最終交付的成果應該滿足的技術指標,以及測量這些指標的方式。方法和參考工具等。包含如下(但不限于如下列舉信息):采集設定流程參照。采集工具要求圖像采集途徑通常為人工采集。計算機視覺領域常有2D、3D、點云、紅外、雙目深度等數據的采集類型。圖像采集工具除常規(guī)手機外,不同需求下對硬件有特定要求,如計算機視覺領域的深度相機、紅外相機、毫米波雷達、Xsens手套組合、人體3D掃描儀等。采集質量標準采集質量涉及采集服務成果質量和流程質量兩方面。A.流程質量要素及測量方式:指標名稱指標定義及要求計算邏輯一次交付達成率項目數據一次交付時準確率的達成情況,用于衡量項目的質量保證能力。一次交付達成率=(一次交付準確率/目標準確率)×100%單次交付合格率項目數據每次(按項目與業(yè)務約定的交付周期:日、周、月、數據包)交付時準確率的達成情況,用于評估交付能力。單次交付合格率=1-(項目單次交付不合格數量/項目單次交付數量)×100%終審交付達成率項目數據終審通過的數量,用于衡量項目的交付質量情況。終審交付達成率=(終審交付的合格數據量/目標交付合格的數據量)×100%交付周期延量級要求項目:實際交付周期交付延時率=實際交付周期-約定交付時率與目標交付周期的時間差。用于評估交付能力周期)/約定交付周期)×100%C.成果質量及測量方式:圖片采集項目類型會按照不同的應用場景有不同的用途,例如應用于人臉識別的人臉圖像采集,新零售場景的商品采集、人體姿態(tài)采集,應用于自動駕駛場景的道路行人圖片采集等等。每一個子類型的采集質檢質量側重點不同,如無特殊要求,可參照正確性檢驗規(guī)范來要求。正確性檢驗規(guī)范應包含數據的場景要求和圖像信息要求兩個維度,場景要求主要包含是場景內包含要求的信息準確性、數量要求、位置要求、時效等,圖像信息包含圖像分辨率、清晰度、圖片大小等。1)待標注數據-不帶預標注結果););2)待標注數據-帶預標注結果);采集數據格式常見的圖像格式有JPEG、TIFF、RAW、BMP、GIF、PNG等7.3.2圖像數據標注/內容審核成果技術規(guī)范指標及測量標注/審核設定流程參照。圖片處理類型模板元素功能要求適用項通用類圖片縮放/旋轉/移動、亮度/圖片類數據處理基礎功能要求,對圖片進行基礎縮放、旋轉等操作,包括但不限于增刪標簽并調整其顏色和顯隱,一鍵復原或查看原圖,撤銷及自動保存等通用對比度/飽和度調整等功能。OCR檢測/識別類矩形/多邊形框對需要標注的目標實體用矩形框或多邊形框進行框選,以此和周圍進行邊界區(qū)分,要求需同時實現增、刪、調整框,切換框的填充色及透明度等;左右手框檢測標注類別標簽對已用矩形或多邊形框標注的目標增刪類別標簽,以區(qū)分圖片中不同目標屬性。關鍵點類連線設置對于標注過程中的一組關鍵點進行自動連線,并在不同區(qū)間段進行閉環(huán)隔離以區(qū)分獨立關鍵點組,如1-8-1,9-16-9等。人臉輪廓/瞳孔虹膜/精細關鍵點標注橢圓擬合適用于橢圓形或類橢圓形區(qū)域進行關鍵點定位時,自動由4點擬合橢圓圓弧,代替默認連線折線段。點序號/顯隱調整可對連續(xù)性關鍵點可自定義序號起始及顯隱,以判斷局部特殊點位是否精準。精細化摳圖/分割類正向畫筆、負向畫筆(擦正向畫筆針對畫布上的目標拖動進行繪制線條、勾勒輪廓以便后續(xù)填充區(qū)域,產生與原圖疊加的分割效果圖;負向畫筆即為擦除筆,針對已繪制或已分割區(qū)域進行邊緣修正、區(qū)域擦除等動作。人臉局部分割/人體服飾分割/車輛車窗背景分割涂色工具將已繪制輪廓進行區(qū)域涂色,分前景顏色、背景顏色等,實現原圖不同區(qū)域著色分割效果。移動/拖拽按鈕對已用畫筆進行分割的部分進行移動,對比原圖判斷分割效果標注/審核工具要求標注工具及作用標注/審核質量標注標注質量要素及指標適用類型指標名稱指標定義及要求計算邏輯OCR檢測及識別、關鍵點標注等最小單位準確率驗收關鍵指標,即圖片標注的最小顆粒單位準確率(如框、點、折線、幀數等),最小單位準確率是需求方強關注交付指標,具體指標值要求根據業(yè)務場景確定最小單位準確率=(標注正確的最小單位正確數/最小單位標注總數)×100%圖片篩選/分類/清洗等標簽正負例準確率多用于二分類場景,屬于指定標簽下的數據即為正例,不屬于則為負例,標簽正負例準確率是篩選/清洗等分類場景下定義數據質量的關鍵指標,具體指標值要求根據業(yè)務場景確定標簽正負例準確率=(標注正確的正例數量/標注總數)×100%屬性判斷類(含較強主觀因素)多輪次一致率常用于視頻抽幀數據屬性判斷場景,關注多輪標注模式下不同輪次標注一致率,驗證該類數據主觀程度及規(guī)則拉齊難易度,具體指標值要求根據業(yè)務場景確定多輪次一致率=(n輪標注后一致數量/單輪總指標測量方式測量方式說明抽樣檢查定向抽檢隨機抽檢是面向抽檢對象總任務池,設置一定條件(標注賬號/任務日期/標注結果/標注輪次等)進行任務篩選,滿足抽取條件的任務將被定向抽樣檢查。隨機抽檢隨機抽檢是抽檢對象的總任務池中每個任務都有同等被抽中的可能,是一種完全依照機會均等的原則進行的抽樣檢查。多輪次兩輪多輪次審核將一個標注任務互斥分發(fā)給2個標注人員,如2人判斷結果一致,則默認該任務標注正確;如判斷結果不一致,則任務自動流轉到第3輪,由第3人(常為質檢人員)最終裁決其準確情況。埋點標注埋點質檢一批數據中包含一部分原始帶有標注結果的數據,并均勻分布到數據樣本中,通過單輪標注后驗證埋點數據的標注質量,從而驗證整體的數據質量。標注/審核數據格式圖片數據處理支持csv、url、psd等常用交付格式,內含標注字段如關鍵點(組)坐標、矩形框四點坐標及其標簽類別等。7.3.3圖像數據流通分發(fā)技術規(guī)范指標及測量針對圖像類數據流通分發(fā)服務最終交付的成果應該滿足的技術指標,以及測量這些指標的技術方式、方法和參考工具等。包含如下(但不限于如下列舉信息):流通分發(fā)設定流程參照。流通分發(fā)工具要求流通分發(fā)可采用多種方式和工具進行:流通分發(fā)質量標準流通分發(fā)質量由內容質量和傳輸質量構成。數據內容質量參照采集質量標準和標注/審核質量標準。傳輸質量參照相關傳輸方式技術規(guī)范,其中API接口標準參照語音數據流通分發(fā)質量標準。流通分發(fā)數據格式流通分發(fā)數據格式參照采集數據格式和標注/審核數據格式。7.4視頻數據服務技術規(guī)范7.4.1視頻數據采集技術規(guī)范指標及測量針對視頻數據采集和預處理服務的流程、質量和成果應該滿足的技術指標,以及測量這些指標的方式、方法等。采集設定流程參照采集工具要求圖像采集工具除常規(guī)手機外,不同需求下對硬件有特定要求,如計算機視覺領域的深度相機、紅外相機、毫米波雷達、Xsens手套組合、人體3D掃描儀等。采集質量標準參照采集數據格式常見的視頻格式有MPEG、MP4、AVI、3GP、RM(RMVB)、WMV、FLV(F4V)等。7.4.2視頻數據標注/內容審核成果技術規(guī)范指標及測量針對視頻數據標注/內容審核服務的流程、質量和成果應該滿足的技術指標,以及測量這些指標的方式、方法等。標注/審核設定流程參照。標注/審核工具要求視頻處理類型模板元素功能要求適用項目類型視頻選擇類單選標簽/復選框/下拉框視頻類數據處理基礎需求,不對本身數據進行修改,僅做選擇類的操作;包括打標簽、打分等。判斷、分類、清洗、智能剪輯/切分視頻剪輯工具按指定要求在時間軸上進行切分,要求工具可實現開始時間、結束時間、或者按照要求的時間打點等視頻剪輯/切分文本轉寫矩形/多邊形框/類別標簽通過矩形框/多邊形框框住視頻中的文本,并自動將框選的文本進行轉錄,確保文本正確性視頻文本轉寫內容解析文本輸入框根據內容進行分析,給予分析報告或分析說明,通過文本輸入框錄入文字信息視頻解析畫面遮擋馬賽克根據規(guī)則對視頻中的特定畫面進行遮擋視頻打碼標注/審核質量標準標注質量要素及指標適用項指標名稱指標定義及要求計算邏輯視頻判清洗、評測、打分標簽正負例準確率多用于視頻打標簽場景,屬于指定標簽下的數據即為正例,不屬于則為負例,標簽正負例準確率是篩選/清洗等分類場景下定義數據質量的關鍵指標,具體指標值要求根據業(yè)務場景確定。標簽正負例準確率=(標注正確的正例數量/標注總數)×100%內容解析評估準確率適用于視頻解析項目,按照標準中給到的內容要素,評估內容解析的內容是否符合需求方預期,具體指標值要求根據業(yè)務場景確定評估準確率=(滿足條件的內容數量/標注總數)×100%文本轉寫智能剪輯/切分畫面遮擋最小單位準確率驗收關鍵指標,即視頻標注的最小顆粒單位準確率(如框、點、視頻抽幀、轉寫文字等),最小單位準確率是需求方強關注交付指標,具體指標值要求根據業(yè)務場景確定最小單位準確率=(標注正確的最小單位正確數/最小單位標注總數)×100%視頻打分、分類多輪次一致率適用于主觀判斷類視頻抽幀數據,多輪標注模式下不同輪次標注一致率,通過用于驗證該類數據主觀程度及規(guī)則拉齊難易度,具體指標值要求根據業(yè)務場景確定多輪次一致率=(n輪標注后一致數量/單輪總指標測量方式測量方式說明抽樣檢查定向抽檢隨機抽檢是面向抽檢對象總任務池,設置一定條件(標注賬號/任務日期/標注結果/標注輪次等)進行任務篩選,滿足抽取條件的任務將被定向抽樣檢查。隨機抽檢隨機抽檢是抽檢對象的總任務池中每個任務都有同等被抽中的可能,是一種完全依照機會均等的原則進行的抽樣檢查。多輪次兩輪多輪次審核將一個標注任務互斥分發(fā)給2個作業(yè)人員,如2人判斷結果一致,則默認該任務標注正確;如判斷結果不一致,則任務自動流入質檢池,由質檢人員裁決其準確情況。評估再抽樣評估是在抽檢池中,設置一定條件(抽檢日期/數量比例/數據來源等)進行任務篩選,滿足抽取條件的任務將流入評估池進行再質檢和評價估量。標注/審核數據格式組合模版對需要展示的數據進行配置,通過變量名(src字段)與上傳CSV的表頭名稱進行匹配展示數據。頁面模版與數據的關系圖如下:組合數據的展示方式配置:這里以視頻、標題、標題內容這三種待標注數據為例:格式wmv、avi等視頻ID、視頻wmv、avi等標簽類別、markTime位置坐標、endTime位置坐標、截取片段時長、截取片段占總視頻比例、打分等7.4.3視頻數據流通分發(fā)技術規(guī)范指標及測量針對視頻類數據流通分發(fā)服務最終交付的成果應該滿足的技術指標,以及測量這些指標的技術方式、方法和參考工具等。包含如下:流通分發(fā)設定流程參照。流通分發(fā)工具要求可采用多種方式和工具進行:流通分發(fā)質量標準流通分發(fā)質量由內容質量和傳輸質量構成。數據內容質量參照采集質量標準和標注/審核質量標準。傳輸質量參照相關傳輸方式技術規(guī)范,其中API接口標準參照語音數據流通分發(fā)質量標準。流通分發(fā)數據格式流通分發(fā)數據格式參照采集數據格式和標注/審核數據格式。7.5點云數據服務技術規(guī)范點云數據在自動駕駛、城市規(guī)劃、考古文物保護、醫(yī)學影像、測繪等領域有著廣泛的應用場景。7.5.1點云數據采集和預處理成果技術規(guī)范指標及測量針對點云數據采集和預處理服務最終交付的成果應該滿足的技術指標,以及測量這些指標的方式。方法和參考工具等。包含如下(但不限于如下列舉信息):采集設定流程參照。采集工具要求采集質量標準采集質量涉及采集服務成果質量和流程質量兩方面。A.流程質量要素及測量方式:指標名稱指標定義及要求計算邏輯一次交付達成率項目數據一次交付時準確率的達成情況,用于衡量項目的質量保證能力。一次交付達成率=(一次交付準確率/目標準確率)×100%單次交付合格率項目數據每次(按項目與業(yè)務約定的交付周期:日、周、月、數據包)交付時準確率的達成情況,用于評估交付能力。單次交付合格率=1-(項目單次交付不合格數量/項目單次交付數量)×100%終審交付達成率項目數據終審通過的數量,用于衡量項目的交付質量情況。終審交付達成率=(終審交付的合格數據量/目標交付合格的數據量)×100%交付周期延時率量級要求項目:實際交付周期與目標交付周期的時間差。用于評估交付能力交付延時
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年落葉大班標準教案及反思
- 保潔外包合同范例
- 住宅使用權變更合同范例
- 水資源合理利用與開發(fā)策略計劃
- 海關業(yè)務知識培訓課件
- 如何應對工作中的壓力與挑戰(zhàn)計劃
- 第3課:《日食》(教學設計)-2023-2024學年六年級下冊科學 教科版
- 2025年羽毛球課程標準教案全
- 學習之道與方法指導計劃
- 第五單元《習作:圍繞中心意思寫》教學設計-2024-2025學年六年級上冊語文統(tǒng)編版
- 重大火災隱患判定方法知識培訓
- 企業(yè)員工檔案管理培訓
- 四川新農村建設農房設計方案圖集川東南部分
- (完整版)英語四級詞匯表
- GB/T 18281.7-2024醫(yī)療保健產品滅菌生物指示物第7部分:選擇、使用和結果判斷指南
- 第14課 旅游計劃書(教案)信息技術六年級下冊
- 中車招聘在線測評題
- 教學設計初中勞動教育創(chuàng)意設計的教學設計
- 2024年事業(yè)單位考試(綜合管理類A類)職業(yè)能力傾向測驗試卷及答案指導
- 山東省2024年中考數學試卷八套合卷【附答案】
- 血液透析護理質控
評論
0/150
提交評論