數(shù)據(jù)流程服務(wù)技術(shù)規(guī)范第1部分通用技術(shù)_第1頁
數(shù)據(jù)流程服務(wù)技術(shù)規(guī)范第1部分通用技術(shù)_第2頁
數(shù)據(jù)流程服務(wù)技術(shù)規(guī)范第1部分通用技術(shù)_第3頁
數(shù)據(jù)流程服務(wù)技術(shù)規(guī)范第1部分通用技術(shù)_第4頁
數(shù)據(jù)流程服務(wù)技術(shù)規(guī)范第1部分通用技術(shù)_第5頁
已閱讀5頁,還剩64頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1本標(biāo)準(zhǔn)規(guī)定了數(shù)據(jù)流程服務(wù)技術(shù)的體系規(guī)范,適用于數(shù)據(jù)流程服務(wù)需求方、數(shù)據(jù)流程服務(wù)方、數(shù)據(jù)交易所、行業(yè)協(xié)會(huì)及行業(yè)管理部門在相關(guān)業(yè)務(wù)規(guī)范中作為參照,主要適用于:a)數(shù)據(jù)流程服務(wù)需求方采購數(shù)據(jù)流程服務(wù)時(shí),對數(shù)據(jù)和服務(wù)產(chǎn)品及其供應(yīng)商進(jìn)行評(píng)價(jià);b)從事數(shù)據(jù)流程服務(wù)、銷售數(shù)據(jù)產(chǎn)品的企業(yè)或機(jī)構(gòu),建立數(shù)據(jù)和服務(wù)產(chǎn)品技術(shù)規(guī)范;c)從事數(shù)據(jù)資產(chǎn)評(píng)估、數(shù)據(jù)交易服務(wù)的企業(yè)和機(jī)構(gòu),建立數(shù)據(jù)和服務(wù)產(chǎn)品交易規(guī)則、規(guī)范;d)政府相關(guān)管理部門、產(chǎn)業(yè)園區(qū)等對數(shù)據(jù)流程服務(wù)進(jìn)行事中、事后監(jiān)管核查;e)其他需要應(yīng)用的場合。2規(guī)范性引用文件下列文件對于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T38667-2020信息技術(shù)大數(shù)據(jù)數(shù)據(jù)分類指南GB/T36344—2018信息技術(shù)數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)3術(shù)語和定義下列術(shù)語和定義適用于本文件。3.1數(shù)據(jù)流程服務(wù)英文首字母縮寫DPS,DataProcessService,是圍繞數(shù)據(jù)處理流程形成的一系列服務(wù),它使用數(shù)字技術(shù),從實(shí)體世界或信息系統(tǒng)中采集、獲取數(shù)據(jù),并按后續(xù)應(yīng)用、流通要求處理、輸出數(shù)據(jù)。3.2數(shù)據(jù)采集和預(yù)處理指下述服務(wù)及產(chǎn)生的數(shù)據(jù)。采集事實(shí)、概念或指令等對象信息,形成原始數(shù)據(jù),并對其進(jìn)行處理,以保證數(shù)據(jù)質(zhì)量達(dá)到后續(xù)使用的規(guī)范性要求。3.3數(shù)據(jù)分析集成指下述服務(wù)及產(chǎn)生的數(shù)據(jù)。分析多源數(shù)據(jù),進(jìn)行集成融合,以滿足后續(xù)應(yīng)用和服務(wù)的規(guī)范性要求。3.4數(shù)據(jù)標(biāo)注指下述服務(wù)及產(chǎn)生的數(shù)據(jù)。通過標(biāo)記、注釋等工作,對數(shù)據(jù)進(jìn)行處理,提取對象的特征,以保證數(shù)據(jù)質(zhì)量達(dá)到后續(xù)數(shù)字應(yīng)用使用的規(guī)范性要求。3.5內(nèi)容審核2指下述服務(wù)及產(chǎn)生的數(shù)據(jù)。對互聯(lián)網(wǎng)用戶上傳、發(fā)布或共享的內(nèi)容(文字,圖片,音頻,視頻等數(shù)據(jù))進(jìn)行識(shí)別,通過標(biāo)記、注釋等工作,提取違反相關(guān)法規(guī)或應(yīng)用要求的內(nèi)容特征,為后續(xù)處理提供依據(jù)的服務(wù)。3.6數(shù)據(jù)流通分發(fā)指下述服務(wù)及產(chǎn)生的數(shù)據(jù)。按照數(shù)據(jù)流通需要,對數(shù)據(jù)進(jìn)行脫敏、隱私化、標(biāo)準(zhǔn)化處理并對外輸出開發(fā)。3.7數(shù)據(jù)流程服務(wù)工具平臺(tái)為DPS各項(xiàng)業(yè)務(wù)開發(fā)和提供用于服務(wù)操作、管理的工具軟件及業(yè)務(wù)平臺(tái)。3.8數(shù)據(jù)流程支持服務(wù)支持DPS企業(yè)、從業(yè)者和相關(guān)機(jī)構(gòu)提升能力、加強(qiáng)合作、便利交易的服務(wù),如業(yè)務(wù)培訓(xùn)、規(guī)范評(píng)價(jià)等。3.9結(jié)構(gòu)化數(shù)據(jù)/非結(jié)構(gòu)化數(shù)據(jù)按結(jié)構(gòu)化特征分類,數(shù)據(jù)可劃分為:結(jié)構(gòu)化數(shù)據(jù),如零售、財(cái)務(wù)、生物信息學(xué)、地理數(shù)據(jù)等;非結(jié)構(gòu)化數(shù)據(jù).如圖像、視頻、傳感器數(shù)據(jù)、網(wǎng)頁等;半結(jié)構(gòu)化數(shù)據(jù).如應(yīng)用系統(tǒng)日志、電子郵件等。(GB/T38667-2020,7.2.3按結(jié)構(gòu)化特征分類)3.10數(shù)據(jù)需求方/數(shù)據(jù)服務(wù)客戶指提出數(shù)據(jù)服務(wù)需求的機(jī)構(gòu),包括組織內(nèi)部的部門和外部的機(jī)構(gòu),在本標(biāo)準(zhǔn)中統(tǒng)稱為需求方。需求方一般包括行業(yè)用戶、人工智能企業(yè)和行業(yè)應(yīng)用開發(fā)企業(yè)和機(jī)構(gòu)。3.11數(shù)據(jù)服務(wù)方/數(shù)據(jù)服務(wù)供應(yīng)商指為需求方提供數(shù)據(jù)服務(wù)的機(jī)構(gòu),包括組織內(nèi)部的部門和外部的機(jī)構(gòu),在本標(biāo)準(zhǔn)中統(tǒng)稱為服務(wù)方。3.12變更數(shù)據(jù)捕獲(CDC)變更數(shù)據(jù)捕獲(CDC,ChangeDataCapture),它是數(shù)據(jù)庫領(lǐng)域的技術(shù),主要用于捕獲數(shù)據(jù)庫的一些變更,然后可以把變更數(shù)據(jù)發(fā)送到下游。3.13語音/文本/圖像/視頻/點(diǎn)云數(shù)據(jù)指以音頻、文本、圖像、視頻、點(diǎn)云形式存在的,含有一定內(nèi)容的原始的,或附有經(jīng)過標(biāo)注處理而產(chǎn)生的文字和標(biāo)簽的音頻、文本、圖像、視頻、點(diǎn)云,統(tǒng)稱為語音/文本/圖像/視頻/點(diǎn)云數(shù)據(jù)。點(diǎn)云是某個(gè)坐標(biāo)系下的點(diǎn)的數(shù)據(jù)集。每個(gè)點(diǎn)包含了三維坐標(biāo)、顏色、強(qiáng)度值等信息。點(diǎn)云在普通圖像的基礎(chǔ)上多了一個(gè)維度,直接提供了三維空間數(shù)據(jù)。3.14語音活動(dòng)檢測語音活動(dòng)檢測,又稱語音端點(diǎn)檢測,語音邊界檢測。目的是從聲音信號(hào)流里識(shí)別和消除長時(shí)間的靜音期,以達(dá)到在不降低業(yè)務(wù)質(zhì)量的情況下節(jié)省話路資源的作用,它是IP電話應(yīng)用的重要組成部分。靜音抑制可以節(jié)省寶貴的帶寬資源,可以有利于減少用戶感覺到的端到端的時(shí)延。33.15背景噪聲/底噪背景噪聲,或“本底噪聲”。一般指在發(fā)生、檢查、測量或記錄系統(tǒng)中與信號(hào)存在與否無關(guān)的一切干擾。但在工業(yè)噪聲或環(huán)境噪聲測量中則是指被測噪聲源以外的周圍環(huán)境噪聲。如對在工廠附近的街道測量噪聲來說,若要測量的是交通噪聲,則工廠噪聲便是背景噪聲。若測量的目的在于測定工廠噪聲,交通噪聲便成為背景噪聲。在噪聲測量過程中.必須注意背景噪聲的干擾程度。3.16混響/混響時(shí)間聲波在室內(nèi)傳播時(shí),要被墻壁、天花板、地板等障礙物反射,每反射一次都要被障礙物吸收一些。這樣,當(dāng)聲源停止發(fā)聲后,聲波在室內(nèi)要經(jīng)過多次反射和吸收,最后才消失,我們就感覺到聲源停止發(fā)聲后還有若干個(gè)聲波混合持續(xù)一段時(shí)間(室內(nèi)聲源停止發(fā)聲后仍然存在的聲延續(xù)現(xiàn)象)。這種現(xiàn)象叫做混響,這段時(shí)間叫做混響時(shí)間。3.17信噪比信噪比,又稱為訊噪比。是指一個(gè)電子設(shè)備或者電子系統(tǒng)中信號(hào)與噪聲的比例。這里面的信號(hào)指的是來自設(shè)備外部需要通過這臺(tái)設(shè)備進(jìn)行處理的電子信號(hào),噪聲是指經(jīng)過該設(shè)備后產(chǎn)生的原信號(hào)中并不存在的無規(guī)則的額外信號(hào)(或信息并且該種信號(hào)并不隨原信號(hào)的變化而變化。同樣是“原信號(hào)不存在”還有一種東西叫“失真”,失真和噪聲實(shí)際上有一定關(guān)系,二者的不同是失真是有規(guī)律的,而噪聲則是無規(guī)律的。3.18切音因錄音操作導(dǎo)致的收音設(shè)備獲取信號(hào)不完整,常表現(xiàn)為開始時(shí)或結(jié)尾處數(shù)據(jù)不完整。3.19截幅因信號(hào)波形的幅度太大,而超出系統(tǒng)的線性范圍的現(xiàn)象,稱為截幅。截幅,就是把信號(hào)的幅值限制在某一固定的最大值的過程。有時(shí),也稱為限幅。3.20采樣率采樣頻率,也稱為采樣速度或者采樣率,定義了每秒從連續(xù)信號(hào)中提取并組成離散信號(hào)的采樣個(gè)數(shù),它用赫茲(Hz)來表示。采樣頻率的倒數(shù)是采樣周期或者叫作采樣時(shí)間,它是采樣之間的時(shí)間間隔。通俗的講采樣頻率是指計(jì)算機(jī)每秒鐘采集多少個(gè)信號(hào)樣本。3.21比特率比特率是指每秒傳送的比特(bit)數(shù)。單位為bps(BitPerSecond),比特率越高,每秒傳送數(shù)據(jù)就越多,音質(zhì)就越清晰。聲音中的比特率是指將模擬聲音信號(hào)轉(zhuǎn)換成數(shù)字聲音信號(hào)后,單位時(shí)間內(nèi)的二進(jìn)制數(shù)據(jù)量,是間接衡量音頻質(zhì)量的一個(gè)指標(biāo)。3.22聲道聲道是指聲音在錄制或播放時(shí)在不同空間位置采集或回放的相互獨(dú)立的音頻信號(hào),所以聲道數(shù)也就是聲音錄制時(shí)的音源數(shù)量或回放時(shí)相應(yīng)的揚(yáng)聲器數(shù)量。聲卡所支持的聲道數(shù)是衡量聲卡檔次的重要指標(biāo)之一,從單聲道到最新的環(huán)繞立體聲。3.23丟幀4丟幀指由設(shè)備引起的一段時(shí)間的信號(hào)丟失,即說話內(nèi)容和底噪信息全部丟失。3.24前后預(yù)留指一段音頻實(shí)際說話段的前后非說話段。3.25噪聲符號(hào)噪聲符號(hào)指代用以表示非說話段的,含有特殊意義的符號(hào)。3.26時(shí)間邊界指對一段語音數(shù)據(jù)在原始音頻中的開始時(shí)間標(biāo)記和結(jié)束時(shí)間標(biāo)記。3.27轉(zhuǎn)寫指將音頻的內(nèi)容由聲音的形式轉(zhuǎn)化為文字標(biāo)記的過程或動(dòng)作。3.28說話人指音頻中發(fā)出聲音的自然人。A、客服類說話人客服類說話人指客服類對話中的說話人,常由客服人員和客戶人員組成,如中國移動(dòng)通信的通話音頻,有移動(dòng)客服和移動(dòng)客戶組成。B、訪談訪談?lì)愓f話人指訪談?lì)悓υ捴械恼f話人,常由主持人和嘉賓組成,如訪談節(jié)目《魯豫有約》中,有魯豫作為主持人,其他人作為嘉賓。C、對話對話類說話人指自然對話中的說話人。口音(或謂:腔調(diào))是一種對詞或特殊音節(jié)的模塊化強(qiáng)調(diào)程度的變化。這些變化都是由口腔肌肉和舌頭的動(dòng)作所產(chǎn)生??谝羰强梢酝高^自小培養(yǎng)及練習(xí)而得來的。因此從口音可以反映人的出生地方或社會(huì)背景。學(xué)習(xí)某一種口音會(huì)使某個(gè)社會(huì)階層產(chǎn)生認(rèn)同感。演員學(xué)習(xí)口音為了使角色更傳神。一個(gè)人的口音亦會(huì)隨著居住地點(diǎn)的轉(zhuǎn)移以及適應(yīng)時(shí)間而產(chǎn)生變化。3.30語音合成TTSTTS即texttospeech,是語音合成應(yīng)用的一種,它將儲(chǔ)存于電腦中的文件,如幫助文件或者網(wǎng)頁,轉(zhuǎn)換成自然語音輸出。TTS不僅能幫助有視覺障礙的人閱讀計(jì)算機(jī)上的信息,更能增加文本文檔的可讀性?,F(xiàn)在的TTS應(yīng)用包括語音驅(qū)動(dòng)的郵件以及聲音敏感系統(tǒng),并常與聲音識(shí)別程序一起使用。4總則數(shù)據(jù)流程服務(wù)存在多種數(shù)據(jù)類型和服務(wù)場景,不同數(shù)據(jù)類型和不同服務(wù)場景的技術(shù)規(guī)范指標(biāo)不完全相同,但對規(guī)范性的評(píng)價(jià)流程和指標(biāo)統(tǒng)一。數(shù)據(jù)流程服務(wù)技術(shù)規(guī)范體系采用自愿原則。55服務(wù)場景及其技術(shù)規(guī)范準(zhǔn)則由于不同業(yè)務(wù)場景對數(shù)據(jù)流程服務(wù)質(zhì)量評(píng)價(jià)有不同的標(biāo)準(zhǔn),因此本標(biāo)準(zhǔn)體系將數(shù)據(jù)流程服務(wù)技術(shù)規(guī)范分為通用技術(shù)規(guī)范和場景技術(shù)規(guī)范兩方面。前者聚焦與場景無關(guān)的數(shù)據(jù)類型通用技術(shù)的規(guī)范,后者聚焦于面向各業(yè)務(wù)場景的服務(wù)技術(shù)規(guī)范。本標(biāo)準(zhǔn)體系第1部分,即本文件聚焦通用技術(shù)規(guī)范,第4部分及之后聚焦場景技術(shù)規(guī)范。6結(jié)構(gòu)化數(shù)據(jù)流程服務(wù)技術(shù)規(guī)范結(jié)構(gòu)化數(shù)據(jù)流程服務(wù)技術(shù)規(guī)范包括服務(wù)流程規(guī)范、服務(wù)技術(shù)規(guī)范和服務(wù)成果規(guī)范三方面。6.1服務(wù)流程數(shù)據(jù)處理過程要有健全的流程管理機(jī)制,保障數(shù)據(jù)處理結(jié)果的準(zhǔn)確性、完整性、一致性、時(shí)效性、可訪問性和安全性,做到可溯源、可追蹤。結(jié)構(gòu)化數(shù)據(jù)處理推薦流程:需求分析數(shù)據(jù)采集預(yù)處理分析集成質(zhì)量稽核流通分發(fā)6.1.1需求分析根據(jù)需求方對數(shù)據(jù)處理的要求,明確采集數(shù)據(jù)源、采集范圍、采集方式和頻率,確定數(shù)據(jù)的合法合規(guī)和準(zhǔn)確性,形成數(shù)據(jù)供需清單;編制信息資源目錄,明確信息資源的分類、格式、數(shù)據(jù)項(xiàng)名稱、數(shù)據(jù)類型、共享屬性、開放屬性、更新周期等內(nèi)容,形成信息資源清單,并實(shí)現(xiàn)數(shù)據(jù)資源格式化和結(jié)構(gòu)化。6.1.2數(shù)據(jù)采集根據(jù)需求分析結(jié)論進(jìn)行數(shù)據(jù)采集。采集方式可采用程序內(nèi)布碼埋點(diǎn)、Api接口、網(wǎng)絡(luò)爬蟲、數(shù)據(jù)庫對接、文件交換、郵件訂閱等。6.1.3預(yù)處理針對采集到的原始數(shù)據(jù)中存在的二義性、重復(fù)、不完整、違反業(yè)務(wù)規(guī)則等問題進(jìn)行數(shù)據(jù)預(yù)處理。預(yù)處理任務(wù)可包括解析轉(zhuǎn)換、糾錯(cuò)、異常值處理、缺失值處理、過濾、去重、標(biāo)準(zhǔn)化(格式標(biāo)準(zhǔn)化、值域標(biāo)準(zhǔn)化等)、數(shù)據(jù)入庫等。6.1.4分析集成分析集成是分析散落在不同數(shù)據(jù)源的業(yè)務(wù)實(shí)體數(shù)據(jù),基于面向?qū)ο蟮臄?shù)據(jù)組織原則,將數(shù)據(jù)按業(yè)務(wù)實(shí)體進(jìn)行拉通并融合。高效的分析集成工作需要建立業(yè)務(wù)模型。模型設(shè)計(jì)包括概念模型設(shè)計(jì)、邏輯模型設(shè)計(jì)、物理模型設(shè)計(jì)三個(gè)階段。概念模型設(shè)計(jì),用于識(shí)別核心業(yè)務(wù)流程,抽象業(yè)務(wù)流程中的實(shí)體和關(guān)系,定義業(yè)務(wù)域,完成實(shí)體關(guān)系的領(lǐng)域劃分。邏輯模型設(shè)計(jì),用于概念模型實(shí)體化,添加屬性和屬性定義,實(shí)體關(guān)系的梳理,歸納,定義物理化方式,添加必要的說明和描述。物理模型,需基于實(shí)際物理平臺(tái),完成平臺(tái)的設(shè)置和優(yōu)化,添加必要的元數(shù)據(jù)字段用于管理,生成最終建表語句并優(yōu)化。6分析集成技術(shù)方法可包括數(shù)據(jù)挖掘、數(shù)據(jù)聚合、數(shù)據(jù)關(guān)聯(lián)分析、聚類分析、假設(shè)檢驗(yàn)等,屬于大數(shù)據(jù)中關(guān)系挖掘的重要手段。6.1.5質(zhì)量稽核根據(jù)服務(wù)成果標(biāo)準(zhǔn)及稽核規(guī)則,對數(shù)據(jù)質(zhì)量進(jìn)行監(jiān)控預(yù)警并產(chǎn)出質(zhì)量報(bào)告。服務(wù)方要對數(shù)據(jù)質(zhì)量負(fù)責(zé)。數(shù)據(jù)質(zhì)量從數(shù)據(jù)的規(guī)范性、完整性、準(zhǔn)確性、一致性、時(shí)效性和可訪問性(GB/T36344—2018,指標(biāo)說明)等多個(gè)層面實(shí)現(xiàn)對數(shù)據(jù)的全面稽核和預(yù)警,做到事前質(zhì)量檢查、事中運(yùn)行監(jiān)控、事后歸納總結(jié),結(jié)合系統(tǒng)提供的全方位評(píng)估并提高數(shù)據(jù)質(zhì)量,指導(dǎo)決策者的決定。服務(wù)方應(yīng)制定數(shù)據(jù)質(zhì)量管理目標(biāo),建立相應(yīng)的數(shù)據(jù)質(zhì)量管理體系及實(shí)施機(jī)制、優(yōu)化數(shù)據(jù)質(zhì)量并持續(xù)改進(jìn),滿足需求方數(shù)據(jù)應(yīng)用的需求。對數(shù)據(jù)質(zhì)量進(jìn)行全程監(jiān)控,做到數(shù)據(jù)質(zhì)量全程追溯,可直接定位到問題數(shù)據(jù)所在的數(shù)據(jù)庫>數(shù)據(jù)表>數(shù)據(jù)字段>數(shù)據(jù)值。且在監(jiān)控到異常數(shù)據(jù)時(shí)應(yīng)及時(shí)通過郵件、短信等方式通知到相關(guān)數(shù)據(jù)管理者。支持自動(dòng)生成數(shù)據(jù)質(zhì)量報(bào)告,以文字或圖形化的方式展示數(shù)據(jù)質(zhì)量及規(guī)范落地執(zhí)行情況。支持?jǐn)?shù)據(jù)質(zhì)量規(guī)則的可視化配置,且實(shí)時(shí)展示數(shù)據(jù)質(zhì)量規(guī)則的運(yùn)行狀態(tài)、運(yùn)行結(jié)果??杀A魯?shù)據(jù)質(zhì)量規(guī)則的校驗(yàn)歷史,數(shù)據(jù)質(zhì)量的變化規(guī)律,找出數(shù)據(jù)問題。6.1.6流通分發(fā)流通分發(fā)是根據(jù)需求方要求,將數(shù)據(jù)傳輸導(dǎo)入到目標(biāo)系統(tǒng)中,實(shí)現(xiàn)數(shù)據(jù)在不同應(yīng)用系統(tǒng)之間的共享或轉(zhuǎn)移。流通分發(fā)方式可包括數(shù)據(jù)資源目錄、郵件訂閱、API接口、文件下載、離線文件交換。6.2服務(wù)技術(shù)完成流程中各環(huán)節(jié)服務(wù)任務(wù)所采用的技術(shù)及其規(guī)范。服務(wù)技術(shù)評(píng)價(jià)指標(biāo)一般情況下要根據(jù)業(yè)務(wù)場景確定標(biāo)準(zhǔn)值,同時(shí)不同水平的指標(biāo)值也代表著不同水平的服務(wù)成本,推薦的評(píng)價(jià)指標(biāo)值可參見本標(biāo)準(zhǔn)體系具體場景部分,如“第4部分:數(shù)據(jù)流程服務(wù)智慧園區(qū)場景技術(shù)規(guī)范”等。6.2.1數(shù)據(jù)采集技術(shù)對數(shù)據(jù)采集進(jìn)行安全管控,嚴(yán)格控制人員權(quán)限,采集數(shù)據(jù)和采集過程要有日志記錄,保障數(shù)據(jù)采集可以追溯。保障采集傳輸安全和一致性,采用身份認(rèn)證、數(shù)字簽名、加密算法、SSL/TSL傳輸協(xié)議等方式保障數(shù)據(jù)采集的安全性和完整性。具體采集技術(shù)序號(hào)技術(shù)名稱功能描述評(píng)價(jià)指標(biāo)或原則1數(shù)據(jù)庫直連基于現(xiàn)有數(shù)據(jù)庫,通過指定路徑快速安全訪問并獲取數(shù)據(jù)。通過JDBC方式直連業(yè)務(wù)系統(tǒng),根據(jù)約定周期抽取數(shù)據(jù)增量數(shù)據(jù)的更新頻率、訪問和獲取數(shù)據(jù)的便利性2CDC通過解析日志變化情況,獲取數(shù)據(jù)變更數(shù)據(jù)延遲、數(shù)據(jù)庫負(fù)載影響、數(shù)據(jù)變更狀態(tài)完整性3SDK前端業(yè)務(wù)軟件集成SDK;通過SDK直連抓取數(shù)據(jù)數(shù)據(jù)延遲、采集數(shù)據(jù)完整性、更新難度74API接口業(yè)務(wù)系統(tǒng)通過調(diào)用應(yīng)用程序的接口實(shí)時(shí)采集數(shù)據(jù),基于不同數(shù)據(jù)接口按需調(diào)取,快速對接自己的數(shù)據(jù)庫接口可用率。接口可用率=(服務(wù)可用時(shí)間/服務(wù)總時(shí)間)×100%;接口查詢延遲時(shí)間5物聯(lián)網(wǎng)設(shè)備直傳根據(jù)物聯(lián)網(wǎng)設(shè)備通信傳輸協(xié)議直接接入按需調(diào)取,快速對接自己的數(shù)據(jù)庫物聯(lián)網(wǎng)協(xié)議覆蓋度、并發(fā)數(shù)、接口延遲時(shí)間6網(wǎng)絡(luò)爬蟲主動(dòng)抓取互聯(lián)網(wǎng)上所需數(shù)據(jù),實(shí)現(xiàn)全網(wǎng)內(nèi)容批量更新和重點(diǎn)信息實(shí)時(shí)更新。有效性(對抗驗(yàn)證碼、防火墻策略)、數(shù)據(jù)時(shí)效性6.2.2預(yù)處理技術(shù)序號(hào)技術(shù)名稱功能描述評(píng)價(jià)指標(biāo)或原則1解析轉(zhuǎn)換信息實(shí)時(shí)解析,將非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成為結(jié)構(gòu)化數(shù)據(jù)。服務(wù)成本變化率、數(shù)據(jù)時(shí)效性、數(shù)據(jù)維度可擴(kuò)展性2糾錯(cuò)利用統(tǒng)計(jì)分析或人工智能的方法檢測屬性可能的錯(cuò)誤值或異常值,并加以修正。按照屬性值的平均值或中值來替換屬性值;簡單規(guī)則庫(常識(shí)性規(guī)則和業(yè)務(wù)特定規(guī)則等)檢測和修正錯(cuò)誤;使用不同屬性間的約束檢測和修正錯(cuò)誤;使用外部數(shù)據(jù)源檢測和修正錯(cuò)誤。規(guī)則庫完整性、自動(dòng)化程度3異常值處理異常值數(shù)據(jù)指無意義的數(shù)據(jù)、壞數(shù)據(jù),包含所有難以被機(jī)器正確理解和翻譯的數(shù)據(jù),如非結(jié)構(gòu)化文本。刪除含有異常值的記錄;將異常值視為缺失值,按照缺失值進(jìn)行處理;可用前后兩個(gè)值的平均值修正;不直接在具有異常值的數(shù)據(jù)集上進(jìn)行數(shù)據(jù)挖掘。規(guī)則庫完整性、自動(dòng)化程度4缺失值處理指值實(shí)際存在,但沒有存入值所屬字段??梢詮谋緮?shù)據(jù)源或其他數(shù)據(jù)源推導(dǎo)出來;可用平均值、中間值、最大值、最小值或更為復(fù)雜的概率統(tǒng)計(jì)函數(shù)值代替缺失的值,但準(zhǔn)確性比較低;人工輸入一個(gè)可接受的值。規(guī)則庫完整性、自動(dòng)化程度5空值處理完整性檢查,檢查表中某一列字段數(shù)據(jù)是否含有空值。規(guī)則庫完整性、自動(dòng)化程度6去重檢查數(shù)據(jù)是否唯一,識(shí)別表中的重復(fù)數(shù)據(jù)。規(guī)則庫完整性、自動(dòng)化程度7格式標(biāo)準(zhǔn)化基于數(shù)據(jù)元標(biāo)準(zhǔn)檢查表中某字段數(shù)據(jù)的數(shù)據(jù)格式是否正確。根據(jù)業(yè)務(wù)內(nèi)涵訂立標(biāo)準(zhǔn)。例如:郵箱格式、8身份證格式等8值域標(biāo)準(zhǔn)化檢查表中某字段數(shù)據(jù)取值是否在指定范圍或指定維度值內(nèi)。根據(jù)業(yè)務(wù)內(nèi)涵訂立標(biāo)準(zhǔn)。參照相關(guān)領(lǐng)域國標(biāo)或行標(biāo)。例如:年齡字段數(shù)據(jù)取值范圍是否在0-150內(nèi)9記錄數(shù)檢查一張表記錄條數(shù)是否在指定閾值范圍內(nèi)或與歷史數(shù)據(jù)比較波動(dòng)值是否在一定范圍內(nèi)。根據(jù)業(yè)務(wù)內(nèi)涵訂立標(biāo)準(zhǔn)。例如:檢查“用戶訪問明細(xì)表”今日新增記錄數(shù)與昨日相比上下波動(dòng)范圍是否在-10%~10%內(nèi)。邏輯性對表內(nèi)或兩張表間的某一列數(shù)據(jù)或某幾列數(shù)據(jù)的表達(dá)式與其他某一列或某幾列數(shù)據(jù)的表達(dá)式比較,檢查數(shù)據(jù)邏輯是否正確。例如:對“可視電話用根據(jù)業(yè)務(wù)內(nèi)涵訂立標(biāo)準(zhǔn)。戶情況統(tǒng)計(jì)表”邏輯檢驗(yàn):未超出套餐使用量的活躍用戶數(shù)+超出套餐使用量的活躍用戶數(shù)=活躍用戶數(shù)。及時(shí)性檢查單表數(shù)據(jù)更新時(shí)間是否在指定時(shí)間范圍內(nèi)。根據(jù)需求訂立標(biāo)準(zhǔn)拉鏈表檢查檢查拉鏈表的數(shù)據(jù)是否有斷鏈、交叉鏈、重復(fù)鏈。根據(jù)業(yè)務(wù)內(nèi)涵訂立斷鏈率、交叉率、重復(fù)率標(biāo)校驗(yàn)數(shù)據(jù)是否符合用戶自定義SQL腳本內(nèi)根據(jù)需求訂立標(biāo)準(zhǔn)6.2.3分析集成技術(shù)序號(hào)技術(shù)名稱功能描述評(píng)價(jià)指標(biāo)或原則1關(guān)聯(lián)數(shù)據(jù)存儲(chǔ)將實(shí)體、關(guān)系按照時(shí)間組成時(shí)空網(wǎng)絡(luò),實(shí)從微觀角度看清來龍去脈;從宏觀角度看到同類事物的共同發(fā)展通性,對未來進(jìn)行預(yù)測,是圖存儲(chǔ)和圖分析技術(shù)的統(tǒng)一體。存儲(chǔ)有效性和基于圖的關(guān)聯(lián)查詢時(shí)長。2關(guān)聯(lián)數(shù)據(jù)快速分析關(guān)聯(lián)分析算法基于多種存儲(chǔ)方案,包括以O(shè)racle、MySQL為代表的傳統(tǒng)型關(guān)系數(shù)據(jù)庫,以Hadoop、HBase為代表的鍵值對的存儲(chǔ)方案。數(shù)據(jù)分析結(jié)果返回時(shí)長3關(guān)聯(lián)數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)同步更新該系統(tǒng)解決方案既包含宏觀大數(shù)據(jù)、更突出微觀大數(shù)據(jù)的統(tǒng)一體。處理完備性(增、刪、關(guān)系數(shù)據(jù)庫實(shí)時(shí)性、同9步率4聚類分析聚類分析用于洞察數(shù)據(jù)的分布,獲取數(shù)據(jù)的特征和進(jìn)行異常檢測分類主題合理性、分析耗時(shí)5假設(shè)檢驗(yàn)利用抽取的樣本信息去判斷總體假設(shè)是否合理,即判斷總體的真實(shí)情況與假設(shè)是否存在顯著的系統(tǒng)性差異差異檢測準(zhǔn)確度、分析耗時(shí)6.2.4質(zhì)量稽核技術(shù)序號(hào)技術(shù)名稱功能描述評(píng)價(jià)指標(biāo)或原則1數(shù)據(jù)稽核可通過全表掃描或者數(shù)據(jù)抽樣方式對數(shù)據(jù)進(jìn)行檢查,數(shù)據(jù)抽樣分情況使用分層抽樣和隨機(jī)抽樣方式對數(shù)據(jù)進(jìn)行抽查數(shù)據(jù)抽樣應(yīng)具備代表性2稽核規(guī)則應(yīng)支持值閾檢查、規(guī)范檢查、邏輯檢查、及時(shí)性檢查、完整性檢查、波動(dòng)性檢查和自定義SQL檢查。規(guī)則支持度。如果SQL結(jié)果或以上檢查不在值閾范圍,則觸發(fā)報(bào)警。3質(zhì)量稽核報(bào)告應(yīng)體現(xiàn)數(shù)據(jù)完整性、規(guī)范性、一致性、準(zhǔn)確性、關(guān)聯(lián)性,能通過報(bào)告及時(shí)并快速定位問題。報(bào)告完整性。數(shù)據(jù)來源、指標(biāo)定義、數(shù)據(jù)處理、報(bào)告結(jié)論4數(shù)據(jù)波動(dòng)性檢查表中某字段數(shù)據(jù)值對比之前業(yè)務(wù)周期數(shù)據(jù)值的浮動(dòng)是否在一定范圍內(nèi)。根據(jù)業(yè)務(wù)內(nèi)涵訂立標(biāo)準(zhǔn)。例如:校驗(yàn)“商品收益表”中某商品今日收益總額與昨日相比上下波動(dòng)范圍是否在-5%~5%內(nèi)。6.2.5流通分發(fā)技術(shù)流通分發(fā)方式分為服務(wù)方主動(dòng)推送和需求方主動(dòng)拉取,需求方可通過數(shù)據(jù)訂閱設(shè)置推送方式和時(shí)間來完成數(shù)據(jù)獲取,也可通過申請秘鑰通過Api接口或文件方式主動(dòng)拉取完成數(shù)據(jù)獲取。需求方依靠數(shù)據(jù)資源目錄和元數(shù)據(jù)來管理、解讀獲取的數(shù)據(jù)。序號(hào)技術(shù)名稱功能描述評(píng)價(jià)指標(biāo)或原則1數(shù)據(jù)資源目錄提供統(tǒng)一的數(shù)據(jù)資源視圖,為數(shù)據(jù)生產(chǎn)者、管理者、使用者提供快速查詢?nèi)肟凇YY源編目可按四個(gè)角度對數(shù)據(jù)服務(wù)進(jìn)行分類,包括:組織機(jī)構(gòu)、業(yè)務(wù)主題、管理專題三個(gè)維度。包括數(shù)據(jù)目錄及服務(wù)目錄,第三方服務(wù)可以直接掛載,然后通過服務(wù)目錄對外提供服務(wù)。數(shù)據(jù)目錄支持API接口、文件、數(shù)據(jù)庫交換等方式。支持?jǐn)?shù)據(jù)需求者通過數(shù)據(jù)資源目錄進(jìn)行數(shù)據(jù)訪問申請,數(shù)據(jù)管理者進(jìn)行訪問授權(quán),分類合理性、存儲(chǔ)效率、檢索時(shí)長通過的用戶可以通過接口、數(shù)據(jù)庫、文件等多種方式進(jìn)行數(shù)據(jù)使用。2元數(shù)據(jù)管理元數(shù)據(jù)是對數(shù)據(jù)的描述,通過描述數(shù)據(jù)的模型、產(chǎn)生、使用、業(yè)務(wù)含義、數(shù)據(jù)所有者等信息,幫助數(shù)據(jù)使用方了解和使用數(shù)據(jù)。元數(shù)據(jù)分為業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和管理元數(shù)據(jù)。業(yè)務(wù)元數(shù)據(jù)描述數(shù)據(jù)的來源、數(shù)據(jù)字典、業(yè)務(wù)含義、統(tǒng)計(jì)數(shù)據(jù);技術(shù)元數(shù)據(jù)描述數(shù)據(jù)的存儲(chǔ)情況、血緣關(guān)系、質(zhì)量稽核報(bào)告;管理元數(shù)據(jù)描述數(shù)據(jù)的所有者、權(quán)限使用范圍、分類分級(jí)、數(shù)據(jù)冷熱情況。數(shù)據(jù)找得到、數(shù)據(jù)讀得懂,數(shù)據(jù)語言統(tǒng)一。采集和管理范圍、應(yīng)用情況和范圍、標(biāo)準(zhǔn)化程度、自動(dòng)化程度3Api接口基于云端百種數(shù)據(jù)接口,企業(yè)可按需調(diào)取,快速搭建自己的數(shù)據(jù)庫,滿足企業(yè)實(shí)現(xiàn)低成本、高效調(diào)用數(shù)據(jù)的需求。按需最小化原則,保障數(shù)據(jù)傳輸?shù)陌踩?,保障?shù)據(jù)服務(wù)合法、可控、可追溯和權(quán)責(zé)一致。服務(wù)穩(wěn)定性、服務(wù)性能、數(shù)據(jù)傳輸?shù)陌踩?在線文件下載通過在線按需查找相關(guān)數(shù)據(jù),將查詢結(jié)果傳送到本地計(jì)算機(jī)磁盤上并保存起來。5離線文件交換將本地存儲(chǔ)的文件上傳到目標(biāo)數(shù)據(jù)平臺(tái),按照指定的方式獲取所需要的結(jié)果。通過FTP、SFTP等文件傳輸協(xié)議進(jìn)行離線文件傳輸,完成數(shù)據(jù)交換6郵件訂閱通過對多維度數(shù)據(jù)動(dòng)態(tài)抓取和監(jiān)控預(yù)警,以郵件形式把數(shù)據(jù)的動(dòng)態(tài)變化發(fā)送到用戶郵箱中,系統(tǒng)性地解決對企業(yè)的全面盡調(diào)和監(jiān)控中的痛點(diǎn)。在線進(jìn)行數(shù)據(jù)訂閱,并通過郵件發(fā)送和接收7數(shù)據(jù)聯(lián)邦通過訪問一個(gè)全局虛擬數(shù)據(jù)庫,通過全局虛擬數(shù)據(jù)庫管理系統(tǒng)將分布在不同物理數(shù)據(jù)庫中的數(shù)據(jù)抽象成一個(gè)統(tǒng)一的數(shù)據(jù)視圖,為不同的應(yīng)用系統(tǒng)提供全局信息服務(wù),實(shí)現(xiàn)不同應(yīng)用系統(tǒng)和數(shù)據(jù)源之間的信息共享和數(shù)據(jù)交換。數(shù)據(jù)聯(lián)邦實(shí)施應(yīng)考慮數(shù)據(jù)安全、數(shù)據(jù)延時(shí)、數(shù)據(jù)的有效性、數(shù)據(jù)的一致性和質(zhì)量,以及數(shù)據(jù)的可用性、數(shù)據(jù)模型改變的影響、性能、數(shù)據(jù)訪問量等一系列問題。模型的效果(評(píng)價(jià)指標(biāo)KS/AUC1等)、聯(lián)邦學(xué)習(xí)息安全技術(shù)數(shù)據(jù)安全能力成熟度模型》)注1:AUC值:AUC(AreaUnderCurve),衡量模型對于正負(fù)樣本的整體區(qū)分能力。KS值:KS(Kolmogorov-Smirnov),衡量模型對于正負(fù)樣本的最佳區(qū)分情況,區(qū)分度越大說明模型的風(fēng)險(xiǎn)排序能力越強(qiáng),與AUC結(jié)合使用判斷。6.2.6數(shù)據(jù)安全技術(shù)數(shù)據(jù)安全:數(shù)據(jù)安全應(yīng)構(gòu)建數(shù)據(jù)的分級(jí)分類機(jī)制,建立數(shù)據(jù)應(yīng)用、管理、備份和恢復(fù)的安全保護(hù)管理機(jī)制和策略,對數(shù)據(jù)完整性、保密性、隱私性、可信性等進(jìn)行保護(hù)。數(shù)據(jù)安全涉及階段包括:采集、預(yù)處理、分析集成和流通分發(fā)4個(gè)階段序號(hào)技術(shù)名稱功能描述評(píng)價(jià)指標(biāo)或原則1數(shù)據(jù)分類分級(jí)重要數(shù)據(jù)、核心數(shù)據(jù)和個(gè)人信息、其他分級(jí)數(shù)據(jù)中敏感數(shù)據(jù)要進(jìn)行數(shù)據(jù)加密脫敏,避免在存儲(chǔ)還傳輸過程泄露或出現(xiàn)數(shù)據(jù)越權(quán)導(dǎo)致的數(shù)據(jù)安全問題。參考《網(wǎng)絡(luò)安全標(biāo)準(zhǔn)實(shí)踐指南——網(wǎng)絡(luò)數(shù)據(jù)分類分級(jí)指引》2安全審計(jì)建立安全審計(jì)規(guī)章制度和管理機(jī)制;建設(shè)安全審計(jì)組織團(tuán)隊(duì);結(jié)合大數(shù)據(jù)和人工智能技術(shù)建設(shè)安全審計(jì)平臺(tái);定期開展安全審計(jì)工作,防范于未然。審計(jì)完整性1、管理和預(yù)防能力、技術(shù)先進(jìn)性3身份認(rèn)證鑒別通信中另一端的真實(shí)身份,防止偽造和假冒等情況發(fā)生,包括數(shù)字簽名、數(shù)字證書、匿名認(rèn)證完整性、真實(shí)性、不可否認(rèn)性4訪問控制數(shù)據(jù)庫庫表級(jí)、行列權(quán)限、接口IP白名單、TPS限制控制粒度5數(shù)據(jù)加密、脫敏對數(shù)據(jù)加密脫敏,防止數(shù)據(jù)主觀、不經(jīng)意或被動(dòng)泄露運(yùn)算速度、安全性、資源消耗6數(shù)據(jù)區(qū)塊鏈對數(shù)據(jù)資產(chǎn)進(jìn)行確權(quán),授權(quán)和鑒權(quán),并且調(diào)動(dòng)數(shù)據(jù)計(jì)算引擎,實(shí)現(xiàn)數(shù)據(jù)用途和用量的可控。滿足央行、工信部等主管部門的相關(guān)測評(píng)要求注1:審計(jì)內(nèi)容應(yīng)包括:1、審計(jì)范圍應(yīng)覆蓋到服務(wù)器和重要客戶端上的每個(gè)操作系統(tǒng)用戶和數(shù)據(jù)庫用戶;2、審計(jì)內(nèi)容應(yīng)包括重要用戶行為、系統(tǒng)資源的異常使用和重要系統(tǒng)命令的使用等系統(tǒng)內(nèi)重要的安全相關(guān)事件;3、審計(jì)記錄應(yīng)包括事件的日期、時(shí)間、類型、主體標(biāo)識(shí)、客體標(biāo)識(shí)和結(jié)果等;4、應(yīng)保護(hù)審計(jì)記錄,避免受到未預(yù)期的刪除、修改或覆蓋等;5、應(yīng)能夠根據(jù)記錄數(shù)據(jù)進(jìn)行分析,并生成審計(jì)報(bào)表;6、應(yīng)保護(hù)審計(jì)進(jìn)程,避免受到未預(yù)期的中斷。6.3服務(wù)成果數(shù)據(jù)流程服務(wù)成果即為加工處理后的數(shù)據(jù),其標(biāo)準(zhǔn)保障數(shù)據(jù)內(nèi)外部使用一致性和準(zhǔn)確性,解決數(shù)據(jù)指標(biāo)中同名不同徑,同徑不同名,口徑不清晰,命名難理解,計(jì)算不易懂等問題,提升數(shù)據(jù)治理、加快數(shù)據(jù)流通、避免數(shù)據(jù)歧義。數(shù)據(jù)標(biāo)準(zhǔn)分為業(yè)務(wù)數(shù)據(jù)標(biāo)準(zhǔn)和技術(shù)數(shù)據(jù)標(biāo)準(zhǔn)。業(yè)務(wù)數(shù)據(jù)標(biāo)準(zhǔn)分為主數(shù)據(jù)標(biāo)準(zhǔn)、元數(shù)據(jù)標(biāo)準(zhǔn)、指標(biāo)標(biāo)準(zhǔn);技術(shù)數(shù)據(jù)標(biāo)準(zhǔn)描述了數(shù)據(jù)模型定義規(guī)范,數(shù)據(jù)模型應(yīng)有統(tǒng)一的命名規(guī)范、數(shù)據(jù)類型,以便于數(shù)據(jù)理解和流通。主數(shù)據(jù)標(biāo)準(zhǔn)參照各業(yè)務(wù)場景相關(guān)領(lǐng)域標(biāo)準(zhǔn),如《世界各國和地區(qū)名稱代碼》、《表示貨幣和資金的代碼》、《術(shù)語工作》系列標(biāo)準(zhǔn)。元數(shù)據(jù)標(biāo)準(zhǔn),影響數(shù)據(jù)流通,相關(guān)數(shù)據(jù)標(biāo)準(zhǔn)參照《數(shù)據(jù)元和交換格式信息交換日期和時(shí)間表示法》、《信息技術(shù)元數(shù)據(jù)注冊系統(tǒng)(MDR)》系列標(biāo)準(zhǔn)等。技術(shù)數(shù)據(jù)標(biāo)準(zhǔn)參照各行業(yè)相關(guān)標(biāo)準(zhǔn),如《基于云計(jì)算的電子政務(wù)公共平臺(tái)管理規(guī)范第1部分:服務(wù)質(zhì)量評(píng)估》、《信息技術(shù)生物特征樣本質(zhì)量》系列標(biāo)準(zhǔn)等。7非結(jié)構(gòu)化數(shù)據(jù)流程服務(wù)技術(shù)規(guī)范針對多種非結(jié)構(gòu)化數(shù)據(jù)類型,分別提出便于指導(dǎo)服務(wù)采購和操作實(shí)踐的流程、工具、質(zhì)量和格式規(guī)范。7.1語音數(shù)據(jù)服務(wù)技術(shù)規(guī)范語音數(shù)據(jù)存在于多種場景中,數(shù)據(jù)處理后也用于多種應(yīng)用里,技術(shù)規(guī)范將廣泛覆蓋多樣的情況。7.1.1語音數(shù)據(jù)采集和預(yù)處理技術(shù)規(guī)范指標(biāo)及測量針對語音數(shù)據(jù)采集和預(yù)處理服務(wù)的流程、質(zhì)量和成果應(yīng)該滿足的技術(shù)指標(biāo),以及測量這些指標(biāo)的方式、方法等。采集設(shè)定流程數(shù)據(jù)采集是指按照指定需求場景要求,使用指定設(shè)備,收集并交付原始數(shù)據(jù)。采集流程首要需要明確采集對象、設(shè)備要求,通過試采環(huán)節(jié)確定交付數(shù)據(jù)標(biāo)準(zhǔn),并在指定時(shí)間內(nèi)完成數(shù)據(jù)交付。流程設(shè)計(jì)如下:需求確定需求確定階段試采階段質(zhì)檢階段交付階段正采階段A.需求確定階段本階段的目標(biāo)是解讀并充分理解需求,明確合格標(biāo)準(zhǔn),確定需求內(nèi)容無歧義。本階段的主要任務(wù)包括確定采集對象,采集工具及參數(shù)。采集對象確定內(nèi)容包括但不限于:采集目標(biāo)類型,采集目標(biāo)數(shù)量,采集目標(biāo)分布,采集目標(biāo)環(huán)境、采集目標(biāo)形態(tài)等要求;采集工具及參數(shù)確定內(nèi)容包括但不限于:采集工具類型,采集工具分布,采集工具搭設(shè),采集工具調(diào)參,采集工具配合,采集工藝等。B.試采階段本階段的目標(biāo)是為正式采集進(jìn)行前期準(zhǔn)備,通過試采部分?jǐn)?shù)據(jù),驗(yàn)證服務(wù)成果是否符合需求確定內(nèi)容。本階段的主要任務(wù)包括試采集,試采集質(zhì)量檢驗(yàn)和判定標(biāo)準(zhǔn)確定,輸出數(shù)據(jù)采集方案。試采集:按照采集文檔要求產(chǎn)出第一批數(shù)據(jù),通過內(nèi)外規(guī)則及軟硬件磨合,反哺采集工藝及采集流程,保障采集工藝可復(fù)現(xiàn),采集流程可實(shí)施。試采集質(zhì)量檢驗(yàn)和判定標(biāo)準(zhǔn)確定:與需求方、項(xiàng)目管理者、項(xiàng)目執(zhí)行團(tuán)隊(duì)確定質(zhì)量驗(yàn)收標(biāo)準(zhǔn),并對試采集數(shù)據(jù)進(jìn)行檢驗(yàn)。質(zhì)量驗(yàn)收標(biāo)準(zhǔn)參見。輸出數(shù)據(jù)采集整體方案:數(shù)據(jù)采集方案,采集質(zhì)量控制方案,采集風(fēng)險(xiǎn)預(yù)案,項(xiàng)目執(zhí)行日志,數(shù)據(jù)存儲(chǔ)方案等C.正式采集階段本階段的目標(biāo)是完成規(guī)定任務(wù)量的采集服務(wù)。本階段的主要任務(wù)是按照數(shù)據(jù)采集整體方案,保障采集工期,采集計(jì)劃順利執(zhí)行,達(dá)到采集質(zhì)量和交付要求。D.質(zhì)檢階段本階段的目標(biāo)是保障正式采集的數(shù)據(jù)符合質(zhì)量驗(yàn)收標(biāo)準(zhǔn)。本階段的主要任務(wù)是對采集好的數(shù)據(jù)進(jìn)行清洗和質(zhì)檢,審核方式可以采用同步審核和完成抽檢,并且根據(jù)檢驗(yàn)情況可與正采階段形成多輪循環(huán)流程。同步審核:對采集數(shù)據(jù)實(shí)時(shí)質(zhì)量監(jiān)控,保障采集質(zhì)量控制方案落地,采集過程及時(shí)糾偏,輸出階段性采集數(shù)據(jù)指標(biāo);完成抽檢:對質(zhì)檢數(shù)據(jù)進(jìn)行比例抽檢,驗(yàn)證同步審核結(jié)果準(zhǔn)確且置信,數(shù)據(jù)成果符合質(zhì)量驗(yàn)收標(biāo)準(zhǔn)。E.交付階段本階段的目標(biāo)是完成項(xiàng)目,贏得需求方滿意。本階段的主要任務(wù)是將符合質(zhì)量驗(yàn)收標(biāo)準(zhǔn)的合格數(shù)據(jù)交付,包括數(shù)據(jù)驗(yàn)收、數(shù)據(jù)結(jié)算和需求交付。數(shù)據(jù)驗(yàn)收:需求方對提交的全量數(shù)據(jù)進(jìn)行比例抽檢,確認(rèn)數(shù)據(jù)可用且符合制定的質(zhì)量驗(yàn)收標(biāo)準(zhǔn)要求,滿足則觸發(fā)數(shù)據(jù)合格結(jié)算,不滿足預(yù)期則進(jìn)行糾偏返修。數(shù)據(jù)結(jié)算:對交付的符合驗(yàn)收指標(biāo)的有效數(shù)據(jù)進(jìn)行結(jié)算信息確認(rèn),包括但不限于報(bào)價(jià)信息、關(guān)鍵指標(biāo)、數(shù)據(jù)量級(jí)、結(jié)算賬期等。需求交付:實(shí)現(xiàn)流程閉環(huán),輸出采集交付報(bào)告,原始數(shù)據(jù)及授權(quán)文件回傳,設(shè)備返還,調(diào)研服務(wù)滿意度等。采集工具要求語音采集工具通常包括采集設(shè)備和軟件平臺(tái)。采集設(shè)備有麥克風(fēng)、麥克風(fēng)陣列、手機(jī)、錄音筆、專業(yè)錄音棚及工業(yè)級(jí)錄音設(shè)備。手機(jī)、錄音筆等,用于常規(guī)語音數(shù)據(jù)的采集;專業(yè)錄音設(shè)備用于高標(biāo)準(zhǔn)數(shù)據(jù)的采集。采集設(shè)備功能要求符合相關(guān)設(shè)備質(zhì)量標(biāo)準(zhǔn)。采集軟件平臺(tái)功能要求一般包括:.采集文本可以展示在獨(dú)特的UI界面上,方便用戶注意信息文本,保證語音采集要求;.結(jié)合云服務(wù)開發(fā),可降低數(shù)據(jù)傳輸風(fēng)險(xiǎn);.過程需有管理邏輯,用戶管理、文本管理和聲音文件管理齊全,方便管理員進(jìn)行審核提.音頻數(shù)據(jù)展示,方便了解語音詳細(xì)數(shù)據(jù),指導(dǎo)正確語音采集。采集質(zhì)量標(biāo)準(zhǔn)采集質(zhì)量涉及采集服務(wù)成果質(zhì)量和流程質(zhì)量兩方面。A.流程質(zhì)量要素及測量方式:指標(biāo)名稱指標(biāo)定義及要求計(jì)算邏輯一次交付達(dá)成率項(xiàng)目數(shù)據(jù)一次交付時(shí)準(zhǔn)確率的達(dá)成情況,用于衡量項(xiàng)目的質(zhì)量保證能力。一次交付達(dá)成率=(一次交付準(zhǔn)確率/目標(biāo)準(zhǔn)確率)×100%單次交付合格率項(xiàng)目數(shù)據(jù)每次(按項(xiàng)目與業(yè)務(wù)約定的交付周期:日、周、月、數(shù)據(jù)包)交付時(shí)準(zhǔn)確率的達(dá)成情況,用于評(píng)估交付能力。單次交付合格率=1-(項(xiàng)目單次交付不合格數(shù)量/項(xiàng)目單次交付數(shù)量)×100%終審交付達(dá)成率項(xiàng)目數(shù)據(jù)終審?fù)ㄟ^的數(shù)量,用于衡量項(xiàng)目的交付質(zhì)量情況。終審交付達(dá)成率=(終審交付的合格數(shù)據(jù)量/目標(biāo)交付合格的數(shù)據(jù)量)×100%交付周期延時(shí)率量級(jí)要求項(xiàng)目:實(shí)際交付周期與目標(biāo)交付周期的時(shí)間差。用于評(píng)估交付能力交付延時(shí)率=實(shí)際交付周期-約定交付周期)/約定交付周期)×100%B.成果質(zhì)量及測量方式:語音采集項(xiàng)目類型一般有喚醒詞采集、命令詞采集、普通文本朗讀采集、自然對話文本采集、會(huì)議數(shù)據(jù)采集、其他噪聲采集等。每一個(gè)子類項(xiàng)目各自質(zhì)量檢驗(yàn)側(cè)重點(diǎn)不同,如無特殊要求,可參照正確性檢驗(yàn)規(guī)范來要求。正確性檢驗(yàn)規(guī)范應(yīng)包含數(shù)據(jù)的采樣率、比特率、聲道、前后預(yù)留、切音、截幅、丟幀、底噪、混響、響度、信噪比、口音要求等相關(guān)的指標(biāo)量化要求。采集數(shù)據(jù)格式采集格式:一般為wav,mp3,v3,m4a,pcm等格式音頻文件。預(yù)處理格式:json、xml、txt等格式。采集數(shù)據(jù)的包裝格式推薦按照以下格式:-xx語音數(shù)據(jù)庫--wav---speakerid---00001.wav--userinfo.txt音頻文件存儲(chǔ)格式為,總文件夾名稱wav,子文件夾名稱為說話人編號(hào),同一個(gè)說話人的語音在一個(gè)子文件夾中。Userinfo為錄音人的說話人信息,考慮到個(gè)人隱私和數(shù)據(jù)合規(guī)性,采集數(shù)據(jù)需要獲取采集人的授權(quán)協(xié)議,同時(shí)記錄的信息遵循最小化原則,性別、年齡、地域籍貫,若項(xiàng)目對設(shè)備機(jī)型或距離有要求的,也需記錄,如下圖:7.1.2語音數(shù)據(jù)標(biāo)注/內(nèi)容審核技術(shù)規(guī)范指標(biāo)及測量針對語音數(shù)據(jù)標(biāo)注/內(nèi)容審核服務(wù)的流程、質(zhì)量和成果應(yīng)該滿足的技術(shù)指標(biāo),以及測量這些指標(biāo)的方式、方法等。標(biāo)注/審核設(shè)定流程標(biāo)注需求承接需要將各種類型數(shù)據(jù)進(jìn)行集成封裝,通過數(shù)據(jù)載體或平臺(tái),傳輸?shù)綐?biāo)注側(cè)進(jìn)行人工分類識(shí)別處理,標(biāo)注側(cè)最終對需求側(cè)提供標(biāo)準(zhǔn)化的、可供檢索、分析或可視化的數(shù)據(jù)分類服務(wù)交付。標(biāo)注服務(wù)流程如下:需求確定需求確定階段試標(biāo)階段質(zhì)檢階段交付階段正標(biāo)階段A.需求確定階段本階段的目標(biāo)是解讀并充分理解需求,明確合格標(biāo)準(zhǔn),確定需求內(nèi)容無歧義。本階段的主要任務(wù)包括確定需求對接,需求評(píng)估。需求對接:了解標(biāo)注背景、數(shù)據(jù)源特征、數(shù)據(jù)密級(jí)、交付工期、驗(yàn)收指標(biāo)、作業(yè)要求等;需求評(píng)估:分析需求側(cè)強(qiáng)關(guān)注指標(biāo)及需求成果,規(guī)劃資源。B.試標(biāo)階段本階段的目標(biāo)是為正式標(biāo)注/審核進(jìn)行前期準(zhǔn)備,通過試標(biāo)部分?jǐn)?shù)據(jù),驗(yàn)證服務(wù)成果是否符合需求確定內(nèi)容。本階段的主要任務(wù)包括需求承接,試標(biāo)質(zhì)量檢驗(yàn)和判定標(biāo)準(zhǔn)確定,制定標(biāo)注/審核方案。需求承接:在安全密級(jí)、成本、資源的綜合平衡下,選擇匹配的承接團(tuán)隊(duì)進(jìn)行試標(biāo),并在試標(biāo)過程中進(jìn)行標(biāo)準(zhǔn)優(yōu)化、標(biāo)注模式確認(rèn)、人效測試、成本評(píng)估等;試標(biāo)質(zhì)量檢驗(yàn)和判定標(biāo)準(zhǔn)確定,與需求方、項(xiàng)目管理者、項(xiàng)目執(zhí)行團(tuán)隊(duì)確定質(zhì)量驗(yàn)收標(biāo)準(zhǔn),并對試標(biāo)注/審核數(shù)據(jù)進(jìn)行檢驗(yàn)。質(zhì)量驗(yàn)收標(biāo)準(zhǔn)參見。制定方案:制定數(shù)據(jù)解決方案,規(guī)劃進(jìn)度、質(zhì)量、成本管控細(xì)節(jié),確認(rèn)報(bào)價(jià)、工期、驗(yàn)收流程等關(guān)鍵信息,對齊需求側(cè),最終落地標(biāo)注管理預(yù)案。C.正式標(biāo)注/審核階段本階段的目標(biāo)是完成規(guī)定任務(wù)量的標(biāo)注/審核服務(wù)。本階段的主要任務(wù)進(jìn)行標(biāo)注管理,即觀察數(shù)據(jù)源是否符合分類標(biāo)準(zhǔn)使用需求,對標(biāo)注周期、質(zhì)量進(jìn)行跟進(jìn),標(biāo)注突發(fā)風(fēng)險(xiǎn)識(shí)別及處理;D.質(zhì)檢階段本階段的目標(biāo)是保障正式標(biāo)注/審核的數(shù)據(jù)符合質(zhì)量驗(yàn)收標(biāo)準(zhǔn)。本階段的主要任務(wù)是對標(biāo)注好的數(shù)據(jù)進(jìn)行質(zhì)檢并且根據(jù)檢驗(yàn)情況可與正式標(biāo)注/審核階段形成多輪循環(huán)流程。E.交付階段本階段的目標(biāo)是完成項(xiàng)目,贏得需求方滿意。本階段的主要任務(wù)是將符合質(zhì)量驗(yàn)收標(biāo)準(zhǔn)的合格數(shù)據(jù)交付,包括數(shù)據(jù)驗(yàn)收、數(shù)據(jù)結(jié)算和需求交付。數(shù)據(jù)驗(yàn)收:測算質(zhì)檢結(jié)果合格率,與需求側(cè)確認(rèn)數(shù)據(jù)處理各項(xiàng)指標(biāo)是否符合需求側(cè)預(yù)期指標(biāo),符合驗(yàn)收要求則對需求側(cè)驗(yàn)收結(jié)論書面輸出,交付標(biāo)注結(jié)果;數(shù)據(jù)結(jié)算:對交付的符合驗(yàn)收指標(biāo)的有效數(shù)據(jù)進(jìn)行結(jié)算信息確認(rèn),包括但不限于報(bào)價(jià)信息、關(guān)鍵指標(biāo)、數(shù)據(jù)量級(jí)、結(jié)算賬期等;需求交付:實(shí)現(xiàn)流程閉環(huán),對需求側(cè)提供完整的交付報(bào)告、調(diào)研滿意程度、持續(xù)提供售后服務(wù)。標(biāo)注/審核工具要求智能語音應(yīng)用的實(shí)現(xiàn)涉及多種語音處理技術(shù),如ASR(語音識(shí)別)、NLP(自然語言處理)、TTS(語音合成)、Wakeup(語音喚醒)、VoicePrint(聲紋識(shí)別)、DM(對話管理)等。其中最為重要且應(yīng)用廣泛的,主要有ASR、NLP、TTS。ASR:語音轉(zhuǎn)文本,相當(dāng)于是該智能系統(tǒng)中的“耳朵”;NLP:自然語言理解,對文本信息進(jìn)行處理,并做出對應(yīng)指令,相當(dāng)于是該智能系統(tǒng)中的“大腦”;TTS:文本轉(zhuǎn)語音,相當(dāng)于是該智能系統(tǒng)當(dāng)中的“嘴巴”。其中NLP屬于文本數(shù)據(jù)服務(wù)技術(shù),參見7.2。語音數(shù)據(jù)流程服務(wù)主要涉及ASR、TTS兩種技術(shù)規(guī)范。對于語音標(biāo)注工具的要求,主要有:此外,標(biāo)注/審核工具,還需要具備有方便、快捷、可視化的數(shù)據(jù)流轉(zhuǎn)和統(tǒng)計(jì)的功能,便于利用數(shù)據(jù)化進(jìn)行標(biāo)注作業(yè)流程管理。標(biāo)注/審核質(zhì)量標(biāo)準(zhǔn)1)ASR在語音ASR轉(zhuǎn)寫當(dāng)中,主要操作為對音頻進(jìn)行截取、對截取部分音頻進(jìn)行文本轉(zhuǎn)寫、對截取部分音頻進(jìn)行屬性判斷,各環(huán)節(jié)操作規(guī)范如下:音頻截取,根據(jù)實(shí)際應(yīng)用場景需要對音頻進(jìn)行分割截取,并保證所截取音頻與理想分段音頻貼合;音頻文本轉(zhuǎn)寫,將音頻文件內(nèi)容用漢字表示轉(zhuǎn)寫為文本,轉(zhuǎn)寫內(nèi)容需要和實(shí)際發(fā)音內(nèi)容完全一致,不允許出現(xiàn)修改和刪減的問題音頻屬性判斷。確定是否包含有效語音,確定語音的噪音情況,確定說話人數(shù)量,確定說話人性別,確定是否包括口音:其中對于標(biāo)注是否符合規(guī)范的判斷標(biāo)準(zhǔn)和依據(jù),如下表所示:操作技術(shù)規(guī)范規(guī)范邏輯規(guī)范說明和要求音頻截取音頻截取貼合程度 實(shí)際截取音頻與理想截取音頻盡可能貼合,不過多截取導(dǎo)致音頻缺失,也不留白過多,具體指標(biāo)值需根據(jù)業(yè)務(wù)場景確定。音頻文本轉(zhuǎn)寫字準(zhǔn)率/句準(zhǔn)率句準(zhǔn)率=1-句錯(cuò)率;句錯(cuò)率(SER)=(錯(cuò)誤句數(shù)/總句數(shù))×100%字準(zhǔn)率=1-字錯(cuò)率;字錯(cuò)率(WER)=(錯(cuò)誤字?jǐn)?shù)/總字?jǐn)?shù))×100%字錯(cuò)率是語音識(shí)別領(lǐng)域的關(guān)鍵性評(píng)估指標(biāo),WER越低表示效果越好;根據(jù)應(yīng)用場景不同以及語音檢測工具不同,對于高質(zhì)量音頻轉(zhuǎn)寫要求,要求有所不同。具體指標(biāo)值需根據(jù)業(yè)務(wù)場景確定音頻屬性判斷音頻屬性判斷合格率音頻屬性判斷合格率=(音頻屬性判斷正確數(shù)/音頻屬性判斷總數(shù))×100%根據(jù)應(yīng)用場景不同以及語音檢測工具不同,對于高質(zhì)量音頻判斷要求。具體指標(biāo)值需根據(jù)業(yè)務(wù)場景確定2)TTS在TTS語音合成當(dāng)中,主要的標(biāo)注任務(wù)包括:文本語料收集、文本對齊、斷句切分、拼音、韻律精標(biāo)、音素切分、主觀評(píng)測、離線測評(píng)等。同時(shí),任務(wù)涉及“全局區(qū)間”、“局部區(qū)間”、“幀”的標(biāo)注層設(shè)置。全局區(qū)間:針對整條音頻進(jìn)行標(biāo)注,全局區(qū)間的起止位置即整條音頻的開始結(jié)束位置,主要是標(biāo)注一些全局信息,如整條音頻的轉(zhuǎn)寫內(nèi)容,語種等.局部區(qū)間:針對切分出的部分音頻段進(jìn)行標(biāo)注,主要標(biāo)注拼音、音素以及其他針對部分時(shí)間段標(biāo)注的信息.幀:指標(biāo)注音頻的某一時(shí)刻,主要標(biāo)注韻律.操作操作定義技術(shù)規(guī)范文本語通過音、視頻等材料收集文.依據(jù)規(guī)則文檔把握制作音庫的需求特征;料收集本并進(jìn)行順滑整理,為錄音提供素材。.尋找錯(cuò)別字少、標(biāo)點(diǎn)規(guī)范、三觀正常的內(nèi)容。文本對對音頻和文本內(nèi)容進(jìn)行校對.每個(gè)音頻里發(fā)音人字音朗讀準(zhǔn)確,無音頻質(zhì)齊處理。量問題、無發(fā)音準(zhǔn)確性問題;斷句切分對長片段語音數(shù)據(jù)進(jìn)行斷句處理,得到音頻與對應(yīng)的規(guī)范后的文本。.切出的語句最好要語法正確,語義完整,語氣完整,無音頻質(zhì)量問題、無發(fā)音準(zhǔn)確性問題;拼音精標(biāo)對預(yù)測后文件進(jìn)行檢查。.根據(jù)讀音進(jìn)行拼音的聲調(diào)和音素拼寫標(biāo)注;停頓的順序位置也要準(zhǔn)確;.保證第一層文本內(nèi)容與第二層漢字內(nèi)容完全一致。韻律精標(biāo)對預(yù)測后文件進(jìn)行檢查。.對音節(jié)、音步、韻律詞、韻律短語、語調(diào)短語、句子等韻律等級(jí)進(jìn)行劃分;.保證第一層文本內(nèi)容與第二層漢字內(nèi)容完全一致。音素切分做完拼音檢查后,將語音按照給定音素序列進(jìn)行強(qiáng)制切分,得到每一個(gè)音素的時(shí)間段信息。主觀評(píng)對于給定的語音,試聽完根據(jù)第一感受,給出主觀評(píng)分(MOS-MeanOpinionScore,即平均主觀意見分)。.從不同維度對單條數(shù)據(jù)的整體感受打分;離線測評(píng)對于給定的語音&文本,先聽語音,再根據(jù)試聽結(jié)果,結(jié)合文本比對,找出語音片段中的前后端錯(cuò)誤。.區(qū)分不同音庫需要反饋的前后端問題,前端類比人類的語言中樞(根據(jù)句子預(yù)測應(yīng)該讀音和停頓),后端類比人類的發(fā)音器官(根據(jù)預(yù)測結(jié)果發(fā)聲)。標(biāo)注/審核數(shù)據(jù)格式1)ASRa.被截取音頻片段的起止時(shí)間戳;c.該截取音頻對應(yīng)的轉(zhuǎn)寫文本等。2)TTS7.1.3語音數(shù)據(jù)流通分發(fā)技術(shù)規(guī)范指標(biāo)及測量針對語音數(shù)據(jù)流通分發(fā)服務(wù)服務(wù)的流程、質(zhì)量和成果應(yīng)該滿足的技術(shù)指標(biāo),以及測量這些指標(biāo)的方式、方法等。流通分發(fā)設(shè)定流程數(shù)據(jù)分發(fā)是根據(jù)數(shù)據(jù)應(yīng)用要求,將數(shù)據(jù)服務(wù)成果交付需求方。需求方包含公司內(nèi)外部客戶,交付數(shù)據(jù)包含客戶定制項(xiàng)目,也包括自有數(shù)據(jù)。數(shù)據(jù)流通分發(fā)整體流程包括以下環(huán)節(jié):需求確定階段需求確定階段協(xié)議確定階段流通處理階段交付階段A.需求確定階段根據(jù)業(yè)務(wù)需求評(píng)估流通數(shù)據(jù)類型、體量、要素等,約定數(shù)據(jù)傳輸方案,與內(nèi)部服務(wù)團(tuán)隊(duì)確定數(shù)據(jù)資源,將獲取的少量數(shù)據(jù)樣本與承接方進(jìn)行共享,基于樣本評(píng)估需求落地可行性。B.協(xié)議確定階段進(jìn)行合規(guī)評(píng)估,識(shí)別敏感數(shù)據(jù)所屬類別及敏感級(jí)別,確保風(fēng)險(xiǎn)可控;簽訂保密協(xié)議。C.流通處理階段數(shù)據(jù)獲?。簩Λ@得采集許可的數(shù)據(jù)進(jìn)行批量入庫,實(shí)際獲取的數(shù)量、來源等對齊評(píng)估部數(shù)據(jù)脫敏:對于涉及用戶隱私的數(shù)據(jù),采用信息加密、信息替換、信息模糊化等策略和技術(shù)方法進(jìn)行數(shù)據(jù)脫敏;D.交付階段按約定方式回傳數(shù)據(jù)及結(jié)果,或采用隱私計(jì)算技術(shù)提供服務(wù)。通過本地上傳、API、公司數(shù)據(jù)庫流轉(zhuǎn)等渠道將數(shù)據(jù)分發(fā)至指定需求方。流通分發(fā)工具要求流通分發(fā)可采用多種方式和工具進(jìn)行:流通分發(fā)質(zhì)量標(biāo)準(zhǔn)流通分發(fā)質(zhì)量由內(nèi)容質(zhì)量和傳輸質(zhì)量構(gòu)成。數(shù)據(jù)內(nèi)容質(zhì)量參照采集質(zhì)量標(biāo)準(zhǔn)和標(biāo)注/審核質(zhì)量標(biāo)準(zhǔn)。傳輸質(zhì)量參照相關(guān)傳輸方式技術(shù)規(guī)范,其中API接口標(biāo)準(zhǔn)參1)api接口定義可通過平臺(tái)預(yù)先定義的函數(shù)或一種約定協(xié)議,對平臺(tái)或工具發(fā)起數(shù)據(jù)服務(wù)請求。如上傳數(shù)據(jù)、下載數(shù)據(jù)。2)規(guī)范要求3)常用場景流通分發(fā)數(shù)據(jù)格式流通分發(fā)數(shù)據(jù)格式參照采集數(shù)據(jù)格式和標(biāo)注/審核數(shù)據(jù)格式。7.2文本數(shù)據(jù)服務(wù)技術(shù)規(guī)范7.2.1文本數(shù)據(jù)采集和預(yù)處理成果技術(shù)規(guī)范指標(biāo)及測量針對文本數(shù)據(jù)采集和預(yù)處理服務(wù)最終交付的成果應(yīng)該滿足的技術(shù)指標(biāo),以及測量這些指標(biāo)的方式。方法和參考工具等。包含如下(但不限于如下列舉信息):采集設(shè)定流程參照采集工具要求文本采集涉及兩類場景,一類針對新聞資訊類、行業(yè)互聯(lián)網(wǎng)和政府開放的數(shù)據(jù),就是將非結(jié)構(gòu)化的網(wǎng)絡(luò)文本信息從大量的網(wǎng)頁中抽取出來保存到結(jié)構(gòu)化的數(shù)據(jù)庫中的過程。收集后的海量內(nèi)容素材,經(jīng)過數(shù)據(jù)清洗過程,處理成可用于標(biāo)注的文本內(nèi)容。另一類針對某指定語義內(nèi)容進(jìn)行泛化,文本采集途徑通常為人工采集,可人工使用EXCEL匯總或某些數(shù)據(jù)服務(wù)平臺(tái)工具編制。采集質(zhì)量標(biāo)準(zhǔn)采集質(zhì)量涉及采集服務(wù)成果質(zhì)量和流程質(zhì)量兩方面。A.流程質(zhì)量要素及測量方式:指標(biāo)名稱指標(biāo)定義及要求計(jì)算邏輯一次交付達(dá)成率項(xiàng)目數(shù)據(jù)一次交付時(shí)準(zhǔn)確率的達(dá)成情況,用于衡量項(xiàng)目的質(zhì)量保證能力。一次交付達(dá)成率=一次交付準(zhǔn)確率/目標(biāo)準(zhǔn)確率*100%單次交付合格率項(xiàng)目數(shù)據(jù)每次(按項(xiàng)目與業(yè)務(wù)約定的交付周期:日、周、月、數(shù)據(jù)包)交付時(shí)準(zhǔn)確率的達(dá)成情況,用于評(píng)估交付能力。單次交付合格率=1-(項(xiàng)目單次交付不合格數(shù)量/項(xiàng)目單次交付數(shù)量)終審交付達(dá)成率項(xiàng)目數(shù)據(jù)終審?fù)ㄟ^的數(shù)量,用于衡量項(xiàng)目的交付質(zhì)量情況。終審交付達(dá)成率=終審交付的合格數(shù)據(jù)量/目標(biāo)交付合格的數(shù)據(jù)量*100%交付周期延時(shí)率量級(jí)要求項(xiàng)目:實(shí)際交付周期與目標(biāo)交付周期的時(shí)間差。用于評(píng)估交付能力交付延時(shí)率=(實(shí)際交付周期-約定交付周期)/約定交付周期文本采集項(xiàng)目類型一般分為線上采集、線下采集,線上采集例如評(píng)論采集、留言信息采集、文章采集等,線下采集例如語句擴(kuò)寫、對話采集等,每個(gè)采集任務(wù)的質(zhì)量質(zhì)檢側(cè)重點(diǎn)根據(jù)項(xiàng)目具體需求會(huì)有所不同,如無特殊要求,可參照正確性質(zhì)檢規(guī)范來要求。正確性檢驗(yàn)規(guī)范包含數(shù)據(jù)的準(zhǔn)確性、相關(guān)性、邏輯正確性、常識(shí)正確性、合規(guī)合法等相關(guān)指標(biāo)量化要求。);2)待標(biāo)注數(shù)據(jù)-帶預(yù)標(biāo)注結(jié)果);采集數(shù)據(jù)格式文字?jǐn)?shù)據(jù)處理支持csv、url、doc等常用交付格式,內(nèi)含標(biāo)注字段如UID、垂類領(lǐng)域、關(guān)鍵詞、標(biāo)題、評(píng)論、前端原文鏈接等。7.2.2文本數(shù)據(jù)標(biāo)注/內(nèi)容審核技術(shù)規(guī)范指標(biāo)及測量針對文本數(shù)據(jù)標(biāo)注服務(wù)最終交付的成果應(yīng)該滿足的技術(shù)指標(biāo),以及測量這些指標(biāo)的技術(shù)方式、方法和參考工具等。包含如下:標(biāo)注/審核設(shè)定流程參照。標(biāo)注/審核工具要求素簽記輔助工具說明將需要修改的詞進(jìn)行滑動(dòng)選中,修改;對于長篇幅內(nèi)對于文字型的項(xiàng)目,能夠直接高亮關(guān)鍵詞定位,二次專業(yè)劃詞翻譯插件,依托大量權(quán)威詞典涵蓋中英索可以通過小窗口打開搜索工具進(jìn)行搜索,縮短適用于所有網(wǎng)頁,可以實(shí)時(shí)自動(dòng)計(jì)算選中的字?jǐn)?shù),劃詞即顯示翻譯結(jié)果,支持多有道翻譯、百度翻譯、標(biāo)注功能:文本分類、實(shí)體詞抽取(即文本切分)、實(shí)體關(guān)系標(biāo)注。.全文存在10個(gè)“您好”;.將第1個(gè)“您好”新增為文本段且標(biāo)簽選為“標(biāo)簽A”,第2-10個(gè)“您好”自動(dòng)新增為文本段且標(biāo)簽也為“您好”。標(biāo)注/審核質(zhì)量標(biāo)準(zhǔn)適用項(xiàng)目類型指標(biāo)名稱指標(biāo)定義及要求計(jì)算邏輯文本分類正負(fù)例準(zhǔn)確率即一級(jí)分類準(zhǔn)確率,“屬于當(dāng)前一級(jí)分類”為正例,“不屬于當(dāng)前一級(jí)分類”為負(fù)例。正負(fù)例準(zhǔn)確率是文本分類模型學(xué)習(xí)的奠基指標(biāo),應(yīng)不小于95%。正負(fù)例準(zhǔn)確率=標(biāo)注正確的一級(jí)分類數(shù)據(jù)量/標(biāo)注總數(shù)據(jù)量最小子類驗(yàn)收關(guān)鍵指標(biāo),即標(biāo)簽類目的最細(xì)化分類判斷準(zhǔn)確率。最小子類目準(zhǔn)確率是影響模型精度的強(qiáng)關(guān)注指標(biāo),通常要求90%~95%。最小子類目準(zhǔn)確率=標(biāo)注正確的最小子類目數(shù)據(jù)量/標(biāo)注總數(shù)據(jù)量文本提取/摘要關(guān)鍵詞分級(jí)準(zhǔn)確率文本抽取類型標(biāo)注中,對于關(guān)鍵詞等級(jí)及對應(yīng)等級(jí)的詞匯選擇標(biāo)注,分級(jí)正確且詞選正確,為最終正確,這也是關(guān)鍵詞抽取類項(xiàng)目的最高準(zhǔn)確要求,通常建議指標(biāo)設(shè)定在80%~90%。關(guān)鍵詞分級(jí)準(zhǔn)確率=對應(yīng)等級(jí)詞選正確數(shù)/所有等級(jí)對應(yīng)詞選數(shù)總和排序打分排序分層一致率文本排序打分類型的項(xiàng)目,有部分邊界地帶case難以精確評(píng)分,便通過排序分層來歸類該case所屬范疇。其操作方式為兩個(gè)作業(yè)人員對一個(gè)case進(jìn)行打分,如打分結(jié)果相鄰,則判定排序分層一致。排序分層一致率設(shè)定在80%-95%,都屬于合理范圍。排序分層一致率=同一case被兩人標(biāo)注結(jié)果相近的個(gè)數(shù)/同一case被兩人標(biāo)注的總數(shù)通用指標(biāo)盲審一致率對于主觀性強(qiáng)的文本項(xiàng)目,通常采用盲審一致率來輔助準(zhǔn)確率的評(píng)估,其操作方式為兩個(gè)作業(yè)人員對一個(gè)case進(jìn)行標(biāo)注,如標(biāo)注結(jié)果一致,則判定標(biāo)注正確,一致率可以在一定程度上反映整體準(zhǔn)確率。盲審一致率通常要求不低于70%。盲審一致率=同一case被兩人標(biāo)注結(jié)果相同的個(gè)數(shù)/同一case被兩人標(biāo)注的總數(shù)測量方式說明抽樣檢查定向抽檢隨機(jī)抽檢是面向抽檢對象總?cè)蝿?wù)池,設(shè)置一定條件(標(biāo)注賬號(hào)/任務(wù)日期/標(biāo)注結(jié)果/標(biāo)注輪次等)進(jìn)行任務(wù)篩選,滿足抽取條件的任務(wù)將被定向抽樣檢查。隨機(jī)抽檢隨機(jī)抽檢是抽檢對象的總?cè)蝿?wù)池中每個(gè)任務(wù)都有同等被抽中的可能,是一種完全依照機(jī)會(huì)均等的原則進(jìn)行的抽樣檢查。多輪次兩輪多輪次審核將一個(gè)標(biāo)注任務(wù)互斥分發(fā)給2個(gè)作業(yè)人員,如2人判斷結(jié)果一致,則默認(rèn)該任務(wù)標(biāo)注正確;如判斷結(jié)果不一致,則任務(wù)自動(dòng)流入質(zhì)檢池,由質(zhì)檢人員裁決其準(zhǔn)確情況。評(píng)估再抽樣評(píng)估是在抽檢池中,設(shè)置一定條件(抽檢日期/數(shù)量比例/數(shù)據(jù)來源等)進(jìn)行任務(wù)篩選,滿足抽取條件的任務(wù)將流入評(píng)估池進(jìn)行再質(zhì)檢和評(píng)價(jià)估量。標(biāo)注結(jié)果數(shù)據(jù)。人人人標(biāo)注/審核數(shù)據(jù)格式文字?jǐn)?shù)據(jù)處理支持csv、url、doc等常用交付格式,內(nèi)含標(biāo)注字段如UID、垂類領(lǐng)域、關(guān)鍵詞、標(biāo)題、評(píng)論、前端原文鏈接等。7.2.3文本數(shù)據(jù)流通分發(fā)技術(shù)規(guī)范指標(biāo)及測量流通分發(fā)設(shè)定流程參照。流通分發(fā)工具要求流通分發(fā)可采用多種方式和工具進(jìn)行:流通分發(fā)質(zhì)量標(biāo)準(zhǔn)流通分發(fā)質(zhì)量由內(nèi)容質(zhì)量和傳輸質(zhì)量構(gòu)成。數(shù)據(jù)內(nèi)容質(zhì)量參照采集質(zhì)量標(biāo)準(zhǔn)和標(biāo)注/審核質(zhì)量標(biāo)準(zhǔn)。傳輸質(zhì)量參照相關(guān)傳輸方式技術(shù)規(guī)范,其中API接口標(biāo)準(zhǔn)參照語音數(shù)據(jù)流通分發(fā)質(zhì)量標(biāo)準(zhǔn)。流通分發(fā)數(shù)據(jù)格式7.3圖像數(shù)據(jù)服務(wù)技術(shù)規(guī)范7.3.1圖像數(shù)據(jù)采集和預(yù)處理成果技術(shù)規(guī)范指標(biāo)及測量針對圖像數(shù)據(jù)采集和預(yù)處理服務(wù)最終交付的成果應(yīng)該滿足的技術(shù)指標(biāo),以及測量這些指標(biāo)的方式。方法和參考工具等。包含如下(但不限于如下列舉信息):采集設(shè)定流程參照。采集工具要求圖像采集途徑通常為人工采集。計(jì)算機(jī)視覺領(lǐng)域常有2D、3D、點(diǎn)云、紅外、雙目深度等數(shù)據(jù)的采集類型。圖像采集工具除常規(guī)手機(jī)外,不同需求下對硬件有特定要求,如計(jì)算機(jī)視覺領(lǐng)域的深度相機(jī)、紅外相機(jī)、毫米波雷達(dá)、Xsens手套組合、人體3D掃描儀等。采集質(zhì)量標(biāo)準(zhǔn)采集質(zhì)量涉及采集服務(wù)成果質(zhì)量和流程質(zhì)量兩方面。A.流程質(zhì)量要素及測量方式:指標(biāo)名稱指標(biāo)定義及要求計(jì)算邏輯一次交付達(dá)成率項(xiàng)目數(shù)據(jù)一次交付時(shí)準(zhǔn)確率的達(dá)成情況,用于衡量項(xiàng)目的質(zhì)量保證能力。一次交付達(dá)成率=(一次交付準(zhǔn)確率/目標(biāo)準(zhǔn)確率)×100%單次交付合格率項(xiàng)目數(shù)據(jù)每次(按項(xiàng)目與業(yè)務(wù)約定的交付周期:日、周、月、數(shù)據(jù)包)交付時(shí)準(zhǔn)確率的達(dá)成情況,用于評(píng)估交付能力。單次交付合格率=1-(項(xiàng)目單次交付不合格數(shù)量/項(xiàng)目單次交付數(shù)量)×100%終審交付達(dá)成率項(xiàng)目數(shù)據(jù)終審?fù)ㄟ^的數(shù)量,用于衡量項(xiàng)目的交付質(zhì)量情況。終審交付達(dá)成率=(終審交付的合格數(shù)據(jù)量/目標(biāo)交付合格的數(shù)據(jù)量)×100%交付周期延量級(jí)要求項(xiàng)目:實(shí)際交付周期交付延時(shí)率=實(shí)際交付周期-約定交付時(shí)率與目標(biāo)交付周期的時(shí)間差。用于評(píng)估交付能力周期)/約定交付周期)×100%C.成果質(zhì)量及測量方式:圖片采集項(xiàng)目類型會(huì)按照不同的應(yīng)用場景有不同的用途,例如應(yīng)用于人臉識(shí)別的人臉圖像采集,新零售場景的商品采集、人體姿態(tài)采集,應(yīng)用于自動(dòng)駕駛場景的道路行人圖片采集等等。每一個(gè)子類型的采集質(zhì)檢質(zhì)量側(cè)重點(diǎn)不同,如無特殊要求,可參照正確性檢驗(yàn)規(guī)范來要求。正確性檢驗(yàn)規(guī)范應(yīng)包含數(shù)據(jù)的場景要求和圖像信息要求兩個(gè)維度,場景要求主要包含是場景內(nèi)包含要求的信息準(zhǔn)確性、數(shù)量要求、位置要求、時(shí)效等,圖像信息包含圖像分辨率、清晰度、圖片大小等。1)待標(biāo)注數(shù)據(jù)-不帶預(yù)標(biāo)注結(jié)果););2)待標(biāo)注數(shù)據(jù)-帶預(yù)標(biāo)注結(jié)果);采集數(shù)據(jù)格式常見的圖像格式有JPEG、TIFF、RAW、BMP、GIF、PNG等7.3.2圖像數(shù)據(jù)標(biāo)注/內(nèi)容審核成果技術(shù)規(guī)范指標(biāo)及測量標(biāo)注/審核設(shè)定流程參照。圖片處理類型模板元素功能要求適用項(xiàng)通用類圖片縮放/旋轉(zhuǎn)/移動(dòng)、亮度/圖片類數(shù)據(jù)處理基礎(chǔ)功能要求,對圖片進(jìn)行基礎(chǔ)縮放、旋轉(zhuǎn)等操作,包括但不限于增刪標(biāo)簽并調(diào)整其顏色和顯隱,一鍵復(fù)原或查看原圖,撤銷及自動(dòng)保存等通用對比度/飽和度調(diào)整等功能。OCR檢測/識(shí)別類矩形/多邊形框?qū)π枰獦?biāo)注的目標(biāo)實(shí)體用矩形框或多邊形框進(jìn)行框選,以此和周圍進(jìn)行邊界區(qū)分,要求需同時(shí)實(shí)現(xiàn)增、刪、調(diào)整框,切換框的填充色及透明度等;左右手框檢測標(biāo)注類別標(biāo)簽對已用矩形或多邊形框標(biāo)注的目標(biāo)增刪類別標(biāo)簽,以區(qū)分圖片中不同目標(biāo)屬性。關(guān)鍵點(diǎn)類連線設(shè)置對于標(biāo)注過程中的一組關(guān)鍵點(diǎn)進(jìn)行自動(dòng)連線,并在不同區(qū)間段進(jìn)行閉環(huán)隔離以區(qū)分獨(dú)立關(guān)鍵點(diǎn)組,如1-8-1,9-16-9等。人臉輪廓/瞳孔虹膜/精細(xì)關(guān)鍵點(diǎn)標(biāo)注橢圓擬合適用于橢圓形或類橢圓形區(qū)域進(jìn)行關(guān)鍵點(diǎn)定位時(shí),自動(dòng)由4點(diǎn)擬合橢圓圓弧,代替默認(rèn)連線折線段。點(diǎn)序號(hào)/顯隱調(diào)整可對連續(xù)性關(guān)鍵點(diǎn)可自定義序號(hào)起始及顯隱,以判斷局部特殊點(diǎn)位是否精準(zhǔn)。精細(xì)化摳圖/分割類正向畫筆、負(fù)向畫筆(擦正向畫筆針對畫布上的目標(biāo)拖動(dòng)進(jìn)行繪制線條、勾勒輪廓以便后續(xù)填充區(qū)域,產(chǎn)生與原圖疊加的分割效果圖;負(fù)向畫筆即為擦除筆,針對已繪制或已分割區(qū)域進(jìn)行邊緣修正、區(qū)域擦除等動(dòng)作。人臉局部分割/人體服飾分割/車輛車窗背景分割涂色工具將已繪制輪廓進(jìn)行區(qū)域涂色,分前景顏色、背景顏色等,實(shí)現(xiàn)原圖不同區(qū)域著色分割效果。移動(dòng)/拖拽按鈕對已用畫筆進(jìn)行分割的部分進(jìn)行移動(dòng),對比原圖判斷分割效果標(biāo)注/審核工具要求標(biāo)注工具及作用標(biāo)注/審核質(zhì)量標(biāo)注標(biāo)注質(zhì)量要素及指標(biāo)適用類型指標(biāo)名稱指標(biāo)定義及要求計(jì)算邏輯OCR檢測及識(shí)別、關(guān)鍵點(diǎn)標(biāo)注等最小單位準(zhǔn)確率驗(yàn)收關(guān)鍵指標(biāo),即圖片標(biāo)注的最小顆粒單位準(zhǔn)確率(如框、點(diǎn)、折線、幀數(shù)等),最小單位準(zhǔn)確率是需求方強(qiáng)關(guān)注交付指標(biāo),具體指標(biāo)值要求根據(jù)業(yè)務(wù)場景確定最小單位準(zhǔn)確率=(標(biāo)注正確的最小單位正確數(shù)/最小單位標(biāo)注總數(shù))×100%圖片篩選/分類/清洗等標(biāo)簽正負(fù)例準(zhǔn)確率多用于二分類場景,屬于指定標(biāo)簽下的數(shù)據(jù)即為正例,不屬于則為負(fù)例,標(biāo)簽正負(fù)例準(zhǔn)確率是篩選/清洗等分類場景下定義數(shù)據(jù)質(zhì)量的關(guān)鍵指標(biāo),具體指標(biāo)值要求根據(jù)業(yè)務(wù)場景確定標(biāo)簽正負(fù)例準(zhǔn)確率=(標(biāo)注正確的正例數(shù)量/標(biāo)注總數(shù))×100%屬性判斷類(含較強(qiáng)主觀因素)多輪次一致率常用于視頻抽幀數(shù)據(jù)屬性判斷場景,關(guān)注多輪標(biāo)注模式下不同輪次標(biāo)注一致率,驗(yàn)證該類數(shù)據(jù)主觀程度及規(guī)則拉齊難易度,具體指標(biāo)值要求根據(jù)業(yè)務(wù)場景確定多輪次一致率=(n輪標(biāo)注后一致數(shù)量/單輪總指標(biāo)測量方式測量方式說明抽樣檢查定向抽檢隨機(jī)抽檢是面向抽檢對象總?cè)蝿?wù)池,設(shè)置一定條件(標(biāo)注賬號(hào)/任務(wù)日期/標(biāo)注結(jié)果/標(biāo)注輪次等)進(jìn)行任務(wù)篩選,滿足抽取條件的任務(wù)將被定向抽樣檢查。隨機(jī)抽檢隨機(jī)抽檢是抽檢對象的總?cè)蝿?wù)池中每個(gè)任務(wù)都有同等被抽中的可能,是一種完全依照機(jī)會(huì)均等的原則進(jìn)行的抽樣檢查。多輪次兩輪多輪次審核將一個(gè)標(biāo)注任務(wù)互斥分發(fā)給2個(gè)標(biāo)注人員,如2人判斷結(jié)果一致,則默認(rèn)該任務(wù)標(biāo)注正確;如判斷結(jié)果不一致,則任務(wù)自動(dòng)流轉(zhuǎn)到第3輪,由第3人(常為質(zhì)檢人員)最終裁決其準(zhǔn)確情況。埋點(diǎn)標(biāo)注埋點(diǎn)質(zhì)檢一批數(shù)據(jù)中包含一部分原始帶有標(biāo)注結(jié)果的數(shù)據(jù),并均勻分布到數(shù)據(jù)樣本中,通過單輪標(biāo)注后驗(yàn)證埋點(diǎn)數(shù)據(jù)的標(biāo)注質(zhì)量,從而驗(yàn)證整體的數(shù)據(jù)質(zhì)量。標(biāo)注/審核數(shù)據(jù)格式圖片數(shù)據(jù)處理支持csv、url、psd等常用交付格式,內(nèi)含標(biāo)注字段如關(guān)鍵點(diǎn)(組)坐標(biāo)、矩形框四點(diǎn)坐標(biāo)及其標(biāo)簽類別等。7.3.3圖像數(shù)據(jù)流通分發(fā)技術(shù)規(guī)范指標(biāo)及測量針對圖像類數(shù)據(jù)流通分發(fā)服務(wù)最終交付的成果應(yīng)該滿足的技術(shù)指標(biāo),以及測量這些指標(biāo)的技術(shù)方式、方法和參考工具等。包含如下(但不限于如下列舉信息):流通分發(fā)設(shè)定流程參照。流通分發(fā)工具要求流通分發(fā)可采用多種方式和工具進(jìn)行:流通分發(fā)質(zhì)量標(biāo)準(zhǔn)流通分發(fā)質(zhì)量由內(nèi)容質(zhì)量和傳輸質(zhì)量構(gòu)成。數(shù)據(jù)內(nèi)容質(zhì)量參照采集質(zhì)量標(biāo)準(zhǔn)和標(biāo)注/審核質(zhì)量標(biāo)準(zhǔn)。傳輸質(zhì)量參照相關(guān)傳輸方式技術(shù)規(guī)范,其中API接口標(biāo)準(zhǔn)參照語音數(shù)據(jù)流通分發(fā)質(zhì)量標(biāo)準(zhǔn)。流通分發(fā)數(shù)據(jù)格式流通分發(fā)數(shù)據(jù)格式參照采集數(shù)據(jù)格式和標(biāo)注/審核數(shù)據(jù)格式。7.4視頻數(shù)據(jù)服務(wù)技術(shù)規(guī)范7.4.1視頻數(shù)據(jù)采集技術(shù)規(guī)范指標(biāo)及測量針對視頻數(shù)據(jù)采集和預(yù)處理服務(wù)的流程、質(zhì)量和成果應(yīng)該滿足的技術(shù)指標(biāo),以及測量這些指標(biāo)的方式、方法等。采集設(shè)定流程參照采集工具要求圖像采集工具除常規(guī)手機(jī)外,不同需求下對硬件有特定要求,如計(jì)算機(jī)視覺領(lǐng)域的深度相機(jī)、紅外相機(jī)、毫米波雷達(dá)、Xsens手套組合、人體3D掃描儀等。采集質(zhì)量標(biāo)準(zhǔn)參照采集數(shù)據(jù)格式常見的視頻格式有MPEG、MP4、AVI、3GP、RM(RMVB)、WMV、FLV(F4V)等。7.4.2視頻數(shù)據(jù)標(biāo)注/內(nèi)容審核成果技術(shù)規(guī)范指標(biāo)及測量針對視頻數(shù)據(jù)標(biāo)注/內(nèi)容審核服務(wù)的流程、質(zhì)量和成果應(yīng)該滿足的技術(shù)指標(biāo),以及測量這些指標(biāo)的方式、方法等。標(biāo)注/審核設(shè)定流程參照。標(biāo)注/審核工具要求視頻處理類型模板元素功能要求適用項(xiàng)目類型視頻選擇類單選標(biāo)簽/復(fù)選框/下拉框視頻類數(shù)據(jù)處理基礎(chǔ)需求,不對本身數(shù)據(jù)進(jìn)行修改,僅做選擇類的操作;包括打標(biāo)簽、打分等。判斷、分類、清洗、智能剪輯/切分視頻剪輯工具按指定要求在時(shí)間軸上進(jìn)行切分,要求工具可實(shí)現(xiàn)開始時(shí)間、結(jié)束時(shí)間、或者按照要求的時(shí)間打點(diǎn)等視頻剪輯/切分文本轉(zhuǎn)寫矩形/多邊形框/類別標(biāo)簽通過矩形框/多邊形框框住視頻中的文本,并自動(dòng)將框選的文本進(jìn)行轉(zhuǎn)錄,確保文本正確性視頻文本轉(zhuǎn)寫內(nèi)容解析文本輸入框根據(jù)內(nèi)容進(jìn)行分析,給予分析報(bào)告或分析說明,通過文本輸入框錄入文字信息視頻解析畫面遮擋馬賽克根據(jù)規(guī)則對視頻中的特定畫面進(jìn)行遮擋視頻打碼標(biāo)注/審核質(zhì)量標(biāo)準(zhǔn)標(biāo)注質(zhì)量要素及指標(biāo)適用項(xiàng)指標(biāo)名稱指標(biāo)定義及要求計(jì)算邏輯視頻判清洗、評(píng)測、打分標(biāo)簽正負(fù)例準(zhǔn)確率多用于視頻打標(biāo)簽場景,屬于指定標(biāo)簽下的數(shù)據(jù)即為正例,不屬于則為負(fù)例,標(biāo)簽正負(fù)例準(zhǔn)確率是篩選/清洗等分類場景下定義數(shù)據(jù)質(zhì)量的關(guān)鍵指標(biāo),具體指標(biāo)值要求根據(jù)業(yè)務(wù)場景確定。標(biāo)簽正負(fù)例準(zhǔn)確率=(標(biāo)注正確的正例數(shù)量/標(biāo)注總數(shù))×100%內(nèi)容解析評(píng)估準(zhǔn)確率適用于視頻解析項(xiàng)目,按照標(biāo)準(zhǔn)中給到的內(nèi)容要素,評(píng)估內(nèi)容解析的內(nèi)容是否符合需求方預(yù)期,具體指標(biāo)值要求根據(jù)業(yè)務(wù)場景確定評(píng)估準(zhǔn)確率=(滿足條件的內(nèi)容數(shù)量/標(biāo)注總數(shù))×100%文本轉(zhuǎn)寫智能剪輯/切分畫面遮擋最小單位準(zhǔn)確率驗(yàn)收關(guān)鍵指標(biāo),即視頻標(biāo)注的最小顆粒單位準(zhǔn)確率(如框、點(diǎn)、視頻抽幀、轉(zhuǎn)寫文字等),最小單位準(zhǔn)確率是需求方強(qiáng)關(guān)注交付指標(biāo),具體指標(biāo)值要求根據(jù)業(yè)務(wù)場景確定最小單位準(zhǔn)確率=(標(biāo)注正確的最小單位正確數(shù)/最小單位標(biāo)注總數(shù))×100%視頻打分、分類多輪次一致率適用于主觀判斷類視頻抽幀數(shù)據(jù),多輪標(biāo)注模式下不同輪次標(biāo)注一致率,通過用于驗(yàn)證該類數(shù)據(jù)主觀程度及規(guī)則拉齊難易度,具體指標(biāo)值要求根據(jù)業(yè)務(wù)場景確定多輪次一致率=(n輪標(biāo)注后一致數(shù)量/單輪總指標(biāo)測量方式測量方式說明抽樣檢查定向抽檢隨機(jī)抽檢是面向抽檢對象總?cè)蝿?wù)池,設(shè)置一定條件(標(biāo)注賬號(hào)/任務(wù)日期/標(biāo)注結(jié)果/標(biāo)注輪次等)進(jìn)行任務(wù)篩選,滿足抽取條件的任務(wù)將被定向抽樣檢查。隨機(jī)抽檢隨機(jī)抽檢是抽檢對象的總?cè)蝿?wù)池中每個(gè)任務(wù)都有同等被抽中的可能,是一種完全依照機(jī)會(huì)均等的原則進(jìn)行的抽樣檢查。多輪次兩輪多輪次審核將一個(gè)標(biāo)注任務(wù)互斥分發(fā)給2個(gè)作業(yè)人員,如2人判斷結(jié)果一致,則默認(rèn)該任務(wù)標(biāo)注正確;如判斷結(jié)果不一致,則任務(wù)自動(dòng)流入質(zhì)檢池,由質(zhì)檢人員裁決其準(zhǔn)確情況。評(píng)估再抽樣評(píng)估是在抽檢池中,設(shè)置一定條件(抽檢日期/數(shù)量比例/數(shù)據(jù)來源等)進(jìn)行任務(wù)篩選,滿足抽取條件的任務(wù)將流入評(píng)估池進(jìn)行再質(zhì)檢和評(píng)價(jià)估量。標(biāo)注/審核數(shù)據(jù)格式組合模版對需要展示的數(shù)據(jù)進(jìn)行配置,通過變量名(src字段)與上傳CSV的表頭名稱進(jìn)行匹配展示數(shù)據(jù)。頁面模版與數(shù)據(jù)的關(guān)系圖如下:組合數(shù)據(jù)的展示方式配置:這里以視頻、標(biāo)題、標(biāo)題內(nèi)容這三種待標(biāo)注數(shù)據(jù)為例:格式wmv、avi等視頻ID、視頻wmv、avi等標(biāo)簽類別、markTime位置坐標(biāo)、endTime位置坐標(biāo)、截取片段時(shí)長、截取片段占總視頻比例、打分等7.4.3視頻數(shù)據(jù)流通分發(fā)技術(shù)規(guī)范指標(biāo)及測量針對視頻類數(shù)據(jù)流通分發(fā)服務(wù)最終交付的成果應(yīng)該滿足的技術(shù)指標(biāo),以及測量這些指標(biāo)的技術(shù)方式、方法和參考工具等。包含如下:流通分發(fā)設(shè)定流程參照。流通分發(fā)工具要求可采用多種方式和工具進(jìn)行:流通分發(fā)質(zhì)量標(biāo)準(zhǔn)流通分發(fā)質(zhì)量由內(nèi)容質(zhì)量和傳輸質(zhì)量構(gòu)成。數(shù)據(jù)內(nèi)容質(zhì)量參照采集質(zhì)量標(biāo)準(zhǔn)和標(biāo)注/審核質(zhì)量標(biāo)準(zhǔn)。傳輸質(zhì)量參照相關(guān)傳輸方式技術(shù)規(guī)范,其中API接口標(biāo)準(zhǔn)參照語音數(shù)據(jù)流通分發(fā)質(zhì)量標(biāo)準(zhǔn)。流通分發(fā)數(shù)據(jù)格式流通分發(fā)數(shù)據(jù)格式參照采集數(shù)據(jù)格式和標(biāo)注/審核數(shù)據(jù)格式。7.5點(diǎn)云數(shù)據(jù)服務(wù)技術(shù)規(guī)范點(diǎn)云數(shù)據(jù)在自動(dòng)駕駛、城市規(guī)劃、考古文物保護(hù)、醫(yī)學(xué)影像、測繪等領(lǐng)域有著廣泛的應(yīng)用場景。7.5.1點(diǎn)云數(shù)據(jù)采集和預(yù)處理成果技術(shù)規(guī)范指標(biāo)及測量針對點(diǎn)云數(shù)據(jù)采集和預(yù)處理服務(wù)最終交付的成果應(yīng)該滿足的技術(shù)指標(biāo),以及測量這些指標(biāo)的方式。方法和參考工具等。包含如下(但不限于如下列舉信息):采集設(shè)定流程參照。采集工具要求采集質(zhì)量標(biāo)準(zhǔn)采集質(zhì)量涉及采集服務(wù)成果質(zhì)量和流程質(zhì)量兩方面。A.流程質(zhì)量要素及測量方式:指標(biāo)名稱指標(biāo)定義及要求計(jì)算邏輯一次交付達(dá)成率項(xiàng)目數(shù)據(jù)一次交付時(shí)準(zhǔn)確率的達(dá)成情況,用于衡量項(xiàng)目的質(zhì)量保證能力。一次交付達(dá)成率=(一次交付準(zhǔn)確率/目標(biāo)準(zhǔn)確率)×100%單次交付合格率項(xiàng)目數(shù)據(jù)每次(按項(xiàng)目與業(yè)務(wù)約定的交付周期:日、周、月、數(shù)據(jù)包)交付時(shí)準(zhǔn)確率的達(dá)成情況,用于評(píng)估交付能力。單次交付合格率=1-(項(xiàng)目單次交付不合格數(shù)量/項(xiàng)目單次交付數(shù)量)×100%終審交付達(dá)成率項(xiàng)目數(shù)據(jù)終審?fù)ㄟ^的數(shù)量,用于衡量項(xiàng)目的交付質(zhì)量情況。終審交付達(dá)成率=(終審交付的合格數(shù)據(jù)量/目標(biāo)交付合格的數(shù)據(jù)量)×100%交付周期延時(shí)率量級(jí)要求項(xiàng)目:實(shí)際交付周期與目標(biāo)交付周期的時(shí)間差。用于評(píng)估交付能力交付延時(shí)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論