大模型時代的數(shù)據(jù)標(biāo)注_第1頁
大模型時代的數(shù)據(jù)標(biāo)注_第2頁
大模型時代的數(shù)據(jù)標(biāo)注_第3頁
大模型時代的數(shù)據(jù)標(biāo)注_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大模型時代的數(shù)據(jù)標(biāo)注:從勞動密集向技能密集升級算力、算法和數(shù)據(jù)是人工智能的“三駕馬車”。過去的十多年,算力、算法、數(shù)據(jù)等技術(shù)的創(chuàng)新和迭代,都取得了“大爆炸”式發(fā)展。ChatGPT橫空出世背后,有海量訓(xùn)練數(shù)據(jù)、人工標(biāo)注指令微調(diào)以及基于人工反饋的強(qiáng)化學(xué)習(xí)。未來,人工智能在垂直場景落地,需要大量經(jīng)過標(biāo)注處理的數(shù)據(jù)完成算法訓(xùn)練?,F(xiàn)階段,數(shù)據(jù)標(biāo)注屬于勞動密集型產(chǎn)業(yè),人工智能尤其是大模型的崛起,將數(shù)據(jù)標(biāo)注推向AI輔助標(biāo)注、自動標(biāo)注,數(shù)據(jù)標(biāo)注進(jìn)入技能密集時代。我國數(shù)據(jù)標(biāo)注行業(yè)現(xiàn)狀及特點(diǎn)數(shù)據(jù)標(biāo)注是指借助特定軟件標(biāo)注工具,將圖片、語音、文本、視頻等數(shù)據(jù)內(nèi)容進(jìn)行分類、標(biāo)準(zhǔn)特征標(biāo)簽等(例如圖片屬于“貓”、“狗”、“鳥”等分類),使其易于被機(jī)器學(xué)習(xí)算法可理解和快速處理。近年來,隨著人工智能的快速發(fā)展,數(shù)據(jù)標(biāo)注需求激增,我國數(shù)據(jù)標(biāo)注市場呈現(xiàn)如下特點(diǎn)。一是在需求和政策共推下高速發(fā)展。2022年我國數(shù)據(jù)產(chǎn)量已達(dá)8.1ZB,同比增長22.7%,全球占比10.5%,位居世界第二,數(shù)據(jù)已成為我國重要的資源稟賦優(yōu)勢。與此同時,我國數(shù)據(jù)要素市場化配置進(jìn)程加速,政策加持國內(nèi)AI產(chǎn)業(yè)發(fā)展,市場對高質(zhì)量數(shù)據(jù)標(biāo)注需求激增。根據(jù)艾瑞咨詢、華經(jīng)產(chǎn)業(yè)研究院數(shù)據(jù),2021年我國數(shù)據(jù)標(biāo)注市場規(guī)模為43至44億元,2025年有望突破百億元。此外,數(shù)據(jù)標(biāo)注是勞動力資源密集省市政府解決就業(yè)難的抓手,多個省市紛紛出臺政策支持?jǐn)?shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展或建立數(shù)據(jù)標(biāo)注產(chǎn)業(yè)園,如山西省出臺了《山西省數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展規(guī)劃(2019-2025年)》、《山西省加快數(shù)據(jù)標(biāo)注產(chǎn)業(yè)發(fā)展的實(shí)施意見》、《山西人工智能基礎(chǔ)數(shù)據(jù)產(chǎn)業(yè)專項資金管理辦法》等,山西、河南、四川、貴州等省已形成了眾多數(shù)據(jù)標(biāo)注小鎮(zhèn),全國范圍來看,集數(shù)據(jù)采集、存儲、標(biāo)注、服務(wù)等于一體的AI基礎(chǔ)數(shù)據(jù)相關(guān)產(chǎn)業(yè)持續(xù)壯大,進(jìn)入高速發(fā)展期。二是AI頭部企業(yè)紛紛入局并贏得競爭優(yōu)勢。數(shù)據(jù)標(biāo)注市場有兩類參與者,一類是專業(yè)的第三方數(shù)據(jù)標(biāo)注公司,如Testin云測、澳鵬appen、海天瑞聲、數(shù)據(jù)堂、龍貓數(shù)據(jù)、曼孚科技等;一類是AI科技公司內(nèi)部的標(biāo)注部門。兩類數(shù)據(jù)標(biāo)注力量都在壯大,第二類發(fā)展更快,越來越多的AI頭部企業(yè)自建標(biāo)注工具平臺和標(biāo)注基地,如百度在山西建立人工智能基礎(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地、推出數(shù)據(jù)標(biāo)注開放平臺,京東在山東設(shè)立京東眾智大數(shù)據(jù)標(biāo)注助殘基地、推出Wise開放標(biāo)注平臺,字節(jié)跳動在全國設(shè)立了六個標(biāo)注基地。這些AI頭部企業(yè)資本雄厚、數(shù)據(jù)需求旺盛、技術(shù)實(shí)力強(qiáng),后發(fā)優(yōu)勢顯著,百度、京東已進(jìn)入數(shù)據(jù)標(biāo)注市場第一陣營。三是市場需求以定制化服務(wù)為主。相關(guān)數(shù)據(jù)顯示,2021年我國數(shù)據(jù)標(biāo)注及審核市場中定制化服務(wù)占比85.41%,而標(biāo)準(zhǔn)化的數(shù)據(jù)集產(chǎn)品僅占13.33%。這與AI在垂直場景深度落地需要與特定任務(wù)類型、特定應(yīng)用場景相匹配的數(shù)據(jù)進(jìn)行算法訓(xùn)練。大模型時代下,“基礎(chǔ)模型+微調(diào)”有望成為AI開發(fā)新范式,微調(diào)是讓AI獲特定領(lǐng)域知識,并賦予其組織、應(yīng)用知識的能力,可以預(yù)見,貼合垂直場景的高精準(zhǔn)定制化數(shù)據(jù)標(biāo)注服務(wù)在未來將是市場需求主流。數(shù)據(jù)標(biāo)注行業(yè)面臨的問題與挑戰(zhàn)早期,市場對數(shù)據(jù)采集標(biāo)注的要求較低,準(zhǔn)入門檻低,行業(yè)內(nèi)云集了大量中小規(guī)模的服務(wù)商和靈活就業(yè)/兼職個人,數(shù)據(jù)標(biāo)注領(lǐng)頭企業(yè)主要采用轉(zhuǎn)包、眾包模式提供服務(wù),行業(yè)存在標(biāo)注效率低下、數(shù)據(jù)質(zhì)量參差不齊、高技能人才不足、全程數(shù)據(jù)安全合規(guī)風(fēng)險高等問題。一是標(biāo)注效率低下、數(shù)據(jù)質(zhì)量參差不齊。當(dāng)前數(shù)據(jù)標(biāo)注高度依賴人力,十分枯燥、耗費(fèi)眼力體力,很多中小供應(yīng)商缺少AI輔助標(biāo)注、AI質(zhì)檢能力,標(biāo)注師個人能力素質(zhì)直接影響標(biāo)注效率和數(shù)據(jù)質(zhì)量,形成行業(yè)生產(chǎn)效率低下、數(shù)據(jù)質(zhì)量不均衡的局面。二是高技能產(chǎn)業(yè)人才缺乏。從任務(wù)需求來看,以較為復(fù)雜的語音標(biāo)注、計算機(jī)視覺標(biāo)注為主,醫(yī)療醫(yī)藥、法律、金融、電力等專業(yè)數(shù)據(jù)集標(biāo)注生產(chǎn),還對標(biāo)注師的學(xué)科知識儲備有一定要求。從人才培養(yǎng)來說,人工智能訓(xùn)練師新型崗位培養(yǎng)、專業(yè)設(shè)立并沒有受到社會重視,市場上缺乏經(jīng)過系統(tǒng)性訓(xùn)練的高技能人才。三是全程數(shù)據(jù)安全合規(guī)風(fēng)險高。根據(jù)中國信通院報告,80%的安全風(fēng)險發(fā)生在數(shù)據(jù)流通環(huán)節(jié)。從行業(yè)現(xiàn)狀來看,數(shù)據(jù)標(biāo)注的鏈條較長,包括采集、標(biāo)注、存儲、傳輸?shù)拳h(huán)節(jié),轉(zhuǎn)包模式下信息鏈條更長,黃賭毒/暴力信息過濾、隱私保護(hù)、數(shù)據(jù)不當(dāng)使用等都是標(biāo)注和審核企業(yè)面臨的難題。數(shù)據(jù)標(biāo)注行業(yè)存在的變化及趨勢隨著人工智能技術(shù)在更多垂直應(yīng)用場景落地深化,數(shù)據(jù)標(biāo)注表現(xiàn)出以下幾個趨勢:一是AI輔助標(biāo)注、自動化數(shù)據(jù)標(biāo)注成為新競爭力,助推行業(yè)從勞動密集轉(zhuǎn)向技術(shù)密集。從全球范圍來看,美國由于人力成本較高,較早使用機(jī)器替代人力,谷歌、微軟等互聯(lián)網(wǎng)巨頭都推出了自動標(biāo)注系統(tǒng),Playment和ScaleAI合作,為全球高分辨率LiDAR傳感器制造商Data聯(lián)合開發(fā)了高級深度學(xué)習(xí)標(biāo)注工具。在中國,用工管理日趨規(guī)范以及標(biāo)注需求量的激增,純?nèi)斯?biāo)注在效率和成本上的優(yōu)勢將很快消失,使用AI賦能的自動標(biāo)注能力與相關(guān)工具來提升效率和質(zhì)量,將逐漸成為數(shù)據(jù)標(biāo)注企業(yè)提高市場競爭力、降本增效的利器。AI輔助標(biāo)注、自動標(biāo)注不僅提升了數(shù)據(jù)的產(chǎn)出效率,同時也在標(biāo)注模型工具的迭代中打造出了完善的AI基礎(chǔ)設(shè)施,從而助推行業(yè)向技術(shù)密集轉(zhuǎn)型。二是行業(yè)走向垂直化、定制化,門檻提高,市場集中度提升。隨著人工智能進(jìn)入多元行業(yè)和場景落地階段,自動駕駛、醫(yī)療醫(yī)藥、小語種、法律、金融等有一定專業(yè)性要求的垂直場景將成為主要需求,帶動行業(yè)進(jìn)一步朝著垂直化、定制化發(fā)展,專業(yè)性要求越來越高,市場準(zhǔn)入門檻將顯著提高。同時,頭部的品牌數(shù)據(jù)服務(wù)商由于具備較強(qiáng)算法能力和穩(wěn)定訓(xùn)練數(shù)據(jù)資源,有實(shí)力打造AI輔助標(biāo)注、自動化標(biāo)注平臺工具,標(biāo)注效率、質(zhì)量和成本優(yōu)勢將凸顯。未來,品牌數(shù)據(jù)服務(wù)商和需求方自建的標(biāo)注團(tuán)隊將逐步替代中小供應(yīng)商,行業(yè)市場集中度將顯著提升。如,2019年中小數(shù)據(jù)供應(yīng)商的市場份額高達(dá)47%,百度市場份額為11%,2022年百度的市場份額躍居到18%。三是追求更高的數(shù)據(jù)質(zhì)量、安全性和隱私性。大部分算法在擁有足夠多普通標(biāo)注數(shù)據(jù)的情況下,能夠?qū)?zhǔn)確率提升到95%,但再提升到99%甚至99.9%,則需要高質(zhì)量數(shù)據(jù)。另一方面,海量原始數(shù)據(jù)的采集標(biāo)注,涉及大量敏感數(shù)據(jù),如人臉、語音等內(nèi)容,隨著數(shù)據(jù)安全合規(guī)法律政策體系的完善和監(jiān)管升級,對數(shù)據(jù)的采集、標(biāo)注、存儲、傳輸?shù)拿恳粋€環(huán)節(jié)的安全合規(guī)要求越來越高。因此,圍繞標(biāo)注質(zhì)量和全流程數(shù)據(jù)安全合規(guī),建立一套完善的流程機(jī)制,并有技術(shù)工具保駕護(hù)航,就成為當(dāng)下諸多數(shù)據(jù)標(biāo)注服務(wù)商著重建設(shè)發(fā)展的能力。電信運(yùn)營商的探索和機(jī)遇電信運(yùn)營商在數(shù)據(jù)資源的內(nèi)部場景化應(yīng)用、外部產(chǎn)品化流通方面,主要使用結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)采集標(biāo)注僅在客戶服務(wù)場景中的熱線話務(wù)、投訴及故障工單的智能打標(biāo),以及裝維流程中的現(xiàn)場作業(yè)規(guī)范管理等少數(shù)場景應(yīng)用;外部產(chǎn)品化應(yīng)用主要是視聯(lián)網(wǎng)產(chǎn)品的AI視頻分析識別,如明廚亮灶中對進(jìn)入廚房區(qū)域的廚師服/帽、口罩的穿戴著裝,抽煙、玩手機(jī)、老鼠檢測、外來人員識別等實(shí)時告警等。整體來說,電信運(yùn)營商的語音標(biāo)注、計算機(jī)視覺標(biāo)注處于探索期,尚未像百度、京東一樣形成專業(yè)化標(biāo)注生產(chǎn)能力,但值得肯定的是,在為數(shù)不多的探索中運(yùn)營商選擇了AI輔助標(biāo)注、自動化標(biāo)注路徑。當(dāng)下,AI大模型炙手可熱,催化數(shù)據(jù)采標(biāo)需求加速釋放,電信運(yùn)營商可審視如下機(jī)遇點(diǎn)。一是面向垂直行業(yè)的AI輔助標(biāo)注、自動化標(biāo)注工具及解決方案。一方面是我國尚未形成AI輔助標(biāo)注、自動化標(biāo)注的領(lǐng)先產(chǎn)品,另一方面是對數(shù)據(jù)安全要求嚴(yán)格或期望降低數(shù)據(jù)生產(chǎn)成本的企業(yè),紛紛從選擇專業(yè)標(biāo)注公司駐場服務(wù)到自購?fù)ㄓ脴?biāo)注工具、模型訓(xùn)練工具進(jìn)行適配優(yōu)化,自行完成數(shù)據(jù)標(biāo)注,這給專注于某個垂直領(lǐng)域的基礎(chǔ)數(shù)據(jù)服務(wù)商帶來了機(jī)會:針對細(xì)分領(lǐng)域提供自動化標(biāo)注工具或解決方案。二是面向數(shù)據(jù)采集標(biāo)注全流程的數(shù)據(jù)安全合規(guī)基礎(chǔ)設(shè)施。AI基礎(chǔ)數(shù)據(jù)生產(chǎn)涉及到采集、存儲、標(biāo)注、傳

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論