人工智能領(lǐng)域數(shù)據(jù)處理解決方案-中國大數(shù)據(jù)技術(shù)大會_第1頁
人工智能領(lǐng)域數(shù)據(jù)處理解決方案-中國大數(shù)據(jù)技術(shù)大會_第2頁
人工智能領(lǐng)域數(shù)據(jù)處理解決方案-中國大數(shù)據(jù)技術(shù)大會_第3頁
人工智能領(lǐng)域數(shù)據(jù)處理解決方案-中國大數(shù)據(jù)技術(shù)大會_第4頁
人工智能領(lǐng)域數(shù)據(jù)處理解決方案-中國大數(shù)據(jù)技術(shù)大會_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

人工智能領(lǐng)域數(shù)據(jù)處理解決方案質(zhì)的數(shù)據(jù)深度加工鏈|數(shù)據(jù)眾包百度數(shù)據(jù)眾包-AI基礎(chǔ)數(shù)據(jù)提供商數(shù)據(jù)之于人工智能高質(zhì)量的數(shù)據(jù)為訓(xùn)練人工智能提供了原材料能技術(shù)的實現(xiàn)和人工智能應(yīng)用的落地提供基礎(chǔ)的后臺保障!用層:身份識別、無人車、機器人等場景應(yīng)用:機器學(xué)習(xí)、深度學(xué)習(xí)、語音識別、圖像識別、人臉:大數(shù)據(jù)、云計算、神經(jīng)網(wǎng)絡(luò)芯片等計算商方言語音數(shù)據(jù)場景語音數(shù)據(jù)語音文本數(shù)據(jù)社交網(wǎng)絡(luò)文本數(shù)據(jù)新聞媒體輿情數(shù)據(jù)社區(qū)、論壇知識數(shù)據(jù)多語種文本數(shù)據(jù)細粒度語義標(biāo)注數(shù)據(jù)人臉圖像數(shù)據(jù)字符圖像數(shù)據(jù)物體圖像數(shù)據(jù)物體屬性數(shù)據(jù)物體行為數(shù)據(jù)不同領(lǐng)域的詞性及關(guān)系數(shù)據(jù)數(shù)據(jù)處理的困境數(shù)據(jù)加工提取分類清洗評估據(jù),人工智能基礎(chǔ)數(shù)據(jù)的兩大難題數(shù)據(jù)加工提取分類清洗評估始數(shù)據(jù)數(shù)據(jù)獲取數(shù)據(jù)獲取本采集音采集頻采集統(tǒng)一的采集標(biāo)準(zhǔn)廣,需要外包人時間、經(jīng)濟成本大視視頻網(wǎng)頁文本圖片語音構(gòu)化的數(shù)據(jù)量量精準(zhǔn)識別數(shù)據(jù)一標(biāo)準(zhǔn),方法不一致,投入頸數(shù)據(jù)處理眾包海量采集(一般場景、非專業(yè)設(shè)備)包用戶數(shù)據(jù)處理眾包海量采集(一般場景、非專業(yè)設(shè)備)包用戶取采集APP網(wǎng)頁初檢、場地培訓(xùn)據(jù)取上傳模擬現(xiàn)場采集(需要特殊專業(yè)設(shè)備、特殊場景的項目)戶數(shù)據(jù)需求案專家需求定義任務(wù)設(shè)計與拆分場片文本語音視頻O片文本語音視頻P戶端9海量眾包近場采集練數(shù)據(jù)集的樣本數(shù)據(jù)用于礎(chǔ)訓(xùn)練,盡可能多各類人群喚醒詞采集海量眾包近場采集練數(shù)據(jù)集的樣本數(shù)據(jù)用于礎(chǔ)訓(xùn)練,盡可能多各類人群喚醒詞采集型使用人群在真實場遠 表采集試集近場數(shù)據(jù):采集能力:累計完成超過5000小時,覆蓋10w人近場數(shù)據(jù):。項目執(zhí)行方案:預(yù)處理審核標(biāo)注注級審核評估清洗提取其他析致力于數(shù)據(jù)處理規(guī)則的標(biāo)準(zhǔn)化與工具化注OCR審核預(yù)處理預(yù)處理審核標(biāo)注注級審核評估清洗提取其他析致力于數(shù)據(jù)處理規(guī)則的標(biāo)準(zhǔn)化與工具化注OCR審核預(yù)處理注道包包級審核戶需求需求據(jù)需求2、智能加眾包標(biāo)注:AIAI實現(xiàn)日均百萬的數(shù)據(jù)吞AIAI3、多級質(zhì)量管控:道突破準(zhǔn)確率瓶頸道?不完整數(shù)據(jù)?錯誤數(shù)據(jù)?冗余數(shù)據(jù)?數(shù)據(jù)標(biāo)簽化?垂類數(shù)據(jù)?關(guān)鍵詞提取?網(wǎng)頁內(nèi)容提取?圖片內(nèi)容提取(OCR體識別等)數(shù)據(jù)清洗數(shù)據(jù)清洗33數(shù)據(jù)內(nèi)容獲取數(shù)據(jù)評估數(shù)據(jù)評估244殊信息?相關(guān)性評估?時效性評估?競品評估?電子商務(wù)評論?地圖信息制作?語音轉(zhuǎn)寫?其他數(shù)據(jù)標(biāo)注—通用圖片檢測通用圖片檢測類型涵蓋商品、動物、植物、菜品、服裝搭配、黃反、暴恐、建筑、素材等多種垂類。1.多圖vs.單圖;2.圖+參考文字/參考圖/搜索頁面/參考鏈接/預(yù)識別結(jié)果/特定內(nèi)部參考頁面;3.多題vs.單題;4.題目類型:單選/多選/多級菜單選擇/填寫框選類能力涵蓋:普通矩形、分類矩形、普通多邊形、分類多邊形、區(qū)域填色、多級屬性多邊形、Parsing、點+線+區(qū)域復(fù)合檢測分類矩形普通矩形框普分類矩形普通矩形框點+線+區(qū)域復(fù)合分類多邊形區(qū)域點+線+區(qū)域復(fù)合分類多邊形對“興趣偏好“屬性進行策略優(yōu)化,通過第三方人工標(biāo)注,通過用戶人工貢獻評價,評估策略優(yōu)化后的標(biāo)簽準(zhǔn)確率令要素提取依據(jù)客戶要求對文字內(nèi)容或槽位進行提取并定位具體屬性。標(biāo)注工具——圖片&語音轉(zhuǎn)寫言O(shè)CR文字轉(zhuǎn)寫2.進行多種口音的語音文字轉(zhuǎn)寫17標(biāo)注標(biāo)注類助標(biāo)注眾包用戶核心用戶團隊標(biāo)注員作業(yè)項目助理 標(biāo)注員作業(yè)項目助理 標(biāo)準(zhǔn)自學(xué)統(tǒng)一培訓(xùn)習(xí)考試 檢 (實時)產(chǎn)品線 )收檢戶?以“公會”聚集的小組(生產(chǎn)單元)?工作量、質(zhì)量考核?公會獎懲、升降級中前后19案例:人臉識別基礎(chǔ)數(shù)據(jù)服務(wù)使使用場景:身份識別,攝像監(jiān)視系統(tǒng),支付系統(tǒng),門禁系統(tǒng)?采?一人多照人臉圖片:多表情、多姿態(tài)?跨年齡段人臉圖片:70-00后全年齡段?多光照條件、?多遮擋條件?標(biāo)?人臉檢測標(biāo)注:人臉位置框選?人臉關(guān)鍵點標(biāo)注:人臉5點-72點標(biāo)注?驗收通過率100%20例:語音識別基礎(chǔ)數(shù)據(jù)服務(wù)使使用場景:音識別,智能機器人?采?采集指定地區(qū)的漢語方言數(shù)據(jù)?通過手機自帶麥克錄制?四川話/上海話/湖南話等8種方言?安靜/吵鬧環(huán)境錄制?標(biāo)?語音數(shù)據(jù)轉(zhuǎn)寫?中文方言、普通話?轉(zhuǎn)寫準(zhǔn)確率98%,業(yè)內(nèi)第一人像識別語音識別跨年齡段人像識別語音識別跨年齡段暗光人臉家福臉打點

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論