下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、人工智能是怎么準備訓(xùn)練樣本的我是一個前端,機緣巧合加入了一家AI創(chuàng)業(yè)公司,一年多過去了,所幸公司沒倒,我得到了一些參與AI模型開發(fā)的機會,我發(fā)現(xiàn)所謂的“AI”雖然很復(fù)雜,但并不神奇,是可以被理解、學(xué)習(xí)的。趁著最近有空,計劃寫些文章分享見聞吧。神經(jīng)網(wǎng)絡(luò)是一種學(xué)習(xí)算法,也是目前最火的人工智能技術(shù)了?!熬W(wǎng)絡(luò)”由許多“層”組成,每層是一個處理單元,作用是將輸入值按該層邏輯轉(zhuǎn)換為輸出值。如果說特征抽取是一個復(fù)雜的大任務(wù),那么“層”就是將大任務(wù)拆解后形成的一個一個獨立的、單一職責的小任務(wù),比如有些層是將圖像文件轉(zhuǎn)換為RGB矩陣;有些層用于抽取圖像的顏色特征;有些層專門用于降維,將輸入壓縮為特定大小的矩陣。
2、每層都能在不同層面描述或者處理圖像的某個片面信息,將這些層按適當?shù)囊?guī)則連接在一起后,就構(gòu)成一個能描述圖像完整信息的“網(wǎng)”。模型開發(fā)的主要任務(wù)就在于如何設(shè)計層,以及如何將層連接在一起上。原理就是這樣,但實際的開發(fā)非常非常復(fù)雜。神經(jīng)網(wǎng)絡(luò)包含前向傳播與反向傳播兩個過程,前向是將輸入,比如一張圖片,從網(wǎng)絡(luò)輸入層開始經(jīng)過各層迭代處理,輸出特征值;反向則是將輸出的特征值與樣本預(yù)期特征值之間的誤差反向傳回各層,各層根據(jù)誤差調(diào)整權(quán)重?!澳P陀?xùn)練”就是將大量樣本輸入到網(wǎng)絡(luò),網(wǎng)絡(luò)在不斷前向、反向的過程中慢慢調(diào)整各層權(quán)重,使得最終結(jié)果能“大概率”滿足樣本需求的狀態(tài)。這個狀態(tài)我們可以理解為一大堆參數(shù),參數(shù)與網(wǎng)絡(luò)模型共
3、同組成我們?nèi)粘Kf的“模型”。什么是訓(xùn)練樣本所謂的訓(xùn)練數(shù)據(jù),就是經(jīng)過預(yù)處理(一般是人工標注)后,有相對穩(wěn)妥、精確的特征描述的數(shù)據(jù)集,以“樣本”形式參與模型開發(fā)工作么,對訓(xùn)練數(shù)據(jù)集一般會有這樣一些要求:盡量準確,但不排除也很難排除有異常噪音的情況。畢竟是人工標注的,很難說數(shù)據(jù)一定正確,一個優(yōu)秀的算法工程師應(yīng)該具備一定的噪音處理能力樣本足夠大。樣本越大,得到準確結(jié)果的概率也就越大,小量樣本容易出現(xiàn)的情況能代表需求領(lǐng)域。比如,我現(xiàn)在要訓(xùn)練一個家具分類的模型,訓(xùn)練數(shù)據(jù)卻是一堆衣服,這明顯是不合理的。一般,樣本數(shù)據(jù)應(yīng)該是應(yīng)用領(lǐng)域的抽樣,應(yīng)該能在統(tǒng)計意義上“代表”應(yīng)用域。適當?shù)奶卣餍畔?,比如,如果?xùn)練的是
4、一個detect模型,那特征就應(yīng)該圖片進行分割后對局部的描述,也就是各種各樣的box;如果樣本是對整張圖片的分類描述,那明顯是不符合需求的。另外如果算法只能處理“矩形”,特征卻是“不規(guī)則多邊形”,那對算法來說也是一個不小的挑戰(zhàn),不過這一點一般可以通過工程手段做調(diào)整。訓(xùn)練樣本說白了就是一個大的數(shù)據(jù)集,要籌集這個數(shù)據(jù)大致需要做兩步工作,以圖像為例,一是收集大量的圖片;而是處理圖片,標識出圖片包含的特征信息。收集圖片如果出于學(xué)習(xí)目的,我們可以從各種開放數(shù)據(jù)源下載圖片作為訓(xùn)練數(shù)據(jù),好處是幾乎沒有成本,壞處是針對性很低。舉幾個例子:,良好標注的數(shù)據(jù)集,每張圖都會邊框、邊框分類2.,谷歌出品的數(shù)據(jù)集3.c
5、affe、pytorch等深度學(xué)習(xí)框架也都提供了很多訓(xùn)練用例更多開放數(shù)據(jù)源,可以參考。開放數(shù)據(jù)源一般都經(jīng)過業(yè)界長期的試煉,有著比較完整、完善、正確的數(shù)據(jù)集,能夠快速獲取,作為學(xué)習(xí)素材是非常合適的。但一般針對性不高,很多情況下并不符合需求,比如我要訓(xùn)練一個識別飲料的模型,就很難找到針對“飲料”這一類別,有足夠sku樣本的開放數(shù)據(jù)源。因此,很多模型開發(fā)還是需要自行籌備數(shù)據(jù)集,這里面門門道道就多了去了,不過方法也就那么幾類:通過爬蟲收集網(wǎng)絡(luò)圖片,比如針對商品搜索場景,會寫個爬蟲爬爬某東某寶。這也是很多AI公司會配備爬蟲工程師的原因購買,現(xiàn)在已經(jīng)有不少公司專門售賣各種數(shù)據(jù)集,如何數(shù)據(jù)集合適,這種方式會
6、比自己做快捷很多。由合作方提供,比如現(xiàn)在要為一個五金企業(yè)訓(xùn)練分類模型,那從他們手上很方便就能拿到各種產(chǎn)品圖;又或者要訓(xùn)練一個癌細胞識別模型,這些X光片是非常敏感的隱私數(shù)據(jù),全網(wǎng)基本上很難找到適合的,那由合作意愿提供也是非常合情合理的。線下采集,有些模型針對性比較高,應(yīng)用場景有限,而又找不到合適的數(shù)據(jù)集時,可能就需要有針對性的采集圖片。國內(nèi)也已經(jīng)有很多外包采集公司,比如、經(jīng)過上述方法收集來的圖片,還需要經(jīng)過一系列的預(yù)處理,比如把剔除無效樣本、補充缺失樣本;比如太大的圖片做個壓縮;比如給每張圖添加一些原信息。這些步驟可能很復(fù)雜,可能很簡單,變動太大,隨機應(yīng)變即可。真正的重點是后續(xù)的步驟:圖像標注。
7、圖像標注標注就是以各種技術(shù)手段將圖像信息以數(shù)字化、計算機可理解的方式表達出來,比如以邊框、類別結(jié)構(gòu)標注圖像中的物體。標注不必選項,有些模型僅僅關(guān)注圖像的視覺信息,不對內(nèi)容做任何語義解讀,不需要分割,不需要分類,比如常見的各種通用圖像搜索于樣本數(shù)據(jù)量,標注過程往往需要大量人力投入,標注的規(guī)則也會應(yīng)模型需求的變化而變化。不過常見的標注需求還是比較容易總結(jié)的,包括:標注圖像中物體的邊框、類別或文字信息標注同類圖像集,常見的有商品同款標注圖像分類,針對整圖信息的分類圖像相似度標注,一般用于評價樣品圖與候選圖集之間的相似性,特別適用于評價搜索服務(wù)質(zhì)量關(guān)鍵點標注對標注的管理往往是對人以及信息的管理。前面說
8、過,訓(xùn)練數(shù)據(jù)的正確性對模型質(zhì)量有非常非常大的影響,依靠人力的標注很難百分比保證正確性,但還是有必要保證大的正確率。需要通過各種工程手段、管理方法,從立項、準備數(shù)據(jù)到確定標注群體、確定工期、確定標注規(guī)則、標注、質(zhì)量審核、數(shù)據(jù)過濾、算法驗收等等,確保每個步驟盡量不要出現(xiàn)紕漏。當然,在保質(zhì)保量、按時完成的前提下,一個好的管理者,往往還要考慮成本。跟人打交道,每個步驟都可能出幺蛾子,都有一些講究,比如說:確定標注群體也就是確定由誰來標注。筆者接觸過的大部分標注任務(wù),都比較簡單,標個人臉;標個商品,基本沒有門檻,這就適合由學(xué)歷不高,但價格低廉的人來做。這種情況下往往可以通過眾包、外包方式,將標注工作分發(fā)
9、到二三線,甚至農(nóng)村地區(qū)?,F(xiàn)在已經(jīng)有一些很成熟的眾包標注網(wǎng)站,比如、,blabla。也有一些對專業(yè)知識要求很高的任務(wù),比如對癌細胞X光片的標注,這還真就必須得由經(jīng)驗老到的專業(yè)醫(yī)生做。這種垂直領(lǐng)域的人才目前非常難找到合適的群體,數(shù)量少,成本低,周期長,一般也就大廠能搞搞。確定標注規(guī)則商用模型都有特定需求,解決特定問題,模型所需要的訓(xùn)練數(shù)據(jù)也就需要根據(jù)應(yīng)用需求的變化而變化。訓(xùn)練數(shù)據(jù)的標注規(guī)則,可能很簡單,比如,一個只用于識別可口可樂的模型,那就只需要標志出圖片中可口可樂包裝的位置、sku信息;也可能會非常非常復(fù)雜,比如上文提到的癌細胞標注,對癌細胞的識別需要高度專業(yè)知識,形狀又千奇百怪;也可能會非常
10、抽象,比如一個通用物體搜索模型,判斷結(jié)果的好壞(DCG)非常依賴標注者主觀意識,很難也不能定義統(tǒng)一規(guī)則。標注規(guī)則對數(shù)據(jù)樣本好壞有決定作用,必須慎之又慎,需要各種干系人介入反復(fù)討論,這方面與需求工程倒是有幾分相似之處。標注有人有規(guī)則,那就可以開干了。標注過程可能需要面向大規(guī)模的人力,大批量的圖像,耗費相當長一段時間,除了上述準備的充足外,如何提高信息傳遞率、如何盡早發(fā)現(xiàn)問題及時修正、如何優(yōu)化工具降低標注成本、如何結(jié)算薪酬、如何協(xié)同調(diào)度多個標注任務(wù)。等等,太多問題需要考量,這方面就需要很強的開發(fā)、協(xié)調(diào)、質(zhì)檢、成本控制、資源調(diào)度等能力。很多人把數(shù)據(jù)比喻成人工智能的煤炭能源,但這能源的生產(chǎn)行業(yè)目前很混
11、亂原始,問題很大,行業(yè)很新,人才很少,我個人認為未來這方面的專業(yè)人才會越來越吃香。作為一個開發(fā),我更多關(guān)注于“標注工具”。標注工具可能很復(fù)雜,對功能、體驗、性能、健壯性等等的要求,一點不比TOC產(chǎn)品低。我們的標注平臺,由最初的單機單實例單數(shù)據(jù)庫,發(fā)展到現(xiàn)在已經(jīng)變成兩臺服務(wù)器、兩個應(yīng)用實例、兩個MongoDB、兩個mysql服務(wù),代碼上拆解成五個微服務(wù)、一個http服務(wù)(BFF);標注功能上,最復(fù)雜的一次是開發(fā)了一個圖像分割工具,支持圖像分割(基于)、多邊形邊框、剪切、復(fù)制、撤銷、濾鏡、導(dǎo)入、導(dǎo)出等等,嚴格來說已經(jīng)算是一個不錯的編輯器了,下次開一個專題聊聊。后記林林總總,聊了很多。2018的人工智能已經(jīng)有些退燒,但涌入的資本并不見少,也依然有許多人才加入,至少近
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度年福建省高校教師資格證之高等教育心理學(xué)題庫綜合試卷B卷附答案
- 2024年圖書館管理服務(wù)項目資金申請報告代可行性研究報告
- 五年級數(shù)學(xué)(小數(shù)乘除法)計算題專項練習(xí)及答案
- 文化自信背景下民族傳統(tǒng)體育文化的傳承與發(fā)展
- 魯教版高三上學(xué)期期末地理試題及解答參考
- 2024年定制出口業(yè)務(wù)銷售協(xié)議模板
- 保安公司門衛(wèi)服務(wù)承攬協(xié)議范本
- 2024高品質(zhì)彩鋼房建設(shè)協(xié)議書
- 2024批次高品質(zhì)片石購買協(xié)議
- 2024年健身機構(gòu)業(yè)務(wù)合作伙伴協(xié)議
- 2023-2024學(xué)年北京海淀區(qū)首都師大附中初二(上)期中道法試題及答案
- (正式版)HGT 6313-2024 化工園區(qū)智慧化評價導(dǎo)則
- 二級公立醫(yī)院績效考核三級手術(shù)目錄(2020版)
- 新蘇教版六年級上冊《科學(xué)》全一冊全部課件(含19課時)
- 親子閱讀ppt課件
- 愛心媽媽結(jié)對幫扶記錄表
- 農(nóng)貿(mào)市場建設(shè)項目裝飾工程施工方案
- 八年級語文上冊期中文言文默寫(含答案)
- MATLAB語言課程論文 基于MATLAB的電磁場數(shù)值圖像分析
- 暗挖隧道帷幕注漿專項方案[優(yōu)秀工程方案]
- 淺談城市燃氣管網(wǎng)安全運行存在問題及處理對策
評論
0/150
提交評論