科博杯第三屆中國研究生人工智能創(chuàng)新大賽賽題_第1頁
科博杯第三屆中國研究生人工智能創(chuàng)新大賽賽題_第2頁
科博杯第三屆中國研究生人工智能創(chuàng)新大賽賽題_第3頁
科博杯第三屆中國研究生人工智能創(chuàng)新大賽賽題_第4頁
科博杯第三屆中國研究生人工智能創(chuàng)新大賽賽題_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

科博杯”第三屆中國研究生人工智能創(chuàng)新大賽賽題一、大賽賽題(一)技術(shù)創(chuàng)新:開放題(二)應(yīng)用創(chuàng)意:開放題(三)企業(yè)賽題:華為賽題共4個,均為華為技術(shù)有限公司從實(shí)際需求出發(fā)擬定的與智能技術(shù)密切相關(guān)的題目。屬于此種選題方式的作品還可以參與華為專項(xiàng)獎的評獎。1.華為賽題一1.1

題目名稱:提升AI模型在工業(yè)質(zhì)檢中“通用性”1.2

題目描述計(jì)算機(jī)視覺在智能制造工業(yè)檢測中發(fā)揮著檢測識別和定位分析的重要作用,為提高工業(yè)檢測的檢測速率和準(zhǔn)確率以及智能自動化程度做出了巨大的貢獻(xiàn)。然在應(yīng)用過程中會存在如下“通用性”差的問題:(1)易受光照影響。目前的AOI工業(yè)質(zhì)檢設(shè)備,都需要加補(bǔ)光裝置,而通常在某一個光照條件下訓(xùn)練的AI模型,很難“泛化”到其他光照條件下。(2)樣本數(shù)據(jù)少?;诠I(yè)質(zhì)檢場景對高精度要求,目前AI模型,通常采用有監(jiān)督學(xué)習(xí)方式,需要采集大量缺陷樣本進(jìn)行訓(xùn)練,當(dāng)在實(shí)際生產(chǎn)中,缺陷產(chǎn)品占比很小,很難收集大量樣本。(3)無法跨域“遷移”。比如訓(xùn)練了一個PC外觀缺陷檢測的模型,但是卻無法直接用于手機(jī)屏幕、冰箱、洗衣機(jī)甚至不同型號的PC的外觀缺陷檢測。1.3

具體要求(1)所提方法,必須具有“通用性”,不可只能解決某一個小問題。(2)可在一些公開數(shù)據(jù)集上實(shí)現(xiàn)算法,進(jìn)行驗(yàn)證,并通過多組對比實(shí)驗(yàn),證明方法的有效性。(3)在保證模型“通用性”條件下,盡量保證模型精度不下降。1.4

華為賽題一咨詢專家及聯(lián)系郵箱:OCR及工業(yè)質(zhì)檢通用性--溫雨金--wenyujin@

2.華為賽題二2.1

題目名稱:自然場景下的小樣本光學(xué)字符識別算法2.2

題目描述當(dāng)前光學(xué)字符識別算法,主要采用深度學(xué)習(xí)的方法進(jìn)行識別,目的是識別出圖像中出現(xiàn)的文字。由于傳統(tǒng)的深度學(xué)習(xí)方法需要基于大量樣本進(jìn)行有監(jiān)督訓(xùn)練,在訓(xùn)練樣本不充足的情況下,難以得到泛化性高的模型。這導(dǎo)致在新增樣本識別任務(wù)中,出現(xiàn)誤判或者錯判。在制造,供應(yīng)倉儲等場景下,對于元器件、電路板的字符圖片,由于元器件供應(yīng)商多,器件種類多,字符的樣式多種多樣,且針對一家供應(yīng)商無法大量搜集電路板、元器件上的字符圖片樣例,同樣對于跨境運(yùn)輸?shù)呢涇嚕嚺茦邮?,字體均不一致,且數(shù)據(jù)難以搜集。需要一種小樣本訓(xùn)練的算法,在提供少量(20張以內(nèi))圖片的情況下,即可訓(xùn)練出一個識別模型,識別待測物體的字符。2.3

具體要求(1)基于小樣本學(xué)習(xí)的光學(xué)字符識別算法,訓(xùn)練樣本數(shù)量小于等于20張圖片。對采集到的圖像進(jìn)行標(biāo)記、學(xué)習(xí),生成識別模型??蓪?shí)現(xiàn)圖像的自動采集、在線處理和檢測及識別。(2)模型以一張圖片作為數(shù)據(jù),以Json格式輸出圖片中的文字的位置和內(nèi)容。2.4

華為賽題二咨詢專家及聯(lián)系郵箱自然場景下的小樣本光學(xué)字符識別算法--溫雨金--wenyujin@

3.

華為賽題三3.1

題目名稱:視覺-語義模式匹配3.2

題目描述當(dāng)代基于深度神經(jīng)網(wǎng)絡(luò)的視覺模型已經(jīng)取得了極大的成功。但許多實(shí)驗(yàn)都表明,常規(guī)視覺模型通常以感知的形式實(shí)現(xiàn)各類視覺任務(wù),如檢測、分割、識別等等。一旦這些任務(wù)中涉及抽象的語義,視覺模型通常會受到困擾,并且容易發(fā)生過擬合。一種可能的方式是通過自然語言描述與視覺信息的模式匹配,使得視覺模型可以區(qū)分不同語義的信息,完成更高魯棒性的特征提取過程,并且可以利用這一點(diǎn)直接支持下游各類任務(wù)。比如,在倉儲、物流等場景中,模型可以直接根據(jù)“卸貨車輛后方未著工作服的行人”這類概念提示潛在貨物風(fēng)險或行人危險;在商業(yè)文檔識別等場景中,模型可以根據(jù)“價格欄下方的數(shù)字”作為潛在的物品價格等等可能。請?jiān)O(shè)計(jì)一種視覺-語義模式匹配的方式,使得至少可以通過自然語言輸入完成對圖像的檢索,或者對給定的圖像完成正確的自然語言描述輸出。3.3

具體要求(1)圖像檢索任務(wù)可以是從圖庫中檢索單張或多張圖片,也可以從圖片中進(jìn)一步檢測出給定的待選區(qū)域,或是兩者結(jié)合。輸入越接近自然語言、結(jié)果越是準(zhǔn)確、檢索的內(nèi)容越是精細(xì)的檢索方式得分越高。不限定自然語言輸入的格式要求,允許設(shè)計(jì)帶有限制性的語言格式(比如可以設(shè)計(jì)一個JSON列表作為輸入,但JSON的值仍然需要盡可能地包含自然語言)。(2)語言輸出任務(wù)是對選定圖片進(jìn)行語言描述,描述的準(zhǔn)確性越高、信息越豐富,得分越高。語言流暢度不作為主要得分項(xiàng)(所以也可以一定程度上結(jié)構(gòu)化輸出),但至少應(yīng)該可以被人類較方便地讀懂。(3)任務(wù)數(shù)據(jù)限定為自然場景數(shù)據(jù)和OCR類文檔數(shù)據(jù)。參考文獻(xiàn)僅提供參考,可以使用其他合理的數(shù)據(jù)集,但所使用數(shù)據(jù)集需要本身為公開數(shù)據(jù)集或可以被公開展示。(4)提供與現(xiàn)有基線方法的比較和差異化創(chuàng)新點(diǎn)說明。3.4

參考文獻(xiàn)與數(shù)據(jù)集ModelingContextinReferringExpressions:/pdf/1608.00272ContrastiveLanguage-ImagePre-Training:/abs/2103.00020FromRecognitiontoCognition:VisualCommonsenseReasoning:/abs/1811.10830VQA:VisualQuestionAnswering:/abs/1505.004683.5

華為賽題三咨詢專家及聯(lián)系郵箱視覺語義題目--李成--licheng81@

4.華為賽題四4.1題目名稱:任務(wù)型多輪對話理解4.2

業(yè)務(wù)背景多輪對話系統(tǒng)研發(fā)是讓機(jī)器具備與人交流的能力的人工智能領(lǐng)域的一項(xiàng)關(guān)鍵和極具挑戰(zhàn)性的任務(wù)。其核心包含自然語言理解、多輪對話管理和自然語言生成,通俗地講,就是構(gòu)建能夠聽懂人話、了解用戶意圖并生成有意義且相關(guān)的回復(fù)來幫助人類的人工智能系統(tǒng)。現(xiàn)有的多輪對話系統(tǒng)由于需要考慮對話的時序上下文依賴和用戶在多領(lǐng)域的意圖的動態(tài)變化,其可靠性、可擴(kuò)展性和領(lǐng)域自適應(yīng)性存在缺陷。具體研究問題的細(xì)化就是如何在訓(xùn)練語料不足時,利用預(yù)訓(xùn)練語言模型和知識表示對意圖、目標(biāo)做出動態(tài)的感知和推理;在多輪對話管理和對話文本生成研究中探索包含用戶個性、情感、任務(wù)和領(lǐng)域的對話特征記憶以解決多領(lǐng)域適應(yīng)的目標(biāo)表示和對話策略連續(xù)學(xué)習(xí);在用戶目的不明確時如何構(gòu)造引導(dǎo)式的對話管理等。任務(wù)型對話可廣泛應(yīng)用于華為多種業(yè)務(wù)場景中,典型場景為CBG客服場景(如產(chǎn)品售前售后咨詢、故障申告、退換貨等)、12345IT服務(wù)熱線(如HR政策咨詢、辦公軟件使用問題等)以及WeLink辦公助手(預(yù)訂機(jī)票、酒店和會議室等)。4.3

題目描述多輪對話系統(tǒng)研發(fā)是讓機(jī)器具備與人交流的能力,是人工智能領(lǐng)域一項(xiàng)關(guān)鍵和極具挑戰(zhàn)性的任務(wù)。其核心包含自然語言理解、多輪對話管理。通俗地講,就是構(gòu)建能夠聽懂人話、了解用戶意圖進(jìn)而返回系統(tǒng)響應(yīng)。作為下一代人機(jī)交互的核心技術(shù),各大公司紛紛入局并推出了自己的產(chǎn)品或服務(wù),例如華為小藝,AppleSiri,GoogleAssistant,百度度秘等。同時,各大銀行,運(yùn)營商,電商等也推出了自己的智能客服,智能導(dǎo)購系統(tǒng)。請?jiān)O(shè)計(jì)針對多輪對話的“自然語言理解”算法來理解(結(jié)構(gòu)化)用戶會話(UserUtterance)。一般來說,這里的輸入是從0到t時刻的用戶及系統(tǒng)歷史對話<U0,M0,U1,M1,……,Ut-1,Mt-1Ut,Mt>,

其中Uk為第k輪用戶會話,Mk為第k輪系統(tǒng)會話,輸出是此輪用戶會話涉及的領(lǐng)域、意圖及槽位(含槽值)。4.4

具體要求(1)參賽者可自由設(shè)計(jì)算法方案來比賽,但不可調(diào)用第三方外部接口,也不可使用基于規(guī)則的技術(shù)方案。(2)參賽者可采用業(yè)界常見的評估方法,也可根據(jù)自己的理解定義評估方法,有合理性即可。(3)需要考慮數(shù)據(jù)集中可能出現(xiàn)的指代消解問題。4.5

參考數(shù)據(jù)集任務(wù)型對話數(shù)據(jù)集:MultiWOZ2.3/lexmen318/MultiWOZ-coref4.6

參考文獻(xiàn)NLU[1]ChenQ,ZhuoZ,WangW.Bertforjointintentclassificationandslotfilling[J].arXivpreprintarXiv:1902.10909,2019.MultiWOZ2.3[3]Han,Ting,etal."MultiWOZ2.3:Amulti-domaintask-orienteddatasetenhancedwithannotationcorrectionsandco-referenceannotation."

arXivpreprintarXiv:2010.05594

(2020).Benchmark[2]Takanobu,Ryuichi,etal."Isyourgoal-orienteddialogmodelperformingreallywell?empiricalanalysisofsystem-wiseevaluation."

arXivpreprintarXiv:2005.07362

(2020)4.7

華為賽題四咨詢專家及聯(lián)系郵箱中文任務(wù)型多輪對話理解--劉喜明--liuximing1@*華為賽題專項(xiàng)獎華為公司為選擇華為賽題的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論