2023機(jī)器視覺人工智能AI技術(shù)_第1頁
2023機(jī)器視覺人工智能AI技術(shù)_第2頁
2023機(jī)器視覺人工智能AI技術(shù)_第3頁
2023機(jī)器視覺人工智能AI技術(shù)_第4頁
2023機(jī)器視覺人工智能AI技術(shù)_第5頁
已閱讀5頁,還剩42頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

機(jī)器視覺人工智能AITOC\o"1-1"\h\z\u視覺生產(chǎn)技術(shù)探索和應(yīng) 身份證識(shí)別系統(tǒng)搭 視覺生產(chǎn)技術(shù)探索和應(yīng)用視覺生產(chǎn)技術(shù)探索和應(yīng)用 PAGE11 PAGE6就視覺而言一般來說有兩大類:一類是視覺理解,比如檢測(cè)、分割等;另外一類/的視覺表達(dá)。如下圖所示,有兩點(diǎn)需要注意,一是這里的視覺表達(dá)指的是人或機(jī)器能夠感知的圖像視頻,而不是標(biāo)簽或特征,二是產(chǎn)出新的視覺表達(dá),和輸入是不一樣的PS等工具完成,現(xiàn)在,我們希望通過技術(shù)能夠?qū)崿F(xiàn)這個(gè)過程。如下圖所示,視覺生產(chǎn)主要包括生成、拓展、摘要、升維,另外還有增強(qiáng)//些產(chǎn)品,比如鹿班、畫蝶、視覺智能放平臺(tái)等。視覺生產(chǎn)有自己基本的通用框架,如下圖所示??赡茉诩?xì)節(jié)上有細(xì)微不同,但是一般來講其邏輯是類似的,包括請(qǐng)求(Request)、分發(fā)(Dispatch)、服務(wù)(Service)和響應(yīng)(Response)如下圖所示,要保證視覺生產(chǎn)有一個(gè)好的結(jié)果或者說可用的結(jié)果,其至少應(yīng)滿足可看、合理、多樣、可控、可用五個(gè)維度,只有這樣,才能在工業(yè)界產(chǎn)生真正的價(jià)值,而不僅僅是一個(gè)停留于理論的技術(shù)。如果想生產(chǎn)一個(gè)視覺,首先我們要理解輸入的視覺,也就是需要精細(xì)的理解視其中,視覺分割是生產(chǎn)的必要前置步驟,也是學(xué)術(shù)界和工業(yè)界的一個(gè)熱點(diǎn),同時(shí)也是難點(diǎn),因?yàn)檫M(jìn)行分割時(shí)往往有復(fù)雜的背景和各種遮擋關(guān)系,或者在分割時(shí)對(duì)其要/尺度進(jìn)行分割等問題。實(shí)際上,分割時(shí)遇到的這些難題歸根到底是標(biāo)注成本高、數(shù)據(jù)嚴(yán)重不足的問題,更進(jìn)一步,即使標(biāo)注出來了,但是想要精細(xì)得將其分割出來,成本如下圖所示,分割摳圖包括不同的層次,從語義分割到實(shí)例分割再到ImageAI基于分割摳圖技術(shù),我們可以對(duì)分割進(jìn)行拓展,進(jìn)行多式多樣的分割,比如對(duì)人的分割,可以從圖像中分割出人的頭像、單獨(dú)分割出頭發(fā)、單獨(dú)分割出人臉等,更進(jìn)一步,除了靜態(tài)圖像的分割,我們甚至對(duì)視頻進(jìn)行分割,在動(dòng)態(tài)的視頻中提取人物。類似的,對(duì)于動(dòng)物分割、車輛分割、商品分割、動(dòng)畫分割等,我們也可以進(jìn)行相應(yīng)的拓展,來豐富我們的分割粒度。另外的,對(duì)于場(chǎng)景摳圖,比如天空分割,我們把天空分割出來的同時(shí)把人物、物體等分割出來,進(jìn)行場(chǎng)景分割的拓展。提供大規(guī)模在線的AI設(shè)計(jì)服務(wù)。它是針對(duì)平面圖像設(shè)計(jì)生成的產(chǎn)品,一始在阿里6鹿班在多個(gè)領(lǐng)域有著廣泛的應(yīng)用,一始是在電商領(lǐng)域,主要有以下兩個(gè)能力AI(二)視覺生成——鹿班主要針對(duì)的是平面圖生成,但是實(shí)際上更多場(chǎng)景需要的是視頻生成,比如AlibabWood的生成,目前已經(jīng)累計(jì)生成了超過2000萬個(gè)短視頻,同時(shí)還有劇本生成、智能文案生成、自動(dòng)剪輯、智能音樂推薦等實(shí)用功能。AlibabWood示,總體包括素材準(zhǔn)備、基礎(chǔ)特效、智能特效和智能編排四大步驟,包括了眾多技術(shù)在內(nèi)。AibaWod有著眾多應(yīng)用案例,比如場(chǎng)景化智能視頻的生成,還可以規(guī)模化生上面視頻植入是增加一些東西到視頻中,有時(shí)候我們也要從視頻中擦除一些東西,比如字母擦除、臺(tái)標(biāo)擦除、廣告擦除等等,其核心挑戰(zhàn)是分割,只有更精確的分割才能夠精確的擦除。43ipad、PC、手機(jī)上面播放的時(shí)候出現(xiàn)了尺寸不匹配的情況,這時(shí)候就要進(jìn)行畫幅變化,變化之后為了有完整的視覺效果,需要進(jìn)行內(nèi)容補(bǔ)全,如下圖所示。人臉是最重要的目標(biāo)對(duì)象,對(duì)人像進(jìn)行細(xì)節(jié)修復(fù)增強(qiáng),有很重要的意義和價(jià)值,如下圖所示,可以用視覺增強(qiáng)技術(shù)對(duì)人臉進(jìn)行修復(fù)增強(qiáng),突出主要信息。CG渲染時(shí)間幾乎與圖像分辨率成正比,高質(zhì)量真實(shí)感渲染需要30分鐘才能生產(chǎn)一張圖像,針對(duì)CG渲染流水線研發(fā)的超分辨率技術(shù)可以把低分辨率圖像放大到與HDRHDR色彩擴(kuò)展,增強(qiáng)視頻顯示效果。2D3D融合,還可以將其與背景或者其他商品結(jié)合在一起,直接3D2D的轉(zhuǎn)換,形成一目前,該平臺(tái)已經(jīng)放了2個(gè)多月,主要包含了如下圖所示的多種能力,包括圖4更多的方法和實(shí)例大家可以到視覺智能放平臺(tái)官網(wǎng)查看和詳細(xì)了解 PAGE26>身份證識(shí)別系統(tǒng)搭建身份證識(shí)別系統(tǒng)搭建身份證識(shí)別系統(tǒng)搭建 PAGE27 bootApplication:Spring-BootOcrService:負(fù)責(zé)通過SDK調(diào)用視覺智能放平臺(tái)的OCR能力pom.xml:pom二、如何獲取視覺智能開放平臺(tái)提供的SDK以發(fā)現(xiàn)平臺(tái)已經(jīng)放了包括人臉識(shí)別、文字識(shí)別、商品理解等在內(nèi)的多項(xiàng)視覺AI能在文檔頁面,我們點(diǎn)擊SDK參考,可以看到有兩個(gè)Java的SDK說明,兩個(gè)SDK的區(qū)別主要是新的JavaSDK支持本地上傳圖片,也就是說通過這個(gè)新的SDK可以直接把本地的圖片交給視覺智能放平臺(tái)來進(jìn)行OCR識(shí)別、人臉識(shí)別等任務(wù)。OCRSDKhttps://mvnreposito-/artifact/com.aliyun/ocrSDK,然后獲取我Maven坐標(biāo)。在獲取了Maven坐標(biāo)之后,如下圖所示,我們可以通過在om.xml文件中添加Maven依賴安裝javaSDK,這樣便成功獲取到了視覺智能放平臺(tái)提供的thymeeaf題、2個(gè)表單、2個(gè)上傳文件的組件以及一個(gè)始識(shí)別的按鈕。bootstrapjquery來進(jìn)行頁面的美化,我們用代理的方式來實(shí)現(xiàn)美化,相當(dāng)于我們點(diǎn)擊“上傳人inputinputformalert,在用戶上傳的圖片出現(xiàn)問題的時(shí)候會(huì)進(jìn)行提示或者報(bào)錯(cuò)。下圖是在用戶上傳正確的圖片并提交之后的相關(guān)代碼邏輯,主要分為兩部分:一ORry)、調(diào)用視覺智能放平臺(tái)能力的封裝(ocrService)、上傳圖片的緩存路徑地址saveFileindex是一個(gè)控制方法,是一始進(jìn)入頁面時(shí)候用來加載模版的。首先是判斷faceImage和backImage緩存是否一樣,如果不一樣,就全部清除掉;其次就是將e面的國(guó)徽面的文件,還有一個(gè)用來重定向的參數(shù)。首先,判斷兩張圖片是否是空的,ndx,相當(dāng)于重新進(jìn)入首頁,并且會(huì)有一個(gè)messae來提示用戶必須要上傳一個(gè)文件,否則是無效的;接下來判斷上傳目錄是否存在,如果不存在就遞歸的進(jìn)行創(chuàng)建;然后如果人像面的文件不為空,將其保存到本地,緊接著調(diào)用視覺智能放平臺(tái)的能力去進(jìn)行識(shí)別,在拿到結(jié)果之后將上傳的圖片和識(shí)別結(jié)果加入到緩存池中,國(guó)徽面的處理方式也類似;最后幾行代碼是異常的處理,并且會(huì)告知用戶是哪種報(bào)錯(cuò)。e的實(shí)現(xiàn)代碼如下所示。首先,是4個(gè)私有變量,ocrClient、runtime、accessKeyIdaccessKeySecret,accessKeyIdacces-KySeret要在配置文件中進(jìn)行配置;其次是一個(gè)初始化方法,初始化Clenttime;接下來是真正調(diào)用視覺智能放平臺(tái)身份證識(shí)別的方,具體來,在設(shè)requestrequesteocrClientresonse,也就是識(shí)別的結(jié)果,之后我們將Map PAGE36>電子相冊(cè)搭建(人臉、表情識(shí)別 PAGE37 common:config:裝載或者是數(shù)據(jù)庫的配置,我們都會(huì)放在config,webAP-Pconfig是對(duì)我們的靜態(tài)資源,比如說css、js還有一些圖片,做了一個(gè)映static,然后我們把它映射到classpath:/static另外需要注意一下,通過multipartFile獲取的是一個(gè)文件的輸入流,輸入流的話它只能讀取一次,然后如果要重復(fù)讀的話就會(huì)是空。所以我們把它轉(zhuǎn)化成一個(gè)ByteArrayInputStream流,然后我們?cè)诿看斡猛曛螅覀兛梢园阉M(jìn)行一個(gè)重名,為了避免重名,我們對(duì)這個(gè)圖片的input的流,我們給它求一個(gè)md5值作為ResourceService是一個(gè)資源的管理器,先來看兩個(gè)函數(shù),Postconstruct注解,我們會(huì)先去執(zhí)行這個(gè)函數(shù),取出保存在本地的數(shù)組并且加載到內(nèi)存中去。PreDestroy注解,在銷毀對(duì)象的時(shí)候,把這些數(shù)據(jù)保存到本地文件,也就是說保存datadata.jsoncateMap之后又分成兩個(gè)場(chǎng)景expression、scenemap的作用。expressionMap是表示某類標(biāo)簽下面都包括哪些圖片,senceMap也是同樣的意imgLbels比如說我們可以看到它可能這張圖片它可能直接識(shí)別出來了,它是屬于人物場(chǎng)景,屬于運(yùn)動(dòng)場(chǎng)景,然后屬于生氣的表情,屬于演出等場(chǎng)景。VisionServiceVisonSrvice,識(shí)別場(chǎng)景,表情。我們上傳圖片流,我們把整個(gè)圖片流傳到接口里面,然后從服務(wù)端去識(shí)別這個(gè)場(chǎng)景。限制就是說我們必須是利用這種oss的對(duì)象才能夠識(shí)別,新的版本的SDK我們就是vueelmnt-ui找到一個(gè)圖片,我們可以看到兩種方式,一種拖拽,一種是點(diǎn)擊上傳,這是通過一個(gè)組件來實(shí)現(xiàn)的。我們大概來介紹組件的實(shí)現(xiàn),這是有不同的功能區(qū)分的。acionplod哪些事情,也就是對(duì)應(yīng)的要執(zhí)行的函數(shù)。比如UlodSccess指上傳成功之后,我們要刷新頁面,添加下面的標(biāo)簽分類等。vue,photos。photos后臺(tái)去取回?cái)?shù)據(jù),之后把它渲染到前端的tml它會(huì)有對(duì)應(yīng)的自己一個(gè)模板,這個(gè)就是我們整個(gè)的模板部分,之后對(duì)它進(jìn)行背景圖片的處理,然后以及一些事件的定義。ve,它的整個(gè)是一個(gè)事件的數(shù)據(jù)流,通過數(shù)據(jù)的不同的變化,然后我們就可以去觸發(fā)它的渲染,比如上傳一張圖片,它是可以對(duì)應(yīng)不同的組件進(jìn)行交互,利用不同的標(biāo)簽,事件來驅(qū)動(dòng)數(shù)據(jù)的變化。mountedmethodsnextphoto,我們就會(huì)去訪問下vueelIDappIDap

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論