2023機器視覺人工智能AI技術(shù)_第1頁
2023機器視覺人工智能AI技術(shù)_第2頁
2023機器視覺人工智能AI技術(shù)_第3頁
2023機器視覺人工智能AI技術(shù)_第4頁
2023機器視覺人工智能AI技術(shù)_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

機器視覺人工智能AITOC\o"1-1"\h\z\u視覺生產(chǎn)技術(shù)探索和應(yīng) 身份證識別系統(tǒng)搭 視覺生產(chǎn)技術(shù)探索和應(yīng)用視覺生產(chǎn)技術(shù)探索和應(yīng)用 PAGE11 PAGE6就視覺而言一般來說有兩大類:一類是視覺理解,比如檢測、分割等;另外一類/的視覺表達。如下圖所示,有兩點需要注意,一是這里的視覺表達指的是人或機器能夠感知的圖像視頻,而不是標簽或特征,二是產(chǎn)出新的視覺表達,和輸入是不一樣的PS等工具完成,現(xiàn)在,我們希望通過技術(shù)能夠?qū)崿F(xiàn)這個過程。如下圖所示,視覺生產(chǎn)主要包括生成、拓展、摘要、升維,另外還有增強//些產(chǎn)品,比如鹿班、畫蝶、視覺智能放平臺等。視覺生產(chǎn)有自己基本的通用框架,如下圖所示??赡茉诩毠?jié)上有細微不同,但是一般來講其邏輯是類似的,包括請求(Request)、分發(fā)(Dispatch)、服務(wù)(Service)和響應(yīng)(Response)如下圖所示,要保證視覺生產(chǎn)有一個好的結(jié)果或者說可用的結(jié)果,其至少應(yīng)滿足可看、合理、多樣、可控、可用五個維度,只有這樣,才能在工業(yè)界產(chǎn)生真正的價值,而不僅僅是一個停留于理論的技術(shù)。如果想生產(chǎn)一個視覺,首先我們要理解輸入的視覺,也就是需要精細的理解視其中,視覺分割是生產(chǎn)的必要前置步驟,也是學(xué)術(shù)界和工業(yè)界的一個熱點,同時也是難點,因為進行分割時往往有復(fù)雜的背景和各種遮擋關(guān)系,或者在分割時對其要/尺度進行分割等問題。實際上,分割時遇到的這些難題歸根到底是標注成本高、數(shù)據(jù)嚴重不足的問題,更進一步,即使標注出來了,但是想要精細得將其分割出來,成本如下圖所示,分割摳圖包括不同的層次,從語義分割到實例分割再到ImageAI基于分割摳圖技術(shù),我們可以對分割進行拓展,進行多式多樣的分割,比如對人的分割,可以從圖像中分割出人的頭像、單獨分割出頭發(fā)、單獨分割出人臉等,更進一步,除了靜態(tài)圖像的分割,我們甚至對視頻進行分割,在動態(tài)的視頻中提取人物。類似的,對于動物分割、車輛分割、商品分割、動畫分割等,我們也可以進行相應(yīng)的拓展,來豐富我們的分割粒度。另外的,對于場景摳圖,比如天空分割,我們把天空分割出來的同時把人物、物體等分割出來,進行場景分割的拓展。提供大規(guī)模在線的AI設(shè)計服務(wù)。它是針對平面圖像設(shè)計生成的產(chǎn)品,一始在阿里6鹿班在多個領(lǐng)域有著廣泛的應(yīng)用,一始是在電商領(lǐng)域,主要有以下兩個能力AI(二)視覺生成——鹿班主要針對的是平面圖生成,但是實際上更多場景需要的是視頻生成,比如AlibabWood的生成,目前已經(jīng)累計生成了超過2000萬個短視頻,同時還有劇本生成、智能文案生成、自動剪輯、智能音樂推薦等實用功能。AlibabWood示,總體包括素材準備、基礎(chǔ)特效、智能特效和智能編排四大步驟,包括了眾多技術(shù)在內(nèi)。AibaWod有著眾多應(yīng)用案例,比如場景化智能視頻的生成,還可以規(guī)模化生上面視頻植入是增加一些東西到視頻中,有時候我們也要從視頻中擦除一些東西,比如字母擦除、臺標擦除、廣告擦除等等,其核心挑戰(zhàn)是分割,只有更精確的分割才能夠精確的擦除。43ipad、PC、手機上面播放的時候出現(xiàn)了尺寸不匹配的情況,這時候就要進行畫幅變化,變化之后為了有完整的視覺效果,需要進行內(nèi)容補全,如下圖所示。人臉是最重要的目標對象,對人像進行細節(jié)修復(fù)增強,有很重要的意義和價值,如下圖所示,可以用視覺增強技術(shù)對人臉進行修復(fù)增強,突出主要信息。CG渲染時間幾乎與圖像分辨率成正比,高質(zhì)量真實感渲染需要30分鐘才能生產(chǎn)一張圖像,針對CG渲染流水線研發(fā)的超分辨率技術(shù)可以把低分辨率圖像放大到與HDRHDR色彩擴展,增強視頻顯示效果。2D3D融合,還可以將其與背景或者其他商品結(jié)合在一起,直接3D2D的轉(zhuǎn)換,形成一目前,該平臺已經(jīng)放了2個多月,主要包含了如下圖所示的多種能力,包括圖4更多的方法和實例大家可以到視覺智能放平臺官網(wǎng)查看和詳細了解 PAGE26>身份證識別系統(tǒng)搭建身份證識別系統(tǒng)搭建身份證識別系統(tǒng)搭建 PAGE27 bootApplication:Spring-BootOcrService:負責通過SDK調(diào)用視覺智能放平臺的OCR能力pom.xml:pom二、如何獲取視覺智能開放平臺提供的SDK以發(fā)現(xiàn)平臺已經(jīng)放了包括人臉識別、文字識別、商品理解等在內(nèi)的多項視覺AI能在文檔頁面,我們點擊SDK參考,可以看到有兩個Java的SDK說明,兩個SDK的區(qū)別主要是新的JavaSDK支持本地上傳圖片,也就是說通過這個新的SDK可以直接把本地的圖片交給視覺智能放平臺來進行OCR識別、人臉識別等任務(wù)。OCRSDKhttps://mvnreposito-/artifact/com.aliyun/ocrSDK,然后獲取我Maven坐標。在獲取了Maven坐標之后,如下圖所示,我們可以通過在om.xml文件中添加Maven依賴安裝javaSDK,這樣便成功獲取到了視覺智能放平臺提供的thymeeaf題、2個表單、2個上傳文件的組件以及一個始識別的按鈕。bootstrapjquery來進行頁面的美化,我們用代理的方式來實現(xiàn)美化,相當于我們點擊“上傳人inputinputformalert,在用戶上傳的圖片出現(xiàn)問題的時候會進行提示或者報錯。下圖是在用戶上傳正確的圖片并提交之后的相關(guān)代碼邏輯,主要分為兩部分:一ORry)、調(diào)用視覺智能放平臺能力的封裝(ocrService)、上傳圖片的緩存路徑地址saveFileindex是一個控制方法,是一始進入頁面時候用來加載模版的。首先是判斷faceImage和backImage緩存是否一樣,如果不一樣,就全部清除掉;其次就是將e面的國徽面的文件,還有一個用來重定向的參數(shù)。首先,判斷兩張圖片是否是空的,ndx,相當于重新進入首頁,并且會有一個messae來提示用戶必須要上傳一個文件,否則是無效的;接下來判斷上傳目錄是否存在,如果不存在就遞歸的進行創(chuàng)建;然后如果人像面的文件不為空,將其保存到本地,緊接著調(diào)用視覺智能放平臺的能力去進行識別,在拿到結(jié)果之后將上傳的圖片和識別結(jié)果加入到緩存池中,國徽面的處理方式也類似;最后幾行代碼是異常的處理,并且會告知用戶是哪種報錯。e的實現(xiàn)代碼如下所示。首先,是4個私有變量,ocrClient、runtime、accessKeyIdaccessKeySecret,accessKeyIdacces-KySeret要在配置文件中進行配置;其次是一個初始化方法,初始化Clenttime;接下來是真正調(diào)用視覺智能放平臺身份證識別的方,具體來,在設(shè)requestrequesteocrClientresonse,也就是識別的結(jié)果,之后我們將Map PAGE36>電子相冊搭建(人臉、表情識別 PAGE37 common:config:裝載或者是數(shù)據(jù)庫的配置,我們都會放在config,webAP-Pconfig是對我們的靜態(tài)資源,比如說css、js還有一些圖片,做了一個映static,然后我們把它映射到classpath:/static另外需要注意一下,通過multipartFile獲取的是一個文件的輸入流,輸入流的話它只能讀取一次,然后如果要重復(fù)讀的話就會是空。所以我們把它轉(zhuǎn)化成一個ByteArrayInputStream流,然后我們在每次用完之后,我們可以把它進行一個重名,為了避免重名,我們對這個圖片的input的流,我們給它求一個md5值作為ResourceService是一個資源的管理器,先來看兩個函數(shù),Postconstruct注解,我們會先去執(zhí)行這個函數(shù),取出保存在本地的數(shù)組并且加載到內(nèi)存中去。PreDestroy注解,在銷毀對象的時候,把這些數(shù)據(jù)保存到本地文件,也就是說保存datadata.jsoncateMap之后又分成兩個場景expression、scenemap的作用。expressionMap是表示某類標簽下面都包括哪些圖片,senceMap也是同樣的意imgLbels比如說我們可以看到它可能這張圖片它可能直接識別出來了,它是屬于人物場景,屬于運動場景,然后屬于生氣的表情,屬于演出等場景。VisionServiceVisonSrvice,識別場景,表情。我們上傳圖片流,我們把整個圖片流傳到接口里面,然后從服務(wù)端去識別這個場景。限制就是說我們必須是利用這種oss的對象才能夠識別,新的版本的SDK我們就是vueelmnt-ui找到一個圖片,我們可以看到兩種方式,一種拖拽,一種是點擊上傳,這是通過一個組件來實現(xiàn)的。我們大概來介紹組件的實現(xiàn),這是有不同的功能區(qū)分的。acionplod哪些事情,也就是對應(yīng)的要執(zhí)行的函數(shù)。比如UlodSccess指上傳成功之后,我們要刷新頁面,添加下面的標簽分類等。vue,photos。photos后臺去取回數(shù)據(jù),之后把它渲染到前端的tml它會有對應(yīng)的自己一個模板,這個就是我們整個的模板部分,之后對它進行背景圖片的處理,然后以及一些事件的定義。ve,它的整個是一個事件的數(shù)據(jù)流,通過數(shù)據(jù)的不同的變化,然后我們就可以去觸發(fā)它的渲染,比如上傳一張圖片,它是可以對應(yīng)不同的組件進行交互,利用不同的標簽,事件來驅(qū)動數(shù)據(jù)的變化。mountedmethodsnextphoto,我們就會去訪問下vueelIDappIDap

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論