2023機器視覺人工智能AI技術(shù)

上傳人：1*** IP屬地：貴州上傳時間：2024-11-01 格式：DOCX 頁數(shù)：47 大小：8.35MB 積分：10.8 舉報 版權(quán)申訴

已閱讀5頁，還剩42頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

機器視覺人工智能AITOC\o"1-1"\h\z\u視覺生產(chǎn)技術(shù)探索和應(yīng) 身份證識別系統(tǒng)搭視覺生產(chǎn)技術(shù)探索和應(yīng)用視覺生產(chǎn)技術(shù)探索和應(yīng)用 PAGE11 PAGE6就視覺而言一般來說有兩大類：一類是視覺理解，比如檢測、分割等；另外一類/的視覺表達(dá)。如下圖所示，有兩點需要注意，一是這里的視覺表達(dá)指的是人或機器能夠感知的圖像視頻，而不是標(biāo)簽或特征，二是產(chǎn)出新的視覺表達(dá)，和輸入是不一樣的PS等工具完成，現(xiàn)在，我們希望通過技術(shù)能夠?qū)崿F(xiàn)這個過程。如下圖所示，視覺生產(chǎn)主要包括生成、拓展、摘要、升維，另外還有增強//些產(chǎn)品，比如鹿班、畫蝶、視覺智能放平臺等。視覺生產(chǎn)有自己基本的通用框架，如下圖所示?？赡茉诩?xì)節(jié)上有細(xì)微不同，但是一般來講其邏輯是類似的，包括請求（Request）、分發(fā)（Dispatch）、服務(wù)（Service）和響應(yīng)（Response）如下圖所示，要保證視覺生產(chǎn)有一個好的結(jié)果或者說可用的結(jié)果，其至少應(yīng)滿足可看、合理、多樣、可控、可用五個維度，只有這樣，才能在工業(yè)界產(chǎn)生真正的價值，而不僅僅是一個停留于理論的技術(shù)。如果想生產(chǎn)一個視覺，首先我們要理解輸入的視覺，也就是需要精細(xì)的理解視其中，視覺分割是生產(chǎn)的必要前置步驟，也是學(xué)術(shù)界和工業(yè)界的一個熱點，同時也是難點，因為進(jìn)行分割時往往有復(fù)雜的背景和各種遮擋關(guān)系，或者在分割時對其要/尺度進(jìn)行分割等問題。實際上，分割時遇到的這些難題歸根到底是標(biāo)注成本高、數(shù)據(jù)嚴(yán)重不足的問題，更進(jìn)一步，即使標(biāo)注出來了，但是想要精細(xì)得將其分割出來，成本如下圖所示，分割摳圖包括不同的層次，從語義分割到實例分割再到ImageAI基于分割摳圖技術(shù)，我們可以對分割進(jìn)行拓展，進(jìn)行多式多樣的分割，比如對人的分割，可以從圖像中分割出人的頭像、單獨分割出頭發(fā)、單獨分割出人臉等，更進(jìn)一步，除了靜態(tài)圖像的分割，我們甚至對視頻進(jìn)行分割，在動態(tài)的視頻中提取人物。類似的，對于動物分割、車輛分割、商品分割、動畫分割等，我們也可以進(jìn)行相應(yīng)的拓展，來豐富我們的分割粒度。另外的，對于場景摳圖，比如天空分割，我們把天空分割出來的同時把人物、物體等分割出來，進(jìn)行場景分割的拓展。提供大規(guī)模在線的AI設(shè)計服務(wù)。它是針對平面圖像設(shè)計生成的產(chǎn)品，一始在阿里6鹿班在多個領(lǐng)域有著廣泛的應(yīng)用，一始是在電商領(lǐng)域，主要有以下兩個能力AI（二）視覺生成——鹿班主要針對的是平面圖生成，但是實際上更多場景需要的是視頻生成，比如AlibabWood的生成，目前已經(jīng)累計生成了超過2000萬個短視頻，同時還有劇本生成、智能文案生成、自動剪輯、智能音樂推薦等實用功能。AlibabWood示，總體包括素材準(zhǔn)備、基礎(chǔ)特效、智能特效和智能編排四大步驟，包括了眾多技術(shù)在內(nèi)。AibaWod有著眾多應(yīng)用案例，比如場景化智能視頻的生成，還可以規(guī)?；厦嬉曨l植入是增加一些東西到視頻中，有時候我們也要從視頻中擦除一些東西，比如字母擦除、臺標(biāo)擦除、廣告擦除等等，其核心挑戰(zhàn)是分割，只有更精確的分割才能夠精確的擦除。43ipad、PC、手機上面播放的時候出現(xiàn)了尺寸不匹配的情況，這時候就要進(jìn)行畫幅變化，變化之后為了有完整的視覺效果，需要進(jìn)行內(nèi)容補全，如下圖所示。人臉是最重要的目標(biāo)對象，對人像進(jìn)行細(xì)節(jié)修復(fù)增強，有很重要的意義和價值，如下圖所示，可以用視覺增強技術(shù)對人臉進(jìn)行修復(fù)增強，突出主要信息。CG渲染時間幾乎與圖像分辨率成正比，高質(zhì)量真實感渲染需要30分鐘才能生產(chǎn)一張圖像，針對CG渲染流水線研發(fā)的超分辨率技術(shù)可以把低分辨率圖像放大到與HDRHDR色彩擴展，增強視頻顯示效果。2D3D融合，還可以將其與背景或者其他商品結(jié)合在一起，直接3D2D的轉(zhuǎn)換，形成一目前，該平臺已經(jīng)放了2個多月，主要包含了如下圖所示的多種能力，包括圖4更多的方法和實例大家可以到視覺智能放平臺官網(wǎng)查看和詳細(xì)了解 PAGE26>身份證識別系統(tǒng)搭建身份證識別系統(tǒng)搭建身份證識別系統(tǒng)搭建 PAGE27 bootApplication：Spring-BootOcrService：負(fù)責(zé)通過SDK調(diào)用視覺智能放平臺的OCR能力pom.xml：pom二、如何獲取視覺智能開放平臺提供的SDK以發(fā)現(xiàn)平臺已經(jīng)放了包括人臉識別、文字識別、商品理解等在內(nèi)的多項視覺AI能在文檔頁面，我們點擊SDK參考，可以看到有兩個Java的SDK說明，兩個SDK的區(qū)別主要是新的JavaSDK支持本地上傳圖片，也就是說通過這個新的SDK可以直接把本地的圖片交給視覺智能放平臺來進(jìn)行OCR識別、人臉識別等任務(wù)。OCRSDKhttps://mvnreposito-/artifact/com.aliyun/ocrSDK，然后獲取我Maven坐標(biāo)。在獲取了Maven坐標(biāo)之后，如下圖所示，我們可以通過在om.xml文件中添加Maven依賴安裝javaSDK，這樣便成功獲取到了視覺智能放平臺提供的thymeeaf題、2個表單、2個上傳文件的組件以及一個始識別的按鈕。bootstrapjquery來進(jìn)行頁面的美化，我們用代理的方式來實現(xiàn)美化，相當(dāng)于我們點擊“上傳人inputinputformalert，在用戶上傳的圖片出現(xiàn)問題的時候會進(jìn)行提示或者報錯。下圖是在用戶上傳正確的圖片并提交之后的相關(guān)代碼邏輯，主要分為兩部分：一ORry）、調(diào)用視覺智能放平臺能力的封裝（ocrService）、上傳圖片的緩存路徑地址saveFileindex是一個控制方法，是一始進(jìn)入頁面時候用來加載模版的。首先是判斷faceImage和backImage緩存是否一樣，如果不一樣，就全部清除掉；其次就是將e面的國徽面的文件，還有一個用來重定向的參數(shù)。首先，判斷兩張圖片是否是空的，ndx，相當(dāng)于重新進(jìn)入首頁，并且會有一個messae來提示用戶必須要上傳一個文件，否則是無效的；接下來判斷上傳目錄是否存在，如果不存在就遞歸的進(jìn)行創(chuàng)建；然后如果人像面的文件不為空，將其保存到本地，緊接著調(diào)用視覺智能放平臺的能力去進(jìn)行識別，在拿到結(jié)果之后將上傳的圖片和識別結(jié)果加入到緩存池中，國徽面的處理方式也類似；最后幾行代碼是異常的處理，并且會告知用戶是哪種報錯。e的實現(xiàn)代碼如下所示。首先，是4個私有變量，ocrClient、runtime、accessKeyIdaccessKeySecret，accessKeyIdacces-KySeret要在配置文件中進(jìn)行配置；其次是一個初始化方法，初始化Clenttime；接下來是真正調(diào)用視覺智能放平臺身份證識別的方，具體來，在設(shè)requestrequesteocrClientresonse，也就是識別的結(jié)果，之后我們將Map PAGE36>電子相冊搭建（人臉、表情識別 PAGE37 common：config：裝載或者是數(shù)據(jù)庫的配置，我們都會放在config，webAP-Pconfig是對我們的靜態(tài)資源，比如說css、js還有一些圖片，做了一個映static，然后我們把它映射到classpath:/static另外需要注意一下，通過multipartFile獲取的是一個文件的輸入流，輸入流的話它只能讀取一次，然后如果要重復(fù)讀的話就會是空。所以我們把它轉(zhuǎn)化成一個ByteArrayInputStream流，然后我們在每次用完之后，我們可以把它進(jìn)行一個重名，為了避免重名，我們對這個圖片的input的流，我們給它求一個md5值作為ResourceService是一個資源的管理器，先來看兩個函數(shù)，Postconstruct注解，我們會先去執(zhí)行這個函數(shù)，取出保存在本地的數(shù)組并且加載到內(nèi)存中去。PreDestroy注解，在銷毀對象的時候，把這些數(shù)據(jù)保存到本地文件，也就是說保存datadata.jsoncateMap之后又分成兩個場景expression、scenemap的作用。expressionMap是表示某類標(biāo)簽下面都包括哪些圖片，senceMap也是同樣的意imgLbels比如說我們可以看到它可能這張圖片它可能直接識別出來了，它是屬于人物場景，屬于運動場景，然后屬于生氣的表情，屬于演出等場景。VisionServiceVisonSrvice，識別場景，表情。我們上傳圖片流，我們把整個圖片流傳到接口里面，然后從服務(wù)端去識別這個場景。限制就是說我們必須是利用這種oss的對象才能夠識別，新的版本的SDK我們就是vueelmnt-ui找到一個圖片，我們可以看到兩種方式，一種拖拽，一種是點擊上傳，這是通過一個組件來實現(xiàn)的。我們大概來介紹組件的實現(xiàn)，這是有不同的功能區(qū)分的。acionplod哪些事情，也就是對應(yīng)的要執(zhí)行的函數(shù)。比如UlodSccess指上傳成功之后，我們要刷新頁面，添加下面的標(biāo)簽分類等。vue,photos。photos后臺去取回數(shù)據(jù)，之后把它渲染到前端的tml它會有對應(yīng)的自己一個模板，這個就是我們整個的模板部分，之后對它進(jìn)行背景圖片的處理，然后以及一些事件的定義。ve，它的整個是一個事件的數(shù)據(jù)流，通過數(shù)據(jù)的不同的變化，然后我們就可以去觸發(fā)它的渲染，比如上傳一張圖片，它是可以對應(yīng)不同的組件進(jìn)行交互，利用不同的標(biāo)簽，事件來驅(qū)動數(shù)據(jù)的變化。mountedmethodsnextphoto，我們就會去訪問下vueelIDappIDap

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > IT計算機

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2023機器視覺人工智能AI技術(shù)

文檔簡介

溫馨提示

最新文檔

評論

2023機器視覺人工智能AI技術(shù)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔