2023年用AI加強(qiáng)產(chǎn)品設(shè)計(jì)·識別篇-如何利用文字識別（OCR）、語音識別（ASR）和機(jī)器翻譯（NMT）提升用戶體驗(yàn)

上傳人：1*** IP屬地：廣東上傳時(shí)間：2023-04-22 格式：DOCX 頁數(shù)：4 大小：26.09KB 積分：15 舉報(bào) 版權(quán)申訴

2023年用AI加強(qiáng)產(chǎn)品設(shè)計(jì)·識別篇-如何利用文字識別（OCR）、語音識別（ASR）和機(jī)器翻譯（NMT）提升用戶體驗(yàn)_第2頁

2023年用AI加強(qiáng)產(chǎn)品設(shè)計(jì)·識別篇-如何利用文字識別（OCR）、語音識別（ASR）和機(jī)器翻譯（NMT）提升用戶體驗(yàn)_第3頁

2023年用AI加強(qiáng)產(chǎn)品設(shè)計(jì)·識別篇-如何利用文字識別（OCR）、語音識別（ASR）和機(jī)器翻譯（NMT）提升用戶體驗(yàn)_第4頁

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

用AI加強(qiáng)產(chǎn)品設(shè)計(jì)·識別篇——如何利用文字識別（OCR）、語音識別（ASR）和機(jī)器翻譯（NMT）提升用戶體驗(yàn)class="size-fullwp-image-5751401aligncenter"src="hIQhfVKaZzBnLUmAZNWb.jpg"alt=""width="900"height="420"/>

作為一個(gè)產(chǎn)品經(jīng)理，讓我們負(fù)責(zé)的產(chǎn)品勝利的關(guān)鍵在于場景、需求和痛點(diǎn)——越自然地滿意用戶的需求，用戶的體驗(yàn)就會越好。

比如我們看看這幾個(gè)例子——

在快遞、閃送這個(gè)場景下，用戶的收件人地址信息通常在另外一個(gè)App里，想要有時(shí)甚至復(fù)制和粘貼都做不到。是否能對收件人的姓名、地址這些信息進(jìn)行截圖、識別、智能填寫？至少我們需要把這個(gè)截圖里的文字識別出來。在旅游的過程中，用戶如何快速看懂身邊的文字？有時(shí)用戶不只是看不懂——也許率連輸入都做不到（日語的假名、泰語的文字），至少我們要先把它轉(zhuǎn)成文字，然后再進(jìn)行翻譯，對吧？為了解決這些痛點(diǎn)問題，人工智能（AI）力量很有可能是你最佳的選擇，而做一個(gè)“懂一點(diǎn)AI”的產(chǎn)品經(jīng)理很可能在這個(gè)新的時(shí)代里是PM的必備技能。在這篇博客里，我們會探究三種特定的人工智能功能——圖像文本識別(OCR)、語音識別(ASR)和機(jī)器翻譯——以及如何應(yīng)用它們來增加我們的產(chǎn)品并為用戶供應(yīng)價(jià)值。

當(dāng)然，值得留意的是，還有許多其它的AI力量，在日后的文章中我們會一一介紹。在這篇博客中，我會只關(guān)注這些和文字、識別和快速理解相關(guān)的三個(gè)力量，而這三個(gè)作為整個(gè)AI世界里最簡單理解的基礎(chǔ)力量，能快速地帶你了解到如何應(yīng)用AI到你的產(chǎn)品里。

名目：

I.圖像文字識別（OCR）II.語音識別(ASR)III.機(jī)器翻譯IV.總結(jié)V.一些額外的閱讀建議一、圖像文字識別(OCR)

許多人應(yīng)當(dāng)都有這樣的困擾，比如在逛淘寶的時(shí)候，想要去搜尋詳情頁的大圖里的文字簡直難于上青天，由于圖片里的文字是沒法復(fù)制的。一些不太懂一些“歪門斜道技術(shù)”的人也很難破解那些“禁止右鍵”或“禁止復(fù)制”的破網(wǎng)站的限制，拿到想要的文字。有時(shí)你也可能需要從截圖里獵取文字，或者快速掃描手頭的文檔、電子化課堂里的板書。這些場景正是OCR的用武之地。OCR是OpticalCharacterRecognition（光學(xué)字符識別）的縮寫，更多的我們會叫它“文字識別”或者“圖像文字識別）。在現(xiàn)在的手機(jī)App里很簡單找到OCR的身影，如微信最近的更新使得你可以在談天記錄中搜尋文字，會找到提到這個(gè)文字的圖片；iOS的實(shí)況文本功能可以在輸入框中快速錄入現(xiàn)實(shí)生活中的文字等等。

OCR是一種讓計(jì)算機(jī)能識別和提取圖像中的文字的AI技術(shù)。它的工作原理（簡化到六歲小孩能理解的難度的話）可以認(rèn)為是AI通過討論各種圖片里文字的外形和模式，學(xué)會了在圖片里“找文字”并把每個(gè)文字與已知的字符去匹配，最終告知你“字在哪”和“這些字是什么”的技術(shù)（當(dāng)然這個(gè)解釋特別地不科學(xué)，你就將就看吧）。有了這個(gè)技術(shù)，再加上一些特別簡潔的交互和UI就可以做到依據(jù)需要去編輯、搜尋或存儲你提取的文本了。

如引入部分提到的，OCR的一個(gè)常見用例是在快遞行業(yè)。在填寫收件人信息時(shí)，用戶通常會截取表單的截圖并提取文本以便快速填寫。OCR使這個(gè)過程更快更有效，由于用戶不必手動輸入全部的信息。而且在截圖場景下，像手機(jī)號的識別精確?????率會特別特別高。

OCR還可用于各種其他行業(yè)，如醫(yī)療保健、金融和教育。例如，OCR可用于從醫(yī)療記錄、財(cái)務(wù)文檔和同學(xué)成果單中提取和組織信息。在一些特別的模版下,OCR力量結(jié)合一些圖像處理的技術(shù),也可以把一些固定格式的內(nèi)容快速提取出來,形成結(jié)構(gòu)化的信息并錄入到數(shù)據(jù)庫中;當(dāng)結(jié)合一些自然語言處理(NLP)技術(shù)時(shí),也可以做到一些非結(jié)構(gòu)化的信息提取。

然而，在使用OCR時(shí)還是會有一些需要考慮的問題的。其中一個(gè)挑戰(zhàn)是，你想讓OCR識別得準(zhǔn)，你的圖片就得很高清優(yōu)質(zhì)。假如圖像模糊或扭曲，OCR可能就沒方法很精確?????地識別了。有一個(gè)比較簡單理解的評估方式就是，假如人能輕松認(rèn)出這個(gè)字是什么，機(jī)器的精確?????率通常會很高；但假如人需要費(fèi)很大的勁，甚至需要結(jié)合上下文去猜想，那么機(jī)器一般就不是很能精確?????地進(jìn)行識別。

另外，像一些潦草的手寫，用通用的OCR有時(shí)也會識別困難。當(dāng)然，通用的AI力量在特別的場景下，一般比不過對這個(gè)場景做特地優(yōu)化的力量。比如在有道智云這個(gè)AI開放平臺里，通用文字識別、手寫文字識別和公式識別是三個(gè)不同的接口。比如在教育場景下的公式識別，可以識別出LaTeX格式的公式，讓在客戶端渲染公式時(shí)更輕松簡單。在我們的產(chǎn)品中假如有相應(yīng)的場景，可以去接入試試看。

二、語音識別(ASR)

語音識別，或者說ASR（AutomaticSpeechRecognition，自動語音識別），則是讓計(jì)算機(jī)聽懂“語音”的技術(shù)。它能將語音轉(zhuǎn)換為文本，使用戶無需打字就能更便利地輸入信息或發(fā)出命令。

ASR通常用于智能語音助手，如Siri和小愛同學(xué)，以及各種叫“轉(zhuǎn)錄”或“聽寫”的軟件。還是拿微信舉例子，微信的語音轉(zhuǎn)文字就是一個(gè)特別典型的ASR力量的例子，沒有它你可能每天都被（你厭煩的）某些伴侶進(jìn)行60s轟炸。其它的例子比如如語音輸入法、語音導(dǎo)航等等。它還可以用于各種行業(yè)，包括客戶服務(wù)、教育、音視頻行業(yè)等等。

例如，在客戶服務(wù)行業(yè)，ASR可用于創(chuàng)建交互式語音應(yīng)答(IVR)系統(tǒng)，讓用戶可以用語音就和“外呼機(jī)器人”對線。當(dāng)然更早期還沒有現(xiàn)在這么智能的機(jī)器人，早期其實(shí)是做一些簡潔的“回答”就可以讓用戶找到他們需要的信息，有效削減了（某些公司——合理懷疑——根本就不存在的）人工客服。在教育行業(yè)，ASR應(yīng)用還是很廣泛的，比如在線課程的字幕識別、同學(xué)的課文背誦和語音問答等等。最新的B站也最終加了“字幕自動識別”，結(jié)合后文的機(jī)器翻譯就可以快速理解原本不懂的外文影片了。

在產(chǎn)品里集成ASR的好處可太多了。主要的緣由其實(shí)就是它能解放雙手，不需要再去打字，這樣無論是輸入速度還是精確性都會提高不少，產(chǎn)品的可用性也會有提升。

和全部其它AI力量一樣，在使用語音識別力量的時(shí)候，要特殊留意使用場景，同時(shí)也會搭配一些額外的力量使用。照實(shí)時(shí)溝通的過程中，需要加入VAD力量來推斷用戶的一段話是否已經(jīng)說完（在有道智云這些力量都已經(jīng)集成進(jìn)了接口中），同時(shí)對時(shí)延的要求特別高，通常要求時(shí)延在200ms以內(nèi)。相對的，在長語音文件轉(zhuǎn)寫的場景里，用戶等待的時(shí)間就可以適當(dāng)放寬，在產(chǎn)品設(shè)計(jì)上可以批量提交后系統(tǒng)轉(zhuǎn)寫再通知用戶完成（異步處理）。一般來說，一個(gè)商用的ASR系統(tǒng)的加速比一般是在1:30、1:50甚至更高，即半小時(shí)的音頻，在一分鐘就可以轉(zhuǎn)寫完畢，大家可以在產(chǎn)品設(shè)計(jì)的過程中參考這一數(shù)字。

然而，在使用ASR時(shí)也有一些問題需要考慮。其中一個(gè)挑戰(zhàn)是，這項(xiàng)技術(shù)可能并不總是能精確?????識別不同的腔調(diào)或方言。此外，背景噪聲會干擾ASR過程的精確?????性。當(dāng)然，和OCR一樣，如有道智云這種面對開發(fā)者的AI平臺一方面會充分考慮通用性，在系統(tǒng)內(nèi)部進(jìn)行了對噪聲的處理，同時(shí)兼容不同的方言和腔調(diào)，有必要的時(shí)候還可以考慮通過聲紋識別等新的技術(shù)進(jìn)行優(yōu)化，另一方面假如有特別的需求（如對某種特定方言的精確?????識別），也可以和他們的商務(wù)聯(lián)系來獲得更樂觀的支持和優(yōu)化。

三、機(jī)器翻譯

機(jī)器翻譯是一種讓計(jì)算機(jī)將文本內(nèi)容從一種語言轉(zhuǎn)換成另一種語言的技術(shù)。它可以用來實(shí)時(shí)翻譯網(wǎng)站、文檔，甚至是對話。

機(jī)器翻譯適用于各種行業(yè)和場合。例如，在社交相關(guān)的產(chǎn)品上，跨語種的溝通總是會有語言障礙。加入了機(jī)器翻譯后，跨語種的溝通就成為了可能。同時(shí)像產(chǎn)品描述或客戶服務(wù)查詢這種官方供應(yīng)的文檔，也可以在低成本的條件下可以輕易拓展更多國家的用戶群。同時(shí)，翻譯力量可以讓我們的產(chǎn)品更簡單為說不同語言的人所接受，從而使我們能夠接觸到更廣泛的受眾，也可以提高溝通的效率和信息傳遞的速度。

和上文我們提到的OCR、ASR力量結(jié)合在一起，會起到更奇異的化學(xué)反應(yīng)。

當(dāng)輸入是圖片時(shí)，可以進(jìn)行圖片翻譯，這種翻譯方式除了結(jié)合了OCR、機(jī)器翻譯外，還使用了多種新技術(shù)（如對抗生成網(wǎng)絡(luò)、篇章語義理解等等），使得不僅能讓用戶快速理解圖片中的文字，甚至可以把文字直接繪制在背景上，就似乎原本照片上就是目標(biāo)語種的文字一樣，這樣能大大降低用戶的理解難度。

而當(dāng)輸入是語音時(shí)，又有一些新的玩法。比如可以實(shí)時(shí)地進(jìn)行會議場景下的字幕翻譯，還可以和一些其它的語音技術(shù)相融合。比如可以直接把翻譯后的內(nèi)容讀出來（TTS技術(shù)），甚至可以用你自己的聲音讀出來（聲音復(fù)刻的PR稿，鏈接）。

當(dāng)輸入是PDF這類文檔時(shí)，由于文檔有可能是圖片格式、有可能是文字格式，需要協(xié)作針對性的解析服務(wù)（pdf轉(zhuǎn)word）來使用。有道智云也供應(yīng)了“文檔翻譯”這樣的力量（可以公有云接入，也可以私有化部署），直接上傳pdf、excel、ppt等格式的文檔，就可以下載對應(yīng)的譯文。

然而，在使用機(jī)器翻譯時(shí)，也有一些需要考慮的問題。翻譯的質(zhì)量不肯定在任何狀況下都很好，特殊是對于那些更簡單或有許多習(xí)語和文化參考的語言。在這種狀況下，有可能需要一些術(shù)語庫（鏈接）甚至是專業(yè)領(lǐng)域模型的支持。比如有道智云供應(yīng)了醫(yī)學(xué)、金融、計(jì)算機(jī)等多個(gè)領(lǐng)域的專有領(lǐng)域模型。此外，機(jī)器翻譯過程有時(shí)會轉(zhuǎn)變原文的語氣或意圖。比如日語中的敬體、敬語，在和中文互譯時(shí)，受限于語言本身的差異，有時(shí)就會丟失掉原本聽話人的感受（比如中文很難表述出日本人花樣繁多的敬語之間的微小差異）。當(dāng)然，隨著技術(shù)的進(jìn)展，這些問題也在漸漸地解決中

四、總結(jié)

在這篇博客文章中，我們探討了如何將圖像文本識別（OCR）、語音識別（ASR）和機(jī)器翻譯應(yīng)用于識別信息并為不同行業(yè)的用戶解決他們的痛點(diǎn)。作為產(chǎn)品經(jīng)理，重要的是在了解這些AI力量之后，考慮這些技術(shù)如何提高產(chǎn)品的價(jià)值和吸引力。有了像有道智云（鏈接）這樣的AI開放平臺，將這些AI功能集成到產(chǎn)品中是很簡單的。他們供應(yīng)了所需的基礎(chǔ)設(shè)施和算法，因此你就可以專注于改善用戶體驗(yàn)并為客戶解決挑戰(zhàn)。

假如你有愛好將這些AI功能集成到你的產(chǎn)品中，接下來你可以實(shí)行以下幾個(gè)步驟：

討論各種可用的人工智能功能，并確定哪些功能最相

人人文庫> 全部分類> 應(yīng)用文書 > 資格認(rèn)證

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2023年用AI加強(qiáng)產(chǎn)品設(shè)計(jì)·識別篇-如何利用文字識別（OCR）、語音識別（ASR）和機(jī)器翻譯（NMT）提升用戶體驗(yàn)

文檔簡介

溫馨提示

最新文檔

評論

2023年用AI加強(qiáng)產(chǎn)品設(shè)計(jì)·識別篇-如何利用文字識別（OCR）、語音識別（ASR）和機(jī)器翻譯（NMT）提升用戶體驗(yàn)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

2023年用AI加強(qiáng)產(chǎn)品設(shè)計(jì)·識別篇-如何利用文字識別（OCR）、語音識別（ASR）和機(jī)器翻譯（NMT）提升用戶體驗(yàn)