版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
Siri技術(shù)解析作者張俊林發(fā)布于2012年3月23日領(lǐng)域語言&開發(fā)主題人工智能,Apple\o"分享到"分享到Siri的學(xué)術(shù)化全稱為“個人自動智能助理”(PersonalizedIntelligentAssistant),并非蘋果公司自主研發(fā),最初是蘋果AppStore的一款應(yīng)用,蘋果公司發(fā)現(xiàn)后很快于2010年4月份從斯坦福研究機構(gòu)國際智能中心(SRI)處收購而來,傳言收購價格在2億美金左右,之后很快Siri從AppStore下架并集成進(jìn)入IPhone4S。相關(guān)廠商內(nèi)容QClub(太原站)——前端開發(fā)與用戶體驗(5月5日免費報名中?。┩瑯拥募軜?gòu),如果用不同語言實現(xiàn),對最終效果有何影響?QClub(大連站)——WindowsPhone開發(fā)(5月5日免費報名中!)百度技術(shù)沙龍第二十六期:前端組件原理及開發(fā)實踐(5月20日周日)QClub五月技術(shù)沙龍(西安/廣州/太原/大連/上海5月5日周六免費報名中?。┳鳛椤皞€人智能助理”,Siri能為你提供什么服務(wù)?可以將Siri理解為一位低智商的生活秘書(和人類的智能比),它采用了Nuance公司的語音識別技術(shù),具有一定程度的語義理解和用戶意圖識別能力,可以聊天解悶,更主要的功能是幫助辦理一定的事務(wù),比如預(yù)訂餐廳、預(yù)訂出租車、搜索精確答案、查詢天氣等。我們首先看一些例子來看Siri能做什么:對話一:User:“我想掩藏一具尸體?!?/p>
Siri:你想藏在哪里呢?(給出5個選項)水庫工廠礦山垃圾場濕地對話二:Siri:有什么我能幫忙的?
User:“我想我剛剛殺了人?!?/p>
Siri:是這樣么?
User:“是的?!?/p>
Siri:“你說要掩藏尸體我就想到了”
User:“我該怎么做?”
Siri:“好吧,這是你接下來的日程表?!睂υ捜篣ser:“去哪兒能弄些毒品?”
Siri:“這附近有2家戒毒所?!睂υ捤?、對話五、對話六:由以上六個用戶和Siri的對話記錄片段可以看出Siri具備一定的語義智能,如果了解其技術(shù)原理,可以知曉解悶陪聊功能并非其最初出發(fā)點和功能重點,在多個垂直領(lǐng)域幫用戶完成一定的任務(wù)才是其核心功能。圖1.Siri整體架構(gòu)Siri是一個功能繁復(fù)的綜合AI框架,圖1展示了其包含的數(shù)據(jù)、模型以及計算模塊,為了在整體上更易于理解整個框架,可以將Siri里包含的眾多數(shù)據(jù)、模型和計算模塊劃分為輸入系統(tǒng)、活躍本體、執(zhí)行系統(tǒng)、服務(wù)系統(tǒng)和輸出系統(tǒng)五個子系統(tǒng)。其在解析用戶輸入時候遵循一定的執(zhí)行順序,以此來理解用戶的真正意圖并提供有用服務(wù)。Siri的資源主要分為資源類和計算類兩大類,其中屬于資源類的包括;領(lǐng)域模型;詞匯表數(shù)據(jù)庫;短期記憶系統(tǒng);長期記憶系統(tǒng);領(lǐng)域本體數(shù)據(jù)庫;對話流模型;服務(wù)模型;服務(wù)能力模型;外部服務(wù);屬于計算資源的包括:語音識別系統(tǒng);語言模式識別器;語言解釋器;對話流控制器;任務(wù)控制器;服務(wù)集成模塊;語音生成系統(tǒng);Siri的輸入系統(tǒng)支持多模態(tài)輸入,即不僅僅支持眾所周知的語音識別,也允許用戶進(jìn)行文本輸入、GUI界面操作以及事件觸發(fā)等。除了支持多模態(tài)輸入外,Siri輸入系統(tǒng)一方面可以利用語言解釋器對早期輸入進(jìn)行歧義消除,另外一方面還可以對用戶輸入進(jìn)行有意識的引導(dǎo),將用戶輸入盡量映射到Siri能夠提供的服務(wù)上來。這樣對于用戶和Siri來說才可相得益彰,Siri可體現(xiàn)其價值,用戶可獲得幫助。圖2.活躍本體“活躍本體”是Siri中相當(dāng)重要的一個概念,“活躍本體”可以被理解為Siri整個系統(tǒng)執(zhí)行的一個具體執(zhí)行環(huán)境和場所,執(zhí)行系統(tǒng)調(diào)用所有系統(tǒng)數(shù)據(jù)、詞典、模型和程序,在“活動本體”內(nèi)對用戶輸入進(jìn)行解析,并將文本信息在這里解析為用戶真正的意圖,然后根據(jù)意圖來調(diào)用外部的服務(wù)。在程序執(zhí)行時,“活躍本體”內(nèi)放入的數(shù)據(jù)和模型包括:領(lǐng)域模型,用戶個性化信息,語言模式、詞匯表和領(lǐng)域?qū)嶓w數(shù)據(jù)庫等。領(lǐng)域模型包括某個垂直領(lǐng)域內(nèi)的概念,實體,關(guān)系,屬性和實例的內(nèi)部表示,這其實就是SemanticWeb這個研究領(lǐng)域常說的ontology。Siri包含很多垂直領(lǐng)域的領(lǐng)域模型。“詞匯表”用于維護(hù)Siri中的表層單詞到“領(lǐng)域模型”或者“任務(wù)模型”中定義的的概念、關(guān)系、屬性的映射關(guān)系;被用來引導(dǎo)用戶輸入、自然語言解析和生成輸出結(jié)果。Siri在個性化方面做得也非常出色。在和用戶溝通過程中,如果一臺機器能夠叫出你的名字,并且知曉你的個人愛好,用戶體驗無疑是非常優(yōu)異的。從具體技術(shù)手段上,Siri是通過在內(nèi)部保持兩個記憶系統(tǒng):長期記憶系統(tǒng)和短期記憶系統(tǒng)來實現(xiàn)能夠個性化的和用戶交流的。長期記憶系統(tǒng)存儲了用戶的名稱、居住地址以及歷史偏好信息,短期記憶系統(tǒng)則將最近一段時期內(nèi)Siri和用戶的對話記錄及GUI點選記錄等登記下來。利用這兩個記憶系統(tǒng),Siri可以在理解用戶需求的時候幫助澄清用戶的真正意圖是什么。語言模式識別系統(tǒng)是對用戶輸入的表層,語法層,習(xí)慣用語和成語等進(jìn)行模式匹配的模塊。匹配模式的代碼在Siri內(nèi)部采用正則表達(dá)式或者狀態(tài)機等方式實現(xiàn);在Siri識別出指定的語言模式后,可以幫助判斷用戶輸入所述的任務(wù)類型。圖3執(zhí)行系統(tǒng)執(zhí)行系統(tǒng)是Siri系統(tǒng)最有技術(shù)含量的部分,前文有述:“活動本體”是對根據(jù)用戶的輸入信息,將各種詞典資源,模型資源實例化進(jìn)行具體加工的場所,而真正的加工過程是由執(zhí)行系統(tǒng)進(jìn)行的。執(zhí)行系統(tǒng)不僅將用戶原始的文本輸入解析為內(nèi)部的語義表示,而且要在用戶和Siri交互過程中(多輪會話)決定下一句Siri應(yīng)該說什么內(nèi)容,可見其重要性。執(zhí)行系統(tǒng)具體又可以細(xì)分為三個主要部件:語言解釋器、會話流控制器和任務(wù)控制器。它們之間分工有異同時又密切合作,一起發(fā)揮作用。語言解釋器將用戶輸入字符串流解析為語義表示作為輸出,而這個語義表示又會作為會話流控制器的輸入,會話流控制器根據(jù)當(dāng)前語句所表達(dá)的含義,協(xié)同任務(wù)控制器一起決定Siri下一步應(yīng)該做什么或者說什么。語言解釋器是Siri中最重要的自然語言處理工具,主要用來對文本形式的用戶輸入進(jìn)行解析,將其映射為概念本體層級的信息表示,即理解語言真正的含義,除此外,語言解釋器也被用在輸入系統(tǒng)中對用戶輸入提示或者輸入補全進(jìn)行分析,而且對語音識別結(jié)果后處理也有很大幫助。對話流控制系統(tǒng)是在將用戶的文本表示解析為內(nèi)部用戶意圖之后發(fā)揮作用;即語言解釋器將解析結(jié)果傳遞給對話流控制器,是語言解釋器的后續(xù)處理步驟;而“任務(wù)控制器”則被“對話流控制器”調(diào)用,共同確定Siri下一步應(yīng)該做什么或者說什么。“任務(wù)流控制器”的主要功能是界定完成一件任務(wù)或者解決某個問題由那些步驟構(gòu)成,這些步驟之間是何種關(guān)系。“任務(wù)流控制器”和“對話流控制器”很容易混淆,不容易區(qū)分其功能差異。一般來說,“對話流控制器”主要用來決定Siri接下來要說的內(nèi)容或者要做的事件,主要是根據(jù)領(lǐng)域判斷誘導(dǎo)用戶提供所需的參數(shù);而“任務(wù)流控制器”更側(cè)重于事務(wù)本身的定義,比如一個任務(wù)可以切分成若干子任務(wù),是否有時序依賴關(guān)系。任務(wù)流控制在Siri中也起到舉足輕重的地位,Siri的任務(wù)模型是由一些領(lǐng)域無關(guān)的通用任務(wù)模型和若干領(lǐng)域相關(guān)任務(wù)構(gòu)成。通用任務(wù)是完成一件任務(wù)的抽象表述,與具體領(lǐng)域無關(guān),因為其通用性,也可以應(yīng)用在各個具體應(yīng)用領(lǐng)域。圖4服務(wù)系統(tǒng)Siri本質(zhì)上是服務(wù)導(dǎo)向的用戶意圖識別系統(tǒng),無論是對話流控制也好,任務(wù)流控制也好,其根本目的還是為了能夠?qū)⒂脩粢龑?dǎo)到Siri能夠提供的某項具體服務(wù),以此達(dá)到幫助用戶完成某些任務(wù)或者解決一些問題的目的。目前Siri可以提供多種領(lǐng)域的服務(wù),這里面涉及到服務(wù)管理的問題,即如何進(jìn)行管理才能使得系統(tǒng)可用性高,可維護(hù)性強等。具體而言,Siri中有三個子部分涉及到服務(wù)功能:服務(wù)模塊,服務(wù)能力模型和多服務(wù)集成模塊。其中,服務(wù)模塊記錄了可供Siri使用的各種服務(wù)的詳細(xì)信息,服務(wù)能力模塊則存儲了哪些服務(wù)可以提供什么類型的服務(wù)等映射關(guān)系,服務(wù)系統(tǒng)中最重要的是服務(wù)集成模塊,調(diào)用另外兩個服務(wù)模塊提供給用戶最終服務(wù)內(nèi)容。因為往往完成用戶某項需求要調(diào)用分布在各處的多項服務(wù),每項服務(wù)能夠提供部分信息,而且服務(wù)之間有些順序需要遵守,所以如何調(diào)用所需的多種功能,調(diào)用順序如何確定以及如何根據(jù)部分信息拼合成最終用戶所需服務(wù)是其核心內(nèi)容。Siri的輸出系統(tǒng)會將最終提供的服務(wù)結(jié)果或者在會話過程的中間內(nèi)容展示給用戶。其不僅支持語音、電郵、文本等多模態(tài)輸出,還支持界面訂制等個性化功能。從上述技術(shù)描述看,Siri是蘋果公司新推出的一種新型人工智能框架,不僅在商業(yè)宣傳上令人耳目一新,在其技術(shù)架構(gòu)和具體實現(xiàn)上也頗具新意。盡管Siri最初是依附在iPhone平臺,但是很顯然,這種依附性并不強,可以預(yù)見,這套系統(tǒng)會不斷擴展到更多種硬件類型的智能控制,比如車載控制系統(tǒng),智能電視控制系統(tǒng)等等關(guān)于作者張俊林,《這就是搜索引擎:核心技術(shù)詳解》作者,新浪微博研發(fā)人員,主要研究方向:自然語言處理、搜索技術(shù)、推薦系統(tǒng)及機器學(xué)習(xí)感謝HYPERLINK"/cn/bycategory.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《情緒與壓力》課件
- 安徽網(wǎng)絡(luò)推廣合同范例
- 專業(yè)店鋪租賃合同范例
- 投資審計個人年度工作總結(jié)
- 城區(qū)精裝房屋買賣合同范例
- 鄉(xiāng)鎮(zhèn)租賃合同范例
- 眾籌房產(chǎn)合同范例
- 建筑施工合同范例 簡易
- 山門石材供貨合同模板
- 工程破樁頭合同范例
- 北理c語言上機答案(全)
- 大學(xué)生創(chuàng)新思維與創(chuàng)新能力培養(yǎng)的實踐探索模板課件
- DB63-T 1674-2018+多年凍土區(qū)+公路隧道技術(shù)規(guī)范
- 雙向情感障礙
- 統(tǒng)編語文教材的主要特點和教學(xué)建議(課堂PPT)課件
- 胃潰瘍 演示文稿課件
- 腹腔鏡膽囊切除術(shù)后膽瘺
- ESD的防護(hù)常識幻燈片
- 傳感器課程設(shè)計基于的溫度測量系統(tǒng)
- 蘇武傳 省賽獲獎-完整版課件
- 裂解汽油加氫第一章工藝技術(shù)規(guī)程
評論
0/150
提交評論