百度大腦AI技術(shù)成果白皮書_第1頁
百度大腦AI技術(shù)成果白皮書_第2頁
百度大腦AI技術(shù)成果白皮書_第3頁
百度大腦AI技術(shù)成果白皮書_第4頁
百度大腦AI技術(shù)成果白皮書_第5頁
已閱讀5頁,還剩45頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、目錄 HYPERLINK l _TOC_250014 引言1一、百度大腦進(jìn)化到 5.02 HYPERLINK l _TOC_250013 二、基礎(chǔ)層3 HYPERLINK l _TOC_250012 算法3 HYPERLINK l _TOC_250011 算力5 HYPERLINK l _TOC_250010 2.3 數(shù)據(jù)10 HYPERLINK l _TOC_250009 三、感知層11 HYPERLINK l _TOC_250008 3.1 語音11 HYPERLINK l _TOC_250007 3.2 視覺13 HYPERLINK l _TOC_250006 3.3 增強現(xiàn)實/虛擬現(xiàn)實

2、17 HYPERLINK l _TOC_250005 四、認(rèn)知層19 HYPERLINK l _TOC_250004 知識圖譜20 HYPERLINK l _TOC_250003 自然語言處理22 HYPERLINK l _TOC_250002 五、平臺層27飛槳(PaddlePaddle)深度學(xué)習(xí)平臺28UNIT 智能對話訓(xùn)練與服務(wù)平臺32 HYPERLINK l _TOC_250001 開放數(shù)據(jù)集33六、AI 安全35 HYPERLINK l _TOC_250000 結(jié)語與展望40引言回顧過去的一年,科技與商業(yè)發(fā)展的一個關(guān)鍵詞就是“人工智能”。在近一年的時間 里,百度科學(xué)家和工程師們不僅在

3、人工智能算法、核心框架、芯片、計算平臺、量子計算、語音技術(shù)、計算機視覺、增強現(xiàn)實與虛擬現(xiàn)實、語言與知識、開放平臺、開放數(shù)據(jù)等諸多 方面取得了令人矚目的技術(shù)成果,還將這些技術(shù)成果與行業(yè)相結(jié)合,成功應(yīng)用于眾多產(chǎn)品 之中,取得了豐碩的人工智能應(yīng)用成果。2019 年 2 月,世界知識產(chǎn)權(quán)組織(World Intellectual Property Organization,簡稱 WIPO) 發(fā)布了首份技術(shù)趨勢報告,聚焦人工智能領(lǐng)域?qū)@暾埣鞍l(fā)展?fàn)顩r。報告顯示,百度在深 度學(xué)習(xí)領(lǐng)域的專利申請量位居全球第二,超越 Alphabet、微軟、IBM 等企業(yè)和國外學(xué)術(shù)機 構(gòu),在全球企業(yè)中居于首位。過去的一年,百

4、度基礎(chǔ)技術(shù)體系、智能云事業(yè)群組和 AI 技術(shù)平臺體系進(jìn)行了重大組織機構(gòu)調(diào)整,三個體系統(tǒng)一向集團 CTO 匯報,這為技術(shù)中臺建設(shè)和人工智能技術(shù)落地提供了良好的組織保障。本報告總結(jié)了百度大腦在 2018-2019 年度取得的部分技術(shù)成果:第一章主要概述百度大腦 5.0,第二至六章分別介紹百度大腦在基礎(chǔ)層、感知層、認(rèn)知層、平臺層和安全方面的技術(shù)成果。面向未來,百度將繼續(xù)打造領(lǐng)先的 AI 技術(shù)能力,構(gòu)建更加繁榮的人工智能生態(tài)系統(tǒng), 助力各行各業(yè)進(jìn)入智能化的工業(yè)大生產(chǎn)階段,在智能時代創(chuàng)造更廣泛的社會經(jīng)濟價值。一、百度大腦進(jìn)化到 5.0百度大腦是百度AI 集大成者。百度大腦自2010 年起開始積累基礎(chǔ)能力

5、,后逐步完善。2016 年,百度大腦 1.0 完成了部分基礎(chǔ)能力和核心技術(shù)對外開放;2017 年,2.0 版形成了較為完整的技術(shù)體系,開放 60 多項 AI 能力;2018 年,3.0 版在“多模態(tài)深度語義理解” 上取得重大突破,同時開放 110 多項核心 AI 技術(shù)能力;2019 年,百度大腦升級為 5.0,核心技術(shù)再獲重大突破,實現(xiàn)了 AI 算法、計算架構(gòu)與應(yīng)用場景的創(chuàng)新融合,成為軟硬件一體的 AI 大生產(chǎn)平臺。如圖 1 所示,百度大腦如今已形成了包括基礎(chǔ)層、感知層、認(rèn)知層、平臺層以及 AI 安全五大核心架構(gòu)在內(nèi)的技術(shù)布局。同時,安全一直都貫穿 AI 技術(shù)研發(fā)的始終,已經(jīng)融合在百度大腦的所

6、有模塊中?;跀?shù)據(jù)、算法和算力強大的基礎(chǔ)能力支持,百度大腦擁有包括語音、視覺、增強現(xiàn)實(AR)/虛擬現(xiàn)實(VR)以及語言與知識等技術(shù)能力,并通過 AI 平臺對外開放,形成以百度大腦為核心的技術(shù)和產(chǎn)業(yè)生態(tài)。多年來,百度大腦支持百度幾乎所有業(yè)務(wù),并面向行業(yè)和社會全方位開放,助力合作伙伴和開發(fā)者,加速 AI 技術(shù)落地應(yīng)用,賦能各行各業(yè)轉(zhuǎn)型升級,其核心技術(shù)及開放平臺榮獲 2018 年度中國電子學(xué)會科技進(jìn)步一等獎。圖 1 百度大腦二、基礎(chǔ)層算法百度持續(xù)在算法和理論方面深入研究,在語音、圖像、語言與知識等多個領(lǐng)域取得重大突破。在語音識別方面,百度將注意力機制的建模技術(shù)用于在線語音識別,提出了流式多層 截斷

7、注意力模型 SMLTA,實現(xiàn)了流式的基于注意力機制的聲學(xué)語言一體化建模,并在 2019 年初實現(xiàn)了基于該技術(shù)的大規(guī)模產(chǎn)品上線,大幅提升了語音識別產(chǎn)品在線識別準(zhǔn)確率和用 戶體驗,相對準(zhǔn)確率提升 15% 至 20% 。 該算法使用 CTC ( Connectionist Temporal Classification)的尖峰信息對連續(xù)語音流進(jìn)行截斷,然后在每一個截斷的語音小段上進(jìn)行當(dāng) 前建模單元的注意力建模。通過該方法把原來的全局整句Attention 建模,變成了局部語音小段的 Attention 建模。同時,為了克服 CTC 模型中不可避免的插入刪除錯誤對系統(tǒng)造成的影響,該算法引入一種特殊的多

8、級Attention 機制,實現(xiàn)特征層層遞進(jìn)的更精準(zhǔn)的特征選擇。最終,這種創(chuàng)新建模方法的識別率不但超越了傳統(tǒng)的全局Attention 建模,同時還能夠保持計算量、解碼速度等在線資源耗費和傳統(tǒng) CTC 模型持平。圖 2 流式多層截斷注意力模型 SMLTA在個性化語音合成方面,百度還提出了語音風(fēng)格和音色遷移的個性化韻律遷移語音合成技術(shù) Meitron。該技術(shù)在訓(xùn)練時,交叉組合不同聲音的訓(xùn)練樣本,實現(xiàn)了聲音的音色、風(fēng)格和情感的解耦。語音的個性化信息、風(fēng)格信息和情感信息等沉淀到全局聲音的基(basis)空間中,并將聲音共有信息沉淀到一個統(tǒng)一的聲學(xué)模型中。在做語音合成的時候, 用戶僅僅輸入少量目標(biāo)語音作

9、為指導(dǎo),在全局聲音基空間中進(jìn)行注意力選擇,選擇出和當(dāng) 前用戶個性化聲音更加匹配的基。之后可以根據(jù)這個基,并結(jié)合訓(xùn)練好的共有信息聲學(xué)模 型,生成與目標(biāo)語音的音色和風(fēng)格高度相似的任意語音。依靠 Meitron 的解耦和組合機制, 我們能夠在不同音色、風(fēng)格和情感之間進(jìn)行風(fēng)格轉(zhuǎn)化和遷移,僅僅使用少量用戶語音,就 可以實現(xiàn)多種音色、情感和風(fēng)格的轉(zhuǎn)換。該技術(shù)成果已經(jīng)落地百度地圖產(chǎn)品,地圖用戶只 需要提供約 20 句話的目標(biāo)語音,就可以合成與目標(biāo)語音非常相似的個性化聲音,用于地圖任意導(dǎo)航場景的語音播報和任意名勝景點的語音播報等。圖 3 Meitron 個性化韻律遷移合成技術(shù)在計算機視覺領(lǐng)域,百度研發(fā)了基于圖

10、文關(guān)系的大規(guī)模圖像分類弱監(jiān)督算法,提出了Ubiquitous Reweighting Network(URNet),給予每張圖片訓(xùn)練過程中不同的權(quán)重,與原始的分類模型相比,Top5 提升了 8 個點左右。該方法在最大的圖像分類數(shù)據(jù)比賽 Webvision 比賽中獲得冠軍。在圖像超分辨率領(lǐng)域,百度提出了基于級聯(lián)回歸的 CDSR 模型,用于圖 像的超分增強;還提出了自適應(yīng)注意力多幀融合技術(shù),用于視頻的超分增強。2019 年 5 月, 在計算機視覺 Low-level Vision 領(lǐng)域中影響力最大的競賽 NTIRE 上獲得了圖像超分辨率項目的冠軍和視頻超分辨率項目亞軍。在醫(yī)學(xué)圖像領(lǐng)域,百度提出全新

11、的基于深度學(xué)習(xí)的病理 切片腫瘤檢測算法1,在公共數(shù)據(jù)集Camelyon16 大賽上的腫瘤定位FROC 分?jǐn)?shù)高達(dá) 0.8096,超過專業(yè)病理醫(yī)生水平以及之前由哈佛、MIT 等保持的大賽最佳成績。研究成果發(fā)表于2018 深度學(xué)習(xí)醫(yī)學(xué)圖像大會。在自然語言處理領(lǐng)域,百度開發(fā)了更具表現(xiàn)力的主題嵌入和知識圖嵌入表示學(xué)習(xí)模型, 能夠高精度地從語言數(shù)據(jù)中捕獲主題信息。同時,通過聯(lián)合恢復(fù)知識圖嵌入空間中的頭實 體、謂詞和尾實體表示,問答系統(tǒng)的回答準(zhǔn)確性得到進(jìn)一步提高。這項工作發(fā)表在IEEE Big Data 20182,SDM 20193,WSDM 20194和 NAACL 20195。很多高維的特征空間,如詞

12、嵌入、圖像的特征向量等,都有非常有趣的幾何結(jié)構(gòu)。另一方面,多個在語義上有相關(guān)性的空間又有一定的相似性。百度深入研究了這些高維空間的特性,提出的全新 Hubless Nearest Neighbor (HNN) Search 算法,能夠大幅提高在標(biāo)準(zhǔn)數(shù)據(jù)集上的單詞翻譯準(zhǔn)確率。以詞嵌入空間為例,HNN 能夠只用極少量標(biāo)注數(shù)據(jù),實現(xiàn)不同語種間單詞的翻譯。HNN 此項基礎(chǔ)研究能夠幫助提升機器翻譯系統(tǒng)在低頻詞、術(shù)語、小語種等情況下的效果。另外,HNN 作為一種新的信息檢索方法,對廣義上的多特征空間匹配都有指導(dǎo)意義,如零樣本圖像識別等。這項工作發(fā)表在 ACL 20196。百度提出的 Logician 邏輯

13、家代理可以從開放領(lǐng)域自然語言句子中提取事實,實現(xiàn)了更深層次的語言理解,其性能明顯優(yōu)于現(xiàn)有的開放信息提取系統(tǒng)。百度還建立了一個 Orator 演說家代理,可以將幾個事實敘述連成一個流利的自然語言句子。通過將提取和敘述作為雙重任務(wù),百度在自然語言和知識事實之間搭建了雙向的橋梁,使得系統(tǒng)性能得到進(jìn)一步的提升。這項工作發(fā)表在 WSDM 20187和 EMNLP 20188上。算力人工智能時代,算法能力快速提升,同時,算法對算力的要求也越來越高。為了應(yīng)對 算力、效率和多元化場景等核心挑戰(zhàn),百度提出了端到端的 AI 計算架構(gòu),通過芯片、連接、系統(tǒng)和調(diào)度的協(xié)同設(shè)計和技術(shù)創(chuàng)新,滿足 AI 訓(xùn)練方面 IO 密集

14、、計算密集、通信密集的需求,以及 AI 推理方面大吞吐和低延遲的需求。與此同時,包括芯片之間、系統(tǒng)之間、設(shè)備之間的互相連接,將幫助不同場景中的計算連接在一起,產(chǎn)生更大的計算力。在系統(tǒng)層兼 顧端云,軟硬一體,實現(xiàn)了對算力資源的靈活調(diào)度。芯片云端通用 AI 處理器百度昆侖硬件的進(jìn)展是這次 AI 發(fā)展的基礎(chǔ)推動力量之一。云端的 AI 推理與訓(xùn)練芯片,成為了各大互聯(lián)網(wǎng)公司、傳統(tǒng)芯片廠商以及創(chuàng)業(yè)公司聚焦的戰(zhàn)場。業(yè)界正在嘗試使用特定領(lǐng)域架構(gòu)(DSA)解決算力及功耗問題。2018 年開發(fā)者大會,百度發(fā)布了國內(nèi)首款云端通用 AI 處理器“百度昆侖”。它基于XPU 架構(gòu),采用 14nm 三星工藝,在 150 瓦

15、功耗限制下,運算性能高達(dá) 260Tops,能解決數(shù) 據(jù)中心對芯片的高性能、低成本、高靈活性三大訴求。百度昆侖芯片具備完整的toolchains, 并開放給開發(fā)者,與飛槳(PaddlePaddle)實現(xiàn)了深度結(jié)合,打造全棧國產(chǎn)技術(shù)生態(tài)。功 能上同時支持視覺、語音、自然語言處理、推薦、無人車等場景,在眾多業(yè)界深度學(xué)習(xí)模 型上均擁有很好的性能和效率表現(xiàn);即將量產(chǎn)的芯片在多個模型上實測性能均超過業(yè)界主 流芯片。遠(yuǎn)場語音交互芯片百度鴻鵠遠(yuǎn)場語音交互芯片“百度鴻鵠”變革了傳統(tǒng)芯片設(shè)計方法,體現(xiàn)了軟件定義芯片的全新設(shè)計思路。百度鴻鵠擁有契合 AI 算法需求的核內(nèi)內(nèi)存結(jié)構(gòu)設(shè)計、分級的內(nèi)存加載策略、依據(jù) AI

16、算法調(diào)教的 cache 設(shè)計和靈活的雙核通信機制,最終實現(xiàn)了深度學(xué)習(xí)計算過程和數(shù)據(jù)加載的高度并行,一顆芯片即同時滿足了遠(yuǎn)場陣列信號實時處理和超低誤報高精度喚醒實時監(jiān)聽的需求。百度鴻鵠可以支持多達(dá)六路的麥克陣列語音信號輸入;支持百度領(lǐng)先的麥克陣列信號處理技術(shù),即雙聲道立體聲AEC 消除、聲源定位、波束生成等;支持百度領(lǐng)先的Deep Peak 和 Deep CNN 語音喚醒技術(shù),實現(xiàn)復(fù)雜內(nèi)外噪場景下的高精準(zhǔn)喚醒以及低于一天一次的誤報率。同時,該芯片還支持百度創(chuàng)新的雙麥克模型波束算法,實現(xiàn)喚醒后 360 度無死角識別,首次在中文語音識別上實現(xiàn)雙麥克陣列的識別率超越傳統(tǒng) 6 麥克系統(tǒng),實現(xiàn)了行業(yè)領(lǐng)先的

17、芯片模型波束技術(shù)突破。AI 計算平臺百度推出的 AI 計算平臺,提供了一個端到端的解決方案來應(yīng)對人工智能計算的挑戰(zhàn)。AI 計算平臺由超級計算模塊 X-Man、高性能存儲系統(tǒng) Fast-F、大型分布式 AI 計算訓(xùn)練平臺KongMing 組成。X-Man 是百度研發(fā)的人工智能超級計算模塊,是針對訓(xùn)練場景定制優(yōu)化的 AI 計算產(chǎn)品。百度在 18 年年底正式發(fā)布 X-Man 3.0,單機具備 2000TFlops 算力,并具備靈活的模塊化設(shè)計功能,能夠支持不同的互連架構(gòu)以及不同的 AI 加速芯片。X-Man 系列產(chǎn)品創(chuàng)造了6 項業(yè)界第一,相關(guān)專利榮獲了 2018 年中國國家專利優(yōu)秀獎。百度與 Fac

18、eboook、微軟等聯(lián)合創(chuàng)立了 OAI(Open Accelerator Infrastructure)開放 AI 加速基礎(chǔ)架構(gòu)項目,旨在促進(jìn)AI 芯片多元化生態(tài)格局的健康持續(xù)發(fā)展。百度在主導(dǎo)OAI 標(biāo)準(zhǔn)定義的同時,也以實際行動推動 OAI 標(biāo)準(zhǔn)落地,在 19 年 9 月發(fā)布了業(yè)界首款支持 OAI 標(biāo)準(zhǔn)和液冷散熱的超級 AI 計算機 X-Man 4.0。圖 4 百度人工智能超級計算模塊 X-Man 4.0Fast-F 是一種高性能并行文件系統(tǒng)解決方案,硬件上基于 Open Channel SSD 實現(xiàn) KV 接口,合并 FW 和存儲引擎層,軟件棧實現(xiàn)全無鎖設(shè)計,解決了 AI 場景下分布式訓(xùn)練集

19、群中的海量小文件 I/O 難題。KongMing 是人工智能訓(xùn)練集群,具備自研的高速通信庫,充分利用 RDMA 和 NVLink 等特性,并且引入了全網(wǎng)絡(luò)架構(gòu)拓?fù)涓兄{(diào)度,能夠以最佳的計算和通信效率將作業(yè)映射到多樣化的 AI 加速芯片和系統(tǒng)上。KongMing 與 X-Man 及 Fast-F 緊密結(jié)合,可支持大規(guī)模分布式訓(xùn)練,將訓(xùn)練時間從周級別縮短到天級別。百度 AI 計算平臺已經(jīng)廣泛應(yīng)用在各行各業(yè)的人工智能解決方案中。同時為支撐平臺更好地服務(wù)業(yè)界用戶,百度超大規(guī)模資源管理系統(tǒng)提供了幾十萬臺服務(wù)器托管服務(wù),常駐容器數(shù)目達(dá)到 500 萬,并提供數(shù)十萬并發(fā)計算能力,為大數(shù)據(jù)處理、模型訓(xùn)練提供支持

20、。5G 邊緣計算5G 會在許多垂直領(lǐng)域顯著提升人工智能服務(wù)的能力。近年來,百度一直積極布局邊緣計算和 5G 領(lǐng)域。2018 年,百度成功打造出面向互聯(lián)網(wǎng)的邊緣計算統(tǒng)一平臺 Over The Edge(OTE),并先后與聯(lián)通、Intel 等知名企業(yè)合作加速 5G 建設(shè)。OTE 平臺將百度人工智能與5G 基礎(chǔ)設(shè)施連接起來,可以使百度人工智能融入萬物互聯(lián)的世界,接近用戶,服務(wù)用戶, 成為一個新的生態(tài)系統(tǒng)。OTE 平臺的架構(gòu)如圖 5 所示,包括資源層的管理, IaaS(Infrastructure as a Service)資源的虛擬化,實現(xiàn)邊緣服務(wù)管理的 PaaS(Platform as a Ser

21、vice),以及基于IaaS 和PaaS 的各種邊緣解決方案,可以在邊緣提供全面的計算加速支持。OTE Stack 是面向 5G 和 AI 的邊緣計算平臺。通過底層的虛擬化,可以屏蔽邊緣硬件的異構(gòu)特性,對外輸出標(biāo)準(zhǔn)的算力資源;通過 OTE 層次化的集群管理和全局的智能調(diào)度,將5G 時代大量的邊緣節(jié)點有效調(diào)度起來,從而在邊緣為 AI 提供低延遲、高可靠和成本最優(yōu)的算力支持。同時,通過OTE Stack 多層集群的統(tǒng)一調(diào)度,將設(shè)備、移動邊緣、云邊緣、云中心協(xié)同起來,為 Device-Edge-Cloud 的協(xié)同計算提供了可能。圖 5 OTE 邊緣計算架構(gòu)量子計算量子計算被認(rèn)為是未來計算技術(shù)的心臟。

22、2018 年百度宣布成立量子計算研究所,開展量子計算軟件和信息技術(shù)應(yīng)用業(yè)務(wù)研究,致力于量子信息科學(xué)中量子技術(shù)的研發(fā)和儲備, 重點關(guān)注量子架構(gòu)、量子算法、以及量子人工智能應(yīng)用91011121314。在量子架構(gòu)方面,百度致力于用半正定規(guī)劃等優(yōu)化工具給出任意信道的量子容量可計算上界和信道模擬所需資源估計,這可作為近期量子計算中的量子信道編碼、量子糾錯和量子電路合成的測試標(biāo)準(zhǔn)。此外,百度探索了量子糾纏這一量子分布式信息處理中最重要物理資源的提純問題,獲得在非漸進(jìn)(有限資源)情形下的三大參數(shù),即提純比率、狀態(tài)拷貝數(shù)、以及保真度之間的消長關(guān)系。在量子算法方面,百度利用量子效應(yīng)設(shè)計快速算法來處理非負(fù)矩陣分解

23、問題,提供了將量子與經(jīng)典計算結(jié)合起來的“量子分治”策略來加速機器學(xué)習(xí)的新路徑,有望對計算機視覺和機器學(xué)習(xí)等人工智能應(yīng)用產(chǎn)生影響。百度還關(guān)注與量子進(jìn)程有關(guān)的問題,回答了“一個量子進(jìn)程何時比另外一個量子進(jìn)程更加無序”這一重要問題,從而將著名的優(yōu)超關(guān)系拓展到了量子情形。該關(guān)系也給出了量子熱力學(xué)的一組完整墑條件。經(jīng)典算法的改進(jìn)對于量子計算研究也有極大促進(jìn)作用。通過改造已有優(yōu)化算法,百度開發(fā)出全新的量子脈沖計算系統(tǒng)“量脈”(Quanlse),其在量子架構(gòu)中承接量子軟件和量子硬件。對于每一個量子邏輯門,該系統(tǒng)可以快速生成相應(yīng)的脈沖序列,從而實現(xiàn)對量子硬件的控制。經(jīng)過實際測試,在相同精度和實驗條件下,單量子

24、比特門計算性能比目前最快的工具提升 8 倍以上,而兩量子比特門性能則至少提升 23 倍,極大地提升了實驗效率。數(shù)據(jù)過去的一年,百度推出了聯(lián)邦學(xué)習(xí)解決方案和數(shù)據(jù)科學(xué)平臺等最新成果,并成功運用人工智能技術(shù)促進(jìn)數(shù)據(jù)工程技術(shù)的提升。聯(lián)邦學(xué)習(xí)解決方案機器學(xué)習(xí)和深度學(xué)習(xí)通常需要將數(shù)據(jù)集中在一個數(shù)據(jù)中心。近年來,隨著整個社會對數(shù)據(jù)安全及數(shù)據(jù)隱私的日益重視,以及相關(guān)法律法規(guī)的出臺,使得數(shù)據(jù)共享和流通面臨很多現(xiàn)實挑戰(zhàn)。如何在保護(hù)數(shù)據(jù)隱私和數(shù)據(jù)安全的前提下,利用分散在不同地方的數(shù)據(jù)來訓(xùn)練機器學(xué)習(xí)和深度學(xué)習(xí)模型,成為一個迫切需要解決的問題。聯(lián)邦學(xué)習(xí)通過密碼學(xué)方法和精心設(shè)計的模型訓(xùn)練協(xié)議,為解決上述問題提供了一種可能

25、的技術(shù)手段,能確保隱私數(shù)據(jù)不出本地的前提下,通過多方協(xié)作訓(xùn)練得到一個高精度的機器學(xué)習(xí)和深度學(xué)習(xí)模型。在這個新興的領(lǐng)域,百度已經(jīng)設(shè)計并實現(xiàn)了針對數(shù)據(jù)垂直切分場景的分布式 Logistic Regression 聯(lián)邦學(xué)習(xí)解決方案,該方案基于參數(shù)服務(wù)器架構(gòu),能夠支持在多個節(jié)點上并行訓(xùn)練模型,具有良好的可擴展性,可以實現(xiàn)海量數(shù)據(jù)的聯(lián)合建模。同時,百度構(gòu)建了GBDT 聯(lián)邦學(xué)習(xí)的原型系統(tǒng),并探索了基于深度學(xué)習(xí)的聯(lián)邦學(xué)習(xí)解決方案,包括基于預(yù)訓(xùn)練模型的聯(lián)邦遷移學(xué)習(xí)以及基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的聯(lián)邦學(xué)習(xí)兩類方案。數(shù)據(jù)科學(xué)平臺百度推出的 Jarvis 數(shù)據(jù)科學(xué)平臺,為公司各業(yè)務(wù)提供易用、高效、自動、安全、節(jié)約的統(tǒng)一數(shù)據(jù)科

26、學(xué)環(huán)境,大幅提升了開發(fā)效率和業(yè)務(wù)效果,節(jié)約大量資源。Jarvis 平臺基于Jupyterlab 的全托管交互分析環(huán)境,提供按需彈性的計算資源,成為內(nèi)部廣泛應(yīng)用的交互環(huán)境;基于異構(gòu)計算的端到端算法加速方案,通過數(shù)據(jù)科學(xué)全流程在 GPU 顯存中計算,單機體驗好、系統(tǒng)簡單易用,分析建模的效率高、成本低,且 GPU 單機比 Spark 集群加速 13 倍,而成本僅為 1/10;支持全流程自動機器學(xué)習(xí) AutoML,覆蓋預(yù)處理、特征工程、模型選擇及超參調(diào)優(yōu)等全流程,引入單階段調(diào)優(yōu)及人工規(guī)則優(yōu)化搜索空間,通過元學(xué)習(xí)、遷移學(xué)習(xí)提升搜索效率;支持基于 Jarvis 軟件的安全聯(lián)合建模方案,兼顧安全性和算法效率

27、, 保障數(shù)據(jù)共享、算法分發(fā)、建模過程的安全性;支持GPU 細(xì)粒度管理方案,在GPU 分時復(fù)用基礎(chǔ)上引入 GPU 卡上計算單位的空分復(fù)用,提供任務(wù)隔離性和服務(wù)質(zhì)量保證、大幅提升GPU 資源利用率。此外,百度在開源社區(qū)建設(shè)方面也取得突出進(jìn)展,開源的分布式分析型數(shù)據(jù)庫Doris 當(dāng)前在百度以及其他知名互聯(lián)網(wǎng)公司已大規(guī)模使用。在 2018 年進(jìn)入 Apache 基金會進(jìn)行孵化后,百度又提供了流式導(dǎo)入功能,對接 Kafka 和增加 SQL 兼容性以及提升查詢性能等。三、感知層百度大腦的感知層包括語音、視覺、增強現(xiàn)實/虛擬現(xiàn)實等技術(shù),這些技術(shù)使得百度大腦具備了仿人的聽覺和視覺能力。語音端到端的模型充分發(fā)揮

28、了模型聯(lián)合訓(xùn)練的優(yōu)勢,顯著提升了語音識別、語音合成等技術(shù)的性能,受到學(xué)術(shù)界和工業(yè)界的一致關(guān)注。語音識別在流式多層截斷注意力模型 SMLTA 的基礎(chǔ)上,百度進(jìn)一步提出了中英文一體化建模和方言大一統(tǒng)模型技術(shù),一方面在保持原有中文識別率的基礎(chǔ)上,實現(xiàn)用戶中英文混雜和純英文自由說;另一方面有機融合了普通話和方言的建模單元,使得同一個聲學(xué)模型既能識別方言又能識別普通話。針對嵌入式終端,百度提出的基于 SMLTA 的離線嵌入式建模技術(shù)采用語音語言一體化建模技術(shù),極大地壓縮了傳統(tǒng)語音識別所使用的語言模型體積。應(yīng)用該技術(shù)的離線語音輸入法性能顯著領(lǐng)先于行業(yè)平均水平。在語音交互方面,百度提出的基于大數(shù)據(jù)仿真技術(shù)的

29、信號前端和聲學(xué)后端聯(lián)合優(yōu)化的整套端到端語音交互方案,使絕對句準(zhǔn)率相對提升3%以上,同時首次推出業(yè)內(nèi)領(lǐng)先的一次喚醒多次交互技術(shù),極大地提升了用戶體驗。語音合成在語音合成方面,百度提出了 End to End Parallel waveRNN(端到端的并行 waveRNN) 語音合成技術(shù),解決了語音合成系統(tǒng)上線時的 bad case 消除問題,明顯提升了語音合成系統(tǒng)的自然度和表現(xiàn)力,適合大規(guī)模在線實時語音合成服務(wù)。相比于國際上主流的 Tacotron 和waveRNN 技術(shù),該技術(shù)主要有以下兩方面創(chuàng)新:首先,傳統(tǒng)方法將文本韻律預(yù)測與語音波形生成作為兩個獨立階段進(jìn)行建模學(xué)習(xí),由于統(tǒng)計模型誤差累積,最

30、終合成語音的 bad case 較多,情感表現(xiàn)力也較弱。端到端的waveRNN 直接根據(jù)輸入文本信息,訓(xùn)練一個深度學(xué)習(xí)waveRNN 網(wǎng)絡(luò)以合成語音。整個過程采用端到端訓(xùn)練,不需要中間的梅爾譜的過渡轉(zhuǎn)換過程, 減少了合成的 bad case , 提升了最終合成語音的自然程度。其次,傳統(tǒng)的waveRNN 是逐點遞推過程,遞推過程冗長,難以適用于在線實時語音合成的場合。百度能夠按照音素、音節(jié)、或者音節(jié)組合等語音片段單元來獨立且并行的合成一個個語音片段, 最終再把這些語音片段拼在一起。在進(jìn)行每個片段的獨立合成時候, 該片段的RNN/LSTM/GRU 隱狀態(tài)的初始狀態(tài)用傳統(tǒng)的拼接系統(tǒng)的決策樹提供,從而

31、保證每個獨立合成片段的合成穩(wěn)定性。百度還提出了一種全新的基于 WaveNet 的并行音頻波形(Raw Audio Waveform)生成模型ClariNet15,合成速度比起原始的 WaveNet 提升了數(shù)千倍,可以達(dá)到實時合成速度的二十倍即合成 1 秒語音,只需要 0.05 秒。ClariNet 是語音合成領(lǐng)域第一個完全端到端的模型,即使用單個神經(jīng)網(wǎng)絡(luò),直接從文本輸入到原始音頻波形輸出。對比 Google DeepMind 提出的 Parallel WaveNet,ClariNet 中所用到的 teacher WaveNet 的輸出概率分布是一個方差有下界的單高斯分布,直接使用最大似然估計來

32、學(xué)習(xí),并且直接閉式(colsed- form)地計算目標(biāo)函數(shù),大大簡化了訓(xùn)練算法,使訓(xùn)練時間比 Parallel WaveNet 減少數(shù)十倍。另外,百度提出了針對語音合成領(lǐng)域的全并行模型 ParaNet16。該模型直接采用前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network),不依賴于任何自回歸神經(jīng)網(wǎng)絡(luò)(Autoregressive Neural Network)或者循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),從文本生成音頻波形僅需一次前饋傳導(dǎo)(Feed-Forward Pass),合成速度較全卷積的自回歸模型提升了 46.7 倍。在長句的合成過程中,ParaNet 提供了更為穩(wěn)定的文本與頻譜之間的

33、對齊關(guān)系,減少了重復(fù)詞、跳詞、以及錯誤發(fā)音,相比于自回歸模型有更高的魯棒性。視覺在計算機視覺方面,百度在基礎(chǔ)圖像技術(shù)、視頻理解技術(shù)、軟硬件結(jié)合等多個技術(shù)方向,取得了重要突破,多次獲得頂級賽事的冠軍。圖像技術(shù)目標(biāo)檢測是計算機視覺和模式識別領(lǐng)域的基礎(chǔ)問題之一,百度在大規(guī)模圖像檢測和檢測網(wǎng)絡(luò)的性能兩個方面開展研發(fā)工作。一方面,在圖像基礎(chǔ)算法方面,百度研發(fā)了大規(guī)模圖像檢測算法。該算法提出的動態(tài)采樣方案,對于不同類別,數(shù)據(jù)量差別較大的情況下效果有明顯提升。2018 年,百度在圖像檢測數(shù)據(jù) Open Images 比賽中獲得全球第一名的成績。該技術(shù)并已被應(yīng)用于商品檢索、Logo 檢索等多個業(yè)務(wù)中。另一方面

34、,百度在圖像檢測領(lǐng)域獲得 2019 年“Objects365 物體檢測”國際競賽 Full Track 冠軍。在這次比賽中,百度通過使用基于強化學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)搜索技術(shù),大幅增強了Two-Stage 檢測網(wǎng)絡(luò)模型的性能,并針對大規(guī)模圖像檢測任務(wù)提出的Class Aware Sensitive 采樣方案,有效的縮短了模型收斂所需的迭代次數(shù),進(jìn)一步提高了模型的最終效果。視頻技術(shù)百度視頻理解技術(shù)持續(xù)優(yōu)化,支持百度搜索的視頻數(shù)據(jù)分析的相關(guān)業(yè)務(wù)需求。目前小視頻分類準(zhǔn)確率超過 90%,業(yè)務(wù)上優(yōu)質(zhì)視頻增益率達(dá) 95%以上。百度連續(xù)三年在視頻理解領(lǐng)域影響力最大的賽事 ActivityNet 上獲得冠軍。在視頻編

35、輯方面,百度結(jié)合多模態(tài)嘴型生成、GAN、TTS 等技術(shù),實現(xiàn)了業(yè)界首個可以量產(chǎn)視頻的真人形象虛擬主播,并成功應(yīng)用于好看視頻天氣預(yù)告、新聞播報等場景。百度還提出了選擇性遷移單元技術(shù)用于提升 GAN 的表現(xiàn)效果,在公開數(shù)據(jù)集 CelebA 取得了世界領(lǐng)先的效果,相關(guān)算法 STGAN 的工作內(nèi)容發(fā)表于國際頂級學(xué)術(shù)會議 CVPR 201917。圖 6 百度真人形象虛擬主播在人體視覺理解方面,百度對以往基于多尺度全卷積神經(jīng)網(wǎng)絡(luò)的模型(例如 Pyramid Scene Parsing Network,DeepLab v3+等)進(jìn)行改進(jìn),使每個卷積核能對圖片的細(xì)節(jié)進(jìn)行感知,同時輸出精度更高的特征圖,解決了人

36、體關(guān)鍵目標(biāo)區(qū)域較小,難以檢測的問題。此外, 百度還進(jìn)行了圖片增強、數(shù)據(jù)擴張,在訓(xùn)練中動態(tài)調(diào)整輸入圖片尺度,使用 mIOU loss 損失函數(shù)等,使得模型能夠更精確地捕捉肢體的細(xì)節(jié)以及被遮蓋的部分。最終根據(jù)各個不同 模型的效果進(jìn)行融合,在 CVPR 2019 LIP(Look Into Person)競賽中,百度取得 65.18%的mIoU,獲得了單人人體解析的冠軍,超過上屆冠軍 7.2 個百分點,總計獲得人體檢測領(lǐng)域 三項冠軍。在智能城市視頻分析領(lǐng)域,百度參加了由NVIDIA 在CVPR 2019 上舉辦的AI CITY 比賽, 并拿到車輛 RE-ID 第一。在車輛重識別技術(shù)方面,百度深耕檢測

37、、跟蹤、屬性分析、關(guān)鍵點定位等核心技術(shù),設(shè)計出基于關(guān)鍵點的特征圖變換網(wǎng)絡(luò),并結(jié)合車型識別、攝像頭時空分布信息等輔助手段提升車輛重識別準(zhǔn)確率。這項技術(shù)廣泛服務(wù)于城市安防、智能城市、智能交通等重要的 AI2B 場景。圖 7 百度車輛識別技術(shù)效果在視頻跟蹤方面,百度還在多尺度特征提取、改善物體模板以提升對微小目標(biāo)的召回能力、利用時空特征來降低密集多目標(biāo)跟蹤的軌跡交換等方面,取得重要進(jìn)展,并在國際權(quán)威的視頻多目標(biāo)追蹤挑戰(zhàn)(Multiple Object Tracking Challenge,MOT)的MOT16 榜單上, 獲得第一名。這些視頻能力對內(nèi)支持百度智能城市、智能零售、自動駕駛等業(yè)務(wù),并通過百

38、度大腦 AI 開放平臺對外開放,服務(wù)各行各業(yè)。圖 8 百度多目標(biāo)追蹤效果人臉檢測與識別在人臉技術(shù)方向,百度在PyramidBox 基礎(chǔ)上提出的PyramidBox+算法在國際權(quán)威評測集 Widerface 最難的 Hard 子集上排名世界第一18;在人臉關(guān)鍵點技術(shù)上,百度應(yīng)用AutoDL 技術(shù)取得了 ICME 2019 人臉關(guān)鍵點比賽的冠軍。在 CVPR 2019 首次舉辦的人臉活體檢測比賽中,百度作為邀請參賽團隊取得了 ACER 指標(biāo)第一名的優(yōu)異成績,即平均錯誤率最低。這項技術(shù)也作為百度 FaceID 解決方案的一項重要功能在多個人臉場景里得到了應(yīng)用。文字識別在文字識別 OCR 領(lǐng)域,百度在

39、端到端文字識別任務(wù)上取得了 RCTW-17 世界第一的成績。在文字檢測、結(jié)構(gòu)化文字信息提取、視頻 OCR 等多個研究方向上百度也持續(xù)探索,相關(guān)的成果在 CVPR 2019 和 ICDAR 2019 發(fā)表,并在 ICDAR 2019 MLT 多語種文字檢測競賽中, 取得了第一的優(yōu)異成績?;谠谖淖肿R別領(lǐng)域多年的研究和應(yīng)用經(jīng)驗,百度聯(lián)合學(xué)術(shù)界舉辦了 ICDAR 2019 的兩項文字識別競賽:LSVT(Large-scale Street View Text with Partial Labeling,大規(guī)模弱標(biāo)注街景文字)、ArT(Arbitrary-Shaped Text,任意形狀場景文字),

40、吸引了世界范圍內(nèi)高校、知名企業(yè)等 100 多支隊伍參賽,在弱監(jiān)督文字識別和任意形狀文字識別兩個新任務(wù)方向上為學(xué)術(shù)界提供了有力的研究數(shù)據(jù)和工具。軟硬結(jié)合在視覺模型小型化技術(shù)方向,百度形成了一套從模型壓縮到模型自動搜索比較完備的體系,囊括了量化、減枝、蒸餾、模型自動壓縮、模型自動搜索、硬件搜索等方面,已經(jīng)在視覺各項任務(wù)上得到應(yīng)用。面向硬件的模型加速,百度研發(fā)了 Leopard 系統(tǒng)。該系統(tǒng)綜合利用模型壓縮、動態(tài)訓(xùn)練策略、以及并行化訓(xùn)練架構(gòu),實現(xiàn)視覺識別模型的訓(xùn)練推理的顯著加速。這項技術(shù)在斯坦福大學(xué)舉辦的 DAWN 競賽(Data Analytics for Whats Next)中共取得 CIFA

41、R10 推理速度和成本,以及 CIFAR10 訓(xùn)練速度和成本四項第一。在實際應(yīng)用中,視覺語義化往往依賴大量傳感器的綜合信息,并需要大量計算資源和融合推理的難題,百度研發(fā)了多傳感器視覺語義化技術(shù)。依托邊緣視覺計算技術(shù)、多種類型自研傳感器、以及高 SLA 軟件架構(gòu),可以實現(xiàn)多人復(fù)雜任務(wù)的視覺語義化推理。以一個便利店環(huán)境為例,百度安裝了超過 1000 個多種類型傳感器(重力、光幕、相機、深度相機)。依靠端云結(jié)合的人體追蹤、肢體檢測、商品取放檢測、SKU 分類、融合推理等算法, 可以在 4 平米/人的密度下準(zhǔn)確追蹤和分析消費者購物行為,即使多人靠近同時拿取相鄰商品也可以準(zhǔn)確分辨。為了提升系統(tǒng)運行速度,

42、百度利用 300 多個端計算芯片分擔(dān)服務(wù)器計算負(fù)擔(dān),減少了 95%的網(wǎng)絡(luò)傳輸和 GPU 服務(wù)器需求。該技術(shù)能夠支持更多的單位面積購物人數(shù)以及單位面積 SKU 數(shù)量,并且可以更快速的完成視覺語義化推理并推送賬單。在機器人避障技術(shù)方向,其難點在于檢測障礙物的同時需要對自身準(zhǔn)確定位,并判斷可通過空間的大小。百度提供了市場上領(lǐng)先的機器人視覺 SLAM 定位技術(shù)(boteye);并進(jìn)一步開發(fā)了技術(shù)領(lǐng)先的機器人避障技術(shù),利用強化學(xué)習(xí)算法模型有效融合視覺和激光傳感器,以及端到端輸出底盤控制信號,提升避障成功率。相比 ROS,在多個場景下,百度機器人避障技術(shù)的避障成功率均大幅領(lǐng)先。增強現(xiàn)實/虛擬現(xiàn)實2018

43、年以來,百度在增強現(xiàn)實和虛擬現(xiàn)實方面取得了許多重要進(jìn)展。百度構(gòu)建了生態(tài)開放平臺DuMix AR,開放多種 AR 核心能力和 AR 引擎,為開發(fā)者及合作伙伴提供優(yōu)質(zhì)的一站式解決方案。百度 VR 已在全景、3D 圖像內(nèi)容的采集、處理、傳輸、展示及交互技術(shù)形成了深厚積累。百度還開發(fā)了一種增強現(xiàn)實的自動駕駛仿真系統(tǒng)。增強現(xiàn)實百度大腦DuMix AR 平臺作為百度大腦的重要組成部分之一,目前已成為國內(nèi)最具影響力的 AR 技術(shù)開放平臺之一,累計開放技術(shù)能力超過 40 項。最新發(fā)布的 DuMix AR 5.0,帶來人機交互和感知跟蹤兩個方向的重大升級。人機交互方面,百度打造人臉人體手勢環(huán)境 一體化交互系統(tǒng),

44、為業(yè)界及合作伙伴提供優(yōu)質(zhì)的一站式娛樂互動解決方案。感知跟蹤方面, 百度自主研發(fā)視覺定位與增強服務(wù) VPAS,通過離線高精地圖構(gòu)建、在線定位、融合跟蹤等三大關(guān)鍵模塊,構(gòu)建了國內(nèi)首個達(dá)到商用落地標(biāo)準(zhǔn)的大場景物理世界交互系統(tǒng)。DuMix AR 平臺聯(lián)合 40 多個生態(tài)合作伙伴在品牌營銷、視頻娛樂、景區(qū)、教育和汽車等多個垂直行業(yè)開展創(chuàng)新探索。繼AR 太極大屏落地全球首個AI 公園海淀公園后,2019 年,AR 太極大屏迅速推廣至全國多個城市,豐富線下互動體驗、引發(fā)全民健身熱潮,累計落地九個公園,十五塊 AR 互動屏,并衍生出八段錦等創(chuàng)新互動內(nèi)容形態(tài);2019 年,春晚切紅包、虛擬主播“小靈”先后登陸央

45、視;“聽障兒童無障礙閱讀計劃”攜手百度公益、壹基金、58 同城,以 AR 技術(shù)變革傳統(tǒng)出版物,關(guān)愛弱勢群體,創(chuàng)造良好的社會效益;此外,還與百度地圖場景化能力結(jié)合,率先實現(xiàn)大場景實景 AR 互動,以 VPAS 再現(xiàn)圓明園大水法的輝煌盛景,將歷史畫卷生動呈現(xiàn)。截止目前,DuMix AR 平臺承載的累計互動量超過19 億,深入 6 大行業(yè)發(fā)布解決方案,顯著推動了 AR 技術(shù)與應(yīng)用的發(fā)展。虛擬現(xiàn)實百度也在深耕 VR 核心技術(shù)和行業(yè)落地解決方案。在全景、3D 圖像內(nèi)容的采集、處理、傳輸、展示及交互技術(shù)持續(xù)積累,已支持 K12、高校培訓(xùn)、營銷等業(yè)務(wù)場景的落地。在內(nèi)容生產(chǎn)方面,通過高精度拍攝、智能拼接、基于

46、深度學(xué)習(xí)的圖像精準(zhǔn)分割技術(shù),構(gòu)建了軟 硬一體化的 3D 圖像采集方案;在內(nèi)容展示方面,基于自研 webVR 渲染引擎、自研高性能 全景和 3D 圖片視頻播放引擎以及長期積累的VR 頭顯硬件適配能力,推出了可覆蓋Unity、Web 平臺的全格式內(nèi)容展示 VR Suite SDK,為合作伙伴提供基礎(chǔ)的 VR 內(nèi)容播放技術(shù)支持。目前,教育方向產(chǎn)品“百度 VR 教室”已經(jīng)在安徽、浙江、上海、湖北、天津等多地學(xué)校落地并常態(tài)化運營;“VR 新商科實驗室”也已在山大、礦大多所高校落地中。百度還積極推動 VR 技術(shù)在 5G+教育場景有效落地,上海市愚一小學(xué)已成為全國首家應(yīng)用 5G Cloud VR 的教學(xué)點。

47、營銷方面,百度 VR 聯(lián)合優(yōu)信二手車,推出了全國領(lǐng)先的“VR 看車”軟硬一體化解決方案,助力優(yōu)信二手車全國購戰(zhàn)略升級。增強現(xiàn)實的自動駕駛仿真自動駕駛系統(tǒng)對安全性有著嚴(yán)苛的要求,相比于花費幾年甚至更久時間讓自動駕駛車 輛接受足夠的道路測試,通過仿真系統(tǒng)測試來評估、提高其安全性極具可操作性和現(xiàn)實意 義。百度開發(fā)了一種增強現(xiàn)實的自動駕駛仿真系統(tǒng),通過模擬交通流來增強現(xiàn)實世界圖像, 進(jìn)而創(chuàng)建逼真的、媲美現(xiàn)實世界渲染的仿真場景,為自動駕駛車輛提供更為可靠且廉價的 仿真模擬方法,可大規(guī)模用于訓(xùn)練和測試評估自動駕駛系統(tǒng)的感知、決策和路徑規(guī)劃算法。該系統(tǒng)相較于現(xiàn)有仿真系統(tǒng),在真實感、擴展性等方面都實現(xiàn)了突破性

48、的技術(shù)進(jìn)展,并發(fā) 表于科學(xué)雜志機器人學(xué)子刊19。四、認(rèn)知層多年來,百度深耕語言與知識技術(shù),并在知識圖譜、語義理解、機器翻譯等方面取得了一系列豐碩的成果,實現(xiàn)了大規(guī)模產(chǎn)業(yè)化應(yīng)用,獲得國家科技進(jìn)步二等獎、中國電子學(xué)會科技進(jìn)步一等獎、中國專利銀獎等獎勵。百度知識圖譜依托海量互聯(lián)網(wǎng)數(shù)據(jù),綜合運用語義理解、知識挖掘、知識整合與補全等技術(shù),提煉出高精度知識,并組織成圖譜,進(jìn)而基于知識圖譜進(jìn)行理解、推理和計算。目前,百度知識圖譜已經(jīng)擁有數(shù)億實體、數(shù)千億事實,并廣泛應(yīng)用于百度眾多產(chǎn)品線,并通過百度大腦 AI 開放平臺開放了實體標(biāo)注、知識問答、百度漢語、圖數(shù)據(jù)庫 BGraph 等核心技術(shù),以及行業(yè)知識圖譜平臺和

49、智能寫作平臺。百度研發(fā)了基于深度學(xué)習(xí)的語義理解技術(shù)并應(yīng)用于智能搜索,大幅提升了搜索精度;百度提出了持續(xù)學(xué)習(xí)語義理解框架艾尼(ERNIE),在中英文多項任務(wù)上均取得最好的效果;百度機器翻譯在大規(guī)模翻譯知識獲取、翻譯模型、多語種翻譯技術(shù)等方面取得重大突破,在2015 年發(fā)布了全球首個互聯(lián)網(wǎng)神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng),在2018 年推出了端到端同傳系統(tǒng)和翻譯機;百度在基于多文檔校驗的閱讀理解技術(shù)、基于交互式學(xué)習(xí)的對話理解技術(shù)、篇章生成算法等方面取得突破性創(chuàng)新,在AI for Prosthetics Challenge 、國際語義評測比賽( International Workshop on Semantic

50、Evaluation)、國際機器翻譯比賽(WMT)等國際權(quán)威賽事中屢獲冠軍。圖 9 百度語言與知識技術(shù)布局知識圖譜知識自學(xué)習(xí)知識自動學(xué)習(xí)和更新是開放域大規(guī)模知識圖譜構(gòu)建面臨的主要挑戰(zhàn)。百度研發(fā)了一套 自下而上的基于主動學(xué)習(xí)的大規(guī)模知識圖譜構(gòu)建方法,包括開放信息抽取、本體自動構(gòu)建、圖譜自動補全、多源數(shù)據(jù)融合,以及人機結(jié)合的知識驗證等多項核心技術(shù)。百度提出了基 于遠(yuǎn)監(jiān)督學(xué)習(xí)訓(xùn)練語料構(gòu)建的信息抽取技術(shù),基于 Bootstrapping 算法和深度學(xué)習(xí)的本體自動構(gòu)建和圖譜補全技術(shù),并通過多源數(shù)據(jù)融合和人機結(jié)合進(jìn)行知識驗證,進(jìn)一步提升知識 獲取質(zhì)量。該方法實現(xiàn)了本體層及數(shù)據(jù)層知識的自我學(xué)習(xí)完善及更新,大

51、幅提高了知識圖 譜構(gòu)建效率。基于該方法,百度知識圖譜擴大了幾個數(shù)量級,顯著提高了百度知識圖譜的 覆蓋率。復(fù)雜知識圖譜傳統(tǒng)的知識圖譜以實體為核心,被稱為實體知識圖譜,不能很好地描述行為、狀態(tài)、時序、空間、條件、概率等復(fù)雜知識,尚需研發(fā)更強語義表達(dá)能力的知識圖譜。百度研發(fā)了包含事件檢測、事件抽取、事件關(guān)系分析等核心技術(shù)的全流程事件圖譜構(gòu)建方案。基于深度神經(jīng)網(wǎng)絡(luò)模型,優(yōu)化了事件檢測的事件判別、事件名生成、事件歸一等關(guān)鍵策略,并使得事件發(fā)現(xiàn)到收錄入庫達(dá)到分鐘級別。在事件本體自動挖掘中,自動挖掘了數(shù)千個事件本體,覆蓋了大部分的事件類型。具備事件時間、地點、觸發(fā)詞、核心參與者等事件屬性抽取能力,同時基于事

52、件時序關(guān)系抽取技術(shù)能高效地自動挖掘事件脈絡(luò)。目前已經(jīng)形成了千萬級別的事件圖譜,支持了事件脈絡(luò)、行業(yè)熱點、地域熱點等多個實際場景的應(yīng)用。此外,基于實際業(yè)務(wù)需求,百度還構(gòu)建了關(guān)注點圖譜,POI(Point of interest)圖譜等多元知識圖譜,研發(fā)了多元知識圖譜的關(guān)聯(lián)技術(shù)。基于多元知識圖譜的豐富表達(dá),支持了眾多智能化的產(chǎn)品及應(yīng)用。行業(yè)知識圖譜近年來,越來越多的行業(yè)、企業(yè)希望利用知識圖譜,沉淀行業(yè)知識,提升行業(yè)應(yīng)用的智能水平。百度在行業(yè)知識圖譜方向重點建設(shè)了三個層次的能力。首先,建設(shè)了行業(yè)知識圖譜構(gòu)建平臺,將多年積累的通用知識圖譜構(gòu)建全流程的策略、算法、架構(gòu)能力遷移到行業(yè),并針對行業(yè)圖譜構(gòu)建定

53、制化高、數(shù)據(jù)質(zhì)量參差、啟動成本高等特點進(jìn)行了系統(tǒng)性的設(shè)計和升級。其次,建設(shè)行業(yè)知識圖譜應(yīng)用能力組件,建設(shè)了包括行業(yè)知識問答,基于BGraph 的圖譜檢索計算引擎等行業(yè)應(yīng)用強需求的基礎(chǔ)能力組件。第三,研發(fā)了行業(yè)知識圖譜解決方案級產(chǎn)品,在智能客服、智慧司法、智能金融和智能企業(yè)信息管理等領(lǐng)域打造了一體化解決方案并實現(xiàn)落地。此外,在醫(yī)療知識圖譜構(gòu)建和應(yīng)用方面,通過與醫(yī)學(xué)專家合作,構(gòu)建了專業(yè)的醫(yī)學(xué)本體,并自動構(gòu)建了百萬級的醫(yī)學(xué)實體及千萬級醫(yī)學(xué)事實。百度基于專業(yè)醫(yī)療知識圖譜實現(xiàn)了一整套醫(yī)療認(rèn)知計算引擎,提供包括可循證輔助診斷、治療建議、病歷質(zhì)控、合理用藥、病歷語義推薦與檢索、知識查詢、多輪分診等在內(nèi)的臨床

54、輔助決策能力,并已落地賦能醫(yī)療機構(gòu),提升診療效率與質(zhì)量。基于知識圖譜的視頻語義理解百度提出了一種基于知識圖譜的視頻語義理解技術(shù),充分利用知識圖譜豐富而全面的事實提升視頻語義理解效果。如圖 10,該技術(shù)通過一種基于多粒度跨模態(tài)注意力機制的語義網(wǎng)絡(luò)實現(xiàn)對視覺、語音、文本的多模態(tài)內(nèi)容解析融合;利用知識子圖關(guān)聯(lián)技術(shù)建立與視頻理解知識圖譜的連接,通過背景知識以及基于多模態(tài)知識的計算與推理,實現(xiàn)對視頻的深度語義理解;突破了傳統(tǒng)基于感知技術(shù)的視頻內(nèi)容分析的局限,實現(xiàn)對視頻的深度結(jié)構(gòu)化的語義理解,大幅提升視頻理解的效果。目前已在百度視頻搜索、推薦、內(nèi)容生成等多個產(chǎn)品上線。其中,多粒度跨模態(tài)注意力機制的視頻理解

55、工作在發(fā)表在 ACL 201920。圖10 基于知識圖譜的視頻語義理解自然語言處理語義理解百度提出的持續(xù)學(xué)習(xí)語義理解框架艾尼(ERNIE)充分利用了百度海量數(shù)據(jù)和飛槳多機多卡高效訓(xùn)練優(yōu)勢,創(chuàng)新地融合大數(shù)據(jù)及知識,持續(xù)地構(gòu)建詞法、句法和語義三個層次的多種預(yù)訓(xùn)練任務(wù),通過持續(xù)的多任務(wù)學(xué)習(xí)技術(shù)進(jìn)行訓(xùn)練更新,如圖 11 所示。目前, ERNIE 已累計學(xué)習(xí)超過 13 億多的知識,全面刷新中英文 NLP 任務(wù)效果。圖 11 持續(xù)學(xué)習(xí)語義理解框架 ERNIE 2.0百度 7 月發(fā)布的 ERNIE 2.0 進(jìn)一步刷新中英文 NLP 任務(wù)效果。目前,ERNIE 2.0 在自然語言推斷、自動問答、閱讀理解等多種

56、中文 NLP 任務(wù)和英文通用自然語言理解任務(wù) GLUE 上,效果超越BERT 和 XLNET,具體如表 1,表 2 所示1。百度近期還發(fā)布了面向企業(yè)應(yīng)用的ERNIE 開源工具集,包括功能全面的 Fine-tuning 工具、速度領(lǐng)先的預(yù)測工具、靈活的部署工具和一鍵式的壓縮工具等。1 表 1、表 2 表示 2019 年 7 月的測試數(shù)據(jù),效果還在持續(xù)提升中。表 1 中文 NLP 任務(wù)效果表 2 英文 GLUE 數(shù)據(jù)集合效果機器翻譯百度在2015 年發(fā)布了全球首個互聯(lián)網(wǎng)神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng),突破了大規(guī)模數(shù)據(jù)訓(xùn)練、集外詞問題、漏譯問題、數(shù)據(jù)稀疏等一系列國際公認(rèn)難題2122,翻譯質(zhì)量提升幅度超過過去十年總

57、和。過去的一年,百度結(jié)合語音技術(shù)、機器翻譯技術(shù),研發(fā)了全球首個高質(zhì)量、低時延的 端到端同傳系統(tǒng),為用戶帶來沉浸式同傳體驗。在語音容錯方面,百度提出了聯(lián)合詞向量 編碼模型23,提升模型魯棒性,緩解語音識別錯誤;在實時性方面,百度提出了具有預(yù) 測和可控時延的翻譯模型24;在語篇翻譯方面,百度提出了基于多輪解碼校對網(wǎng)絡(luò)的語 篇翻譯模型25,以解決譯文一致性和連貫性問題;在端到端機器同傳模型方面,百度首 次提出了基于知識蒸餾的同傳模型26,可以有效克服數(shù)據(jù)稀疏問題,顯著提升翻譯質(zhì)量。百度與途鴿合作研發(fā)了全球首個共享 Wi-Fi 翻譯機,創(chuàng)造性地將 Wi-Fi 和語音翻譯集成, 實現(xiàn)了 80 多個國家的

58、 4G 網(wǎng)絡(luò)高速連接和 10 種語言的高質(zhì)量語音翻譯。研發(fā)了自動語言識別技術(shù),首次實現(xiàn)了一鍵互譯。相比于傳統(tǒng)的翻譯機,極大地提升了用戶體驗和交互效 率。憑借語音翻譯的一系列技術(shù)突破,在美國權(quán)威雜志麻省理工科技評論(MIT Technology Review)2018 年“全球十大突破性技術(shù)”(10 Breakthrough Technologies 2018) 官方榜單中,百度被列為實時語音翻譯領(lǐng)域“關(guān)鍵玩家”,成為本年度唯一一家入選的中 國公司27。2018 年 8 月,百度翻譯機作為官方合作伙伴,支持“中非合作論壇北京峰會” 的多語言翻譯。百度翻譯支持 28 種語言、756 個翻譯方向,覆

59、蓋全球 47 億人口,每日實時響應(yīng)超過千億字符的翻譯請求,同時,提供了開放云接口服務(wù),支持超過 25 萬個第三方應(yīng)用,極大地促進(jìn)了相關(guān)產(chǎn)業(yè)發(fā)展。圖 12 百度-途鴿 Wi-Fi 翻譯機可定制對話技術(shù)基于深厚積累的詞法分析、語義相似度計算、糾錯改寫、情緒識別、關(guān)鍵詞分析等基礎(chǔ) NLP 技術(shù),百度建立了包括可定制的對話理解技術(shù)、問答技術(shù)、對話式理解輔助技術(shù)等多項核心技術(shù),以及由對話管理、需求分發(fā)、全局記憶等機制構(gòu)成的對話系統(tǒng)框架。對話理解過程以基于組合語義推導(dǎo)的啟發(fā)式模型、基于 ERNIE 語義理解框架的深度學(xué)習(xí)模型,以及多引擎融合技術(shù)為支撐,兼顧了對話理解模型的快速啟動和深度優(yōu)化訴求, 在典型的

60、辦公場景中可以將同等理解效果下的數(shù)據(jù)需求量降低 30%70%,總體開發(fā)成本降低 60%。同時,百度還提出了基于深度注意網(wǎng)絡(luò)的多輪響應(yīng)選擇匹配模型 DAM(Deep Attention Matching Network),顯著提高了口語理解能力。此外,百度創(chuàng)新地提出了對話式理解輔助技術(shù),基于異常對話監(jiān)控與用戶反饋識別技術(shù),在與人類的交互過程中優(yōu)化對話理解、問答的模型效果,可以在五輪對話之內(nèi),將理解準(zhǔn)確率提升至 98%以上,進(jìn)一步降低了系統(tǒng)的持續(xù)優(yōu)化成本。在對話系統(tǒng)框架中,百度一方面提供了可編程的對話管理框架,并內(nèi)置了多個常用標(biāo)準(zhǔn)對話范式,為在云端開發(fā)靈活可變的業(yè)務(wù)對話邏輯提供了便利,減少了系統(tǒng)集

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論