思維的邊界:認知智能 -從感知智能邁向認知智能_第1頁
思維的邊界:認知智能 -從感知智能邁向認知智能_第2頁
思維的邊界:認知智能 -從感知智能邁向認知智能_第3頁
思維的邊界:認知智能 -從感知智能邁向認知智能_第4頁
思維的邊界:認知智能 -從感知智能邁向認知智能_第5頁
已閱讀5頁,還剩70頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

企業(yè)人工智能從技術(shù)戰(zhàn)略到行業(yè)落地論壇面向知識的可解釋認知推理33企業(yè)人工智能從技術(shù)戰(zhàn)略到行業(yè)落地論壇【編者按】CCFC3是由中國計算機協(xié)會CCFCTOClub發(fā)起、面向企業(yè)技術(shù)專家的熱門技術(shù)和戰(zhàn)略分享會?;顒又荚诼?lián)結(jié)企業(yè)CTO及高級技術(shù)人才和資深學者,每次以一個技術(shù)話題為核心,走進一家技術(shù)領(lǐng)先企業(yè)。2021年9月24日,CCFC3第十期“認知智能”分享會在北京阿里研究院舉行,來自各行業(yè)的企業(yè)CTO、高級技術(shù)人才和資深學者,共同探討企業(yè)人工智能從感知智能向認知智能階段發(fā)展的意義。本次活動由CCF副秘書長、億邦動力CEO王超主持,CCF副理事長、創(chuàng)新工場首席科學家、瀾舟科技創(chuàng)始人周明做了開場致辭,并代表CCF為活動承辦方阿里研究院頒發(fā)CCFC3活動承辦單位感謝牌。分享會上,阿里研究院副院長安筱鵬代表承辦方致辭,清華大學長聘教授、清華大學人工智能研究院知識智能中心主任李涓子和CCF人工智能與模式識別專委會常委、阿里巴巴研究院數(shù)字技術(shù)研究部高級總監(jiān)蘇中在活動中分別作了題為《面向知識的可解釋認知推理》和《基于超大規(guī)模預訓練模型的小樣本和零樣本學習》的報告。4企業(yè)人工智能從技術(shù)戰(zhàn)略到行業(yè)落地論壇<4活動最后,由蘇中主持了名為《企業(yè)人工智能,從技術(shù)戰(zhàn)略到行業(yè)落地》的高峰論壇,CCF副理事長周明、阿里巴巴集團公共事務(wù)副總裁程璟、清華大學李涓子教授參加了本次論壇。以下為本次論壇的內(nèi)容干貨整理,以饗讀者。一、從感知智能到認知智能的挑戰(zhàn)相比以前的小數(shù)據(jù)智能,現(xiàn)在的人工智能是一個大數(shù)據(jù)的智能,因此數(shù)據(jù)、算法和算力相關(guān)作用,形成三輪迭代的過程。但這其中還是需要將知識融合進去,這也是目前對人工智能的挑戰(zhàn)。55人工智能進入三輪同時驅(qū)動的時代圖片引自主持人蘇中《基于超大規(guī)模預訓練模型的小樣本和零樣本學習》人的智能是可以交互的,可以把簡單的問題換一個角度重新闡述,但在大數(shù)據(jù)海量運算中是無法實現(xiàn)的。所以人工智能的發(fā)展方向是將知識系統(tǒng)代入三輪中以便更好的推理和訓練模型。那么從感知智能到認知智能面臨哪些挑戰(zhàn)呢?周明CCF副理事長、創(chuàng)新工場首席科學家、瀾舟科技創(chuàng)始人6企業(yè)人工智能從技術(shù)戰(zhàn)略到行業(yè)落地論壇<6CCF副理事長周明介紹,現(xiàn)階段我國人工智能的發(fā)展水平與美國基本是并駕齊驅(qū)的。在感知智能領(lǐng)域,從研究到實踐已經(jīng)做到了世界領(lǐng)先水平,超過了美國。在認知智能方面,由于本身的復雜性,在全世界的發(fā)展都還處于摸索階段。所謂感知智能就像我們看到東西,聽到東西,這是第一步,而認知智能就是相當于我們接受到了感知信號之后,用大腦思考、回答問題、做決策的一個過程。我們希望電腦也能學習這個過程。從感知智能跟認知智能在實現(xiàn)機理上的區(qū)別來看,感知智能可以理解為一個single-turn(單輪交互一個輸入和一個輸出,基本不涉及知識圖譜和常識,不需要推理步驟;相對應(yīng)的認知智能就是multi-turn(多輪交互包含復雜的內(nèi)容和推理步驟,可能不單是算法、算力和數(shù)據(jù)能夠解決的?,F(xiàn)階段人工智能還只是剛剛起步,我們需要建立知識庫,實現(xiàn)推理過程。達到這一目有不同的途徑,可以從符號、知識圖譜、常識來出發(fā);也可以從數(shù)據(jù)出發(fā),這兩個加起來,就好像人腦的兩個思維過程,有人用system1&system2來表示,system1(直覺系統(tǒng))是用大數(shù)據(jù)完成輸入后直接快速輸出答案,end-to-end,無關(guān)對錯,也沒有太多的解釋;而system2(邏輯推理系統(tǒng))就是一步一步推理最后給出答案。未來這兩種模式能否交匯?雖然方向還不明確,但無論往哪兒走,無非是從知識出發(fā),要么從數(shù)據(jù)出發(fā),要么融合來解決問題,這是一個重要的課題和挑戰(zhàn)。周明副理事長舉了個例子:我們想象一下如果一個人要解釋一件事他可能會舉例說明,但不會舉一萬個例子,為什么電腦沒有這么聰明呢?就是end-to-end預訓練,它是假設(shè)大腦一片空白,什么都沒有,對任何新任務(wù)都要做end-to-end設(shè)計。但實際中我們的大腦是有基礎(chǔ)技能的,周明稱之為foundationskill,比如語言表達和理解能力、計算能力,這些技能是不需要預訓練的,只需要將它們連在一起,當有新任務(wù)出現(xiàn)的時候,大腦會基于基礎(chǔ)技能只需要做一些微調(diào)就可以輕松解決。77但現(xiàn)在的end-to-end預訓練忽略了基礎(chǔ)技能的存在而永遠是從零開始設(shè)計,這就導致數(shù)據(jù)樣本量持續(xù)不足的現(xiàn)象(Few-shot)。foundationskill可以是數(shù)據(jù)的也可以是知識的,也可以是融合的,我們需要做的是將每一個基礎(chǔ)技能做好,然后設(shè)法將它們連成一片,讓每一次新任務(wù)出現(xiàn)時都可以進行快速調(diào)整輸出。不同于李飛飛提出的foundationmodel(基礎(chǔ)模型同一模型可以管很多事,skill(技能)適用于任何model,而foundationmodel過于強調(diào)model,周明認為是不對的。那么面對眾多行業(yè),foundationskills是通用的還是專用的?首先,人作為一個人智能體有一些foundationskills,比如語文數(shù)學英語,生活常識,等等這些不分領(lǐng)域的技能是最底層,這就像現(xiàn)在預訓練模型,無論你干什么具體任務(wù),都是可以通用的。當深入到某個領(lǐng)域的時候,由于領(lǐng)域的特點,又有一些領(lǐng)域獨有的底層foundationskill,比如電工、交通警察、醫(yī)生。如果我們把這些知識體系都建立好以后,當有新任務(wù)的時候就可以自由的調(diào)用不同領(lǐng)域的知識體系來使用,也很容易從一個領(lǐng)域擴展到另一個領(lǐng)域。周明的設(shè)想是首先由我們把最基礎(chǔ)的技能整理建立一個類似SaaS平臺,然后提供一個應(yīng)用手冊給每個領(lǐng)域的專家來建立領(lǐng)域知識庫,這樣老員工可以通過wiki的形式將自己的知識加入進去,新員工就可以看到這些知識,然后這些知識體能自動的串聯(lián)起來,把人類的知識傳承下去。二、人工智能研究領(lǐng)域最需要哪些突破?李涓子清華大學長聘教授、清華大學人工智能研究院知識智能中心主任■目前人工智能大模型已經(jīng)非常強大,參數(shù)和參數(shù)之間的關(guān)系、多模態(tài)間的關(guān)系已經(jīng)建模的非常好。但李涓子教授認為,這些還只是參數(shù),并沒有上升到知識或者認知的層面。因此如果說要攻克或突破的方向,李涓子教授認為有兩個思路。一種思路就是在訓練大模型的時候把認知的東西交給它,但這種方式很難實現(xiàn);另一種思路是把知識庫放上面,底下是大模型或多模態(tài),上層的知識從大模型中蒸餾出來,用這樣一個知識結(jié)構(gòu)結(jié)合底下的大模型來進行復雜問題的推理。這也是李涓子教授目前在研究的課題。這兩種思路都是希望大模型能夠在兩種知識架構(gòu)下發(fā)揮最大的效應(yīng)?,F(xiàn)在我們國家也在進行知識圖譜的技術(shù)架構(gòu),按照知識的生命周期分階段建立。這個整個技術(shù)架構(gòu)下面,它還分了領(lǐng)域。比如電力領(lǐng)域、金融領(lǐng)域、文獻領(lǐng)域,在不同領(lǐng)域中建立跟領(lǐng)域相關(guān)的知識體系,知識獲取和應(yīng)用的技能,形成領(lǐng)域的基礎(chǔ)設(shè)施。三、人工智能在場景應(yīng)用中的突出表現(xiàn)和挑戰(zhàn)程璟阿里巴巴集團公共事務(wù)副總裁、阿里云市場化及政務(wù)、行業(yè)團隊核心創(chuàng)始成員結(jié)合之前在工業(yè)實踐方面的經(jīng)歷,程璟認為人工智能在提升效率和風控兩個方面的推動作用尤為突出。以雙十一活動為例,在雙十一期間阿里平臺網(wǎng)站每秒鐘會有上千萬的訪問量,這時必須使用人工智能來解決問題,“客服”就是一個典型的人工智能應(yīng)用案例,它向我們展示了在高并發(fā)場景中99如何把大量的簡單重復的問題用機器來解決,這大大提升了效率。而在風控領(lǐng)域,比如假冒偽劣商品的篩選,對于有十億種商品的阿里平臺來說,這個工作單憑人工是無法完成的,所以也需要引入人工智能來解決。人工智能的應(yīng)用場景還有很多,比如優(yōu)酷在2018年世界杯期間推出了“精彩片段集錦”,使用人工智能技術(shù)實時制作賽事精彩片段呈現(xiàn)給球迷們;阿里鹿班智能設(shè)計平臺,其智能生成、創(chuàng)作助手、智能排版、設(shè)計拓展等功能模塊,無須專業(yè)設(shè)計人員操作,可以幫助企業(yè)快速、批量、自動化的進行圖片設(shè)計。再比如庭審的場景,是感知智能的典型應(yīng)用,法庭記錄的時候,這不光是一個語音識別的問題,還包括對法庭上不同角色人物的識別和判斷。不同的場景會對人工智能提出不同層次的應(yīng)用需求,這些需求推動人工智能技術(shù)的發(fā)展和迭代。程璟認為現(xiàn)階段人工智能實踐中的挑戰(zhàn)主要體現(xiàn)在三個方面:1、首先是對準確率的要求。對準確率要求高的場景對人工智能的挑戰(zhàn)更大,就比如鋼鐵廠的例子,鋼材的評級會直接影響鋼材的價格,如果使用人工智能來識別鋼材就要保證很高的準確性。反之對于網(wǎng)店客服的場景,在人工客服應(yīng)接不暇的時候使用智能客服,可以極大的緩解客戶打客服電話打不進的問題,這時對回答問題的準確性就不做過高的要求了。同理在現(xiàn)階段疫情流調(diào)的場景下,先通過人工智能進行第一輪的篩選,就會很大程度節(jié)約人力成本。2、第二是魯棒性。人工智能的魯棒性較弱,很多在測試階段表現(xiàn)良好的數(shù)據(jù),在實際場景應(yīng)用中由于加入了一些隨機噪音而變得很不穩(wěn)定。3、第三是樣本量。程璟認為在規(guī)模性的場景,數(shù)據(jù)量積累比較多的場景,人工智能的實踐效果會比較好。比如在偏互聯(lián)網(wǎng)的場景里面,數(shù)據(jù)積累成本低、數(shù)量大,可供學習的樣本量就相對更多,人工智能的應(yīng)用效果也會更突出。反之對于一些政企場景,由于數(shù)據(jù)量少而復雜,對人工智能應(yīng)用的挑戰(zhàn)就會更大。程璟認為,如果把云計算比作“電”,人工智能就是“燈泡”。在未來,云計算還是會作為數(shù)字時代的基礎(chǔ)設(shè)施,為越來越多的創(chuàng)業(yè)者所用?,F(xiàn)在無論是感知智能還是認知智能,都是以人為第一視角看問題,從視覺、聽覺、感覺到推理的過程都是以人為本的。在未來是否會有主體的轉(zhuǎn)化,比如從城市的角度去思考,這就超出了人的認知邊界,但機器是可以達到的,這可能是未來在工程實踐中可以去探索的一個領(lǐng)域。另外,在科學發(fā)現(xiàn)領(lǐng)域,人工智能的運用也將會發(fā)揮重要作用。四、關(guān)于阿里研究院阿里研究院的前身是2007年成立的阿里研究中心和2012年成立的集團政策研究室,是國內(nèi)互聯(lián)網(wǎng)企業(yè)中第一家內(nèi)設(shè)研究智庫。十多年來,阿里研究院秉承“開放、分享、透明、責任”的互聯(lián)網(wǎng)精神,依托阿里巴巴不斷的科技創(chuàng)新,扎根阿里巴巴數(shù)字經(jīng)濟體豐富的商業(yè)生態(tài)、數(shù)據(jù)和案例,見證了電子商務(wù)、數(shù)字經(jīng)濟和云計算的發(fā)展,已經(jīng)成為在國內(nèi)外數(shù)字經(jīng)濟和數(shù)字治理研究領(lǐng)域,具有廣泛影響力的生態(tài)型研究平臺?;诔笠?guī)模預訓練模型的小樣本和零樣本學習演講嘉賓:蘇中內(nèi)容概要:一、人工智能進入三輪同時驅(qū)動的時代二、M6:中文多模態(tài)預訓練模型三、M6超大規(guī)模預訓練模型的應(yīng)用場景四、超大規(guī)模中文預訓練語言模型PLUG五、大規(guī)模預訓練模型AliceMind在VQA任務(wù)上的突破六、從弱人工智能(NarrowAI)到通用人工智能(ArtificialGeneralIntelligence)人工智能學習里有一個很大的難點,如果我們希望讓計算機認識蘋果,可能要給它1萬張甚至10萬張?zhí)O果的圖片,它才可能認得清楚。而人有特殊的能力,如果是小朋友,我們可能只需要給Ta一幅很抽象的畫可能就足以讓Ta辨識出蘋果。如果給Ta一個真實的蘋果,Ta甚至可以舉一反三,這就是本文想闡述的小樣本學習在生活中的例子之一。零樣本學習也是人特有的一項能力,我們可以將自己在某個領(lǐng)域里面的經(jīng)驗運用到另外一個領(lǐng)域,比如我原來是在企業(yè)的研究院做技術(shù),現(xiàn)在在產(chǎn)業(yè)的研究院工作,做的工作跟以前不一樣,很多東西就是零樣本學習,這項能力是人特有的。一、人工智能進入三輪同時驅(qū)動的時代有時候人工智能并沒有那么智能,我們會說它是人工癡呆,但只要我們能從過去的海量數(shù)據(jù)里面總結(jié)出經(jīng)驗就好。人工智能有三個輪子,分別是數(shù)據(jù)、算力和算法。這些年在自然語言領(lǐng)域里預訓練的技術(shù),給我們提供了一個特別好的場景,就是可以給機器無窮無盡的數(shù)據(jù),不用做標注。比如,我們可以把全世界歷史上所有的詩詞歌賦全部交給計算機去讀。我們還發(fā)明了一些很好的技術(shù),比如基于注意力模式有很多方式可以從語言的內(nèi)容里找到關(guān)聯(lián),把人類所有的知識融在深度學習模型里,構(gòu)建出一個非常龐大的語言模型?;诔笠?guī)模預訓練模型的小樣本和零樣本學習<我們做了一個簡單的統(tǒng)計,在2019年之前,我們的算法模型沒有超過10億參數(shù)的。但從2019年以后,從GPT-2開始,出現(xiàn)了10億以上的模型,接著開始出現(xiàn)千億、萬億的模型。在萬億的模型里面,機器好像開始融會貫通學到了一些東西。把這些內(nèi)容放進去以后,尤其是GPT-2那些看起來非常炫酷的Demo,我們就可以跟它做自由交流了。它可能會通過圖靈測試,讓我們甚至不知道自己是在跟一個機器交流。在這個場景下,我們發(fā)現(xiàn)通過算力、海量的數(shù)據(jù)能解決小數(shù)據(jù)或零樣本學習的問題,取得了一定的突破。二、M6:中文多模態(tài)預訓練模型阿里在這方面做了一些工作,比如M6。M6項目于2020年起步,從最初幾億的規(guī)模到2021年5月份萬億的規(guī)模,最近又突破了十萬億的大關(guān),這個過程經(jīng)歷了很多挑戰(zhàn)。為了讓幾百片顯卡能夠很好地工作,這里面不光涉及到人工智能的算法,也涉及到很多計算機體系架構(gòu),海量計算、綠色計算等的能力。有了這樣的萬億模型,我們能干什么?三、M6超大規(guī)模預訓練模型的應(yīng)用場景和Google的模型不一樣,M6項目組做了多模態(tài),把圖片和文本放在一起學習。比如大家去淘寶網(wǎng)站上,可以看到任何產(chǎn)品都會有照片,照片旁邊會有一段說明。我們可以把信息放到模型里,機器從當中去抽取一些規(guī)律,得到的結(jié)果令人驚詫?;诔笠?guī)模預訓練模型的小樣本和零樣本學習<上圖是模型里的一個真實演示。我們每次都可以得到不同的答案,比如我們輸入“男女外套保暖棉襖連帽輕棉衣”,也可以輸入任何稀奇古怪的內(nèi)容,比如乞丐服等等,模型都會生成一個衣服的款式,因為它能在所有的圖片里找到與我們輸入的文字信息和圖片內(nèi)容之間的關(guān)聯(lián)。我們輸入了棉衣,機器并不理解什么叫棉衣,但它可以從海量的數(shù)據(jù)里找到棉衣應(yīng)該具備哪些特征,然后用這種方式來生成一個高清晰度的圖,這樣的技術(shù)未來或許也可以用來做時裝設(shè)計。在電商領(lǐng)域還遇到一個挑戰(zhàn),比如有一個新的產(chǎn)品,我們應(yīng)該用什么樣的廣告詞比較合適呢?我們可以輸入產(chǎn)品的一個圖,機器會輸出許多文案,你可以從中挑選,甚至跟機器做交互反饋。它相當于把多種模型的能力構(gòu)建在一起,有些能力可能已經(jīng)超過普通人,這就是多模態(tài)大模型可能帶來的一些非凡能力。四、超大規(guī)模中文預訓練語言模型PLUG預訓練語言模型PLUG是百億的參數(shù),可能是中文領(lǐng)域里最大的模型。預訓練語言模型PLUG把這些可以拿到的所有數(shù)據(jù),比如把菜譜放進去讓機器去學習,學完了以后機器就掌握了一些規(guī)律,輸入西紅柿炒胡蘿卜,它就給我們一個菜譜,再點擊一下還可以得到其他西紅柿炒胡蘿卜的菜譜。預訓練語言模型還有一個比較有意思的能力是小說續(xù)寫,比如我們給它一段紅樓夢,它可以往后續(xù)寫。該模型不光是把語言本身的規(guī)律找到了,甚至找到了語言之間的關(guān)聯(lián),將故事串起來,類似于一個小朋友學會了講故事,這一點是大模型計算機比普通人強的地方。如果我們把海量的數(shù)據(jù)給到模型,它從中找到規(guī)律,通過這個規(guī)律去擴展,這上面就可以延伸出很多應(yīng)用。比如讓人頭疼的各種報告匯報的撰寫,在未來也許我們只需要給幾個關(guān)鍵詞,機器就可以幫我們寫得很好。五、大規(guī)模預訓練模型AliceMind在VQA任務(wù)上的突破接下來看一下大規(guī)模預訓練模型AliceMind在VQA任務(wù)上最新的進展?;诔笠?guī)模預訓練模型的小樣本和零樣本學習<上圖是AI在“讀圖會意”的場景。給計算機一個圖,問它一個問題,然后它給一個答案,這就是VQA的場景。這個比賽已經(jīng)進行了很多年,所以問題還是很復雜的,比如圖中下方這個女生的胡子是用什么做的。準確的答案是香蕉,人類回答的正確率大概是80.83%,AliceMind團隊的最新結(jié)果是81.26%,在這個數(shù)據(jù)集上它超過了人類的能力。我們知道,一直以來深度學習在感知的某些方面早已超過了人類,比如在視覺、語音識別等方面,當然它還是跟數(shù)據(jù)集相關(guān)。但人類有些能力仍然特別,比如我從來沒聽過廣東話,但當我到廣東的時候還是能聽懂一些,而機器如果完全沒有聽過廣東話,那么它得到的結(jié)果可能完全不同。但是在非常復雜的數(shù)據(jù)集上,機器已經(jīng)可以做到跟人一樣,甚至更好。我們可以設(shè)想一個場景,如果有海量的數(shù)據(jù),海量多模態(tài)之間的關(guān)聯(lián),用大模型的技術(shù)有可能解決認知智能里小樣本或無樣本學習的場景?!隽?、從弱人工智能(NarrowAI)到通用人工智能(ArtificialGeneralIntelligence)以前我在研究機構(gòu)樹立的目標是要做通用的人工智能,就是讓機器可以像人一樣學習思考,解決一些復雜問題,不局限于像電子拍攝違章等場景,而是能幫人做決策,可以像人一樣主動發(fā)現(xiàn)問題,找到問題,甚至定義問題,最終目標是從感知到認知,真正實現(xiàn)從弱人工智能到通用人工智能。面向知識的可解釋認知推理演講嘉賓:李涓子內(nèi)容概要:一、ComplexQAandExplainableCognitiveReasoning先介紹一下復雜問答,即QA和可解釋認知推理。人工智能就是通過研究和設(shè)計,使得計算機可以像人一樣感知、思考、推理,并進行規(guī)劃和決策的一個系統(tǒng)。通過圖靈測試,可以從以下幾方面來研究人工智能,分知識表示、推理機器學習、計算機視覺自然語言處理和機器人。我們這里主要介紹的就是知識表示和推理。為什么知識是和認知非常相關(guān)的?實際上它就是認知的一個定義,是人怎么去獲得知識和應(yīng)用知識的過程,我們把它稱為認知。我們主要介紹的就是用認知來做推理,用知識去做推理——現(xiàn)階段,我們已經(jīng)從感知的智能到了認知的智能,這也是達成的共識。比如第三代的人工智能是可解釋的,是安全可信的,它也提出了知識+數(shù)據(jù)+算法算力這樣一個框架。如上圖,圖靈獎獲得者做深度學習,也是要把推理和表示學習進行結(jié)合的,也就是把符號表示和推理,和深度學習來進行結(jié)合。什么是問答?問答就是圖靈測試最典型的一個方面。由人去問問題,計算機來自動回答這些問題。我們可以問圖片,可以問文本里面隱含的知識,也可以問知識圖譜里面隱含的知識,最終得到從question到answe現(xiàn)在很多的推理,很多的問答系統(tǒng)和相關(guān)的數(shù)據(jù)集都有關(guān)于簡單問答的測試。比如上圖squad2.0是斯坦福的一個簡單問答數(shù)據(jù)集。第一行是humanperformance,顯示已經(jīng)超過了人的水平,當然這不能說是在simpleanswerandquestion上面真正超過,只是在數(shù)據(jù)集上超過了。再看這個斯坦福復雜問答數(shù)據(jù)集,是在vqa上用圖片去做復雜問題提問。它需要一些推理過程的時候,在數(shù)據(jù)上就遠遠達不到人的水平,所以復雜問答是比簡單問答更難的。什么是復雜問答呢?首先,答案不能是從文本里面或者圖片里面直接獲得的知識,是要用retrieve方法得到的。如果結(jié)果是encode到一個圖片里面,直接可以retrieve出來的,這就不是復雜問答。復雜問答需要有推理的能力,而這個推理的能力體現(xiàn)在多跳推理、技術(shù)比較,還有一些交并補的邏輯操作。如上圖,這是一個例子。這個問題的答案是不在這圖里面的。要得出人的數(shù)量,是需要一定的推理能力的.要找著這個樂隊,確定它的numbers有哪些人,然后去記述這個count,再看兩個count是不是一樣。它的答案是不在這兩個自然段里面的,必須通過一定的推理,得到他們是有相同的人數(shù)這個答案。中間的推理步驟,我們稱之為復雜問答。復雜問答可以分成這三類,一類是semanticparsing,就是對問題進行理解,然后把它表示成一種邏輯表達,而這種邏輯表達可以是SPARQL,也可以是拉姆的演算,可以是中間的任何一個邏輯結(jié)構(gòu)。第二類是利用端到端的graphneuralnetwork(圖神經(jīng)元網(wǎng)絡(luò)第三類是multistepquery。這兩個都是深度學習的方法,但這些方法存在的問題是什么?第一個問題,是缺乏可解釋性。另外,在深度神經(jīng)網(wǎng)絡(luò)上做推理,它對知識類型的處理非常有限,它只能處理實體到實體之間的關(guān)系。但知識的形式是非常多的,而它只是把實體和實體變成圖,在圖結(jié)構(gòu)上去算。針對這個問題,我們做了一些研究。隨著研究的進展,逐漸明確了這個框架,并把它稱為面向知識的可解釋推理。因為知識就是認知的結(jié)果,所以后面就把認知去掉了,我們的framework(框架)是什么?其實就是圖邏輯表達和推理。那么為什么用圖?圖是一種顯示的表示,和人的認知是比較match的??凑Z義網(wǎng)絡(luò),就是Smartnetwork,研究認知怎么去記憶這個知識,它是一種顯式的知識的表示。不管是知識圖譜,還是內(nèi)置的場景圖,還是文本里面實體之間的關(guān)系,都可以用graph表示。它可以針對不同的形式表示,也可以用深度學習的方法來進行表征,就是用圖來表征。另外,怎么把認知的推理過程和整個圖結(jié)構(gòu)結(jié)合起來?我們做了一個面向知識的程序設(shè)計語言,在程序設(shè)計語言上去推理。這個程序就是我們的推理過程??梢园衙嫦驈碗s問答的對象表成圖,這個叫目標的結(jié)構(gòu)化。我們可以把復雜問答看成一個questionprogram,而這個program表示了其中的推理步驟。像上圖這個問題,有多少物體是在這塊棕色金屬右邊且在紅色方塊左邊的?它根據(jù)推理步驟就能得到一個人能看懂的答案。這個cube是紅色的,它的left是誰?相當于把這個question前面的自然語言表達表示成了一個推理過程,整個推理過程的步驟可以在執(zhí)行program以后得到答案。上面program的執(zhí)行過程,就是場景。我們想通過這個場景,解析不同結(jié)構(gòu)。比如這個先找到一個cube,再找一個紅的cube,接著去履約他的left,就激活了另一個節(jié)點。另一個程序也是,去找一個柱形,然后找一個brown的金屬,最后得到的是它們所對應(yīng)的位置。上述兩個program的交集,其實不止一個。但過程最后得到的就只有一個結(jié)果。而每一個target的操作,是可以用module去實現(xiàn)操作的,可以看成是模塊化的神經(jīng)網(wǎng)絡(luò)對這個操作去建模。那要怎么去實現(xiàn)這個框架,也就是上面的每一個透明的顯示的過程?整個計算雖然是在深度學習框架下做的,但它的每一個步驟都是可解釋的。我們用modularneuralnetwork去實現(xiàn)每一個函數(shù)的計算,包括它的邏輯操作、它是否存在、它的基數(shù),然后去描二、KnowledgeOrientedProgrammingLanguage(KoPL)在斯坦福上發(fā)的最簡單的vqaclub的數(shù)據(jù)集上做了研究之后,我們考慮,是不是可以把它擴充到知識的范疇,去做知識的推理編程,所以我們就設(shè)計了Kopl語言。比如knowledgeoriented的program,這里的operation是由一組原子函數(shù)或者操作來組成的函數(shù),它帶的參數(shù)就是知識的元素,我們可以通過編程語言把復雜的問題變成多個推理的步驟,并把它稱為program,這個推理步驟是很容易去理解的。把這個推理過程變成程序,人也很容易對它進行control。程序編錯了,人可以去操作它,對它進行修正,這對人來說是更好的影響。我們用SPARQL來表示這個過程。看SPARQL中間,因為它用的是圖結(jié)構(gòu),所以實際上用program去表示出來更容易理解。執(zhí)行這個模板之后,得到的就是答案。這個framework就是編程語言里面的參數(shù),那么knowledge的元素是什么呢?在這里面,我們給出了一個knowledgebasedefinition(知識庫定義它的一些函數(shù)就是原子的函數(shù),是對知識庫上知識的一些操作的原函數(shù),還有對知識進行query的語言函數(shù)。program,就是function的conversation,是由一系列的function組成的,這個program是可以去執(zhí)行可以被編譯的。它可以在智庫上執(zhí)行,產(chǎn)生問題的答案。知識庫大家應(yīng)該都已經(jīng)了解,有concept(概念)。其實人也是這樣,有概念,有實體有關(guān)系,還有描述實體的屬性.比如三元組當節(jié)點的時候,它在不同時間的配偶可能是不一樣的,所以它對實體也有一個修飾的關(guān)系。我們把它稱為qualifier。從上圖里可以看到,在矩形里面都是實體的知識,中間是聯(lián)系這兩個實體的關(guān)系。里面畫虛線的是qualifier的一些修飾關(guān)系,還有它的屬性,比如dateofbirth、height,這些都是attribute的關(guān)系。在kopl語言里面,它所處理的函數(shù)里面對應(yīng)的參數(shù)就是這些內(nèi)容。我們在kopl里面定義了14個知識庫上的操作函數(shù)。就是上面的find、filterConcept或者是filterstr等,這都是對于屬性值的過濾,F(xiàn)ilterConcept是對concept過濾。然后找出一些實體,對這個函數(shù)的定義,都是在數(shù)據(jù)在知識庫上最基本的操作。最后一列是每個函數(shù)對應(yīng)的的inputoutput,而這里面都是對應(yīng)了最基本的知識的元素。因為是面向復雜問答,所以也有query方式。而這些query方式具有邏輯計算的能力,可以去做驗證,可以去做比較,也可以去做邏輯運算。我們可以寫一個program,然后在這個知識庫上一編譯就可以得到結(jié)果。去執(zhí)行這個程序的過程,就是得到答案的過程??匆粋€簡單的例子。要先找著實體,然后通過實體去關(guān)聯(lián),它的publicationdate是在1940年之后,這通過filteryear按時間來去過濾的。就好比它是一個動畫電影,最后得到一個技術(shù)。實際上每一個操作過程,都是一個代數(shù)集合的計算,最終對得到的實體進行計數(shù)。我們給出一個問題之后,就可以去寫理解這個問題的program,而這個program不需要額外的操作,只需要對它做執(zhí)行,就可以得到問題的答案。KoPL不僅僅可以面向KBQA上的復雜問答,還可以把這個復雜問題表示成上面說的方式的組另外,跟sparql相比,它還有比較好的可解釋性。如果生成了對應(yīng)的sparqlquery,錯了之后就不太好改。而我們有這個program之后,可以直接對program進行更改。它還可以做知識guide的復雜問答。這是一個我們在HotpotQAQA上的數(shù)據(jù)集,一個真實的問題。HotpotQAQA是面向文本做多跳推理的一個數(shù)據(jù)集。比如上圖,他的兒子是什么時間出生的?可以把這個問題變成一個program。在知識庫里面,這兩個人都是存在的。但在wikidata里面的數(shù)據(jù)集,這個人和他是兒子的關(guān)系是沒有的,那這個關(guān)系體現(xiàn)在哪?在這個文本里面。我們提問whoishischild,就可以把這個人找著,有dateofbirth,可以把斷的program通過文本來補全。這個時候就可以把文本和大模型進行一個結(jié)合,因為文本里面有很多這樣的知識。三、KQAPro:ADatasetforComplexKBQAwithReasoningPrograms接下來就是怎么把寫program的過程自動化智能化。我們做了一個KQAPRO數(shù)據(jù)集,這個數(shù)據(jù)集就是把每一個復雜問題都帶上推理的program。它已經(jīng)在線上了,大家也可以試著往里面寫問題,它會給你個program的解析結(jié)果。針對上圖面向智庫的復雜問題,我們希望出來是yaoming這個結(jié)果。我們會把這個問題解析成program,同時為了跟spark做比較,可能他們還有互補性,我們也保留了sparql。為什么做這個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論