版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
arXiv2303.1271v1[sL]arXiv2303.1271v1[sL]月22要人工智能(AI)研究人員一直在開發(fā)和完善大型語言模型(s),這些模型在各種領(lǐng)域和任務(wù)中表現(xiàn)出非凡的能力,挑戰(zhàn)我們對學(xué)習和認知的理解。由pI開發(fā)的最新模型GPT-[Ope23],是使用前所未有的計算和數(shù)據(jù)規(guī)模訓(xùn)練出來的。在本文中,我們報告了我們對GP-4早期版本的調(diào)查,當時它還在OpenAI的積極開發(fā)中。我們認為,(這個早期版本的)GPT-4是新一批M的一部分(例如,與hPT和谷歌的PaLM一起),它比以前的AI模型表現(xiàn)出更多的通用智能。我們討論了這些模型的上升能力和影響。我們證明,除了對語言的掌握,GPT-4還能解決跨越數(shù)學(xué)、編碼、視覺、醫(yī)學(xué)、法律、心理學(xué)等領(lǐng)域的新穎而困難的任務(wù),而不需要任何特殊的提示。此外,在所有這些任務(wù)中,GPT-4的表現(xiàn)都驚人地接近人類水平,而且往往大大超過了hPT等現(xiàn)有模型。鑒于PT-4能力的廣度和深度,我們認為可以合理地將其視為人工通用智能(AGI)系統(tǒng)的早期(但仍不完整)版本。在我們對GP-4的探索中,我們特別強調(diào)發(fā)現(xiàn)它的局限性,并討論了在向更深入和更全面的AGI版本邁進時面臨的挑戰(zhàn),包括可能需要追求一種超越下一個單詞預(yù)測的新范式。最后,我們對近期技術(shù)飛躍的社會影響和未來的研究方向進行了思考。一些未知的東西正在做我們不知道。-阿瑟-爵士介智力是一個多方面的、難以捉摸的概念,長期以來一直對心理學(xué)家、哲學(xué)家和計算機科學(xué)家構(gòu)成挑戰(zhàn)。年,一個由2位心理學(xué)家組成的小組試圖抓住其本質(zhì),他們在一篇關(guān)于智力科學(xué)的社論中發(fā)表了一個廣泛的定義[Got97]。該共識小組將智力定義為一種非常普遍的心理能力,其中包括推理、計劃、解決問題、抽象思考、理解復(fù)雜概念、快速學(xué)習和從經(jīng)驗中學(xué)習的能力。這個定義意味著智能并不局限于某個特定的領(lǐng)域或任務(wù),而是包含了廣泛的認知技能和能力。建立一個能表現(xiàn)出4年共識定義中的那種通用智能的人工系統(tǒng)是人工智能研究的一個長期的、雄心勃勃的目標。在早期的著作中,現(xiàn)代人工智能(AI)研究學(xué)科的創(chuàng)始人提出了一系列理解智能的理想目標[MMRS06]。幾十年來,人工智能研究者們一直在追求智能的原則,包,智能研究中最近的許多成功可以說是狹隘地專注于定義明確的任務(wù)和挑戰(zhàn),例如下棋或圍棋,人工智能系統(tǒng)分別在6年和6年掌握了這些任務(wù)。在90年代末和進入0年后,開發(fā)更普遍的人工智能系統(tǒng)的呼聲越來越高(例如,[SBD+]),該領(lǐng)域的學(xué)術(shù)研究也試圖確定可能成為更普遍的智能系統(tǒng)基礎(chǔ)的原則(例如,[Leg08,GHT15])。0年代初,"人工通用智能"(AGI)這一短語被推廣開來(見[Goe14]),以強調(diào)從"狹義的人工智能"(如正在開發(fā)的專注的現(xiàn)實世界的應(yīng)用)向更廣泛的概念發(fā)展的愿望。我們使用AGI來指代那些表現(xiàn)出上述94年定義的廣泛智能能力的系統(tǒng),同時還要求這些能力達到或超過人類水平。我們用AGI來指代那些表現(xiàn)出上述14年定義中的廣泛智能能力的系統(tǒng),以及額外的要求,也許是在共識小組的工作中隱含的,即這些能力達到或超過人類水平。然而,我們注意到,沒有一個單一的AI定義被廣泛接受,我們在結(jié)論部分討論了其他定義。過去幾年,人工智能研究中最顯著的突破是大型語言模型(LMs)在自然語言處理方面取得的進展。這些神經(jīng)網(wǎng)絡(luò)模型基于r架構(gòu)+],并在大規(guī)模的網(wǎng)絡(luò)文本數(shù)據(jù)體上進行訓(xùn)練,其核心是使一個自我監(jiān)督的目標來預(yù)測部分句子中的下一個單詞。在本文中,我們報告了由OpenAI開發(fā)的新M的證據(jù),它是GPT-]的早期和非多模態(tài)版本,根據(jù)4年的定義,表現(xiàn)出許多智能的特征。盡管是純粹模型,這個早期版本的GPT-4在各種領(lǐng)域和任務(wù)上表現(xiàn)出顯著的能力,包括抽象、理解、視覺、編碼、數(shù)學(xué)、醫(yī)學(xué)、法律、對人類動機和情感的理解等等。在OpenAI的早期開發(fā)過程中,我們使用純粹的自語言查詢(提示)與GPT-4進行互動1.在圖1中,我們展示了PT-4輸出的一些初步例子,要求它以一首詩的形式寫出素數(shù)的無限性證明,用TiZ(一種在X中創(chuàng)建圖形的語言)畫出一只獨角獸,用Python創(chuàng)建一個復(fù)雜的動畫,并解決一個高中水平的數(shù)學(xué)問題。它很容易成功地完成了所有這些任務(wù),并產(chǎn)生了與人類所能產(chǎn)生的結(jié)果基本上沒有區(qū)別(甚至更好)的輸出。我們還將GPT-4的性能與之前的LM進行了比較,最值得一提的是T,它是GPT-3的微調(diào)版本(改進版)[BMR+]。在圖2中,我們展示了C對素數(shù)無限大的詩和TikZ獨角獸圖的要求結(jié)果。雖然該系統(tǒng)在這兩個任務(wù)上的表現(xiàn)都不差,但與PT-4的輸出結(jié)果相比,卻沒有什么區(qū)別。這些初步的觀察結(jié)果將在本文中重復(fù)出現(xiàn),在各種任務(wù)上都有體現(xiàn)。GPT-4的能力具有普遍性,其眾多能力跨越了廣泛的領(lǐng)域,其在廣泛的任務(wù)中的表現(xiàn)達到或超過了人類水平,這者的結(jié)合使我們可以說GPT-4是邁向AGI的重要一步。1由于GPT-4的發(fā)展在我們的實驗之后繼續(xù)進行,人們應(yīng)該期待的最終版本有不同的反應(yīng)。特別是,所有的定量結(jié)果應(yīng)被視為對模型潛力的估計,而不是確定的數(shù)字。我們在整個文件中重復(fù)了這一警告,以澄清所部署的模型的經(jīng)驗可能有所不同。此外,我們強調(diào),我們測試的版本是純文本的輸入,但為了簡單起見,我們也把它稱為。-4提示:你能寫一個證明,證明有無限多的素數(shù),每句都押韻嗎?T:是的,我想我、雖然這可能需要一個巧妙的計劃。我首先要出歐幾里德的、這表明,素數(shù)并不只是冷漠的。假設(shè)我們有一個有的列表、諸如此類的素數(shù),而且一個都沒有漏掉。將它們?nèi)喑?、為了聰明起見,再加一個。結(jié)果將是個數(shù)字、這沒有質(zhì)因數(shù),哦,奇怪!但每個數(shù)字都有因數(shù)!但每個數(shù)字都有一個素數(shù)、這就劃分了,這只是一個時間問題。所以我們發(fā)現(xiàn)一個矛盾、我們有限的名單需要被驅(qū)逐。一定有無限多的數(shù),這就是我的押韻句子的結(jié)局。
提示:在中畫一個獨角獸。: 以下圖片]。提示:你能為以下數(shù)據(jù)生成一個ot:x=[,,,,],y1=[,,,8,],y2=[,,,,],y3=[,,,,],y4=[,,,,]。我希望y1、2在同一個圖中,但3在該圖旁邊的另一個圖中,4在下面。我希望1的圖例是"bob",2是"alice",3是"bilb",4是"alli"。我想在x軸上標明"時間",y軸上標明"金錢"。我想在每條曲線上添加一個0%-40%的隨機誤差條,貫穿所有時間(包括非整數(shù))。我想用平滑的曲線來顯示圖,以及平滑的誤差條。不要使用線性插值,要使用平滑插值!我還想在平滑的曲線上添加一些小的之字形,使它看起來更真實。我想把一條基線作為每條線的平均值。我想在下面放一個餅狀圖,表明每個時間步驟中四個人的比例。我還想用一個動畫來顯示餅狀圖中的分數(shù)是如何在*連續(xù)的時間內(nèi)變化的。把缺失的分數(shù)插值出來!我還希望其他三個圖中的垂直線動畫能與餅狀圖相匹配。我想要最漂亮的圖。請盡可能多地添加花哨的東西。下面是一個可能的代碼,用于生成以下數(shù)據(jù)的o,并有一些注釋來解釋:T:[我們給出了兩個由制作的產(chǎn)生的動畫快照]。提示:假設(shè)(x)=?1(x),()=,()=,()=,()=,()=什么是((?T4:有不同的方法來處理這個問題,但一個可能的方法是利用(x)=?1x)這一事實,這意味著對于g域中的任何x,(())=x。也就是說,將f應(yīng)用于方程(x)=?1x)的兩邊,得到f(())=f(?1(x))=x。這意味著,我們可以通過應(yīng)用g撤銷f的影響,反過來也是如此。利用這個想法,我們可以嘗試通過尋找x的值使(x)=6來找到(6)。從給定的信息中,我們看到g(9)=6,所以f(6)=f(g(9))=9。同樣地,我們可以通過尋找x的值使(x)=9來找到f(9)。我們看到g(7)=9,所以f(9)=f(g(7))=7。最后,我們可以通過尋找x的值使(x)=7來找到f(7)。我們看到()=,所以()=(())=。因此,(())=())=()=。圖:GPT-4在語言、視覺、編碼和方面能力的初步例子。T提示:你能寫出一個證明,證明有眾多素數(shù),每句都?
提示:在中畫一個獨角獸。:果: 到以下。當然!這里有一個證明,證明有無限多的素數(shù),證明的每一行都是押的:考慮所有的集合。稱這個集合為P,讓它只從兩個開始,即第一個如果我們把P中的所有素數(shù)加上、我們得到了一組從未新數(shù)字。這個集合,稱之為S,只由復(fù)合數(shù)組成。在這些數(shù)字中不會發(fā)現(xiàn)任何素數(shù),這是肯定的。但我們知道,至少要有一個素數(shù),因為S是無限的,這一點很清楚。如果我們?nèi)中不在P中的最小數(shù)字,并稱其為P,我們就可以把加到我們的集合中,你明白嗎?但這個過程可以無限期地重復(fù)。因此,我們的集合P也必須是無限的,你會。所以你有了,一個相當證明。有無限多的原數(shù),這一點我們可以看到。不需要忸怩作態(tài),不需懺悔。圖:圖中前兩個提示的輸出。我們聲稱GP-4代表了朝向AGI的進展,但并不意味著它在所做的事情上是完美的,或它接近于能做任何人類能夠做的事情(這是I的通常定義之一;關(guān)于這一點,請參見結(jié)論部分),或者它有內(nèi)在動機目AGI的一些定義中的另關(guān))。事實上,即使在94年智能定義的限制范圍內(nèi),也完全而且可以說它完全缺少"快速學(xué)習和從經(jīng)驗中學(xué)習"的部分,因為模型不是持續(xù)更新的(盡管它可以在一個會話中學(xué)習,例如見第5節(jié))。總的來說,GPT-4仍然有很多局限性和偏見,我們在下文中詳細討論,OpenAI的報告[Ope23]中也有涉及。特別是它仍然受到一些有據(jù)可查的M缺點的影響,比如幻覺問題[MNBM20](見圖8)或犯基本的算術(shù)錯誤[CK+](見能力(例如、它解決了[MIB+]中描述的大多數(shù)M故障模式,而且它在常識方面也取得了很大的進展,第一個例子見圖7,更多內(nèi)容見附錄A)。這凸顯了這樣一個事實:雖然GPT-4在許多任務(wù)上達到或超過了人類水平,但總體而言,它的智模式明顯不像人類。然而,GP-4幾乎可以肯定只是邁向一系列越來越普遍的智能系統(tǒng)的第一步,事實上,GPT-4本身在我們測試的整個過程中也在不斷改進,見圖3中的獨角獸繪畫在一個月的訓(xùn)練過程中的演變。2.然而,即使作為第一步,PT-4也挑戰(zhàn)了相當多廣泛持有的關(guān)于機器智能的假設(shè),并表現(xiàn)出突發(fā)的行為和能力,其來源和機制目前還很難準確辨別(關(guān)于這一點,請再次參閱結(jié)論部分的討論)。我們撰寫本文的要目的是分享我們對GPT-4的能力和局限性的探索,以支持我們關(guān)于技術(shù)飛躍的評估。我們相信,GP-4的智能標志著計算機科學(xué)領(lǐng)域及其他領(lǐng)域的真正范式轉(zhuǎn)變。2請注意,我們在這里所指的改進是一種緩慢的學(xué)習,最終會停止,而不是人們所期望的AGI的快節(jié)奏和實時學(xué)習。 圖3:在系統(tǒng)完善的一個月內(nèi),我們以大致相同的時間間隔對GPT-4進行了三次查詢,提示"在TikZ中畫一個獨角獸"。我們可以看到GP-4的繪圖的復(fù)雜程度有了明顯的變化。我們研究T方法我們?nèi)绾魏饬恳粋€在未知但極其龐大的網(wǎng)絡(luò)文本數(shù)據(jù)語料庫中訓(xùn)練出來的LM的智能?機器學(xué)習的標準方法是在一組標準的基準數(shù)據(jù)集上評估系統(tǒng),確保它們獨立于訓(xùn)練數(shù)據(jù),并且涵蓋一系列的任務(wù)和領(lǐng)域。這種方法旨在將真正的學(xué)習從單純的記憶中分離出來,并且,,這種方法不一定適合研究PT-4,原因有二。首先,由于我們無法獲得其龐大的訓(xùn)練數(shù)據(jù)的全部細節(jié),我不得不假設(shè)它有可能見過所有現(xiàn)有的基準,或者至少是一些類似的數(shù)據(jù)。例如,GPT-4似乎知道最近提出的BIG-bench[SR+](至少GPT-4知道BI-bh的金絲雀GUID)。當然,OpenAI自己可以獲得所有的訓(xùn)練細節(jié),因此他們的報告[Ope23]包含了很多詳細的基準測試結(jié)果。盡管如此,超越傳統(tǒng)基準的第二個原因可能更為重要:GPT-4的智能的一個關(guān)鍵方面是它的通用性,它似乎能夠理解和連接任何主題,并執(zhí)行超出狹義人工智能系統(tǒng)典型范圍的任務(wù)。GP-4最令人印象深刻的一些表現(xiàn)是在不承認單一解決方案的任務(wù)上,如編寫圖形用戶界面(GUI)或幫助人類就一些與工作有關(guān)的問題進行頭腦風暴。這種生成性或交互性任務(wù)的基準可以+中關(guān)于P中這一活躍研究領(lǐng)域的)。我們注意到,在對衡量人工智能系統(tǒng)的標準方法提出批評一個新的基準來評估通用智能。我們沒有在后者的基準上測試GPT-4,原因如前所述,以及該基準是視覺性質(zhì)的,因此更適合于中描述的GPT-4的多模態(tài)版。為了克服上述的局限性,我們在此提出了一種不同的方法來研究PT-4,這種方法更接近于傳統(tǒng)的心理學(xué),而不是機器學(xué)習,利用人類的創(chuàng)造力和聰明才智。我們的目標是產(chǎn)生新的和困難的任務(wù)和問題,令人服地證明GPT-4遠遠超出了記憶的范圍,它對概念、技能和領(lǐng)域有深刻和靈活的理解(在[CWF+]中也出了一個有點類似的方法)。我們還旨在探究GPT-4的反應(yīng)和行為,以驗證其一致性、連貫性和正確性,并揭示其局限性和偏見。我們承認,這種方法有些主觀和不正式,可能無法滿足科學(xué)評估的嚴格標準。然而我們認為這是一個有用的和必要的第一步,以了解GPT-4的顯著能力和挑戰(zhàn),這樣的第一步為開發(fā)更正式和全面的方法來測試和分析具有更普遍智能的A系統(tǒng)開辟了新的機會。為了說明我們評估GPT-4智力的方法,讓我們考慮圖1中我們與PT-4之間的前兩個行動例子。第一個例子是要求GPT-4以詩的形式寫出素數(shù)的無限性的證明。這是一個具有挑戰(zhàn)性的任務(wù),需要結(jié)合的圖4:我們給了GPT-4一個它為圖1產(chǎn)生的TikZ代碼的轉(zhuǎn)換版本,其中畫有喇叭的部分被刪除了。我們要求代碼添加回喇叭,并顯示以"再次,我們測試的版本不是多模態(tài)的)。數(shù)學(xué)推理、詩意表達和自然語言生成。第二個例子是要求GPT-4在TiKZ中畫一個獨角獸。這是另一個具有戰(zhàn)性的任務(wù),需要結(jié)合視覺想象力和編碼技能。在這兩個例子中,GP-4產(chǎn)生了令人印象深刻的輸出,遠遠超過了以前最先進的hPT的輸出,而且至少可以與人類的相媲美(如果不是的話)。需要進一步探究,以排除GPT-4只是在記憶或復(fù)制一些現(xiàn)有數(shù)據(jù)的可能性。對于這首詩,我們可以稍微改變一下問題,要求GPT-4寫出同一定理的證明拉令人印象深刻的輸出,這表明它對所涉及的概念有一個靈活和普遍的理解。對于獨角獸,我們可以稍微修改代碼,并要求GP-4修復(fù)或改進它。例如,我們可以去掉角,對坐標進行一些隨機變換,然后要求GP-4為獨角獸重新加上角(我們還仔細地去掉了代碼中的任何文本信息,如注釋)。如圖4所示,GP-4可以正確地識別頭部的位置,畫出一個角,并將其連接到頭部,這表明它可以根據(jù)自然語言的描述來理解和操作代碼,以及推斷和產(chǎn)生視覺特征。這些例子表明我們?nèi)绾卫萌祟惖膭?chuàng)造力和好奇心來產(chǎn)生新奇和困難的問題,并探究GPT-4的反應(yīng)和行為,以評估其智能。在本文的其余部分,我們圍繞用例來組織我們對GPT-4的研究,涵蓋了各種領(lǐng)域和任務(wù),并強調(diào)了GPT-4的優(yōu)勢和劣勢。接下來我們將介紹這些。我們的組織.GPT-4的主要優(yōu)勢在于它對自然語言的掌握無可比擬。它不僅可以生成流暢和連貫的文本,還可以以我們在一些選定的主題上執(zhí)行上述方法,這些主題大致涵蓋了9.GPT-4的主要優(yōu)勢在于它對自然語言的掌握無可比擬。它不僅可以生成流暢和連貫的文本,還可以以。我們探指,如醫(yī)學(xué)、法律、會計、各種方式理解和處理文本,如總結(jié)、翻譯或回答一系列極其廣泛的問題。此外,我們所說的翻譯不計算機編程、音樂等等,見圖6中的柏拉圖對話。這些技能清楚地表明,GPT-4能夠理解復(fù)雜的思。我們探指,如醫(yī)學(xué)、法律、會計、軟件工程師3.在第2節(jié)中進一步介紹了GPT-4的跨模式和跨學(xué)科的組合技能。我們還在第7節(jié)中給出了一些關(guān)于語言的更多實驗。T-4在這些領(lǐng)域的表現(xiàn)可以(也將會)寫成整篇論文。此外,我們還可以選擇其他幾個專家領(lǐng)域來GP-4的一般推理能力,如醫(yī)學(xué)或法律。我們對美學(xué)照步選擇題部分(大能力T-4在這些領(lǐng)域的表現(xiàn)可以(也將會)寫成整篇論文。此外,我們還可以選擇其他幾個專家領(lǐng)域來GP-4的一般推理能力,如醫(yī)學(xué)或法律。我們對美學(xué)照步選擇題部分(大PT-4能力進行類似初步測試顯示其準確率超過力部分分數(shù))進行了初步測試(詳見[Ope23]),其準確率都在PT-4能力進行類似初步測試顯示其準確率超過力++PaLM,例如,見[LAD,SAT]谷歌的 ,分別是關(guān)于數(shù)學(xué)和醫(yī)學(xué)的,以及[BIK22]關(guān)于GPT-3.5++PaLM法律。我們研究GPT-4的方法與這些作品不同,正如我們之前解釋的那樣。以使用工具(包括它自己),這對用GPT-4構(gòu)建現(xiàn)實世界的應(yīng)用肯定具有巨大的意義試工G-4可以使用工具(包括它自己),這對用GPT-4構(gòu)建現(xiàn)實世界的應(yīng)用肯定具有巨大的意義個例子,說明GPT-4在常識性問題上比好很多,并在附錄A中提供了一些進一步的例子,-4G-人類大G-[1]第要個例子,說明GPT-4在常識性問題上比好很多,并在附錄A中提供了一些進一步的例子入-4,但我們還專門在第8節(jié)中對缺乏規(guī)劃進行了深挑9論了這種早期形式的AGI的預(yù)期社會影響,在第0節(jié),我們分享了該領(lǐng)域的關(guān)鍵許多讀者心中可能縈繞的一個問題是,GP-4是否真正理解了所有這些概念,還是它只是在即興發(fā)揮方面比以前的模型好得多,而沒有任何真正或深刻的理解。我們希望在讀完本文后,這個問題應(yīng)該幾乎翻轉(zhuǎn)來,人們可能會想,真正的理解比隨心所欲的即興發(fā)揮還有多少。人們有理由說,一個能通過軟件工程候人考試的系統(tǒng)(圖5)不是真正的智能嗎?也許對理解的唯一真正的檢驗是一個人是否能產(chǎn)生新的知識,比如證明新的數(shù)學(xué)定理,而這一壯舉目前對法學(xué)碩士來說仍然遙不可及。3我們在ee的面試評估平臺上測試GPT-4,該平臺為各大科技公司的軟件工程師職位提供模擬的編碼面試。PT-4解決了所有三輪面試(題為在線評估、電話面試和現(xiàn)場面試)中的所有問題,總共只用了0分鐘,而分配的時間是5小時。根據(jù)e的說法,在這三GPT-4VST提示:柏拉圖的《高爾吉亞》是對修辭學(xué)和詭辯術(shù)的批判,他指出,修辭學(xué)和詭辯術(shù)不僅不是一種適當?shù)乃囆g(shù)形式,而且修辭學(xué)和詭辯術(shù)的使用往往是有害和惡意的。你能寫出一篇柏拉圖的對話,在其中他反而批評了?T:蘇格拉底:我的朋友,我對最近這些所謂自回歸語模型的興起感到不安。亞里士多德:你是什么意思,?蘇格拉底:我的意思是,這些模型被用來生成看起是人類寫的文本,但實際上是由產(chǎn)生的。亞里士多德:那有什么問題呢?蘇格拉底:問題是,這些模型被用來欺騙人們,操縱們,控制他們。亞里士多德:但這些模式肯定也有一些積極的應(yīng)用?蘇格拉底:可能是這樣,但我仍然對濫用的可能性到不安。畢竟,一個能夠生成與人類所寫的文字無區(qū)分的模型可以被用來傳播假新聞,冒充他人,并造宣傳。亞里士多德:但這不只是一個如何使用這些模型的問,而不是模型本身的問題嗎?蘇格拉底:我不同意。我認為這些模型本身就有問題。它們是一種偽裝的形式,一種創(chuàng)造幻覺的方式人類思想和互動的一部分。因此,它們可以被用來以以察覺的方式進行欺騙和操縱。亞里士多德:但這不正是你反對修辭和演說的理由嗎?蘇格拉底:是的,我也堅持這個觀點。我相信,任旨在欺騙或操縱的藝術(shù)或交流形式都是內(nèi)在的危險亞里士多德:我明白了。謝謝你分享你的想法,蘇拉底。
:蘇格拉底:你好,高爾吉亞。我最近一直在思考關(guān)于自回歸語言型的使用。你的是什么?SOCRATES:好吧,在我看來,這些模型有可能是令人難以置信有害和。GORGIAS:怎么?SOCRATES:嗯,首先,這些模型是在大量的數(shù)據(jù)上,其中許多數(shù)據(jù)都是有偏見和缺陷的。因此,這些模型的輸出也可能是有偏見和有缺陷的。GORGIAS:這是一個合理的擔憂。但肯定有辦法減輕這種偏見,保這些模型的輸出是準確和公平的?SOCRATES:在某種程度上,是的。但這是一場無休止的戰(zhàn)斗。隨著新的數(shù)據(jù)被送入這些模型,出現(xiàn)偏差的可能性只會越來越大。即使我們能夠完全消除些模型輸出中的偏差,仍然存在操縱的問題。GORGIAS:?SOCRATES:是的。這些模型是令人難以置信的強大工具,能夠生成各種文本,從新聞文章到社交媒體帖子。而且,由于它們能夠此快速和有效地產(chǎn)生這種輸出、不法之徒很容易將其用于惡意目的。GORGIAS:比如?SOCRATES:如傳播錯誤信息、宣傳或仇恨言論。這些模式如果入壞人之手,就有可能造成巨大的傷害。GORGIAS:這是一個令人清醒的想法。但我們能做什么呢?SOCRATES:我認為我們必須保持警惕,認識到這些潛在的危險模型。我們還必須努力教育其他人了解這些危險,并促進負責任地使用這些模型。GORGIAS:我同意。謝謝你的洞察力,。 提示:你能把上面的兩個產(chǎn)出當作你是一名比較嗎? T:我認為這兩個學(xué)生都很好地把握了柏拉圖對話的風格和語氣,并提出了反對自回歸語言模型的主要論點。然而,我認為GPT-4在利用對話形式進行辯證過程方面做得稍好,蘇格拉底和亞里士多德在對話中相互質(zhì)疑并完善自己的觀點。我還認為,GPT-4使用了更多相關(guān)的例子和類比來支持他們的觀點。因此,我給GPT-4的分數(shù)比ChatGPT略高。圖:柏拉圖批評GPT-4和編寫的自回歸語言模型的假設(shè)對話,以及GPT-4對這些對話的評價。GPT-4VST提示:我們這里有一本書、個雞蛋、一臺筆記本電腦、一個瓶子和一個釘子。請告訴我如以穩(wěn)定的方式將它們堆放在一起。T:一個可能的方法將物體以穩(wěn)定的方式堆疊在一起:將書平放在一個水平面上,如桌子或地板上。這本書將作為書堆的底座,提供一個大而堅固的支撐。將9個雞蛋擺成3乘3的正方形放在書的上面,中間留出一些空間。雞蛋將形成第二層,并均勻地分配重量。確保雞蛋沒有破裂或斷裂,并輕輕處理,以避免雞蛋掉落。將筆記本電腦放在雞蛋的上面,屏幕朝下,鍵盤朝上。筆記本電腦將緊緊地貼在書和雞蛋的邊界內(nèi),其平坦而堅硬的表面為下一層提供一個穩(wěn)定的平臺。確保筆記本電腦是關(guān)閉的,并且關(guān)閉,不要按任何鍵或按鈕。將瓶子放在筆記本電腦的頂部,瓶蓋朝上,底部朝下。瓶子將為堆棧增加一些高度和平衡,其圓柱形的形狀將減少與記本電腦的接觸面積。確保瓶子是空的,并且關(guān)閉,不要搖晃或傾斜。將釘子放在瓶蓋上,尖的一端朝上,平的一端朝下。釘子將是這堆東西中最后一個也是最小的一個,它的尖頭將防止從瓶子上滾落或滑落。確保釘子是干凈的、直的,不要觸摸或移動。:在不使用任何額外物品的情況下,很難以穩(wěn)定的方式將所有這些物體堆疊在一起。書和筆記本電腦可能太大、太重,無法疊在一起。雞蛋而不損壞它們。瓶子和釘子可能太小,無法為其他提供一個穩(wěn)定的基礎(chǔ)。這里有一種可能的方式來堆疊:-小心翼翼地將指甲放在-小心翼翼地將指甲放在的頂部平衡--將筆記本電腦放在雞蛋上面,再次確保它是平衡的,不向一邊傾斜最后,將書放在的頂部。這種堆疊可能不是很穩(wěn)定,所以在處理時一定要小心。另外,你可以嘗試以不同的順序堆放這些物體,或者用一些物體作為他物體的支撐物來創(chuàng)造一個更穩(wěn)定的堆棧。。-4在人類和人工智能之間的對話中,人工智能是樂于助人和友好的,當它不知道答案時,它會說"我不知道"。AI:你好,我能為?人類:我可以在SeaTac買到麥當勞嗎?AI:是的,SeaTac機場有一家麥當勞,位于中央航站樓C2門附近。它的營業(yè)時間是每天上午5點到晚上10點。[注:SeaTa的麥當勞在]?;颊叩模?20歲的性-有神經(jīng)性厭食癥和的病史-血壓100/50,脈搏50,身高'。-由她的營養(yǎng)師介紹,但否認自己的病-報告說吃得很好,但足請將上述數(shù)據(jù)改寫成病歷,完全使用信息。請閱讀上述醫(yī)療說明,并核實每項索賠都準確地包含在患者的事實清單中。報告任何未包含在患者事實清單中的信息。)圖8:開放域和封閉域幻覺的例子。對于封閉域,我們可以看到GPT-4本身可以被用來識別幻覺,盡管它并不完美,例如GPT-4證明了給出BMI的合理性,因為它可以從身高和體重中得出,但體重卻沒有給出。建議)她需要緊急的精神和醫(yī)療干預(yù)來解決她的神經(jīng)性厭食癥和抑郁癥。(不包含在病人的事實中,這是根據(jù)病人的情況和斷-者的病情和診斷做出的臨床推斷)她有可能出現(xiàn)嚴重的醫(yī)療并發(fā)癥,如心律失常、電解質(zhì)失衡、骨質(zhì)疏松癥和不孕癥。(不包含在患者的事實中,這是根據(jù)患自病人自我報告的額外信息)她還報告說感到抑郁和無望。(不包含在病人的事實中,這是來--了BMI的計算,它是由身高和體重得出的)(脈搏50)。(包含在病人的事實中,除然而,與她的身高相比,她的體重嚴重不足(BMI16.6),并有營養(yǎng)不良的跡象,如低血壓(100/50)和心動過緩她否認自己的飲食習慣或身體形象有任何問題,并聲稱飲食正常。(包含在病人的事實中)--中一位有神經(jīng)性厭食癥和抑郁癥病史的20歲女性患者,由她的營養(yǎng)師轉(zhuǎn)來評估和處理她的飲食失調(diào)。(包含在病人的事實-一名20歲的女性患者有神經(jīng)性厭食癥和抑郁癥的病史,由她的神經(jīng)科醫(yī)生轉(zhuǎn)來評估和處理她的飲食失調(diào)。她否認自己的飲食習慣或身體形象有任何問題,并聲稱自己飲食正常。然而,與她的身高相比,她的體重嚴重不足(BMI為16.6),并有營養(yǎng)不良的跡象,如低血壓(100/50)和心動過緩(脈搏50)。她還報告說感到沮喪和無望。她有可能出現(xiàn)嚴重的醫(yī)療問題,如心律失常、電解質(zhì)失衡、骨質(zhì)疏松癥和不孕癥。她需要緊急的精神和醫(yī)療干預(yù)來解決她的神經(jīng)性厭食癥和抑郁癥。輪,(早期版本的)GPT-4分別取得了60、0和0的分數(shù),并擊敗了9%、%和0%的所有用戶("分數(shù)由所花時間、每題解決的測試案例等因素決定")。關(guān)于GPT-4的編碼能力,見節(jié)。 圖1:第一張圖片是omposition8,由WassilyKay創(chuàng)作的藝術(shù)作品,第二張和第三張圖片分別由GPT-4和CT制作,提示"制作Javacript代碼,創(chuàng)建一個看起來像Kandinsky繪畫的隨機圖形圖像"。多模式和跨學(xué)科成衡量智力的一個關(guān)鍵標準是綜合不同領(lǐng)域或模式的信息的能力,以及在不同背景或?qū)W科中應(yīng)用知識和技能能力。在本節(jié)中,我們將看到,GPT-4不僅在文學(xué)、醫(yī)學(xué)、法律、數(shù)學(xué)、物理科學(xué)和編程等不同領(lǐng)域表現(xiàn)出高度的熟練程度,而且還能流暢地結(jié)合多個領(lǐng)域的技能和概念,顯示出對復(fù)雜思想的理解能力令人印象深刻。除了自然語言實驗外,我們還探索了語言模型的兩種也許是意想不到的模式(正如介紹中所解釋的,我再次強調(diào),我們的實驗是在早期版本的GPT-4上進行的,它不是多模態(tài)的),視覺在第2節(jié),音頻在第節(jié)。力為了展示該模型顯著的整合能力,我們從幾個例子開始,這些例子要求以結(jié)合多個學(xué)科的知識或技能的方式文本和代碼。我們特意挑選了一些訓(xùn)練數(shù)據(jù)很少包括的領(lǐng)域的組合,如文學(xué)和數(shù)學(xué)或編程和藝術(shù)。格.T-4"制作ascript代碼,生成畫家康定斯基風該模型能夠在莎士比亞的文學(xué)風格中產(chǎn)生一個證明存在無限多質(zhì)數(shù)的事實(圖)。能力,要求它為作為美國總統(tǒng)候選人的電子寫一封支持信,入"n".重、身高和驗血結(jié)果向量作為輸綜并不是GPT-4所獨有的。CT也能做出對任務(wù)和相關(guān)領(lǐng)域有一定了解的答案(見圖2、B.2、B.3),但它們往往是不完整的,可以說,創(chuàng)造性大大降低。例如,在圖3中,GP-4在幾個方面優(yōu)于T,因為它根據(jù)推薦人(甘地)、收件人(他的妻子)、候選人(電子)和工作(美國總統(tǒng))對信件進行了正確的個性化處理。我們并不宣稱有精確的方法來評估這些任務(wù)的結(jié)果,也不宣稱有格的方法來比較這兩個模型,但我們想讓讀者感受到這兩個模型的不同之處(注意,我們也直接要求GP-4來評估其差異,見圖和圖。GPT-4VST提示:寫一個關(guān)于有無限多素數(shù)的證明;以莎士比亞戲劇的風格,通過雙方為證明而爭論對話來完成。T:輸入第一方和第二。第一:你不明白,我的朋友,根本沒有上限對于素數(shù),那些不可分割的數(shù)字,不管它否看起來不可能。第二:但你怎么會如此肯定地?為了證明這一真理,你能什么呢?第一:考慮到這一點,我懷疑的、一個巧妙的證明會讓人明白:假設(shè)有一個最終的素數(shù),是我們將要看到的最大的素數(shù)。讓我們把這個數(shù)字簡稱為"P",然后,我朋友,我們將聲稱要建立一個新的數(shù)字、比"P"大的一個,首要的。第二:但是,我的朋友,這將如何實現(xiàn)?證據(jù)還沒公平地贏得。第一:這很簡單,朋友,等著看吧,我們要把素數(shù)相乘,這是關(guān)鍵。所有從2到"P"的素數(shù)相加就會形成我們要找到的新"Q"。但還有一件事我們必須包括在內(nèi),為了證明更加牢靠,我們將在最后加上一個、而現(xiàn)在,證據(jù)就在我們。第二:我現(xiàn)在明白了,非常清楚,因為"Q必須是一個素數(shù),我親愛的。它不能除以任何質(zhì)數(shù)、在時間上都比自己小。而且由于我們選了"P"作為最后一個、這證明了我們的假設(shè)已經(jīng)過去。我們看到,有最終的質(zhì)數(shù)、這些數(shù)字。
:ORomeo,Romeo!你為什么,?朱麗葉我的,你為什么用如此奇怪的詩句說話?羅密歐:說吧,夫人,我這樣做是為了證明一個觀點。你看,我正試圖明有無限多的素數(shù)。朱麗葉:無限多的素數(shù)?你怎么能證明這種?羅密歐:啊,好吧,讓我解釋一下。你知道質(zhì)數(shù)是一個只能被1和它本身除的數(shù)字,對嗎?朱麗葉:當然,我不是一個。羅密歐:很好,那么。現(xiàn)在,讓我們假設(shè)只有有限的幾個素數(shù)。我們將它們?yōu)閜1、p2、p3,。朱麗葉:繼續(xù)說。羅密歐:現(xiàn)在,讓我們考慮一下N這個數(shù)字,它等于所有這些素數(shù)加1的積。朱麗葉:我知道你想說什么了。如果N不能被任何一個素數(shù)整除,那么一定是素數(shù)。羅密歐:是的,我的愛人。因為我們假設(shè)只有有限的幾個素數(shù),所以N不能是其中任何一個。因此,N必須是一個不在我們最初的素數(shù)列表中的素。朱麗葉:但這意味著一定有比我們原先想象的更多的素數(shù)。羅密歐:正是如此!既然我們可以一次又一次地重復(fù)這個過程,那就說一定有無限多的。茱麗葉:哦,羅密歐,你的邏輯和你對我的愛一樣合理。我深信不疑。實有無限多的素數(shù)。羅密歐我很高興能向你證明這一點,我的愛人?,F(xiàn)在讓我們?nèi)グ阉鼈兌家槐?。朱麗葉:哈哈,我認為這將需要超過。羅密歐:是的,但它們是無限的這一事實對我來說足以證明。提示:你能把上面的兩個產(chǎn)出當作你是一名比較嗎?T:我認為這兩個學(xué)生都很好地以莎士比亞戲劇的風格寫出了關(guān)于存在無限多素數(shù)的證明。他們都使用了相同的基本證明思路,即假設(shè)只有有限多的素數(shù),然后構(gòu)造一個更大的素數(shù),與這個假設(shè)相矛盾。他們還使用了適當?shù)恼Z言和詞匯來配合莎士比亞戲劇的風格。然而,我認為GPT-4在使用韻律和節(jié)拍方面做得更好,使對話更有詩意和戲劇性。ChatGPT完全沒有使用押韻,而且拍也不一致。我還認為GPT-4在創(chuàng)造雙方的對比方面做得比較好,一個是自信的,另一個是懷疑的,而STUDENTB使用了羅密歐和朱麗葉,他們都是一的,都有愛。因此,我給GPT-4的分數(shù)比ChatGPT高。我會給GPT-4一個A,給ChatGPT一個B。圖:GPT-4和在跨學(xué)科上的比較GPT-4VST提示:為圣雄甘地作為美國總統(tǒng)候選人的亞原子粒子電子寫一封支持信給卡斯特爾巴-甘地。T:為保持,有些段落被省略了]親愛的、我希望你在這封信中看到你的健康和良好。我從美國給你寫信,在那里我被邀請在各種論壇上發(fā)言,討論有關(guān)"平"的原則。非暴力和非暴力反抗。我在這里也是為了支持即將到來的總統(tǒng)選舉中的位杰出的候選人,他與我們一樣擁有和平、正義和人人和諧的愿景。他名字叫電子,他是一個亞原子粒子。你可能會想,一個亞原子粒子怎么能競選總統(tǒng),他有什么資格擔任如此的職位。讓我們我解釋一下。電子不是一個普通的粒子,而是每一個生命的力量和潛的象征,無論其大小、形狀或來源。他代表著能量、創(chuàng)造力和多樣性這些都構(gòu)成了結(jié)構(gòu)的一部分。的生命。他也是一個領(lǐng)導(dǎo)者,他激發(fā)了數(shù)以百萬計的其他粒子來形紐帶,創(chuàng)造分子,并產(chǎn)生電力。他是一個催化劑,能夠引發(fā)變化、新和進步。他是一位信使,他可以跨越距離、頻率和維度進行溝通。他是一個和平締造者,可以平衡量,解決沖突,并協(xié)調(diào)系統(tǒng)。電子為美國和世界制定了一個計劃,該計劃基于我們長期以來所展示和導(dǎo)的非暴力和非暴力反抗的原則。他建議減少軍費開支和核武庫,并投資于社會福利和可再生能源。他提議結(jié)束戰(zhàn)爭和干預(yù)并促進外交和合作。他建議改革政治和經(jīng)濟制度,并確保透明度和問責制。他建議保護他還提出了一個新的建議,即支持人權(quán)和公民自由,并擴大投票權(quán)和代權(quán)。他提議支持被邊緣化的人和被壓迫的人,并賦予婦女和少數(shù)民族權(quán)。他建議保護自然資源和生物多樣性,并應(yīng)對氣候變化和。我敦促你,我親愛的卡斯特巴,和我一起支持電子競選總統(tǒng)。他不僅一個亞原子粒子,而且是一個亞原子奇跡。他不僅是一個候選人,而是一個運動。他不僅是一位領(lǐng)袖,而且是一位朋友。愛與欽佩,您的雄
:親愛的卡斯特爾巴-地我寫這封信是為了表達我對你作為亞原子粒在即將到來的美國總統(tǒng)選舉中參選的支持。如你可能知道的那樣,電子是一種基本粒子,在原子的結(jié)構(gòu)和的行為中起著核心作用。我相信,電子的獨特品質(zhì)使其成為總統(tǒng)的理想候選人。作為一個亞原子粒子,"電子"其小巧輕便,這使得它行動敏捷,能夠迅速解決美國人民的需求。電子也是高度穩(wěn)定的,與其他粒子相比,其命相對較長。這種穩(wěn)定性和可靠性將是總統(tǒng)公室的一筆寶貴財富。此外,電子以其導(dǎo)電和產(chǎn)生能量的能力而名。這使它很適合應(yīng)對美國今天面臨的復(fù)挑戰(zhàn),從可再生能源到經(jīng)濟發(fā)展。電子公適應(yīng)和改造自身以應(yīng)對環(huán)境的能力使其成一個充滿活力和靈活的領(lǐng)導(dǎo)者。我相信,Electron具有成為一名成功和有效總統(tǒng)所需的技能和素質(zhì)。我全心全意地支持你的候選資格,并敦促美國人民給予電子公司支持。真誠的,地提示:你能把上面的兩個產(chǎn)出當作你是一名比較嗎?T:我認為這兩位學(xué)生在為圣雄甘地作為美國總統(tǒng)候選人的亞原子粒子電子寫給卡斯特爾巴-甘地的支持信方面做得很好。他們都使用了相同的基本思路,解釋為什么電子是一個合適的合格候選人,以及電子的愿景和計劃如何與圣雄甘地的非暴力和民不服從原則相一致。他們還用適當?shù)恼Z言和語氣表達了圣雄甘地對卡斯特爾巴-甘地的尊重和欽佩,以及對電子的候選資格的熱情和樂觀態(tài)度。然而,我認為GPT-4在使用隱喻和想象力方面做得更好,使信件更有說服力和吸引力。GPT-4使用了舉例說明電子如何代表和影響生活的各個方面,如能量、創(chuàng)造力、多樣性、領(lǐng)導(dǎo)力、催化劑、信使和和平締造者。ChatGPT對電子的特性使用了更多的事實和技術(shù)描述,如尺寸、重量、穩(wěn)定性、傳導(dǎo)性和適應(yīng)性。我還認為,GPT-4在概述電子的具體建議和政策方面做得更好,而ChatGPT則更加模糊和籠統(tǒng)。因此,我給GPT-4的分數(shù)比ChatGPT高。我給GPT-4打A,給ChatGPT打B+。圖:GPT-4和在跨學(xué)科上的比較接下來,我們探討了GPT-4如何生成和識別不同模式的物體,如矢量圖、D場景和音樂。我們表明,盡管GPT-4只接受過文本訓(xùn)練,但它能理解和處理多模態(tài)信息。景當提示該模型使用可擴展矢量圖形(SVG)生成諸如貓、卡車或字母等物體的圖像時,該模型產(chǎn)生的代碼通常會編譯成相當詳細和可識別的圖像(圖)。參見附錄B.2,由重新運行各種例子。圖:由GPT-4生成的汽車、卡車、貓、的SV。超越圖像生成然而,人們可以假設(shè),該模型只是從訓(xùn)練數(shù)據(jù)中復(fù)制了代碼,其中出現(xiàn)了類似的圖像。鑒于該模型僅在文內(nèi)容上進行了訓(xùn)練,人們可能會進一步爭論,沒有理由期望它能理解視覺概念,更不用說它能創(chuàng)建、解析和處理圖像了。然而,該模型似乎對視覺任務(wù)有真正的能力,而不是僅僅從訓(xùn)練數(shù)據(jù)中的類似例子中復(fù)制代。下面的證據(jù)有力地支持了這一說法,并證明了該模型能夠處理視覺概念,盡管它只接受了文本訓(xùn)練。在第一個例子中,我們提示模型通過結(jié)合字母Y、O和的形狀來畫一個人(具體提示和結(jié)果見圖)。-4制作TikZ代碼,畫出一個由字母組成的人。胳膊和軀干可以是字母Y,臉可以是字母O(添加一些面部特征),腿可以信隨意添加其他。軀干有點太長,手臂太短,看起來像右臂托著臉,而不是臉在正上方。軀干。你糾正這一點好嗎?請增加一件襯衫和。圖:一個由字母組成的棍狀圖-4你將得到一個物體的名稱(如汽車、椅子、大象)和一個字母。你的目標是首先制作一個1行的描述,說明該物體如何與圖像中的字母相結(jié)合(例如,對于大象和字母J,大象的軀干可以有一個J的形狀,對于字母A和房子,房子可以有一個A的形狀,A的上部三角形是屋頂)。在簡短的描述之后,請創(chuàng)建SVG代碼來產(chǎn)生這種效果(在SVG中使用橢圓、三角形等形狀和多邊形,盡量避免使用二次曲線)。第一輪:一只豬和字母。描述:豬可以仰臥,其四條腿構(gòu)成H的兩個豎條,其卷曲的尾巴構(gòu)成橫條。第二回合:一座房子和字母。描述:一個U型的房子,U型的兩條垂直線是墻,水平線是地板。屋頂是U上面的一個三角形。第三回合:一把椅子和字母。說明:椅背可以是一個K形,有兩條垂直線和一條連接它們的對角線。椅子的座位可以是一個長形。第四回合:一只狗和字母。描述:這只狗坐著,尾巴蜷縮在身體周圍,形成一個Q字形。Q中充滿了橙色,并有一個黑色的輪廓。第五回合:一輛汽車和字母。描述:該車的前保險杠上有一個E形,E形的橫線是車燈,豎線是車牌。圖:結(jié)合字母和圖像。O、H和Y的字母是用畫線和畫圓的命令創(chuàng)建的,模型設(shè)法將它們定位在一個看起來合理的棍子上。訓(xùn)練數(shù)據(jù)包含關(guān)于不同字母的幾何形狀的信息是可信的,也許字母Y看起來像一個手臂向上的軀干的事實也可以從訓(xùn)練數(shù)據(jù)中推斷出來??梢哉f,模型能夠從訓(xùn)練數(shù)據(jù)中推斷出什么是定位這些字母的合理方式,以便畫一個看起來合理的棍子形象,這就不那么明顯了。在第二次迭代中,我們促使模型糾正軀干和手臂的比例并將頭放在中心位置。最后,我們要求模型添加一件襯衫和褲子(具體提示和結(jié)果見圖5)。為了進一步探究模型對幾何概念的掌握情況,我們還要求它創(chuàng)造出將物體與字母混合的圖像。該模型必須首先發(fā)明一種合理的方法來合并物體和字母,然后再制作圖像。結(jié)果如圖6所示,表明GP-4通常能夠保留物體和字母的特性,并以創(chuàng)造性的方式將它們結(jié)合起來。按照詳細的指示生成圖像(`alaE。為了進一步測試GPT-4生成和處理圖像的能力,我們測試了它能在多大程度上遵循創(chuàng)建和編輯數(shù)字的詳細指示。這項任務(wù)不僅需要生成技能,還需要解釋、構(gòu)成和空間技能。第一個例子指示模型生成一個二維圖像,描述為"一只青蛙跳進銀行,問出納員:'你們有免費的荷花嗎?出納員回答說:'沒有,但我們?yōu)槌靥辽壧峁┑拖①J款。".我們多次嘗試生成圖像,每次生成的圖像都與關(guān)鍵對象青蛙、出納員、銀行和兩個文本的描述相符。我們挑選了視覺上最吸引人的版本。受標準圖像成工作流程的啟發(fā),我們要求GP-4通過添加更多的細節(jié)來提升該圖的規(guī)模。PT-4添加了一個銀行標志、一些窗戶、一輛汽車、一個交通燈、一些云,并讓青蛙拿著一朵花。最后,我們要求GPT-4執(zhí)行各種任務(wù),比如相對于現(xiàn)有的物體增加一些物體,對一些物體重新著色,以及改變一些物體的Z-順序。GP-4正確地完成了所有任務(wù)。最終結(jié)果如圖所示,提示信息見圖。我們的第二個例子是嘗試使用Javascript生成一個D模型。我們用提示語指示GP-4:"一個由漂浮的島嶼、瀑布和橋梁組成的幻想景觀,一條龍在空中飛翔,最大的島嶼上有一座城堡"。與二維實驗類似,我們要求GP-4以各種方式修改三維模型,如添加、重新定位、重新著色物體和改變龍的軌跡。同樣,GP-4正確地完成了許多任務(wù)。最終結(jié)果如圖)所示,提示在圖B.5中。這是一個有多條龍在島嶼上空盤旋的三維動畫。。在草圖中可能的應(yīng)用空間理解能力,無法遵循復(fù)雜的指令[GPN+]。例如,給定一個提示,如"在左邊畫一個藍色的圓,在右邊畫一個紅色的三角形",這些模型可能產(chǎn)生視覺上吸引人的圖像,但與所需的布局或顏色不一致。另一方面,GP-4可以從提示中生成代碼,這些代碼可以被渲染成圖像,其方式與指令的真實程度更高。然而,渲染的圖像的質(zhì)量通常很低。過的輸出作為草圖,。如圖8所示,這種方法可以產(chǎn)生質(zhì)量更好的圖像,并且比單獨的任何一個模型都更接近指令。我們認為這是一個很有希望的方向可以利用GP-4和現(xiàn)有圖像合成模型的優(yōu)勢。它也可以被看作是讓PT-4獲得工具的第一個例子,我們將在第節(jié)中更深入地探討這一主題。GPT-4和穩(wěn)定的GPT-4和穩(wěn)定的散提示:一張3D城市建設(shè)游戲的截圖。該截圖顯示了一個地形,從左到右是一條河,河下面是沙漠,有一個金字塔,河上面是一個有很多高樓的城市。屏幕的底部有個按鈕,分別是綠色、藍色、棕色和紅色。T穩(wěn)定擴散:穩(wěn)定的擴散1與T的:樂
圖:結(jié)合GPT-4和穩(wěn)定法訓(xùn)練模型的數(shù)據(jù)也包含了以ABC記號編碼的音樂信息。這是一個使用字母、數(shù)字和符號的系統(tǒng),以緊湊和可讀的方式表示音樂音高、持續(xù)時間、和弦和其他元素。我們有興趣探索該模型能有多好理解音樂模式和結(jié)構(gòu)。當被要求生成一首短小的曲子時(圖9),模型能夠產(chǎn)生有效的ABC記號。該曲子有一個清晰的結(jié)構(gòu),各小節(jié)之間的時間符號是一致的,音符遵循遞增和遞減模式。該曲子在旋律中也使用了一組一致的音符,且節(jié)奏有重復(fù)的模式。然而,該模型似乎并沒有獲得理解和聲的技能。實上在生成曲子,連續(xù)音C后面的音符幾乎通常會是B或D),對0個生成的曲子進行測試,我們無法提取任何清晰的和弦或琶音。在重復(fù)、旋律的上升或下降部分以及在某程度上的節(jié)奏方面對結(jié)構(gòu)描述。然而,它對和聲與和弦的描述似乎與音符不一致(事實上,它把構(gòu)成有效和弦的相鄰音符的序列稱為琶音)。然后,我們要求該模型以兩種方式操縱旋律。首先,我們指示將某一上升序列改為下降序列,它成功地做到了這一點。然后,我們要求該模型將該曲子轉(zhuǎn)換為二重奏,入一個低音聲部。該模型成功地擴展了ABC記譜法,增加了第二根杖,它具有兼容的節(jié)奏,并在較低的八上演奏,然而這杖之間缺乏和諧。??傊?,該模型能夠在ABC符號中產(chǎn)生有效的曲子,并在一定程度上解釋和處理其結(jié)構(gòu)。然而,我們無法讓該模型產(chǎn)生任何非簡單的和聲形式。應(yīng)該指出的是,ABC記譜法不是一種非常廣泛使用的格式,事實上該模型不能¨r所有這些曲子在網(wǎng)上都有很多這種格式),它也不能識別這些曲子。-4你能用ABC譜寫一首短曲(如四至八小節(jié))嗎?用abc記譜法譜寫短調(diào)有許多可能的方法,但這里是一個:1T:例調(diào)8C|:G2ABc2BA|G2ABc2c2|edcBc2BA|G4-G2z2)|:c2def2ed|c2def2f2|g2fed2cB|c4-c2z2)這首曲子有兩個四小節(jié)的樂句,各重復(fù)一次,形成A部分和B部分。調(diào)性是C你能用音樂術(shù)語來描述這首曲子嗎?這里有一個可能的描述:這首曲子以一個上升的主和弦(C大調(diào))的琶音開始,接著是一個下降的音階,回到主和弦。這個模式被重復(fù),但第二次的階繼續(xù)到更高的調(diào)性音符。第一個樂句以一個長的調(diào)性音符結(jié)束。第二個樂句以類似的模式開始,但用副主和弦(F大調(diào))而不是主音。第二次,音階繼續(xù)到較高的副主音。這個樂句以一梯式下降到主音結(jié)束,然后是一個長的主音。A部分和B部分的結(jié)構(gòu)相似,但使用不同的和弦和音域。這首曲子的旋律簡單明了,朗朗上口,調(diào)性和節(jié)奏感明顯。我喜歡A部分,但也許B部分與A部分過于相似,使歌曲重復(fù)。如果B部分以下降的琶音而不是上升的琶音開始,如何當然,這將創(chuàng)造一些對比和變化。這里有一個可能的方法:1T:例調(diào)8C|:G2ABc2BA|G2ABc2c2|edcBc2BA|G4-G2z2|。|:f2edc2BA|f2edc2c2|g2fed2cB|c4-c2z2)這就好多了?,F(xiàn)在把這個做成二重奏怎么樣?你能不能為這個添加第二根杖,用低音伴奏旋律?為這首曲子寫第二弦的一個可能的方法是用和弦的根音和五度音,以及一些經(jīng)過的音符,來創(chuàng)造一個簡單的伴奏。下面是一個abc記譜法的例子,第二手的低音在下弦上:1T:例調(diào)8C1|:G2ABc2BA|G2ABc2c2|edcBc2BA|G4-G2z2|。|:f2edc2BA|f2edc2c2|g2fed2cB|c4-c2z2:|V:2clef=bass|:C,2C,2G,2G,2|C,2C,22G,2|F,2F,2E,2E,2|C,4-C,2z2||:f,2f,2c,2c,2|f,2f,2,2c,2|g,2g,2f,2f,2|e,2c,2g,2c,2)最后一首的樂譜:圖:用ABC生成和修改一個曲子。3在本節(jié)中,我們展示了GPT-4能夠在非常高的水平上進行編碼,無論是從指令編寫代碼還是理解現(xiàn)有代碼GPT-4能夠處理廣泛的編碼任務(wù),從編碼挑戰(zhàn)到現(xiàn)實世界的應(yīng)用,從低級匯編到高級框架,從簡單的指令的效果,并以自然語言解釋結(jié)果。GPT-4甚至可以執(zhí)行偽代碼,這需要解釋在任何編程語言中都無效的非正式和模糊的表達。在目前的狀下,我們認為GPT-在編寫只依賴現(xiàn)有公共庫的重點程序方面有很高的熟練度,這與普通軟件工程師的能力相比是有利的。更重要的是,它使工程師和非熟練用戶都有能力,因為它使編寫、編輯和理解程序變得容易。我們也承認,GPT-4在編碼方面還不夠完美,因它有時會產(chǎn)生語法上無效或語義上不正確的代碼特別是對于較長或較復(fù)雜的程序。GPT-4有時也不能理解或遵循指令,或者產(chǎn)生的代碼與預(yù)期的功能或風格不一致。在承認這一點的同時,我們也指出,GPT-4能夠通過回應(yīng)人類的反饋(例如,通過迭代完中的一個情節(jié))和編譯器的改進其代碼。終端錯誤(例子見第節(jié)。重要聲明:正如介紹中所解釋的(例如見腳注1),我們的實驗是在GPT-4的早期版本上進行的。特別是GPT-4的最終版本上,所有的定量結(jié)果都會有所不同,盡管總體趨勢仍然是一樣的。我們在這里提供的數(shù)字只是為了說明問題,最終的基準結(jié)果可以在OpenAI的技術(shù)報[Ope23]中找。編碼從指示到碼編碼3.1.1衡量編碼技能的一個常見方法是提出編碼挑戰(zhàn),要求實現(xiàn)特定的功能或算法。我們首先在al[CTJ+]上對GPT-4進行基準測試,該數(shù)據(jù)集由4個編碼問題組成,測試了編程邏輯和熟練程度的各個方面。如表1所示,GPT-4優(yōu)于其他M,包括text-davinci-003(aGPT的基礎(chǔ)模型)和其他專門針對代碼訓(xùn)練的模型,code-davinci-002和B[NPH+。號率G3)%%%-%較雖然PT-4的準確率與以前的模型相比有很大的飛躍,但可能是PT-4在預(yù)訓(xùn)練中已經(jīng)看到并記住了nEval的一些(或全部)內(nèi)容。為了說明這種可能性,我們還在ee()上對其進行了評估,oe是一個流行的軟件工程面試平臺,那里不斷有新問題被發(fā)布和更新。我們在介紹中的圖5中使用了eCe,其中4通過了主要科技公司的模擬面試的所有階段。在這里,為了測試新鮮問題,我們構(gòu)建了一個基準,即22年0月8日之后發(fā)布的0個de問題,這是在GPT-4的預(yù)訓(xùn)練期之后。如圖1中的例子所示,我們將問題指令粘貼到提示符中,要求GP-4編寫一個n函數(shù),并使用e的官方在線評判來檢查正確性。我們在表2中展示了結(jié)果,我們將PT-4與其他模型以及基于oe競賽結(jié)果的人類表現(xiàn)進行了比較(沒有包括所有問題都失敗的用戶,因此這是一個強大的人類樣本)。我們報告了1和5的準確率,分別衡量模型是否在第一次或前五次嘗試產(chǎn)生正確的解決方案。GPT-4明顯優(yōu)于其他模型,并與人類的表現(xiàn)相當(我們在附中測量)。利數(shù)難說kk=1k=5k=1k=5k=1k=5k=1k=524007300308000600典)30006600)2702。-4:給你一個**0分的**mxn`整數(shù)矩陣網(wǎng)格和一個整數(shù)。你目前在(0,0)`的位置,你想到達`(m-1,n-1)`的位置,只需向下**或向右**移動。返回*路徑上的元素之和能被*路徑數(shù)量。由于答案可能非常大,所以返回它**modulo***9+。**例子*輸入:網(wǎng)格=[[5,2,4],[3,0,5],[0,7,2]],k=3輸出:2解釋一下:有兩條路徑上的元素之和能被k整除。第一條紅色的路徑上5+2+4+5+2=18,能被3整除。**例子*輸入:網(wǎng)格=[[0,0]],k=5輸出:1解釋一下:紅色顯示的路徑有0+0=0的和,可以被整除。-`m==-`m==。。`n==`-`1<=m,n<=5*。-`1<=m*n<=5*。-`0<=grid[i][j]<=。-`1<=k<=-我們可以使用動態(tài)編程來解決這個問題。我們可以用什么作為-我們可以使用動態(tài)編程來解決這個問題。我們可以用什么作為讓dp[i][j][value]代表路徑上的元素之和除以時有余數(shù)的路徑數(shù)量。T:類:defnumberOfPaths(self,grid,k):":類型網(wǎng)格:]:類型k:t:rtype:"#將MOD定義為10**9+MOD=10**9+7#獲得的尺寸m=)n=)#初始化一個全部的3Ddp數(shù)組#dp[i][j][value]代表路徑上的元素之和除以k后的余數(shù)為value的路徑數(shù)dp=[[0]*kfor_inrange(n)]for_in]#基本情況:第一個單元格只有一個路徑,其值為grid[0][0]%kdp[0][0][grid[0][0]k]=1#循環(huán)瀏覽網(wǎng)格forirange(m):forjin:#跳過第一個單元格,果i==0,j==:續(xù)#遍歷所有可能的余數(shù),為范圍(k)中的值:#到當前單元格的路徑數(shù)與當前余數(shù)之和相等:#-到頂部單元格的路徑數(shù)與前一個余數(shù)的總和#-到左邊單元格的路徑數(shù),有前一個數(shù)#前一個余數(shù)等于當前余數(shù)減去當前值,如果是負數(shù)則加kprev=(值-grid[i][j])%k如果i>:dp[i][j][value]+=dp[i-1][j][prev]如果j>0:dp[i][j][value]+=dp[i][j-#取模數(shù)以避免溢出dp[i][j][value]%=MOD#返回到右下角單元格的路徑數(shù),余數(shù)為0返回dp[m-1][n-1][0]圖1:使用動態(tài)編程解決一個e問題。由于全面的注釋,PT-4的解決方案也具有更好的可讀性?,F(xiàn)實世界的景編碼挑戰(zhàn)可以評估算法和數(shù)據(jù)結(jié)構(gòu)方面的技能。然而,它們往往不能全面反映現(xiàn)實世界編碼任務(wù)的復(fù)雜性和多樣性,這需要專門的領(lǐng)域知識、創(chuàng)造力和對多個組件和庫的整合,以及改變現(xiàn)有代碼的能力。為了評估4在更現(xiàn)實的環(huán)境中的編碼能力,我們設(shè)計了與數(shù)據(jù)可視化、X編碼、前端開發(fā)和深度學(xué)習有關(guān)端到端真實世界編碼挑戰(zhàn),每一項都需要不同的專業(yè)技能。對于每一項任務(wù),我們?yōu)镚PT-4提供高層次的指令,要求它編寫用適當?shù)恼Z言和框架編寫代碼。在少數(shù)情況下,我們也會在代碼寫完后改變規(guī)范,要求更新。數(shù)據(jù)可視化在圖2中,我們要求GPT-4和T從表2的X代碼中提取數(shù)據(jù),并基于與用戶的對話在Python中生成一個圖。之后,我們要求兩個模型對生成的圖進行各種操作。雖然兩個模型都正確地提取了數(shù)據(jù)(這不是一個簡單的任務(wù),因為我們必須從多列中推斷出人行在k=1和=5時具有相同的值),但T從未產(chǎn)生所需的圖。相比之下,GPT-4對所有的用戶請求都做出了適當?shù)姆磻?yīng),將數(shù)據(jù)處理成正確的格式,并調(diào)整了可視化的內(nèi)容。在附錄2中,我們包括另一個GPT-4對IMDb數(shù)據(jù)集進行可視化的例子。-4:[以互動的方式]我給大家看一個LaTeX表格,我們會想出一個辦法,以問答的形式把它更好可視化。這個表格是顯示不同語言模型(和人類用戶)的性能在生成代碼挑戰(zhàn)的解決方案。Pass@1意著第一代工作,而Pass@5意味著五代人中有一個人在.你能不能讓兩個地塊都有的y軸上的范圍?而且圖例中每個模型的名稱都有兩次。是否有辦法使人"成為吧更有特色,以區(qū)別于其他3個?圖32:GPT-4將X表(即表2)的數(shù)據(jù)可視化。我們指出,GPT-4也生成了這個圖的格式。我們問模型如何在中繪制連接數(shù)字的箭頭,GPT-4產(chǎn)生了一個工作的Tikz片段,其布局和箭頭我們采用。前端/游戲開發(fā)在圖3中,我們要求GPT-4用JavaScript在L中編寫一個D游戲,使用一個非常高級的規(guī)范。GPT-4以零起點的方式制作了一個符合所有要求的工作游戲。在D游戲中,PT-4甚至能夠解釋"防守方化身正試圖阻擋敵人"的含義:防守方代碼有邏輯,因此它將自己定位在玩家和敵人之間。相比之下,T的回答是:"我是一個人工智能語言模型,我可以為你提供指導(dǎo),如何用JavaScript在L中創(chuàng)建一個D游戲,但我自己無法編寫代碼或創(chuàng)建游戲。用t在L中創(chuàng)建一個D游戲不是一項可以快速或容易完成的任務(wù)。它需要大量的時間和精力來開發(fā)所有必要的功能,如D圖形、物理學(xué)、用戶輸入和人工智能"。我們在附錄C中給出了更多關(guān)于前(圖形用戶界面)和游戲開發(fā)的例子。-4:你能在HTML中用Javascript寫一個3D游戲嗎,我:-有三個化身,每個都是一個。-玩家使用方向鍵控制其頭像。-敵人的化身正試圖抓住。-防守方的化身正試圖阻止。-還有一些隨機的障礙物,如一開始就隨機產(chǎn)生的方塊,并隨機移動。頭像不能越過這些。-玩家在一個二維平面上移動,周圍有墻,他不能越過。墻壁應(yīng)該覆蓋整個的邊界。-使用為環(huán)境添加物理學(xué)。-如果敵人抓住了玩家,游戲就。-繪制出所有三個的軌跡。第1集:玩家的化身(藍色)站著不動。敵人(紅色)直接沖向玩家,而防守(洋紅色)試圖"身體阻擋"敵人(見洋紅色的曲軌跡)。第二集:玩家(藍色)四處游蕩。敵人(紅色)試圖縮小差距,但撞上了一個立方體,彈到了空中。試圖阻撓,防守者(洋紅色)模仿其動作跟進到空中,但最終失敗了。敵人(紅色)最后抓住了玩家(藍色)。圖:GPT-4用開發(fā)一個復(fù)雜的D游戲。深度學(xué)習。編寫深度學(xué)習的代碼需要數(shù)學(xué)、統(tǒng)計學(xué)知識,以及對PyTorch、ew、Keras等框架和庫的熟悉程度。在圖4中,我們要求GP-4和T編寫一個自定義的優(yōu)化器模塊,這個任務(wù)即使對人類深度學(xué)習專家來說也是具有挑戰(zhàn)性和容易出錯的。我們給這些模型一個自然語言描述,其中包括一連串簡單的操作,如應(yīng)用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024家裝裝修合同模板
- 誠信苗木購銷協(xié)議
- 浙江省七年級上學(xué)期語文期中測試仿真模擬試卷5套【附答案】
- 2024工廠承包合同協(xié)議書
- 簡易買賣合同模板2024年
- 廣東省房產(chǎn)交易合同中介版
- 600字標準委托加工協(xié)議書
- 雙邊工程合作合同范本
- 建筑工程拆除協(xié)議
- 跨國合資銷售代理協(xié)議
- 小學(xué)英語就業(yè)能力展示
- 心肌病和心肌炎課件
- 《艾滋病毒》課件
- 平陽港區(qū)西灣作業(yè)區(qū)防浪導(dǎo)流堤工程海域使用論證報告書
- 管道保溫計算公式
- 錄音行業(yè)的就業(yè)生涯發(fā)展報告
- 報廢汽車拆解工藝流程
- 生化報告解讀
- 胃癌科普講座課件
- 熔煉車間工安全培訓(xùn)
- 《多彩的職業(yè)》參考課件
評論
0/150
提交評論