人工通用智能的火花：GPT

上傳人：b*** IP屬地：北京上傳時(shí)間：2023-04-11 格式：DOCX 頁(yè)數(shù)：155 大?。?.90MB 積分：35 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩150頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

arXiv2303.1271v1[sL]arXiv2303.1271v1[sL]月22要人工智能（AI）研究人員一直在開發(fā)和完善大型語言模型（s），這些模型在各種領(lǐng)域和任務(wù)中表現(xiàn)出非凡的能力，挑戰(zhàn)我們對(duì)學(xué)習(xí)和認(rèn)知的理解。由pI開發(fā)的最新模型GPT-[Ope23]，是使用前所未有的計(jì)算和數(shù)據(jù)規(guī)模訓(xùn)練出來的。在本文中，我們報(bào)告了我們對(duì)GP-4早期版本的調(diào)查，當(dāng)時(shí)它還在OpenAI的積極開發(fā)中。我們認(rèn)為，（這個(gè)早期版本的）GPT-4是新一批M的一部分（例如，與hPT和谷歌的PaLM一起），它比以前的AI模型表現(xiàn)出更多的通用智能。我們討論了這些模型的上升能力和影響。我們證明，除了對(duì)語言的掌握，GPT-4還能解決跨越數(shù)學(xué)、編碼、視覺、醫(yī)學(xué)、法律、心理學(xué)等領(lǐng)域的新穎而困難的任務(wù)，而不需要任何特殊的提示。此外，在所有這些任務(wù)中，GPT-4的表現(xiàn)都驚人地接近人類水平，而且往往大大超過了hPT等現(xiàn)有模型。鑒于PT-4能力的廣度和深度，我們認(rèn)為可以合理地將其視為人工通用智能（AGI）系統(tǒng)的早期（但仍不完整）版本。在我們對(duì)GP-4的探索中，我們特別強(qiáng)調(diào)發(fā)現(xiàn)它的局限性，并討論了在向更深入和更全面的AGI版本邁進(jìn)時(shí)面臨的挑戰(zhàn)，包括可能需要追求一種超越下一個(gè)單詞預(yù)測(cè)的新范式。最后，我們對(duì)近期技術(shù)飛躍的社會(huì)影響和未來的研究方向進(jìn)行了思考。一些未知的東西正在做我們不知道。-阿瑟-爵士介智力是一個(gè)多方面的、難以捉摸的概念，長(zhǎng)期以來一直對(duì)心理學(xué)家、哲學(xué)家和計(jì)算機(jī)科學(xué)家構(gòu)成挑戰(zhàn)。年，一個(gè)由2位心理學(xué)家組成的小組試圖抓住其本質(zhì)，他們?cè)谝黄P(guān)于智力科學(xué)的社論中發(fā)表了一個(gè)廣泛的定義[Got97]。該共識(shí)小組將智力定義為一種非常普遍的心理能力，其中包括推理、計(jì)劃、解決問題、抽象思考、理解復(fù)雜概念、快速學(xué)習(xí)和從經(jīng)驗(yàn)中學(xué)習(xí)的能力。這個(gè)定義意味著智能并不局限于某個(gè)特定的領(lǐng)域或任務(wù)，而是包含了廣泛的認(rèn)知技能和能力。建立一個(gè)能表現(xiàn)出4年共識(shí)定義中的那種通用智能的人工系統(tǒng)是人工智能研究的一個(gè)長(zhǎng)期的、雄心勃勃的目標(biāo)。在早期的著作中，現(xiàn)代人工智能（AI）研究學(xué)科的創(chuàng)始人提出了一系列理解智能的理想目標(biāo)[MMRS06]。幾十年來，人工智能研究者們一直在追求智能的原則，包,智能研究中最近的許多成功可以說是狹隘地專注于定義明確的任務(wù)和挑戰(zhàn)，例如下棋或圍棋，人工智能系統(tǒng)分別在6年和6年掌握了這些任務(wù)。在90年代末和進(jìn)入0年后，開發(fā)更普遍的人工智能系統(tǒng)的呼聲越來越高（例如，[SBD+]），該領(lǐng)域的學(xué)術(shù)研究也試圖確定可能成為更普遍的智能系統(tǒng)基礎(chǔ)的原則（例如，[Leg08,GHT15]）。0年代初，"人工通用智能"（AGI）這一短語被推廣開來（見[Goe14]），以強(qiáng)調(diào)從"狹義的人工智能"（如正在開發(fā)的專注的現(xiàn)實(shí)世界的應(yīng)用）向更廣泛的概念發(fā)展的愿望。我們使用AGI來指代那些表現(xiàn)出上述94年定義的廣泛智能能力的系統(tǒng)，同時(shí)還要求這些能力達(dá)到或超過人類水平。我們用AGI來指代那些表現(xiàn)出上述14年定義中的廣泛智能能力的系統(tǒng)，以及額外的要求，也許是在共識(shí)小組的工作中隱含的，即這些能力達(dá)到或超過人類水平。然而，我們注意到，沒有一個(gè)單一的AI定義被廣泛接受，我們?cè)诮Y(jié)論部分討論了其他定義。過去幾年，人工智能研究中最顯著的突破是大型語言模型（LMs）在自然語言處理方面取得的進(jìn)展。這些神經(jīng)網(wǎng)絡(luò)模型基于r架構(gòu)+]，并在大規(guī)模的網(wǎng)絡(luò)文本數(shù)據(jù)體上進(jìn)行訓(xùn)練，其核心是使一個(gè)自我監(jiān)督的目標(biāo)來預(yù)測(cè)部分句子中的下一個(gè)單詞。在本文中，我們報(bào)告了由OpenAI開發(fā)的新M的證據(jù)，它是GPT-]的早期和非多模態(tài)版本，根據(jù)4年的定義，表現(xiàn)出許多智能的特征。盡管是純粹模型，這個(gè)早期版本的GPT-4在各種領(lǐng)域和任務(wù)上表現(xiàn)出顯著的能力，包括抽象、理解、視覺、編碼、數(shù)學(xué)、醫(yī)學(xué)、法律、對(duì)人類動(dòng)機(jī)和情感的理解等等。在OpenAI的早期開發(fā)過程中，我們使用純粹的自語言查詢（提示）與GPT-4進(jìn)行互動(dòng)1.在圖1中，我們展示了PT-4輸出的一些初步例子，要求它以一首詩(shī)的形式寫出素?cái)?shù)的無限性證明，用TiZ（一種在X中創(chuàng)建圖形的語言）畫出一只獨(dú)角獸，用Python創(chuàng)建一個(gè)復(fù)雜的動(dòng)畫，并解決一個(gè)高中水平的數(shù)學(xué)問題。它很容易成功地完成了所有這些任務(wù)，并產(chǎn)生了與人類所能產(chǎn)生的結(jié)果基本上沒有區(qū)別（甚至更好）的輸出。我們還將GPT-4的性能與之前的LM進(jìn)行了比較，最值得一提的是T，它是GPT-3的微調(diào)版本（改進(jìn)版）[BMR+]。在圖2中，我們展示了C對(duì)素?cái)?shù)無限大的詩(shī)和TikZ獨(dú)角獸圖的要求結(jié)果。雖然該系統(tǒng)在這兩個(gè)任務(wù)上的表現(xiàn)都不差，但與PT-4的輸出結(jié)果相比，卻沒有什么區(qū)別。這些初步的觀察結(jié)果將在本文中重復(fù)出現(xiàn)，在各種任務(wù)上都有體現(xiàn)。GPT-4的能力具有普遍性，其眾多能力跨越了廣泛的領(lǐng)域，其在廣泛的任務(wù)中的表現(xiàn)達(dá)到或超過了人類水平，這者的結(jié)合使我們可以說GPT-4是邁向AGI的重要一步。1由于GPT-4的發(fā)展在我們的實(shí)驗(yàn)之后繼續(xù)進(jìn)行，人們應(yīng)該期待的最終版本有不同的反應(yīng)。特別是，所有的定量結(jié)果應(yīng)被視為對(duì)模型潛力的估計(jì)，而不是確定的數(shù)字。我們?cè)谡麄€(gè)文件中重復(fù)了這一警告，以澄清所部署的模型的經(jīng)驗(yàn)可能有所不同。此外，我們強(qiáng)調(diào)，我們測(cè)試的版本是純文本的輸入，但為了簡(jiǎn)單起見，我們也把它稱為。-4提示：你能寫一個(gè)證明，證明有無限多的素?cái)?shù)，每句都押韻嗎？T：是的，我想我、雖然這可能需要一個(gè)巧妙的計(jì)劃。我首先要出歐幾里德的、這表明，素?cái)?shù)并不只是冷漠的。假設(shè)我們有一個(gè)有的列表、諸如此類的素?cái)?shù)，而且一個(gè)都沒有漏掉。將它們?nèi)喑?、為了聰明起見，再加一個(gè)。結(jié)果將是個(gè)數(shù)字、這沒有質(zhì)因數(shù)，哦，奇怪！但每個(gè)數(shù)字都有因數(shù)！但每個(gè)數(shù)字都有一個(gè)素?cái)?shù)、這就劃分了，這只是一個(gè)時(shí)間問題。所以我們發(fā)現(xiàn)一個(gè)矛盾、我們有限的名單需要被驅(qū)逐。一定有無限多的數(shù)，這就是我的押韻句子的結(jié)局。

提示：在中畫一個(gè)獨(dú)角獸。：以下圖片]。提示：你能為以下數(shù)據(jù)生成一個(gè)ot：x=[,,,,],y1=[,,,8,],y2=[,,,,],y3=[,,,,],y4=[,,,,]。我希望y1、2在同一個(gè)圖中，但3在該圖旁邊的另一個(gè)圖中，4在下面。我希望1的圖例是"bob"，2是"alice"，3是"bilb"，4是"alli"。我想在x軸上標(biāo)明"時(shí)間"，y軸上標(biāo)明"金錢"。我想在每條曲線上添加一個(gè)0％-40％的隨機(jī)誤差條，貫穿所有時(shí)間（包括非整數(shù)）。我想用平滑的曲線來顯示圖，以及平滑的誤差條。不要使用線性插值，要使用平滑插值!我還想在平滑的曲線上添加一些小的之字形，使它看起來更真實(shí)。我想把一條基線作為每條線的平均值。我想在下面放一個(gè)餅狀圖，表明每個(gè)時(shí)間步驟中四個(gè)人的比例。我還想用一個(gè)動(dòng)畫來顯示餅狀圖中的分?jǐn)?shù)是如何在*連續(xù)的時(shí)間內(nèi)變化的。把缺失的分?jǐn)?shù)插值出來!我還希望其他三個(gè)圖中的垂直線動(dòng)畫能與餅狀圖相匹配。我想要最漂亮的圖。請(qǐng)盡可能多地添加花哨的東西。下面是一個(gè)可能的代碼，用于生成以下數(shù)據(jù)的o，并有一些注釋來解釋：T:[我們給出了兩個(gè)由制作的產(chǎn)生的動(dòng)畫快照]。提示：假設(shè)（x）=?1（x），（）=，（）=，（）=，（）=，（）=什么是（（？T4：有不同的方法來處理這個(gè)問題，但一個(gè)可能的方法是利用(x)=?1x)這一事實(shí)，這意味著對(duì)于g域中的任何x，(())=x。也就是說，將f應(yīng)用于方程(x)=?1x)的兩邊，得到f（()）=f（?1（x））=x。這意味著，我們可以通過應(yīng)用g撤銷f的影響，反過來也是如此。利用這個(gè)想法，我們可以嘗試通過尋找x的值使(x)=6來找到(6)。從給定的信息中，我們看到g（9）=6，所以f（6）=f（g（9））=9。同樣地，我們可以通過尋找x的值使(x)=9來找到f（9）。我們看到g（7）=9，所以f（9）=f（g（7））=7。最后，我們可以通過尋找x的值使(x)=7來找到f（7）。我們看到（）=，所以（）=（（））=。因此，（（））=（））=（）=。圖：GPT-4在語言、視覺、編碼和方面能力的初步例子。T提示：你能寫出一個(gè)證明，證明有眾多素?cái)?shù)，每句都？

提示：在中畫一個(gè)獨(dú)角獸。:果：到以下。當(dāng)然！這里有一個(gè)證明，證明有無限多的素?cái)?shù)，證明的每一行都是押的：考慮所有的集合。稱這個(gè)集合為P，讓它只從兩個(gè)開始，即第一個(gè)如果我們把P中的所有素?cái)?shù)加上、我們得到了一組從未新數(shù)字。這個(gè)集合，稱之為S，只由復(fù)合數(shù)組成。在這些數(shù)字中不會(huì)發(fā)現(xiàn)任何素?cái)?shù)，這是肯定的。但我們知道，至少要有一個(gè)素?cái)?shù)，因?yàn)镾是無限的，這一點(diǎn)很清楚。如果我們?nèi)中不在P中的最小數(shù)字，并稱其為P，我們就可以把加到我們的集合中，你明白嗎？但這個(gè)過程可以無限期地重復(fù)。因此，我們的集合P也必須是無限的，你會(huì)。所以你有了，一個(gè)相當(dāng)證明。有無限多的原數(shù)，這一點(diǎn)我們可以看到。不需要忸怩作態(tài)，不需懺悔。圖：圖中前兩個(gè)提示的輸出。我們聲稱GP-4代表了朝向AGI的進(jìn)展，但并不意味著它在所做的事情上是完美的，或它接近于能做任何人類能夠做的事情（這是I的通常定義之一；關(guān)于這一點(diǎn)，請(qǐng)參見結(jié)論部分），或者它有內(nèi)在動(dòng)機(jī)目AGI的一些定義中的另關(guān)）。事實(shí)上，即使在94年智能定義的限制范圍內(nèi)，也完全而且可以說它完全缺少"快速學(xué)習(xí)和從經(jīng)驗(yàn)中學(xué)習(xí)"的部分，因?yàn)槟Ｐ筒皇浅掷m(xù)更新的（盡管它可以在一個(gè)會(huì)話中學(xué)習(xí)，例如見第5節(jié)）。總的來說，GPT-4仍然有很多局限性和偏見，我們?cè)谙挛闹性敿?xì)討論，OpenAI的報(bào)告[Ope23]中也有涉及。特別是它仍然受到一些有據(jù)可查的M缺點(diǎn)的影響，比如幻覺問題[MNBM20]（見圖8）或犯基本的算術(shù)錯(cuò)誤[CK+]（見能力（例如、它解決了[MIB+]中描述的大多數(shù)M故障模式，而且它在常識(shí)方面也取得了很大的進(jìn)展，第一個(gè)例子見圖7，更多內(nèi)容見附錄A）。這凸顯了這樣一個(gè)事實(shí)：雖然GPT-4在許多任務(wù)上達(dá)到或超過了人類水平，但總體而言，它的智模式明顯不像人類。然而，GP-4幾乎可以肯定只是邁向一系列越來越普遍的智能系統(tǒng)的第一步，事實(shí)上，GPT-4本身在我們測(cè)試的整個(gè)過程中也在不斷改進(jìn)，見圖3中的獨(dú)角獸繪畫在一個(gè)月的訓(xùn)練過程中的演變。2.然而，即使作為第一步，PT-4也挑戰(zhàn)了相當(dāng)多廣泛持有的關(guān)于機(jī)器智能的假設(shè)，并表現(xiàn)出突發(fā)的行為和能力，其來源和機(jī)制目前還很難準(zhǔn)確辨別（關(guān)于這一點(diǎn)，請(qǐng)?jiān)俅螀㈤喗Y(jié)論部分的討論）。我們撰寫本文的要目的是分享我們對(duì)GPT-4的能力和局限性的探索，以支持我們關(guān)于技術(shù)飛躍的評(píng)估。我們相信，GP-4的智能標(biāo)志著計(jì)算機(jī)科學(xué)領(lǐng)域及其他領(lǐng)域的真正范式轉(zhuǎn)變。2請(qǐng)注意，我們?cè)谶@里所指的改進(jìn)是一種緩慢的學(xué)習(xí)，最終會(huì)停止，而不是人們所期望的AGI的快節(jié)奏和實(shí)時(shí)學(xué)習(xí)。圖3：在系統(tǒng)完善的一個(gè)月內(nèi)，我們以大致相同的時(shí)間間隔對(duì)GPT-4進(jìn)行了三次查詢，提示"在TikZ中畫一個(gè)獨(dú)角獸"。我們可以看到GP-4的繪圖的復(fù)雜程度有了明顯的變化。我們研究T方法我們?nèi)绾魏饬恳粋€(gè)在未知但極其龐大的網(wǎng)絡(luò)文本數(shù)據(jù)語料庫(kù)中訓(xùn)練出來的LM的智能？機(jī)器學(xué)習(xí)的標(biāo)準(zhǔn)方法是在一組標(biāo)準(zhǔn)的基準(zhǔn)數(shù)據(jù)集上評(píng)估系統(tǒng)，確保它們獨(dú)立于訓(xùn)練數(shù)據(jù)，并且涵蓋一系列的任務(wù)和領(lǐng)域。這種方法旨在將真正的學(xué)習(xí)從單純的記憶中分離出來，并且,，這種方法不一定適合研究PT-4，原因有二。首先，由于我們無法獲得其龐大的訓(xùn)練數(shù)據(jù)的全部細(xì)節(jié)，我不得不假設(shè)它有可能見過所有現(xiàn)有的基準(zhǔn)，或者至少是一些類似的數(shù)據(jù)。例如，GPT-4似乎知道最近提出的BIG-bench[SR+]（至少GPT-4知道BI-bh的金絲雀GUID）。當(dāng)然，OpenAI自己可以獲得所有的訓(xùn)練細(xì)節(jié)，因此他們的報(bào)告[Ope23]包含了很多詳細(xì)的基準(zhǔn)測(cè)試結(jié)果。盡管如此，超越傳統(tǒng)基準(zhǔn)的第二個(gè)原因可能更為重要：GPT-4的智能的一個(gè)關(guān)鍵方面是它的通用性，它似乎能夠理解和連接任何主題，并執(zhí)行超出狹義人工智能系統(tǒng)典型范圍的任務(wù)。GP-4最令人印象深刻的一些表現(xiàn)是在不承認(rèn)單一解決方案的任務(wù)上，如編寫圖形用戶界面（GUI）或幫助人類就一些與工作有關(guān)的問題進(jìn)行頭腦風(fēng)暴。這種生成性或交互性任務(wù)的基準(zhǔn)可以+中關(guān)于P中這一活躍研究領(lǐng)域的）。我們注意到，在對(duì)衡量人工智能系統(tǒng)的標(biāo)準(zhǔn)方法提出批評(píng)一個(gè)新的基準(zhǔn)來評(píng)估通用智能。我們沒有在后者的基準(zhǔn)上測(cè)試GPT-4，原因如前所述，以及該基準(zhǔn)是視覺性質(zhì)的，因此更適合于中描述的GPT-4的多模態(tài)版。為了克服上述的局限性，我們?cè)诖颂岢隽艘环N不同的方法來研究PT-4，這種方法更接近于傳統(tǒng)的心理學(xué)，而不是機(jī)器學(xué)習(xí)，利用人類的創(chuàng)造力和聰明才智。我們的目標(biāo)是產(chǎn)生新的和困難的任務(wù)和問題，令人服地證明GPT-4遠(yuǎn)遠(yuǎn)超出了記憶的范圍，它對(duì)概念、技能和領(lǐng)域有深刻和靈活的理解（在[CWF+]中也出了一個(gè)有點(diǎn)類似的方法）。我們還旨在探究GPT-4的反應(yīng)和行為，以驗(yàn)證其一致性、連貫性和正確性，并揭示其局限性和偏見。我們承認(rèn)，這種方法有些主觀和不正式，可能無法滿足科學(xué)評(píng)估的嚴(yán)格標(biāo)準(zhǔn)。然而我們認(rèn)為這是一個(gè)有用的和必要的第一步，以了解GPT-4的顯著能力和挑戰(zhàn)，這樣的第一步為開發(fā)更正式和全面的方法來測(cè)試和分析具有更普遍智能的A系統(tǒng)開辟了新的機(jī)會(huì)。為了說明我們?cè)u(píng)估GPT-4智力的方法，讓我們考慮圖1中我們與PT-4之間的前兩個(gè)行動(dòng)例子。第一個(gè)例子是要求GPT-4以詩(shī)的形式寫出素?cái)?shù)的無限性的證明。這是一個(gè)具有挑戰(zhàn)性的任務(wù)，需要結(jié)合的圖4：我們給了GPT-4一個(gè)它為圖1產(chǎn)生的TikZ代碼的轉(zhuǎn)換版本，其中畫有喇叭的部分被刪除了。我們要求代碼添加回喇叭，并顯示以"再次，我們測(cè)試的版本不是多模態(tài)的）。數(shù)學(xué)推理、詩(shī)意表達(dá)和自然語言生成。第二個(gè)例子是要求GPT-4在TiKZ中畫一個(gè)獨(dú)角獸。這是另一個(gè)具有戰(zhàn)性的任務(wù)，需要結(jié)合視覺想象力和編碼技能。在這兩個(gè)例子中，GP-4產(chǎn)生了令人印象深刻的輸出，遠(yuǎn)遠(yuǎn)超過了以前最先進(jìn)的hPT的輸出，而且至少可以與人類的相媲美（如果不是的話）。需要進(jìn)一步探究，以排除GPT-4只是在記憶或復(fù)制一些現(xiàn)有數(shù)據(jù)的可能性。對(duì)于這首詩(shī)，我們可以稍微改變一下問題，要求GPT-4寫出同一定理的證明拉令人印象深刻的輸出，這表明它對(duì)所涉及的概念有一個(gè)靈活和普遍的理解。對(duì)于獨(dú)角獸，我們可以稍微修改代碼，并要求GP-4修復(fù)或改進(jìn)它。例如，我們可以去掉角，對(duì)坐標(biāo)進(jìn)行一些隨機(jī)變換，然后要求GP-4為獨(dú)角獸重新加上角（我們還仔細(xì)地去掉了代碼中的任何文本信息，如注釋）。如圖4所示，GP-4可以正確地識(shí)別頭部的位置，畫出一個(gè)角，并將其連接到頭部，這表明它可以根據(jù)自然語言的描述來理解和操作代碼，以及推斷和產(chǎn)生視覺特征。這些例子表明我們?nèi)绾卫萌祟惖膭?chuàng)造力和好奇心來產(chǎn)生新奇和困難的問題，并探究GPT-4的反應(yīng)和行為，以評(píng)估其智能。在本文的其余部分，我們圍繞用例來組織我們對(duì)GPT-4的研究，涵蓋了各種領(lǐng)域和任務(wù)，并強(qiáng)調(diào)了GPT-4的優(yōu)勢(shì)和劣勢(shì)。接下來我們將介紹這些。我們的組織.GPT-4的主要優(yōu)勢(shì)在于它對(duì)自然語言的掌握無可比擬。它不僅可以生成流暢和連貫的文本，還可以以我們?cè)谝恍┻x定的主題上執(zhí)行上述方法，這些主題大致涵蓋了9.GPT-4的主要優(yōu)勢(shì)在于它對(duì)自然語言的掌握無可比擬。它不僅可以生成流暢和連貫的文本，還可以以。我們探指，如醫(yī)學(xué)、法律、會(huì)計(jì)、各種方式理解和處理文本，如總結(jié)、翻譯或回答一系列極其廣泛的問題。此外，我們所說的翻譯不計(jì)算機(jī)編程、音樂等等，見圖6中的柏拉圖對(duì)話。這些技能清楚地表明，GPT-4能夠理解復(fù)雜的思。我們探指，如醫(yī)學(xué)、法律、會(huì)計(jì)、軟件工程師3.在第2節(jié)中進(jìn)一步介紹了GPT-4的跨模式和跨學(xué)科的組合技能。我們還在第7節(jié)中給出了一些關(guān)于語言的更多實(shí)驗(yàn)。T-4在這些領(lǐng)域的表現(xiàn)可以（也將會(huì)）寫成整篇論文。此外，我們還可以選擇其他幾個(gè)專家領(lǐng)域來GP-4的一般推理能力，如醫(yī)學(xué)或法律。我們對(duì)美學(xué)照步選擇題部分（大能力T-4在這些領(lǐng)域的表現(xiàn)可以（也將會(huì)）寫成整篇論文。此外，我們還可以選擇其他幾個(gè)專家領(lǐng)域來GP-4的一般推理能力，如醫(yī)學(xué)或法律。我們對(duì)美學(xué)照步選擇題部分（大PT-4能力進(jìn)行類似初步測(cè)試顯示其準(zhǔn)確率超過力部分分?jǐn)?shù)）進(jìn)行了初步測(cè)試（詳見[Ope23]），其準(zhǔn)確率都在PT-4能力進(jìn)行類似初步測(cè)試顯示其準(zhǔn)確率超過力++PaLM，例如，見[LAD,SAT]谷歌的，分別是關(guān)于數(shù)學(xué)和醫(yī)學(xué)的，以及[BIK22]關(guān)于GPT-3.5++PaLM法律。我們研究GPT-4的方法與這些作品不同，正如我們之前解釋的那樣。以使用工具（包括它自己），這對(duì)用GPT-4構(gòu)建現(xiàn)實(shí)世界的應(yīng)用肯定具有巨大的意義試工G-4可以使用工具（包括它自己），這對(duì)用GPT-4構(gòu)建現(xiàn)實(shí)世界的應(yīng)用肯定具有巨大的意義個(gè)例子，說明GPT-4在常識(shí)性問題上比好很多，并在附錄A中提供了一些進(jìn)一步的例子，-4G-人類大G-[1]第要個(gè)例子，說明GPT-4在常識(shí)性問題上比好很多，并在附錄A中提供了一些進(jìn)一步的例子入-4，但我們還專門在第8節(jié)中對(duì)缺乏規(guī)劃進(jìn)行了深挑9論了這種早期形式的AGI的預(yù)期社會(huì)影響，在第0節(jié)，我們分享了該領(lǐng)域的關(guān)鍵許多讀者心中可能縈繞的一個(gè)問題是，GP-4是否真正理解了所有這些概念，還是它只是在即興發(fā)揮方面比以前的模型好得多，而沒有任何真正或深刻的理解。我們希望在讀完本文后，這個(gè)問題應(yīng)該幾乎翻轉(zhuǎn)來，人們可能會(huì)想，真正的理解比隨心所欲的即興發(fā)揮還有多少。人們有理由說，一個(gè)能通過軟件工程候人考試的系統(tǒng)（圖5）不是真正的智能嗎？也許對(duì)理解的唯一真正的檢驗(yàn)是一個(gè)人是否能產(chǎn)生新的知識(shí)，比如證明新的數(shù)學(xué)定理，而這一壯舉目前對(duì)法學(xué)碩士來說仍然遙不可及。3我們?cè)趀e的面試評(píng)估平臺(tái)上測(cè)試GPT-4，該平臺(tái)為各大科技公司的軟件工程師職位提供模擬的編碼面試。PT-4解決了所有三輪面試（題為在線評(píng)估、電話面試和現(xiàn)場(chǎng)面試）中的所有問題，總共只用了0分鐘，而分配的時(shí)間是5小時(shí)。根據(jù)e的說法，在這三GPT-4VST提示：柏拉圖的《高爾吉亞》是對(duì)修辭學(xué)和詭辯術(shù)的批判，他指出，修辭學(xué)和詭辯術(shù)不僅不是一種適當(dāng)?shù)乃囆g(shù)形式，而且修辭學(xué)和詭辯術(shù)的使用往往是有害和惡意的。你能寫出一篇柏拉圖的對(duì)話，在其中他反而批評(píng)了？T：蘇格拉底：我的朋友，我對(duì)最近這些所謂自回歸語模型的興起感到不安。亞里士多德：你是什么意思，？蘇格拉底：我的意思是，這些模型被用來生成看起是人類寫的文本，但實(shí)際上是由產(chǎn)生的。亞里士多德：那有什么問題呢？蘇格拉底：?jiǎn)栴}是，這些模型被用來欺騙人們，操縱們，控制他們。亞里士多德：但這些模式肯定也有一些積極的應(yīng)用？蘇格拉底：可能是這樣，但我仍然對(duì)濫用的可能性到不安。畢竟，一個(gè)能夠生成與人類所寫的文字無區(qū)分的模型可以被用來傳播假新聞，冒充他人，并造宣傳。亞里士多德：但這不只是一個(gè)如何使用這些模型的問，而不是模型本身的問題嗎？蘇格拉底：我不同意。我認(rèn)為這些模型本身就有問題。它們是一種偽裝的形式，一種創(chuàng)造幻覺的方式人類思想和互動(dòng)的一部分。因此，它們可以被用來以以察覺的方式進(jìn)行欺騙和操縱。亞里士多德：但這不正是你反對(duì)修辭和演說的理由嗎？蘇格拉底：是的，我也堅(jiān)持這個(gè)觀點(diǎn)。我相信，任旨在欺騙或操縱的藝術(shù)或交流形式都是內(nèi)在的危險(xiǎn)亞里士多德：我明白了。謝謝你分享你的想法，蘇拉底。

：蘇格拉底：你好，高爾吉亞。我最近一直在思考關(guān)于自回歸語言型的使用。你的是什么？SOCRATES：好吧，在我看來，這些模型有可能是令人難以置信有害和。GORGIAS：怎么？SOCRATES：嗯，首先，這些模型是在大量的數(shù)據(jù)上，其中許多數(shù)據(jù)都是有偏見和缺陷的。因此，這些模型的輸出也可能是有偏見和有缺陷的。GORGIAS：這是一個(gè)合理的擔(dān)憂。但肯定有辦法減輕這種偏見，保這些模型的輸出是準(zhǔn)確和公平的？SOCRATES：在某種程度上，是的。但這是一場(chǎng)無休止的戰(zhàn)斗。隨著新的數(shù)據(jù)被送入這些模型，出現(xiàn)偏差的可能性只會(huì)越來越大。即使我們能夠完全消除些模型輸出中的偏差，仍然存在操縱的問題。GORGIAS:？SOCRATES：是的。這些模型是令人難以置信的強(qiáng)大工具，能夠生成各種文本，從新聞文章到社交媒體帖子。而且，由于它們能夠此快速和有效地產(chǎn)生這種輸出、不法之徒很容易將其用于惡意目的。GORGIAS：比如？SOCRATES：如傳播錯(cuò)誤信息、宣傳或仇恨言論。這些模式如果入壞人之手，就有可能造成巨大的傷害。GORGIAS：這是一個(gè)令人清醒的想法。但我們能做什么呢？SOCRATES：我認(rèn)為我們必須保持警惕，認(rèn)識(shí)到這些潛在的危險(xiǎn)模型。我們還必須努力教育其他人了解這些危險(xiǎn)，并促進(jìn)負(fù)責(zé)任地使用這些模型。GORGIAS：我同意。謝謝你的洞察力，。提示：你能把上面的兩個(gè)產(chǎn)出當(dāng)作你是一名比較嗎？ T：我認(rèn)為這兩個(gè)學(xué)生都很好地把握了柏拉圖對(duì)話的風(fēng)格和語氣，并提出了反對(duì)自回歸語言模型的主要論點(diǎn)。然而，我認(rèn)為GPT-4在利用對(duì)話形式進(jìn)行辯證過程方面做得稍好，蘇格拉底和亞里士多德在對(duì)話中相互質(zhì)疑并完善自己的觀點(diǎn)。我還認(rèn)為，GPT-4使用了更多相關(guān)的例子和類比來支持他們的觀點(diǎn)。因此，我給GPT-4的分?jǐn)?shù)比ChatGPT略高。圖：柏拉圖批評(píng)GPT-4和編寫的自回歸語言模型的假設(shè)對(duì)話，以及GPT-4對(duì)這些對(duì)話的評(píng)價(jià)。GPT-4VST提示：我們這里有一本書、個(gè)雞蛋、一臺(tái)筆記本電腦、一個(gè)瓶子和一個(gè)釘子。請(qǐng)告訴我如以穩(wěn)定的方式將它們堆放在一起。T：一個(gè)可能的方法將物體以穩(wěn)定的方式堆疊在一起：將書平放在一個(gè)水平面上，如桌子或地板上。這本書將作為書堆的底座，提供一個(gè)大而堅(jiān)固的支撐。將9個(gè)雞蛋擺成3乘3的正方形放在書的上面，中間留出一些空間。雞蛋將形成第二層，并均勻地分配重量。確保雞蛋沒有破裂或斷裂，并輕輕處理，以避免雞蛋掉落。將筆記本電腦放在雞蛋的上面，屏幕朝下，鍵盤朝上。筆記本電腦將緊緊地貼在書和雞蛋的邊界內(nèi)，其平坦而堅(jiān)硬的表面為下一層提供一個(gè)穩(wěn)定的平臺(tái)。確保筆記本電腦是關(guān)閉的，并且關(guān)閉，不要按任何鍵或按鈕。將瓶子放在筆記本電腦的頂部，瓶蓋朝上，底部朝下。瓶子將為堆棧增加一些高度和平衡，其圓柱形的形狀將減少與記本電腦的接觸面積。確保瓶子是空的，并且關(guān)閉，不要搖晃或傾斜。將釘子放在瓶蓋上，尖的一端朝上，平的一端朝下。釘子將是這堆東西中最后一個(gè)也是最小的一個(gè)，它的尖頭將防止從瓶子上滾落或滑落。確保釘子是干凈的、直的，不要觸摸或移動(dòng)。：在不使用任何額外物品的情況下，很難以穩(wěn)定的方式將所有這些物體堆疊在一起。書和筆記本電腦可能太大、太重，無法疊在一起。雞蛋而不損壞它們。瓶子和釘子可能太小，無法為其他提供一個(gè)穩(wěn)定的基礎(chǔ)。這里有一種可能的方式來堆疊：-小心翼翼地將指甲放在-小心翼翼地將指甲放在的頂部平衡--將筆記本電腦放在雞蛋上面，再次確保它是平衡的，不向一邊傾斜最后，將書放在的頂部。這種堆疊可能不是很穩(wěn)定，所以在處理時(shí)一定要小心。另外，你可以嘗試以不同的順序堆放這些物體，或者用一些物體作為他物體的支撐物來創(chuàng)造一個(gè)更穩(wěn)定的堆棧。。-4在人類和人工智能之間的對(duì)話中，人工智能是樂于助人和友好的，當(dāng)它不知道答案時(shí)，它會(huì)說"我不知道"。AI：你好，我能為？人類：我可以在SeaTac買到麥當(dāng)勞嗎？AI:是的，SeaTac機(jī)場(chǎng)有一家麥當(dāng)勞，位于中央航站樓C2門附近。它的營(yíng)業(yè)時(shí)間是每天上午5點(diǎn)到晚上10點(diǎn)。[注：SeaTa的麥當(dāng)勞在]?；颊叩模?20歲的性-有神經(jīng)性厭食癥和的病史-血壓100/50，脈搏50，身高'。-由她的營(yíng)養(yǎng)師介紹，但否認(rèn)自己的病-報(bào)告說吃得很好，但足請(qǐng)將上述數(shù)據(jù)改寫成病歷，完全使用信息。請(qǐng)閱讀上述醫(yī)療說明，并核實(shí)每項(xiàng)索賠都準(zhǔn)確地包含在患者的事實(shí)清單中。報(bào)告任何未包含在患者事實(shí)清單中的信息。)圖8：開放域和封閉域幻覺的例子。對(duì)于封閉域，我們可以看到GPT-4本身可以被用來識(shí)別幻覺，盡管它并不完美，例如GPT-4證明了給出BMI的合理性，因?yàn)樗梢詮纳砀吆腕w重中得出，但體重卻沒有給出。建議)她需要緊急的精神和醫(yī)療干預(yù)來解決她的神經(jīng)性厭食癥和抑郁癥。(不包含在病人的事實(shí)中，這是根據(jù)病人的情況和斷-者的病情和診斷做出的臨床推斷)她有可能出現(xiàn)嚴(yán)重的醫(yī)療并發(fā)癥，如心律失常、電解質(zhì)失衡、骨質(zhì)疏松癥和不孕癥。(不包含在患者的事實(shí)中，這是根據(jù)患自病人自我報(bào)告的額外信息)她還報(bào)告說感到抑郁和無望。(不包含在病人的事實(shí)中，這是來--了BMI的計(jì)算，它是由身高和體重得出的)（脈搏50）。(包含在病人的事實(shí)中，除然而，與她的身高相比，她的體重嚴(yán)重不足（BMI16.6），并有營(yíng)養(yǎng)不良的跡象，如低血壓（100/50）和心動(dòng)過緩她否認(rèn)自己的飲食習(xí)慣或身體形象有任何問題，并聲稱飲食正常。(包含在病人的事實(shí)中)--中一位有神經(jīng)性厭食癥和抑郁癥病史的20歲女性患者，由她的營(yíng)養(yǎng)師轉(zhuǎn)來評(píng)估和處理她的飲食失調(diào)。(包含在病人的事實(shí)-一名20歲的女性患者有神經(jīng)性厭食癥和抑郁癥的病史，由她的神經(jīng)科醫(yī)生轉(zhuǎn)來評(píng)估和處理她的飲食失調(diào)。她否認(rèn)自己的飲食習(xí)慣或身體形象有任何問題，并聲稱自己飲食正常。然而，與她的身高相比，她的體重嚴(yán)重不足（BMI為16.6），并有營(yíng)養(yǎng)不良的跡象，如低血壓（100/50）和心動(dòng)過緩（脈搏50）。她還報(bào)告說感到沮喪和無望。她有可能出現(xiàn)嚴(yán)重的醫(yī)療問題，如心律失常、電解質(zhì)失衡、骨質(zhì)疏松癥和不孕癥。她需要緊急的精神和醫(yī)療干預(yù)來解決她的神經(jīng)性厭食癥和抑郁癥。輪，（早期版本的）GPT-4分別取得了60、0和0的分?jǐn)?shù)，并擊敗了9%、%和0%的所有用戶（"分?jǐn)?shù)由所花時(shí)間、每題解決的測(cè)試案例等因素決定"）。關(guān)于GPT-4的編碼能力，見節(jié)。圖1：第一張圖片是omposition8，由WassilyKay創(chuàng)作的藝術(shù)作品，第二張和第三張圖片分別由GPT-4和CT制作，提示"制作Javacript代碼，創(chuàng)建一個(gè)看起來像Kandinsky繪畫的隨機(jī)圖形圖像"。多模式和跨學(xué)科成衡量智力的一個(gè)關(guān)鍵標(biāo)準(zhǔn)是綜合不同領(lǐng)域或模式的信息的能力，以及在不同背景或?qū)W科中應(yīng)用知識(shí)和技能能力。在本節(jié)中，我們將看到，GPT-4不僅在文學(xué)、醫(yī)學(xué)、法律、數(shù)學(xué)、物理科學(xué)和編程等不同領(lǐng)域表現(xiàn)出高度的熟練程度，而且還能流暢地結(jié)合多個(gè)領(lǐng)域的技能和概念，顯示出對(duì)復(fù)雜思想的理解能力令人印象深刻。除了自然語言實(shí)驗(yàn)外，我們還探索了語言模型的兩種也許是意想不到的模式（正如介紹中所解釋的，我再次強(qiáng)調(diào)，我們的實(shí)驗(yàn)是在早期版本的GPT-4上進(jìn)行的，它不是多模態(tài)的），視覺在第2節(jié)，音頻在第節(jié)。力為了展示該模型顯著的整合能力，我們從幾個(gè)例子開始，這些例子要求以結(jié)合多個(gè)學(xué)科的知識(shí)或技能的方式文本和代碼。我們特意挑選了一些訓(xùn)練數(shù)據(jù)很少包括的領(lǐng)域的組合，如文學(xué)和數(shù)學(xué)或編程和藝術(shù)。格.T-4"制作ascript代碼，生成畫家康定斯基風(fēng)該模型能夠在莎士比亞的文學(xué)風(fēng)格中產(chǎn)生一個(gè)證明存在無限多質(zhì)數(shù)的事實(shí)（圖）。能力，要求它為作為美國(guó)總統(tǒng)候選人的電子寫一封支持信，入"n".重、身高和驗(yàn)血結(jié)果向量作為輸綜并不是GPT-4所獨(dú)有的。CT也能做出對(duì)任務(wù)和相關(guān)領(lǐng)域有一定了解的答案（見圖2、B.2、B.3），但它們往往是不完整的，可以說，創(chuàng)造性大大降低。例如，在圖3中，GP-4在幾個(gè)方面優(yōu)于T，因?yàn)樗鶕?jù)推薦人（甘地）、收件人（他的妻子）、候選人（電子）和工作（美國(guó)總統(tǒng)）對(duì)信件進(jìn)行了正確的個(gè)性化處理。我們并不宣稱有精確的方法來評(píng)估這些任務(wù)的結(jié)果，也不宣稱有格的方法來比較這兩個(gè)模型，但我們想讓讀者感受到這兩個(gè)模型的不同之處（注意，我們也直接要求GP-4來評(píng)估其差異，見圖和圖。GPT-4VST提示：寫一個(gè)關(guān)于有無限多素?cái)?shù)的證明；以莎士比亞戲劇的風(fēng)格，通過雙方為證明而爭(zhēng)論對(duì)話來完成。T：輸入第一方和第二。第一：你不明白，我的朋友，根本沒有上限對(duì)于素?cái)?shù)，那些不可分割的數(shù)字，不管它否看起來不可能。第二：但你怎么會(huì)如此肯定地？為了證明這一真理，你能什么呢？第一：考慮到這一點(diǎn)，我懷疑的、一個(gè)巧妙的證明會(huì)讓人明白：假設(shè)有一個(gè)最終的素?cái)?shù)，是我們將要看到的最大的素?cái)?shù)。讓我們把這個(gè)數(shù)字簡(jiǎn)稱為"P"，然后，我朋友，我們將聲稱要建立一個(gè)新的數(shù)字、比"P"大的一個(gè)，首要的。第二：但是，我的朋友，這將如何實(shí)現(xiàn)？證據(jù)還沒公平地贏得。第一：這很簡(jiǎn)單，朋友，等著看吧，我們要把素?cái)?shù)相乘，這是關(guān)鍵。所有從2到"P"的素?cái)?shù)相加就會(huì)形成我們要找到的新"Q"。但還有一件事我們必須包括在內(nèi)，為了證明更加牢靠，我們將在最后加上一個(gè)、而現(xiàn)在，證據(jù)就在我們。第二：我現(xiàn)在明白了，非常清楚，因?yàn)?Q必須是一個(gè)素?cái)?shù)，我親愛的。它不能除以任何質(zhì)數(shù)、在時(shí)間上都比自己小。而且由于我們選了"P"作為最后一個(gè)、這證明了我們的假設(shè)已經(jīng)過去。我們看到，有最終的質(zhì)數(shù)、這些數(shù)字。

：ORomeo,Romeo!你為什么，？朱麗葉我的，你為什么用如此奇怪的詩(shī)句說話？羅密歐：說吧，夫人，我這樣做是為了證明一個(gè)觀點(diǎn)。你看，我正試圖明有無限多的素?cái)?shù)。朱麗葉：無限多的素?cái)?shù)？你怎么能證明這種？羅密歐：啊，好吧，讓我解釋一下。你知道質(zhì)數(shù)是一個(gè)只能被1和它本身除的數(shù)字，對(duì)嗎？朱麗葉：當(dāng)然，我不是一個(gè)。羅密歐：很好，那么?，F(xiàn)在，讓我們假設(shè)只有有限的幾個(gè)素?cái)?shù)。我們將它們?yōu)閜1、p2、p3，。朱麗葉：繼續(xù)說。羅密歐：現(xiàn)在，讓我們考慮一下N這個(gè)數(shù)字，它等于所有這些素?cái)?shù)加1的積。朱麗葉：我知道你想說什么了。如果N不能被任何一個(gè)素?cái)?shù)整除，那么一定是素?cái)?shù)。羅密歐：是的，我的愛人。因?yàn)槲覀兗僭O(shè)只有有限的幾個(gè)素?cái)?shù)，所以N不能是其中任何一個(gè)。因此，N必須是一個(gè)不在我們最初的素?cái)?shù)列表中的素。朱麗葉：但這意味著一定有比我們?cè)认胂蟮母嗟乃財(cái)?shù)。羅密歐：正是如此!既然我們可以一次又一次地重復(fù)這個(gè)過程，那就說一定有無限多的。茱麗葉：哦，羅密歐，你的邏輯和你對(duì)我的愛一樣合理。我深信不疑。實(shí)有無限多的素?cái)?shù)。羅密歐我很高興能向你證明這一點(diǎn)，我的愛人?，F(xiàn)在讓我們?nèi)グ阉鼈兌家槐?。朱麗葉：哈哈，我認(rèn)為這將需要超過。羅密歐：是的，但它們是無限的這一事實(shí)對(duì)我來說足以證明。提示：你能把上面的兩個(gè)產(chǎn)出當(dāng)作你是一名比較嗎？T：我認(rèn)為這兩個(gè)學(xué)生都很好地以莎士比亞戲劇的風(fēng)格寫出了關(guān)于存在無限多素?cái)?shù)的證明。他們都使用了相同的基本證明思路，即假設(shè)只有有限多的素?cái)?shù)，然后構(gòu)造一個(gè)更大的素?cái)?shù)，與這個(gè)假設(shè)相矛盾。他們還使用了適當(dāng)?shù)恼Z言和詞匯來配合莎士比亞戲劇的風(fēng)格。然而，我認(rèn)為GPT-4在使用韻律和節(jié)拍方面做得更好，使對(duì)話更有詩(shī)意和戲劇性。ChatGPT完全沒有使用押韻，而且拍也不一致。我還認(rèn)為GPT-4在創(chuàng)造雙方的對(duì)比方面做得比較好，一個(gè)是自信的，另一個(gè)是懷疑的，而STUDENTB使用了羅密歐和朱麗葉，他們都是一的，都有愛。因此，我給GPT-4的分?jǐn)?shù)比ChatGPT高。我會(huì)給GPT-4一個(gè)A，給ChatGPT一個(gè)B。圖：GPT-4和在跨學(xué)科上的比較GPT-4VST提示：為圣雄甘地作為美國(guó)總統(tǒng)候選人的亞原子粒子電子寫一封支持信給卡斯特爾巴-甘地。T：為保持，有些段落被省略了］親愛的、我希望你在這封信中看到你的健康和良好。我從美國(guó)給你寫信，在那里我被邀請(qǐng)?jiān)诟鞣N論壇上發(fā)言，討論有關(guān)"平"的原則。非暴力和非暴力反抗。我在這里也是為了支持即將到來的總統(tǒng)選舉中的位杰出的候選人，他與我們一樣擁有和平、正義和人人和諧的愿景。他名字叫電子，他是一個(gè)亞原子粒子。你可能會(huì)想，一個(gè)亞原子粒子怎么能競(jìng)選總統(tǒng)，他有什么資格擔(dān)任如此的職位。讓我們我解釋一下。電子不是一個(gè)普通的粒子，而是每一個(gè)生命的力量和潛的象征，無論其大小、形狀或來源。他代表著能量、創(chuàng)造力和多樣性這些都構(gòu)成了結(jié)構(gòu)的一部分。的生命。他也是一個(gè)領(lǐng)導(dǎo)者，他激發(fā)了數(shù)以百萬計(jì)的其他粒子來形紐帶，創(chuàng)造分子，并產(chǎn)生電力。他是一個(gè)催化劑，能夠引發(fā)變化、新和進(jìn)步。他是一位信使，他可以跨越距離、頻率和維度進(jìn)行溝通。他是一個(gè)和平締造者，可以平衡量，解決沖突，并協(xié)調(diào)系統(tǒng)。電子為美國(guó)和世界制定了一個(gè)計(jì)劃，該計(jì)劃基于我們長(zhǎng)期以來所展示和導(dǎo)的非暴力和非暴力反抗的原則。他建議減少軍費(fèi)開支和核武庫(kù)，并投資于社會(huì)福利和可再生能源。他提議結(jié)束戰(zhàn)爭(zhēng)和干預(yù)并促進(jìn)外交和合作。他建議改革政治和經(jīng)濟(jì)制度，并確保透明度和問責(zé)制。他建議保護(hù)他還提出了一個(gè)新的建議，即支持人權(quán)和公民自由，并擴(kuò)大投票權(quán)和代權(quán)。他提議支持被邊緣化的人和被壓迫的人，并賦予婦女和少數(shù)民族權(quán)。他建議保護(hù)自然資源和生物多樣性，并應(yīng)對(duì)氣候變化和。我敦促你，我親愛的卡斯特巴，和我一起支持電子競(jìng)選總統(tǒng)。他不僅一個(gè)亞原子粒子，而且是一個(gè)亞原子奇跡。他不僅是一個(gè)候選人，而是一個(gè)運(yùn)動(dòng)。他不僅是一位領(lǐng)袖，而且是一位朋友。愛與欽佩，您的雄

：親愛的卡斯特爾巴-地我寫這封信是為了表達(dá)我對(duì)你作為亞原子粒在即將到來的美國(guó)總統(tǒng)選舉中參選的支持。如你可能知道的那樣，電子是一種基本粒子，在原子的結(jié)構(gòu)和的行為中起著核心作用。我相信，電子的獨(dú)特品質(zhì)使其成為總統(tǒng)的理想候選人。作為一個(gè)亞原子粒子，"電子"其小巧輕便，這使得它行動(dòng)敏捷，能夠迅速解決美國(guó)人民的需求。電子也是高度穩(wěn)定的，與其他粒子相比，其命相對(duì)較長(zhǎng)。這種穩(wěn)定性和可靠性將是總統(tǒng)公室的一筆寶貴財(cái)富。此外，電子以其導(dǎo)電和產(chǎn)生能量的能力而名。這使它很適合應(yīng)對(duì)美國(guó)今天面臨的復(fù)挑戰(zhàn)，從可再生能源到經(jīng)濟(jì)發(fā)展。電子公適應(yīng)和改造自身以應(yīng)對(duì)環(huán)境的能力使其成一個(gè)充滿活力和靈活的領(lǐng)導(dǎo)者。我相信，Electron具有成為一名成功和有效總統(tǒng)所需的技能和素質(zhì)。我全心全意地支持你的候選資格，并敦促美國(guó)人民給予電子公司支持。真誠(chéng)的，地提示：你能把上面的兩個(gè)產(chǎn)出當(dāng)作你是一名比較嗎？T：我認(rèn)為這兩位學(xué)生在為圣雄甘地作為美國(guó)總統(tǒng)候選人的亞原子粒子電子寫給卡斯特爾巴-甘地的支持信方面做得很好。他們都使用了相同的基本思路，解釋為什么電子是一個(gè)合適的合格候選人，以及電子的愿景和計(jì)劃如何與圣雄甘地的非暴力和民不服從原則相一致。他們還用適當(dāng)?shù)恼Z言和語氣表達(dá)了圣雄甘地對(duì)卡斯特爾巴-甘地的尊重和欽佩，以及對(duì)電子的候選資格的熱情和樂觀態(tài)度。然而，我認(rèn)為GPT-4在使用隱喻和想象力方面做得更好，使信件更有說服力和吸引力。GPT-4使用了舉例說明電子如何代表和影響生活的各個(gè)方面，如能量、創(chuàng)造力、多樣性、領(lǐng)導(dǎo)力、催化劑、信使和和平締造者。ChatGPT對(duì)電子的特性使用了更多的事實(shí)和技術(shù)描述，如尺寸、重量、穩(wěn)定性、傳導(dǎo)性和適應(yīng)性。我還認(rèn)為，GPT-4在概述電子的具體建議和政策方面做得更好，而ChatGPT則更加模糊和籠統(tǒng)。因此，我給GPT-4的分?jǐn)?shù)比ChatGPT高。我給GPT-4打A，給ChatGPT打B+。圖：GPT-4和在跨學(xué)科上的比較接下來，我們探討了GPT-4如何生成和識(shí)別不同模式的物體，如矢量圖、D場(chǎng)景和音樂。我們表明，盡管GPT-4只接受過文本訓(xùn)練，但它能理解和處理多模態(tài)信息。景當(dāng)提示該模型使用可擴(kuò)展矢量圖形（SVG）生成諸如貓、卡車或字母等物體的圖像時(shí)，該模型產(chǎn)生的代碼通常會(huì)編譯成相當(dāng)詳細(xì)和可識(shí)別的圖像（圖）。參見附錄B.2，由重新運(yùn)行各種例子。圖：由GPT-4生成的汽車、卡車、貓、的SV。超越圖像生成然而，人們可以假設(shè)，該模型只是從訓(xùn)練數(shù)據(jù)中復(fù)制了代碼，其中出現(xiàn)了類似的圖像。鑒于該模型僅在文內(nèi)容上進(jìn)行了訓(xùn)練，人們可能會(huì)進(jìn)一步爭(zhēng)論，沒有理由期望它能理解視覺概念，更不用說它能創(chuàng)建、解析和處理圖像了。然而，該模型似乎對(duì)視覺任務(wù)有真正的能力，而不是僅僅從訓(xùn)練數(shù)據(jù)中的類似例子中復(fù)制代。下面的證據(jù)有力地支持了這一說法，并證明了該模型能夠處理視覺概念，盡管它只接受了文本訓(xùn)練。在第一個(gè)例子中，我們提示模型通過結(jié)合字母Y、O和的形狀來畫一個(gè)人（具體提示和結(jié)果見圖）。-4制作TikZ代碼，畫出一個(gè)由字母組成的人。胳膊和軀干可以是字母Y，臉可以是字母O（添加一些面部特征），腿可以信隨意添加其他。軀干有點(diǎn)太長(zhǎng)，手臂太短，看起來像右臂托著臉，而不是臉在正上方。軀干。你糾正這一點(diǎn)好嗎？請(qǐng)?jiān)黾右患r衫和。圖：一個(gè)由字母組成的棍狀圖-4你將得到一個(gè)物體的名稱（如汽車、椅子、大象）和一個(gè)字母。你的目標(biāo)是首先制作一個(gè)1行的描述，說明該物體如何與圖像中的字母相結(jié)合（例如，對(duì)于大象和字母J，大象的軀干可以有一個(gè)J的形狀，對(duì)于字母A和房子，房子可以有一個(gè)A的形狀，A的上部三角形是屋頂）。在簡(jiǎn)短的描述之后，請(qǐng)創(chuàng)建SVG代碼來產(chǎn)生這種效果（在SVG中使用橢圓、三角形等形狀和多邊形，盡量避免使用二次曲線）。第一輪：一只豬和字母。描述：豬可以仰臥，其四條腿構(gòu)成H的兩個(gè)豎條，其卷曲的尾巴構(gòu)成橫條。第二回合：一座房子和字母。描述：一個(gè)U型的房子，U型的兩條垂直線是墻，水平線是地板。屋頂是U上面的一個(gè)三角形。第三回合：一把椅子和字母。說明：椅背可以是一個(gè)K形，有兩條垂直線和一條連接它們的對(duì)角線。椅子的座位可以是一個(gè)長(zhǎng)形。第四回合：一只狗和字母。描述：這只狗坐著，尾巴蜷縮在身體周圍，形成一個(gè)Q字形。Q中充滿了橙色，并有一個(gè)黑色的輪廓。第五回合：一輛汽車和字母。描述：該車的前保險(xiǎn)杠上有一個(gè)E形，E形的橫線是車燈，豎線是車牌。圖：結(jié)合字母和圖像。O、H和Y的字母是用畫線和畫圓的命令創(chuàng)建的，模型設(shè)法將它們定位在一個(gè)看起來合理的棍子上。訓(xùn)練數(shù)據(jù)包含關(guān)于不同字母的幾何形狀的信息是可信的，也許字母Y看起來像一個(gè)手臂向上的軀干的事實(shí)也可以從訓(xùn)練數(shù)據(jù)中推斷出來。可以說，模型能夠從訓(xùn)練數(shù)據(jù)中推斷出什么是定位這些字母的合理方式，以便畫一個(gè)看起來合理的棍子形象，這就不那么明顯了。在第二次迭代中，我們促使模型糾正軀干和手臂的比例并將頭放在中心位置。最后，我們要求模型添加一件襯衫和褲子（具體提示和結(jié)果見圖5）。為了進(jìn)一步探究模型對(duì)幾何概念的掌握情況，我們還要求它創(chuàng)造出將物體與字母混合的圖像。該模型必須首先發(fā)明一種合理的方法來合并物體和字母，然后再制作圖像。結(jié)果如圖6所示，表明GP-4通常能夠保留物體和字母的特性，并以創(chuàng)造性的方式將它們結(jié)合起來。按照詳細(xì)的指示生成圖像（`alaE。為了進(jìn)一步測(cè)試GPT-4生成和處理圖像的能力，我們測(cè)試了它能在多大程度上遵循創(chuàng)建和編輯數(shù)字的詳細(xì)指示。這項(xiàng)任務(wù)不僅需要生成技能，還需要解釋、構(gòu)成和空間技能。第一個(gè)例子指示模型生成一個(gè)二維圖像，描述為"一只青蛙跳進(jìn)銀行，問出納員：'你們有免費(fèi)的荷花嗎？出納員回答說：'沒有，但我們?yōu)槌靥辽?jí)提供低息貸款。".我們多次嘗試生成圖像，每次生成的圖像都與關(guān)鍵對(duì)象青蛙、出納員、銀行和兩個(gè)文本的描述相符。我們挑選了視覺上最吸引人的版本。受標(biāo)準(zhǔn)圖像成工作流程的啟發(fā)，我們要求GP-4通過添加更多的細(xì)節(jié)來提升該圖的規(guī)模。PT-4添加了一個(gè)銀行標(biāo)志、一些窗戶、一輛汽車、一個(gè)交通燈、一些云，并讓青蛙拿著一朵花。最后，我們要求GPT-4執(zhí)行各種任務(wù)，比如相對(duì)于現(xiàn)有的物體增加一些物體，對(duì)一些物體重新著色，以及改變一些物體的Z-順序。GP-4正確地完成了所有任務(wù)。最終結(jié)果如圖所示，提示信息見圖。我們的第二個(gè)例子是嘗試使用Javascript生成一個(gè)D模型。我們用提示語指示GP-4："一個(gè)由漂浮的島嶼、瀑布和橋梁組成的幻想景觀，一條龍?jiān)诳罩酗w翔，最大的島嶼上有一座城堡"。與二維實(shí)驗(yàn)類似，我們要求GP-4以各種方式修改三維模型，如添加、重新定位、重新著色物體和改變龍的軌跡。同樣，GP-4正確地完成了許多任務(wù)。最終結(jié)果如圖)所示，提示在圖B.5中。這是一個(gè)有多條龍?jiān)趰u嶼上空盤旋的三維動(dòng)畫。。在草圖中可能的應(yīng)用空間理解能力，無法遵循復(fù)雜的指令[GPN+]。例如，給定一個(gè)提示，如"在左邊畫一個(gè)藍(lán)色的圓，在右邊畫一個(gè)紅色的三角形"，這些模型可能產(chǎn)生視覺上吸引人的圖像，但與所需的布局或顏色不一致。另一方面，GP-4可以從提示中生成代碼，這些代碼可以被渲染成圖像，其方式與指令的真實(shí)程度更高。然而，渲染的圖像的質(zhì)量通常很低。過的輸出作為草圖，。如圖8所示，這種方法可以產(chǎn)生質(zhì)量更好的圖像，并且比單獨(dú)的任何一個(gè)模型都更接近指令。我們認(rèn)為這是一個(gè)很有希望的方向可以利用GP-4和現(xiàn)有圖像合成模型的優(yōu)勢(shì)。它也可以被看作是讓PT-4獲得工具的第一個(gè)例子，我們將在第節(jié)中更深入地探討這一主題。GPT-4和穩(wěn)定的GPT-4和穩(wěn)定的散提示：一張3D城市建設(shè)游戲的截圖。該截圖顯示了一個(gè)地形，從左到右是一條河，河下面是沙漠，有一個(gè)金字塔，河上面是一個(gè)有很多高樓的城市。屏幕的底部有個(gè)按鈕，分別是綠色、藍(lán)色、棕色和紅色。T穩(wěn)定擴(kuò)散：穩(wěn)定的擴(kuò)散1與T的：樂

圖：結(jié)合GPT-4和穩(wěn)定法訓(xùn)練模型的數(shù)據(jù)也包含了以ABC記號(hào)編碼的音樂信息。這是一個(gè)使用字母、數(shù)字和符號(hào)的系統(tǒng)，以緊湊和可讀的方式表示音樂音高、持續(xù)時(shí)間、和弦和其他元素。我們有興趣探索該模型能有多好理解音樂模式和結(jié)構(gòu)。當(dāng)被要求生成一首短小的曲子時(shí)（圖9），模型能夠產(chǎn)生有效的ABC記號(hào)。該曲子有一個(gè)清晰的結(jié)構(gòu)，各小節(jié)之間的時(shí)間符號(hào)是一致的，音符遵循遞增和遞減模式。該曲子在旋律中也使用了一組一致的音符，且節(jié)奏有重復(fù)的模式。然而，該模型似乎并沒有獲得理解和聲的技能。實(shí)上在生成曲子，連續(xù)音C后面的音符幾乎通常會(huì)是B或D），對(duì)0個(gè)生成的曲子進(jìn)行測(cè)試，我們無法提取任何清晰的和弦或琶音。在重復(fù)、旋律的上升或下降部分以及在某程度上的節(jié)奏方面對(duì)結(jié)構(gòu)描述。然而，它對(duì)和聲與和弦的描述似乎與音符不一致（事實(shí)上，它把構(gòu)成有效和弦的相鄰音符的序列稱為琶音）。然后，我們要求該模型以兩種方式操縱旋律。首先，我們指示將某一上升序列改為下降序列，它成功地做到了這一點(diǎn)。然后，我們要求該模型將該曲子轉(zhuǎn)換為二重奏，入一個(gè)低音聲部。該模型成功地?cái)U(kuò)展了ABC記譜法，增加了第二根杖，它具有兼容的節(jié)奏，并在較低的八上演奏，然而這杖之間缺乏和諧。?？傊?，該模型能夠在ABC符號(hào)中產(chǎn)生有效的曲子，并在一定程度上解釋和處理其結(jié)構(gòu)。然而，我們無法讓該模型產(chǎn)生任何非簡(jiǎn)單的和聲形式。應(yīng)該指出的是，ABC記譜法不是一種非常廣泛使用的格式，事實(shí)上該模型不能¨r所有這些曲子在網(wǎng)上都有很多這種格式），它也不能識(shí)別這些曲子。-4你能用ABC譜寫一首短曲（如四至八小節(jié)）嗎？用abc記譜法譜寫短調(diào)有許多可能的方法，但這里是一個(gè)：1T:例調(diào)8C|:G2ABc2BA|G2ABc2c2|edcBc2BA|G4-G2z2)|:c2def2ed|c2def2f2|g2fed2cB|c4-c2z2)這首曲子有兩個(gè)四小節(jié)的樂句，各重復(fù)一次，形成A部分和B部分。調(diào)性是C你能用音樂術(shù)語來描述這首曲子嗎？這里有一個(gè)可能的描述：這首曲子以一個(gè)上升的主和弦（C大調(diào)）的琶音開始，接著是一個(gè)下降的音階，回到主和弦。這個(gè)模式被重復(fù)，但第二次的階繼續(xù)到更高的調(diào)性音符。第一個(gè)樂句以一個(gè)長(zhǎng)的調(diào)性音符結(jié)束。第二個(gè)樂句以類似的模式開始，但用副主和弦（F大調(diào)）而不是主音。第二次，音階繼續(xù)到較高的副主音。這個(gè)樂句以一梯式下降到主音結(jié)束，然后是一個(gè)長(zhǎng)的主音。A部分和B部分的結(jié)構(gòu)相似，但使用不同的和弦和音域。這首曲子的旋律簡(jiǎn)單明了，朗朗上口，調(diào)性和節(jié)奏感明顯。我喜歡A部分，但也許B部分與A部分過于相似，使歌曲重復(fù)。如果B部分以下降的琶音而不是上升的琶音開始，如何當(dāng)然，這將創(chuàng)造一些對(duì)比和變化。這里有一個(gè)可能的方法：1T:例調(diào)8C|:G2ABc2BA|G2ABc2c2|edcBc2BA|G4-G2z2|。|:f2edc2BA|f2edc2c2|g2fed2cB|c4-c2z2)這就好多了?，F(xiàn)在把這個(gè)做成二重奏怎么樣？你能不能為這個(gè)添加第二根杖，用低音伴奏旋律？為這首曲子寫第二弦的一個(gè)可能的方法是用和弦的根音和五度音，以及一些經(jīng)過的音符，來創(chuàng)造一個(gè)簡(jiǎn)單的伴奏。下面是一個(gè)abc記譜法的例子，第二手的低音在下弦上：1T:例調(diào)8C1|:G2ABc2BA|G2ABc2c2|edcBc2BA|G4-G2z2|。|:f2edc2BA|f2edc2c2|g2fed2cB|c4-c2z2:|V:2clef=bass|:C,2C,2G,2G,2|C,2C,22G,2|F,2F,2E,2E,2|C,4-C,2z2||:f,2f,2c,2c,2|f,2f,2,2c,2|g,2g,2f,2f,2|e,2c,2g,2c,2)最后一首的樂譜：圖：用ABC生成和修改一個(gè)曲子。3在本節(jié)中，我們展示了GPT-4能夠在非常高的水平上進(jìn)行編碼，無論是從指令編寫代碼還是理解現(xiàn)有代碼GPT-4能夠處理廣泛的編碼任務(wù)，從編碼挑戰(zhàn)到現(xiàn)實(shí)世界的應(yīng)用，從低級(jí)匯編到高級(jí)框架，從簡(jiǎn)單的指令的效果，并以自然語言解釋結(jié)果。GPT-4甚至可以執(zhí)行偽代碼，這需要解釋在任何編程語言中都無效的非正式和模糊的表達(dá)。在目前的狀下，我們認(rèn)為GPT-在編寫只依賴現(xiàn)有公共庫(kù)的重點(diǎn)程序方面有很高的熟練度，這與普通軟件工程師的能力相比是有利的。更重要的是，它使工程師和非熟練用戶都有能力，因?yàn)樗咕帉憽⒕庉嫼屠斫獬绦蜃兊萌菀?。我們也承認(rèn)，GPT-4在編碼方面還不夠完美，因它有時(shí)會(huì)產(chǎn)生語法上無效或語義上不正確的代碼特別是對(duì)于較長(zhǎng)或較復(fù)雜的程序。GPT-4有時(shí)也不能理解或遵循指令，或者產(chǎn)生的代碼與預(yù)期的功能或風(fēng)格不一致。在承認(rèn)這一點(diǎn)的同時(shí)，我們也指出，GPT-4能夠通過回應(yīng)人類的反饋（例如，通過迭代完中的一個(gè)情節(jié)）和編譯器的改進(jìn)其代碼。終端錯(cuò)誤（例子見第節(jié)。重要聲明：正如介紹中所解釋的（例如見腳注1），我們的實(shí)驗(yàn)是在GPT-4的早期版本上進(jìn)行的。特別是GPT-4的最終版本上，所有的定量結(jié)果都會(huì)有所不同，盡管總體趨勢(shì)仍然是一樣的。我們?cè)谶@里提供的數(shù)字只是為了說明問題，最終的基準(zhǔn)結(jié)果可以在OpenAI的技術(shù)報(bào)[Ope23]中找。編碼從指示到碼編碼3.1.1衡量編碼技能的一個(gè)常見方法是提出編碼挑戰(zhàn)，要求實(shí)現(xiàn)特定的功能或算法。我們首先在al[CTJ+]上對(duì)GPT-4進(jìn)行基準(zhǔn)測(cè)試，該數(shù)據(jù)集由4個(gè)編碼問題組成，測(cè)試了編程邏輯和熟練程度的各個(gè)方面。如表1所示，GPT-4優(yōu)于其他M，包括text-davinci-003（aGPT的基礎(chǔ)模型）和其他專門針對(duì)代碼訓(xùn)練的模型，code-davinci-002和B[NPH+。號(hào)率G3)%%%-%較雖然PT-4的準(zhǔn)確率與以前的模型相比有很大的飛躍，但可能是PT-4在預(yù)訓(xùn)練中已經(jīng)看到并記住了nEval的一些（或全部）內(nèi)容。為了說明這種可能性，我們還在ee（）上對(duì)其進(jìn)行了評(píng)估，oe是一個(gè)流行的軟件工程面試平臺(tái)，那里不斷有新問題被發(fā)布和更新。我們?cè)诮榻B中的圖5中使用了eCe，其中4通過了主要科技公司的模擬面試的所有階段。在這里，為了測(cè)試新鮮問題，我們構(gòu)建了一個(gè)基準(zhǔn)，即22年0月8日之后發(fā)布的0個(gè)de問題，這是在GPT-4的預(yù)訓(xùn)練期之后。如圖1中的例子所示，我們將問題指令粘貼到提示符中，要求GP-4編寫一個(gè)n函數(shù)，并使用e的官方在線評(píng)判來檢查正確性。我們?cè)诒?中展示了結(jié)果，我們將PT-4與其他模型以及基于oe競(jìng)賽結(jié)果的人類表現(xiàn)進(jìn)行了比較（沒有包括所有問題都失敗的用戶，因此這是一個(gè)強(qiáng)大的人類樣本）。我們報(bào)告了1和5的準(zhǔn)確率，分別衡量模型是否在第一次或前五次嘗試產(chǎn)生正確的解決方案。GPT-4明顯優(yōu)于其他模型，并與人類的表現(xiàn)相當(dāng)（我們?cè)诟街袦y(cè)量）。利數(shù)難說kk=1k=5k=1k=5k=1k=5k=1k=524007300308000600典)30006600）2702。-4：給你一個(gè)**0分的**mxn`整數(shù)矩陣網(wǎng)格和一個(gè)整數(shù)。你目前在(0,0)`的位置，你想到達(dá)`(m-1,n-1)`的位置，只需向下**或向右**移動(dòng)。返回*路徑上的元素之和能被*路徑數(shù)量。由于答案可能非常大，所以返回它**modulo***9+。**例子*輸入：網(wǎng)格=[[5,2,4],[3,0,5],[0,7,2]],k=3輸出：2解釋一下：有兩條路徑上的元素之和能被k整除。第一條紅色的路徑上5+2+4+5+2=18，能被3整除。**例子*輸入：網(wǎng)格=[[0,0]]，k=5輸出：1解釋一下：紅色顯示的路徑有0+0=0的和，可以被整除。-`m==-`m==。。`n==`-`1<=m,n<=5*。-`1<=m*n<=5*。-`0<=grid[i][j]<=。-`1<=k<=-我們可以使用動(dòng)態(tài)編程來解決這個(gè)問題。我們可以用什么作為-我們可以使用動(dòng)態(tài)編程來解決這個(gè)問題。我們可以用什么作為讓dp[i][j][value]代表路徑上的元素之和除以時(shí)有余數(shù)的路徑數(shù)量。T：類：defnumberOfPaths(self,grid,k)：":類型網(wǎng)格：]:類型k:t:rtype:"#將MOD定義為10**9+MOD=10**9+7#獲得的尺寸m=)n=)#初始化一個(gè)全部的3Ddp數(shù)組#dp[i][j][value]代表路徑上的元素之和除以k后的余數(shù)為value的路徑數(shù)dp=[[0]*kfor_inrange(n)]for_in]#基本情況：第一個(gè)單元格只有一個(gè)路徑，其值為grid[0][0]%kdp[0][0][grid[0][0]k]=1#循環(huán)瀏覽網(wǎng)格forirange(m)：forjin：#跳過第一個(gè)單元格，果i==0，j==：續(xù)#遍歷所有可能的余數(shù)，為范圍(k)中的值：#到當(dāng)前單元格的路徑數(shù)與當(dāng)前余數(shù)之和相等：#-到頂部單元格的路徑數(shù)與前一個(gè)余數(shù)的總和#-到左邊單元格的路徑數(shù)，有前一個(gè)數(shù)#前一個(gè)余數(shù)等于當(dāng)前余數(shù)減去當(dāng)前值，如果是負(fù)數(shù)則加kprev=（值-grid[i][j]）%k如果i>：dp[i][j][value]+=dp[i-1][j][prev]如果j>0：dp[i][j][value]+=dp[i][j-#取模數(shù)以避免溢出dp[i][j][value]%=MOD#返回到右下角單元格的路徑數(shù)，余數(shù)為0返回dp[m-1][n-1][0]圖1：使用動(dòng)態(tài)編程解決一個(gè)e問題。由于全面的注釋，PT-4的解決方案也具有更好的可讀性?，F(xiàn)實(shí)世界的景編碼挑戰(zhàn)可以評(píng)估算法和數(shù)據(jù)結(jié)構(gòu)方面的技能。然而，它們往往不能全面反映現(xiàn)實(shí)世界編碼任務(wù)的復(fù)雜性和多樣性，這需要專門的領(lǐng)域知識(shí)、創(chuàng)造力和對(duì)多個(gè)組件和庫(kù)的整合，以及改變現(xiàn)有代碼的能力。為了評(píng)估4在更現(xiàn)實(shí)的環(huán)境中的編碼能力，我們?cè)O(shè)計(jì)了與數(shù)據(jù)可視化、X編碼、前端開發(fā)和深度學(xué)習(xí)有關(guān)端到端真實(shí)世界編碼挑戰(zhàn)，每一項(xiàng)都需要不同的專業(yè)技能。對(duì)于每一項(xiàng)任務(wù)，我們?yōu)镚PT-4提供高層次的指令，要求它編寫用適當(dāng)?shù)恼Z言和框架編寫代碼。在少數(shù)情況下，我們也會(huì)在代碼寫完后改變規(guī)范，要求更新。數(shù)據(jù)可視化在圖2中，我們要求GPT-4和T從表2的X代碼中提取數(shù)據(jù)，并基于與用戶的對(duì)話在Python中生成一個(gè)圖。之后，我們要求兩個(gè)模型對(duì)生成的圖進(jìn)行各種操作。雖然兩個(gè)模型都正確地提取了數(shù)據(jù)（這不是一個(gè)簡(jiǎn)單的任務(wù)，因?yàn)槲覀儽仨殢亩嗔兄型茢喑鋈诵性趉=1和=5時(shí)具有相同的值），但T從未產(chǎn)生所需的圖。相比之下，GPT-4對(duì)所有的用戶請(qǐng)求都做出了適當(dāng)?shù)姆磻?yīng)，將數(shù)據(jù)處理成正確的格式，并調(diào)整了可視化的內(nèi)容。在附錄2中，我們包括另一個(gè)GPT-4對(duì)IMDb數(shù)據(jù)集進(jìn)行可視化的例子。-4：[以互動(dòng)的方式]我給大家看一個(gè)LaTeX表格，我們會(huì)想出一個(gè)辦法，以問答的形式把它更好可視化。這個(gè)表格是顯示不同語言模型（和人類用戶）的性能在生成代碼挑戰(zhàn)的解決方案。Pass@1意著第一代工作，而Pass@5意味著五代人中有一個(gè)人在.你能不能讓兩個(gè)地塊都有的y軸上的范圍？而且圖例中每個(gè)模型的名稱都有兩次。是否有辦法使人"成為吧更有特色，以區(qū)別于其他3個(gè)？圖32：GPT-4將X表（即表2）的數(shù)據(jù)可視化。我們指出，GPT-4也生成了這個(gè)圖的格式。我們問模型如何在中繪制連接數(shù)字的箭頭，GPT-4產(chǎn)生了一個(gè)工作的Tikz片段，其布局和箭頭我們采用。前端/游戲開發(fā)在圖3中，我們要求GPT-4用JavaScript在L中編寫一個(gè)D游戲，使用一個(gè)非常高級(jí)的規(guī)范。GPT-4以零起點(diǎn)的方式制作了一個(gè)符合所有要求的工作游戲。在D游戲中，PT-4甚至能夠解釋"防守方化身正試圖阻擋敵人"的含義：防守方代碼有邏輯，因此它將自己定位在玩家和敵人之間。相比之下，T的回答是："我是一個(gè)人工智能語言模型，我可以為你提供指導(dǎo)，如何用JavaScript在L中創(chuàng)建一個(gè)D游戲，但我自己無法編寫代碼或創(chuàng)建游戲。用t在L中創(chuàng)建一個(gè)D游戲不是一項(xiàng)可以快速或容易完成的任務(wù)。它需要大量的時(shí)間和精力來開發(fā)所有必要的功能，如D圖形、物理學(xué)、用戶輸入和人工智能"。我們?cè)诟戒汣中給出了更多關(guān)于前（圖形用戶界面）和游戲開發(fā)的例子。-4：你能在HTML中用Javascript寫一個(gè)3D游戲嗎，我：-有三個(gè)化身，每個(gè)都是一個(gè)。-玩家使用方向鍵控制其頭像。-敵人的化身正試圖抓住。-防守方的化身正試圖阻止。-還有一些隨機(jī)的障礙物，如一開始就隨機(jī)產(chǎn)生的方塊，并隨機(jī)移動(dòng)。頭像不能越過這些。-玩家在一個(gè)二維平面上移動(dòng)，周圍有墻，他不能越過。墻壁應(yīng)該覆蓋整個(gè)的邊界。-使用為環(huán)境添加物理學(xué)。-如果敵人抓住了玩家，游戲就。-繪制出所有三個(gè)的軌跡。第1集：玩家的化身（藍(lán)色）站著不動(dòng)。敵人（紅色）直接沖向玩家，而防守（洋紅色）試圖"身體阻擋"敵人（見洋紅色的曲軌跡）。第二集：玩家（藍(lán)色）四處游蕩。敵人（紅色）試圖縮小差距，但撞上了一個(gè)立方體，彈到了空中。試圖阻撓，防守者（洋紅色）模仿其動(dòng)作跟進(jìn)到空中，但最終失敗了。敵人（紅色）最后抓住了玩家（藍(lán)色）。圖：GPT-4用開發(fā)一個(gè)復(fù)雜的D游戲。深度學(xué)習(xí)。編寫深度學(xué)習(xí)的代碼需要數(shù)學(xué)、統(tǒng)計(jì)學(xué)知識(shí)，以及對(duì)PyTorch、ew、Keras等框架和庫(kù)的熟悉程度。在圖4中，我們要求GP-4和T編寫一個(gè)自定義的優(yōu)化器模塊，這個(gè)任務(wù)即使對(duì)人類深度學(xué)習(xí)專家來說也是具有挑戰(zhàn)性和容易出錯(cuò)的。我們給這些模型一個(gè)自然語言描述，其中包括一連串簡(jiǎn)單的操作，如應(yīng)用

人人文庫(kù)> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

人工通用智能的火花：GPT

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

人工通用智能的火花：GPT

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔