當前大語言模型LLM研究的10大挑戰(zhàn)_第1頁
當前大語言模型LLM研究的10大挑戰(zhàn)_第2頁
當前大語言模型LLM研究的10大挑戰(zhàn)_第3頁
當前大語言模型LLM研究的10大挑戰(zhàn)_第4頁
當前大語言模型LLM研究的10大挑戰(zhàn)_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

當前大語言模型LLM研究的10大挑戰(zhàn)OpenchallengesinLLMresearch讓大語言模型變得更完善這個目標,是我一生中,第一次見到這么多的聰明人,同時在為一個共同目標而努力。在同眾多業(yè)界和學術界人士交流后,我注意到出現(xiàn)了十大研究方向。目前受到關注最多的兩個方向是Hallucinations(輸出幻覺)和ContextLearning。而對我自己來說,最感興趣的是下面列出的第3個方向(Multimodality多模態(tài)數(shù)據(jù)模式)、第5個方向(Newarchitecture新架構)和第6個方向(GPUalternatives開發(fā)GPU替代的解決方案)。LLM研究的十大公開挑戰(zhàn):減少并評估輸出輸出(虛構信息)優(yōu)化上下文長度和上下文構建融合其他數(shù)據(jù)形式提升語言模型的速度和成本效益設計新的模型架構開發(fā)替代GPU的解決方案提升代理(人工智能)的可用性改進從人類偏好中學習的能力提高聊天界面的效率構建用于非英語語言的語言模型一、減少和評估幻覺輸出環(huán)境是一個已經(jīng)被大量討論過的話題,所以這里我會長話短說。當人工智能模型胡編亂造時,就會產(chǎn)生幻覺。對于許多創(chuàng)意用例來說,幻覺屬于功能的一種。然而,對于大多數(shù)應用場景來說,幻覺屬于一種錯誤。最近,我與Dropbox、Langchain、Elastics和Anthropic的專家共同參加了一個關于LLM的專題討論會,在他們看來,企業(yè)在實際生產(chǎn)中,應用LLM需要克服的首要障礙就是幻覺輸出。降低模型的幻覺輸出和制定評估幻覺輸出的指標,是一個蓬勃發(fā)展的研究課題,目前很多初創(chuàng)公司都在關注這個問題。還有一些技巧可以減少幻覺輸出的概率,例如在提示詞中添加更多上下文、CoT、自洽性,或者特定要求模型的響應簡潔明了。下面是關于幻覺輸出的系列論文和參考資料:SurveyofHallucinationinNaturalLanguageGeneration(Jietal.,2022)HowLanguageModelHallucinationsCanSnowball(Zhangetal.,2023)AMultitask,Multilingual,MultimodalEvaluationofChatGPTonReasoning,Hallucination,andInteractivity(Bangetal.,2023)ContrastiveLearningReducesHallucinationinConversations(Sunetal.,2022)Self-ConsistencyImprovesChainofThoughtReasoninginLanguageModels(Wangetal.,2022)SelfCheckGPT:Zero-ResourceBlack-BoxHallucinationDetectionforGenerativeLargeLanguageModels(Manakuletal.,2023)Asimpleexampleoffact-checkingandhallucinationbyNVIDIA’sNeMo-Guardrails二、優(yōu)化上下文長度和上下文構建絕大部分問題都需要上下文。例如,如果我們問ChatGPT:“哪家越南餐廳最好?”所需的上下文將是“這個餐廳的限定范圍到底在哪里?”,因為越南本土最好吃的餐廳與美國的最好吃的越南餐廳,這個問題的范圍是不同的。根據(jù)下面這篇很酷的論文《SITUATEDQA:IncorporatingExtra-LinguisticContextsintoQA》(Zhang&Choi,2021),有相當一部分信息搜索問題的答案與上下文有關,例如,在NaturalQuestionsNQ-Open數(shù)據(jù)集中大約占16.5%。(NQ-Open:/research/NaturalQuestions)我個人認為,在企業(yè)實際遇到的案例中,這一比例會更高。例如,假設一家公司為客戶支持建立了一個聊天機器人,要讓這個聊天機器人回答客戶關于任何產(chǎn)品的任何問題,所需的上下文很可能是該客戶的歷史或該產(chǎn)品的信息。由于語言模型會從提供給它的上下文中“學習”,因此這一過程也被稱為上下文學習??蛻糁С植樵兯璧纳舷挛腃ontextlength對于RAG(檢索增強生成)非常重要,而RAG已成為大語言模型行業(yè)應用場景的主要模式。具體來說,檢索增強生成主要分為兩個階段:第1階段:分塊(也稱為編制索引)chunking(alsoknownasindexing)收集LLM使用的所有文檔,將這些文檔分成可以喂入大于模型,以生成嵌入的塊,并將這些嵌入存儲在向量數(shù)據(jù)庫中。第2階段:查詢當用戶發(fā)送查詢時,如“我的保險單是否能夠支付某種藥物X”,大語言模型會將此查詢轉(zhuǎn)換為embedding,我們稱之為QUERY_EMBEDDING。向量數(shù)據(jù)庫,會獲取embedding與QUERY_EMBEDDING最相似的塊。上下文長度越長,我們就能在上下文中squeeze越多的chunks。模型獲取的信息越多,它的輸出和回應質(zhì)量就會越高,是這樣的嗎?并非總是如此。模型能用多少上下文,和模型使用上下文的效率如何,是兩個不同的問題。在努力增加模型上下文長度的同時,我們也在努力提高上下文的效率。有人稱之為“提示工程promptengineering”或“promptconstruction”。例如,最近有一篇論文談到了模型如何更好地理解索引開頭和結尾,而不僅是中間的信息——LostintheMiddle:HowLanguageModelsUseLongContexts(Liuetal.,2023).三、其他數(shù)據(jù)模式融入(多模態(tài))在我看來,多模態(tài)是非常強大的,但是它也同樣被低估了。這里解釋一下多模態(tài)的應用原因。首先,許多具體應用場景都需要多模態(tài)數(shù)據(jù),尤其是在醫(yī)療保健、機器人、電子商務、零售、游戲、娛樂等混合數(shù)據(jù)模態(tài)的行業(yè)。舉例來說:醫(yī)療檢測通常需要文本(如醫(yī)生筆記、患者問卷)和圖像(如CT、X光片、核磁共振掃描片)。產(chǎn)品的Metadata通常包含圖片、視頻、描述,甚至表格數(shù)據(jù)(如生產(chǎn)日期、重量、顏色),因為從需求角度,您可能會需要根據(jù)用戶的評論或產(chǎn)品照片,自動填補缺失的產(chǎn)品信息,或者希望讓用戶能夠使用形狀或顏色等視覺信息,進行產(chǎn)品搜索。其次,多模態(tài)有望大幅提升模型性能。一個既能理解文本又能理解圖像的模型,難道不應該比單一能理解文本的模型表現(xiàn)更好嗎?基于文本的模型,需要大量文本,以至于我們擔心很快就會用完互聯(lián)網(wǎng)數(shù)據(jù)來訓練基于文本的模型。一旦文本耗盡,我們就需要利用其他數(shù)據(jù)模式。讓我特別興奮的一個使用案例是,多模態(tài)技術可以讓視障人士瀏覽互聯(lián)網(wǎng)和瀏覽現(xiàn)實世界。下面是關于多模態(tài)相關的系列論文和參考資料:[CLIP]LearningTransferableVisualModelsFromNaturalLanguageSupervision(OpenAI,2021)Flamingo:aVisualLanguageModelforFew-ShotLearning(DeepMind,2022)BLIP-2:BootstrappingLanguage-ImagePre-trainingwithFrozenImageEncodersandLargeLanguageModels(Salesforce,2023)KOSMOS-1:LanguageIsNotAllYouNeed:AligningPerceptionwithLanguageModels(Microsoft,2023)PaLM-E:Anembodiedmultimodallanguagemodel(Google,2023)LLaVA:VisualInstructionTuning(Liuetal.,2023)NeVA:NeMoVisionandLanguageAssistant(NVIDIA,2023)四、讓LLM更快、成本更低當GPT-3.5在2022年11月底首次發(fā)布時,很多人對在生產(chǎn)中使用它的延遲和成本表示擔憂。然而,自那時以來,延遲/成本分析已經(jīng)迅速發(fā)生了變化。在不到半年的時間里,社區(qū)找到了一種方法,可以創(chuàng)建一個性能與GPT-3.5非常接近的模型,但所需的內(nèi)存占用僅為GPT-3.5的2%左右。這里的啟示是:如果你創(chuàng)造出足夠優(yōu)秀的東西,人們會找到一種方法讓它變得快速且經(jīng)濟高效。以下是《Guanaco7B》的性能數(shù)據(jù),與ChatGPTGPT-3.5和GPT-4的性能進行了比較,根據(jù)《Guanco》論文中的報告。請注意:總體而言,下列關于性能的比較,離完美還差很遠,并且,對LLM的評估非常非常困難。Guanaco7B與ChatGPTGPT-3.5和GPT-4的性能比較:四年前,當我開始為《設計機器學習系統(tǒng)》一書撰寫后來成為“模型壓縮”部分的筆記時,我寫了關于模型優(yōu)化/壓縮的四種主要技術:Quantization:迄今為止最通用的模型優(yōu)化方法。量化通過使用較少的位數(shù)來表示模型的參數(shù)來減小模型的大小,例如,可以使用16位甚至4位來表示浮點數(shù),而不是使用32位。Knowledgedistillation:一種通過訓練小模型來模仿大型模型或模型集合的方法。Low-rankfactorization:這里的關鍵思路是用低維張量代替高維張量,以減少參數(shù)數(shù)量。例如,可以將3×3張量分解為3×1和1×3張量的乘積,這樣就不再需要9個參數(shù),而只需要6個參數(shù)。Pruning所有上述四種技術在今天仍然適用和流行。Alpaca采用Knowledgedistillation進行訓練。QLoRA結合使用了Low-rankfactorization和quantization。五、設計一種新的模型架構自2012年的AlexNet以來,我們看到了許多架構的興衰,包括LSTM、seq2seq等。與這些相比,Transformer的影響力,令人難以置信。自2017年以來,Transformer就一直存在,而這種架構還能流行多久,還是個未解之謎。開發(fā)一種新架構來超越Transformer并不容易。Transformer在過去6年中進行了大量優(yōu)化,而這種新架構,必須在人們當前關注的硬件,以當前關心的規(guī)模運行。注意:谷歌最初設計Transformer是為了在TPU上快速運行,后來才在GPU上進行了優(yōu)化。2021年,ChrisRé’slab的S4引起了廣泛關注,詳見《EfficientlyModelingLongSequenceswithStructuredStateSpaces》(Guetal.,2021))。ChrisRé’slab仍在大力開發(fā)新架構,最近與初創(chuàng)公司Together合作開發(fā)的架構MonarchMixer(Fu,2023年)就是其中之一。他們的主要思路是,對于現(xiàn)有的Transformer架構,注意力的復雜度是序列長度的二次方,而MLP的復雜度是模型維度的二次方。具有次二次方復雜度的架構將更加高效。MonarchMixer六、開發(fā)GPU替代方案自2012年的AlexNet以來,GPU一直是深度學習的主導硬件。實際上,AlexNet受歡迎的一個普遍認可的原因之一是它是首篇成功使用GPU來訓練神經(jīng)網(wǎng)絡的論文。在GPU出現(xiàn)之前,如果想要以AlexNet的規(guī)模訓練模型,需要使用數(shù)千個CPU,就像谷歌在AlexNet之前幾個月發(fā)布的那款。與數(shù)千個CPU相比,幾塊GPU對于博士生和研究人員來說更加容易得到,從而引發(fā)了深度學習研究的繁榮。在過去的十年里,許多公司,包括大型企業(yè)和創(chuàng)業(yè)公司,都試圖為人工智能創(chuàng)建新的硬件。最值得注意的嘗試包括谷歌的TPU、Graphcore的IPU(IPU的進展如何?)以及Cerebras。SambaNova籌集了超過十億美元來開發(fā)新的AI芯片,但似乎已轉(zhuǎn)向成為一個生成式AI平臺。有一段時間,人們對量子計算抱有很大的期望,其中關鍵參與者包括:IBM的QPU谷歌的量子計算機在今年早些時候在《自然》雜志上報道了量子誤差減少的重大里程碑。其量子虛擬機可以通過GoogleColab公開訪問。研究實驗室,如麻省理工學院量子工程中心、馬克斯·普朗克量子光學研究所、芝加哥量子交流中心、奧克里奇國家實驗室等。另一個同樣令人興奮的方向是光子芯片(photonicchips)。我對這個領域知之尚淺,所以,如果有錯誤,請糾正我?,F(xiàn)有芯片使用電力來傳輸數(shù)據(jù),這消耗大量的能量并且產(chǎn)生延遲。而光子芯片使用光子來傳輸數(shù)據(jù),利用光速進行更快、更高效的計算。在這個領域,各種初創(chuàng)公司已經(jīng)融資數(shù)億美元,包括Lightmatter(2.7億美元)、AyarLabs(2.2億美元)、Lightelligence(2億美元以上)和LuminousComputing(1.15億美元)。以下是光子矩陣計算三種主要方法的進展時間線,摘自論文《Photonicmatrixmultiplicationlightsupphotonicacceleratorandbeyond》(Zhou,Nature2022)。這三種不同的方法分別是平面光轉(zhuǎn)換(PLC)、馬赫-曾德爾干涉儀(MZI)和波分復用(WDM)。七、提高agents的可用性Agent指可以執(zhí)行動作的大語言模型(可以理解為那些可以代替你來完成各種任務的代理人,所以叫Agent),例如瀏覽互聯(lián)網(wǎng)、發(fā)送電子郵件、預訂等。與本文中其他研究方向相比,這可能是最新的方向之一。由于Agent本身的新穎性和巨大潛力,人們對Agent充滿熱情。而Auto-GPT現(xiàn)在是GitHub上標星數(shù)量排名第25的、最受歡迎的repo。GPT-Engineering是另一個受歡迎的repo。盡管這個方向令人興奮,但人們?nèi)匀粚Υ笳Z言模型是否足夠可靠和高性能,以及能夠被賦予行動的權力,存在疑慮。然而,已經(jīng)出現(xiàn)了一個應用場景,即將Agent用于社會研究。例如著名的斯坦福實驗,該實驗顯示一小簇生成式Agent產(chǎn)生了新興的社會行為:例如,從一個用戶指定的想法開始,一個Agent想要舉辦情人節(jié)派對,Agent在接下來的兩天里自動傳播派對的邀請,結交新朋友,互相邀請參加派對…(GenerativeAgents:InteractiveSimulacraofHumanBehavior,Parketal.,2023),在這個領域最值得注意的創(chuàng)業(yè)公司也許是Adept,由兩位前Transformer的合著者和前OpenAI副總裁創(chuàng)立,到目前為止已經(jīng)融資近5億美元。去年,他們展示了他們的agent的如何瀏覽互聯(lián)網(wǎng)的,還有就是演示了如何向Salesforce添加新賬戶。八、迭代RLHFRLHF(從人類反饋中進行強化學習)很酷,但有點技巧性。如果人們找到更好的訓練LLM的方法,也不奇怪。不過,在RLHF方面還存在許多未解決的問題,例如:①如何用數(shù)學方式,表示人類偏好?目前,人類偏好是通過比較來確定的:人類標注員確定響應A是否比響應B更好。然而,它沒有考慮響應A比響應B好多少。②什么是人類偏好(preference)?

Anthropic根據(jù)輸出,在有益、誠實和無害三個方面對其模型的質(zhì)量進行了衡量。請參閱ConstitutionalAI:HarmlessnessfromAIFeedback(Baietal.,2022).DeepMind試圖生成能夠取悅大多數(shù)人的響應。請參閱Fine-tuninglanguagemodelstofindagreementamonghumanswithdiversepreferences,(Bakkeretal.,2022).此外,我們想要能夠表達立場的AI,還是對任何可能具有爭議性的話題回避的傳統(tǒng)AI呢?③“人類”偏好究竟是誰的偏好,是否要考慮到文化、宗教、政治傾向等的差異?獲得足夠代表所有潛在用戶的訓練數(shù)據(jù)存在許多挑戰(zhàn)。例如,對于OpenAI的InstructGPT數(shù)據(jù),沒有65歲以上的標注員。標注員主要是菲律賓人和孟加拉人。請參閱InstructGPT:Traininglanguagemodelstofollowinstructionswithhumanfeedback(Ouyangetal.,2022).InstructGPT標注員的國籍統(tǒng)計信息盡管社區(qū)主導的努力在其意圖上值得贊賞,但可能導致數(shù)據(jù)存在偏見。例如,對于OpenAssistant數(shù)據(jù)集,222位(90.5%)回答者中有201位自我認定為男性。JeremyHoward在Twitter上有一個很好的Thread:九、提高聊天界面效率自ChatGPT以來,人們一直在討論聊天是否是一個適用于各種任務的界面。詳見:Naturallanguageisthelazyuserinterface(AustinZ.Henley,2023)WhyChatbotsAreNottheFuture(AmeliaWattenberger,2023)WhatTypesofQuestionsRequireConversationtoAnswer?ACaseStudyofAskRedditQuestions(Huangetal.,2023)AIchatinterfacescouldbecometheprimaryuserinterfacetoreaddocumentation(TomJohnson,2023)InteractingwithLLMswithMinimalChat(EugeneYan,2023)然而,這并不是一個新話題。在許多國家,尤其是在亞洲,聊天已經(jīng)作為超級應用的界面使用了大約十年時間,DanGrover在2014年就已經(jīng)寫過相關論文。2016年,當許多人認為應用程序已死、聊天機器人將成為未來時,討論再次變得激烈緊張起來:Onchatasinterface(AlistairCroll,2016)IstheChatbotTrendOneBigMisunderstanding?(WillKnight,2016)Botswon’treplaceapps.Betterappswillreplaceapps(DanGrover,2016)我個人喜歡聊天界面,原因如下:①聊天界面是每個人,甚至是沒有先前接觸過計算機或互聯(lián)網(wǎng)的人,都可以迅速學會使用的界面(普適性)。在2010年代初,當我在肯尼亞的一個低收入居民區(qū)做志愿者時,我驚訝于那里的每個人在手機上進行銀行業(yè)務時是多么熟悉,通過短信。那個社區(qū)沒有人有計算機。②聊天界面是易于訪問的。如果你的雙手整忙于其他事情,可以使用語音而不是文本。③聊天也是一個非常強大的界面——你可以向它提出任何請求,它都會給予回復,即使回復不一定完美.;不過,筆者認為聊天界面在某些方面還可以繼續(xù)改進:①單次可交流多條消息目前,我們基本上假設每次交流只有單輪消息。但這不是我和我的朋友發(fā)短信的方式。通常,我需要多條消息來完成我的思考,因為我需要插入不同的數(shù)據(jù)(例如圖像、位置、鏈接),我可能在之前的消息中遺漏了某些內(nèi)容,或者只是不想把所有內(nèi)容都放在單一的大段落里。②多模態(tài)輸入在多模態(tài)應用領域,大部分精力都花在構建更好的模型上,而很少花在構建更好的界面上。以Nvidia的NeVA聊天機器人為例。我不是用戶體驗專家,但我認為在這里可能有改進的空間。附注:對這里提到NeVA團隊表示抱歉,即使有了這個,你們的工作仍然非??幔、蹖⑸墒紸I融入工作流程中LinusLee在他的分享“GenerativeAIinterfacebeyondchats.”中很好地涵蓋了這一點。例如,如果您想問關于您正在處理的圖表中的某一列的問題,您應該能夠只需指向那一列并提問。④消息編輯和刪除用戶輸入的編輯或刪除會如何改變與聊天機器人的對話流程?十、為非英語語言創(chuàng)建LLM我們知道,目前以英語為第一語言的LLM在性能、延遲和速度方面都無法很好地適用于許多其他語言。請參閱:ChatGPTBeyondEnglish:TowardsaComprehensiveEvaluationofLargeLanguageModelsinMultilingualLearning(Laietal.,2023)AlllanguagesareNOTcreated(tokenized)equal(YennieJun,2023)我只知道訓練越南語的嘗試(比如Symato社區(qū)嘗試),不過,本文幾位早期讀者告訴我,他們認為我不應該把這個方向包括進來,原因如下:這與其說是一個研究問題,不如說是一個logist

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論