版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
PERSONALLLMAGENTS:關于功能、效率和安全性的見解和調(diào)查YuanchunLi1?,HaoWen1?,WeijunWang1?,XiangyuLi1?,YizhenYuan1?,GuohongLiu1?,JiachengLiu1,WenxingXu1,XiangWang1,YiSun1,RuiKong1,YileWang1,HanfeiGeng1,JianLuan2,XuefengJin3,ZilongYe4,GuanjingXiong5,FanZhang6,XiangLi7,MengweiXu8,ZhijunLi9,PengLi1,YangLiu1,Ya-QinZhang1,YunxinLiu15vivoAILab6ViomiTechnologyCo.,Ltd.7LiAutoInc.Contact:liyuanchun@Website:/MobileLLM/Personal_LLM_Agents_SurveyABSTRACT自個人計算設備問世以來,智能個人助理(IPA)一直是科研人員和工程師關注的關鍵技術之一,旨在幫助用戶高效獲取信息和執(zhí)行任務,為用戶提供更加智能、便捷、豐富的交互體驗。隨著智能手機和物聯(lián)網(wǎng)的發(fā)展,計算和傳感設備變得無處不在,極大地拓展了智能個人助理的功能邊界。然而,由于缺乏用戶意圖理解、任務規(guī)劃、工具使用、個人數(shù)據(jù)管理等能力,現(xiàn)有的智能個人助理仍然具有有限的實用性和可擴展性。近年來,以大型語言模型(LLMs)為代表的基礎模型的出現(xiàn),為智能個人助理的發(fā)展帶來了新的機遇。憑借強大的語義理解和推理能力,LLM可以使智能代理自主解決復雜的問題。在本文中,我們重點關注PersonalLLMAgents,它們是基于LLM的代理,與個人數(shù)據(jù)和個人設備深度集成并用于個人協(xié)助。我們預計,在即將到來的時代,PersonalLLMAgents將成為最終用戶的主要軟件范式。為了實現(xiàn)這一愿景,我們邁出了第一步,討論了有關PersonalLLMAgents的幾個重要問題,包括它們的架構、功能、效率和安全性。我們首先總結(jié)了PersonalLLMAgents架構中的關鍵組件和設計選擇,然后深入分析了從領域?qū)<夷抢锸占降囊庖姟=酉聛?,我們將討論實現(xiàn)智能、高效和安全PersonalLLMAgents的幾個關鍵挑戰(zhàn),然后對應對這些挑戰(zhàn)的代表性解決方案進行全面調(diào)查。3科幻小說描繪了智能個人助理(IPA)的許多引人注目的角色,IPA是一種軟件代理,可以增強個人的能力、完成復雜的任務,甚至滿足情感需求。這些智能代理代表了大多數(shù)人對人工智能(AI)的幻想。隨著個人設備(e.g.,智能手機、智能家居設備、電動汽車等)的廣泛采用和機器學習技術的進步,這種幻想正逐漸成為能代理與用戶緊密相連,能夠訪問用戶數(shù)據(jù)和傳感器,控制各種個人設備,并然而,當今的智能個人助理仍然受到靈活性和可擴展性的限制。他們的智力水平遠遠不夠,這在他們對用戶意圖、推理和任務執(zhí)行的理解上尤為明顯。當今的大多數(shù)智能個人助理僅限于在受限域內(nèi)執(zhí)行任務(e.g.,內(nèi)置應用程序中的簡單功能)。一旦用戶請求超出這些邊界的任務,代理就無法準確理解和執(zhí)行操作。改變這種情況需要顯著擴展代理的能力,以支持更廣泛、更靈活的任務范圍。但是,當前的IPA產(chǎn)品很難支持大規(guī)模任務。當今的大多數(shù)IPA都需要遵循特定的預定義規(guī)則來完成任務,例如開發(fā)人員定義或用戶演示的步驟。因此,開發(fā)人員或用戶除了定義任務執(zhí)行的觸發(fā)器和步驟外,還必須明確指定他們希望支持哪些功能。這種方法本質(zhì)上將可伸縮性限制在更廣泛的任務中,因為支持更多任務需要大量的時間和人力成本。一些方法試圖通過監(jiān)督學習或強化學習[???]自動學習來支持任務。然而,這些方法也依賴于大量的手動演示和/或獎勵函數(shù)的定義。近年來,大型語言模型(LLMs)[?]的出現(xiàn)為IPA的發(fā)展帶來了全新的機遇,展示了解決智能個人助理可常識推理和零樣本泛化。這些能力是通過對大量語料庫(超過1.4萬億個單詞)進行無監(jiān)督學習來實現(xiàn)的,隨后根據(jù)人類反饋進行微調(diào)。利用這些能力,研究人員已經(jīng)成功地采用了大型語言模型來增強自主代理的能力。LLMagents旨在通過自動制定計劃并使用搜索引擎、代碼解釋器和第三方API等工具來解決復雜問作為一種獨特的智能代理類型,IPA也有可能被LLM徹底改變,顯著增強可擴展性、功能和實用性。我們將這種由LLM驅(qū)動的智能個人助理稱為PersonalLLMAgents。與普通的LLM代理相比,PersonalLLMAgents更深入地參與個人數(shù)據(jù)和移動設備,并且更明確地設計用于幫助人們而不是取代人們。具體來說,幫助用戶的主要方式是減少日常生活中的重復性、繁瑣和低價值的勞動,讓用戶專注于更有趣、更有價值的事情,從而提高他們工作和生活的效率和質(zhì)量。PersonalLLMAgents可以建立在現(xiàn)有的軟件堆棧(e.g.,移動應用程序、網(wǎng)站等)之上,同時通過無處不在的智能自動化功能帶來令人耳目一新的用戶體驗。因此,我們預計PersonalLLMAgents將成為AI時代個人計算設備的主要軟件范式,如圖??所示。Figure1:我們設想PersonalLLMAgents成為即將到來的時代個人用戶的主導軟件范式。盡管PersonalLLMAgents的前景廣闊,但相關研究仍處于起步階段,存在了實施PersonalLLMAgents的路線圖、設計選擇、主要挑戰(zhàn)和可能的解決方案。具體而言,我們主要關注與PersonalLLMAgents中的“個人”部分相關的方面,包括用戶個人數(shù)據(jù)的分析和利用、個人資源的使用、個人設備上的部署以及個性化服務的提供。將LLM的通用語言功能直接集成到IPA中不在本文的討論范圍之我們首先對PersonalLLMAgents的領域?qū)<疫M行了調(diào)查。我們邀請了25位來自領先公司的首席架構師、董事總經(jīng)理和/或高級工程師/研究人員,他們正在個人設備上開發(fā)IPA和/或LLM。我們詢問了專家們對將LLM集成到其面向消費者的產(chǎn)品中的機遇和挑戰(zhàn)的看法?;趯<乙娊獾睦斫夂头治?,我們總結(jié)出一種簡單通用的PersonalLLMAgents架構,其中個人數(shù)據(jù)(用戶上下文、環(huán)境狀態(tài)、活動歷史、個性等)和個人資源(移動應用程序、傳感器、智能家居設備等)的智能管理和利用起著至關重要的作用。管理和利用這些個人物品的能力使PersonalLLMAgents的智能與眾不同。受L1-L5智能級自動駕駛的啟發(fā),我們還給出了五個智4能級PersonalLLMAgents的分類法。我們的研究結(jié)果還強調(diào)了實現(xiàn)此類PersonalLLMAgents的幾個主要技術挑戰(zhàn),這些挑戰(zhàn)可以分為三個方面,包括基本功能、效率和安全性&隱私。我們進一步深入研究了這些方解釋了它與個人法學碩士代理的相關性和重要性,然后將其分解為幾個主要的研究問題。例如,個人LLM代理的基本功能包括任務執(zhí)行、上下文感知和記憶。智能體的效率主要由LLM推理效率、定制效率和內(nèi)存檢索效率決定。個人LLM代理的安全和隱私問題可分為數(shù)據(jù)機密性、決策可靠性和系統(tǒng)完整性。對于每個研究問題,我們總結(jié)了與該問題相關的主要技術,然后簡要介紹了相關工作。由于個人LLM代理中的技術范圍很廣,我們只包括最相關或最新的工作,而不是試圖涵蓋所有相關的方法。本文的主要內(nèi)容和貢獻可歸納如下:1.我們總結(jié)了工業(yè)界和學術界現(xiàn)有智能個人助理的現(xiàn)狀,同時分析了它們在法學碩士時代的主要局限性和未來趨勢。2.我們收集了LLM領域資深專家和個人代理的見解,提出了通用的系統(tǒng)架構和個人LLM代理的智能水平定義。3.我們回顧了關于個人LLM代理的三個重要技術方面的文獻,包括基礎能力、效率和安全性&隱私。2智能個人助理簡史SpeechRecognitionSystemShoeboxCMUMedSpeakAppleSpeakableItemsGoogleVoiceSearchTangoraVoice-basedSoftwareMicrosoftCortanaAmazonAlexa??????????????LLM-basedPersonalAssistantOpenAIGoogleGoogleAssistantGoogleGoogleAssistantLLM-basedChatbotVirtualPersonalAssistantonSmartphoneFigure2:智能個人助理(IPA)歷史上的重要里程碑。我們用不同的顏色標記不同的發(fā)展階段,一些重大或突破性的事件用粗體字突出顯示。2.1智能個人助理歷史記錄的時間線視圖智能個人助理(IPA)有著悠久的發(fā)展歷史。我們在圖中描繪了IPA歷史的粗略時間線??.開發(fā)進度可分為四個階段,每個階段在圖中都標有獨特的顏色。第一階段從1950年代到1980年代后期,主要是語音識別技術的發(fā)展。語音識別的早期階段是從基本的數(shù)字和單詞開始的。貝爾實驗室開發(fā)了“奧黛麗”,它可以識別數(shù)字0-9,系統(tǒng)從IBM高級系統(tǒng)開發(fā)部實驗室問世,它能夠識別多達16個單詞。從1971年到1976年,由美國國防部資助的語音理解研究(SUR)項目顯著推動了語音識別技術的發(fā)展。Harpy系統(tǒng)[?]特別具有代表性,因為它可以理解由1011個單詞組成的句子,相當于一個三歲孩子的熟練程度。1986年,IBM開發(fā)了Tangora語音識別打字系統(tǒng)[?],能夠識別20,000個單詞,并提供預測和糾錯功能。Tangora系統(tǒng)利用隱馬爾可夫模型[?],需要對單個說話者進行語音識別訓練,每個單詞之間都有停頓。IntentIntentIntentIntentIntentIntent5第二階段涵蓋從1990年代到2000年代后期,因為語音識別開始集成到軟件中以實現(xiàn)某些高級功能。1990年,“DragonDictate”軟件[?]發(fā)布,這是第一款面向消費者的語音識別產(chǎn)品。它最初設計用于在MicrosoftWindows上運行,支持離散語音識別。Apple于1993年說話來控制他們的計算機。1996年,IBM推出了面向放射科醫(yī)生的“MedSpeak”[?],這也是第一個支持連續(xù)語音識別的商業(yè)產(chǎn)品。Microsoft2002年將語音識別集成到Of?ce應用程序中[?]年,Google于2008年[?]年在iPhone上的Google移動應用程序中添加了語音搜索功能。第三階段從2010年代初開始。在此期間,智能手機和個人電腦等移動設備上開始出現(xiàn)始終在線的虛擬助手服務。Siri[?]被廣泛認為是現(xiàn)代智能手機上安裝的第一個智能個人助理,于2011年集成到蘋果的iPhone4S軟件,并不斷進行更新和迭代以整合新功能。與Siri類似,這一時期開始出現(xiàn)許多其他虛擬智能助手。2014年,Microsoft發(fā)布了Cortana[?],并逐步將其集成到臺式電腦和其他平臺中。同年,亞馬遜發(fā)布了Alexa[?],可以完成語音交互、音樂播放、鬧鐘設置等任務。除了語音搜索之外,GoogleAssistant[?]于2016年推出,支持用戶通過說話和鍵盤輸入進行交互。第四階段最近開始,LLM開始引起全世界的關注。基于LLM,出現(xiàn)了許多智能聊天機器人(e.g.,ChatGPT[?]以及一些安裝在個人設備上的LLM驅(qū)動的IPA軟件(e.g.,Copilot[?])。此階段的詳細信息將在2.2智能個人助理歷史的技術觀點由于有很多方面可以體現(xiàn)個人助理的智能,因此我們選擇智能個人助理最重要的能力之一,即任務自動化能力(遵循指令并完成任務以此為重點。在以下小節(jié)中,我們將介紹四種主要類型的技術,以便在IPA中實現(xiàn)智能任務自動化。請注意,這些類型的解決方案是同時開發(fā)的,它們之間沒有嚴格的時間順序。2.2.1基于模板的編程大多數(shù)商業(yè)IPA產(chǎn)品都支持通過基于模板的方法實現(xiàn)任務自動化。在這些方法中,可以自動化的功能被預定義為模板,每個模板通常包含任務描述、相關操作、要匹配的示例查詢、要完成的支持參數(shù)等。給定用戶命令,代理首先將命令映射到最相關的模板,然后按照預定義的步驟完成任務。工作流程如圖??所示。使用此方法自動執(zhí)行任務時,應用程序開發(fā)人員需要遵循某些API(e.g.,GoogleAssistantAPI[?]、SiriKit[?]等)的文檔,為他們想要自動化的每個功能創(chuàng)建模板。此外,還提出了一些方法,使最終用戶能夠創(chuàng)建自己的任務模板,例如iPhone設備上的“快捷方式”[?]功能,從而實現(xiàn)重復操作序列的自動化。類似的功能也實現(xiàn)在很多針對Android系統(tǒng)的產(chǎn)品和學術研究中,比如Tasker[?]、Anywhere[?]、EMicrosoft的uLink[?]系統(tǒng)等這種基于模板的任務自動化方法的優(yōu)點在于其可靠性和準確性,因為模板中的步驟是確定性的,并且經(jīng)過精公司的流行應用程序,都不支持任何自動化任務或僅支持一些基本任務,導致用戶體驗非常不靈活。最終用戶在多次嘗試失敗后可以輕松放棄使用IPA的想法[????].這種局限性對基于模板的智能個人助理的進一步發(fā)展構成了主要障礙。ParamsQueryParamsParamExtractorUtterance>UserAppsAgentTemplateUserAppsAgentMatchQueryMatchIntentDB62.2.2監(jiān)督學習方法為了解決基于模板的IPA方法的局限性,研究人員正在積極研究自動化方法,以增強UI理解和自動化。監(jiān)督學習通過訓練模型,根據(jù)任務輸入和當前狀態(tài)預測后續(xù)操作和狀態(tài),為任務自動化提供了一種直接的方法。主要研究問題包括如何學習軟件GUI的表示以及如何訓練交互模型。Humanoid[?]中引入了從人類交互痕跡中學習交互模型的想法,旨在根據(jù)GUI布局信息生成類似人類的測試輸入。Seq2act[?]首先關注移動UI任務自動化領域,其中自然語言指令需要映射到可以直接執(zhí)行的一系列操作。該框架將問題分解為動作短語提取部分和接地部分,兩者都使用Transformer[?]網(wǎng)絡。受到NLP中預訓練成功的啟發(fā),ActionBert[?]使用自監(jiān)督預訓練來增強模型對UI的理解。具體來說,為了捕獲UI切換操作的語義信息,該模型旨在將一對UI作為UI和單個組件的輸入和輸出嵌入。為了更好地兼容移動設備上的受限資源,提出了多功能UI轉(zhuǎn)換器(VUT)[?],用于在單個小型模型中學習不同的UI接地任務。它處理圖像、結(jié)構和基于文本的數(shù)據(jù)類型,使用3個任務頭支持同時執(zhí)行5個不同的任務,包括UI對象檢測、自然語言命令接地、小部件字幕、屏幕摘要和UI可點擊性預測。基于不同模態(tài)組件之間的自對齊特征,UIBert[?]提出了一個精心設計的聯(lián)合圖像文本模型,以利用對應關系,從未標記的數(shù)據(jù)中學習上下文UI嵌入。為了解決缺少UI元數(shù)據(jù)(如DOM樹和視圖層次結(jié)構)的問題,SpotLight[?]引入了一種僅視覺的移動UI理解方法,方法是將屏幕截圖和感興趣區(qū)域(“焦點”)作為輸入。它由視覺編碼器和語言解碼器組成,可以根據(jù)提供的屏幕截圖和提示完成任務。此外,Lexi[?]被提議利用基于文本的說明手冊和用戶指南來策劃多模態(tài)數(shù)據(jù)集。通過將文本和視覺特征融合為協(xié)同注意力轉(zhuǎn)換器層的輸入,該模型經(jīng)過預訓練,以在基于文本的指令和UI屏幕截圖之間形成連接。UINav[?]利用裁判模型來評估代理的表現(xiàn),并立即將反饋通知用戶。它還采用了演示增強來增加數(shù)據(jù)多樣性。與基于模板的方法相比,監(jiān)督學習方法在經(jīng)過充分訓練后有可能推廣到看不見的任務。但是,訓練模型通常需要大量高質(zhì)量的人工注釋數(shù)據(jù)。鑒于現(xiàn)實世界中任務和應用程序的多樣性,獲取涵蓋不同用例的訓練數(shù)據(jù)具有挑戰(zhàn)性。2.2.3強化學習方法與需要大量訓練樣本的基于監(jiān)督學習的任務自動化方法不同,基于強化學習(RL)的方法允許智能體通過與目標接口的持續(xù)交互來獲得任務自動化的能力。在交互過程中,智能體會獲得獎勵的反饋,這些反饋表明任務完成進度,并逐漸學習如何通過最大化獎勵回報來自動化任務。要訓練基于RL的任務自動化代理,需要一個獎勵函數(shù)來指示任務完成進度。WorldofBits(WoB)[?]被提議作為代理使用鍵盤和鼠標在Web上完成任務的通用平臺。該平臺帶有一個名為“MiniWoB”的基準測試,其中包含一組自行創(chuàng)建的玩具網(wǎng)站上的任務,并帶有預定義的獎勵。Glider[?]根據(jù)任務描述和UI動作序列之間的語義相似性,以及動作序列的局部性和方向性,定義真實世界網(wǎng)站的獎勵函數(shù)?;赗L的任務自動化的另一個挑戰(zhàn)是巨大的操作空間和稀疏的獎勵。典型的基于GUI的任務通常涉及510步驟,每個步驟包含10100候選操作,導致搜索空間大小為10510010。僅當執(zhí)行正確的操作順序時,任務才會完成。為了應對這一挑戰(zhàn),已經(jīng)提出了許多框架。?]介紹了使用高級“工作流”來約束每個時間步的允許操作的方法。這些工作流程可以剔除不良的探索方向,從而加快智能體發(fā)現(xiàn)獎勵的能力。?]將復雜的指令分解為多個較小的指令,并為代理安排課程,以逐步設學習框架來生成指令跟蹤任務。?]將a和模式選擇。此外,該文還設計了一個因式分解的Q值函數(shù),假設DOM選擇和標記選擇是獨立的。Glider[?]通過分層策略實現(xiàn)其減少操作空間的目標,該策略包含處理整體導航的主策略和處理特定小部件的子策略。?]提出了直接使用鼠標和鍵盤來完成任務的框架,而不是依賴于專門的動作空間,這簡化了由實際人機交互告知的行為先驗的使用。與監(jiān)督學習方法類似,基于RL的方法也存在泛化能力較差的問題。為了實現(xiàn)靈活而強大的任務自動化,RL智能體需要對大量任務進行訓練,每個任務都需要精心設計的獎勵函數(shù)。為大量不同的任務定義獎勵函數(shù)可能很困難。2.2.4早期采用基礎模型近年來,以大型語言模型(LLMs)為代表的預訓練大型基金模型發(fā)展迅速,為個人助理帶來了新的機遇。語言模型的縮放定律[?]揭示了增加模型參數(shù)以提高模型性能的重要性,其次是一堆具有數(shù)十億個參數(shù)的模型。LLM通常以無監(jiān)督的方式使用大規(guī)模開放域文本數(shù)據(jù)進行訓練,然后進行指令微調(diào)[?]和基于人類反饋的強化學習(RLHF)[??],以提高性能和對齊。OpenAI于2022年底推出的ChatGPT[?]是LLM的一個里程碑,展示了驚人的問答能力。通過將簡單的任務描述作為輸入提示輸入到LLM中,可以輕松自定義LLM的任務和響應。此外,這些模型在各種語言理解和推理任務中也表現(xiàn)出強大的泛化能力。ChatGPT本身可以被視為一個智能個人助理,通過在文本回復中返回信息來幫助用戶。7受到LLM能力的啟發(fā),研究人員試圖讓LLM自主使用工具[?]來完成復雜的任務。例如,控制瀏覽器[??]進行信息檢索和匯總,調(diào)用機器人編程接口進行機器人行為控制[???],以及調(diào)用代碼解釋器進行復雜的數(shù)據(jù)處理[????]等。將這些功能集成到智能個人助理中是一個自然的想法,從而實現(xiàn)更智能的方式來操作個人數(shù)據(jù)、個人設備和個性化服務。已經(jīng)有一些商業(yè)產(chǎn)品試圖將LLM與IPA集成在一起。例如,Microsoft的Copilot系統(tǒng)[?]集成了GPT-4[?]的功能,幫助Windows用戶自動起草文檔、創(chuàng)建演示文稿、總結(jié)電子郵件,從而提高用戶的工作效率。新的必應[?]還改善了上網(wǎng)的體驗,提供了一個強大而高效的搜索引擎,可以更好地了解用戶的需求。同樣,谷歌已將LLM(Bard[?]、Gemini[?])集成到搜索引擎中,以實現(xiàn)更方便的網(wǎng)絡搜索體驗。華為、小米、OPPO、Vivo等智能手機公司也將大型機型(PanGu[?]、MiLM[?]等)集成到其設備上的IPA產(chǎn)品中。值得注意的是,其中一些采用了基于本地部署的輕量級LLM的解決方案。到目前為止,這些商業(yè)產(chǎn)品中的大多數(shù)只是將LLM的聊天界面簡單地集成到個人助理中。關于更深層次的功能集成的研究將在??部分討論。盡管顯示出巨大的潛力,但該研究方向目前仍處于早期探索階段。距離真正理解和幫助用戶使用智能代理的最終目標還有很長的路要走。更重要的是,許多與效率、安全和隱私相關的問題尚未得到充分解決。本文的后續(xù)部分將系統(tǒng)地總結(jié)和討論這方面的關鍵問題。3PersonalLLMAgents:定義&見解見證了基于法學碩士的智能個人助理的巨大潛力以及學術界和工業(yè)界的廣泛興趣,我們邁出了系統(tǒng)討論與該方向相關的機遇、挑戰(zhàn)和技術的第一步。我們將PersonalLLMAgents定義為一種特殊類型的基于LLM的代理,它與個人數(shù)據(jù)、個人設備和個人服務深度集成。個人LLM代理的主要目的是協(xié)助最終用戶,幫助他們減少重復和繁瑣的工作,并更多地關注有趣和重要的事務。按照這個定義,通用的自動化方法(提示、計劃、自我反思等)類似于普通的基于LLM的智能體。我們專注于與“個人”部分相關的方面,例如個人數(shù)據(jù)的管理、智能手機應用程序的使用、部署到資源受限的個人設備等。我們設想PersonalLLMAgents將成為LLM時代個人設備的主要軟件范式。然而,PersonalLLMAgents的軟件堆棧和生態(tài)系統(tǒng)仍處于非常早期的階段。與系統(tǒng)設計和實現(xiàn)相關的許多重要問題尚不清楚。因此,我們試圖根據(jù)從領域?qū)<夷抢锸占囊娊鈦斫鉀Q一些問題。具體而言,我們邀請了25位專家,他們是來自8家領先公司的首席架構師、董事總經(jīng)理或高級工程師/研究人員,這些公司正在開發(fā)IPA相關產(chǎn)品,包括智能手機個人助理、智能家居解決方案和智能座艙系統(tǒng)。我們和他們聊了聊PersonalLLMAgents話題,問了他們幾個常見問題,從應用場景到部署挑戰(zhàn)。根據(jù)我們的討論和收集到的答案,我們將見解總結(jié)為三個小節(jié),包括PersonalLLMAgents的關鍵組成部分、智力水平的分類法以及關于常見問題的專家意見。3.1關鍵組件基于我們對PersonalLLMAgents所需功能的討論,我們首先總結(jié)了支持此類功能的主要組件,如圖??所之為LLM它連接了所有其他組件。首先,LLM是支持為用戶服務的不同技能的基礎,包括根據(jù)用戶請求直接執(zhí)行任務的響應技能(如問答、天氣檢查、事件調(diào)度等)和在沒有明確用戶命令的情況下提供服務的主動技能(如生活記錄、管理用戶注意力、活動推薦等)。其次,為了支持這些技能,法學碩士管理各種本地資源,包括移動應用程序、傳感器和物聯(lián)網(wǎng)設備。例如,代理可以通過與智能手機天氣應用程序交互來完成天氣檢查。同時,許多人都提到了PersonalLLMAgents提供個性化和情境感知服務的重要性。因此,LLM應該維護有關用戶的信息,包括當前用戶上下文(狀態(tài)、活動、位置等)和歷史用戶記憶(個人資料、日志、個性等)。為了專用管理系統(tǒng)(如矢量數(shù)據(jù)庫)與LLM結(jié)合使用。這些關鍵組件的組合類似于操作系統(tǒng)[?],其中:1.基礎模型類似于傳統(tǒng)操作系統(tǒng)中的內(nèi)核。它用于系統(tǒng)化管理和調(diào)度各種資源,從而促進代理的功能。2.本地資源層類似于傳統(tǒng)操作系統(tǒng)中的驅(qū)動程序。在傳統(tǒng)操作系統(tǒng)中,每個驅(qū)動程序管理一組專用的硬件。在PersonalLLMAgents中,每個本地資源組件都管理一種工具,并提供API供LLM使用。3.用戶上下文和用戶內(nèi)存對應于在系統(tǒng)操作期間維護的程序上下文和系統(tǒng)日志。這些組件構成了座席支持個性化服務的基礎。4.頂層的技能類似于傳統(tǒng)操作系統(tǒng)中的軟件應用,與應用的安裝和刪除類似,也應該允許智能體的技能靈活地啟用或禁用。8L1:SimpleStepFollowingL3:StratigicTaskAutomationL1:SimpleStepFollowingL3:StratigicTaskAutomationL4:Memory&ContextAwarenessL2:DeterministicTaskAutomationFigure4:個人LLM代理的主要組成部分。3.2個人LLM代理的智力水平PersonalLLMAgents所需的功能需要不同類型的功能。受自動駕駛六個層次的啟發(fā),我們將PersonalLLMAgents的智能等級分為五個等級,分別表示為L1至L5,如圖??所示。各級別的主要特點和代表性用例列由用戶負責。例如,當用戶發(fā)出命令時,代理會按照開發(fā)人員定義或用戶給出的顯式步驟來完成任務。L1智能體沒有任何感知或規(guī)劃能力。大多數(shù)基于模板的IPA產(chǎn)品都屬于這一類。隨著情報水平的提高,特工逐漸承擔了更多的職責。在第2級,支持的任務仍然是確定性的(i.e.,涉及要完成的固定操作序列但不再明確給出執(zhí)行每個任務的詳細步驟。代理必須根據(jù)用戶的任務描述自動完成必要的步驟。例如,給定用戶查詢”HowistheweatherofBeijingtoday’’,代理調(diào)用以Beijing”作為參數(shù)的天氣API,并從響應中檢索天氣信息。與第2級的確定性任務不同,第3級的代理可以完成更復雜的任務,這些任務需要戰(zhàn)略規(guī)劃和自我反思。例如,命令”TellAliceaboutmyschedulefortomorrow”需要代理確定如何收集日程安排信息(e.g.,使用用戶的日歷和聊天記錄)以及如何通知Alice這些信息(e.g.,DutyCreativity&EmotionReflectionStepFormulationStepExecutionFigure5:不同情報級別Personal9tionL4-MemoryL5-Digital總結(jié)日歷事件并通過Messenger應用程序發(fā)送)。在這些任務中,智能體根據(jù)中間反饋自主迭代地生成并執(zhí)行執(zhí)行計劃,直到完成任務。L1-L3的Agent在用戶的命令驅(qū)動下被動工作,而4級Agent可以理解用戶的歷史數(shù)據(jù),感知當前情況,并在適當?shù)臅r候主動提供個性化服務。注于創(chuàng)造力和情感。代理不僅可以感知當前狀態(tài),還可以預測用戶的未來活動并采取行動來促進他們。除了體應該能夠通過自我進化不斷提高自己。3.3關于常見問題的意見接下來,我們報告了專家對幾個常見問題的意見的匯總結(jié)果。這些問題包括設計選擇和部署PersonalLLMAgents的潛在挑戰(zhàn),如表??中總結(jié)的那樣。我們分析了問題的答案,并總結(jié)了以下主要要點。、ChatGPT)并不是一個被廣泛接受的解決方案。如圖??所示,88個%的參與者更喜歡邊緣云協(xié)作架構,其中58.33個%支持本地部署,81.82個%對現(xiàn)有的純云解決方案不滿意。他們主要關注的是1)遠程LLM服務的高延遲,2)將個人數(shù)據(jù)傳輸?shù)皆贫说碾[私問題,以及3)基于云的LLM服務的巨大成本。意見2(如何自定義代理將微調(diào)和上下文學習相結(jié)合是實現(xiàn)自定義的最可接受的方法。在PersonalLLMAgents中,為不同的用戶和場景自定義代理被認為是必要的。圖??顯示,66.67%的參與者支持結(jié)合微調(diào)88%58.33%81.25%12%0%16.67%18.18%0%88%58.33%81.25%12%0%16.67%18.18%0%82%Table2:我們向領域?qū)<姨岢龅某R妴栴}。在問題1到6中,我們給出了幾個常見的選項供專家選擇/優(yōu)先排序,同時也允許專家給出自由形式的答案。在問題7和8中,專家們被要求用文字回答。Rank1stRank2ndRank3rd9060300local-remotelocal-onlyremote-onlycollaborationFigure6:PersonalLLMAgents中不同LLM部署策略的投票分布。Rank1stRank2ndRank3rd906030066.67%43.75%31.25%25%14.29%40%40%19.05%66.67%43.75%31.25%25%14.29%40%40%19.05%20%fine-tune&fine-tunein-contextin-contextlearningonlylearningonlyFigure7:PersonalLLMAgents不同模型定制方式的投票分布。和上下文學習的優(yōu)勢來實現(xiàn)個性化(L4智能)。43.75%認為L4可以通過情境學習來實現(xiàn);一個可能的原因是我們的參與者來自行業(yè),因此他們更關注特定垂直領域的法在問題3-5中,我們要求參與者對選項進行排名,下表(表??-??)總結(jié)了他們的排名。第1-4名表示參與者投票選出的這些選項的排名;例如,表??中的72個%表示72個%參與者將文本列為他們的首選模態(tài)。每個表格中的“分數(shù)”是根據(jù)BordaCount[?]計算的,其中每個候選人獲得的分數(shù)等于他們在每次投票中排名超過的候選人人數(shù)的平均值,排名最低的人獲得2,排名最高的n+1分,其中n是候選人總數(shù)。例如,表??中的4.56等于5×72%+4×20%+3×0+2×8%。意見3(使用什么模態(tài)):多模態(tài)LLM,尤其是文本和視覺模態(tài),是PersonalLLMAgents.在我們的統(tǒng)計結(jié)果中,文本是最受歡迎的模態(tài),就像最流行的LLM一樣(e.g.,GPT系列和LLaMA系列)。排名第二的圖像選項和20名%參與者特別提到的視頻模態(tài)表明,視覺模態(tài)在個人LLM代理的未來中發(fā)揮著有希望的作用。意見4(LLM能力對IPA產(chǎn)品最關鍵):語言理解被認為是LLM最重要的能力,而處理長上下文的能力被認為是最不重要的能力。相反,在學術界,處理長上下文的能力被認為非常重要,并被廣泛研觀點源于我們的參與者所假設的特定垂直領域LLM和學術研究人員的通用LLM。在垂直域LLM中,來自用戶的查詢和任務不是很多樣化,因此長上下文的能力并不那么重要。Table4:法學碩士能力對IPA產(chǎn)品的重要性排名。3意見5(如何與座席互動):基于語音的互動是最流行的方式。不出所料,就像現(xiàn)有的虛擬助手Siri一樣,模仿人類的交流方式——語音交互是最常見、最有效的選擇?;谖谋镜牧奶鞕C器人和GUI排名第二和第三,因為大多數(shù)參與的專家都專注于移動設備,e.g.,智能手機。虛擬現(xiàn)實僅獲得所有問題中最低的1.52分數(shù);這可能源于VR設備的高昂價格以及當前VR技術的用戶體驗不滿意。GUIVirtualreality觀點6(需要培養(yǎng)哪種智能體能力在未來PersonalLLMAgents的發(fā)展中,“更智能、更自主的決策能力”被認為是我們參與者最關鍵的特征;幾乎一半的參與者(47.83%)將其排在第一位?!坝脩趔w驗和交互方法的持續(xù)改進”和“個人數(shù)據(jù)的安全處理”選項也備受關注,分別以36.36個%和33.33個%并列第二。盡管“與物聯(lián)網(wǎng)設備的集成”排在最后,但47.63%的參與者仍然認為它作為PersonalLLMAgents的基礎設施很重要。意見7(理想的IPA需要哪些功能):根據(jù)參與者的回答,我們總結(jié)了理想藥物的以下六個關鍵特征:?高效的數(shù)據(jù)管理和搜索:代理充當外部大腦,通過高效的數(shù)據(jù)存儲來記住用戶的數(shù)據(jù)。它為用戶提供了快速檢索和精確搜索功能。?工作和生活協(xié)助:當用戶詢問技術細節(jié)時,座席在工作中充當副駕駛。它還可以執(zhí)行重復和繁重的任務,并為用戶提供文檔和內(nèi)容生成。?個性化服務與推薦:根據(jù)用戶習慣,坐席可以發(fā)現(xiàn)用戶的潛在需求,進而主動為用戶提供服務。它可以作為個人和家庭健康經(jīng)理、醫(yī)療服務員、購物比較協(xié)助、旅行協(xié)助等。?自主任務規(guī)劃與完成:智能體可以理解用戶的意圖,分解用戶提出的任務并自動一步一步地執(zhí)行(在自主思維鏈功能中進一步并幫助用戶完成需要手動完成的步驟,并有明確的指令。?情感支持和社交互動:智能體可以通過聊天來理解并幫助用戶調(diào)整情緒。它還可以了解用戶與不同人的關系,并幫助他們用用戶的聲音寫出響應草稿。?數(shù)字代表及其他:代理可以代表用戶參加會議、駕駛汽車、上班和執(zhí)行任何授權任務。它能真正理解用戶,并在當前用戶本身與他人進行交流和社交。意見8(最緊迫的技術挑戰(zhàn)是什么根據(jù)與會者的回答,最緊迫的挑戰(zhàn)和技術問題分為以下幾類:?情報。1)MultimodalSupport:LLM需要理解和處理不同的數(shù)據(jù)類型(e.g.,文本、圖像和視頻因此應LLM必須準確理解用戶需求,并生成相應的控制指令。這需要LLM的上下文理解能力以及將上下文轉(zhuǎn)化為有效行動的能力。3)EnhancingDomain-speci?cAbilitiesofLightweightLLM:資源有限的個人設備上的LLM由于其大小和復雜性的限制,在復雜任務或理解深層上下文含義方面可能表現(xiàn)不佳。因此,如何提升輕量級模型的能力,處理特定領域的復雜任務是人們普遍關注的問題。?性能。1)EffectiveLLMCompressionorCompactArchitecture:在資源有限的移動設備上運行LLM需要平衡任務完成的性能和質(zhì)量。關注LLM特征的高效模型壓縮技術以保持高質(zhì)量的任務完成是可取的。2)PracticalLocal-RemoteCollaborativeArchitecture:LLM的本地-遠程協(xié)同架構具有廣闊的前景,既要繼承本地模型的快速/低成本響應能力,又要繼承云模型的高質(zhì)量生成能力。然而,如何實現(xiàn)準確、高效的協(xié)作被廣泛認為是一個重要的挑戰(zhàn)。?安全&隱私。1)DataSecurityandPrivacyProtection:在使用個人數(shù)據(jù)訓練和執(zhí)行LLM時,確保個人數(shù)據(jù)的安全和用戶隱私的保護至關重要。這就迫切需要開發(fā)新的數(shù)據(jù)匿名化技術和隱私保護協(xié)議。2)InferenceAccuracyandHarmlessness:確保模型輸出對用戶精確無害,尤其是在決策或敏感場景下。?個性化&存儲。個性化需要高效的數(shù)據(jù)存儲解決方案來管理和利用與用戶相關的數(shù)據(jù),包括他們的偏好、歷史行為和交互。?傳統(tǒng)操作系統(tǒng)支持。對于基于移動的LLM代理,一個關鍵要求是LLM友好的界面和對Android等傳統(tǒng)操作系統(tǒng)的支持。這可能涉及操作系統(tǒng)級別的更新和應用程序編程接口(API)的開發(fā),以便更好地集成和利用LLM的功能。在領域?qū)<覍氋F意見的激勵下,以下部分將更詳細地討論所需的功能和潛在挑戰(zhàn)。4基本能力我們首先討論PersonalLLMAgents支持各種功能所需的功能。排除普通LLM代理的一般能力,我們專注于個人助理的三個基本能力,包括任務執(zhí)行、上下文感知和記憶。任務執(zhí)行(§??)是將用戶的命令或主動感知的任務轉(zhuǎn)化為對個人資源的操作。情境感知(§??)的目的是感知用戶和環(huán)境的當前狀態(tài),為任務執(zhí)行提供全面的信息。記憶(§??)是記錄用戶數(shù)據(jù),使智能體能夠回憶過去的事件,總結(jié)知識并自我進化。上下文感知和記憶是與查詢用戶信息相關的能力,而任務執(zhí)行是指向用戶提供服務的能力。圖??描述了這些基本功能之間的關系。以下各節(jié)將詳細討論這些功能。4.1任務執(zhí)行任務執(zhí)行是PersonalLLMAgent的基本能力,使其能夠響應用戶請求并執(zhí)行指定的任務。在我們的場景中,代理旨在與各種個人設備(如智能手機、計算機和物聯(lián)網(wǎng)設備)進行交互和控制,以自動執(zhí)行用戶的命令。任務執(zhí)行的一個基本要求是代理能夠準確解釋用戶傳達的任務。通常,任務可能來自用戶的口頭或書面指令,智能代理從中辨別用戶的意圖。隨著語音識別技術的成熟,將語音信息轉(zhuǎn)換為文本變得非常方便[??]。PersonalLLMAgents應該在將用戶的命令轉(zhuǎn)換為文本后自動制定計劃并采取行動。雖然規(guī)劃對傳統(tǒng)的DNN提出了挑戰(zhàn),但基于LLM的代理在這方面表現(xiàn)出更高的熟練程度。LLM智能體的計劃和推理能力在之前的調(diào)查中已經(jīng)討論過[???]。我們的論文主要關注個人數(shù)據(jù)的操作以及與個人設備的交互。一個重要的考慮因素是,PersonalLLMAgents可能需要與可能缺乏全面API支持探索了用戶界面(UI)作為個人代理的重要工具,以便在存在API限制的情況下實現(xiàn)有效交互。4.1.1任務自動化方法根據(jù)交互模式的類型,任務執(zhí)行的方法可以分為基于代碼的方法和基于UI的方法。在基于代碼的場景中,代理主要通過自動生成代碼來調(diào)用API來完成任務。在基于UI的方案中,代理通過自動模擬人與UI界面的交互來與個人設備進行交互?;诖a的任務自動化通常涉及生成適當?shù)拇a來與API、數(shù)據(jù)庫和DNN模型進行交互。傳統(tǒng)的基于代碼的個人助理通常基于基于插槽填充的面向任務的對話(TOD)框架。在LLM時代,越來越多的研究者試圖直接使用LLM直接生成調(diào)用API的代碼,以完成更復雜的任務。?槽填充方法常用于面向任務的對話系統(tǒng)(TOD)或聊天機器人,這是一種對話式AI,旨在通過對話[??]幫助用戶完成特定任務。在面向任務的對話系統(tǒng)中,“插槽”是完成任務所需的預定義信息類別。例如,在旅行預訂應用程序中,插槽可能包括目的地、旅行日期、乘客人數(shù)等。在會話過程中,系統(tǒng)會提示用戶輸入此信息,并調(diào)用相應的API來完成任務。對于移動設備,許多方法都側(cè)重于通過允許用戶演示所需的任務來促進任務自動化,這些任務可以通過對話界面執(zhí)行[????].這些方法通常假定可以將用戶的任務定義為槽值對的集合。這種假設允許精確管理與可控單元的對話,并且執(zhí)行任務是不斷提示用戶輸入尚未識別的插槽的值。但是,這些方法不考慮一個插槽有多個值或插槽之間存在關系的復雜情況[?]。此外,它們嚴重依賴定義良好的API,并且缺乏對看不見的領域的適應性。最近的研究論文利用LLM的理解和推理能力,[????]完成更復雜和多轉(zhuǎn)彎的TOD任務,并提高Slot填充方法的效率。?程序合成方法是利用LLM的代碼生成能力與API進行交互。一種方法是微調(diào)LLM以使用特定的最近的一些工作[????]微調(diào)LLM以檢索和調(diào)用API,從而提高它們在數(shù)學推理和程序合成等各種任務中的性能。另一種方法是利用LLM的鏈式推理[???]和上下文學習能力[?]。它們在上下文中顯示工具(例如API、其他DNN等)的描述和演示,并詢問LLM如何使用它們來完成任務[?????]。但是,微調(diào)LLM的成本可能很高,并且僅限于預定義的工具集,并且當API數(shù)量較多時,上下文學習可能會失敗。因此,ToolkenGPT[?]的作者試圖通過將每個工具(API)表示為令牌來解決這個問題?;诖a的方法可以完成從網(wǎng)絡搜索到圖像生成的數(shù)千項任務。但是,出于安全考慮或商業(yè)利益,并非所有需要的API都可供實際應用中的代理開發(fā)人員使用。此外,有些任務對于人類用戶來說很容易執(zhí)行,但對于調(diào)用系統(tǒng)API來說卻很困難[?]。僅依賴公開可用的API可能無法完全滿足移動任務自動化的高度多樣化基于UI的任務自動化。自治UI代理嘗試將用戶的任務轉(zhuǎn)換為智能手機或其他個人設備上的UI操作,通過直接的UI交互自動執(zhí)行這些任務。與基于代碼的任務執(zhí)行相比,自治UI代理不依賴于公開可用的API,從而可能實現(xiàn)更通用的自動化功能。然而,對于傳統(tǒng)的DNN模型來說,通過UI操作執(zhí)行用戶的任務并不容易,因為任務和UI元素之間存在隱式關系。最近,研究人員利用LLM的理解和推理能力來提高自主UI代理的性能。UI代理的輸入是用自然語言描述的任務,是當前UI的表示,輸出是要在UI上執(zhí)行的UI操作。根據(jù)它們?nèi)绾伪硎綰I,我們可以將自主UI代理分為基于文本的GUI表示和多模式GUI表示。?基于文本的GUI表示是將UI轉(zhuǎn)換為純文本。Seq2act[?]使用基于transformer的模型[?]將用戶對<操作、對象、參數(shù)>元組中描述的UI操作的指令接地。研究人員還研究了使用移動UI進行提示以完成UI指令映射任務[?]。作者將移動UI轉(zhuǎn)換為HTML代碼,這對于LLM來說很容易理解,因為他們的訓練數(shù)據(jù)的重要部分是從Github中抓取的。DroidBot-GPT[?]是一個基于LLM的系統(tǒng),用于在一系列UI操作中完成用戶的任務。Mind2Web[?]過濾具有較小LM的網(wǎng)頁的原始HTML,并使用LLM選擇目標元素和動作。AutoDroid[?]使用應用分析工具來獲取特定于應用領域的知識,并使用它來增強LLM以實現(xiàn)任務自動化。在AXNav[?]中,作者使用LLM和基于像素的UI理解構建了一個系統(tǒng)來執(zhí)行手動可訪問性測試。MemoDroid[?]引入了一個基于LLM的移動任務自動化器,可以將任務分解成更小的子任務,并通過回憶以前的動作來完成它們。?多模態(tài)表示是將UI的圖像(和文本)描述作為PersonalLLMAgents的輸入。META-GUI[?]提出了一種基于UI的面向任務對話(TOD)系統(tǒng)的方法。ResponsibleTA[?]提出了一個基本的多模態(tài)框架,使LLM能夠在自主完成用戶任務時預測可行性、驗證完整性并確保安全性。Auto-UI[?]提出了一個直接與界面交互的多模態(tài)框架,并引入了一種行動鏈技術來幫助代理做出決策。RUIG[?]構建了多模態(tài)模型,將指令映射到UI截圖,MM-Navigator[?]使用GPT4-V進行UI導航任務。UINav[?]引入了基于任務演示的輕量級任務自動化系統(tǒng),輸入模態(tài)可以在原始像素視圖層次結(jié)構之間動態(tài)切換。CogAgent[?]引入了一個具有180億個參數(shù)的可視化語言模型,用于完成UI理解和導航雖然與基于API的自動化相比,基于UI的任務自動化有可能實現(xiàn)更靈活的個人代理框架,但其研究仍處于早期階段。完成更復雜的用戶命令仍然具有挑戰(zhàn)性。此外,隱私和安全問題尚未得到充分解決[??]。關于UI表示也仍然存在爭議。雖然多模態(tài)表示可以處理無法通過輔助功能服務解析的元素,但它受到屏幕錄制的繁重需求和當前視覺語言模型有限的推理能力的困擾[?]。4.1.2自治代理框架LLM驅(qū)動的自主代理由一個用于制定計劃和自我反思的LLM大腦、一個用于存儲過去信息和知識的內(nèi)存以及一個用于與工具(例如API、UI、編程語言)[??]交互的工具使用模塊組成。有很多流行的項目為用戶提供了框架來創(chuàng)建LLM驅(qū)動的代理[?????????]。他們試圖通過與其他外部工具交互和檢索長期/短期記憶來增強LLM的能力。Auto-GPT[?]是最著名的框架之一,它可以通過生成GPT提示和使用外部工具來執(zhí)行用戶的命令。LangChain[?]是另一個流行的框架,可幫助開發(fā)人員使用LLM創(chuàng)建更復雜和上下文感知的應用程序。由于能夠理解和生成自然語言,LLM驅(qū)動的代理也可以毫不費力地相互協(xié)作,從而營造一個環(huán)境,讓多個代理之間的協(xié)作和競爭可以[????]蓬勃發(fā)展。這些自治代理框架在工程上做出了重大貢獻,為LLM驅(qū)動的應用程序提供了一個更加用戶友好的框架。對于移動設備,AutoDroid[?]為開發(fā)移動代理提供了一個有效的框架。開發(fā)人員可以使用測試輸入生成器探索應用或手動演示,從而輕松創(chuàng)建用于移動任務的自動化程序。然后,AutoDroid會自動分析這些記錄,并利用它們來改進語言學習模型(LLM以實現(xiàn)更高效的任務自動化。?]開發(fā)一種新方法,從用戶與智能手機的交互跟蹤中有效地提取宏(應用程序中用戶活動的基本單位,例如“登錄”或“呼叫聯(lián)系人”)。這些宏可以幫助代理自動完成任務。4.1.3評估評估任務執(zhí)行的性能是一個具有挑戰(zhàn)性的問題。對于基于API的任務執(zhí)行,以前的調(diào)查提供了有關如何評估它們的全面總結(jié)[??]。本文主要關注基于UI的任務自動化的評估。指標:基于UI的任務執(zhí)行指標是完成率[???]和人工設計的獎勵[??]。完成率是模型預測的所有操作與基本事實完全一致的概率。但是,由于可能有不同的方法來完成任務,并且基本實況通常僅表示其中一種方法,因此這種方法評估的準確性并不完全正確[?]。基于關鍵步驟手動設計獎勵可能更精確[?],但由于復雜的注釋過程,它們的可擴展性較差。Table6:UI任務自動化基準測試。結(jié)構化UI表單分別是Android和Web的視圖層次結(jié)構(VH)和文檔對象模型(DOM)。對于Windows,元數(shù)據(jù)源于操作系統(tǒng)中的文本元數(shù)據(jù)。UIHigh-levelUIBert[?]RicoSCA[?]PixelHelp[?]MoTiF[?]META-GUI[?]UGIF[?]AITW[?]AndroidAndroidAndroidAndroidAndroidAndroidN/A77733333337777777773MninWoB++[??]AndroidEnv[?]MobileEnv[?]AssistGUI[?]AndroidAndroidN/AN/A733333333333基準:表??列出了基于UI的任務自動化的基準。一組基準測試是靜態(tài)數(shù)據(jù)集,它通常包括一組人工注釋的任務、結(jié)構化的UI數(shù)據(jù)(和屏幕截圖)以及完成任務的操作。某些任務是綜合生成的[???]。早期作品主要集中在低級任務上,有明確的指令[??],例如點擊“設置”按鈕,然后點擊“字體大小”。后來的作品引入了可以通過多個步驟完成的高級任務[??????]例如,刪除我的日歷中的所有事件。另一組基準是以通過單擊、鍵入、關閉頁面等方式在Web上導航和操作。AndroidEnv[?]和MobileEnv[?]提供了一個動態(tài)環(huán)境,代理可以在其中與任何基于Android的應用程序和核心操作系統(tǒng)進行交互。該框架允許在多樣化的Android平臺中實現(xiàn)廣泛的交互和任務解決功能。1.如何準確有效地評估智能體在實際場景中的性能。由于通常有多種方法可以完成相同的任務,因此使用靜態(tài)數(shù)據(jù)集來衡量任務執(zhí)行的準確性是不準確的。同時,在模擬環(huán)境中動態(tài)測試任務可能效率低下且難以重現(xiàn)。2.如何穩(wěn)健地確定任務是否已完成。LLM在任務執(zhí)行過程中經(jīng)常會出現(xiàn)幻覺,難以判斷當前任務是否已經(jīng)完成。3.關于UI代理,表示軟件UI的最佳方式是什么?基于視覺的表示(例如屏幕截圖)通??捎?,而基于文本的表示通常更輕量級,對LLM代理操作更友好。4.2情境感知情境感知是指智能體感知用戶或環(huán)境的狀態(tài),以提供更加定制化的服務的過程。在這項工作中,我們采用了上下文感知的廣泛定義,將通用信息收集過程視為一種感知形式?;谟布膫鞲信c傳統(tǒng)的傳感概念一致,主要涉及通過各種傳感器、可穿戴設備、邊緣設備和其他數(shù)據(jù)源進行數(shù)據(jù)采集。另一方面,基于軟件的傳感強調(diào)多種數(shù)據(jù)采集方式。例如,分析用戶的打字習慣和常用短語構成了一種基于軟件的感知形式。在PersonalLLMAgents中,情境感知能力有多種用途。1.啟用感知任務:某些任務本質(zhì)上需要代理進行感知。例如,當用戶要求代理在睡眠期間檢測打鼾時,代理必須具備主動獲取、處理和分析音頻數(shù)據(jù)的能力。2.補充上下文信息:感知到的信息可以促進模棱兩可或復雜任務的執(zhí)行。例如,道用戶的當前活動以推薦合適的音樂。3.觸發(fā)情境感知服務:感知能力也是提供主理可能會注意到用戶將注意力集中在檢測危險駕駛行為上。4.增強智能體記憶:通過感知感知到的一些信息可以成為智能體記憶的一部分,智能體可以利用這些信息進行進一步的定制和自我進化。我們從兩個角度介紹了情境感知技術,包括感知源和感知目標。4.2.1感應源硬件傳感器?,F(xiàn)代個人設備配備了各種內(nèi)置硬件傳感器,包括加速度計、陀螺儀、磁場傳感器、光傳感器、溫度計[?]、麥克風[?]、GPS模塊、相機[?]等。其他一些模塊,如藍牙和Wi-Fi[?]也可用于傳感目的。隨著智能手表、藍牙耳機[?]和智能家居設備等可穿戴和物聯(lián)網(wǎng)設備的日益普及,[?]的傳感范圍和傳感方式大大擴展。軟件傳感器。與從真實傳感器設備獲取數(shù)據(jù)的硬件感知不同,軟件感知側(cè)重于從現(xiàn)有數(shù)據(jù)中獲取信息,例如應用程序使用[?]、通話記錄[?]、打字習慣[?]等。實際上,軟件傳感的領域非常廣泛。例如,在自然語言處理或音頻領域,存在大量基于文本或語音的傳感研究。此外,在諸如電子商務或短視頻平臺等推薦系統(tǒng)中,該過程通常涉及首先感知某些用戶信息,然后推薦特定的產(chǎn)品或內(nèi)容。這些傳感器使座席能夠更好地了解用戶,使他們能夠提供更智能和個性化的服務。多個傳感器的組合。多傳感器協(xié)同傳感是增強感知能力的有效方法。以前的努力已經(jīng)證明了基于觸摸屏和慣性傳感器[?]對用戶情緒、壓力水平和情緒狀態(tài)的評估,通過屏幕捕獲和傳感器數(shù)據(jù)[?]識別花費的時間,通過耳機麥克風[?]的呼吸檢測,以及通過傳感器和音頻[?]進行細微的運動檢測。多傳感器協(xié)作的意義延伸到智能可穿戴設備和智能家居的激增。例如,使用從個人設備[?](智能手表、筆記本電腦和智能手機)收集的數(shù)據(jù)自動識別用戶何時工作或休息,或者通過耳機和智能手機麥克風的組合進行動作檢測[?]。此外,涉及家用電器融合的技術,例如基于現(xiàn)有有線設備[?]的用戶動作感知、智能家居環(huán)境中的運動識別[?]、基于Wi-Fi的運動檢測[?]、多人檢測[?]和睡眠監(jiān)測[?]。多傳感器、多設備場景需要在數(shù)據(jù)源選擇、數(shù)據(jù)融合和數(shù)據(jù)分析方法方面進行復雜的考慮。現(xiàn)有方法包括LLM驅(qū)動的在人類行為理解[?]中生成多傳感器策略的策略、與情感無關的多傳感器數(shù)據(jù)多任務學習框架[?]、傳感數(shù)據(jù)[?]的跨模態(tài)融合、專注于多傳感器融合[?]的可穿戴設備運動識別,以及數(shù)據(jù)缺失條件下傳感器數(shù)據(jù)的預測焦慮[?]。此外,還有研究分析了數(shù)據(jù)特征在跌倒檢測[?]中的重要性。隨著傳感技術的發(fā)展,多傳感器、多設備協(xié)同傳感已成為感知復雜場景的主要手段。有效地整合各種數(shù)據(jù)源以最大限度地提高準確性,并確定從眾多來源中消除不太重要的數(shù)據(jù)以節(jié)省資源的方法,這些都是重要的研4.2.2檢測目標情境感知的目標可分為環(huán)境感知和用戶感知。環(huán)境感知包括地點、場合、宗教和文化背景、國家和社會背景等因素。同時,用戶感知融合了用戶活動、狀態(tài)、個人信息、人格特質(zhì)、情緒、目標、身體狀況等相關方面感知環(huán)境。我們將環(huán)境感知進一步分為兩個維度:場景感知和場合感知。場景感知主要涉及更具體的環(huán)境因素,例如位置和地點。場合感知深入研究更深層次的環(huán)境信息,包括宗教和文化背景、民族差異和社會關系。?場景感知通常很容易被感知,但具有重要意義,導致行為和重點的變化。對于行為實例,在庫中檢測到用戶會提示代理將電話調(diào)整為靜音模式,而在條形圖中,可能需要增加音量并激活振動。與強調(diào)類似,當用戶在會議室時,座席應更多地關注與會議內(nèi)容記錄和工作組織相關的任務,而在健身房中,重點應轉(zhuǎn)移到健身計劃和心率分析上。以前在場景感知方面的工作采用了各種技術,例如基于位置的[?]方法、音頻或視頻分析[??],以及傳感器功能分析通過智能手機麥克風的氣流等方面來評估通風[?],或者通過分析放置在表面[?]附近時用智能手機相機拍攝的微距照片來實現(xiàn)的場景識別。?場合感知在感知中更加難以捉摸,其影響相對謹慎。早期的研究已經(jīng)確定了不同國家[?]和地區(qū)在行為和情緒識別任務方面的差異[?]。當前用戶和環(huán)境所隱含的民族、種族、宗教和文化背景至關重要。在當前環(huán)境中感知他人和物體同樣重要。例如,以前的工作基于傳感器數(shù)據(jù)檢測社交場景,分析社交焦慮個體在不同社交環(huán)境中的行為[?]。其他研究深入研究了使用多個傳感器分析與飲酒相關的社交場景,甚至預測了飲酒群體的規(guī)模和性別構成[?]。此外,研究還探討了傳感器數(shù)據(jù)、飲食習慣和社交環(huán)境之間的關系,揭示了暴飲暴食與社會環(huán)境之間的密切關聯(lián),使其具有可預測的[?]。用多個傳感器進行基于LLM的環(huán)境理解[?]。環(huán)境感知是個人代理的關鍵上下文信息。不同的環(huán)境導致不同的行為和焦點,超越了單純的地點,涵蓋了社交場合、文化背景和更深層次的概念元素、所有環(huán)境個體和關系、互動以及預測對環(huán)境和用戶的影響。這些考慮因素直接影響個人代理人所表現(xiàn)出的智力水平。感知用戶。用戶意識是PersonalLLMAgents的主要功能之一。對用戶有更深入的了解,才能更好地體現(xiàn)PersonalLLMAgents的價值和意義。我們將用戶感知分為兩個時間維度,包括短期和長期。短期傳感表現(xiàn)出更高的時間變異性和增加的隨機性。另一方面,長期傳感需要長時間的維護和校正,使其相對更加穩(wěn)定和可?短期用戶感知包括各個方面,包括用戶的日常行為[?]或?qū)I(yè)活動(如刷牙效果[?])、用戶狀態(tài)(如工作或休息[??])、用戶健康狀況[???],以及用戶情緒[??]和壓力水平[?]。短期感知通常涉及快速變化和淺層狀態(tài)信息。有效地捕獲此類信息可以顯著增強PersonalLLMAgents的上下文感知。?長期的用戶感知主要集中在對用戶畫像和個性的分析上。已經(jīng)提出了多種方法來了解用戶的工作、學習和日常生活。例如,一項研究利用來自新智能手機的傳感器數(shù)據(jù)來檢測新生[?]長時間的心理狀態(tài)。另一項研究表明,基于感知數(shù)據(jù)預測學習表現(xiàn)和社交活動的能力[?]。?]深入研究了根據(jù)身體活動的強度預測性格的技術。還有研究檢查傳感器數(shù)據(jù)與用戶職業(yè)發(fā)展[?]之間的關系,以及一項預測用戶生活滿意度[?]的研究。此外,用戶的特定狀態(tài)一直是關注的焦點,包括對精神疾病感知的研究[?],例如預測和分析精神分裂癥[?],以及檢測吸煙[?]等習慣的研究。長期感知涉及深層和抽象的信息,包含用戶行為背后的深刻邏輯。這些信息通常更加微妙,使感知和維護具有挑戰(zhàn)性。但是,它們構成了高級個人代理的一個重要方面。在用戶感知領域,也有一些基于LLM的舉措,例如將LLM用于推薦任務[??],使用LLM[?]進行情感分析,以及開發(fā)具有查詢和感知能力的私人醫(yī)生[?]。1.什么是感知信息的統(tǒng)一格式或本體?代理應該能夠?qū)⒏鞣N傳感數(shù)據(jù)轉(zhuǎn)換為這種格式,并方便地將數(shù)據(jù)用于各種下游任務。2.鑒于感知的范圍很廣,智能體如何決定何時感知以及感知什么,以便以最小的開銷提供上下文4.3記憶記憶是指在PersonalLLMAgents中記錄、管理和利用歷史數(shù)據(jù)的能力。此功能使代理能夠跟蹤用戶,從過去的經(jīng)驗中學習,提取有用的知識,并應用這些獲得的知識來進一步提高服務質(zhì)量。相關工作主要旨在回答兩個問題,包括如何獲取內(nèi)存和如何利用內(nèi)存。4.3.1獲取內(nèi)存代理內(nèi)存可以采用多種格式。例如,基本用戶配置文件(e.g.,出生日期、地址、個性、偏好)通常存儲在鍵值對中,以便輕松進行基于鍵的檢索。歷史記錄通常表示為按時間戳索引的序列,這些序列存檔了一段時間內(nèi)的用戶服務訪問、活動、系統(tǒng)事件等。用戶的文檔、照片、視頻等被存儲為文件,這些文件通常由其他應用程序生成。獲取內(nèi)存的方法主要有兩種:直接記錄原始數(shù)據(jù)或從原始數(shù)據(jù)中間接推斷知識。伐木。獲取內(nèi)存的最直接方法是通過日志記錄,例如記錄用戶輸入、系統(tǒng)事件和感知到的上下文。記錄數(shù)據(jù)通常相對簡單。生活記錄是一個經(jīng)常被討論的話題,它專注于跟蹤和記錄通過用戶的活動和行為創(chuàng)建的用戶數(shù)據(jù),有助于全面了解個人的生活方式和偏好[??]。使用攝像機在特定時刻記錄的數(shù)據(jù)提供了對日常活動的更深入概述[?]。此外,長時間記錄數(shù)據(jù)可以提供對行為模式的寶貴見解,這將支持智能代理的個性化[?]。推斷。獲取內(nèi)存的另一種PersonalLLMAgents方法是從原始數(shù)據(jù)中提取知識。隨著機器學習和數(shù)據(jù)分析的進步,推斷用戶行為、模式和交互成為可能,以深入了解他們的心理、偏好和其他高級信息。例如,可以從文本[??]中提取用戶個性,可以從圖像和文本數(shù)據(jù)[??]讀取情感,可以從[?]的歷史交互信息中建模偏好,可以從智能手機推送通知中提取知識圖譜[?]。這些提取的高級信息也將存儲為代理的內(nèi)存,并在服務4.3.2管理和利用內(nèi)存獲取內(nèi)存后,接下來的問題是如何管理和利用內(nèi)存,以提供更好的PersonalLLMAgents服務?;诶脙?nèi)存的目的,我們將相關技術分為以下三個部分,包括原始數(shù)據(jù)管理、內(nèi)存增強LLM推理和智能體自我進化。原始數(shù)據(jù)管理和處理。PersonalLLMAgents的一個基本能力是訪問和處理原始內(nèi)存數(shù)據(jù)(e.g.,選擇、過濾、轉(zhuǎn)換為其他格式等以方便其他高級功能。這一系列的工作主要側(cè)重于實現(xiàn)更自然和人類可理解的數(shù)據(jù)訪問、操作和修改。由于LLM的輸入輸出和推理過程基于自然語言,因此此類接口更容易與大型模型的其他功能集成。在該研究領域,許多努力已經(jīng)探索了使用機器學習模型或基于模板的方法將用戶數(shù)據(jù)請求映射到數(shù)據(jù)庫SQL語句[??]。還有一些框架級別的工作,研究如何統(tǒng)一和簡化數(shù)據(jù)接口。例如,PrivacyStreams[?]將所有個人數(shù)據(jù)訪問和處理接口統(tǒng)一到一個基于流的框架中,這更有利于大型語言模型的理解和管理。內(nèi)存增強LLM推理。為了使PersonalLLMAgents能夠基于用戶相關的內(nèi)存提供定制服務,通常希望在LLM推理過程中利用內(nèi)存數(shù)據(jù)。最近對LLM智能體的研究探索了利用記憶來增強決策和推理[?????],這為PersonalLLMAgents可以通過記憶為用戶提供個性化服務的解決方案提供了靈感。根據(jù)內(nèi)存的類型,這些技術可能會有所不同。?短期記憶以符號變量的形式保存和保留相關信息,確保其在當前決策周期中的可訪問性和適用性。這包括感知輸入、主動知識(通過推理生成或從記憶數(shù)據(jù)中檢索)以及從上一個決策周期中繼承下來的其他核心信息(e.g.,,智能體的主動目標)。CoT[?],Scratchpads[?]鼓勵LLM生成中間推理,使用LLM自己的上下文作為工作記憶的一種形式。CoALA[?]提出,工作記憶應該是長期記憶(LLM)調(diào)用期間的持久數(shù)據(jù)結(jié)構。每個調(diào)用都從工作內(nèi)存的子集(例如,提示模板和相關變量)),用于執(zhí)行相應的操作。此外,短期記憶具有與長期記憶和其他數(shù)據(jù)接互的能力,充當連接語言代理[??]的不同組件的中心樞紐。?長期記憶存儲早期決策周期的經(jīng)驗。這可以包括歷史事件流[?]、前一集[??]的游戲軌跡、用戶和代理之間的交互信息或代理體驗的其他表示。在決策周期的計劃階段,這些事件可能會被檢索到工作記憶中以支持推理。智能體還可以編寫從工作到情景記憶的新體驗,作為一種學習形式。其次,長期記憶存儲了智能體對世界和自身的了解。傳統(tǒng)方法利用檢索進行推理或決策,從外部數(shù)據(jù)庫初始化內(nèi)存以獲得知識支持(e.g.,NLP[??]中的檢索增強方法,RL[??]中的“閱讀學習”方法)。智能體還可以將從LLM推理和用戶中獲得的新知識寫入長期記憶中,作為一種學習形式,從經(jīng)驗中逐步建立世界知識。智能體自我進化。為了更好地適應用戶,PersonalLLMAgents可能還需要根據(jù)內(nèi)存數(shù)據(jù)動態(tài)更新自己。我們稱之為“自我進化”。智能代理的基礎功能主要依賴于LLM。因此,智能智能體自我進化的關鍵在于如何利用LLM來發(fā)現(xiàn)和探索新技能,以及LLM本身的不斷更新。?學習技能。目前,正在進行許多努力,以使基于LLM的代理能夠參與持續(xù)的技能學習和獲取[??]。這些方法從程序的通用性和可解釋性中汲取靈感,[?]將技能視為可執(zhí)行代碼,并
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司水暖維修合同范本
- 2025年度智能城市建設合作項目投標協(xié)議范本
- 健身會所轉(zhuǎn)讓合同范本
- 2025年立體倉庫設備,相關物料搬運設備項目可行性分析報告
- 2025年度酒吧市場推廣與廣告投放合同
- 2025年度大型工業(yè)園區(qū)綜合供能合同范本(含節(jié)水節(jié)電)
- 2025年度門窗行業(yè)市場準入許可合同
- 中國海洋生物酶行業(yè)市場前瞻與投資戰(zhàn)略規(guī)劃分析報告
- 2025年度智慧旅游項目合作協(xié)議管理規(guī)定
- 退生活部申請書
- 蔬菜采購項目投標書
- 肩周炎康復護理
- 2022年安徽管子文化旅游集團有限公司招聘筆試試題及答案解析
- SAPPM設備管理解決方案
- Q-HN-1-0000.08.004《風力發(fā)電場電能質(zhì)量監(jiān)督技術標準》
- 多指畸形-課件
- 5G NSA站點開通指導書(臨時IP開站)
- 宗教與社會課件
- 3人-機-環(huán)-管理本質(zhì)安全化措施課件
- 生殖醫(yī)學中心建設驗收標準分析-講座課件PPT
- DB44∕T 1811-2016 石灰?guī)r山地造林技術規(guī)程
評論
0/150
提交評論