Graph A1:大模型浪潮下的圖計(jì)算_第1頁
Graph A1:大模型浪潮下的圖計(jì)算_第2頁
Graph A1:大模型浪潮下的圖計(jì)算_第3頁
Graph A1:大模型浪潮下的圖計(jì)算_第4頁
Graph A1:大模型浪潮下的圖計(jì)算_第5頁
已閱讀5頁,還剩150頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

本白皮書由全國智能計(jì)算標(biāo)準(zhǔn)化工作組圖計(jì)算研究組編著,由全國智能計(jì)算標(biāo)準(zhǔn)化工作組發(fā)布,旨在為圖計(jì)算領(lǐng)域提供前沿動態(tài)和趨勢洞察。本白皮書的著作權(quán)受法律保護(hù),轉(zhuǎn)載、摘編、翻譯或利用其感謝以下專家和學(xué)者對本白皮書編制工作的鼎力支持(注:排名專家顧問編制組組長編制組成員范志東、林恒、桂正科、郭智慧、孫夢姝、陳發(fā)強(qiáng)、劉永超、鄭達(dá)、彭晉、崔安頎、趙培龍、李少衡、呂松霖、何雨瀟、杭州悅數(shù)科技有限公司杭州悅數(shù)科技有限公司浙江創(chuàng)鄰科技有限公司圖計(jì)算技術(shù)與人工智能,特別是大模型的融合,正在為信息處理和知識表示開辟新的前沿。圖結(jié)構(gòu)能夠有效表達(dá)數(shù)據(jù)的深層關(guān)系,圖與大模型的結(jié)合顯著提升了大模型的邏輯推理能力,在解決大模型幻覺等問題上展現(xiàn)出強(qiáng)大潛力。本白皮書梳理了這一領(lǐng)域的最新進(jìn)展,并對其未來的可能性進(jìn)行了分析討論,為讀者提供了一個(gè)前瞻性的理解視大模型時(shí)代,將圖計(jì)算與AI深度融合有著廣闊的前景和重要的影響。這一AI融合的關(guān)鍵技術(shù)、解決方案和應(yīng)用案例進(jìn)行了詳盡的梳理,尤其在與大模型的融合、可信圖計(jì)算、科學(xué)研究和產(chǎn)業(yè)落地等前沿研究和應(yīng)用方面,做了精彩的闡述。在信息科技迅猛發(fā)展的背景下,圖數(shù)據(jù)和圖應(yīng)用逐在開創(chuàng)全新的可能性。本白皮書系統(tǒng)回顧了圖智能的發(fā)展歷程,深入討論了圖的核心技術(shù)與應(yīng)用場景,展現(xiàn)了圖技術(shù)在大模型浪潮中的關(guān)鍵作用。本白皮書旨在幫助讀者深入理解圖技術(shù)的最新進(jìn)展與未來趨勢,期望為讀者帶來深刻的行業(yè)洞察,進(jìn)一步推在當(dāng)前科技飛速發(fā)展的時(shí)代,圖計(jì)算與人工智能的結(jié)合展現(xiàn)出巨大的潛力與前景。圖計(jì)算以其天然適應(yīng)復(fù)雜關(guān)系網(wǎng)絡(luò)的優(yōu)勢,為AI模型提供了豐富的結(jié)構(gòu)化信息,使得模型不僅能了圖計(jì)算面臨的新問題與挑戰(zhàn)。通過總結(jié)以往問題的多種解決方案,并在產(chǎn)業(yè)落地與科學(xué)研究方面提供大量應(yīng)用案例,該白皮書將為相關(guān)研究者如何發(fā)展本白皮書以大模型技術(shù)為背景,全面介紹了圖技術(shù)在數(shù)據(jù)、模型和應(yīng)用等方面的發(fā)展趨勢。內(nèi)容涵蓋圖模型的方法論、詳細(xì)的技術(shù)解決方案以及豐富的實(shí)際應(yīng)用案例,為讀者提供了全景式圖計(jì)算作為刻畫和挖掘萬物復(fù)雜關(guān)聯(lián)關(guān)系的核心技術(shù),已經(jīng)廣泛應(yīng)用于諸多應(yīng)用場景。近來大模型的強(qiáng)大的學(xué)習(xí)和泛化能力為人工智能的發(fā)展帶來革命性地影響,如何融合圖計(jì)算和最新的AI技術(shù),已經(jīng)成為業(yè)內(nèi)共識。本白皮書全面、詳實(shí)地介紹了“Graph+AI”的研究進(jìn)展和未來展望,值得大家研讀與思考。本白皮書深入探討了圖數(shù)據(jù)與AI結(jié)合的關(guān)鍵技術(shù)及其在多領(lǐng)域的應(yīng)術(shù)在數(shù)據(jù)挖掘、模型優(yōu)化和決策增強(qiáng)等方面中的廣泛應(yīng)用場景,以及豐富的案例與詳盡的解決方案,為研究者和從業(yè)人員提供了系統(tǒng)性指導(dǎo)從事圖技術(shù)領(lǐng)域多年,我們見證了圖技術(shù)從學(xué)術(shù)研究到實(shí)際應(yīng)用的飛速發(fā)展,本白皮書正是這一領(lǐng)域最新進(jìn)展的全面展示和深入探討。本白皮書緊密結(jié)合當(dāng)前AI大模型圖技術(shù)與數(shù)據(jù)、算力、模型等多個(gè)關(guān)鍵技術(shù)的結(jié)合,無疑是所有對圖技術(shù)感興趣的讀者的一本寶人工智能浪潮勢不可擋,圖技術(shù)和AI的建設(shè)方案和應(yīng)用案例,是對AI大模型時(shí)代圖技術(shù)發(fā)展路徑的一次全面綜述。期位讀者帶來具有前瞻性和全局觀的產(chǎn)業(yè)洞察分析,加速推動圖智能的行業(yè)應(yīng)用落地。在數(shù)字化時(shí)代的浪潮中,圖計(jì)算與人工智能這兩項(xiàng)前沿技術(shù)在各自的發(fā)展與演變中逐漸交織,流優(yōu)化、最短路徑尋找等經(jīng)典問題,為后續(xù)的數(shù)據(jù)挖掘、知識表示等領(lǐng)域提供了基礎(chǔ)。隨著大數(shù)據(jù)和互聯(lián)網(wǎng)的迅猛發(fā)展,圖計(jì)算在社交網(wǎng)絡(luò)分析、金融風(fēng)險(xiǎn)控制、推薦系統(tǒng)、生物信息學(xué)等多個(gè)來深度學(xué)習(xí)的崛起,人工智能技術(shù)已經(jīng)滲透至社會生活的方方面面。尤其是在自然語言處理、計(jì)算機(jī)視覺等領(lǐng)域,深度學(xué)習(xí)模型所取得的突破性進(jìn)展,極大加速了人工智能技術(shù)的普及與商業(yè)化進(jìn)程。盡管如此,傳統(tǒng)的人工智能方法在處理非結(jié)構(gòu)化或高度互聯(lián)的數(shù)據(jù)時(shí)仍顯不足。正是在這在圖神經(jīng)網(wǎng)絡(luò)出現(xiàn)之前,研究者們已經(jīng)探索了多種將圖計(jì)算與人工智能相結(jié)合的方法,包括圖嵌入技術(shù)、概率圖模型、圖核方法等。圖神經(jīng)網(wǎng)絡(luò)的出現(xiàn),標(biāo)志著圖計(jì)算與人工智能開始深度結(jié)合。圖神經(jīng)網(wǎng)絡(luò)通過在圖結(jié)構(gòu)上進(jìn)行信息傳播和聚合,實(shí)現(xiàn)了對圖數(shù)據(jù)的高效建模和特征提取。這種結(jié)合不僅提升了人工智能模型在處理圖數(shù)據(jù)時(shí)的表現(xiàn),也解鎖了圖計(jì)算技術(shù)在智能化應(yīng)用中近年來,大規(guī)模預(yù)訓(xùn)練模型的興起再次引領(lǐng)了人工智能技術(shù)的革命。這些模型憑借其卓越的理解和生成能力,展示了向通用人工智能邁進(jìn)的可能性與“曙光”。同樣的,大模型的出現(xiàn)也為圖計(jì)算與人工智能的結(jié)合帶來了新的機(jī)遇和挑戰(zhàn),比如,大模型的訓(xùn)練通常需要數(shù)量龐大且多樣化的數(shù)據(jù),圖計(jì)算在捕捉數(shù)據(jù)深層次關(guān)系方面的能力為這一問題提供了潛在解決方案。而如何構(gòu)建圖基礎(chǔ)模型以獲得類似大語言模型的涌現(xiàn)能力和強(qiáng)泛化能力則是新在大模型的浪潮之下,如何巧妙地整合圖計(jì)算和人工智能的優(yōu)勢,進(jìn)一步深化二者的融合,并開拓更廣闊的應(yīng)用前景,已經(jīng)成為當(dāng)前學(xué)術(shù)界和產(chǎn)業(yè)界共同關(guān)注的焦點(diǎn)。本白皮書旨在全面解析圖計(jì)算與人工智能(尤其是大模型技術(shù))的交互現(xiàn)狀,探討其背后的原理、面臨的問題與挑戰(zhàn)、關(guān)鍵技術(shù)以及成功實(shí)踐。希望通過本白皮書的系統(tǒng)梳理和案例闡述,激發(fā)更多關(guān)于圖與人工智能融合創(chuàng)新的思考與探索,為相關(guān)領(lǐng)域的研究和應(yīng)用提供有益的參考和啟示,共同迎接一個(gè)充滿無 1 3 6 6 8 21 75 75 77 78 94 99 99 1伏。隨著大數(shù)據(jù)領(lǐng)域的技術(shù)持續(xù)突破以及硬件算力的不斷提升,以神經(jīng)網(wǎng)絡(luò)理論為基礎(chǔ)的深度學(xué)習(xí)技術(shù)也逐步從“寒冬”走向各行各業(yè)。尤其是隨著大模型(Large橋問題”。伴隨著大數(shù)據(jù)時(shí)代數(shù)據(jù)規(guī)模的急劇擴(kuò)張以及數(shù)據(jù)關(guān)聯(lián)分析復(fù)雜度的提升,圖計(jì)算技術(shù)也迎來了飛速發(fā)展,并廣泛地應(yīng)用到社交網(wǎng)絡(luò)、推薦系統(tǒng)、金融風(fēng)控、生物信息等領(lǐng)域。圖數(shù)據(jù)模型在描述復(fù)雜數(shù)據(jù)關(guān)聯(lián)關(guān)系以及計(jì)算可解釋性上有著天然優(yōu)勢,將圖計(jì)算技術(shù)與AI數(shù)據(jù)層面,傳統(tǒng)的機(jī)器學(xué)習(xí)方法對歐幾里得數(shù)據(jù)有著較好的處理,但在非歐幾里得數(shù)據(jù)上性能不佳,在模態(tài)與模型的適配上存在問題。因而我們需要針對性的設(shè)計(jì)合理的數(shù)據(jù)形式及處理模型。基于圖論的圖計(jì)算建模方法處理非歐幾何數(shù)據(jù)是合理且自然的,其以節(jié)點(diǎn)表示實(shí)體,將實(shí)體與其特征一一對應(yīng),以邊表示關(guān)系,將實(shí)體間的關(guān)系顯式表示出來。知識圖譜(KnowledgeGraph)則進(jìn)一步在圖數(shù)據(jù)上層構(gòu)建了語義網(wǎng)絡(luò),將復(fù)雜關(guān)系建模為有標(biāo)簽的有向圖,以表示事物之間的算法層面,隨著深度神經(jīng)網(wǎng)絡(luò)的迅猛發(fā)展,以圖神經(jīng)網(wǎng)絡(luò)(GraphNeu表示學(xué)習(xí)為代表的方法為機(jī)器學(xué)習(xí)領(lǐng)域帶來了新的進(jìn)展。眾多學(xué)者嘗試將深度神經(jīng)網(wǎng)絡(luò)進(jìn)行合理的改造以適應(yīng)圖的特殊結(jié)構(gòu),借助其強(qiáng)大的模型性能挖掘更深層次的信息,減少參數(shù)量并提高泛化能力。受到大語言模型的啟發(fā),圖基礎(chǔ)模型通過預(yù)訓(xùn)練和適應(yīng)性方法提升模型在各種任務(wù)中的表達(dá)能力和泛化能力。通過在廣泛的圖數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,圖基礎(chǔ)模型能夠適應(yīng)多種下游圖任務(wù)并具備兩種核心能力:涌現(xiàn)和同質(zhì)泛化。涌現(xiàn)能力意味著當(dāng)模型參數(shù)足夠多時(shí),會出現(xiàn)新的功能。同質(zhì)泛化能力表明模型具有通用性,能夠適應(yīng)多種圖任務(wù)和不同領(lǐng)域的應(yīng)用。與語言基礎(chǔ)模型相比,圖基礎(chǔ)模型在數(shù)據(jù)和任務(wù)上存在顯著差異。圖數(shù)據(jù)的通用性和多樣性使得開發(fā)一個(gè)“通用圖應(yīng)用層面,以LLM為核心,結(jié)合圖計(jì)算的技術(shù)方案),知識圖譜的概念最早源自語義網(wǎng)的研究,目的是讓計(jì)算機(jī)理解互聯(lián)網(wǎng)中信息的語義,經(jīng)過多年的發(fā)展,知識圖譜已經(jīng)廣泛應(yīng)用于醫(yī)療、金融、電商等領(lǐng)域。在實(shí)際應(yīng)用中,知識圖譜常用于存儲領(lǐng)域知識,包括領(lǐng)域應(yīng)用中的重要概念以及概念之間的上下位關(guān)系。2構(gòu)建好的領(lǐng)域知識圖譜可以服務(wù)于各種任務(wù),幫助算法更好地挖掘數(shù)據(jù)中的隱形關(guān)系,Text2GQL是一種將自然語言查詢轉(zhuǎn)換為圖查詢語言(GQL)的技術(shù),旨在幫助開發(fā)者和非技術(shù)用戶更便捷地從圖數(shù)據(jù)庫中獲取所需數(shù)據(jù)。通過理解用戶的自然語言輸入,可以實(shí)現(xiàn)更高效的數(shù)據(jù)處理和分析、更深入的語義理解、更高效的信息檢索和個(gè)性化交和邊的關(guān)系來改進(jìn)信息檢索和生成,從而能夠捕捉和處理復(fù)雜的關(guān)系和事務(wù)關(guān)聯(lián),提供KAG充分融合知識圖譜的符號決策和RAG的向量檢索的優(yōu)勢,通過知識對齊進(jìn)一步克服引結(jié)構(gòu),在推理問答階段使用符號邏輯引導(dǎo)的推理和檢索有效平衡了復(fù)雜決策和信息檢Agent將LLM與現(xiàn)實(shí)世界打通,讓LLM具備類人的自主工作進(jìn)一步改進(jìn)智能體的記憶、思考、規(guī)劃以及行動能力,同時(shí)利用多智能體技術(shù),可以進(jìn)一步改進(jìn)圖應(yīng)用場景的解決方案生成,為圖計(jì)算業(yè)務(wù)帶來更多的價(jià)值和可能??偟膩砜?,圖計(jì)算技術(shù)與AI技術(shù)的結(jié)合是一個(gè)相互增強(qiáng)的過程。和計(jì)算可解釋性可以促進(jìn)AI領(lǐng)域的數(shù)據(jù)質(zhì)量提升、訓(xùn)練推理加速,以及降低模型幻覺。AI技術(shù),尤其是大模型技術(shù),可以輔助圖計(jì)算系統(tǒng)持續(xù)的性能改進(jìn),降低圖計(jì)算產(chǎn)品的使用門3AI技術(shù)使得我們能夠更好地處理復(fù)雜的圖數(shù)據(jù),推動了社交網(wǎng)絡(luò)分析、推薦系統(tǒng)和生物信息學(xué)等領(lǐng)域的發(fā)展。盡管圖計(jì)算技術(shù)和AI技術(shù)結(jié)合已經(jīng)取得了顯著的進(jìn)展,但戰(zhàn)。隨著大規(guī)模技術(shù)的崛起,圖技術(shù)與大模型的結(jié)合有望成為解決這些挑戰(zhàn)的重要途徑。大模型為圖數(shù)據(jù)的處理和分析提供了新的方法和視角,推動了知識圖譜、圖神經(jīng)網(wǎng)絡(luò)等領(lǐng)域的創(chuàng)新,但圖數(shù)據(jù)的收集、存儲和使用面臨顯著挑戰(zhàn)。首先,圖數(shù)據(jù)在收集過程中容易受到噪音的影響,這些噪音會沿著邊傳播,導(dǎo)致更大的危害。動態(tài)圖和異質(zhì)圖增加了時(shí)間維度和節(jié)點(diǎn)、邊的種類,使得存儲和計(jì)算要求更高。圖數(shù)據(jù)不僅需要存儲節(jié)點(diǎn)的特征和標(biāo)簽,還需要存儲邊及其標(biāo)簽,這使得圖的存儲更占空間。此外,圖數(shù)據(jù)的標(biāo)注成本高,標(biāo)注數(shù)據(jù)相對較少,進(jìn)一步增加了處理難度。單一節(jié)點(diǎn)特征的信息密度高,處理難度較大,而多模態(tài)數(shù)據(jù)的統(tǒng)一處理也面臨巨大挑戰(zhàn)。圖數(shù)據(jù)的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)和多樣性導(dǎo)致任務(wù)需求不同,模型需要關(guān)注的信息粒度也不同。傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法不適用于圖數(shù)據(jù),需要針對圖數(shù)據(jù)的特征、結(jié)構(gòu)、標(biāo)簽進(jìn)行分別增強(qiáng)。圖數(shù)據(jù)的長尾效應(yīng)導(dǎo)致度數(shù)較高的樞紐節(jié)點(diǎn)容易被蓄意破壞,造成較大危害。全圖的存儲和計(jì)算不可行,需要平衡采樣大小與計(jì)算成本,針對不同特性及任務(wù)需求采取不同的采樣方法才能高效計(jì)算。針對這些問題,研究者們提出了多種解決方案。例如,針對動態(tài)圖的構(gòu)建需要有效捕捉節(jié)點(diǎn)和邊的時(shí)間變化的問題,研究者們提出了包括基于增量式構(gòu)建的圖流算法的多種動態(tài)圖數(shù)據(jù)集構(gòu)建方法。圖數(shù)據(jù)增強(qiáng)面臨的挑戰(zhàn)促使研究人員開發(fā)專門針對圖數(shù)據(jù)的增強(qiáng)技術(shù),圖結(jié)構(gòu)學(xué)習(xí)就是其中一種重要的方法。為了避免在全圖上進(jìn)行計(jì)算,研究者們發(fā)明了多種采樣技術(shù),包括隨機(jī)游走采樣、鄰域圖神經(jīng)網(wǎng)絡(luò)為圖分析提供了一個(gè)有效的解決方案,然而,它們在實(shí)際應(yīng)用中仍面臨一些關(guān)鍵的挑戰(zhàn)。例如,大規(guī)模圖計(jì)算在性能方面存在顯著不足,采樣方法尚未統(tǒng)一,處理大規(guī)模圖數(shù)據(jù)需要更高效的算法。圖數(shù)據(jù)種類繁多,包括同質(zhì)圖、異質(zhì)圖模型存在本質(zhì)區(qū)別,動態(tài)圖和文本圖帶來了額外的信息處理需求,這使得模型之間的遷移和泛化能力面臨嚴(yán)峻挑戰(zhàn)。節(jié)點(diǎn)分類的不平衡問題難以解決,采用欠采樣和過采樣的方法獲得的樣本在連邊上不夠真實(shí),嚴(yán)重影響了模型的性能。圖神經(jīng)網(wǎng)絡(luò)的可解釋性較差,繼承了神經(jīng)網(wǎng)絡(luò)的非線性特性,加之其自身復(fù)雜的結(jié)構(gòu)信息,使得預(yù)測結(jié)果更加難以解釋。此外,圖神經(jīng)網(wǎng)絡(luò)中的節(jié)點(diǎn)信息會進(jìn)行傳遞和迭代,導(dǎo)致梯度比其他神經(jīng)網(wǎng)絡(luò)更容易爆炸。這些挑戰(zhàn)表明,圖神經(jīng)網(wǎng)絡(luò)在處理復(fù)雜結(jié)構(gòu)化數(shù)據(jù)時(shí)仍需進(jìn)一步優(yōu)化和提升。為了提高大規(guī)模圖數(shù)據(jù)的訓(xùn)練和推理,通常需要分布4理方法。為了提升圖神經(jīng)網(wǎng)絡(luò)的可信性,研究者們對圖神經(jīng)網(wǎng)絡(luò)的魯棒性、公平性以及分布外泛圖基礎(chǔ)模型的發(fā)展也面臨諸多問題和挑戰(zhàn)。首先,大規(guī)模圖數(shù)據(jù)不易獲取,圖數(shù)據(jù)集的規(guī)模和多樣性不足以支持大圖模型的訓(xùn)練。其次,圖任務(wù)類型多樣化,節(jié)點(diǎn)級、邊級和圖級任務(wù)的差異性增加了模型設(shè)計(jì)的復(fù)雜性。安全與隱私問題也是一個(gè)重要挑戰(zhàn),圖基礎(chǔ)模型可能面臨與大語言模型類似的安全問題,如生成幻覺和隱私風(fēng)險(xiǎn)。提高模型的可信度和透明度,保護(hù)隱私是亟待解決的問題。目前,圖基礎(chǔ)模型缺乏統(tǒng)一的范式,尚未展現(xiàn)出涌現(xiàn)能力和強(qiáng)泛化能力。鑒于大語言模型在自然語言處理中的成功應(yīng)用,探討圖基礎(chǔ)模型如何獲取大語言模型的涌現(xiàn)和強(qiáng)泛化能力以大語言模型為代表的大模型展現(xiàn)了很好的自然語言理解泛化能力,并且被公認(rèn)掌握了一定的世界知識,這些知識以參數(shù)化的形式存儲于模型的參數(shù)中,并在推理過程中得到應(yīng)用。大模型給知識圖譜技術(shù)的發(fā)展帶來了機(jī)遇,也帶來了新的問題和挑戰(zhàn)。首先,從知識圖譜構(gòu)建的角度來看,大語言模型的語言理解能力是否能夠降低知識圖譜的構(gòu)建成本,并提升其規(guī)模和質(zhì)量,使得知識圖譜的發(fā)展進(jìn)入一個(gè)新的階段,這是一個(gè)值得深入研究的問題。其次,大模型是一種參數(shù)化的知識表示和推理技術(shù)方案,而知識圖譜是一種符號化的知識表示和推理技術(shù)方案。在大模型出現(xiàn)之后,如何從知識表示和推理的角度進(jìn)行協(xié)作?哪些知識應(yīng)該存儲于大模型中,哪些知識應(yīng)該存儲于知識圖譜中,這些都是需要解決的重要問題。大模型具有很強(qiáng)的任務(wù)泛化能力,可以完成許多任務(wù),在大模型時(shí)代背景下,如何提升知識圖譜技術(shù)的泛化性,以便更好地與大模型配合并保留其強(qiáng)大的任務(wù)泛化能力,也是一個(gè)關(guān)鍵挑戰(zhàn)??偟膩碚f,大模型的出現(xiàn)為知識圖譜的構(gòu)建、推理和服務(wù)帶來了新的視角,有望促使知識圖譜技術(shù)在未來實(shí)現(xiàn)重大突破,與大模型結(jié)合,完成圖查詢語言標(biāo)準(zhǔn)(ISO/GQL)尚未全面普及,目前存在多種查詢語法并存的狀態(tài)(如GQL、PGQ、),臨幾個(gè)主要困難:缺乏海量數(shù)據(jù)集,鮮有公測標(biāo)準(zhǔn)和對應(yīng)的評測數(shù)據(jù);由于數(shù)據(jù)集和評測標(biāo)準(zhǔn)的欠缺,各種大模型微調(diào)方法的效果難以在Text2GQL領(lǐng)域得到驗(yàn)證??上驳氖?,在科研工作者不斷的探索之下,Text2GQL已取得到了不錯(cuò)的進(jìn)展,在數(shù)據(jù)集方面提出了通過語法制導(dǎo)的生成語料方法,并構(gòu)建了對應(yīng)的評測數(shù)據(jù),在大模5圖系統(tǒng)優(yōu)化方面,盡管圖計(jì)算系統(tǒng)在關(guān)聯(lián)性數(shù)據(jù)分析性能上有天然優(yōu)勢,但在系統(tǒng)的成熟度、計(jì)算存儲性能、運(yùn)維自動化、產(chǎn)品安全性和使用門檻上,仍有巨大改進(jìn)空間。已有大量的研究將圖系統(tǒng)與AI、LLM相結(jié)合,這樣可以充分發(fā)揮三者的優(yōu)勢,實(shí)現(xiàn)更高效的數(shù)據(jù)處理和分析,近年來,大規(guī)模語言模型在自然語言處理領(lǐng)域取得了顯著進(jìn)展,提升了許多應(yīng)用場景的智能水平。然而,它們在處理涉及專業(yè)領(lǐng)域時(shí)仍面臨巨大挑戰(zhàn),如生成幻覺、缺乏專業(yè)領(lǐng)域知識、信息時(shí)效性不足、計(jì)算成本高、缺乏可解釋性等問題。業(yè)界通過檢索增強(qiáng)生成(RAG)技術(shù)對此做了一定優(yōu)化,但是通用的RAG方法在處理文本分割與索引時(shí)無法滿足商業(yè)場景下的復(fù)雜數(shù)據(jù)分塊(Chunking)的粗粒度方式天然會導(dǎo)致分散的知識丟失,信息間跨相鄰分布的關(guān)系上下文因?yàn)榉指疃?,基于字面語義、通識的嵌入(Embedding)易造成誤解等,因此,需要一種更精在智能體方面,盡管大語言模型已經(jīng)具備了一定的思考與決策能力,但要實(shí)現(xiàn)與現(xiàn)實(shí)世界的交互,具備類人的自主工作能力,還需要大量工作,包括角色設(shè)定、記憶、思考規(guī)劃以及行動等。通過工作流編排單智能體的行為是當(dāng)前主流的實(shí)踐手段,但依賴于人工進(jìn)行的工作流編排,對用戶的專家經(jīng)驗(yàn)有較高的要求。另外,單智能體在處理復(fù)雜任務(wù)時(shí)效果不盡如人意,而采用多個(gè)智能體協(xié)同工作的策略雖能提高效率,卻也帶來了系統(tǒng)復(fù)雜性和控制難度的增加。目前,設(shè)計(jì)高效的多智能體系統(tǒng)尚缺乏堅(jiān)實(shí)的理論基礎(chǔ)和成熟的應(yīng)用實(shí)例,不過圖計(jì)算技術(shù)可能為這一挑戰(zhàn)提供多重挑戰(zhàn),圖技術(shù)在大模型時(shí)代背景下有望實(shí)現(xiàn)重大突破。通過不斷優(yōu)化和創(chuàng)新,術(shù)的協(xié)同發(fā)展將推動更多復(fù)雜任務(wù)的實(shí)現(xiàn),為各領(lǐng)域帶來深遠(yuǎn)影響。在未來,圖技術(shù)與深度融合將進(jìn)一步提升圖數(shù)據(jù)處理的效率和效果,推動各行業(yè)的智能化和數(shù)據(jù)驅(qū)動發(fā)展。6在現(xiàn)實(shí)世界中,圖數(shù)據(jù)可以用來描述不同領(lǐng)域的關(guān)系結(jié)構(gòu),包括社會科學(xué)、化學(xué)、生物學(xué)等。圖數(shù)據(jù)構(gòu)建是圖計(jì)算的關(guān)鍵步驟,其任務(wù)是將復(fù)雜的現(xiàn)實(shí)世界關(guān)系建模為計(jì)算機(jī)可處理的數(shù)據(jù)結(jié)構(gòu),這一過程涉及對節(jié)點(diǎn)、邊以及其屬性的合理抽象和表示[15]。節(jié)點(diǎn)通常表示圖中所描述的對象或?qū)嶓w,邊則表示這些對象之間的關(guān)系或交互,以社交圖為例,節(jié)點(diǎn)表示人,邊表示社交關(guān)系。節(jié)點(diǎn)和邊通常附帶有特定的屬性信息,例如在社交圖中,人作為節(jié)點(diǎn),其屬性可能包括年齡、職業(yè)等;而在分子圖中,邊可能表示化學(xué)鍵,并包含單鍵、雙鍵等屬性信息。節(jié)點(diǎn)和邊的屬性為圖模型提供了上下文信息,使算法在計(jì)算節(jié)點(diǎn)或邊的表示時(shí)能結(jié)合更多維度的數(shù)據(jù),通過對這些屬性信息的充分利用,圖計(jì)算可以更好地刻畫出節(jié)點(diǎn)及其關(guān)系的本質(zhì)特征,從而提升模型在節(jié)點(diǎn)分圖數(shù)據(jù)構(gòu)建主要包含數(shù)據(jù)采集與預(yù)處理、節(jié)點(diǎn)與邊的信息抽取、數(shù)據(jù)存儲與轉(zhuǎn)換這幾個(gè)關(guān)鍵1)首先,需要從現(xiàn)實(shí)世界中收集合適的數(shù)據(jù),這些數(shù)據(jù)可以來源于數(shù)據(jù)庫、傳感器等多種途徑。由于收集到的數(shù)據(jù)包含噪聲、不完整或冗余的信息,因此通常需要清洗和過濾,從而保證數(shù)2)在節(jié)點(diǎn)與邊的信息抽取階段,需要將數(shù)據(jù)中的實(shí)體和關(guān)系映射為節(jié)點(diǎn)和邊,并提取保存節(jié)點(diǎn)和邊的屬性信息,必要時(shí)還需要對邊進(jìn)行加權(quán)處理,以3)構(gòu)建好圖數(shù)據(jù)后,通常會將其存儲為標(biāo)準(zhǔn)的圖數(shù)據(jù)格式,例如鄰接矩陣或在實(shí)際應(yīng)用中的交互系統(tǒng)非常復(fù)雜,因此圖數(shù)據(jù)的構(gòu)建面臨著多重挑戰(zhàn)。例如,即使經(jīng)過預(yù)處理,圖數(shù)據(jù)中仍可能包含難以識別和處理的噪聲。為了解決這一問題,研究者提出了基于統(tǒng)計(jì)特性的噪聲檢測和清洗方法,如圖數(shù)據(jù)去噪中的圖平滑技術(shù)和魯棒圖建模算法[47],這些方法可以7通過檢測異常的節(jié)點(diǎn)和邊來移除噪聲,從而提高圖數(shù)據(jù)的質(zhì)量。此外,許多應(yīng)用中的數(shù)據(jù)往往是動態(tài)變化的,因此動態(tài)圖的構(gòu)建需要有效捕捉節(jié)點(diǎn)和邊的時(shí)間變化。針對這一問題,研究者們提出了多種動態(tài)圖數(shù)據(jù)集構(gòu)建方法,如基于增量式構(gòu)建的圖流算法(GraphStreamAlgorithms),它能夠在數(shù)據(jù)更新時(shí)動態(tài)地調(diào)整圖結(jié)構(gòu)[48]。同時(shí),時(shí)間維度的建模方法(如基于時(shí)序的圖數(shù)據(jù)生成技術(shù))[49],能夠?qū)r(shí)間信息整合到圖數(shù)據(jù)集中,以捕捉節(jié)點(diǎn)和邊隨時(shí)間變化的特性。在復(fù)雜系統(tǒng)中,圖數(shù)據(jù)往往由多種類型的節(jié)點(diǎn)和邊構(gòu)成,形成異質(zhì)圖。異質(zhì)圖的構(gòu)建與存儲挑戰(zhàn)更大,因?yàn)樾枰侠淼爻橄蠛徒2煌愋偷年P(guān)系。為應(yīng)對這一挑戰(zhàn),當(dāng)前提出了異質(zhì)圖數(shù)據(jù)集構(gòu)建框架,如HIN-Mine[50],它通過對不同類型節(jié)點(diǎn)和邊的特征提取和語義關(guān)系建模,有效構(gòu)建和存儲異質(zhì)圖數(shù)據(jù)集。通過這些解決方案,圖數(shù)據(jù)集構(gòu)建能夠更加準(zhǔn)確地處理現(xiàn)實(shí)世界的復(fù)雜數(shù)據(jù),確保生此外,現(xiàn)實(shí)世界的數(shù)據(jù)常具有多模態(tài)特性,例如網(wǎng)頁數(shù)據(jù)可能同時(shí)包含文本、圖像、視頻和音頻等。為了綜合考慮不同模態(tài)中的豐富信息,可以通過圖建模的方式進(jìn)行有效地整合,從而幫助挖掘多模態(tài)數(shù)據(jù)間的復(fù)雜關(guān)聯(lián)信息。在多模態(tài)圖學(xué)習(xí)中[60],首先需要對多模態(tài)數(shù)據(jù)進(jìn)行異質(zhì)圖建模,將各模態(tài)的數(shù)據(jù)視為不同類型的節(jié)點(diǎn),并根據(jù)數(shù)據(jù)點(diǎn)之間的關(guān)聯(lián)關(guān)系構(gòu)建節(jié)點(diǎn)間的邊。例如,對于一個(gè)包含文本、圖像、視頻和音頻的網(wǎng)頁數(shù)據(jù),可以為每種模態(tài)構(gòu)建對應(yīng)類型的節(jié)點(diǎn):文本節(jié)點(diǎn)、圖像節(jié)點(diǎn)、視頻節(jié)點(diǎn)和音頻節(jié)點(diǎn);不同模態(tài)數(shù)據(jù)間的關(guān)聯(lián)通過邊來表示,例如一段文本對應(yīng)一張圖片時(shí),在文本節(jié)點(diǎn)和圖像節(jié)點(diǎn)之間添加一條邊;如果兩段文本存在關(guān)聯(lián),也可在相應(yīng)的文本節(jié)點(diǎn)之間添加邊。與傳統(tǒng)多模態(tài)學(xué)習(xí)方法多聚焦于兩種模態(tài)的關(guān)系不同,圖建模能夠靈活地處理多種模態(tài)數(shù)據(jù),能有效避免訓(xùn)練中對某一模態(tài)的過度關(guān)注或忽視。考慮到多模態(tài)數(shù)據(jù)的復(fù)雜特性,如時(shí)序動態(tài)性等,如何對這些特性進(jìn)行有效建模,在確保模態(tài)信息完整和關(guān)聯(lián)關(guān)系精準(zhǔn)捕捉的前提下,使其在各種變化中具有更好的魯棒性和持續(xù)學(xué)習(xí)能力,也是未來多模態(tài)圖數(shù)據(jù)圖數(shù)據(jù)增強(qiáng)是一種通過生成、修改數(shù)據(jù)來擴(kuò)展現(xiàn)有訓(xùn)練數(shù)據(jù)的技術(shù),旨在提升圖計(jì)算的性能如裁剪或翻轉(zhuǎn),不能直接應(yīng)用于圖數(shù)據(jù)。這使得圖數(shù)據(jù)增強(qiáng)面臨更多挑戰(zhàn),并促使研究人員開發(fā)根據(jù)增強(qiáng)對象的不同,圖數(shù)據(jù)增強(qiáng)可分為結(jié)構(gòu)增強(qiáng)、特征增強(qiáng)和標(biāo)簽增強(qiáng)。結(jié)構(gòu)增強(qiáng)通過添加、刪除圖中的節(jié)點(diǎn)或邊來改變圖結(jié)構(gòu),從而生成新的圖數(shù)據(jù)。例如,DropEdge通過隨機(jī)移除部分邊來增強(qiáng)現(xiàn)有數(shù)據(jù)集,從而緩解圖神經(jīng)網(wǎng)絡(luò)的過平滑問題[19]。特征增強(qiáng)則通過隨機(jī)掩碼或添加擾動等方式修改節(jié)點(diǎn)特征。標(biāo)簽增強(qiáng)在訓(xùn)練數(shù)據(jù)的基礎(chǔ)上生成新標(biāo)簽,如混合不同類的圖數(shù)據(jù)并為新生成的數(shù)據(jù)分配新的標(biāo)簽。根據(jù)增強(qiáng)方法是否需要學(xué)習(xí),又可分為基于規(guī)則的增強(qiáng)方法和可8學(xué)習(xí)的增強(qiáng)方法?;谝?guī)則的數(shù)據(jù)增強(qiáng)通過預(yù)定義規(guī)則來修改圖數(shù)據(jù),無需學(xué)習(xí)任何參數(shù),其優(yōu)點(diǎn)在于實(shí)現(xiàn)簡單且效率高;可學(xué)習(xí)的數(shù)據(jù)增強(qiáng)通過學(xué)習(xí)優(yōu)化圖結(jié)構(gòu)或特征來生成增強(qiáng)數(shù)據(jù),其通常通過模型訓(xùn)練迭代優(yōu)化圖數(shù)據(jù)結(jié)構(gòu),并在增強(qiáng)過程中不斷改進(jìn)[20]。圖數(shù)據(jù)增強(qiáng)技術(shù)可以應(yīng)用于有監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)場景。在監(jiān)督學(xué)習(xí)中,數(shù)據(jù)增強(qiáng)主要用于緩解模型的過擬合現(xiàn)象,提升模型的泛化能力;在自監(jiān)督學(xué)習(xí)的對比學(xué)習(xí)等框架中,圖數(shù)據(jù)增強(qiáng)可以用于生成正負(fù)樣本,通過拉近與正樣本的距離、最大化與負(fù)樣本的差距來訓(xùn)練??偟膩碚f,圖數(shù)據(jù)增強(qiáng)技術(shù)在不增加額外標(biāo)注成本的前提下,生成更多訓(xùn)練數(shù)據(jù)或提升圖數(shù)由于圖通常包含大量節(jié)點(diǎn)和邊,直接在全圖上進(jìn)行計(jì)算可能會帶來巨大的時(shí)間和空間開銷,因此采樣技術(shù)成為了圖計(jì)算中的關(guān)鍵技術(shù)。圖采樣通過選擇部分節(jié)點(diǎn)或子圖,構(gòu)造能夠代表原始圖全局或局部特征的子集,確保在減少計(jì)算成本常見的圖采樣方法有隨機(jī)游走采樣、鄰域采樣和聚合采樣等。隨機(jī)游走從一個(gè)節(jié)點(diǎn)出發(fā),隨機(jī)選擇相鄰節(jié)點(diǎn)進(jìn)行訪問,從而有效保留圖的局部結(jié)構(gòu)信息,能夠靈活捕捉圖的不同模式[21];鄰域采樣從節(jié)點(diǎn)鄰居中隨機(jī)采樣一部分節(jié)點(diǎn),然后對這些節(jié)點(diǎn)的特征進(jìn)行聚合計(jì)算[18],能夠減輕全圖計(jì)算的壓力,并且通過采樣保持了圖的局部結(jié)構(gòu)信息;層次聚合采樣是對圖的多個(gè)層次結(jié)構(gòu)進(jìn)行抽象和采樣,使得每個(gè)層次都保留原圖的關(guān)鍵信息,能夠在保持全局圖結(jié)構(gòu)的同時(shí)有效減少冗余計(jì)算,從而在大規(guī)模圖上表現(xiàn)出良好的性能。這些方法通過不同的策略提取圖的局部結(jié)構(gòu)信息,圖采樣需要考慮如何平衡樣本大小和計(jì)算開銷之間的關(guān)系。此外,在實(shí)際應(yīng)用中,圖的不同特性和任務(wù)需求可能需要不同的采樣策略,選擇適當(dāng)?shù)牟蓸硬呗?,才能在?shí)現(xiàn)高效的同時(shí)保證圖圖作為一種非歐幾里得數(shù)據(jù)結(jié)構(gòu),具有強(qiáng)大的表達(dá)能力。隨著圖在各個(gè)領(lǐng)域的應(yīng)用越來越廣泛,對利用機(jī)器學(xué)習(xí)分析圖的需求也日益增長。傳統(tǒng)的機(jī)器學(xué)習(xí)方法在處理圖數(shù)據(jù)時(shí)往往依賴于手工設(shè)計(jì)的特征,這不僅增加了數(shù)據(jù)處理成本,也限制了模型的靈活性。GNN的出現(xiàn)為圖分析提供了一個(gè)有效的解決方案,通過深度學(xué)習(xí)的方法自動學(xué)習(xí)圖的結(jié)構(gòu)特征,從而提高了模型的性能9礎(chǔ)[62][63][64]。這些方法通過學(xué)習(xí)低維向量表示,捕捉了圖中的結(jié)構(gòu)信息。但是其更多地依賴于隨機(jī)游走或預(yù)定義的采樣策略,這可能無法充分利用圖的局部和全局結(jié)構(gòu)信息。CNN在圖像領(lǐng)域內(nèi)取得了不錯(cuò)的成就,但它們的通用性受到限制。圖像數(shù)據(jù)等歐式數(shù)據(jù)可以認(rèn)為是圖數(shù)據(jù)的一個(gè)特例,如何將圖像領(lǐng)域的成果遷移到更復(fù)雜的圖網(wǎng)絡(luò)也越來越受到了人們的關(guān)注,但是將深度神經(jīng)模型擴(kuò)展到非歐數(shù)據(jù)上很難定義局部卷積過濾器和池化算子,這阻礙了從歐幾里得域到非歐幾神經(jīng)網(wǎng)絡(luò)的前沿相關(guān)的開放問題,展望未來圖神經(jīng)網(wǎng)絡(luò)的發(fā)圖神經(jīng)網(wǎng)絡(luò)的卷積算子根據(jù)操作域和圖結(jié)構(gòu)類型可分為頻域(或稱為譜域)和空間域卷積,以及同質(zhì)和異質(zhì)卷積。頻域卷積利用圖拉普拉斯矩陣的特征分解在譜域上定義濾波器,以捕捉圖的全局結(jié)構(gòu)信息,而空間域卷積直接在圖的結(jié)構(gòu)空間中進(jìn)行局部鄰域的信息聚合[65]。在同質(zhì)圖中,所有節(jié)點(diǎn)類型相同,卷積算子簡單一致,而在異質(zhì)圖中,節(jié)點(diǎn)類型多樣,卷積算子需要處理不同GCN(GraphConvolutionalNetwork)是一種經(jīng)典的譜域的圖卷積算子[66],其是理理論的一種方法。譜域卷積網(wǎng)絡(luò)是通過在圖的譜域上進(jìn)行操作來實(shí)現(xiàn)卷積的,類似于傳統(tǒng)卷積網(wǎng)絡(luò)中的頻率卷積。在圖上,節(jié)點(diǎn)和邊的關(guān)系可以用“頻率”來描述,類似于我們用頻率分析聲音或圖片。我們通過圖的拉普拉斯矩陣來計(jì)算這些頻率。在頻率空間上卷積,可以理解為用某種“濾鏡”處理圖上的數(shù)據(jù),提取出有用的信息。圖的卷積操作就是將圖的信號(節(jié)點(diǎn)特征)在頻率空間上進(jìn)行濾波。但是直接做頻率計(jì)算很慢,因此GCN使用近似方法來加速。這個(gè)近似通過數(shù)學(xué)方法把復(fù)雜的操作簡化為圖上節(jié)點(diǎn)和鄰居之間的“信息傳遞”。GCN的操作可以看作是每一層,節(jié)點(diǎn)和它的鄰居交換信息,通過權(quán)重矩陣和非線性激活函數(shù)來更新節(jié)點(diǎn)GraphSAGE(GraphSampleAndAggregation)是一種基于MPNN(MessagePassingNeuralNetworks)架構(gòu)改進(jìn)的圖卷積方法,特別適合處理大規(guī)模圖[67]。它的關(guān)鍵特點(diǎn)是通過采樣和聚合節(jié)點(diǎn)的鄰居來進(jìn)行特征更新,在大圖中,每個(gè)節(jié)點(diǎn)可能有成百上千的鄰居,直接使用所有鄰居更新特征代價(jià)太大。GraphSAGE通過隨機(jī)采樣每個(gè)節(jié)點(diǎn)的一部分鄰居,減少計(jì)算負(fù)擔(dān)。每個(gè)節(jié)點(diǎn)通過它采樣到的鄰居節(jié)點(diǎn)進(jìn)行特征聚合。聚合方式可以有多種,比如求平均(mean)、求和(sum)、最大值(max)等。聚合鄰居特征后,節(jié)點(diǎn)會結(jié)合自己的特征來更新,類似于將“鄰居的影響”和“自身的信息”一起考慮。GraphSAGE的設(shè)計(jì)讓它非常適合在超大圖上使用,因?yàn)樗徊蓸硬糠諫AT(GraphAttention),圖注意力網(wǎng)絡(luò)是通過注意力機(jī)制在圖結(jié)構(gòu)數(shù)據(jù)中進(jìn)行節(jié)點(diǎn)特征更新的[68]。與其他圖卷積網(wǎng)絡(luò)不同,GATConv通過自適應(yīng)地為每個(gè)鄰居分配權(quán)重,重點(diǎn)關(guān)注對節(jié)點(diǎn)最重要的鄰居,GATConv引入了注意力機(jī)制,允許每個(gè)節(jié)點(diǎn)賦予不同鄰居不同的重要性。在傳統(tǒng)),在GAT中,每個(gè)鄰居會被分配一個(gè)自適應(yīng)的權(quán)重,聚合不再是簡單的平均或求和,而是通過加權(quán)求和。每個(gè)鄰居的特征都會乘以一個(gè)注意力權(quán)重,這個(gè)權(quán)重是通過節(jié)點(diǎn)之間的特征相似性計(jì)算得到的,每對節(jié)點(diǎn)的注意力分?jǐn)?shù)是通過一個(gè)可學(xué)習(xí)的注意力函數(shù)計(jì)算的,計(jì)算出它們的相似度,并用這個(gè)相似度作為注意力權(quán)RGCN(RelationalGraphConvolution)是圖卷積網(wǎng)絡(luò)的一個(gè)擴(kuò)展,示不同類型的關(guān)系。RGCNConv通過引入關(guān)系類型的概念,幫助網(wǎng)絡(luò)處理更加復(fù)雜的圖結(jié)構(gòu)數(shù)據(jù),特別適合像知識圖譜這樣的場景。在普通的圖卷積網(wǎng)絡(luò)中,所有節(jié)點(diǎn)的連接邊都是相同的,沒有區(qū)分不同的關(guān)系類型。而在RGCN中,每條邊都表示一種特定的關(guān)系類型,例如在知識圖譜中,“人”可以通過“朋友關(guān)系”連接到其他“人”,也可以通過“工作關(guān)系”連接到一個(gè)“公司”。RGCN通過對不同關(guān)系類型分別處理,使得模型能在復(fù)雜的異構(gòu)圖中工作。對于每RGCN會為其單獨(dú)計(jì)算一個(gè)卷積操作。這意味著在RGCN中,每個(gè)節(jié)點(diǎn)的特征更新要考慮到征。不同之處在于每個(gè)鄰居節(jié)點(diǎn)的特征聚合過程要根據(jù)關(guān)系類在計(jì)算機(jī)視覺領(lǐng)域,卷積層通常跟隨一個(gè)池化層以獲得更通用的特征。復(fù)雜和大規(guī)模的圖通常具有重要的分層結(jié)構(gòu),對于節(jié)點(diǎn)級和圖級分類任務(wù)非常重要。池化算子主要用于對圖進(jìn)行下采樣和特征聚合,幫助模型從復(fù)雜的圖結(jié)構(gòu)中提取更具全局性的表示。在圖神經(jīng)網(wǎng)絡(luò)中,池化層通過減少節(jié)點(diǎn)或邊的數(shù)量,對圖進(jìn)行下采樣。這種降維操作幫助簡化圖結(jié)構(gòu),降低圖的復(fù)雜度,保留重要的子結(jié)構(gòu),從而使模型能夠在更低維的空間中進(jìn)行學(xué)習(xí),池化層可以通過在圖的不同區(qū)域進(jìn)行聚合,幫助模型從局部信息轉(zhuǎn)向全局信息。對于大型圖,逐層池化可以使模型獲得更加抽象SimplePool通過不同的節(jié)點(diǎn)選擇策略直接學(xué)習(xí)圖級別的為讀出函數(shù)。一些模型使用簡單節(jié)點(diǎn)池化方法。在這些模型中,對節(jié)點(diǎn)特征進(jìn)行節(jié)點(diǎn)最大值/平均DiffPool(DifferentiablePool)是圖神經(jīng)網(wǎng)絡(luò)中的一種經(jīng)典的分層池化方法,它通過可微分的方式學(xué)習(xí)圖的層次化結(jié)構(gòu),從而實(shí)現(xiàn)圖的多層級抽象和下采樣[70]。相比于簡單的池化方法(如最大池化或平均池化),DiffPool不僅僅是簡單地聚合鄰居節(jié)點(diǎn)的特征,而是動態(tài)地學(xué)習(xí)如何將節(jié)點(diǎn)聚類到某些超節(jié)點(diǎn)上,形成圖的更緊湊表示。DiffPool的關(guān)鍵在于通過神經(jīng)網(wǎng)絡(luò)直結(jié)構(gòu),并且這個(gè)結(jié)構(gòu)可以在模型的訓(xùn)練過程中動態(tài)調(diào)整。它通過學(xué)習(xí)一個(gè)軟分配矩陣,將圖中的節(jié)點(diǎn)映射到若干聚類,然后在每個(gè)聚類中進(jìn)行特征的聚合。DiffPool能夠自動學(xué)習(xí)圖中節(jié)點(diǎn)之聚合關(guān)系,從而動態(tài)生成更小的圖。它能夠處理具有復(fù)雜拓?fù)浣Y(jié)構(gòu)的圖,而無需事先指定圖的層次信息。通過逐層池化和聚合,DiffPool可以捕捉到圖的全局結(jié)構(gòu)。每一層都對圖進(jìn)得最終的輸出是圖的緊湊、高層次表示,有助于提升圖分類、聚類等任務(wù)的性能。對于節(jié)點(diǎn)數(shù)不固定或結(jié)構(gòu)多樣的圖,DiffPool提供了靈活的處理方式,通過學(xué)習(xí)層次結(jié)構(gòu)來適應(yīng)不同的圖結(jié)構(gòu),gPool(GraphPool)是圖神經(jīng)網(wǎng)絡(luò)中的一種經(jīng)典的分層池化方法,它通過學(xué)習(xí)節(jié)點(diǎn)的分來選擇節(jié)點(diǎn),并動態(tài)地對圖進(jìn)行下采樣[71]。gPool的核心是通過一個(gè)可訓(xùn)練的得分函數(shù)來計(jì)算每個(gè)節(jié)點(diǎn)的重要性分?jǐn)?shù)。這個(gè)分?jǐn)?shù)用于選擇節(jié)點(diǎn),從而將圖的結(jié)構(gòu)和節(jié)點(diǎn)特征壓縮為更簡潔的形式。它不僅可以減小圖的規(guī)模,還能保留重要的結(jié)構(gòu)信息,增強(qiáng)圖神經(jīng)網(wǎng)絡(luò)的全局表示能力。gPool使用一個(gè)可訓(xùn)練的投影向量來計(jì)算每個(gè)節(jié)點(diǎn)的得分。得分通過節(jié)點(diǎn)特征與投影向量的內(nèi)積來通常為總節(jié)點(diǎn)數(shù)的一個(gè)固定比例。通過這種方式,gPool保留得分最高的節(jié)點(diǎn),并丟棄得分較低的SAGPool(Self-AttentionGraphPool)是一種基于自注意力機(jī)制的圖神經(jīng)網(wǎng)絡(luò)池化方法。它通它將圖卷積與自注意力機(jī)制相結(jié)合,動態(tài)選擇圖中的重要節(jié)點(diǎn),從而在降低圖的復(fù)雜度的同時(shí),過圖卷積操作,每個(gè)節(jié)點(diǎn)不僅考慮了自身特征,還聚合了其鄰居節(jié)點(diǎn)的信息,從而形成一個(gè)全局并選擇得分最高的前k節(jié)點(diǎn)。k通常是節(jié)點(diǎn)總數(shù)的一個(gè)例來實(shí)現(xiàn),被選擇的節(jié)點(diǎn)會形成一個(gè)新的子圖,保留的節(jié)點(diǎn)的特征和結(jié)構(gòu)將繼續(xù)用于后續(xù)的網(wǎng)絡(luò)層處理。特征矩陣和鄰接矩陣會根據(jù)選中的節(jié)點(diǎn)進(jìn)行更新,以僅包含這些關(guān)鍵節(jié)點(diǎn)及其對應(yīng)的邊。SAGPool的自注意力機(jī)制允許每個(gè)節(jié)點(diǎn)通過EdgePool是一種圖神經(jīng)網(wǎng)絡(luò)中基于邊坍縮的經(jīng)典分層池化方法,它主要通過對邊進(jìn)行池化來減少圖的復(fù)雜性。這種方法在圖的降維過程中不同于傳統(tǒng)的節(jié)點(diǎn)池化方法,而是通過學(xué)習(xí)重要的圖的邊進(jìn)行池化來實(shí)現(xiàn)圖的下采樣。它通過學(xué)習(xí)每條邊的重要性來選擇保留的邊,從而得到一個(gè)更加緊湊的圖表示。相較于節(jié)點(diǎn)池化方法,EdgePool專注于保留圖的關(guān)鍵邊,保持圖的結(jié)構(gòu)完整性。EdgePool使用一個(gè)學(xué)習(xí)到的邊權(quán)重來評估每條邊的重要性。這些邊權(quán)重可以通過神經(jīng)網(wǎng)絡(luò)計(jì)算得到。根據(jù)邊的重要性得分,EdgePool按得選擇過程可以通過設(shè)置閾值或按比例選擇來實(shí)現(xiàn),在選擇了重要的邊之后,EdgePool會更新圖的鄰接矩陣,保留這些關(guān)鍵邊。更新后的鄰接矩陣僅包含保留的邊的信息。節(jié)點(diǎn)的特征矩陣X也會保持不變,但圖的結(jié)構(gòu)被簡化為僅包含重要的邊。在更新圖的結(jié)構(gòu)后,EdgePool會根據(jù)保留的邊來重新聚合節(jié)點(diǎn)特征。節(jié)點(diǎn)的特征通過鄰接矩陣中的邊信息來重新計(jì)盡管圖神經(jīng)網(wǎng)絡(luò)(GNN)在各個(gè)領(lǐng)域取得了顯著成功,但它們在實(shí)際應(yīng)用中仍面臨一些關(guān)鍵魯棒性:GNN易受到對抗攻擊,這些攻擊不僅針對節(jié)點(diǎn)特征,還涉及圖結(jié)構(gòu)信息。盡管已有可解釋性:GNN通常被視為“黑匣子”,缺乏明確的解釋能力。雖然已有少數(shù)方法嘗試為圖預(yù)訓(xùn)練:類似于計(jì)算機(jī)視覺和自然語言處理中的預(yù)訓(xùn)練方法,圖數(shù)據(jù)的自監(jiān)督學(xué)習(xí)和預(yù)訓(xùn)練也顯示出潛力。然而,目前在圖預(yù)訓(xùn)練領(lǐng)域仍面臨許多挑戰(zhàn),如設(shè)計(jì)有效的預(yù)訓(xùn)練任務(wù)和評估圖神經(jīng)網(wǎng)絡(luò)是一種用于處理圖結(jié)構(gòu)數(shù)據(jù)的深度學(xué)習(xí)模型,旨在同時(shí)捕捉拓?fù)湫畔⒑吞卣餍畔ⅰD神經(jīng)網(wǎng)絡(luò)通過堆疊多個(gè)圖廣播層為圖中的每個(gè)節(jié)點(diǎn)生成一個(gè)包含聚合鄰居信息和特征信息的嵌入表示。具體來說,每一層的計(jì)算模式可以被抽象成四個(gè)計(jì)算步驟[81][82][83]:ScatterToEdge,EdgeForward,Gather&Aggregate,VertexForward。下圖是一個(gè)單層計(jì)算模式的示例(以節(jié)點(diǎn)2為ScatterToEdge是一個(gè)邊消息生成操作,用于將源節(jié)點(diǎn)和目的節(jié)點(diǎn)的表示向量(屬性向量)發(fā)送到邊上用于參數(shù)化的神經(jīng)網(wǎng)絡(luò)計(jì)算;EdgeForward是一個(gè)定義在邊上的神經(jīng)網(wǎng)絡(luò)計(jì)算,通過合并源節(jié)點(diǎn)和目的節(jié)點(diǎn)的表示來計(jì)算邊上輸出消息;Gather&Aggregate的信息并進(jìn)行聚合(如求和、平均等)以更新自身表示VertexForwa網(wǎng)絡(luò)計(jì)算,通過神經(jīng)網(wǎng)絡(luò)來更新聚合的信息節(jié)新的節(jié)點(diǎn)表示再進(jìn)入下一層執(zhí)行計(jì)算。通過堆疊多個(gè)圖廣播層可以構(gòu)建一個(gè)深層的圖神經(jīng)網(wǎng)絡(luò)任務(wù)以擴(kuò)大節(jié)點(diǎn)聚合信息的范圍。最終,經(jīng)過多層計(jì)算得到的節(jié)點(diǎn)嵌入可以用于下游計(jì)算任務(wù),的訓(xùn)練和推理是指在單個(gè)計(jì)算節(jié)點(diǎn)上完成GNN算資源較為有限的場景。它具有實(shí)現(xiàn)簡單、易于調(diào)試的優(yōu)點(diǎn),但在處理大規(guī)模圖數(shù)據(jù)時(shí)會面臨計(jì)行并行處理,以應(yīng)對大規(guī)模圖數(shù)據(jù)和復(fù)雜的模型訓(xùn)練。分布式GNN性能,但其實(shí)現(xiàn)相對復(fù)雜,需考慮計(jì)算節(jié)點(diǎn)之間的數(shù)據(jù)傳輸和同步問題??傮w而言,選擇使用單全圖訓(xùn)練中,內(nèi)存資源是首要限制。有限的GPU內(nèi)存可能無法一次性加載整個(gè)大圖。NeutronStar[84]使用分塊的技術(shù),將大圖分為多個(gè)子圖,在訓(xùn)練過程中然而,全圖訓(xùn)練使用全鄰居聚合范式以及全局梯度下降算法,子圖之間的共同鄰居需要被頻繁傳輸,并且子圖訓(xùn)練產(chǎn)生的中間結(jié)果需要持續(xù)累積,直到反向傳播階段才能釋放。因此,ROC[85]提),微批量訓(xùn)練中,采樣-聚合-訓(xùn)練的范式已經(jīng)成為廣泛應(yīng)用的策略。該范式將訓(xùn)練過程分解為三個(gè)獨(dú)立的步驟:圖采樣、特征提取和訓(xùn)練,并將這些步驟部署在不同的計(jì)算設(shè)備上,以實(shí)現(xiàn)高效此外,為了提高大規(guī)模圖數(shù)據(jù)的訓(xùn)練效率,CPU-GPU之間的數(shù)據(jù)傳輸,緩存以及流水線并行樣后的子圖結(jié)構(gòu)和相應(yīng)的節(jié)點(diǎn)特征。在這個(gè)過程中,通信的效率直接影響系統(tǒng)的整體性能。因此,第二,將較簡單的任務(wù)(如采樣)放在CPU執(zhí)行,緩存技術(shù)指的是將頻繁訪問的節(jié)點(diǎn)特征、鄰接關(guān)系或嵌入預(yù)先存儲在G繁的CPU-GPU數(shù)據(jù)傳輸,有效減少了CPU-GPU之間的通信負(fù)擔(dān),從而提升性能。例如,NeutronOrch[87]通過熱度感知的嵌入重用技術(shù)可以識別訓(xùn)練中頻繁訪問的“熱節(jié)點(diǎn)”,并將這些頂點(diǎn)的嵌入數(shù)據(jù)預(yù)先存儲在GPU中,從而提高訓(xùn)流水線技術(shù)是指異構(gòu)設(shè)備并行處理不同的任務(wù)。在分批次訓(xùn)練時(shí),數(shù)據(jù)通常是逐批加載的,緩存部分子圖或節(jié)點(diǎn)特征到GPU有助于加快每批次的處理速度。為了進(jìn)一步優(yōu)化,Ne在分布式圖神經(jīng)網(wǎng)絡(luò)系統(tǒng)訓(xùn)練和推理中,為了提高大規(guī)模圖數(shù)據(jù)的訓(xùn)練效率,通常需要結(jié)合多種策略來優(yōu)化計(jì)算和通信性能。這些策略主要包括并行加速、圖劃分、通信優(yōu)化和迭代加速等方法,它們從不同的角度解決分布式環(huán)境下的并行加速策略主要包括流水線并行[88]、數(shù)據(jù)并行[89]和張量并行[90]。流水線并行將模型按層劃分,不同設(shè)備同時(shí)處理不同批次不同層的數(shù)據(jù)并更新各自的參數(shù);數(shù)據(jù)并行則將數(shù)據(jù)劃分給多個(gè)設(shè)備,每個(gè)設(shè)備擁有完整的模型副本,獨(dú)立進(jìn)行前向和反向傳播后匯總梯度更新模型;張量并行通過將節(jié)點(diǎn)特征或嵌入按維度切分到多個(gè)設(shè)備,每個(gè)設(shè)備處理一部分張量并同步必要信息,圖劃分策略則包括哈希、Metis[91]、Metis-extend和流式劃分四種方法。哈希劃分通過隨機(jī)映將圖劃分為大小相等的子圖,并盡可能減少子圖之間連邊,從而減少通信;Metis-extend進(jìn)一步優(yōu)化了Metis算法,使用聚類算法和額外約束,確保子圖中的鄰居邊的數(shù)量;流式劃分則采用動態(tài)策略,雖然其優(yōu)先考慮減少子圖間連邊從而減少通信開銷,但未通信優(yōu)化算法旨在通過提升通信效率來改善訓(xùn)練性能,分為無損和有損兩類。無損通信優(yōu)化通過優(yōu)先級緩存[92]和部分緩存[93]等技術(shù)對節(jié)點(diǎn)特征數(shù)據(jù)進(jìn)行緩存,顯著提高了數(shù)據(jù)緩存利用率和傳輸效率,并確保模型的準(zhǔn)確性不受影響。有損通信優(yōu)化則通過邊界節(jié)點(diǎn)的隨機(jī)采樣、選擇性丟棄部分節(jié)點(diǎn)數(shù)據(jù)[94]以及對通信數(shù)據(jù)進(jìn)行量化[95],減少了傳輸數(shù)據(jù)量,不過也降低了數(shù)據(jù)的精度。盡管有損策略引入了精度損失,但適度的削減在保證模型性能的同時(shí),有效縮短了訓(xùn)練時(shí)間,迭代加速策略通過同步異步混合模式優(yōu)化訓(xùn)練效率與模型準(zhǔn)確性之間的平衡。該模式結(jié)合了同步和異步機(jī)制,適應(yīng)不同的網(wǎng)絡(luò)和計(jì)算需求,提升訓(xùn)練性能。陳舊的同步并行(SSP,StaleSynchronousParallel)中的有界陳舊性允許異步訓(xùn)練[96],并在固定迭代次數(shù)后進(jìn)行同步更新。這使得它能夠更好地適應(yīng)不同的硬件和網(wǎng)絡(luò)環(huán)境,在多節(jié)點(diǎn)分隨著圖神經(jīng)網(wǎng)絡(luò)的迅速發(fā)展,它們在處理圖結(jié)構(gòu)數(shù)據(jù)方面顯示出了卓越的能力,被廣泛應(yīng)用于金融分析、交通預(yù)測、藥物發(fā)現(xiàn)等高風(fēng)險(xiǎn)場景。然而,盡管圖神經(jīng)網(wǎng)絡(luò)在真實(shí)世界中具有巨大的潛力,最近的研究顯示它們可能泄露私人信息、易受對抗性攻擊、可能從訓(xùn)練數(shù)據(jù)中繼承并放大社會偏見,并且難以泛化到分布外數(shù)據(jù),這些風(fēng)險(xiǎn)可能無意中對用戶和社會造成傷害。例如,已有研究表明,攻擊者可以通過在訓(xùn)練圖上進(jìn)行微小的擾動來欺騙圖神經(jīng)網(wǎng)絡(luò),使其產(chǎn)生他們期望的結(jié)果;在社交網(wǎng)絡(luò)上訓(xùn)練的圖神經(jīng)網(wǎng)絡(luò)可能將歧視嵌入其決策過程中,加強(qiáng)了不希望看到的社會偏見。因此,從多個(gè)方面提升圖神經(jīng)網(wǎng)絡(luò)的可信性,如圖神經(jīng)網(wǎng)絡(luò)在魯棒性、公平性、以及分布外泛化等方面,以防止這些潛在的傷害,并增加用戶對圖神經(jīng)網(wǎng)絡(luò)的信任變得尤為深度學(xué)習(xí)模型通常缺乏對抗魯棒性,即模型很容易誤分類對抗樣本。對抗樣本是經(jīng)過精心設(shè)計(jì)或修改的輸入樣本,目標(biāo)是誤導(dǎo)模型產(chǎn)生錯(cuò)誤的預(yù)測結(jié)果或降低模型的性能。只有模型對對抗攻擊能夠保持穩(wěn)定的性能,模型才是對抗魯棒的。對于圖像分類任務(wù),攻擊者可利用梯度信息構(gòu)造微小擾動,添加到原始圖片以生成對抗樣本,使人眼難以發(fā)現(xiàn)對抗樣本與原始樣本的區(qū)別,但深度學(xué)習(xí)模型會以很高的概率將對抗樣本錯(cuò)分為其他類別。這表示深度學(xué)習(xí)模型的假設(shè)或設(shè)計(jì)存在漏洞,依賴于一些非本質(zhì)的特征,例如模型通過復(fù)雜深度模型建模的數(shù)據(jù)間的統(tǒng)計(jì)特征。這將阻礙深度學(xué)習(xí)模型在法律、金融、醫(yī)藥、軍事、人臉識別、自動駕駛等安全敏感領(lǐng)域的應(yīng)用。為此,對抗攻擊作為一個(gè)強(qiáng)大的安全分析工具,常被用于探測深度學(xué)習(xí)模型的漏洞、發(fā)現(xiàn)安全隱患,構(gòu)建可信的人工智能系統(tǒng)。隨著對抗攻擊的發(fā)展,揭示出了模型的脆弱性,而相應(yīng)的多種防御技術(shù)也相繼被提出。這個(gè)領(lǐng)域在攻防競賽過程中進(jìn)一步深入探索了深度學(xué)習(xí)魯棒性[3]。作為深度學(xué)習(xí)在圖上的擴(kuò)展,圖神經(jīng)網(wǎng)絡(luò)也可能存在著對抗風(fēng)險(xiǎn),考慮到圖神經(jīng)網(wǎng)絡(luò)已在各個(gè)領(lǐng)域被廣泛應(yīng)用,研究其對抗魯棒性具有重大實(shí)際意義。然而,圖神經(jīng)網(wǎng)絡(luò)有著不同于深度學(xué)習(xí)的對抗魯棒性:一方面,不同于圖像具有連續(xù)的像素特征空間,圖神經(jīng)網(wǎng)絡(luò)應(yīng)用的圖數(shù)據(jù)包含著特征、拓?fù)湟约皹?biāo)簽等多類型數(shù)據(jù),且拓?fù)浣Y(jié)構(gòu)信息是離散的,這給擾動的生成以及不可見擾動的定義帶來巨大挑戰(zhàn);另一方面,圖數(shù)據(jù)中不同實(shí)例(節(jié)點(diǎn))之間并非完全獨(dú)立,實(shí)例之間存在著關(guān)聯(lián)關(guān)系(邊),即操縱一個(gè)實(shí)例可能通過消息傳遞影響到其他實(shí)例。因此一些研究者開始深入探索圖神經(jīng)網(wǎng)絡(luò)的魯棒性,如圖所示,在原始圖上生成微量的拓?fù)鋽_動和特征擾動,使得圖神經(jīng)網(wǎng)絡(luò)錯(cuò)誤預(yù)測目標(biāo)節(jié)點(diǎn)的標(biāo)簽。具體而言,研究者嘗試向拓?fù)涔裟P椭幸敫_的梯度近似方式以生成高效離散拓?fù)鋽_動,并重新定義了拓?fù)浣Y(jié)構(gòu)下的隱蔽性,例如通過限制擾動邊總隨著人們對于圖神經(jīng)網(wǎng)絡(luò)安全性的關(guān)注,圖對抗攻防研究不斷取得新的進(jìn)展。主要研究方法對抗訓(xùn)練:對抗訓(xùn)練是一種流行且有效的方法,廣泛應(yīng)用于計(jì)算機(jī)視覺中防御逃避攻擊。這種方法同時(shí)生成可以欺騙分類器的對抗樣本,并讓分類器對原始樣本及其擾動版本給出相似的預(yù)測,從而提高分類器的魯棒性。同時(shí),對抗訓(xùn)練這一方法也被用于防御圖對抗攻擊。認(rèn)證魯棒:雖然多種方法如圖對抗訓(xùn)練可以提高對對抗樣本的魯棒性,但總有可能會開發(fā)出新的攻擊方法使得防御措施失效,導(dǎo)致一場無休止的攻防賽。為了解決這個(gè)問題,最近的工作開始分析圖神經(jīng)網(wǎng)絡(luò)的認(rèn)證魯棒性,以了解最壞情況下的攻擊將如何影響模型。認(rèn)證魯棒性旨在為潛在擾動下仍然魯棒的節(jié)點(diǎn)提供證書。這些證書通過解優(yōu)化問題獲得。此外,還可以通過隨機(jī)平滑技術(shù)注入噪聲到測試樣本中以減輕對抗性擾動的負(fù)面效應(yīng),并提供認(rèn)證保證。這種方法證明了公平性是可信圖神經(jīng)網(wǎng)絡(luò)中最重要的方面之一。隨著圖神經(jīng)網(wǎng)絡(luò)的迅速發(fā)展,圖神經(jīng)網(wǎng)絡(luò)已被應(yīng)用于多種場景。然而,近期的研究表明,類似于傳統(tǒng)機(jī)器學(xué)習(xí)模型處理獨(dú)立同分布數(shù)據(jù)時(shí)所表現(xiàn)出的問題,圖神經(jīng)網(wǎng)絡(luò)也可能因數(shù)據(jù)中存在的社會偏見而給出不公平的預(yù)測結(jié)果。例如,在圖神經(jīng)網(wǎng)絡(luò)的書籍推薦系統(tǒng)中,因?yàn)槟行宰髡咻^多,圖神經(jīng)網(wǎng)絡(luò)可能偏向于推薦男性作者的書籍,表明圖神經(jīng)網(wǎng)絡(luò)可能對少數(shù)群體存在歧視,從而導(dǎo)致社會問題。此外,這種歧視可能嚴(yán)重限制圖神經(jīng)網(wǎng)絡(luò)在其他領(lǐng)域的廣泛應(yīng)用,如職位申請者排名和貸款欺詐檢測,并可能引起法律問題[132]。訓(xùn)練數(shù)據(jù)中的偏見甚至可能通過圖神經(jīng)網(wǎng)絡(luò)的圖拓?fù)浣Y(jié)構(gòu)和消息傳遞機(jī)制被放大,如圖所示,不同顏色的節(jié)點(diǎn)代表具有不同敏感屬性的節(jié)點(diǎn)a)中不同敏感屬性的節(jié)點(diǎn)在圖上均勻分布,是無偏圖b)中屬于同一敏感屬性的節(jié)點(diǎn)更容易聚集在一起,是有偏圖。在有偏圖上經(jīng)過消息傳遞后,特征輸出空間中屬于同一敏感群體的節(jié)點(diǎn)的特征聚在一起,不同敏感群體的節(jié)點(diǎn)的特征更加區(qū)分開,所以模型可以根據(jù)某個(gè)節(jié)點(diǎn)的特征判斷該節(jié)點(diǎn)屬于哪一個(gè)敏感群體,從而利用這一信息做出歧視性的預(yù)測。因此,確保圖神經(jīng)網(wǎng)絡(luò)不對用戶表現(xiàn)出歧視至關(guān)重要。為此,最近涌現(xiàn)了對抗去偏:對抗學(xué)習(xí)最初被用于處理獨(dú)立同分布數(shù)據(jù)的公平機(jī)器學(xué)習(xí)模型中,目的是消除偏見。這種方法已被擴(kuò)展到圖結(jié)構(gòu)數(shù)據(jù)。在對抗性去偏的過程中,使用一個(gè)對抗模型來預(yù)測編碼器生成的表示中的敏感屬性。編碼器的目標(biāo)是生成能夠欺騙對抗模型并且能夠準(zhǔn)確預(yù)測任務(wù)結(jié)果的表示。通過這種方式,最終的表征將不包含任何敏感信息,添加公平性約束:除了對抗性去偏之外,直接在機(jī)器學(xué)習(xí)模型的目標(biāo)函數(shù)中添加公平性約束也是一個(gè)常用的方法。這些約束通?;诠叫远x。這些公平性約束作為正則化項(xiàng)存在,目的是在保持預(yù)測性能的同時(shí),平衡模型的公平性。這樣的目標(biāo)函數(shù)結(jié)構(gòu)有助于在不犧牲模型實(shí)用性盡管圖神經(jīng)網(wǎng)絡(luò)取得了顯著的成功,現(xiàn)有文獻(xiàn)普遍假設(shè)測試和訓(xùn)練圖數(shù)據(jù)來自相同分布,即分布內(nèi)假設(shè)。然而,在現(xiàn)實(shí)世界中,這種假設(shè)很難得到滿足,測試與訓(xùn)練圖之間的分布偏移不可避免,這些經(jīng)典的圖神經(jīng)網(wǎng)絡(luò)缺乏分布外泛化能力,在分布偏移下性能顯著下降。因此,開發(fā)能夠在圖上進(jìn)行分布外泛化的方法顯得尤為重要,特別是對于高風(fēng)險(xiǎn)的圖應(yīng)用,例如分子預(yù)測、金融分析、刑事司法、自動駕駛、粒子物理學(xué)、疫情的流行預(yù)測分布外泛化算法旨在未知分布偏移下實(shí)現(xiàn)令人滿意的泛化性能。由于越來越多的處理實(shí)際場景中未見過的數(shù)據(jù)的需求,圖上的分布外泛化自然成為一個(gè)有前景的研究方向,以促進(jìn)圖機(jī)器學(xué)圖數(shù)據(jù)增強(qiáng)技術(shù):圖數(shù)據(jù)增強(qiáng)技術(shù)依賴于訓(xùn)練數(shù)據(jù)的多樣性和質(zhì)量,以提高圖模型的泛化性能。通過適當(dāng)?shù)膱D增強(qiáng)技術(shù),可以簡單地獲得更多的圖實(shí)例進(jìn)行訓(xùn)練。圖數(shù)據(jù)增強(qiáng)的方法通常歸納為三種策略:結(jié)構(gòu)增強(qiáng)、特征增強(qiáng)以及混合類型增強(qiáng)。結(jié)構(gòu)增強(qiáng)涉及修改圖的拓?fù)浣Y(jié)構(gòu),例如添加或刪除節(jié)點(diǎn)和邊;特征增強(qiáng)則是修改節(jié)點(diǎn)或邊的特征;混合類型增強(qiáng)同時(shí)結(jié)合結(jié)構(gòu)和特征的修改。這些增強(qiáng)方法旨在通過增加訓(xùn)練數(shù)據(jù)的代表性和豐富性,提高模型在未見過的數(shù)據(jù)分布上特定圖模型設(shè)計(jì):除了通過增強(qiáng)輸入圖數(shù)據(jù)以實(shí)現(xiàn)良好的分布外泛化外,還有一些研究專門設(shè)計(jì)新的圖模型,引入一些先驗(yàn)知識到模型設(shè)計(jì)中,使得圖模型具有改善分布外泛化的圖表征的能力。在這一類方法中,兩種流行的技術(shù)是基于解耦的圖模型和基于因果關(guān)系的圖模型?;诮怦畹膱D模型通過分離表征中的相關(guān)因素來提高泛化能力;而基于因果關(guān)系的圖模型則利用因果推斷原理來設(shè)計(jì)圖結(jié)構(gòu),從而使模型能夠更好地理解和適應(yīng)數(shù)據(jù)分布的變化。這些技術(shù)通過在模型設(shè)計(jì)階段引入結(jié)構(gòu)化的知識,助力模型在面對實(shí)際應(yīng)用中數(shù)據(jù)分布變化時(shí),依然能保持較好的預(yù)近年來,圖神經(jīng)網(wǎng)絡(luò)和大型語言模型的融合引起了廣泛的關(guān)注。圖大模型旨在處理大規(guī)模的圖數(shù)據(jù),為復(fù)雜的圖推理任務(wù)提供強(qiáng)大的工具。然而,由于圖數(shù)據(jù)的復(fù)雜性和非結(jié)構(gòu)化特點(diǎn),構(gòu)建高效、可擴(kuò)展的圖大模型面臨諸多挑戰(zhàn)。首先,大規(guī)模圖的存儲和計(jì)算需求巨大。在模型訓(xùn)練和推理過程中,計(jì)算復(fù)雜度高,容易導(dǎo)致內(nèi)存和時(shí)間成本過高。這對硬件資源和算法效率提出了更高的要求。其次,在處理不同類型的圖數(shù)據(jù)時(shí),模型需要具備良好的泛化能力,能夠適應(yīng)不同規(guī)模和結(jié)構(gòu)的圖,同時(shí)保持高效的性能。這對于模型的架構(gòu)設(shè)計(jì)和訓(xùn)練方法都是一大挑戰(zhàn)。此外,相較于自然語言處理領(lǐng)域,圖數(shù)據(jù)集的規(guī)模和多樣性較為有限,缺乏統(tǒng)一的評估基準(zhǔn)。這使得模型性能的客觀評估和比較變得困難,阻礙了領(lǐng)域的進(jìn)一步圖基礎(chǔ)模型的具體定義是指在廣泛的圖數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練并能夠適應(yīng)多種下游圖任務(wù)的模型1、縮放法則:模型性能隨著參數(shù)規(guī)模、數(shù)據(jù)集規(guī)模和訓(xùn)練計(jì)算量的增長而持續(xù)改進(jìn),預(yù)期大2、同質(zhì)泛化能力:具備同質(zhì)泛化能力的預(yù)訓(xùn)練的大型圖模型,能統(tǒng)一處理不同領(lǐng)域的圖數(shù)據(jù)和任務(wù)。模型需理解圖的內(nèi)在結(jié)構(gòu),擁有圖的常識知識。圖基礎(chǔ)模型應(yīng)理解圖上下文(節(jié)點(diǎn)、邊、子圖和全圖),無需過多修改。此能力與少樣本/零樣本學(xué)習(xí)、多任務(wù)學(xué)習(xí)和分布外泛化相關(guān),使3、多任務(wù)適應(yīng)性:圖數(shù)據(jù)中的任務(wù)類型多樣化,主要可以分為三大類:節(jié)點(diǎn)級任務(wù)、邊級任務(wù)和圖級任務(wù),每一類任務(wù)都涉及廣泛的應(yīng)用領(lǐng)域。每類任務(wù)在數(shù)據(jù)結(jié)構(gòu)、目標(biāo)函數(shù)以及優(yōu)化方式上都有顯著差異。能夠有效處理并統(tǒng)一不同任務(wù)是圖基礎(chǔ)模型真正同質(zhì)泛化和普適化能力的關(guān)4、圖推理能力:圖基礎(chǔ)模型需理解圖拓?fù)浣Y(jié)構(gòu),如大小、度數(shù)、節(jié)點(diǎn)連通性,并進(jìn)行多跳推理以利用高階信息。這能力增強(qiáng)決策可解釋性,類似思維鏈,還需處理全局結(jié)構(gòu)與復(fù)雜模式,如雖然圖基礎(chǔ)模型有許多值得期待的能力,但目前尚未出現(xiàn)如ChatGPT一樣成功的圖基礎(chǔ)模型。1、圖數(shù)據(jù)資源:構(gòu)建大規(guī)模、多樣化的圖數(shù)據(jù)集對于訓(xùn)練穩(wěn)健模型至關(guān)重要。圖基礎(chǔ)模型的構(gòu)建必須考慮圖數(shù)據(jù)的獨(dú)特特性。首先,根據(jù)不同的數(shù)學(xué)建模方法,圖數(shù)據(jù)可以分為同質(zhì)圖和異質(zhì)圖。對于圖基礎(chǔ)模型來說,處理異質(zhì)圖的難度更大,這需要對主干網(wǎng)絡(luò)進(jìn)行特定的設(shè)計(jì)和優(yōu)化。其次,現(xiàn)實(shí)世界中的圖數(shù)據(jù)集規(guī)模可能非常龐大,處理如此大規(guī)模的圖數(shù)據(jù)一直是圖學(xué)習(xí)領(lǐng)域的挑戰(zhàn)。對于圖基礎(chǔ)模型來說,海量且高度互聯(lián)的圖數(shù)據(jù)對模型的能力提出了更高要求。此外,圖數(shù)據(jù)所涵蓋的領(lǐng)域多樣性也是一個(gè)顯著特征。圖基礎(chǔ)模型需要能夠處理跨領(lǐng)域的數(shù)據(jù),并理解不2、圖表示基礎(chǔ):研究如何有效地表示圖結(jié)構(gòu),平衡表達(dá)能力和計(jì)算效率是圖基礎(chǔ)模型深入理解圖結(jié)構(gòu)本質(zhì)及規(guī)律的前置基礎(chǔ)。圖嵌入、圖卷積網(wǎng)絡(luò)、圖注意網(wǎng)絡(luò)、圖同構(gòu)網(wǎng)絡(luò)等技術(shù)能實(shí)現(xiàn)圖結(jié)構(gòu)的基礎(chǔ)表示能力。社區(qū)檢測、子圖匹配等分層和局部表示技術(shù)能通過識別和利用圖中的重復(fù)模式和結(jié)構(gòu),能夠在保留關(guān)鍵特征的同時(shí)降低計(jì)算復(fù)雜度。稀疏化、節(jié)點(diǎn)抽樣和圖近似等圖降和推理能力。指令微調(diào)和提示策略有望彌合文本模型與圖推理任務(wù)間的差距,通過指令微調(diào)將圖領(lǐng)域知識融入LLM,提升圖任務(wù)表現(xiàn),為結(jié)合LLM和圖推型開發(fā)技術(shù)包括提示學(xué)習(xí)(prompting)、高效參數(shù)微調(diào)(parameter-efficientfine-tuning)、模型對齊(alignment)和模型壓縮(modelcompression)等。下面簡要總結(jié)用于圖模型的適配技4、基準(zhǔn)和標(biāo)準(zhǔn):NLGraph是一個(gè)用于評估語言模型在純自然語言描述下解決基于圖的問題的基準(zhǔn)。該基準(zhǔn)包含29,370個(gè)問題,涵蓋了八個(gè)不同復(fù)雜度的圖推理任務(wù),例如最短路徑尋找、連通性檢查和圖同構(gòu)[58]。像NLGraph這樣的基準(zhǔn)的引入對于1、跨學(xué)科融合:結(jié)合自然語言處理、圖論和機(jī)器學(xué)習(xí)等領(lǐng)域的優(yōu)勢,開發(fā)更全面的模型,促進(jìn)知識的交叉融合,構(gòu)建具有強(qiáng)大圖推理能力的模型,創(chuàng)建能夠理解復(fù)雜圖結(jié)構(gòu)和語言指令的模2、豐富圖數(shù)據(jù)集:構(gòu)建大規(guī)模、多樣化的圖數(shù)據(jù)集,涵蓋不同領(lǐng)域和應(yīng)用場景,為模型訓(xùn)練3、模型架構(gòu)創(chuàng)新:設(shè)計(jì)適合處理非歐幾里得結(jié)構(gòu)的高效神經(jīng)網(wǎng)絡(luò)架構(gòu),使模型適用于不同類4、優(yōu)化計(jì)算效率:開發(fā)新的算法和技術(shù),降低大規(guī)模圖模型的計(jì)算和存儲成本,提高模型的5、應(yīng)用拓展:將圖大模型應(yīng)用于社交網(wǎng)絡(luò)分析、生物信息學(xué)、知識圖譜等復(fù)雜領(lǐng)域,驗(yàn)證模6、模型可解釋性與安全性:加強(qiáng)對圖大模型的可解釋性研究,確保模型決策的透明與語言基礎(chǔ)模型在文本翻譯、生成等任務(wù)中取得的顯著成就相比,圖基礎(chǔ)模型在圖任務(wù)中的影響尚不確定。然而,在圖神經(jīng)網(wǎng)絡(luò)已經(jīng)展現(xiàn)出有效性的領(lǐng)域,如電子商務(wù)和金融,將圖基礎(chǔ)模型與大語言模型相結(jié)合,可能在開放性任務(wù)中進(jìn)一步提升性能。特別是在新興領(lǐng)域,如藥物研發(fā)在藥物開發(fā)這一復(fù)雜且昂貴的過程中,語言模型已經(jīng)在諸如靶點(diǎn)識別、副作用預(yù)測等任務(wù)中提供了重要的幫助。然而,由于蛋白質(zhì)等生物分子具有復(fù)雜的三維結(jié)構(gòu),基于文本的數(shù)據(jù)并不足以充分表達(dá)其特性。圖基礎(chǔ)模型通過對圖結(jié)構(gòu)信息進(jìn)行建模,可以更好地捕捉蛋白質(zhì)分子的結(jié)構(gòu)和相互作用,有望對藥物發(fā)現(xiàn)過程帶來革命性變化,極大加速新藥研此外,在城市計(jì)算領(lǐng)域,傳統(tǒng)的交通預(yù)測往往關(guān)注孤立的任務(wù),而忽略了整個(gè)交通系統(tǒng)的綜合性。通過將交通系統(tǒng)視為時(shí)空圖,圖基礎(chǔ)模型能夠?yàn)榻煌ㄏ到y(tǒng)中各參與者的行為提供更全面的理解。借助圖基礎(chǔ)模型,研究者能夠在分析不同交通節(jié)點(diǎn)、路線、參與者行為的基礎(chǔ)上,提出統(tǒng)一的解決方案,以應(yīng)對各種城市計(jì)算中的挑戰(zhàn)。例如,在復(fù)雜的交通網(wǎng)絡(luò)中,不同的路段、信號燈、交通工具等都可以被視為節(jié)點(diǎn)和邊,通過圖基礎(chǔ)模型的分析,可以優(yōu)化整個(gè)系統(tǒng)的運(yùn)作,從總的來說,雖然圖基礎(chǔ)模型在許多任務(wù)上的潛力尚需進(jìn)一步驗(yàn)證,但在一些特定領(lǐng)域,尤其是結(jié)合語言模型時(shí),圖基礎(chǔ)模型有望帶來顯著的性能提升,特別是在那些需要對結(jié)構(gòu)化信息進(jìn)行知識圖譜利用三元組描述事物之間的復(fù)雜關(guān)系。從圖的技術(shù)角度來看,大量三元組構(gòu)成的知識圖譜可以看作是一個(gè)有標(biāo)簽的有向圖,圖技術(shù)如圖神經(jīng)網(wǎng)絡(luò)、圖表示學(xué)習(xí)等在知識圖譜中有大量的應(yīng)用。從人工智能的角度來看,知識圖譜中包含圖結(jié)構(gòu)數(shù)據(jù)、文本數(shù)據(jù)、邏輯規(guī)則等,涉及多樣的人工智能技術(shù)應(yīng)用,是典型的圖與人工智能融合的研究領(lǐng)域。本小節(jié)將從知識表示、知識知識圖譜作為符號化的知識表示體系,具備高階語義、結(jié)構(gòu)嚴(yán)謹(jǐn)、復(fù)雜推理等能力。在大語本構(gòu)建大規(guī)模知識圖譜提供了有力工具;另一方面知識圖譜的高質(zhì)量、可解釋的知識表示和推理代的知識圖譜構(gòu)建與應(yīng)用。大模型時(shí)代的知識圖譜,可以從DIKW層次范式出發(fā),提供從數(shù)據(jù)(Data)、信息(Information)、知識(Knowledge)的完整表示能力,以實(shí)現(xiàn)信息完備性、知識數(shù)據(jù)(Data)表示原始未處理過的數(shù)據(jù),比如新聞、文章、事件、日志、數(shù)據(jù)等。信息(Informatioin)表示良好組織的結(jié)構(gòu)化數(shù)據(jù),比如關(guān)系數(shù)據(jù)庫、表格、圖表等。知識(Knowledge)是指從信息中總結(jié)出的規(guī)律、模式、關(guān)系,聚焦在知識在精準(zhǔn)性與邏輯嚴(yán)密性。智慧(Wisdom)在DIKW金字塔結(jié)構(gòu)中,越往下,上下文信息越完整,但是知識的精準(zhǔn)性與邏輯性越差;對應(yīng)的,越往上,知識的精準(zhǔn)性與邏輯性越強(qiáng),但上下文信息缺失越按主體類別粒度,知識可以劃分為概念類型、實(shí)體類型、事件類型、標(biāo)準(zhǔn)類型、關(guān)系類型等。實(shí)體:業(yè)務(wù)相關(guān)性比較強(qiáng)的客觀對象,多屬性、多關(guān)系刻畫的多元復(fù)合結(jié)構(gòu)類型,如用概念:實(shí)體從具體到一般的抽象,表述的是一組實(shí)體實(shí)例或事件實(shí)例的集合,是一種分類體系。相對靜態(tài),也是常識知識,具有較強(qiáng)復(fù)用性,如人群標(biāo)簽、事件分類、行政區(qū)企業(yè)事件、診療事件或因購買、核銷、注冊等行為產(chǎn)生的用屬性:屬性是實(shí)體、事件、概念等的組成要素,用以表述一個(gè)復(fù)雜結(jié)構(gòu)的各個(gè)獨(dú)立要素,每個(gè)屬性要素又會關(guān)聯(lián)為一個(gè)具體的簡單或復(fù)雜結(jié)構(gòu),如基礎(chǔ)類型、標(biāo)準(zhǔn)類型、概念類關(guān)系:關(guān)系的定義和屬性基本一致,表達(dá)同一個(gè)復(fù)雜對象與其他對象之間的關(guān)聯(lián),關(guān)系除實(shí)體、概念、事件、屬性、關(guān)系外,業(yè)務(wù)專家基于特定業(yè)務(wù)場景總結(jié)的各種規(guī)則、模式、觸發(fā)條件(如保險(xiǎn)理賠規(guī)則、疾病診斷規(guī)則等),也屬于知識的一種,邏輯規(guī)則可規(guī)則組可以將邏輯規(guī)則進(jìn)行組合,主要目的是將邏輯計(jì)算層次化createNodeInstance/createEdgeInstance:用于因果的邏輯結(jié)果的語部分內(nèi)容。這樣一種圖和文本混合的互索引結(jié)構(gòu),使得既可以在圖上進(jìn)行遍歷,也可以檢索文本塊,并進(jìn)行有效的分析。如上圖左側(cè)所示,通過圖結(jié)構(gòu)可以更有效地組織文檔間的關(guān)聯(lián)。根據(jù)文檔的篇章結(jié)構(gòu),段落間內(nèi)在的邏輯關(guān)聯(lián),實(shí)現(xiàn)Chunk兼具長度限制和語義約束,以適配大模型對窗口長度的限制,并實(shí)現(xiàn)同一分塊內(nèi)的內(nèi)容高度內(nèi)聚碼組成,文檔中相鄰的內(nèi)容其id也是連續(xù)的。同時(shí),文檔與切分出的語義分塊之間,也是互相關(guān)業(yè)務(wù)實(shí)體、實(shí)體間關(guān)系抽取自Chunk段落,通過實(shí)體消歧、實(shí)體歸一、實(shí)體融合、概念圖掛載、語義構(gòu)圖等圖譜技術(shù)棧,實(shí)現(xiàn)從歧義化、模糊化、碎片化的信息到明確化、標(biāo)準(zhǔn)化、網(wǎng)絡(luò)化的知識的轉(zhuǎn)變。實(shí)體中包含knowledge、information兩部分信息。knowledge指由業(yè)務(wù)專家預(yù)定義的,高頻、常見的知識,對應(yīng)的特征為強(qiáng)schema約束、結(jié)構(gòu)化數(shù)據(jù)、屬性和關(guān)系標(biāo)準(zhǔn)化;information指由大模型開放抽取得到的動態(tài)知實(shí)體類型包括預(yù)定義類型EntityType和semanticType;EntityType屬于高層級的分類,包括層級的分類,比如Person類別下的biochemis概念圖作為領(lǐng)域?qū)<抑R內(nèi)嵌到圖譜系統(tǒng)中,基于實(shí)體的semanticT知識抽取是從非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)中識別、提取和組織有價(jià)值的信息和知識的過程。其目標(biāo)是將各種形式的原始數(shù)據(jù)(如文本、圖像、音頻、視頻)轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù),以便于計(jì)算機(jī)系統(tǒng)理解、分析和利用。知識抽取的方法經(jīng)歷了多個(gè)發(fā)展階段:從早期依賴規(guī)則和模板的方法,到后來基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的技術(shù),再到深度學(xué)習(xí)方法的應(yīng)用,最終發(fā)展到如今使用預(yù)訓(xùn)練模型的知識圖譜的構(gòu)建和維護(hù)涉及多個(gè)知識抽取任務(wù),其中實(shí)體抽取、關(guān)系抽取和事件抽取是最核實(shí)體抽取,也稱為命名實(shí)體識別,用于識別數(shù)據(jù)源中的命名實(shí)體(包括人名、地名、組織名等),這些實(shí)體通常作為知識圖譜中的節(jié)點(diǎn),是知識圖譜中最基本的元素。例如,“2010年9月24日,馬青驊代表北京現(xiàn)代車隊(duì)參加中國房車錦標(biāo)賽,獲得鄂爾多斯站冠軍”中的信息可以通過賽事類型實(shí)體“中國房車錦標(biāo)賽”,地點(diǎn)實(shí)體“鄂爾多斯”和榮譽(yù)類型實(shí)體“冠軍”來直接表達(dá)。知識圖譜的質(zhì)量與實(shí)體抽取的完整性、準(zhǔn)確率和召回率息息相關(guān)。早期的實(shí)體抽取方法包括依賴規(guī)則和模板的方法以及利用統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法。基于規(guī)則和模板的方法依賴于預(yù)定義的規(guī)則和模板,當(dāng)所選用的規(guī)則能夠很好地反映文本信息時(shí),通常效果不錯(cuò)。例如,定義規(guī)則人名是兩個(gè)連續(xù)的首字母大寫的單詞,然后將符合規(guī)則的文本字符抽取為實(shí)體;基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法的核心想法是從標(biāo)注好的數(shù)據(jù)來中學(xué)習(xí)和推斷規(guī)律,以進(jìn)行實(shí)體抽取。近年來,隨著深度學(xué)習(xí)方法在自然語言處理、計(jì)算機(jī)視覺等領(lǐng)域取得顯著的突破,深度學(xué)習(xí)方法成為了實(shí)體抽取的主流方法。用于實(shí)體抽取任務(wù)的深度學(xué)習(xí)模型涵蓋了多種架構(gòu),包括卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)、長短期TermMemory,LSTM)、基于Transformer的預(yù)訓(xùn)練模型和圖神經(jīng)網(wǎng)絡(luò)(GraphNeuralNetwork,GNN)。CNN通過一系列卷積和池化操作,能夠有效地提取文本中的局部層進(jìn)行實(shí)體識別和分類;RNN逐個(gè)處理文本中的每個(gè)詞,利用其循環(huán)結(jié)構(gòu)保留并處理詞與詞之間的時(shí)間依賴信息,從而實(shí)現(xiàn)命名實(shí)體識別;GRU利用門控機(jī)制調(diào)節(jié)信息流動,能夠捕獲文本中長距離依賴關(guān)系,逐詞處理文本以實(shí)現(xiàn)命名實(shí)體識別;基于Transformer的方法采用多頭自注意力機(jī)制,可以并行處理序列中的所有詞,并直接在編碼器中獲取上下文信息;GNN將文本轉(zhuǎn)化為圖,通過實(shí)體抽取獲取的實(shí)體之間是離散且無關(guān)聯(lián)的。關(guān)系抽取用于識別實(shí)體之間的關(guān)系并建立起實(shí)體之間的語義鏈接。這些關(guān)系通常作為知識圖譜中的邊。例如,在句子“ChatGPT是由OpenAI開發(fā)的一種大語言模型”中,關(guān)系抽取任務(wù)會識別出(OpenAI,開發(fā),ChatGPT),(ChatGPT,是,大語言模型)這樣形式的三元組關(guān)系,從而構(gòu)建包括基于傳統(tǒng)規(guī)則和模板的方法和基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法?;趥鹘y(tǒng)規(guī)則和模板的方法依賴于手寫規(guī)則和模板,通過使用觸發(fā)詞和依存關(guān)系來匹配文本?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)的方法通過特征工程從文本中提取語法、詞法等信息,構(gòu)造特征向量,然后使用分類器來識別實(shí)體對之間的語義關(guān)系。近年來,深度學(xué)習(xí)方法成為了關(guān)系抽取的主流方法。關(guān)系抽取可以通過各種流行的神經(jīng)網(wǎng)絡(luò)的局部特征,RNN設(shè)計(jì)用于處理序列數(shù)據(jù),于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)增強(qiáng)了關(guān)系表示與文本表示之間的相關(guān)性,突出了關(guān)系抽取的重要信息。依賴關(guān)系方面的局限性。它們可以捕捉復(fù)雜的句子結(jié)構(gòu)和實(shí)體之間的關(guān)系,無論它們在文本中的位置如何。GNN通過構(gòu)建語義圖來嘗試捕捉輸入序列的非線性結(jié)構(gòu),使關(guān)系抽取模型具有圖上的關(guān)系推理能力。GNN可以捕捉實(shí)體和關(guān)系的相互關(guān)聯(lián)性,這對于純粹的序列模型來說是困難的。預(yù)訓(xùn)練語言模型通過在大規(guī)模未標(biāo)注文本數(shù)據(jù)上進(jìn)行訓(xùn)練,學(xué)習(xí)到文本中所包含的語法和語義知識。隨后,通過對預(yù)訓(xùn)練模型進(jìn)行微調(diào),可以直接用來進(jìn)行關(guān)系抽取等下游子任務(wù)[13事件抽取旨在識別和抽取樣本源中的事件及其相關(guān)信息,事件可以看作是知識圖譜中的特定子圖。事件抽取不僅涉及識別事件本身,還包括確定事件的觸發(fā)詞、分類事件類型、識別事件的職”中,事件抽取任務(wù)具體為檢測觸發(fā)詞“就職”,判斷事件類型為“任職”,確定“特朗普”“2017年1月20日”和“美國國會大廈”為事件論元,并確定它們對應(yīng)的角色分別為“人物”“時(shí)間”和“地點(diǎn)”。事件抽取技術(shù)經(jīng)歷了從基于模式匹配方法到現(xiàn)代深度學(xué)習(xí)方法的演變。早期的方法依賴于專家知識和預(yù)定義的模板,通過模式匹配來識別事件。隨著數(shù)據(jù)和計(jì)算能力的提升,機(jī)器學(xué)習(xí)得到了發(fā)展。這些方法基于特征來構(gòu)建分類器,從而進(jìn)行事件類型和論元的分類。然而,這些傳統(tǒng)方法在捕捉深層語義特征方面存在局限。深度學(xué)習(xí)的興起顯著提升了事件抽取的抽取模型。該模型包括使用RNN總結(jié)上下文信色的預(yù)測階段。JMEE[136]采用層次注意力機(jī)制來實(shí)現(xiàn)信息的全局聚合,JMEE主要由四個(gè)模塊組成,分別是詞表示模塊、句法圖卷積網(wǎng)絡(luò)模塊、自注意力觸發(fā)詞分類模塊和論元分類模塊,該模型利用基于注意力的圖卷積網(wǎng)絡(luò)進(jìn)行聯(lián)合建模圖信息,以提取多個(gè)事件觸發(fā)詞和論元。GAIL[137]是一種使用生成對抗網(wǎng)絡(luò)(GenerativeAdversarialNetwork,GAN)幫助模型關(guān)注難以型。預(yù)訓(xùn)練語言模型的出現(xiàn),為事件抽取帶來了新的突破。在BERT模型出現(xiàn)之前基于全文識別事件類型的方法逐漸成為主流。這是因?yàn)锽ERT在上下文表示能力上本分類任務(wù)中表現(xiàn)良好,尤其是在數(shù)據(jù)量較少的情況下[屬性抽取用于識別實(shí)體或者關(guān)系的屬性及其值,這些屬性豐富了知識圖譜中實(shí)體和關(guān)系的描述。屬性可以看作屬性值和實(shí)體或者關(guān)系之間的一種關(guān)系,因而可以通過關(guān)系抽取的思路來解決。三元組抽取可以視為一種綜合性的知識抽取任務(wù),它包含了實(shí)體抽取、關(guān)系抽取和屬性抽取的內(nèi)容。具體來說,三元組抽取的目標(biāo)是從源樣本中抽取形如(subject,pr元組,這些三元組可以同時(shí)包含實(shí)體、關(guān)系和屬性信息,這些三元組可以直接用于構(gòu)建知識圖譜。另外,知識抽取還包括觀點(diǎn)抽取、關(guān)鍵詞抽取、主題抽取和情感抽取等,這些雖然不是直接用于構(gòu)建知識圖譜的核心元素,但它們可以豐富和增強(qiáng)知識圖譜的內(nèi)容和功能。通過結(jié)合這些抽無論是開放域的知識圖譜還是包括專業(yè)領(lǐng)域的各行業(yè)的知識圖譜,都需要收集大量的數(shù)據(jù),這些數(shù)據(jù)的收集是有選擇性的,這個(gè)選擇的依據(jù)就是本體模型,也稱Schema設(shè)計(jì)或體建模解決知識圖譜如何組織數(shù)據(jù)的問題,是數(shù)據(jù)的底層架構(gòu),是一個(gè)知識體系框架,能夠涵蓋本體模型作為知識表達(dá)模型,定義了實(shí)體類型、實(shí)體對應(yīng)的屬性、以及實(shí)體和實(shí)體之間的關(guān)系,通常應(yīng)根據(jù)實(shí)際應(yīng)用需求和數(shù)據(jù)情況以及業(yè)務(wù)知識來綜合設(shè)計(jì)。下圖為一個(gè)裝備維保知識圖知識抽取是針對結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),利用大數(shù)據(jù)、深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、自然語言處理等技術(shù),將數(shù)據(jù)轉(zhuǎn)化為RDF三元組數(shù)據(jù),用于構(gòu)建知識圖譜的原始數(shù)據(jù)可能是結(jié)構(gòu)化數(shù)據(jù)或者非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)通常存儲于關(guān)系型數(shù)據(jù)庫或excel二維表中,有明確原始數(shù)據(jù)大多存儲在像MySQL這樣的關(guān)系數(shù)據(jù)庫中識圖譜的數(shù)據(jù)通常以三元組格式存儲,因此需要進(jìn)行這種轉(zhuǎn)換。D2RQ1是一個(gè)用于將關(guān)系數(shù)據(jù)庫內(nèi)非結(jié)構(gòu)化數(shù)據(jù)多為篇章級的PDF、Word數(shù)據(jù),不同方式規(guī)范程度,采用相關(guān)抽取工具,通過“規(guī)則+機(jī)器學(xué)習(xí)”相結(jié)合的方式進(jìn)行知識抽取,主要分1.數(shù)據(jù)獲?。和ㄟ^知識圖譜自動化構(gòu)建平臺,與存儲的文檔的數(shù)據(jù)庫3.智能分句:主要是對分段后的文檔進(jìn)行分句,采用中文依存句法分析工具,分析句子中詞與詞之間的依存關(guān)系(如主謂關(guān)系指主語與謂語間的關(guān)系),并根據(jù)依存關(guān)系以及標(biāo)點(diǎn)符號進(jìn)行自動切分。切分后,還要再判斷句子中是否存在并列關(guān)系或連謂結(jié)構(gòu),這樣的句子一般是在同一4.中文分詞:應(yīng)用中文分詞工具進(jìn)行分詞,一方面可以實(shí)現(xiàn)中文分詞(包括停用詞),方面可以對詞進(jìn)行詞性和語義標(biāo)注。在實(shí)踐中有時(shí)會將句子中的詞分的十分細(xì)碎,可以再進(jìn)行詞與詞之間的結(jié)合,如緊鄰的名詞,名詞間存在代詞的情況。這樣可以更準(zhǔn)確的提取主5.知識抽?。鹤詈笾R圖譜三元組構(gòu)建,可以采用相關(guān)構(gòu)建工具進(jìn)行知識抽取。例如應(yīng)用北京大學(xué)gBuilder2工具,首先通過整體抽取流程的流水線構(gòu)建,然后再進(jìn)行實(shí)體抽取、關(guān)系抽取和三元組構(gòu)建,從而將數(shù)據(jù)轉(zhuǎn)化為知識。gBuilder中內(nèi)置了眾多非結(jié)構(gòu)化抽取算法和模型,可通過在上述過程中,最重要的也是最難的是實(shí)體和關(guān)系的抽取。在非結(jié)構(gòu)化數(shù)據(jù)抽取過程中,傳統(tǒng)的方法如Bert等模型,需要較多的語料標(biāo)注,才能夠達(dá)到可接受的抽取效果。大語言模型(LargeLanguageModel,LLM)興起之后,因其強(qiáng)大的一般知識、文本理解、泛化能樣本的非結(jié)構(gòu)化文本數(shù)據(jù)的知識抽取,通常標(biāo)注少量的數(shù)據(jù),就可以在實(shí)體、關(guān)系、屬性抽取的知識圖譜(KnowledgeGraph,KG)作為一種重要的數(shù)據(jù)組織形式,以其關(guān)系,廣泛應(yīng)用于搜索引擎優(yōu)化、推薦系統(tǒng)、智能問答等領(lǐng)域。它在這些應(yīng)用中發(fā)揮了關(guān)鍵作用,但實(shí)際應(yīng)用中的知識圖譜常常存在信息不完整的問題。這些缺失的信息可能影響系統(tǒng)的智能從而提升知識圖譜的全面性和準(zhǔn)確性。這項(xiàng)技術(shù)不僅增強(qiáng)了知識圖譜的實(shí)用性,還提升了信息檢索和智能決策的能力,使其能夠更好地服務(wù)于實(shí)際應(yīng)用。KGC技術(shù)通過技術(shù)手段預(yù)測在知識圖譜補(bǔ)全中,三元組預(yù)測、鏈接預(yù)測和關(guān)系預(yù)測是三大核心任務(wù),每一個(gè)任務(wù)都在知識圖譜的構(gòu)建與優(yōu)化中起著至關(guān)重要的作用。隨著技術(shù)的不斷進(jìn)步,尤其是人工智能技術(shù)的發(fā)展,三元組預(yù)測的核心任務(wù)是識別并填補(bǔ)知識圖譜中缺失的“實(shí)體-關(guān)系-實(shí)體”三元組。一個(gè)典型的三元組由頭實(shí)體、關(guān)系和尾實(shí)體構(gòu)成。例如,在缺少“蘋果公司-總部位于-庫比蒂諾”的場景下,三元組預(yù)測技術(shù)通過分析現(xiàn)有數(shù)據(jù),推早期的三元組預(yù)測依賴邏輯規(guī)則和路徑搜索技術(shù),通過規(guī)則推理和沿已知關(guān)系進(jìn)行路徑

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論