機器學習方法集成到實驗數(shù)據(jù)加速科學發(fā)現(xiàn)的處理過程_第1頁
機器學習方法集成到實驗數(shù)據(jù)加速科學發(fā)現(xiàn)的處理過程_第2頁
機器學習方法集成到實驗數(shù)據(jù)加速科學發(fā)現(xiàn)的處理過程_第3頁
機器學習方法集成到實驗數(shù)據(jù)加速科學發(fā)現(xiàn)的處理過程_第4頁
機器學習方法集成到實驗數(shù)據(jù)加速科學發(fā)現(xiàn)的處理過程_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

機器學習方法集成到實驗數(shù)據(jù)加速科學發(fā)

現(xiàn)的處理過程本篇報告主要討論了機器學習在科學研究中的技術與應用一一將強大的機器學習方法集成到實驗數(shù)據(jù)處理過程有助于加速科學發(fā)現(xiàn)。內(nèi)容涵蓋三個方面:機器學習在多個科學領域的應用;高效訓練、高資源利用率算法;用于部署這些算法的計算架構和平臺。本文還展示了多科學領域共同面臨的挑戰(zhàn)和應對策略,希望通過集成和加速的機器學習解決方案為科學發(fā)現(xiàn)提供更多示例和靈感。越來越復雜的實驗和日益增長的數(shù)據(jù)為科學探索帶來了新的挑戰(zhàn),而實驗表明,機器學習,尤其是深度神經(jīng)網(wǎng)絡架構的通用性能夠解決廣泛且復雜的問題,ImageNet等大型數(shù)據(jù)集的激增,引導了許多不同深度學習方法的深入探索。這篇綜述論文重點關注機器學習和實驗設計的融合,以及如何通過加速數(shù)據(jù)處理、實時決策來解決關鍵的科學問題。在過去幾年,許多機器學習的進步源于異構計算硬件的使用,特別是圖形處理器(GPUs)使大型機器學習算法得以快速進步。經(jīng)過大數(shù)據(jù)集訓練的AI模型已經(jīng)能夠執(zhí)行復雜的任務,同時,以減少計算量而實現(xiàn)快速和高效訓練的新型深度學習算法也開始越來越多的出現(xiàn)。強大的機器學習技術與實驗設計的結合,可以縮短科學發(fā)現(xiàn)的時間,從嵌入實時特征到跨分布式網(wǎng)絡,計算數(shù)據(jù)中心的大規(guī)模機器學習在許多不同的科學應用實驗上取得大的跨越。不過,高效的解決方案依然需要領域?qū)<?、機器學習研究人員和計算機架構設計師之間的共同合作。隨著機器學習工具變得越來越復雜,如何構建大模型來解決復雜的問題成為了新得關注點,例如語言翻譯和語音識別,它們的出現(xiàn)使得科學應用在快速發(fā)展中廣泛收益。目前這些應用已經(jīng)出現(xiàn)多樣化,因為人們不得不意識到如何調(diào)整他們的科學方法從而更好地利用人工智能的好處,包括人工智能對事件的實時分類能力,如識別粒子碰撞或引力波合并;包括系統(tǒng)控制,如來自等離子體和粒子加速器的反饋機制的響應控制。在這些所有情況下,機器學習都是以設計目標為驅(qū)動因素的??紤]到文章篇幅,我們將從三個部分對整篇綜述報告進行呈現(xiàn),第一,機器學習如何探索廣泛的科學問題;第二,快速機器學習作為一種顛覆性技術,如何改變我們處理數(shù)據(jù)的方式,通用的數(shù)據(jù)表示法和實驗程序有哪些。第三,從算法設計到系統(tǒng)架構的硬件對機器學習進行整體設計。1機器學習應用:從基礎物理,醫(yī)學工程到邊緣計算隨著科學生態(tài)系統(tǒng)規(guī)模的快速增長,數(shù)據(jù)處理和新范式需要集成到系統(tǒng)設計層面來完成。通過復雜數(shù)據(jù)處理過程的研究,作者發(fā)現(xiàn),不同領域和架構之間實現(xiàn)機器學習可能會有很大差異,但仍然具有相似的底層數(shù)據(jù)表示和集成機器學習的需求。報告中列舉了大量科學領域的應用案例,涵蓋現(xiàn)有技術和未來需求。接下來,我們將重點介紹機器學習在物理學、生物醫(yī)學工程學以及無線網(wǎng)絡和邊緣計算三個領域的應用現(xiàn)狀和挑戰(zhàn)。基礎物理學正如愛因斯坦在1916年預測的那樣,引力波在廣義相對論中表現(xiàn)為時空度量的變化,并在時空結構中以光速進行傳播。例如,美國激光干涉引力波天文臺(LIGO)、歐洲“處女座”(Virgo)引力波探測器和日本神岡引力波探測器(KAGRA)均采用公里級激光干涉儀網(wǎng)絡探測引力波。引力波為基礎物理研究提供了一種獨特的方法,包括在強場域測試廣義相對論、引力波的傳播速度和極化、物質(zhì)在核密度下的狀態(tài)、黑洞的形成、量子引力效應等,它以一種與電磁和中微子天文學相輔相成的方式,打開了全新觀察宇宙的窗口。在未來的觀察中,LIGO、Virgo和KAGRA將探測到越來越多的引力波后備,但這對當前的檢測框架提出了計算挑戰(zhàn),該框架依賴于匹配濾波技術,需要將來自模擬的參數(shù)化波形(模板)與引力波時間序列數(shù)據(jù)相匹配。隨著儀器低頻靈敏度的提高,以及引力波搜索參數(shù)空間擴展到自旋效應和低質(zhì)量致密物體,匹配濾波尺度將變差。為了估測引力波的物理特性,迄今為止一直使用隨機貝葉斯后驗采樣器(比如馬爾可夫鏈蒙特卡羅法和嵌套采樣法)。這些分析方法可能需要數(shù)小時到數(shù)天才能完成,搜索和參數(shù)估計也產(chǎn)生了不可避免的延遲,進而可能阻礙時間敏感源(如雙星、超新星和其他未知系統(tǒng))的電磁跟蹤。此外,引力波瞬態(tài)的觀測也容易受到環(huán)境和儀器噪聲的影響。瞬態(tài)噪聲偽影可能被誤識為潛在來源,特別是當引力波瞬態(tài)具有未知的形態(tài)時(例如超新星、中子星故障)。儀器噪聲譜中的線路噪聲會影響對連續(xù)引力波(如自旋中子星)和隨機引力波(例如未解的致密雙星系統(tǒng)引力波的天體物理背景)的搜索。這些噪聲源很難模擬,目前的噪聲減除技術不足以去除更復雜的噪聲源,如線路噪聲和非平穩(wěn)噪聲源。近年來,機器學習算法在引力波物理學的不同領域進行了探索。卷積神經(jīng)網(wǎng)絡已被應用于探測和分類二元結的引力波、超新星核坍塌的爆發(fā)引力波以及連續(xù)引力波;遞歸神經(jīng)網(wǎng)絡(RNNs)的自動編碼器使用無監(jiān)督策略檢測引力波;FPGA遞歸神經(jīng)網(wǎng)絡在引力波低延遲檢測方面發(fā)揮著潛力。此外,概率生成機器學習模型用于引力波參數(shù)估計的后驗采樣,在模擬數(shù)據(jù)上取得與貝葉斯采樣器相當?shù)男阅?,大大縮短了完成時間。機器學習算法也被用于提高引力波數(shù)據(jù)質(zhì)量,減少噪聲。瞬態(tài)噪聲偽影可以通過時頻變換和恒Q變換或檢查LIGO的輔助通道來進行識別和分類。盡管機器學習算法在引力波數(shù)據(jù)分析中顯示出了很大的潛力,但其中許多算法仍處于概念驗證階段,尚未成功應用于實時分析。目前需要努力的方向是,為了降低低延遲分析創(chuàng)建計算基礎設施,提高訓練數(shù)據(jù)的質(zhì)量(例如擴展參數(shù)空間,使用更真實的噪聲模型),并更好地量化這些算法在較長的數(shù)據(jù)延伸上的性能。生物醫(yī)學工程由于高分辨率和高通量生物醫(yī)學設備的進步,我們已經(jīng)看到生物醫(yī)學數(shù)據(jù)的爆炸式增長,如生物醫(yī)學圖像、基因組序列和蛋白質(zhì)結構。各種機器學習算法已經(jīng)被廣泛應用于醫(yī)療場景中,如AI增強現(xiàn)實顯微鏡能夠自動分析細胞圖像和實時表征細胞。機器學習用硅片預測熒光標記、無標記罕見細胞分類、形態(tài)表征和 RNA測序。對于原位細胞分選、實時治療反應預測和增強現(xiàn)實顯微鏡輔助診斷,深度學習模型的數(shù)據(jù)結構也能夠大幅提高速度和效率?,F(xiàn)階段,機器學習臨床應用面臨的主要挑戰(zhàn)是訓練和測試數(shù)據(jù)不足。對于需要專家知識的超大圖像和視頻數(shù)據(jù)集,醫(yī)學數(shù)據(jù)標注過程既耗時又昂貴。訓練模型推理的延遲也給實時診斷和手術操作帶來了計算困難,而時間關鍵型醫(yī)療保健的服務質(zhì)量要求小于300毫秒,就像實時視頻通信一樣。為了達到每秒60幀(FPS)的高質(zhì)量醫(yī)療視頻,深度學習模型的效率和性能變得至關重推理精度和速度是機器學習算法需要改進的主要方面。一些先進的機器學習模型可以達到很高的推理速度。如常用于醫(yī)學成像的對象檢測模型Y0L0v3-tiny,可以在標準數(shù)據(jù)集上以超過200FPS的速度處理圖像;基于GPU和FPGA的分布式無線傳感器網(wǎng)絡和基于5G高速Wi-Fi的機器學習模型都部署在醫(yī)療AI應用中。用于腦卒中、血栓形成、結腸息肉、癌癥和癲癇快速診斷的機器學習模型顯著減少了病灶檢測和臨床決策的時間。實時人工智能輔助手術可以改進圍手術期工作流程,實現(xiàn)視頻分割、手術器械檢測、組織變形可視化。高速機器學習在遠程診斷、手術和監(jiān)測等數(shù)字健康領域發(fā)揮著至關重要的作用。無線網(wǎng)絡和邊緣計算在許多科學研究中,無線設備和服務已經(jīng)成為收集和傳遞大數(shù)據(jù)的關鍵工具。此外,移動信息已被證明在了解人類活動及其對環(huán)境和公共健康的影響方面十分有用。數(shù)據(jù)流量的指數(shù)級增長給無線基礎設施帶來了巨大的壓力。特別是,小區(qū)間干擾大大影響了可靠性和延遲性。為了滿足用戶對數(shù)據(jù)通信和增值AI/機器學習業(yè)務的需求,無線提供商必須:1)開發(fā)更智能的無線電資源管理學習算法,以適應復雜多變的通信量和干擾條件 ;2)在邊緣設備上實現(xiàn)大量機器學習/AI計算和功能,以達到更低的延遲和更高的通信效率。機器學習模型的常規(guī)實現(xiàn),尤其是深度學習算法,遠遠落后于實用程序的數(shù)據(jù)包級動態(tài)。為了提高效率,現(xiàn)有的機器學習/AI服務通常在云中執(zhí)行,但代價是通信開銷大和延遲高。無線網(wǎng)絡和邊緣計算面臨的主要挑戰(zhàn)是如何構建可以在小型蜂窩接入點內(nèi)以低于10毫秒的低延遲執(zhí)行復雜任務的計算平臺。研究人員提出了許多種學習算法,希望通過神經(jīng)網(wǎng)絡完成特定的無線電資源管理任務。最初訓練神經(jīng)網(wǎng)絡控制電力傳輸采用的是監(jiān)督學習。最近,有人提議采用深度強化學習可以更好地改善通路和網(wǎng)絡的不確定性問題,而且只需要少量先驗訓練數(shù)據(jù)。后來許多工作開始集中在邊緣計算和深度學習間的融合。有研究人員使用聯(lián)邦學習的方式訓練AI模型,而不是將所有數(shù)據(jù)發(fā)送給中央控制器進行訓練。由于缺乏既快速又高效的實用型ML/AI解決方案,上述工作基本上停留在仿真階段。更具體地說,開發(fā)一種計算平臺,使得該平臺能夠以小于10ms的速度執(zhí)行復雜ML模型,且可以配置在小型小區(qū)接入點是現(xiàn)階段的主要目標。2數(shù)據(jù)處理的三種主要形式實時、加速的人工智能推理有望在當前和未來的科學儀器領域提高探測能力。為設計高性能的AI系統(tǒng),我們需要重點關注目標域機器學習算法的性能系數(shù),它可能受到推理延遲、計算成本、可靠性、安全性和極端環(huán)境下運行能力的影響。例如,機器學習在大型強子對撞機上觸發(fā)需要延遲100ns的稀有事件采集系統(tǒng)。此外,先進科學儀器的實時分析必須不間斷地分配計算資源,無線醫(yī)療設備處理患者敏感信息必須保密。上述特征和特性為人們分辨出域和應用程序之間的差異和共性提供了可量化的準則。這些準則可以解決不同科學領域的不同需求。合適的數(shù)據(jù)表達是設計過程中重要一步,也是第一步,因為它能夠決定模型的應用場景。數(shù)據(jù)表示在特定領域使用的數(shù)據(jù)表達方式對計算系統(tǒng)和數(shù)據(jù)存儲均有影響。國際上,跨域數(shù)據(jù)表達可以分為原始數(shù)據(jù)和重構數(shù)據(jù)。數(shù)據(jù)表達方式通常因重建階段和數(shù)據(jù)處理管道中的上游步驟而異。當數(shù)據(jù)具有圖像性質(zhì)時,現(xiàn)有的應用程序包括完全連接的CNN模型在內(nèi),通常將預處理的熟練特征變量作為輸入值或 CNN模型?,F(xiàn)有的CNN算法發(fā)展成果得益于變量的精準性和高效性。為了充分挖掘CNN模型的力量,使其信息損失降到最低水平,需要采用一種合適的原始數(shù)據(jù)表達方式,例如點云,它根據(jù)不同實驗和測量系統(tǒng)的原始數(shù)據(jù)可以明顯得出:空間數(shù)據(jù):用于描述幾何空間中的物理對象。主要有兩種類型:矢量和柵格數(shù)據(jù)。矢量數(shù)據(jù)可以由點、線或多邊形組成;柵格數(shù)據(jù)是指由像素組成的網(wǎng)格,像素相依表示為圖像或其他的值,如強度、電荷、場強等。點云:一種空間數(shù)據(jù)類型。這種數(shù)據(jù)表達是通過整理一組空間數(shù)據(jù)(即三維空間中的點)創(chuàng)建的,這些數(shù)據(jù)通常在空間中共同構成一個對象。時序數(shù)據(jù):用于表示系統(tǒng)/實驗在特定時間的狀態(tài)。跨時段收集而來的數(shù)據(jù)會按照特定的順序進行分類。時間序列數(shù)據(jù)是上述表達方式中的一個子集,其中的數(shù)據(jù)以固定的時間間隔進行采樣。時空數(shù)據(jù):可在空間和時間兩個維度上測量和觀測某個系統(tǒng)。在這種情況下,數(shù)據(jù)可以被認為是時空的。多光譜數(shù)據(jù):用于表達多個傳感器中的輸出值,上述傳感器能夠從電磁光譜的多個頻段捕獲測量值。多光譜表達通常用于成像,與能夠識別波長各異的光的傳感器有關。通常會涉及幾個到幾十個光譜的量級。高光譜數(shù)據(jù):用于表示從大量光譜(如100s)中得到的測量值。這些從各異的窄帶光譜中采集到的圖像被合并成一個高光譜立方體,該立方體具有三個主要維度,前兩個維度參考了二維空間位置(例如,地球表面),第三個維度代表了每個“像素”位置的完整頻譜內(nèi)容。點云點云數(shù)據(jù)表達是高能粒子領域中一個常見的概念。在高能粒子領域里,經(jīng)大量探測器收集而來的測量數(shù)據(jù)被合并成一個數(shù)據(jù)集。在眾多高能粒子應用中,點云通常用于表示數(shù)據(jù)尺寸超過 lPb/s的粒子射流。通俗地說,點云可以用來捕捉任何三維空間事件和空間中運動部件的相互作用。質(zhì)子之間發(fā)生碰撞后的殘余物在定制化和優(yōu)化后的探測器中產(chǎn)生信號,在空間中以點的形式顯示。掃描后的各類圖像數(shù)據(jù)可以按照點云的方式呈現(xiàn),生物醫(yī)學工程和虛擬實境中的CT和PET掃描也是利用點云進行成像,還有用于產(chǎn)品設計、實體對象建模、體系結構和基礎設施設計的三維掃描儀。上述成像任務中,大部分都是按照從GB到TB的順序生成相應大小的點云。域共享點云表達(例如高能粒子和生物醫(yī)學成像)也會涉及到空間特性。圖注:Kaggle數(shù)據(jù)集中,Track機器學習在三維空間中將粒子跟蹤命中進行可視化多/高光譜數(shù)據(jù)多光譜數(shù)據(jù)在無線醫(yī)療監(jiān)測和無線通信系統(tǒng)之間普遍存在。一組生理傳感器通常代表不同的模式,被合并成一個多光譜數(shù)據(jù)集,用于醫(yī)療監(jiān)測和干預系統(tǒng)。對于無線通信而言,通過多光譜數(shù)據(jù)捕獲信號干擾情況和網(wǎng)絡流量狀況,兩個領域都會跨時間捕獲數(shù)據(jù),因此也會顯示出時間特性。與其他領域相比,這兩個領域中生成的數(shù)據(jù)大小可以被認為相對較?。◤?00sMb/s到10sGb/s)。高光譜數(shù)據(jù)被用于許多天文學應用、醫(yī)學成像和電子顯微鏡領域,用于實現(xiàn)更多的材料科學設計和發(fā)現(xiàn)應用。如圖7所示,電子顯微鏡中顯示的是高光譜數(shù)據(jù)。將電子探針柵格化在所研究的樣品上,并在像素探測器上捕獲衍射圖。當電子探針在樣品上掃描時,像素探測器進行圖像捕捉。新興的多信使天文學應用進一步提升了高光譜數(shù)據(jù)表達的效用,這些數(shù)據(jù)表達是結合了大量探測器和望遠鏡的觀測結果匯總而成。Convergedelectronproberastaredoversample圖7.二硫化物二維材料的4D-STEM實驗測量。3實現(xiàn)低延時、高效率的ML算法作者重點對如何構建高效機器學習算法的技術和技巧進行了簡要概述。在考慮硬件的情況下,構建算法實現(xiàn)協(xié)同設計,需要為硬件編程提供高效的平臺。為實現(xiàn)這這一點將從三個部分進行介紹:重點討論神經(jīng)網(wǎng)絡設計和訓練,以便實現(xiàn)硬件的有效應用;將機器學習硬件計算平臺分為“常規(guī)CMOS硬件”和“新興的超CMOS硬件”兩部分進行介紹。前者將解決近期的硬件方案,后者專注于頻譜的投機端。同時,由于編程新硬件領域發(fā)展迅速,作者以一個具體示例闡明設備家族面臨的選擇和挑戰(zhàn):即現(xiàn)場可編程門陣列(FPGA),希望從FPGA的細節(jié)中,為讀者了解軟件設計的基本方法提供幫助。本文將以用于高效部署機器學習模型的系統(tǒng)方法為例進行簡單介紹??茖W領域中的許多機器學習問題要求延遲時間短,資源較為有限。然而,大多數(shù)現(xiàn)有的先進CNN模型延遲度非常高,且占用內(nèi)存大,消耗量高。出于上述原因,實踐者被迫使用非理想精度的次優(yōu)模型(例如淺層CNN)來避免這一延遲問題。大量的文獻致力于通過解決上述延遲問題,以提升CNN模型有效性,大致歸納如下:1、設計全新的高效NN架構;2、NN架構與硬件的協(xié)同設計;3、量化(低精度推斷);4、剪枝和稀疏推斷;5、知識蒸餾。作者在文中闡述了需要在高吞吐量和低延遲環(huán)境下的機器學習算法,既包括系統(tǒng)設計和培訓,也包括機器學習模型的高效部署和應用。在硬件應用方面主要討論了兩類內(nèi)容:現(xiàn)有的傳統(tǒng)CMOS技術和超CMOS技術。在常規(guī)的CMOS案例中,在摩爾定律的基礎上,人們重點研究機器學習設計的先進硬件架構。對于眾多硬件來說,機器學習算法的協(xié)同設計是特定科學領域?qū)τ布òㄆ潴w系結構和可編程性)要求的關鍵,一個高度相關和極其重要的硬件平臺的示例就是FPGA,作者認為,這些技術提供了令人興奮和超級高效的技術,雖然它們可能具有投機性,但相對于常規(guī)技術,已經(jīng)大幅提升了現(xiàn)有的技術水平??偨Y與展望這篇綜述報告主要闡述了高效的機器學習算法的應用,如何使跨領域的科學發(fā)現(xiàn)成為現(xiàn)實。這個過程中,科學探索時常產(chǎn)生令人激動的新研究和新發(fā)現(xiàn)。然而,這是一個相對嶄新的領域,蘊藏著豐富的潛力,也面臨著跨領域的開放性挑戰(zhàn)。除了報告中闡述的內(nèi)容之外,我們希望通過這篇文章對科學用例及其交疊的呈現(xiàn)能夠給讀者提供在其他研究中展開應用的靈感。機器學習的訓練和部署手段以及計算機體系結構都是一個非常迅速發(fā)展的領域,新的任務接踵而至。在機器學習和科學領域中不斷引入新方法,同時理解不同硬件下新算法的協(xié)同設計以及部署這些算法的工具流的易用性就顯得尤為重要。這里的創(chuàng)新之處將快速和廣泛采用強大的新機器學習硬件得以實現(xiàn)。在超CMOS技術的情況下,這些應用性設計是很重要的,同時也要考慮到技術的成熟程度、融入計算體系結構以及如何編程這類器件。我們期待著在不久的將來能夠重溫這些話題,看看在應用程序、機器學習技術和硬件平臺領域的發(fā)展速度――最重要的是它們的融合,在科學上領域上取得的顛覆性突破。注:這篇綜述報告是第二屆年度FastMachineLearning大會的概述,匯集了從粒子物理學家、材料學家到健康監(jiān)測研究人員,以及機器學習學者和計算機系統(tǒng)架構師等多個科學專家的內(nèi)容,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論