GPU加速的SPICE仿真提升了模擬IC設(shè)計(jì)_第1頁(yè)
GPU加速的SPICE仿真提升了模擬IC設(shè)計(jì)_第2頁(yè)
GPU加速的SPICE仿真提升了模擬IC設(shè)計(jì)_第3頁(yè)
GPU加速的SPICE仿真提升了模擬IC設(shè)計(jì)_第4頁(yè)
GPU加速的SPICE仿真提升了模擬IC設(shè)計(jì)_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

GPU加速的SPICE仿真提升了模擬IC設(shè)計(jì)電路發(fā)明取得的進(jìn)步使智能手機(jī)和上網(wǎng)本等設(shè)備的生產(chǎn)成為可能。然而,業(yè)內(nèi)專家堅(jiān)信,需要更多突破才能滿足處理更大電路、更高精度和更快周轉(zhuǎn)時(shí)間的需求。他們認(rèn)為這是電路制造未來(lái)的前進(jìn)方向。自1970年代初推出以來(lái),具有集成電路重點(diǎn)的仿真程序(SPICE)已成為晶體管級(jí)電路仿真不可或缺的工具。多年來(lái),已經(jīng)推出了許多SPICE模擬器,并且它們的功能得到了很大的提高。然而,隨著對(duì)更深亞微米設(shè)計(jì)的改進(jìn)和電路尺寸的增加,當(dāng)前SPICE仿真器的能力被認(rèn)為是不夠的。給定一個(gè)描述電路拓?fù)涞木W(wǎng)表,SPICE仿真作業(yè)由幾個(gè)主要任務(wù)組成。網(wǎng)表解析和建庫(kù)通常是按順序進(jìn)行的。然后模擬器可以使用并行處理技術(shù),例如多核和多線程,來(lái)加速計(jì)算直流(DC)工作點(diǎn)和瞬態(tài)分析的任務(wù)。模型評(píng)估是另一項(xiàng)可以輕松并行化的任務(wù),盡管它通常只占總仿真時(shí)間的一小部分。所有現(xiàn)代SPICE模擬器都使用并行處理來(lái)加速,但它們使用的技術(shù)不同,并且可能導(dǎo)致容量和性能大不相同。EmpyreanALPS?,全稱AccurateLarge-capacityParallelSpice,是一款并行SPICE仿真器,采用先進(jìn)的分區(qū)和突破性技術(shù)進(jìn)行矩陣求解,與市場(chǎng)上其他SPICE仿真器相比,具有最佳的容量和性能。九霄軟件EmpyreanALPS?EmpyreanALPS?使用的主要技術(shù)解釋如下。對(duì)于給定的電路,ALPS首先使用超圖劃分方法將其劃分為重疊塊。然后,使用BDF(后向微分公式)方法對(duì)微分代數(shù)方程組進(jìn)行離散化。對(duì)于每個(gè)塊,內(nèi)部矩陣通常非常稀疏,其中LU分解是一種非常有效的解決方法,也適合應(yīng)用并行化技術(shù)。塊耦合節(jié)點(diǎn)的矩陣通常是密集的,其中廣義最小殘差法(GMRES)是最有效的方法。然而,GMRES方法的一個(gè)主要缺陷是它需要一個(gè)有效的前置條件矩陣。否則它將非常緩慢地收斂或根本無(wú)法收斂。選擇一個(gè)好的前置條件矩陣并不容易,即使有一個(gè)好的前置條件矩陣,也往往需要多次迭代才能成功求解方程。ALPS的一個(gè)突破是我們開發(fā)了新技術(shù),不僅可以得到一個(gè)有效的前置條件矩陣,而且在大多數(shù)情況下可以使GMRES快速收斂,從而大大減少了求解方程的時(shí)間。算法:GMRES–帶有(右)預(yù)處理ALPS的容量和性能使其適用于模擬大型布局后電路。對(duì)于此類電路,與其他真正的SPICE仿真器相比,ALPS通常會(huì)獲得2-3倍的加速。迄今為止,ALPS在全球擁有數(shù)百名付費(fèi)客戶。EmpyreanALPS-GT?除了使用多個(gè)中央處理器(CPU)內(nèi)核來(lái)加速電路仿真之外,使用圖形處理器(GPU)是通過(guò)硬件加速進(jìn)一步加速仿真的另一種方式。對(duì)于矩陣求解等任務(wù),這通常是整個(gè)仿真過(guò)程中的瓶頸,如果我們能夠使用多個(gè)GPU有效地完成它,可以獲得非常顯著的加速。然而,GPU上的矩陣求解是一項(xiàng)具有挑戰(zhàn)性的任務(wù),許多SPICE模擬器都嘗試過(guò)但都失敗了。以Gilbert-Peierls左視算法為例,它需要將稀疏向量縮放為密集向量,因此需要大緩存。LU分解求解器也需要大緩存。但通常GPU上的緩存大小比CPU上的小得多,因此我們需要特殊的技術(shù)來(lái)在GPU上執(zhí)行這些任務(wù),而不受緩存大小和數(shù)據(jù)傳輸開銷的限制。EmpyreanSoftware開發(fā)了許多創(chuàng)新技術(shù),通過(guò)使用多個(gè)GPU來(lái)加速ALPS,并且該公司在2019DAC中發(fā)布了EmpyreanALPS-GT?。下圖說(shuō)明了一種結(jié)合左視和右視算法以加快矩陣求解的技術(shù)。圖1:U矩陣拓?fù)渑判虻囊蕾嚇渖上氯翘鎿Q作業(yè)筆記:下一級(jí)的工作必須等到上一級(jí)的工作完成級(jí)別1和級(jí)別2都有四個(gè)并行作業(yè)可以從極稀疏的矩陣中生成大量的左視作業(yè)使用左視方法處理大量并行作業(yè)第3級(jí)到第7級(jí)只有一個(gè)可執(zhí)行作業(yè)矩陣將相對(duì)密集,模式節(jié)點(diǎn)被消除由于依賴樹,大多數(shù)左查找作業(yè)將連續(xù)執(zhí)行使用右查找方法為近乎密集的矩陣生成更多并行可執(zhí)行作業(yè)基準(zhǔn)EmpyreanALPS-GT?已被一些頂級(jí)SoC設(shè)計(jì)公司采用,并顯示出顯著的加速效果,尤其是在16/7/5nm工藝技術(shù)中的深亞微米模擬設(shè)計(jì)。在Nvidia的工程團(tuán)隊(duì)[1]最近進(jìn)行的比較中,正在使用具有2*IntelXeonE5-2698V420核CPU和8*NvidiaTeslaV100GPU的NvidiaDGX-1服務(wù)器。

模擬器中央處理器圖形處理器加速配置EmpyreanALPS?XeonE5-2698V4雙20核IntelXeon

8個(gè)CPUEmpyreanALPS-GT?XeonE5-2698V4雙20核IntelXeon英偉達(dá)特斯拉V1008個(gè)CPU+8個(gè)GPU

表1:模擬器數(shù)據(jù)在硬件平臺(tái)上使用ALPS和ALPS-GT模擬了幾個(gè)布局后設(shè)計(jì)塊。下面顯示的是代表整體比較的兩個(gè)塊的結(jié)果。圖2:性能比較案例1圖3:性能比較案例2結(jié)論EmpyreanALPS-GT?是第一款由GPU驅(qū)動(dòng)的商用SPICE模擬器。當(dāng)瞬態(tài)分析和矩陣求解時(shí)間占總運(yùn)行時(shí)間時(shí),它可以大大提高仿真性能,這通常是許多大型和布局后電路的情

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論