計(jì)算機(jī)體系結(jié)構(gòu)cha-2.ppt_第1頁
計(jì)算機(jī)體系結(jié)構(gòu)cha-2.ppt_第2頁
計(jì)算機(jī)體系結(jié)構(gòu)cha-2.ppt_第3頁
計(jì)算機(jī)體系結(jié)構(gòu)cha-2.ppt_第4頁
計(jì)算機(jī)體系結(jié)構(gòu)cha-2.ppt_第5頁
已閱讀5頁,還剩51頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

3 向量的流水處理與向量流水處理機(jī),將向量數(shù)據(jù)表示和流水線技術(shù)結(jié)合起來,構(gòu)成向量流水處理機(jī),簡稱向量處理機(jī)(Vector Processor) 向量的流水處理 向量流水處理機(jī),向量的流水處理,提高流水性能方法: 增加流水線段數(shù),以減少t 每個時鐘同時啟動多條指令 減少相關(guān),減少功能變換次數(shù),增加處理指令條數(shù)。,向量的流水處理(續(xù)),向量操作特點(diǎn) 向量元素間操作相互獨(dú)立,且為相同操作 相當(dāng)于標(biāo)量循環(huán),對指令帶寬的訪問要求不高 可采用多體交叉存儲器,減少訪存延遲。 向量操作很適合于流水處理或并行處理。,向量的流水處理(續(xù)),向量處理過程 置VL、VM、A 取向量到V 運(yùn)算。 向量的分量間采取的是流水方式。 并行處理機(jī)(SIMD)處理向量時采取的是并行方式。,向量的流水處理(續(xù)),向量處理工作方式 如:D=A(B+C) 橫向加工:bi+ci-k, k*ai-di 產(chǎn)生N次相關(guān),2N次功能切換,適合標(biāo)量循環(huán) 縱向加工:bi+ci-ki, ki*ai-di 產(chǎn)生1次相關(guān),1次功能切換,可流水處理 縱橫處理:對向量分組,組內(nèi)縱向、組間橫向處理,向量流水處理機(jī),向量流水處理機(jī)的指令系統(tǒng) 向量流水處理機(jī)的結(jié)構(gòu) 超級向量流水處理機(jī)舉例,向量流水處理機(jī)的指令系統(tǒng),包含有向量型和標(biāo)量型兩類指令 向量型運(yùn)算類指令 向量V1運(yùn)算得向量V2,如V2=SIN(V1) 向量V運(yùn)算得標(biāo)量S,如 向量V1與向量V2運(yùn)算得向量V3,V3=V1V2 向量V1與標(biāo)量S運(yùn)算得向量V2,V2=S*V1 特殊操作指令 向量比較指令 向量壓縮指令 歸并指令 向量傳送指令,向量流水處理機(jī)的結(jié)構(gòu),1972年首次交付使用CRAY-1向量流水處理機(jī) 分布異構(gòu)型多處理機(jī)系統(tǒng),由中央處理機(jī)、診斷維護(hù)控制處理機(jī)、大容量磁盤存儲子系統(tǒng)、前端處理機(jī)組成 6個流水線單功能部件:整數(shù)加、邏輯運(yùn)算、移位、浮點(diǎn)加、浮點(diǎn)乘和浮點(diǎn)迭代求倒數(shù) 向量寄存器由512個64位寄存器組成,分成8組,超級向量流水處理機(jī)舉例,1972年成立CRAY公司,至今生產(chǎn)了400臺以上的超級計(jì)算機(jī) 1979年CRAY-1S,CRAY-1改進(jìn)型,有10條流水線 1983年CRAY X-MP,用4臺CRAY-1 1985年CRAY-2S 1988年CRAY Y-MP,8臺處理機(jī) 1991年CRAY Y-MP C-90 1996年12月,克雷研究公司也被SGI公司以7.5億美元收購 2000年,被Tera公司合并,同年更名Cray 目前產(chǎn)品:MTA、SV1、SX_6、T3E 2002年Cray X1。運(yùn)算速度最高為每秒52萬億次,支持65.5TB存儲器。 宣布了在2010年以前實(shí)現(xiàn)能夠連續(xù)地處理每秒1000萬億次 Cray公司稱,他們將在2008年使用四核心的AMD Opteron處理器建造XT4超級計(jì)算機(jī),并將在2009年接近1Pflops(每秒1000萬億次浮點(diǎn)運(yùn)算)能力。 網(wǎng)址:,超級向量流水處理機(jī)舉例(續(xù)),CDC公司1973年推出第一臺超級計(jì)算機(jī)STAR-100 1964年CDC-6600 RISC特征 1982年 CYBER 205 1999年 被Syntegra收購 ETA10:8個CPU 網(wǎng)址:,幾種超級計(jì)算機(jī)的向量性能和標(biāo)量性能,向量平衡點(diǎn)(vector balance point)定義為:為了使向量硬件設(shè)備和標(biāo)量硬件設(shè)備的利用率相等,一個程序中向量代碼所占的百分比。,4 指令級高度并行的超級計(jì)算機(jī),超標(biāo)量處理機(jī) 超流水線處理機(jī) 超標(biāo)量超流水線處理機(jī) 超長指令字處理機(jī),超標(biāo)量處理機(jī),采用多指令流水線(度=m) 配置多套功能部件、指令譯碼電路和多組總線,并且寄存器也備有多個端口和多組總線。 適合于求解稀疏向量、矩陣 IBM RS/6000、DEC 21064、Intel i960CA、Tandem Cyclone(颶風(fēng))等,超標(biāo)量處理機(jī)(續(xù)),超標(biāo)量處理機(jī)基本結(jié)構(gòu),一般流水線處理機(jī): 一條指令流水線 一個多功能操作部件,每個時鐘周期平均執(zhí)行指令的條數(shù)小于1。 多操作部件處理機(jī): 一條指令流水線 多個獨(dú)立的操作部件,操作部件可以采用流水線,也可以不流水 多操作部件處理機(jī)的指令級并行度小于1 超標(biāo)量處理機(jī)典型結(jié)構(gòu): 多條指令流水線 進(jìn)的超標(biāo)量處理機(jī)有:定點(diǎn)處理部件CPU,浮點(diǎn)處理部件FPU,圖形加速部件GPU 大量的通用寄存器,兩個一級高速Cache 超標(biāo)量處理機(jī)的指令級并行度大于1,舉例: Motorola公司的MC88110,10個操作部件 兩個寄存器堆:整數(shù)部件通用寄存器堆,32個32位寄存器;浮點(diǎn)部件擴(kuò)展寄存器堆,32個80位寄存器。每個寄存器堆有8個端口,分別與8條內(nèi)部總線相連接,有一個緩沖深度為4的先行讀數(shù)棧和一個緩沖深度為3的后行寫數(shù)棧。 兩個獨(dú)立的高速Cache中,各為8KB,采用兩路組相聯(lián)方式。 轉(zhuǎn)移目標(biāo)指令Cache,在有兩路分支時,存放其中一路分支上的指令,超標(biāo)量處理機(jī)MC88110的結(jié)構(gòu),單發(fā)射與多發(fā)射,單發(fā)射處理機(jī): 每個周期只取一條指令、只譯碼一條指令,只執(zhí)行一條指令,只寫回一運(yùn)算結(jié)果 取指部件和譯碼部件各設(shè)置一套 可以只設(shè)置一個多功能操作部件,也可以設(shè)置多個獨(dú)立的操作部件 操作部件中可以采用流水線結(jié)構(gòu),也可以不采用流水線結(jié)構(gòu) 設(shè)計(jì)目標(biāo)是每個時鐘周期平均執(zhí)行一條指令,ILP的期望值1,單發(fā)射處理機(jī)的指令流水線時空圖,單發(fā)射與多發(fā)射(續(xù)),多發(fā)射處理機(jī): 每個周期同時取多條指令、同時譯碼多條指令,同時執(zhí)行多條指令,同時寫回多個運(yùn)算結(jié)果 需要多個取指令部件,多個指令譯碼部件和多個寫結(jié)果部件 設(shè)置多個指令執(zhí)行部件,復(fù)雜的指令執(zhí)行部件一般采用流水線結(jié)構(gòu) 設(shè)計(jì)目標(biāo)是每個時鐘周期平均執(zhí)行多條指令,ILP的期望值大于1,多發(fā)射處理機(jī)的指令流水線時空圖,超標(biāo)量處理機(jī): 一個時鐘周期內(nèi)能夠同時發(fā)射多條指令的處理機(jī)稱為超標(biāo)量處理機(jī) 必須有兩條或兩條以上能夠同時工作的指令流水線 先行指令窗口: 能夠從指令Cache中預(yù)取多條指令 能夠?qū)Υ翱趦?nèi)的指令進(jìn)行數(shù)據(jù)相關(guān)性分析和功能部件沖突的檢測 窗口的大?。阂话銥?至8條指令 采用目前的指令調(diào)度技術(shù),每個周期發(fā)射2至4條指令比較合理,舉例,Intel公司的i860、i960、Pentium處理機(jī), Motolora公司的MC88110處理機(jī),IBM公司的Power 6000處理機(jī)等每個周期都發(fā)射兩條指令 TI公司生產(chǎn)的SuperSPARC處理機(jī)以及Intel的Pentium III處理機(jī)等每個周期發(fā)射三條指令 操作部件的個數(shù)多于每個周期發(fā)射的指令條數(shù)。4個至16個操作部件 超標(biāo)量處理機(jī)的指令級并行度:1ILPm;m為每個周期發(fā)射的指令條數(shù)。,超流水線處理機(jī),兩種定義: 一個周期內(nèi)能夠分時發(fā)射多條指令的處理機(jī)稱為 超流水線處理機(jī)。 指令流水線有8個或更多功能段的流水線處理機(jī)稱為超流水線處理機(jī)。 提高處理機(jī)性能的不同方法: 超標(biāo)量處理機(jī)是通過增加硬件資源為代價來換取處理機(jī)性能的。 超流水線處理機(jī)則通過各硬件部件充分重疊工作來提高處理機(jī)性能。 兩種不同并行性: 超標(biāo)量處理機(jī)采用的是空間并行性 超流水線處理機(jī)采用的是時間并行性,指令執(zhí)行時序,每隔1/n個時鐘周期發(fā)射一條指令,流水線周期為1/n個時鐘周期 在超標(biāo)量處理機(jī)中,流水線的有些功能段還可以進(jìn)一步細(xì)分 例如:ID功能段可以再細(xì)分為譯碼、讀第一操作數(shù)和讀第二操作數(shù)三個流水段。也有些功能段不能再細(xì)分,如WR功能段一般不再細(xì)分。 因此有超流水線的另外一種定義:有8個或8個以上流水段的處理機(jī)稱為超流水線處理機(jī),超流水線處理機(jī)(續(xù)),每個時鐘周期分時發(fā)送3條指令的超流水線,舉例: MIPS R4000,MIPS R4000處理機(jī)每個時鐘周期包含兩個流水段,是一種很標(biāo)準(zhǔn)的超流水線處理機(jī)結(jié)構(gòu)。指令流水線有8個流水段 有兩個Cache,指令Cache和數(shù)據(jù)Cache的容量各8KB,每個時鐘周期可以訪問Cache兩次,因此在一個時鐘周期內(nèi)可以從指令Cache中讀出兩條指令,從數(shù)據(jù)Cache中讀出或?qū)懭雰蓚€數(shù)據(jù)。 主要運(yùn)算部件有整數(shù)部件和浮點(diǎn)部件,MIPS R4000處理機(jī)的流水線操作,MIPS R4000正常指令流水線工作時序,超標(biāo)量超流水線處理機(jī),把超標(biāo)量與超流水線技術(shù)結(jié)合在一起,就成為超標(biāo)量超流水線處理機(jī) 指令執(zhí)行時序 超標(biāo)量超流水線處理機(jī)在一個時鐘周期內(nèi)分時發(fā)射指令n次,每次同時發(fā)射指令m條,每個時鐘周期總共發(fā)射指令m n條。,每時鐘周期發(fā)射3次,每次3條指令,舉例: DEC公司的Alpha,DEC公司的Alpha處理機(jī)采用超標(biāo)量超流水線結(jié)構(gòu)。主要由四個功能部件和兩個Cache組成:整數(shù)部件EBOX、浮點(diǎn)部件FBOX、地址部件ABOX和中央控制部件IBOX。 中央控制部件IBOX可以同時從指令Cache中讀入兩條指令,同時對讀入的兩條指令進(jìn)行譯碼,并且對這兩條指令作資源沖突檢測,進(jìn)行數(shù)據(jù)相關(guān)性和控制相關(guān)性分析。如果資源和相關(guān)性允許,IBOX就把兩條指令同時發(fā)射給EBOX、ABOX和FBOX三個指令執(zhí)行部件中的兩個。 指令流水線采用順序發(fā)射亂序完成的控制方式。在指令Cache中有一個轉(zhuǎn)移歷史表,實(shí)現(xiàn)條件轉(zhuǎn)移的動態(tài)預(yù)測。在EBOX內(nèi)還有多條專用數(shù)據(jù)通路,可以把運(yùn)算結(jié)果直接送到執(zhí)行部件。,舉例: DEC公司的Alpha,Alpha 21064處理機(jī)共有三條指令流水線整數(shù)操作流水線和訪問存儲器流水線分為7個流水段,其中,取指令和分析指令為4個流水段,運(yùn)算2個流水段,寫結(jié)果1個流水段。浮點(diǎn)操作流水線分為10個流水段,其中,浮點(diǎn)執(zhí)行部件FBOX的延遲時間為6個流水段。 所有指令執(zhí)行部件EBOX、IBOX、ABOX和FBOX中都設(shè)置由專用數(shù)據(jù)通路。 析指令為4個流水段,運(yùn)算2個流水段,寫結(jié)果1個流水段。浮點(diǎn)操作流水線分為10個流水段,其中,浮點(diǎn)執(zhí)行部件FBOX的延遲時間為6個流水段。 所有指令執(zhí)行部件EBOX、IBOX、ABOX和FBOX中都設(shè)置由專用數(shù)據(jù)通路。 Alpha 21064處理機(jī)的三條指令流水線的平均段數(shù)為8段,每個時鐘周期發(fā)射兩條指令。因此,Alpha 21064處理機(jī)是超標(biāo)量超流水線處理機(jī)。,三種指令級并行處理機(jī)性能比較,超標(biāo)量處理機(jī)、超流水線處理機(jī)和超標(biāo)量超流水線處理機(jī)相對于單流水線普通標(biāo)量處理機(jī)的性能曲線。,結(jié)論,三種處理機(jī)的性能關(guān)系超標(biāo)量處理機(jī)的相對性能最高,其次是超標(biāo)量超流水線處理機(jī),超流水線處理機(jī)的相對性能最低,主要原因如下: 超標(biāo)量處理機(jī)在每個時鐘周期的一開始就同時發(fā)射多條指令,而超流水線處理機(jī)則要把一個時鐘周期平均分成多個流水線周期,每個流水線周期發(fā)射一條指令;因此,超流水線處理機(jī)的啟動延遲比超標(biāo)量處理機(jī)大。,結(jié)論(續(xù)),條件轉(zhuǎn)移造成的損失,超流水線處理機(jī)要比超標(biāo)量處理機(jī)大。 在指令執(zhí)行過程中的每一個功能段,超標(biāo)量處理機(jī)都重復(fù)設(shè)置有多個相同的指令執(zhí)行部件,而超流水線處理機(jī)只是把同一個指令執(zhí)行部件分解為多個流水級;因此,超標(biāo)量處理機(jī)指令執(zhí)行部件的沖突要比超流水線處理機(jī)小。,結(jié)論(續(xù)),實(shí)際指令級并行度與理論指令級并行度的關(guān)系 當(dāng)橫坐標(biāo)給出的理論指令級并行度比較低時,處理機(jī)的實(shí)際指令級并行度的提高比較快。 當(dāng)理論指令級并行度進(jìn)一步增加時,處理機(jī)實(shí)際指令級并行度提高的速度越來越慢。 在實(shí)際設(shè)計(jì)超標(biāo)量、超流水線、超標(biāo)量超流水線處理機(jī)的指令級并行度時要適當(dāng),否則,有可能造成花費(fèi)了大量的硬件,但實(shí)際上處理機(jī)所能達(dá)到的指令級并行度并不高。 目前,一般認(rèn)為,m 和 n 都不要超過4。,結(jié)論(續(xù)),最大指令級并行度 一個特定程序由于受到本身的數(shù)據(jù)相關(guān)和控制相關(guān)的限制,它的指令級并行度的最大值是有限的,是有個確定的值。這個最大值主要由程序自身的語義來決定,與這個程序運(yùn)行在那一種處理機(jī)上無關(guān)。對于某一個特定的程序,圖中的三條曲線最終都要收攏到同一個點(diǎn)上。當(dāng)然,對于各個不同程序,這個收攏點(diǎn)的位置也是不同的。,超標(biāo)量處理機(jī): Intel公司的i860, i960, Pentium處理機(jī) Motolora公司的MC88110 IBM公司的Power 6000 SUN公司的SuperSPARC等 超流水線處理機(jī): SGI公司的MIPS R4000, R5000, R10000等 超標(biāo)量超流水線處理機(jī): DEC公司的Alpha等,超標(biāo)量、超流水、超標(biāo)量超流水處理機(jī)的主要性能,超長指令字處理機(jī)(VLIW),VLIW (Very Long Instruction Word) 是將水平型微碼和超標(biāo)量處理兩者結(jié)合的結(jié)構(gòu) 指令字長可達(dá)數(shù)百位,多個功能部件并發(fā)工作,共享大容量寄存器堆。 是一種單指令多操作碼多數(shù)據(jù)的系統(tǒng)結(jié)構(gòu)(SIMOMD),超長指令字處理機(jī)(續(xù)),超長指令字處理機(jī)(續(xù)),EPIC Explicitly Parallel Instruction Computing,顯性并行指令計(jì)算 1994年,Intel和HP決定聯(lián)合開發(fā)新一代微處理器基于IA-64架構(gòu)的Merced,并共同定義了顯性并行指令計(jì)算技術(shù)EPIC. IA-64指令系統(tǒng)的統(tǒng)稱。 集成RISC和VLIW各自的優(yōu)勢技術(shù),指令字長為128位,包含三個40位的指令和一個8位的模版代碼。 每個指令分為多個獨(dú)立的操作字段,每個字段可分別控制各個功能部件并行工作,而模版中包含各指令間并行處理的信息,依據(jù)模版代碼信息,可同時在不同的執(zhí)行單元中執(zhí)行三條沒有相關(guān)性的指令,控制并行處理關(guān)系,提高并行處理能力,EPIC,EPIC是一種超越超標(biāo)量的新模式,它克服了VLIW處理器的缺點(diǎn),實(shí)現(xiàn)下面的3步: 由編譯器先分析指令間的依賴關(guān)系; 編譯器將沒有依賴關(guān)系的指令,按最多是3個指令為一組,組合成多個“組”; 由內(nèi)置的執(zhí)行單元將分成組的指令群并行執(zhí)行。 因每條指令究竟分給哪一個執(zhí)行單元是由軟件決定的,因而利用簡單的硬件就可以提高指令的并行度,降低了處理器的制造成本。,RVIP技術(shù)和CRVIP技術(shù),RVIP(RISC-VLIW Processor)技術(shù)和CRVIP(CISC-RISC-VLIW Processor)技術(shù)是將RISC超標(biāo)量結(jié)構(gòu)與VLIW技術(shù)融為一體,或?qū)RIP(CISC-RISC Processor)混合結(jié)構(gòu)與VLIW技術(shù)融為一體的技術(shù). 在融合VLIW和超標(biāo)量結(jié)構(gòu)技術(shù)的RVIP型或者CRVIP型微處理機(jī)中,將不必在其執(zhí)行部件中設(shè)置復(fù)雜的執(zhí)行順序控制電路。因?yàn)樵谥噶罘职l(fā)調(diào)度之前就已經(jīng)弄清楚了這些指令之間的相關(guān)聯(lián)性。 VLIW技術(shù)滲入的顯著效果之一,就是它消除了超標(biāo)量結(jié)構(gòu)的過分的復(fù)雜性,從而使硬件系統(tǒng)結(jié)構(gòu)設(shè)計(jì)獲得簡化。,Itanium 2,HP Integrity Superdome HP-U

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論