高檔微處理器介紹.

上傳人：2*** IP屬地：湖北上傳時(shí)間：2022-05-28 格式：PPT 頁(yè)數(shù)：79 大?。?.28MB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩74頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、教學(xué)提示：Intel 8086/8088 CPU誕生至今已經(jīng)20多年了，期間Intel公司又相繼推出了80286、80386、80486(統(tǒng)稱為80X86)及Pentium處理器。這些CPU都是向下兼容的，即它們的指令系統(tǒng)都包括前期處理器的全部指令，并分別進(jìn)行了指令擴(kuò)展，從而提供了更強(qiáng)大的功能。本章的主要學(xué)習(xí)目的是熟悉高性能微機(jī)技術(shù)，了解高檔微處理器基本結(jié)構(gòu)和新增指令系統(tǒng)。教學(xué)要求：通過(guò)本章的學(xué)習(xí)，要了解386以上的CPU的寄存器、新增的指令集的知識(shí)，了解計(jì)算機(jī)的發(fā)展趨勢(shì)。高檔微處理器介紹高檔微處理器介紹12.1 高性能微機(jī)技術(shù)簡(jiǎn)介高性能微機(jī)技術(shù)簡(jiǎn)介隨著VLSI(超大規(guī)模集成電路)的出現(xiàn)

2、和發(fā)展，芯片集成度顯著提高，價(jià)格不斷下降，從而提高了計(jì)算機(jī)的性能價(jià)格比，使得過(guò)去在大、中、小型計(jì)算機(jī)中才采用的一些現(xiàn)代技術(shù)(例如,流水線技術(shù)、高速緩沖存儲(chǔ)器Cache和虛擬存儲(chǔ)器等)下移到微機(jī)系統(tǒng)中來(lái)。12.1.1 12.1.1 流水線技術(shù)流水線技術(shù) 流水線技術(shù)是一種同時(shí)進(jìn)行若干操作的并行處理方式。類似于工廠的流水作業(yè)裝配線。在計(jì)算機(jī)中把CPU的一個(gè)操作(分析指令，加工數(shù)據(jù)等)進(jìn)一步分解成多個(gè)可以單獨(dú)處理的子操作，使每個(gè)子操作在一個(gè)專門的硬件上執(zhí)行，這樣，一個(gè)操作需順序地經(jīng)過(guò)流水線中多個(gè)硬件的處理才能完成。但前后連續(xù)的幾個(gè)操作可以依次流入流水線中，在各個(gè)硬件間重疊執(zhí)行，這種操作的重疊提高了CP

3、U的效率。1.1. 標(biāo)量流水工作原理標(biāo)量流水工作原理通常CPU按順序方式執(zhí)行指令，執(zhí)行完一條指令后，才取出下一條指令來(lái)執(zhí)行，而且，一條機(jī)器指令內(nèi)各個(gè)微操作也是順序串行執(zhí)行的。順序執(zhí)行的優(yōu)點(diǎn)是控制簡(jiǎn)單，但機(jī)器各部分的利用率不高。假如把兩條指令或若干條指令在時(shí)間上重疊起來(lái)將大幅度提高程序的執(zhí)行速度。如圖12.1給出了一次重疊方式。所謂“一次重疊”指的是任何時(shí)候都只是“執(zhí)行K”與“分析K+1”重疊。由于這兩個(gè)子過(guò)程是分別由分析和執(zhí)行兩個(gè)獨(dú)立部件實(shí)現(xiàn)的，所以就不必等待上一條指令的“分析”、“執(zhí)行”子過(guò)程都完成后才送入下一條指令，而是可以在上條指令的“分析”子過(guò)程結(jié)束，轉(zhuǎn)入“執(zhí)行”子過(guò)程時(shí)，就可接收

4、下一條指令進(jìn)入“分析”子過(guò)程。這樣，機(jī)器的吞吐率(這里指單位時(shí)間內(nèi)機(jī)器所能處理的指令數(shù)或是機(jī)器能輸出的結(jié)果數(shù)量)，就由于把執(zhí)行一條指令的過(guò)程分解成兩個(gè)子過(guò)程而提高一倍。顯然，上述“重疊”和“流水”在概念上是密切聯(lián)系的?？梢赃@樣看：“一次重疊”和“流水”的差別在于前者把一條指令的執(zhí)行過(guò)程只分解為兩個(gè)子過(guò)程，而后者則是分解成更多個(gè)子過(guò)程。也就是說(shuō)，標(biāo)量流水是重疊方式的進(jìn)一步發(fā)展，如圖12.2所示。圖12.1 一次重疊方式圖12.2 流水方式若把執(zhí)行一條指令分解成“取指令碼”、“指令譯碼”、“取操作數(shù)”和“執(zhí)行”子過(guò)程，則指令執(zhí)行時(shí)空?qǐng)D如圖12.2所示。當(dāng)流水線正常流動(dòng)時(shí)，是每隔Vt(=ti+1

5、-ti)就會(huì)流出一個(gè)結(jié)果；然而，在指令剛開始流動(dòng)時(shí)，情況并不如此，由圖可看出，在t4之前(即首條指令流入后的4Vt時(shí)間內(nèi))流水線并沒有流出任何結(jié)果。也就是說(shuō)，對(duì)首條指令來(lái)講，流水方式和順序方式是一樣的。以上討論的是指令執(zhí)行流水線，經(jīng)常采用的還有運(yùn)算操作流水線，在這種流水線中，把運(yùn)算操作分成幾個(gè)子過(guò)程，每個(gè)子過(guò)程設(shè)置專門的邏輯電路完成指定的操作。和上述原理類似，可實(shí)現(xiàn)幾個(gè)子過(guò)程并行處理。2. 2. 超流水線超標(biāo)量方法超流水線超標(biāo)量方法超流水線是指某些CPU內(nèi)部的流水線超過(guò)通常的56步以上，例如Pentium Pro的流水線就長(zhǎng)達(dá)14 步，Pentium 4為20步。將流水線設(shè)計(jì)的步(級(jí))數(shù)越

6、多，其完成一條指令的速度越快，因此才能適應(yīng)工作主頻更高的CPU。超標(biāo)量(Super Scalar)是指在CPU中有一條以上的流水線，并且每時(shí)鐘周期內(nèi)可以完成一條以上的指令，這種設(shè)計(jì)就叫超標(biāo)量技術(shù)。一般地，超級(jí)標(biāo)量機(jī)具有如下特點(diǎn)。 (1) 配置有多個(gè)性能不同的處理部件，采用多條流水線并行處理。 (2) 能同時(shí)對(duì)若干條指令進(jìn)行譯碼，將可以并行執(zhí)行的指令送往不同的執(zhí)行部件，從而達(dá)到在每個(gè)周期啟動(dòng)多條指令的目的。 (3) 在程序運(yùn)行期間，由硬件(通常是狀態(tài)記錄部件和調(diào)度部件)來(lái)完成指令調(diào)度。從原理上講，超級(jí)標(biāo)量機(jī)主要是借助硬件資源重復(fù)(例如有兩套譯碼器和ALU等)來(lái)實(shí)現(xiàn)空間的并行操作。 3. 3. 超

7、長(zhǎng)指令字技術(shù)超長(zhǎng)指令字技術(shù) 超長(zhǎng)指令字(Very Long Instruction Word，VLIW)方法是由美國(guó)耶魯大學(xué)的Fisher教授首先提出的，它與超級(jí)標(biāo)量方法有許多類似之處，但它以一條長(zhǎng)指令來(lái)實(shí)現(xiàn)多個(gè)操作的并行執(zhí)行，以減少對(duì)存儲(chǔ)器的訪問。這種長(zhǎng)指令往往長(zhǎng)達(dá)上百位，每條指令可以做幾種不同的運(yùn)算，這些運(yùn)算都要發(fā)送到各種功能部件上去完成，哪些操作可以并行執(zhí)行，這是在編譯階段選擇的。其主要特點(diǎn)如下所述。 (1) 只有一個(gè)控制器，每個(gè)周期啟動(dòng)一條長(zhǎng)指令。 (2) 超長(zhǎng)指令字被分成多個(gè)控制字段，每個(gè)字段直接獨(dú)立地控制每個(gè)功能部件。 (3) 含有大量的數(shù)據(jù)通路和功能部件，由于編譯器在編譯時(shí)已考慮

8、到可能出現(xiàn)的相關(guān)問題，故控制硬件較簡(jiǎn)單。 (4) 在編譯階段完成超長(zhǎng)指令中多個(gè)可并行執(zhí)行操作的調(diào)度。4 其他相關(guān)技術(shù)其他相關(guān)技術(shù) 1) 亂序執(zhí)行技術(shù) 亂序執(zhí)行(Out-Of-Order Execution)是指CPU采用了允許將多條指令不按程序規(guī)定的順序分開發(fā)送給各相應(yīng)電路單元處理的技術(shù)。比方說(shuō)程序某一段有7條指令，此時(shí)CPU將根據(jù)各單元電路的空閑狀態(tài)和各指令能否提前執(zhí)行的具體情況分析后，將能提前執(zhí)行的指令立即發(fā)送給相應(yīng)電路執(zhí)行。當(dāng)然，在各單元不按規(guī)定順序執(zhí)行完指令后，還必須由相應(yīng)電路再將運(yùn)算結(jié)果重新按原來(lái)程序指定的指令順序排列后才能返回程序。這種將各條指令不按順序拆散后執(zhí)行的運(yùn)行方式就叫亂序

9、執(zhí)行(也叫錯(cuò)序執(zhí)行)技術(shù)。采用亂序執(zhí)行技術(shù)的目的是為了使CPU內(nèi)部電路滿負(fù)荷運(yùn)轉(zhuǎn)并相應(yīng)提高了CPU的運(yùn)行程序的速度。 2) 分枝預(yù)測(cè)和推測(cè)執(zhí)行技術(shù) 分枝預(yù)測(cè)(Branch Prediction)和推測(cè)執(zhí)行(Speculation Execution) 是CPU動(dòng)態(tài)執(zhí)行技術(shù)中的主要內(nèi)容。采用分枝預(yù)測(cè)和動(dòng)態(tài)執(zhí)行的主要目的是為了提高CPU的運(yùn)算速度。推測(cè)執(zhí)行是依托于分枝預(yù)測(cè)基礎(chǔ)上的，在分枝預(yù)測(cè)程序是否分枝后所進(jìn)行的處理也就是推測(cè)執(zhí)行。程序轉(zhuǎn)移(分支)對(duì)流水線影響很大，尤其是在循環(huán)設(shè)計(jì)中。不僅在循環(huán)中對(duì)循環(huán)條件的判斷占用了大量的CPU時(shí)間，更重要的是循環(huán)轉(zhuǎn)移破壞了流水線的正常流水，影響了流水線的性能。

10、為此，Pentium用分支目標(biāo)緩沖器BTB(Branch Target Buffer，一個(gè)小的Cache)來(lái)動(dòng)態(tài)地預(yù)測(cè)程序分支。動(dòng)態(tài)分支預(yù)測(cè)算法推測(cè)性地在過(guò)去曾執(zhí)行過(guò)的相應(yīng)指令的地址處運(yùn)行取代碼周期，這樣的取代碼周期根據(jù)過(guò)去的執(zhí)行歷史來(lái)運(yùn)行，而不管檢索得到的指令是否與當(dāng)前執(zhí)行的指令序列有關(guān)。當(dāng)指令導(dǎo)致程序分支時(shí)，BTB就記下這條指令的地址和分支目標(biāo)的地址(即存儲(chǔ)過(guò)去的程序分支處的程序地址和轉(zhuǎn)移目標(biāo)地址)。當(dāng)預(yù)取部件取到新的分支時(shí)，就與BTB中的所有信息作比較，若有相符的信息時(shí)，即預(yù)測(cè)分支，分支預(yù)取部件開始從各處開始預(yù)?。环駝t，原預(yù)取部件繼續(xù)順序預(yù)取。當(dāng)BTB判斷正確時(shí)，分支程序即刻得到譯碼

11、。從循環(huán)程序來(lái)看，在開始進(jìn)入循環(huán)和退出循環(huán)時(shí)，BTB會(huì)發(fā)生判斷錯(cuò)誤，需重新計(jì)算分支地址。循環(huán)10次，2次錯(cuò)誤8次正確，循環(huán)100次，2次錯(cuò)誤98次正確。因此，循環(huán)越多，BTB的效益越明顯。 3) 指令特殊擴(kuò)展技術(shù) 從最簡(jiǎn)單的計(jì)算機(jī)開始，指令序列便能取得運(yùn)算對(duì)象，并對(duì)它們執(zhí)行計(jì)算。對(duì)大多數(shù)計(jì)算機(jī)而言，這些指令同時(shí)只能執(zhí)行一次計(jì)算。如需完成一些并行操作，就要連續(xù)執(zhí)行多次計(jì)算。此類計(jì)算機(jī)采用的是“單指令單數(shù)據(jù)”(SISD)處理器。在介紹CPU性能中還經(jīng)常提到“擴(kuò)展指令”或“特殊擴(kuò)展”一說(shuō)，這都是指CPU是否具有對(duì)X86指令集進(jìn)行指令擴(kuò)展而言。擴(kuò)展指令中最早出現(xiàn)的是Intel公司自己的“MMX”，其次

12、是AMD公司的“3D Now!”，最后是最近的Pentium III中的“SSE”及Pentium 4中的“SSE2”。12.1.2 RISC、SIMD簡(jiǎn)介簡(jiǎn)介 1. RISC CISC技術(shù)和RISC技術(shù)是以計(jì)算機(jī)指令系統(tǒng)的優(yōu)化方法來(lái)分類而形成的技術(shù)概念，它們代表著目前計(jì)算機(jī)指令系統(tǒng)的兩個(gè)截然不同的優(yōu)化方向。最初，人們采用的優(yōu)化方法是增強(qiáng)計(jì)算機(jī)指令系統(tǒng)的功能，即設(shè)置一些功能復(fù)雜的指令，把一些原來(lái)由軟件實(shí)現(xiàn)的，常用的功能改用硬件的指令系統(tǒng)實(shí)現(xiàn)，以提高計(jì)算機(jī)的執(zhí)行速度，這種計(jì)算機(jī)系統(tǒng)就被稱為復(fù)雜指令系統(tǒng)計(jì)算機(jī)，即Complex Instruction Set Computer，簡(jiǎn)稱CISC。另一

13、種優(yōu)化方法是在20世紀(jì)80年代才發(fā)展起來(lái)的，其基本思想是盡量簡(jiǎn)化計(jì)算機(jī)指令功能，只保留那些功能簡(jiǎn)單、能在一個(gè)節(jié)拍內(nèi)執(zhí)行完成的指令，而把較復(fù)雜的功能用一段子程序來(lái)實(shí)現(xiàn)，這種計(jì)算機(jī)系統(tǒng)就被稱為精簡(jiǎn)指令系統(tǒng)計(jì)算機(jī)，即Reduced Instruction Set Computer，簡(jiǎn)稱RISC。 RISC技術(shù)通過(guò)簡(jiǎn)化計(jì)算機(jī)指令功能，使指令的平均執(zhí)行周期減少，從而提高計(jì)算機(jī)的工作主頻，同時(shí)大量使用通用寄存器，來(lái)提高子程序執(zhí)行的速度。所以一般RISC計(jì)算機(jī)的速度是同等CISC計(jì)算機(jī)的3倍左右。2. SIMD2. SIMD技術(shù)技術(shù) 單指令多數(shù)據(jù)(Single Instruction Multiple Da

14、ta，SIMD)結(jié)構(gòu)的CPU有多個(gè)執(zhí)行部件，但都在同一個(gè)指令部件的控制下。SIMD在性能上有什么優(yōu)勢(shì)呢？以加法指令為例，單指令單數(shù)據(jù)(SISD)的CPU對(duì)加法指令譯碼后，執(zhí)行部件先訪問內(nèi)存，取得第一個(gè)操作數(shù)；之后再一次訪問內(nèi)存，取得第二個(gè)操作數(shù)；隨后才能進(jìn)行求和運(yùn)算。而在SIMD型CPU中，指令譯碼后幾個(gè)執(zhí)行部件同時(shí)訪問內(nèi)存，一次性獲得所有操作數(shù)進(jìn)行運(yùn)算。這個(gè)特點(diǎn)使得SIMD特別適合于多媒體應(yīng)用等數(shù)據(jù)密集型運(yùn)算。AMD公司的3D NOW！技術(shù)其實(shí)質(zhì)就是SIMD，這使K6-2處理器在音頻解碼、視頻回放、3D游戲等應(yīng)用中顯示出優(yōu)異性能。12.1.3 MMX12.1.3 MMX、SSESSE、SSE

15、2SSE2技術(shù)技術(shù)1. MMX技術(shù) MMX是為多媒體應(yīng)用而設(shè)計(jì)的，其實(shí)，MMX的數(shù)據(jù)類型和指令系統(tǒng)，不僅適合于多媒體操作，而且也適合于通信及信號(hào)處理等更寬的應(yīng)用領(lǐng)域，所以可以把它理解為多媒體與通信的擴(kuò)展(Multimedia and Modem eXtension，MMX)。 MMX是英語(yǔ)“多媒體指令集”的縮寫。共有57條指令，是Intel公司第一次對(duì)自1985年就定型的 X86指令集進(jìn)行的擴(kuò)展。MMX主要用于增強(qiáng)CPU對(duì)多媒體信息的處理，提高CPU處理3D圖形、視頻和音頻信息能力。MMX技術(shù)一次能處理多個(gè)數(shù)據(jù)。計(jì)算機(jī)的多媒體處理，通常是指動(dòng)畫再生、圖像加工和聲音合成等處理。在多媒體處理中，對(duì)

16、于連續(xù)的數(shù)據(jù)必須進(jìn)行多次反復(fù)的相同處理。利用傳統(tǒng)的指令集，無(wú)論是多小的數(shù)據(jù)，一次也只能處理一個(gè)數(shù)據(jù)，因此耗費(fèi)時(shí)間較長(zhǎng)。為了解決這一問題，在MMX中采用了SIMD(單指令多數(shù)據(jù)技術(shù))，可對(duì)一條命令多個(gè)數(shù)據(jù)進(jìn)行同時(shí)處理，它可以一次處理64bit任意分割的數(shù)據(jù)。其次，是數(shù)據(jù)可按最大值取齊。MMX的另一個(gè)特征是在計(jì)算結(jié)果超過(guò)實(shí)際處理能力的時(shí)候也能進(jìn)行正常處理。若用傳統(tǒng)的X86指令，計(jì)算結(jié)果一旦超出了CPU處理數(shù)據(jù)的限度，數(shù)據(jù)就要被截掉，而化成較小的數(shù)。而MMX利用所謂“飽和(Saturation)”功能，圓滿地解決了這個(gè)問題。計(jì)算結(jié)果一旦超過(guò)了數(shù)據(jù)大小的限度，就能在可處理范圍內(nèi)自動(dòng)變換成最大值。 MM

17、X技術(shù)擴(kuò)展了IA的指令系統(tǒng)，大大增強(qiáng)了高級(jí)媒體和通信應(yīng)用的性能。這種擴(kuò)展(包括新的寄存器、數(shù)據(jù)類型和指令)與單指令多數(shù)據(jù)(SIMD)的并行執(zhí)行方式相結(jié)合，能顯著地加速如運(yùn)動(dòng)視頻、視頻圖形組合、圖像處理、音頻合成、語(yǔ)音合成與壓縮、電話技術(shù)、視頻會(huì)議以及2D與3D圖形等處理。這類處理的特點(diǎn)是使用密集的算法，對(duì)局部小型實(shí)型數(shù)組進(jìn)行重復(fù)操作。 MMX技術(shù)定義了一種簡(jiǎn)單靈活的軟件模型，它沒有新的操作模式，也沒有操作系統(tǒng)可見的狀態(tài)。現(xiàn)有各種軟件不用修改就可以在帶有MMX技術(shù)的IA處理器上正確運(yùn)行。 MMX技術(shù)對(duì)IA(Intel Architecture)編程環(huán)境的擴(kuò)展是： (1) 8個(gè)MMX寄存器(MM0

18、MM7)。 (2) 4種MMX數(shù)據(jù)類型(緊縮字節(jié)、緊縮字、緊縮雙字和4字)。 (3) MMX指令系統(tǒng)。 MMX寄存器。 MMX寄存器集由8個(gè)64位寄存器組成，如圖12.3所示。MMX指令使用寄存器名MM0MM7直接訪問MMX寄存器。這些寄存器只能用來(lái)對(duì)MMX數(shù)據(jù)類型進(jìn)行數(shù)據(jù)運(yùn)算，不能尋址存儲(chǔ)器。MMX指令中存儲(chǔ)器操作數(shù)的尋址仍使用標(biāo)準(zhǔn)的IA尋址方式和通用寄存器(EAX、EBX、ECX、EDX、EBP、ESI、EDI和ESP)來(lái)進(jìn)行。圖12.3 MMX寄存器集盡管MMX寄存器在IA中是作為獨(dú)立寄存器來(lái)定義的，但是，它們是通過(guò)對(duì)FPU(Float Process Unit)數(shù)據(jù)寄存器堆棧(R0R

19、7)別名而來(lái)的。 MMX數(shù)據(jù)類型。 MMX技術(shù)定義了以下新的64位數(shù)據(jù)類型。緊縮字節(jié)：8個(gè)字節(jié)緊縮成一個(gè)64位；緊縮字：4個(gè)字緊縮成一個(gè)64位；緊縮雙字：2個(gè)雙字緊縮成一個(gè)64位；4字：一個(gè)64位，如圖12.4所示。緊縮字節(jié)數(shù)據(jù)類型中字節(jié)的編號(hào)為07，第0字節(jié)在該數(shù)據(jù)類型的低有效位(位07)，第7字節(jié)在高有效位(位5663)。緊縮字?jǐn)?shù)據(jù)類型中的字編號(hào)為03，第0字在該數(shù)據(jù)類型的位015，第3字在位4863。緊縮雙字?jǐn)?shù)據(jù)類型中的雙字編號(hào)為01，第0個(gè)雙字在位03l，第1個(gè)雙字在位3263。圖12.4 數(shù)據(jù)格式和存儲(chǔ)方式 MMX指令可以用64位塊方式與存儲(chǔ)器進(jìn)行數(shù)據(jù)傳送，也可以用32位塊方式

20、與IA通用寄存器進(jìn)行數(shù)據(jù)傳送。但是，在對(duì)緊縮數(shù)據(jù)類型進(jìn)行算術(shù)或邏輯操作時(shí)，MMX指令則對(duì)64位MMX寄存器中的字節(jié)、字或雙字進(jìn)行并行操作。對(duì)緊縮數(shù)據(jù)類型的字節(jié)、字和雙字進(jìn)行操作時(shí)，這些數(shù)據(jù)可以是帶符號(hào)的整型數(shù)據(jù)，也可以是無(wú)符號(hào)的整型數(shù)據(jù)。單指令多數(shù)據(jù)執(zhí)行方式。 MMX技術(shù)使用單指令多數(shù)據(jù)(SIMD)技術(shù)對(duì)緊縮在64位MMX寄存器中的字節(jié)、字或雙字實(shí)現(xiàn)算術(shù)和邏輯操作。例如，PADDSB指令將源操作數(shù)中的8個(gè)帶符號(hào)字節(jié)加到目標(biāo)操作數(shù)中的8個(gè)帶符號(hào)字節(jié)上，并將8字節(jié)的結(jié)果存儲(chǔ)到目標(biāo)操作數(shù)中。SIMD技術(shù)通過(guò)對(duì)多數(shù)據(jù)元素并行實(shí)現(xiàn)相同的操作來(lái)顯著地提高軟件性能。 MMX技術(shù)所支持的SIMD執(zhí)行方式可

21、以直接滿足多媒體、通信以及圖形應(yīng)用的需要，這些應(yīng)用經(jīng)常使用復(fù)雜算法對(duì)大量小數(shù)據(jù)類型(字節(jié)、字和雙字)數(shù)據(jù)實(shí)現(xiàn)相同操作。例如，大多數(shù)音頻數(shù)據(jù)都用16位(字)來(lái)量化，一條MMX指令可以對(duì)4個(gè)這樣的字同時(shí)進(jìn)行操作。視頻與圖形信息一般用8位(字節(jié))來(lái)表示，那么，一條MMX指令可以對(duì)8個(gè)這樣的字節(jié)同時(shí)進(jìn)行操作。數(shù)據(jù)存放格式。在向存儲(chǔ)器存儲(chǔ)字節(jié)、字和雙字時(shí)，總是以緊縮數(shù)據(jù)類型存儲(chǔ)到連續(xù)的地址上，低有效數(shù)存儲(chǔ)在低地址區(qū)域，高有效數(shù)存儲(chǔ)在高地址區(qū)域。存儲(chǔ)器中的字節(jié)、字或雙字在排序時(shí)，具有較低地址的字節(jié)總是較低的有效數(shù)，具有較高地址的字節(jié)總是較高的有效數(shù)。當(dāng)考慮緊縮數(shù)據(jù)對(duì)界存儲(chǔ)時(shí)，應(yīng)當(dāng)按4字節(jié)或8字節(jié)的邊界

22、對(duì)齊。 MMX寄存器中數(shù)的格式與存儲(chǔ)器中64位數(shù)的格式相同。MMX寄存器有兩種數(shù)據(jù)訪問模式：64位訪問模式與32位訪問模式。64位訪問模式用于64位存儲(chǔ)器訪問、MMX寄存器間的64位傳送、邏輯與算術(shù)運(yùn)算以及緊縮/展開指令。32位訪問模式僅用于32位存儲(chǔ)器訪問、32位傳送以及某些展開指令。應(yīng)用舉例。向量點(diǎn)積是對(duì)一些自然數(shù)據(jù)處理，如圖像、音頻、視頻數(shù)據(jù)等進(jìn)行處理時(shí)，使用的基本算法之一。向量點(diǎn)積需要進(jìn)行大量的乘加法運(yùn)算，重復(fù)率高。采用MMX的緊縮乘加指令能有效地加速該類運(yùn)算。計(jì)算X= 。 ( )* ( )ia ib i程序如下： PXOR MM7,MM7Vloop： MOVQ MM0,EAX;取

23、a向量 MOVQ MM1,EBX ;取b向量 PMADDWD MM0,MM1;乘加 PADDD MM7,MM0 ADD EBX,8 ADD EAX,8 SUB ECX,4 JNZ Vloop MOVQ MM6,MM7;結(jié)果暫存 PSRLQ MM7,32;結(jié)果右移32位 PADDD MM7,MM6 MOVD result,MM7 ;存放32位結(jié)果2. SSE2. SSE技術(shù)技術(shù) SSE是英語(yǔ)“Internet Streaming SIMD Extensions因特網(wǎng)數(shù)據(jù)流單指令序列擴(kuò)展”的縮寫。SSE除保持原有的MMX指令外，又新增了70條指令，在加快浮點(diǎn)運(yùn)算的同時(shí)，也改善了內(nèi)存的使用效率，使內(nèi)

24、存速度顯得更快一些。對(duì)游戲性能的改善十分顯著，按Intel的說(shuō)法，SSE對(duì)下述幾個(gè)領(lǐng)域的影響特別明顯：3D幾何運(yùn)算及動(dòng)畫處理、圖形處理(如Photoshop)、視頻編輯/壓縮/解壓(如MPEG和DVD)、語(yǔ)音識(shí)別以及聲音壓縮和合成等。 Intel的SSE是由一組隊(duì)結(jié)構(gòu)的擴(kuò)展所組成，它被設(shè)計(jì)為用以提高先進(jìn)的媒體和通信應(yīng)用程序的性能。該擴(kuò)展(包括新的寄存器、新的數(shù)據(jù)類型和新的指令)與單指令多數(shù)據(jù)(SIMD)技術(shù)相結(jié)合，有利于加速應(yīng)用程序的運(yùn)行。這個(gè)擴(kuò)展與MMX技術(shù)相結(jié)合，將顯著地提高多媒體應(yīng)用程序的效率。典型的應(yīng)用程序是：運(yùn)動(dòng)視頻，圖形和視頻的組合，圖像處理，音頻合成，語(yǔ)音的識(shí)別、合成與壓縮，電話

25、、視頻會(huì)議和2D、3D圖形。對(duì)于需要有規(guī)律地訪問大量數(shù)據(jù)的應(yīng)用程序，也可以從流式SIMD擴(kuò)展的高性能預(yù)取和存儲(chǔ)方面獲得好處。 SSE定義了一種簡(jiǎn)單靈活的軟件模式。這種新的模式引入了一種新的操作系統(tǒng)可視狀態(tài)。為了增強(qiáng)并行性，增加了一組新的寄存器?，F(xiàn)存的各種軟件，可在不做修改的情況下繼續(xù)在增加了SSE的IA處理器上正確運(yùn)行。 SSE引入了一組新的、通用的浮點(diǎn)指令。浮點(diǎn)指令對(duì)8個(gè)128位SIMD浮點(diǎn)寄存器組進(jìn)行操作。SSE指令系統(tǒng)使得程序設(shè)計(jì)人員能夠去設(shè)計(jì)這樣一類的算法，SSE指令和MMX指令兩者混合在一起的緊縮單精度浮點(diǎn)運(yùn)算和緊縮整型運(yùn)算的算法。SSE提供了一些新的指令以控制整個(gè)MMX數(shù)據(jù)類型和3

26、2位數(shù)據(jù)類型的可高速緩存性，新指令能將數(shù)據(jù)流直接送存儲(chǔ)器而不污染高速緩存，還提供了能夠預(yù)取數(shù)據(jù)的新指令。 SSE對(duì)于IA編程環(huán)境而言，提供了如下的新擴(kuò)展： (1) 8個(gè)SIMD浮點(diǎn)寄存器(XMM0XMM7)。 (2) SIMD浮點(diǎn)數(shù)據(jù)類型(128位緊縮浮點(diǎn)數(shù))。 (3) SSE指令系統(tǒng)。 SIMD浮點(diǎn)寄存器和數(shù)據(jù)類型在下面介紹。 SIMD浮點(diǎn)寄存器。 IA的SSE提供了8個(gè)128位的通用寄存器，每個(gè)寄存器可以直接尋址。這些寄存器是新的，需要能使用該類寄存器的操作系統(tǒng)支持。 SIMD浮點(diǎn)寄存器保存著緊縮的128位數(shù)據(jù)。流式SIMD擴(kuò)展指令訪問SIMD浮點(diǎn)寄存器時(shí)，直接使用寄存器名XMM0XMM7

27、，如圖12.5所示。SIMD浮點(diǎn)寄存器可被用以完成數(shù)據(jù)計(jì)算，但不能用來(lái)尋址存儲(chǔ)器。尋址仍用整型寄存器來(lái)實(shí)現(xiàn)，并且使用標(biāo)準(zhǔn)的IA尋址方式及通用寄存器名。圖12.5 XMM寄存器 MMX寄存器被映射為浮點(diǎn)寄存器。從MMX操作轉(zhuǎn)換到浮點(diǎn)操作需要執(zhí)行EMMS指令。由于SIMD浮點(diǎn)寄存器是一個(gè)獨(dú)立的寄存器文件，因此MMX指令和浮點(diǎn)指令都能與流式SIMD擴(kuò)展指令混合在一起，而不需要執(zhí)行如EMMS指令那樣的特殊操作。 SIMD浮點(diǎn)數(shù)據(jù)類型。 IA流式SIMD擴(kuò)展的基本數(shù)據(jù)類型是緊縮單精度浮點(diǎn)操作數(shù)，準(zhǔn)確地說(shuō)，是4個(gè)32位單精度浮點(diǎn)(SP-FP)數(shù)，如圖12.6所示。圖12.6 32位單精度浮點(diǎn)新的SIMD整

28、型指令可以按緊縮字節(jié)、緊縮字或者緊縮雙字的數(shù)據(jù)類型進(jìn)行操作。新的預(yù)取指令是在32字節(jié)或者更大的數(shù)據(jù)規(guī)?；A(chǔ)之上工作的，不管這些數(shù)據(jù)是什么類型。4個(gè)32位單精度浮點(diǎn)數(shù)編號(hào)為03，第0個(gè)數(shù)據(jù)位于寄存器的低32位之中。 SSE與存儲(chǔ)器之間的緊縮數(shù)據(jù)(單精度的浮點(diǎn)雙字)傳送，按64位的塊或者按128位的塊來(lái)進(jìn)行。但是，當(dāng)按緊縮數(shù)據(jù)類型執(zhí)行算術(shù)操作或者邏輯操作時(shí)，卻按SIMD浮點(diǎn)寄存器中4個(gè)獨(dú)立的雙字并行地進(jìn)行操作。新的SIMD整型指令遵循著MMX指令的慣例，并且按MMX寄存器的數(shù)據(jù)類型，而不是按SIMD浮點(diǎn)128位寄存器的數(shù)據(jù)類型進(jìn)行操作。 SIMD的執(zhí)行方式。 SSE使用單指令多數(shù)據(jù)(SIMD)技術(shù)

29、，按照128位浮點(diǎn)寄存器中的單精度浮點(diǎn)數(shù)來(lái)完成算術(shù)和邏輯操作。這種技術(shù)通過(guò)用一條指令并行地處理多個(gè)數(shù)據(jù)元素，以提高軟件的速度性能。流式SIMD擴(kuò)展支持緊縮的單精度浮點(diǎn)數(shù)據(jù)類型的操作，其SIMD整型指令支持緊縮整型數(shù)據(jù)類型(字節(jié)、字、雙字)的操作。SSE指令能在保護(hù)方式、實(shí)地址方式和虛擬8086方式下運(yùn)行。數(shù)據(jù)格式。 SSE的緊縮128位數(shù)據(jù)，編號(hào)為0127。位0為最低有效位(LSB)，127為最高有效位(MSB)。當(dāng)存儲(chǔ)數(shù)據(jù)時(shí)，128位的數(shù)據(jù)總是按“小端”法進(jìn)行排序，即低地址的字節(jié)為低有效字節(jié)，高地址的字節(jié)為高有效字節(jié)。Pentium III處理器的SIMD浮點(diǎn)指令以32位單精度浮點(diǎn)數(shù)據(jù)為單

30、位進(jìn)行操作。在SIMD浮點(diǎn)寄存器中的值與存儲(chǔ)器中的128位數(shù)具有相同的格式。在存儲(chǔ)器存儲(chǔ)實(shí)型數(shù)時(shí)，單精度實(shí)型值按4個(gè)連續(xù)的字節(jié)存儲(chǔ)在存儲(chǔ)器中。128位的訪問方式用于128位的存儲(chǔ)器訪問、SIMD浮點(diǎn)寄存器之間的128位傳送、所有的邏輯展開/算術(shù)指令操作。32位的訪問方式用于32位的存儲(chǔ)器訪問、SIMD浮點(diǎn)寄存器之間的32位傳送以及各種算術(shù)指令操作。算術(shù)指令有128位操作的、也有32位操作的。 SIMD浮點(diǎn)控制/狀態(tài)寄存器。控制/狀態(tài)寄存器MXCSR用來(lái)屏蔽/開放數(shù)值異常處理、設(shè)置舍入方式、設(shè)置清零方式和觀察狀態(tài)標(biāo)志。該寄存器的內(nèi)容可以用LDMXCSR和FXRSTOR指令來(lái)加載和用STMXS

31、CRR和FXSAVE指令將它存入存儲(chǔ)器。圖12.7示出了MXCSR寄存器中各個(gè)字段。位50表示是否檢測(cè)到SIMD。圖12.7 MXCSR寄存器浮點(diǎn)數(shù)值異常。它們是“粘貼(sticky)”標(biāo)志，通過(guò)LDMXSCR指令對(duì)相應(yīng)字段寫0可以清除這些標(biāo)志。如果LDMXCSR指令清除了相應(yīng)的屏蔽位之后又對(duì)相應(yīng)的異常標(biāo)志置l，不會(huì)立即產(chǎn)生異常。只有在下一次SSE擴(kuò)展處理時(shí)，出現(xiàn)了這種異常條件才會(huì)發(fā)生異常。SSE的每種異常只有一個(gè)異常標(biāo)志，因此一次緊縮數(shù)據(jù)(4個(gè)SP浮點(diǎn)數(shù))操作時(shí)，不能為每個(gè)數(shù)據(jù)操作提供異常報(bào)告。在同一條指令之內(nèi)出現(xiàn)多個(gè)異常條件時(shí)，則相關(guān)的異常標(biāo)志被修改并且指示著這些條件中最后一個(gè)異常條件所

32、發(fā)生的異常。當(dāng)復(fù)位時(shí)，這些標(biāo)志被清除。位127組成數(shù)值異常屏蔽。如果相應(yīng)的位置1，則該種異常被屏蔽，如果相應(yīng)的位清除，則該種異常開放。在復(fù)位時(shí)，這些位全被置為l，意味著所有的數(shù)值異常被屏蔽。位1413為舍入控制字段。舍入控制除提供定向舍入、截尾舍入之外，還控制著公用的就近舍入方式。當(dāng)復(fù)位時(shí)，舍入控制被置為就近舍入。位15(FZ)用來(lái)啟動(dòng)“清除為0(Flush To Zero)”方式。當(dāng)復(fù)位時(shí)，該位被清除，則禁止“清除為0”方式。 MXCSR寄存器的其他位(位3l16和位6)定義為保留位并清除為0；試圖使用FXRSTOR或者LDMXCSR指令對(duì)保留位寫入非0值，則將引起通用保護(hù)異常。啟動(dòng)

33、“清除為0”方式，在下溢情況下，有如下的效果：回送0結(jié)果，且0值帶有真實(shí)結(jié)果的符號(hào)。精度異常標(biāo)志和下溢異常標(biāo)志置為1。在應(yīng)用程序中，下溢異常出現(xiàn)時(shí)，希望能以精度的輕微損失為代價(jià)而換得應(yīng)用程序的快速運(yùn)行，因此采用“清除為0”方式。對(duì)于“清除為0”的下溢是這樣定義的：當(dāng)計(jì)算結(jié)果規(guī)格化之前，指數(shù)部分處于不可規(guī)格化范圍，則產(chǎn)生“清除為0”，而不管是否有精度損失。未屏蔽的下溢異常是早于“清除為0”方式產(chǎn)生的，這就意味著，當(dāng)下溢異常未被屏蔽時(shí)，產(chǎn)生了下溢條件的SSE指令，將調(diào)用異常處理程序，而不管“清除為0”方式是否為使能。3. SSE2 技術(shù)技術(shù) Intel在PIV處理器中加入了SSE2指令集，P

34、entium III處理器采用的SSE指令集相比，目前Pentium 4的整個(gè)SEE2指令集共有144條，其中包括原有的68組SEE指令及新增加76組SEE2的指令。全新的SEE2指令除了將傳統(tǒng)整數(shù)MMX寄存器也擴(kuò)展成128位(128bit MMX)，另外還提供了128位SIMD整數(shù)運(yùn)算操作和128位雙精密度浮點(diǎn)運(yùn)算操作。12.2 80X86/Pentium微處理器與新增指令簡(jiǎn)介微處理器與新增指令簡(jiǎn)介與8086 微處理器相比，高檔微處理內(nèi)部結(jié)構(gòu)與尋址方式變化較大，不僅增加了數(shù)據(jù)總路線、地址總路線的位數(shù)，而且采用了許多新技術(shù)，增加了支持多媒體的指令集，使微處理器性能大大提高。12.2.1 80

35、286微處理器結(jié)構(gòu)和新增指令 1. 80286微處理器結(jié)構(gòu) 1) 80286的主要特性 1982年，Intel公司推出80286微處理器，與8086/8088相比，其速度更快，具備多任務(wù)功能，其主要性能： (1) 80286與8086/8088一樣具有軟件兼容性，在匯編源代碼一級(jí)兼容。 (2) 80286 CPU內(nèi)部的4個(gè)相互獨(dú)立的處理部件執(zhí)行部件(EU)、總線部件(BU)、指令部件(IU)和地址部件(AU)并行地進(jìn)行操作，大大提高了數(shù)據(jù)吞吐率，從而加快了處理速度。 (3) 80286的地址總線和數(shù)據(jù)信號(hào)線完全分開，不再采用分時(shí)復(fù)用的方式。 (4) 80286時(shí)鐘頻率已從早期的6MHz、8MH

36、z、12MHz提高到16MHz、20MHz、25MHz，遠(yuǎn)高于8086/8088的4.77MHz、8MHz和10MHz。 (5) 80286具有兩種基本的工作方式：即實(shí)方式和保護(hù)方式。內(nèi)外部數(shù)據(jù)總線都是16位，地址線24條，尋址范圍大幅擴(kuò)展，實(shí)模式下達(dá)到16MB，內(nèi)存虛擬地址空間達(dá)1GB。 (6) 與8086/8088 CPU相比，80286 CPU增加了一個(gè)機(jī)器狀態(tài)字寄存器MSW。此外，標(biāo)志寄存器Flags增加了兩個(gè)標(biāo)志。由于新增加內(nèi)容在程序設(shè)計(jì)中使用不多，故不再贅述。 2) 80286的內(nèi)部結(jié)構(gòu)的內(nèi)部結(jié)構(gòu) 80286的內(nèi)部結(jié)構(gòu)如圖12.8所示，80286微處理器由總線部件BU(Bus Un

37、it)、指令不見IU(instruction Unit)、執(zhí)行部件EU(Execute Unit)和地址部件AU(Address Unit)四個(gè)功能部件組成，增強(qiáng)了這些部件的并行操作能力，加快了微處理器的運(yùn)行速度。圖12.8 80286的內(nèi)部結(jié)構(gòu) 80286 CPU內(nèi)部的4個(gè)處理部件并行操作，形成了取指令、指令譯碼和指令執(zhí)行重疊進(jìn)行的流水線工作方式，提高了數(shù)據(jù)的吞吐率，加快了運(yùn)行處理速度。由于內(nèi)部具有存儲(chǔ)器管理和存儲(chǔ)器保護(hù)機(jī)構(gòu)，可以適應(yīng)多用戶、多任務(wù)的需要。一個(gè)10MHz的80286比標(biāo)準(zhǔn)的5MHz的8086性能要高6倍。各個(gè)部件的主要功能簡(jiǎn)述如下所述。 (1) 總線部件BU：地址鎖存和驅(qū)動(dòng)器

38、講4位地址鎖存并加以驅(qū)動(dòng)；預(yù)取器負(fù)責(zé)向存儲(chǔ)器取指令代碼并放到6個(gè)字節(jié)的預(yù)取隊(duì)列中；協(xié)處理器借口專門負(fù)責(zé)語(yǔ)0287協(xié)處理器的連接；數(shù)據(jù)收發(fā)器根據(jù)指令要求負(fù)責(zé)控制數(shù)據(jù)的輸入或輸出(控制方向)；6個(gè)字節(jié)的指令隊(duì)列專門存放由預(yù)取器送來(lái)的指令；總線控制產(chǎn)生有關(guān)外部控制信號(hào)送到外部的總線控制器80288，以便組合產(chǎn)生存儲(chǔ)器或I/O的讀、寫控制信號(hào)。 (2) 指令部件IU：負(fù)責(zé)從預(yù)取隊(duì)列中取代碼并進(jìn)行譯碼，放入3條指令的指令隊(duì)列中。 (3) 地址部件AU：負(fù)責(zé)物理地址的生成。實(shí)地址模式下的80286只讀尋址1MB的存儲(chǔ)空間；在保護(hù)虛地址模式下，物理地址線是24條，段地址并不直接存放在四個(gè)段寄存器中，而存放在

39、段描述符中。通過(guò)描述符的數(shù)據(jù)結(jié)構(gòu)尋找24位段基址與6位偏移地址相加得到實(shí)際的物理地址，形成真正的24位物理地址。 (4) 指令部件EU：負(fù)責(zé)從譯碼指令隊(duì)列取出已經(jīng)譯碼的指令立即執(zhí)行。執(zhí)行指令時(shí)如果需要操作數(shù)，可以向AU發(fā)出相應(yīng)的地址信息。2. 80286新增指令新增指令 1) 堆棧操作指令 (1) PUSH Imm16；Imm16為16位立即數(shù)：功能：將16位立即數(shù)壓入堆棧，該指令不影響狀態(tài)標(biāo)志位。例如： PUSH5678H PUSH0BAH PUSHOK (2) PUSHA：依次將通用寄存器AX，CX，DX，BX，SP，BP，SI，DI的內(nèi)容壓入堆棧。 (3) POPA：功能：依次將

40、棧頂?shù)膬?nèi)容彈至DI，SI，BP，SP，BX，DX，CX，AX(次序與PUSHA指令相反) 例如：在子程序調(diào)用中，我們往往通過(guò)PUSH指令和POP指令來(lái)保護(hù)寄存器，但現(xiàn)在可用下述指令實(shí)現(xiàn)： PUSHA CALL SUB1 POPA 2) 有符號(hào)數(shù)乘法指令 8086/8088的乘法指令只有一個(gè)操作數(shù)，另一個(gè)操作數(shù)是隱含的，而80286可有兩個(gè)或三個(gè)操作數(shù)，使乘法指令的功能更靈活。 (1) IMUL Reg，Imm；Reg只能是16位或32位通用寄存器。功能：RegRegImm，指令中原操作數(shù)和目的操作數(shù)的位數(shù)必須一致。例如： IMUL BX,0BCDH (2) IMULReg1，Reg2/Mem

41、,Imm；Reg1和Reg2只能是16位通用寄存器。功能：Reg1Reg2Imm或Reg1MemImm，指令中原操作數(shù)和目的操作數(shù)的位數(shù)必須一致。例如： IMUL DX,BX,100H IMUL BX,200H,12H IMUL CX,SI,200H 3) 移位指令 8088/8086的移位指令在移位次數(shù)大于1時(shí)，移位次數(shù)必須放入CL寄存器。而80286對(duì)此進(jìn)行了修改，當(dāng)移位次數(shù)為131時(shí)，可直接用立即數(shù)表示移位次數(shù)。例如： SAL AX,2 RCRBX,412.2.2 80386微處理器結(jié)構(gòu)和新增指令微處理器結(jié)構(gòu)和新增指令1 80386微處理器結(jié)構(gòu) 1) 80386的主要特性 1985年

42、，Intel公司推出80386微處理器，其內(nèi)外部數(shù)據(jù)總線都是32位(80386SX CPU外部數(shù)據(jù)線為16位)，地址線32條，實(shí)際尋址范圍為4GB，虛擬存儲(chǔ)空間達(dá)64TB。其主要性能： (1) 80386 CPU的內(nèi)部由總路線接口部件(BIU)、指令部件(IU)、執(zhí)行部件(EU)以及址部件(AU)四部分組成。 (2) 時(shí)鐘頻率分別有16MHz、20MHz、25MHz、33MHz、40MHz。 (3) 不僅與8086/80286全兼容，而且向上擴(kuò)展具有全32位數(shù)據(jù)處理能力，具有先進(jìn)的存儲(chǔ)管理部件，可進(jìn)行頁(yè)式、段式和段頁(yè)式存儲(chǔ)管理。(4) 80386的工作方式在80286基礎(chǔ)上作了向上兼容擴(kuò)充，一

43、方面它具有類似的實(shí)方式和保護(hù)方式的特點(diǎn)，另一方面在保護(hù)方式的特點(diǎn)，另一方面在保護(hù)方式下，通過(guò)新的頁(yè)面保護(hù)機(jī)制，提供更大的虛擬存儲(chǔ)空間(64T)和實(shí)際存儲(chǔ)空間(4G)。此外，在保護(hù)方式下支持一種新的虛擬8086方式(V86)，允許多個(gè)8086代碼不作修改亦可運(yùn)行。 (5) 80386以流水線方式工作，共有6級(jí)流水線，即：取指、譯碼、執(zhí)行、二級(jí)存儲(chǔ)器管理和總線訪問，以及指令的并行處理，從而提高了運(yùn)行速度。 (6) 提供了32位外部總路線接口。總線接口支持動(dòng)態(tài)數(shù)據(jù)寬度控制，能動(dòng)態(tài)地在16位數(shù)據(jù)總路線和32位數(shù)據(jù)總路線之間進(jìn)行切換，以適應(yīng)不同位數(shù)的存儲(chǔ)器和I/O設(shè)備。 80386 CPU內(nèi)部寄存器共1

44、6個(gè)，如圖12.9所示。它們是：圖12.9 32位寄存器示意圖 (1) 8個(gè)32位通用寄存器：EAX、EBX、ECX、EDX、ESI、EDI、ESP和EBP。這些通用寄存器的低16位可作為16位寄存器單獨(dú)使用，這些16位寄存器就是AX、BX、CX、DX、SI、DI、SP和BP。而AX、BX、CX和DX又分別可拆分為兩個(gè)8位寄存器：AH、AL、BH、BL、CH、CL、DH和DL。這些32位寄存器在名稱與功能上同其對(duì)應(yīng)的16位寄存器相同。 (2) 6個(gè)16位段寄存器：CS、DS、SS、ES、FS、GS。與ES相似，F(xiàn)S和GS都是附加的段寄存器。 (3) 兩個(gè)32位專用寄存器：指令指針寄存器EIP和

45、標(biāo)志寄存器Flags。其中EIP的低16位為IP，它們都是指令指針寄存器，其功能是存放指令在代碼段中的偏移量。32位Flags的低16位與16位Flags完全相同，高16位中增加了8個(gè)標(biāo)志位。由于新增加的標(biāo)志位與本書內(nèi)容基本無(wú)關(guān)，故不再介紹。 2) 80386的內(nèi)部結(jié)構(gòu)的內(nèi)部結(jié)構(gòu) 80386 CPU的內(nèi)部結(jié)構(gòu)如圖12.10所示，由總線接口部件、指令預(yù)取部件、指令譯碼部件、控制部件、數(shù)據(jù)部件、保護(hù)測(cè)試部件、分段部件和分頁(yè)部件等8個(gè)功能部件組成。控制部件、數(shù)據(jù)部件和保護(hù)測(cè)試部件共同組成執(zhí)行部件，分段不見和分頁(yè)部件合在一起稱為存儲(chǔ)器管理部件。主要部件的功能分析如下所述。圖12.10 80386的內(nèi)部

46、結(jié)構(gòu) (1) 總線接口部件BU：提供中央處理部件和系統(tǒng)之間的高速接口，負(fù)責(zé)CPU的外部總線與內(nèi)部部件之間的信息交換。此外，BU產(chǎn)生一些CPU總線周期所需要的信號(hào)，包括地址、數(shù)據(jù)、控制信號(hào)等，用來(lái)與存儲(chǔ)器和輸入/輸出部件通信。 (2) 指令預(yù)取部件：負(fù)責(zé)預(yù)先從存儲(chǔ)器中取出指令，并存放在16字節(jié)的指令隊(duì)列中。它還管理一個(gè)線性地址指針和一個(gè)預(yù)取界限，這兩項(xiàng)內(nèi)容是從分段部件獲得的，分別作為預(yù)取指令指針和檢查是否違反分段界限。 (3) 指令譯碼部件：負(fù)責(zé)對(duì)指令進(jìn)行譯碼，可以完成從指令到微指令的轉(zhuǎn)換，譯碼后的指令放在譯碼器的指令隊(duì)列中，供執(zhí)行部件使用。 (4) 執(zhí)行部件：負(fù)責(zé)直接執(zhí)行指令。其中控制部件用于

47、控制ROM，在其中存有微代碼。譯碼器給控制部件提供微代碼的入口點(diǎn)(起始地址)，控制部件按此微代碼執(zhí)行相應(yīng)的操作。數(shù)據(jù)部件包括寄存器組和算術(shù)/邏輯部件，負(fù)責(zé)進(jìn)行算術(shù)運(yùn)算和邏輯運(yùn)算。 (5) 存儲(chǔ)器管理部件MMU：由分段部件和分頁(yè)部件組成。分段部件將邏輯地址按執(zhí)行部件的要求變換成線性地址，實(shí)現(xiàn)有效地址的計(jì)算。分頁(yè)部件提供了對(duì)物理地址空間的管理，將物理地址送給總線接口部件，執(zhí)行存儲(chǔ)器或I/O存取。2. 80386新增指令新增指令 80386可對(duì)32位數(shù)據(jù)直接操作。其內(nèi)部寄存器也是32位。 80386有實(shí)地址模式、保護(hù)虛地址模式和虛擬8086模式三種工作方式，在DOS環(huán)境中只能工作于實(shí)地址模式。803

48、86 CPU具備以前CPU的各種尋址方式，同時(shí)80386增加了一種32位的內(nèi)存尋址方式。當(dāng)采用32位偏移量尋址存儲(chǔ)單元時(shí)，其偏移地址由3部分構(gòu)成：一個(gè)32位的基址寄存器，如EAX、EBX、ECX、EDX、ESI、EDI、EBP和ESP；一個(gè)可以乘上1、2、4或8的32位變址寄存器，如EAX、EBX、ECX、EDX、ESI、EDI、EBP(除ESP)；一個(gè)32位的偏移量。可見，基址寄存器可以是8個(gè)通用寄存器中的任一個(gè)，而變址寄存器可以是除ESP之外的任一個(gè)通用寄存器。其偏移地址計(jì)算公式如下： EA=32位基址寄存器+32位變址寄存器(1、2、3或8)+32位偏移量由于32位尋址方式能使用

49、所有的通用寄存器，因而偏移地址中的寄存器組合與其他尋址方式就有所區(qū)別。主要有以下幾點(diǎn)： (1) 32位偏移地址中，基址寄存器在前，變址寄存器在后。如EBX+ESI中EBX為基址寄存器，而ESI為變址寄存器；而在ESI+EBX中則相反。 (2) 默認(rèn)段寄存器的選擇取決于基址寄存器。如果基址寄存器是EBP或ESP，則默認(rèn)段寄存器為SS，否則默認(rèn)段寄存器為DS。 (3) 指令中如果使用段前綴的方式，則段前綴優(yōu)先。下面是使用32位尋址方式的指令舉例： MOV EAX,345678H;默認(rèn)段寄存器為DS MOV EBX,ES：EAX;默認(rèn)段寄存器為ES MOV EBX,EBP+ESI;默認(rèn)段寄存器為S

50、S MOV EAX+100,ESI;默認(rèn)段寄存器為DS MOV ECX,GS：EAX*2+100H;默認(rèn)段寄存器為GS MOV EDX,FS：EAX+EBX*4+1000H;默認(rèn)段寄存器為FS 1) 數(shù)據(jù)傳送與填充指令數(shù)據(jù)傳送與填充指令 (1) MOVSX Reg，Reg/Mem 功能：將位數(shù)較少的源操作數(shù)傳送到位數(shù)較多的目的操作數(shù)中。目的操作可以是16位或32位寄存器；源操作數(shù)可以是寄存器或存儲(chǔ)器操作數(shù)，其位數(shù)應(yīng)小于或等于目的操作數(shù)的位數(shù)。當(dāng)源操作數(shù)的位數(shù)少于目的操作數(shù)時(shí)，目的操作數(shù)的高位用源操作數(shù)的符號(hào)位填充。該指令也稱為符號(hào)填充指令，不影響標(biāo)志位，適用于有符號(hào)數(shù)的傳送。例如： MOVSX

51、 CX,AL (2) MOVZX Reg，Reg/Mem 功能：與MOVSX功能基本相同，區(qū)別在于當(dāng)源操作數(shù)的位數(shù)少于目的操作數(shù)位數(shù)時(shí)，目的操作數(shù)的高位用“0”填充。該指令也稱為0填充指令，不影響標(biāo)志位，適用于無(wú)符號(hào)數(shù)的傳送。例如： MOVZX AX,BL 例：已知CL=81H，執(zhí)行下列指令后AX和BX的值分別是多少？ MOVSX AX，CL MOVZX BX，CL 解：由指令的功能可知，指令執(zhí)行完畢后，AX=0FF81H， BX=0081H。 2) 堆棧操作指令堆棧操作指令 (1) PUSH Imm32；Imm32為32位立即數(shù)。功能：將32位立即數(shù)壓入堆棧。該指令執(zhí)行后SP的值將減4。

52、(2) PUSHAD 功能：將所有通用寄存器EAX、ECX、EDX、EBX、ESP、EBP、ESI、EDI的內(nèi)容依次壓入堆棧。執(zhí)行該指令后，ESP值減32。 (3) POPAD 將當(dāng)前棧頂內(nèi)容依次彈出至EDI、ESI、EBP、ESP、EBX、EDX、ECX、EAX，本指令與PUSHAD功能相反，需對(duì)稱使用。 (4) PUSHFD 功能：將32位標(biāo)志寄存器EFlags的內(nèi)容壓入堆棧。 (5) POPFD 功能：將當(dāng)前棧頂?shù)?字節(jié)內(nèi)容彈出至EFlags寄存器。以上堆棧操作指令除POPFD以外，均不影響狀態(tài)標(biāo)志位。 3) 取段寄存器指令取段寄存器指令 (1) LFS Reg，Mem 功能：將源操作

53、數(shù)所指存儲(chǔ)單元的4字節(jié)或6字節(jié)內(nèi)容傳送到指定的寄存器及段寄存器FS。當(dāng)Reg為16位寄存器時(shí)，將4字節(jié)的存儲(chǔ)器操作數(shù)中的低兩字節(jié)送指定Reg，高兩字節(jié)送段寄存器FS；當(dāng)Reg為32位寄存器時(shí)，將6字節(jié)的存儲(chǔ)器操作數(shù)中的低4節(jié)送指定Reg，高兩字節(jié)送段寄存器FS。該指令不影響狀態(tài)標(biāo)志位。例如 LFS AX，BUFF (2) LGS Reg，Mem功能：與LFS指令基本相同，唯一區(qū)別在于，該指令所涉及的段寄存器為GS。 (3) LSS Reg，Mem功能：與LFS功能基本相同，唯一區(qū)別在于，該指令所涉及的段寄存器為SS。 4) 有符號(hào)數(shù)乘法指令有符號(hào)數(shù)乘法指令格式：IMUL Reg1，Reg

54、2/Mem；Reg1和Reg2只能是16位或32位通用寄存器功能：Reg1Reg1Reg2或Reg1Reg1Mem。指令中原操作數(shù)和目的操作數(shù)的位數(shù)必須一致。若乘積溢出，溢出部分將丟失，且將OF及CF置1，否則將OF及CF置0。 5) 符號(hào)擴(kuò)展指令符號(hào)擴(kuò)展指令 (1) CWDE 功能：將AX中16位有符號(hào)數(shù)的符號(hào)位擴(kuò)展到EAX的高16位中，即把AX的16位有符號(hào)數(shù)擴(kuò)展為32位后，送EAX。該指令不影響標(biāo)志位。 (2) CDQ 功能：將EAX中32位有符號(hào)數(shù)的符號(hào)位擴(kuò)展到EDX寄存器，使之成為64位有符號(hào)數(shù)EDX：EAX。 6) 移位指令移位指令 80386中增加了一組新的移位指令,它們可以把

55、指定的一組位左移或右移到一個(gè)操作數(shù)中去。 (1) SHLD Reg/Mem，Reg，CL/Imm 功能：將第一操作數(shù)(16位或32位通用寄存器或存儲(chǔ)器單元)左移若干位(左移位數(shù)由8位立即數(shù)Imm或CL指定)，空出位用第二操作數(shù)(與第一操作數(shù)位數(shù)相同的通用寄存器)高位部分填充，但第二操作數(shù)的內(nèi)容不變，標(biāo)志位CF中保留第一操作數(shù)最后的移出位。受影響的標(biāo)志位有CF、OF、PF、SF和ZF。移位過(guò)程如圖12.11(a)所示。例如： MOV AX，1234H MOV DX，5678H SHLD AX,DX,2 SHLD AX,DX,7 (2) SHRD Reg/Mem，Reg，CL/Imm功能：將第一操

56、作數(shù)(16位或32位通用寄存器或存儲(chǔ)器單元)右移若干位(右移位數(shù)由CL或8位立即數(shù)指定)，空出位用第二操作數(shù)(與第一操作數(shù)長(zhǎng)度相同的通用寄存器)低位部分填充，第二操作數(shù)內(nèi)容不變，CF標(biāo)志位中保留第一操作數(shù)最后的移出位。受影響的標(biāo)志位有CF、OF、PF、SF和ZF。移位過(guò)程如圖12.11(b)所示。第一操作數(shù) CF 第二操作數(shù) 最高位最高位最低位最低位 (a) SHLD指令操作示意圖 CF 第一操作數(shù) 第二操作數(shù) 最高位最高位最低位最低位 (b) SHRD指令操作示意圖圖12.11 移位指令操作示意圖例如： MOV AX,0ABCDH MOV BX,5678H SHRD AX,BX

57、,2 7) 位操作指令 (1) 位掃描指令。 BSF Reg，Reg/Mem 功能：對(duì)第二操作數(shù)(16位或32位通用寄存器或存儲(chǔ)器)從最低位到最高位進(jìn)行掃描，將首先掃描到的“1”的位號(hào)送第一操作數(shù)，且使ZF置1，否則ZF置0。 BSR Reg，Reg/Mem 功能：與BSF指令功能基本相同，唯一區(qū)別在于，該指令是從最高位到最低位進(jìn)行掃描。例如： MOV AX,5678H BSR CX,AX BSF CX,AX (2) 位檢測(cè)指令。 BT Reg/Mem，Reg/Mem 功能：第一操作數(shù)(16位或32位通用寄存器或存儲(chǔ)單元)指定要測(cè)試的內(nèi)容，第二操作數(shù)(與第一操作數(shù)同長(zhǎng)度的通用寄存器或8位立即數(shù)

58、)指定要測(cè)試的位，將被測(cè)內(nèi)容指定測(cè)試位的值送至CF。例如：設(shè)BX=1234H,分別執(zhí)行下列指令后，CF和BX的值如下： BT BX,6；CF=0，BX=1274H BTC Reg/Mem，Reg/Mem 該指令在BT功能的基礎(chǔ)上，將被測(cè)試位取反。 BTC Reg/Mem，Reg/Mem 該指令在BT指令功能的基礎(chǔ)上，將被測(cè)位清0。 BTC Reg/Mem，Reg/Mem 該指令在BT指令功能基礎(chǔ)上，將被測(cè)位置1。例如： MOV AX 5678H BT AX,6 BTC AX,6 BTR AX,6 BTS AX,6 位掃描指令通常用于檢查寄存器或存儲(chǔ)單元是否為0，而位檢測(cè)指令用于對(duì)指定位進(jìn)行

59、測(cè)試，因而可根據(jù)該位的值來(lái)對(duì)程序流程進(jìn)行控制。 8) 條件設(shè)置字節(jié)指令條件設(shè)置字節(jié)指令是80386及其以后CPU特有的一組指令，用于測(cè)試指定的標(biāo)志位所處的狀態(tài)，并根據(jù)測(cè)試結(jié)果，將指定的一個(gè)8位寄存器或內(nèi)存單元置1或置0。它們與條件轉(zhuǎn)移指令中的標(biāo)志位測(cè)試有一定的相似性，但它們不是轉(zhuǎn)移，而是根據(jù)測(cè)試結(jié)果將字節(jié)操作數(shù)置1或置0。條件設(shè)置字節(jié)指令格式如下： SETnn Reg/Mem 其中nn表示測(cè)試條件，是指令助記符的一部分，用于指定要測(cè)試的標(biāo)志位。操作數(shù)則只能是8位寄存器或一個(gè)字節(jié)存儲(chǔ)單元。該指令的執(zhí)行不影響任何標(biāo)志位。該組指令助記符具體如下：SETZ/SETE;Reg/Mem =ZFSETN

60、Z/SETNE;Reg/Mem = NOT ZFSETS;Reg/Mem =SFSETNS;Reg/Mem = NOT SFSETO;Reg/Mem =OFSETNO;Reg/Mem = NOT OFSETP/SETPE;Reg/Mem =PFSETNP/SETPO;Reg/Mem = NOT PFSETC/SETB/SETNAE;Reg/Mem =CFSETNC/SETNB/SETAE;Reg/Mem = NOT CFSETNA/SETBE;Reg/Mem =CF OR ZFSETA/SETNBE;Reg/Mem = NOT (CF OR ZF)SETL/SETNGE;Reg/Mem =SF

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

高檔微處理器介紹.

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

高檔微處理器介紹.

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔