亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于SRT－8算法的SIMD浮點(diǎn)除法器的設(shè)計(jì)與實(shí)現(xiàn)＊

2014-03-23 06:03:00鄧子椰陳書明彭元喜雷元武

計(jì)算機(jī)工程與科學(xué) 2014年5期

鄧子椰，陳書明，彭元喜，雷元武

（國防科學(xué)技術(shù)大學(xué)計(jì)算機(jī)學(xué)院，湖南長沙410073）

1 引言

浮點(diǎn)除法運(yùn)算是基本操作之一。在早期的計(jì)算機(jī)中，除了除法本身的復(fù)雜性外，除法的不頻繁使用導(dǎo)致了人們對除法效率的忽略。隨著VLSI技術(shù)的發(fā)展，針對各個(gè)應(yīng)用領(lǐng)域的處理器相繼出現(xiàn)，特別是DSP、MMP等專用處理器，這些處理器的應(yīng)用需求使得除法應(yīng)用越來越廣泛；而通用處理器中也大部分實(shí)現(xiàn)了浮點(diǎn)除法，如AMD－K7、Intel Core i7和Intel Itanium［1］等等。同時(shí)，各種應(yīng)用的處理器對計(jì)算速度、芯片面積以及功耗大小的要求也對除法的實(shí)現(xiàn)提出了挑戰(zhàn)，因此設(shè)計(jì)并實(shí)現(xiàn)高速低開銷的浮點(diǎn)除法器是十分重要的。

除法算法可以分為三類：查表法、函數(shù)迭代和數(shù)字迭代。查表法使用簡單，當(dāng)精確度要求不高時(shí)可以直接用其得到結(jié)果，但對于IEEE－754標(biāo)準(zhǔn)的單精度浮點(diǎn)除法，很難使用查表法直接實(shí)現(xiàn)精確的浮點(diǎn)除法。函數(shù)迭代算法包括Newton－Raphson和Goldschmidt算法，這類算法具有收斂速度快的特點(diǎn)，通常與查表法相結(jié)合使用來降低迭代次數(shù)。函數(shù)迭代算法每次迭代都涉及到多次乘法操作，所以需要較大的乘法器，面積較大。例如AMD處理器［2］、NVIDIA GPUs［3］、Intel Itanium CPUs［4］及FT－matrix。數(shù)字迭代方法是基本函數(shù)實(shí)現(xiàn)中最廣泛的一類算法。它以簡單的加減法和移位操作為基礎(chǔ)，每次迭代獲得固定位數(shù)的商。在目前的處理器中，使用最多的數(shù)字循環(huán)算法是SRT（Sweeney、Robertson以及Tocher）［5］，使用SRT－4算法的處理器有Intel Pentium CPUs［6］、ARM處理器［7］和IBM FPUs［8］；Intel Core2處理器實(shí)現(xiàn)SRT－16除法［6］。

本文基于SRT－8除法算法，設(shè)計(jì)了一種輸入輸出皆符合IEEE－754浮點(diǎn)標(biāo)準(zhǔn)的SIMD（Single Instruction Multiple Data）浮點(diǎn)除法器，支持一個(gè)雙精度或兩個(gè)并行單精度浮點(diǎn)除法。在深入研究SRT除法算法基礎(chǔ)上，通過優(yōu)化SRT－8迭代除法結(jié)構(gòu)，提出商選擇和余數(shù)加法的并行處理，并采用商數(shù)字存儲技術(shù)來降低迭代除法的計(jì)算延時(shí)，提高頻率。另外，SIMD結(jié)構(gòu)采用復(fù)用策略減少硬件資源開銷，節(jié)省面積。

2 SRT算法及基數(shù)選擇

SRT算法基于以下關(guān)系式：

其中，Pj＋1是第j次循環(huán)之后的部分余數(shù)；P0為最初的除數(shù)；r是SRT算法的基；d表示被除數(shù)；qj＋1表示第j次循環(huán)得到的商。

SRT算法的關(guān)鍵是基數(shù)的大小，它決定了每次循環(huán)可以得到的商的位數(shù)，每次迭代得到的位數(shù)越多則需要迭代的次數(shù)就越少，除法運(yùn)算所需的周期就越少，從而可提高算法性能。但是，增大基數(shù)會增加設(shè)計(jì)的硬件復(fù)雜度，同時(shí)也會增加除法部件的延遲和面積。Oberman S F［1］指出查找商選擇函數(shù)表所需要的時(shí)間延遲與基數(shù)成線性增長，而所需要的面積與基數(shù)成二次方增長。文獻(xiàn)［9］通過實(shí)驗(yàn)結(jié)果表明，基4優(yōu)化結(jié)構(gòu)比傳統(tǒng)結(jié)構(gòu)減少的時(shí)間最短；基8優(yōu)化結(jié)構(gòu)選擇表的查找電路和函數(shù)選擇表輸入值的計(jì)算電路相對比較平衡，減少的時(shí)間延遲最大；基16實(shí)現(xiàn)選擇表輸入值的計(jì)算電路過于復(fù)雜，減少的時(shí)間延遲介于前兩者之間。

商數(shù)字選擇函數(shù)定義如下：

qj＋1＝k∈＋1，…，0，…，a－1，a｝，收斂條件d（k－ρ）≤rPj≤d（k＋ρ），在PD圖中r Pj表示為P，d表示為D，則：

我們?nèi)＝8，a＝5為例，如圖1所示。

Figure 1 Selection of SRT－8 digital quotients圖1 SRT－8除法商數(shù)字選擇圖

從圖1可以看出，相鄰的兩個(gè)選擇區(qū)間存在著重疊區(qū)域（圖中陰影部分），重疊區(qū)域的大小由冗余因子ρ和除數(shù)d決定。在重疊區(qū)域［Lk，Uk－1）內(nèi)，部分商qj＋1可以選取為k或者k－1。所以，在迭代計(jì)算中無需知道每次r＊Pj的精確值，且無需進(jìn)行精確模式下d（k－ρ）≤r＊Pj＜d（k＋ρ）的比較操作。所以，重疊區(qū)間的存在簡化了商數(shù)字選擇函數(shù)的復(fù)雜性，只需知道部分余數(shù)r＊Pj的前幾位和除數(shù)d的前幾位就可以選擇出商數(shù)字qj＋1，從而提高其運(yùn)算效率。并且，重疊區(qū)間越大，比較操作中所需要的精度越小，因此，冗余度越高，商選擇函數(shù)的邏輯復(fù)雜度越低。

3 總體結(jié)構(gòu)設(shè)計(jì)

本文設(shè)計(jì)的SIMD浮點(diǎn)除法器總體結(jié)構(gòu)如圖2所示。

SIMD浮點(diǎn)除法器支持一個(gè)IEEE－754標(biāo)準(zhǔn)雙精度浮點(diǎn)除法或兩個(gè)并行單精度浮點(diǎn)除法，主要包括三個(gè)執(zhí)行站：

E1站：數(shù)據(jù)輸入及預(yù)處理。在E1級接收以IEEE－754標(biāo)準(zhǔn)表示的被除數(shù)與除數(shù)，并解析這兩個(gè)輸入操作數(shù)，以分離出尾數(shù)與指數(shù)；運(yùn)算前調(diào)整模塊整合了尾數(shù)調(diào)整與指數(shù)調(diào)整的功能，其主要作用是將操作數(shù)調(diào)整為SRT－8運(yùn)算單元所要求的格式與精度。

E2站：SRT－8迭代除法計(jì)算。在E2級設(shè)計(jì)控制與計(jì)數(shù)模塊，主要負(fù)責(zé)雙、單精度的除法迭代計(jì)數(shù)（分別迭代18次和9次）以及異常處理與匯報(bào)。該模塊實(shí)現(xiàn)了一個(gè)簡單的狀態(tài)機(jī)，是運(yùn)算單元的直接管理中心。SRT－8運(yùn)算單元是運(yùn)算核心所在，其性能決定了整個(gè)設(shè)計(jì)的運(yùn)算速度，所以本文對該模塊進(jìn)行了充分的優(yōu)化。

E3站：規(guī)格化。在E3級后規(guī)格化模塊將尾數(shù)除結(jié)果與指數(shù)減結(jié)果按IEEE－754浮點(diǎn)標(biāo)準(zhǔn)執(zhí)行規(guī)格化操作，另外還包括例外數(shù)據(jù)判斷。

所設(shè)計(jì)的SIMD主體結(jié)構(gòu)是在經(jīng)典低延遲64位雙精度浮點(diǎn)除法基礎(chǔ)上進(jìn)行改進(jìn)，充分利用硬件復(fù)用，包括商數(shù)字選擇邏輯、余數(shù)產(chǎn)生57位并列加法器、尾數(shù)舍入規(guī)格化等復(fù)用邏輯，相比經(jīng)典低延遲結(jié)構(gòu)，面積增加較小，能實(shí)現(xiàn)雙精度浮點(diǎn)除法和兩個(gè)并行的單精度浮點(diǎn)除法。

4 優(yōu)化設(shè)計(jì)策略

兩個(gè)浮點(diǎn)數(shù)據(jù)相除，被除數(shù)與除數(shù)的符號位進(jìn)行異或運(yùn)算得到結(jié)果的符號位；被除數(shù)的指數(shù)減去除數(shù)的指數(shù)得到中間指數(shù)結(jié)果PreEXP；被除數(shù)與除數(shù)的尾數(shù)部分進(jìn)行定點(diǎn)除運(yùn)算，定點(diǎn)除法使用SRT－8除法算法。

在傳統(tǒng)SRT－8除法迭代計(jì)算實(shí)現(xiàn)中，如圖3所示，每一次SRT－8迭代涉及的運(yùn)算有：

（1）部分余數(shù)Pj經(jīng)過移位器左移三位生成8＊Pj；

（2）然后以8＊Pj和d為輸入，經(jīng)商選擇邏輯查表得到該次循環(huán)的商qj＋1；

（3）通過qj＋1選擇乘積值F＝－qj＋1＊d；

（4）最后通過加法器運(yùn)算得到下一次循環(huán)的部分余數(shù)Pj＋1。

Figure 2 Overall structure of SIMD floating－point division圖2 SIMD浮點(diǎn)除法器總體結(jié)構(gòu)

Figure 3 Traditional implementation of SRT－8 division’s iteration圖3 傳統(tǒng)SRT－8除法迭代實(shí)現(xiàn)

4.1 商選擇函數(shù)

依據(jù)上述SRT－8算法分析，商選擇函數(shù)部件位于算法設(shè)計(jì)的關(guān)鍵路徑上，該部分實(shí)現(xiàn)會影響到整個(gè)設(shè)計(jì)的時(shí)間延遲。在SRT－8算法中采用了冗余的商數(shù)字集，只需要知道部分余數(shù)值范圍就可以決定本次商的結(jié)果。所以，只需要部分余數(shù)的前幾位數(shù)值就可以得到本次循環(huán)的結(jié)果（如圖4）。采用這種方法可以在降低時(shí)間延遲的同時(shí)，減少商選擇函數(shù)硬件實(shí)現(xiàn)的復(fù)雜度。

Figure 4 Selective function of digital quotients圖4 商數(shù)字選擇函數(shù)

首先將除數(shù)d∈［1，2）劃分成長度為2－δ的小區(qū)間［di，di＋1），且d1＝1/2，di＋1＝di＋2－δ。這樣，區(qū)間就用除數(shù)的前δ位小數(shù)和一位整數(shù)“1”來表示。在小區(qū)間［di，di＋1）里，qj＋1＝k，如果mk（i）≤r Pj＜mk＋1（i），選擇常數(shù)mk定義如下：

設(shè)選擇常數(shù)mk的最小長度為2－C，則：

其中，Ak（i）為整數(shù)。

最壞情況下，k＝a，d＝1，可推導(dǎo)出：

得出δ的下界后，通過表1可以得出δ＋C的最小值。

Table 1 Boundaries of r＊Pj表1 r＊Pj的界限（/7）

取δ＝4，此時(shí)C＝3，δ＋C取最小值7。

4.2 SRT－8迭代單元設(shè)計(jì)

從圖3可以得出，關(guān)鍵路徑主要在于商數(shù)字選擇函數(shù)查找表的延遲和57位全加器的延遲，如果這兩個(gè)邏輯能夠并行執(zhí)行，延遲將會得到大大改觀。因此，我們對以上方式進(jìn)行改進(jìn)，如圖5虛線框所示。首先由五個(gè)加法器計(jì)算所有可能的部分余數(shù)（其中3d和5d分別分解為（d＋2d）和（d＋4d），并且通過進(jìn)位節(jié)省加法器CSA3－2來加速運(yùn)算），與此同時(shí)，以8＊Pj和d為輸入，經(jīng)商選擇邏輯查表得到該次循環(huán)的商qj＋1；然后再通過qj＋1選擇余數(shù)Pj＋1。

Figure 5 Parallel iteration of SRT－8（1）圖5 SRT－8并行迭代（改進(jìn)1）

通過改進(jìn)1，關(guān)鍵路徑中的商數(shù)字選擇延時(shí)被虛線框內(nèi)的加法器掩蓋。

SRT－8迭代改進(jìn)2如圖6所示，對于3d和5d，事先用加法器把結(jié)果計(jì)算出來并儲存，這樣迭代延遲（虛線框內(nèi)）將會減少一級CSA3－2壓縮的時(shí)間，從而提高系統(tǒng)頻率。

Figure 6 Parallel iteration of SRT－8（2）圖6 3d和5d預(yù)先計(jì)算SRT－8并行迭代（改進(jìn)2）

4.3 SIMD結(jié)構(gòu)設(shè)計(jì)

SIMD數(shù)據(jù)通路結(jié)構(gòu)主要由三個(gè)部分組成：數(shù)據(jù)準(zhǔn)備（Data Prepare）、迭代計(jì)算模塊和數(shù)據(jù)儲存（Data Save），如圖7所示。

Figure 7 Structure of SIMD division’s iteration圖7 SIMD除法迭代結(jié)構(gòu)

數(shù)據(jù)準(zhǔn)備模塊主要負(fù)責(zé)余數(shù)和除數(shù)加減前的數(shù)據(jù)準(zhǔn)備。當(dāng)為雙精度除法時(shí)，若余數(shù)符號位為0，則余數(shù)減去F，余數(shù)末位設(shè)為1（因?yàn)橥ㄟ^左移，余數(shù)末端三位全為0），除數(shù)求反；若余數(shù)符號位為1，則余數(shù)加上F。當(dāng)為SIMD雙單精度除法時(shí)，若高28位余數(shù)2符號位為0，則余數(shù)2減去F2，余數(shù)2末位設(shè)為1，28位除數(shù)2求反，否則余數(shù)2和除數(shù)2均不變；若低28位余數(shù)1符號位為0，則余數(shù)1減去F1，余數(shù)1末位設(shè)為1，28位除數(shù)1求反，否則余數(shù)1和除數(shù)1均不變。在計(jì)算SIMD雙單精度除法時(shí)，余數(shù)和除數(shù)的中間位設(shè)為0。

迭代計(jì)算模塊復(fù)用商數(shù)字選擇部件1，求雙精度尾數(shù)除法每次迭代商數(shù)字和單精度1尾數(shù)除法每次迭代商數(shù)字，增加商數(shù)字選擇部件1，求單精度2尾數(shù)除法每次迭代商數(shù)字；復(fù)用57位并列加法器1/2/3/4/5，求雙精度尾數(shù)除法每次迭代后的余數(shù)和兩個(gè)并列單精度1、單精度2尾數(shù)除法每次迭代后的余數(shù)。

數(shù)據(jù)儲存模塊是每次迭代后余數(shù)和商結(jié)果的數(shù)據(jù)保存。余數(shù)的存儲包括通過商qj＋1來選擇余數(shù)Pj＋1以及余數(shù)通過移位器左移三位，以便于下次迭代運(yùn)算；商的存儲主要運(yùn)用了商數(shù)字轉(zhuǎn)換技術(shù)（詳細(xì)見4.4節(jié)）。

4.4 商數(shù)字存儲

由于在迭代中計(jì)算結(jié)果是用冗余數(shù)表示，需要將其轉(zhuǎn)換為非冗余二進(jìn)制形式。最直接的辦法是將冗余數(shù)分為正數(shù)位和負(fù)數(shù)位兩部分，再將其相加可得非冗余的二進(jìn)制數(shù)。但是，這樣做增加了控制的復(fù)雜度和迭代時(shí)間。

在SRT算法中應(yīng)用商數(shù)字的存儲技術(shù)，在每次迭代中將商數(shù)字分別存入兩個(gè)單獨(dú)的寄存器Q與QM。其中，q表示第j次迭代產(chǎn)生的以二進(jìn)制補(bǔ)碼形式表示的商值。每次迭代的結(jié)尾，商數(shù)字選擇函數(shù)產(chǎn)生q后，寄存器Q與QM被刷新，如表2所示。

Table 2 Storage of digital quotients表2 商數(shù)字存儲

可見，其中不存在算術(shù)操作，且無進(jìn)位/借位的傳遞問題。在除法運(yùn)算的最后一步迭代完成后，二進(jìn)制補(bǔ)碼形式表示的商值即保存在Q寄存器中。

5 驗(yàn)證與性能評估

5.1 驗(yàn)證流程與結(jié)果

從下列角度對SIMD浮點(diǎn)除法部件進(jìn)行全面驗(yàn)證，如圖8所示。

（1）功能驗(yàn)證完備性。主要測試RTL代碼的功能正確性，驗(yàn)證了IEEE－754標(biāo)準(zhǔn)中的各種浮點(diǎn)數(shù)異常和溢出處理。異常的處理主要是除數(shù)為0、Den，無窮大除以無窮大和無效數(shù)；溢出的處理是指數(shù)上溢與指數(shù)下溢。

Figure 8 Flow chart of verification圖8 驗(yàn)證流圖

（2）數(shù)據(jù)驗(yàn)證完備性。采用隨機(jī)數(shù)驗(yàn)證方法對雙精度除法和兩個(gè)并行單精度除法均測試了300萬組隨機(jī)數(shù)據(jù)，并將執(zhí)行結(jié)果與對應(yīng)的C黃金模型模擬作比較，結(jié)果表明實(shí)現(xiàn)SIMD浮點(diǎn)除法器的功能正確。

（3）系統(tǒng)驗(yàn)證完備性。在模擬環(huán)境下搭建好DSP內(nèi)核平臺，在此基礎(chǔ)上對RTL代碼進(jìn)行了系統(tǒng)級仿真，聯(lián)合其它部件在DSP內(nèi)核下測試一些典型算法大程序的運(yùn)行結(jié)果，與模擬器仿真硬件執(zhí)行作比較，驗(yàn)證結(jié)果顯示正確，符合設(shè)計(jì)要求。

本文對所設(shè)計(jì)的浮點(diǎn)除法部件進(jìn)行了代碼覆蓋率分析。為了得到代碼覆蓋率，需要對源代碼進(jìn)行分解，分解的過程就是在源代碼的關(guān)鍵位增加斷點(diǎn)，記錄該位置是否存在特殊結(jié)構(gòu)，然后用驗(yàn)證平臺來對這些分解的代碼進(jìn)行模擬，得到覆蓋率信息。經(jīng)過對未覆蓋到的代碼進(jìn)行審查和增加測試激勵(lì)，使代碼覆蓋率達(dá)到100%。

5.2 性能分析與評估

基于40 nm標(biāo)準(zhǔn)單元庫在“Typical”典型常溫常壓（1 V，25°C）綜合條件下對SIMD浮點(diǎn)除法器實(shí)現(xiàn)進(jìn)行綜合，邏輯優(yōu)化后的綜合結(jié)果如表3所示。選取時(shí)序約束時(shí)鐘周期400 ps，其中設(shè)置第一站（E1）的輸入延時(shí)為100 ps，以用于數(shù)據(jù)讀取，第三站（E3）增加了50 ps的輸出延遲，用于數(shù)據(jù)寫回，兩個(gè)模塊在關(guān)鍵路徑延遲設(shè)計(jì)上相對于E2站要短一些，使得各站之間延遲均勻。除法器綜合運(yùn)行頻率可達(dá)2.5 GHz，綜合cell面積為18 601.968 1μm2。

Table 3 Synthesized results of the division表3 除法器綜合結(jié)果

綜合優(yōu)化結(jié)果與圖3經(jīng)典的SRT－8結(jié)構(gòu)、文獻(xiàn)［9］采用由SRT－4和SRT－2重疊組成的結(jié)構(gòu)（不復(fù)用結(jié)構(gòu)，實(shí)現(xiàn)雙精度浮點(diǎn)除法和雙單精度浮點(diǎn)除法）在相同工藝、相同綜合條件下的綜合結(jié)果比較如表4所示。面積為經(jīng)典SRT－8結(jié)構(gòu)的91.79%、文獻(xiàn)［9］結(jié)構(gòu)的69.57%；關(guān)鍵路徑為經(jīng)典SRT－8結(jié)構(gòu)的76.19%、文獻(xiàn)［9］結(jié)構(gòu)的98.03%。性能提升來自以下技術(shù)：商選擇和余數(shù)加法的并行處理技術(shù)降低了計(jì)算延時(shí)；商數(shù)字存儲技術(shù)有效降低了存儲商延遲。采用商選擇和余數(shù)加法的并行處理技術(shù)，雖然增加了四個(gè)并行的57位全加器，但是商數(shù)字存儲技術(shù)，卻減少了一個(gè)57位和兩個(gè)30位全加器。SIMD結(jié)構(gòu)采用復(fù)用策略，如圖7所示，復(fù)用商數(shù)字選擇部件1，復(fù)用57位并列加法器1/2/3/4/5，有效地減少了硬件開銷。

Table 4 Comparison of divisions’synthesized results表4 除法器綜合結(jié)果比較

6 結(jié)束語

本文設(shè)計(jì)實(shí)現(xiàn)了一個(gè)支持雙精度和兩個(gè)單精度的SIMD浮點(diǎn)除法部件。本設(shè)計(jì)改進(jìn)了SRT－8迭代結(jié)構(gòu)，并運(yùn)用商數(shù)字存儲技術(shù)，加速了除法運(yùn)算速度。采用了SIMD結(jié)構(gòu)，能夠并行計(jì)算兩個(gè)單精度浮點(diǎn)除法。復(fù)用了硬件資源，減少了資源開銷，節(jié)省了整體的面積。本文從子系統(tǒng)級驗(yàn)證完整、功能驗(yàn)證完全和數(shù)據(jù)驗(yàn)證完備的角度出發(fā)，對運(yùn)算單元進(jìn)行了功能驗(yàn)證，在驗(yàn)證過程中進(jìn)行了代碼覆蓋率分析，使代碼覆蓋率達(dá)到100%。綜合結(jié)果表明，40 nm工藝庫下，綜合cell面積為18 601.968 1μm2，綜合運(yùn)行頻率可達(dá)2.5 GHz。相對傳統(tǒng)SRT－8結(jié)構(gòu)，面積減少8.21%，同時(shí)關(guān)鍵路徑僅為傳統(tǒng)SRT－8結(jié)構(gòu)的76.19%。相對文獻(xiàn)［9］的結(jié)構(gòu)，性能提高1.97%，同時(shí)硬件面積僅為文獻(xiàn)［9］結(jié)構(gòu)的69.57%。

［1］ Oberman S F，F(xiàn)lynn M.Design issues in division and other floating－point operations［J］.IEEE Transactions on Computers，1997，46（2）：154－161.

［2］ Oberman S F.Floating－point division and square root algorithms and implementation in the AMD－K7 microprocessor［C］∥Proc of the 14th Symposium on Computer Arithmetic，1999：106－115.

［3］ NVIDIA.Fermi：NVIDIA’s next generation CUDA compute architecture［EB/OL］.［2009－10－10］.http：∥www.nvidia.com/content/PDF/fermi＿white＿papers/NVIDIA＿Fermi＿Compute＿Architecture＿Whitepaper.pdf.

［4］ Sharangpani H，Arora H.Itanium processor micro－architecture［J］.IEEE Micro，2000，20（5）：24－43.

［5］ Wang Xian，Ni Xiao－qiang，Xing Zuo－cheng.The analysis and research of floating－point division［C］∥Proc of the Computer Project and Craftwork，2008：282－283.（in Chinese）

［6］ Baliga H，Cooray N，Gamsaragan E，et al.Improvements in the Intel Core2 Penryn processor family architecture and microarchitecture［J］.Intel Technology Journal，2008，12（3）：179－192.

［7］ Burgess N，Hinds C N.Design of the ARM VFP11 divide and square root synthesisable macrocell［C］∥Proc of the 18th IEEE Symposim on Computer Arithmetic，2007：87－96.

［8］ Gerwig G，Wetter H，Schwarz E M，et al.High performance floating－point unit with 116 bit wide divider［C］∥Proc of the 16th Symposim on Computer Arithmetic，2003：87－94.

［9］ Liu Hua－ping.Research on high－performance arithmetic for floating－point division and the elementary functions［D］.Beijing：Institute of Computing Technology，Chinese Academy of Science，2003.（in Chinese）

［10］ Liu W，Nannarelli A.Power efficient division square root unit［J］.IEEE Transactions on Computers，2012，61（8）：1059－1070.

［11］ Harris D L，Oberman S F，Horowirtz M A.SRT division architectures and implementations［C］∥Proc of the 13th IEEE Symposium，1997：18－25.

［12］ Fandrianto J.Algorithm for high－speed shared radix－4 division and radix－4 square－root［C］∥Proc of the 8th IEEE Symposium on Computer Arithmetic，1987：73－79.

［13］ Wang Wen－guang.Design and implementation of double precision 64－bits floating－point division［D］.Changsha：Central South University，2007.（in Chinese）

附中文參考文獻(xiàn)：

［5］王縣，倪曉強(qiáng)，邢座程.浮點(diǎn)除法算法的分析與研究［C］∥計(jì)算機(jī)工程與工藝，2008：282－283.

［9］劉華平.高性能浮點(diǎn)除法及基本函數(shù)功能部件的研究［D］.北京：中國科學(xué)院計(jì)算技術(shù)研究所，2003.

［13］王文廣.雙精度64位浮點(diǎn)除法運(yùn)算單元的設(shè)計(jì)與實(shí)現(xiàn)［D］.長沙：中南大學(xué)，2007.