王俊杰
【摘 要】服務(wù)器CPU優(yōu)化是以提高應(yīng)用程序、服務(wù)或系統(tǒng)能力為目的。那么如何才能實現(xiàn)對應(yīng)用程序的性能調(diào)優(yōu)呢?這里涉及到很多的內(nèi)容,包括Linux內(nèi)核、CPU架構(gòu)以及內(nèi)核對資源的分配以及管理。本文從CPU架構(gòu)入手,對CPU優(yōu)化進行探討。
【關(guān)鍵詞】CPU;性能優(yōu)化;架構(gòu)
一、架構(gòu)結(jié)構(gòu)介紹
在現(xiàn)行計算機硬件中,多核CPU或者多顆CPU共存以提高系統(tǒng)性能的性能情況非常常見。
SMP的全稱是"對稱多處理"(Symmetrical Multi-Processing)技術(shù),是指在一個計算機上匯集了一組處理器(多CPU),各CPU之間共享內(nèi)存子系統(tǒng)以及總線結(jié)構(gòu)。是一種常見的并行技術(shù)。這種架構(gòu)對內(nèi)存的要求就更高了,也就是說,不是CPU數(shù)量越多,性能提升就越快。
NUMA: 非一致性內(nèi)存訪問架構(gòu) Non Uniform Memory Access Architecture。概念:現(xiàn)代計算機的處理速度比它的主存速度快不少。而在早期的計算和數(shù)據(jù)處理中,CPU通常比它的主存慢。但是隨著超級計算機的到來,處理器和存儲器的性能在二十世紀六十年代達到平衡。自從那個時候,CPU常常對數(shù)據(jù)感到饑餓而且必須等待存儲器的數(shù)據(jù)到來。為了解決這個問題,很多在80和90年代的超級計算機設(shè)計專注于提供高速的存儲器訪問,使得計算機能夠高速地處理其他系統(tǒng)不能處理的大數(shù)據(jù)集。
限制訪問存儲器的次數(shù)是現(xiàn)代計算機提高性能的要點。對于商品化的處理器,這意味著設(shè)置數(shù)量不斷增長的高速緩存和使用不斷變得精巧復(fù)雜的算法以防止“緩存數(shù)據(jù)缺失(cache missed)”。但是操作系統(tǒng)和應(yīng)用程序大小的明顯增長壓制了前述的緩存技術(shù)造成的提升。沒有使用NUMA的多處理器系統(tǒng)使得問題更糟糕。因為同一時間只能有一個處理器訪問計算機的存儲器,所以在一個系統(tǒng)中可能存在多個處理器在等待訪問存儲器。
NUMA通過提供分離的存儲器給各個處理器,避免當(dāng)多個處理器訪問同一個存儲器產(chǎn)生的性能損失來試圖解決這個問題。對于涉及到分散的數(shù)據(jù)的應(yīng)用(在服務(wù)器和類似于服務(wù)器的應(yīng)用中很常見),NUMA可以通過一個共享的存儲器提高性能至n倍,而n大約是處理器(或者分離的存儲器)的個數(shù)。
當(dāng)然,不是所有數(shù)據(jù)都局限于一個任務(wù),所以多個處理器可能需要同一個數(shù)據(jù)。為了處理這種情況,NUMA系統(tǒng)包含了附加的軟件或者硬件來移動不同存儲器的數(shù)據(jù)。這個操作降低了對應(yīng)于這些存儲器的處理器的性能,所以總體的速度提升受制于運行任務(wù)的特點。
NUMA最初是用于將單一處理器連接到多個內(nèi)存條中。因為CPU 制造商改進了其工藝并縮小了芯片尺寸,因此可在一個包裝中包括多個 CPU核。這些CPU核以集群形式尋址以便每個核都有相同的訪問本地內(nèi)存條的時間,同時可在核之間共享緩存。
每個動作都需要通過多個內(nèi)存控制器,這樣訪問在嘗試訪問遠程內(nèi)存地址時,時間會延長兩倍以上。因此多核系統(tǒng)中主要性能考量是保證以最有效的方式進行信息傳遞,即通過最短最迅速的路徑。
二、優(yōu)化方法簡介
要為優(yōu)化CPU性能配置程序,需要了解:
1、系統(tǒng)的拓撲,執(zhí)行程序的核,以及最接近的內(nèi)存條位置。
2、換一句話來講,如果指定某CPU就之訪問自己的內(nèi)存塊,效率將提高。
CPU affinity CPU姻親關(guān)系 CPU綁定
將某些進程啟動起來之后直接綁定在某顆CPU上(或某個CPU的某些核上),讓該進程只能在該CPU上運行,不會被調(diào)度到其他CPU上,從而不會發(fā)生交叉內(nèi)存訪問的情況,提高內(nèi)存使用率。但這么做有可能會使得某一個CPU很忙而其他的CPU很閑,也會降低資源的使用率,那么此時,需要有一個平衡點。
在numa架構(gòu)中,同一物理內(nèi)存會被區(qū)分成為多個node,每個CPU對應(yīng)著一個專屬的node。
[root@localhost tftpboot]# numastat
node0
numa_hit 2071673
numa_miss 0
numa_foreign 0
interleave_hit 14414
local_node 2071673
other_node 0
numa_hit 表示該段內(nèi)存的數(shù)據(jù)命中總數(shù);numa_miss表示該段內(nèi)存數(shù)據(jù)未命中總數(shù);當(dāng)numa_miss出現(xiàn)次數(shù)過多,這個時候需要進行進程和CPU進行綁定。numa_foreign表示當(dāng)前結(jié)點被其他(非本地)cpu訪問的次數(shù),若過高,可想像為提高本地CPU訪問效率,也可進行綁定;
CPU隔離:為了讓沒綁定到指定CPU上的進程不再被調(diào)度到該CPU上,盡量減少或者隔絕進程切換帶來的系統(tǒng)消耗,從而提高系統(tǒng)效率,把這個指定的CPU從所有進程中能被調(diào)度到的一堆CPU中隔離開來.可以向/etc/grub.conf配置文件中,傳遞內(nèi)核啟動參數(shù):
isolcpus= cpu number,…,cpu number
當(dāng)系統(tǒng)啟動時,ioslcpu參數(shù)設(shè)定某些CPU隔離之后,內(nèi)核將不會使已經(jīng)啟動了的某些進程被調(diào)度到隔離的CPU上,那么這樣做就能夠?qū)⑽覀兯枰綦x的CPU預(yù)留起來,以供某些特殊進程綁定使用。
其他的進程不再被調(diào)度到該CPU上,但不經(jīng)過設(shè)置無法不處理外設(shè)的中斷請求,此時,為了讓該CPU要么處理綁定的進程,要么只切換到內(nèi)核模式,考慮將該CPU上將中斷處理的功能屏蔽。
應(yīng)該將中斷綁定至那些非隔離的CPU上,從而避免那些隔離的CPU處理中斷進程(程序)。
調(diào)度域
將所有CPU放到(組織)一個所謂的根域下,然后根據(jù)需求,將根域劃分為若干個子域,不管是根域還是子域,劃分的標準均以cpu本身來進行劃分。
將進程和某個子域進行綁定,當(dāng)進程與某子域綁定之后,進程只能在子域中的CPU內(nèi)進行調(diào)度。
若某進程綁定的是根域,那么表示該進程可在當(dāng)前所有的CPU上進行調(diào)度。而對于進程運行所需資源而言,除了CPU更關(guān)鍵的就是內(nèi)存了。在非numa結(jié)構(gòu)下,內(nèi)存段對于所有CPU而言就只有一段,通過這個調(diào)度域本身也能簡單的將內(nèi)存段進行管理。
【參考文獻】
[1]崔連和.Linux系統(tǒng)與網(wǎng)絡(luò)管理[M].機械工業(yè)出版社,2014.3.
[2]錢峰, 許斗. linux網(wǎng)絡(luò)操作系統(tǒng)配置與管理[M].高等教育出版社,2015.1
[3]何明.linux系統(tǒng)管理[M].清華大學(xué)出版社, 2013.4
[4]沈健,王夢龍.linux系統(tǒng)管理[M].華東理工大學(xué)出版社,2014.8
[5]朱龍,賈如春.linux系統(tǒng)管理[M].人民郵電出版社,2015.8