焦登丹 王 蘭 何遠(yuǎn)霞
(作者單位:貴州財(cái)經(jīng)大學(xué))
中國(guó)作為全球十大農(nóng)業(yè)大國(guó)之一,農(nóng)產(chǎn)品種類(lèi)繁多且數(shù)量龐大。農(nóng)產(chǎn)品是指來(lái)源于種植業(yè)、林業(yè)、畜牧業(yè)和漁業(yè)等的初級(jí)產(chǎn)品[1]。農(nóng)產(chǎn)品可以加工成各種各樣的食物,為人們提供碳水化合物、蛋白質(zhì)等基本營(yíng)養(yǎng)物質(zhì)和能量。因此,本文對(duì)我國(guó)31 個(gè)?。ㄗ灾螀^(qū)、直轄市)的農(nóng)產(chǎn)品進(jìn)行主成分分析和聚類(lèi)分析,以使讀者了解各地區(qū)農(nóng)產(chǎn)品產(chǎn)量分布情況和不同農(nóng)產(chǎn)品的產(chǎn)量差異。
主成分分析(Principal Component Analysis,PCA)[2]是一種線性降維的方法,當(dāng)變量之間存在相關(guān)性時(shí),將多個(gè)原始變量轉(zhuǎn)化為一個(gè)或幾個(gè)綜合指標(biāo),這些綜合指標(biāo)叫作主成分。每個(gè)主成分都是原始變量的線性組合。設(shè)樣本資料矩陣X=(x1,x2,…,xp)T是由容量為n的p維向量構(gòu)成的矩陣,其協(xié)方差陣為∑,λ1,λ2,…,λp為協(xié)方差陣∑的p個(gè)特征值,e1,e2,…,ep為特征值λi對(duì)應(yīng)的單位正交矩陣的特征向量,矩陣X的第i個(gè)主成分為yi=eiTX,指標(biāo)稱(chēng)為方差貢獻(xiàn)率,用來(lái)度量每個(gè)主成分包含原有信息的多少。
聚類(lèi)分析是一種利用某種度量方式來(lái)度量樣品間親疏關(guān)系的方法,將關(guān)系較近的樣品聚為一類(lèi),而關(guān)系較遠(yuǎn)的聚為另一類(lèi)[3]。本文采用系統(tǒng)聚類(lèi)法進(jìn)行聚類(lèi)分析,具體步驟如下。
設(shè)樣本資料矩陣是由容量為n的p維向量構(gòu)成。首先,選擇樣品之間和類(lèi)別之間距離的度量方式,本文使用歐式距離,見(jiàn)式(1)。將n個(gè)樣本點(diǎn)看作n類(lèi),即每個(gè)類(lèi)中只包含一個(gè)樣品,此時(shí)計(jì)算類(lèi)與類(lèi)之間的距離。設(shè)定一個(gè)閾值T,若對(duì)i?i,j∈G,i≠j,均有dij<T,則稱(chēng)G對(duì)于閾值T構(gòu)成一個(gè)新類(lèi),并計(jì)算這個(gè)新類(lèi)與其他類(lèi)的距離dij,若滿(mǎn)足dij<T,則繼續(xù)合并成另一個(gè)新類(lèi)。不斷重復(fù)這樣的操作,直到所有樣品合并成一個(gè)大類(lèi)。
本文所使用的所有數(shù)據(jù)均來(lái)自《中國(guó)統(tǒng)計(jì)年鑒》。選取2020 年我國(guó)31 個(gè)?。ㄗ灾螀^(qū)、直轄市)的農(nóng)產(chǎn)品產(chǎn)量,共9 個(gè)相關(guān)指標(biāo),分別是肉類(lèi)產(chǎn)量(x1)、水產(chǎn)品總產(chǎn)量(x2)、水果產(chǎn)量(x3)、家禽出欄量(x4)、木材產(chǎn)量(x5)、糧食產(chǎn)量(x6)、蔬菜產(chǎn)量(x7)、油料產(chǎn)量(x8)、棉花產(chǎn)量(x9)。其中,木材產(chǎn)量和棉花產(chǎn)量的部分?jǐn)?shù)據(jù)缺失,使用均值對(duì)缺失數(shù)據(jù)進(jìn)行填充。
使用SPSS 軟件對(duì)數(shù)據(jù)進(jìn)行主成分分析之后得出如表1 和表2 的結(jié)果。
表1 總方差解釋
表2 初始因子載荷矩陣
按照特征值大于1 的原則,可以選擇前3 個(gè)主成分。這3 個(gè)主成分的累計(jì)貢獻(xiàn)率是80.898%,可以反映原變量80.898%的方差,說(shuō)明效果良好。
從表2 可以看出,蔬菜產(chǎn)量、糧食產(chǎn)量和油料產(chǎn)量等指標(biāo)在第一主成分(PCA1)中的載荷較大,該主成分主要反映了主食的產(chǎn)量情況;水產(chǎn)品產(chǎn)量、木材產(chǎn)量指標(biāo)在第二主成分(PCA2)中的載荷較大,反映了木材產(chǎn)量和水產(chǎn)品產(chǎn)量信息;第三主成分(PCA3)主要反映棉花產(chǎn)量信息。
選定主成分yi之后,根據(jù)表1 和表2 進(jìn)一步寫(xiě)出各主成分方程:
式(2)中,ωij表示各主成分載荷,θj是表2 中各變量對(duì)應(yīng)的系數(shù),λi是表1 中各主成分對(duì)應(yīng)的特征值。
將求得的主成分載荷帶入主成分方程,可得出:
方差百分比表示各主成分提取原始信息的多少,因此綜合得分表達(dá)式為
將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)處理后代入式(2)可以得出各主成分得分,見(jiàn)式(7)。將各個(gè)主成分得分代入式(6)可得出綜合得分。主成分綜合得分情況如表3 所示。
表3 主成分得分情況
由表3 可知,山東省的綜合得分最高,說(shuō)明山東省的農(nóng)產(chǎn)品產(chǎn)量總和最多;PCA1 得分也最高,說(shuō)明山東省的蔬菜產(chǎn)量和油料產(chǎn)量較高。這主要是因?yàn)樯綎|省土壤肥沃、雨水充足,農(nóng)業(yè)機(jī)械化[4]程度較高。河南省各項(xiàng)得分與山東省類(lèi)似,說(shuō)明這兩個(gè)地區(qū)農(nóng)產(chǎn)品產(chǎn)量分布情況相似。天津市、西藏自治區(qū)和北京市的PCA1 得分很高,說(shuō)明這3 個(gè)地區(qū)各項(xiàng)產(chǎn)量分布相對(duì)均衡。新疆維吾爾自治區(qū)的PCA3 遠(yuǎn)高于其他地區(qū),說(shuō)明該地的棉花產(chǎn)量遠(yuǎn)高于其他地區(qū)。
經(jīng)過(guò)主成分分析降維后,本文選擇系統(tǒng)聚類(lèi)法對(duì)31 個(gè)?。ㄗ灾螀^(qū)、直轄市)的3 個(gè)綜合指標(biāo)進(jìn)行聚類(lèi)分析,采用歐氏距離[5]度量類(lèi)間距,使用SPSS 軟件建立如圖1 所示的譜系圖,從樹(shù)狀圖能看出類(lèi)與類(lèi)之間的距離大小。
圖1 譜系圖
根據(jù)圖1 可將31 個(gè)地區(qū)的農(nóng)產(chǎn)品產(chǎn)量劃分為4 個(gè)大類(lèi):第Ⅰ類(lèi)包含20 個(gè)?。ㄗ灾螀^(qū)、直轄市):天津、上海、北京、寧夏、青海、西藏、海南、甘肅、山西、重慶、浙江、陜西、內(nèi)蒙古、黑龍江、云南、江西、福建、貴州、遼寧、吉林;第Ⅱ有8 個(gè)省(自治區(qū)):廣東、河北、江蘇、湖南、安徽、廣西、湖北和四川;第Ⅲ類(lèi)僅有山東省和河南??;第Ⅳ類(lèi)更少,新疆自成一類(lèi)。結(jié)合主成分綜合得分可知,第Ⅲ類(lèi)是農(nóng)產(chǎn)品產(chǎn)量最大的兩個(gè)省份,然后是產(chǎn)量較大的第Ⅱ類(lèi),最后是產(chǎn)量較少的第Ⅰ類(lèi),新疆自成一類(lèi)很顯然是因?yàn)槊藁óa(chǎn)量大。
從整體上看,全國(guó)各地農(nóng)產(chǎn)品產(chǎn)量差異較大,山東省和河南省因農(nóng)產(chǎn)品產(chǎn)量綜合得分遠(yuǎn)高于其他地區(qū)而被分到一類(lèi),而新疆棉花產(chǎn)量較大,單獨(dú)成類(lèi)。即使綜合得分接近的地區(qū),各主成分的得分也存在差異。鑒于我國(guó)農(nóng)產(chǎn)品產(chǎn)量分布不均的現(xiàn)狀,建議相關(guān)部門(mén)能合理分配資源。
中國(guó)農(nóng)業(yè)會(huì)計(jì)2023年14期