王習濤 馬雁疆 劉新新/ 文
長期以來,統(tǒng)計人員使用中位數(shù)、眾位數(shù)、奇異值、比重等統(tǒng)計方法來甄別調(diào)查對象報送的統(tǒng)計數(shù)據(jù),以期發(fā)現(xiàn)其中的錯誤,進一步提高統(tǒng)計數(shù)據(jù)質(zhì)量。本文嘗試跳出價值量指標判斷的藩籬,采用圖形識別的方法對調(diào)查對象進行分類,以期發(fā)現(xiàn)企業(yè)填報的規(guī)律,篩選出偏離普遍模式的調(diào)查對象。
現(xiàn)實生活中,我們在首次看到外貌相似的父子、兄弟時,第一印象往往覺得彼此很像,而伴隨著相互熟悉之后我們會發(fā)現(xiàn)彼此的不同,并且不會再覺得相像,這是我們在識別對象時逐步從面到點的過程。人有各自的相貌,企業(yè)統(tǒng)計數(shù)據(jù)有沒有普遍規(guī)律呢,能否利用這種規(guī)律發(fā)現(xiàn)調(diào)查對象中的特例,逐步發(fā)現(xiàn)我們關(guān)心的現(xiàn)象?
企業(yè)統(tǒng)計數(shù)據(jù)由生產(chǎn)過程產(chǎn)生,同一時期、同一地區(qū)的企業(yè)受基礎(chǔ)設(shè)施、原材料價格、人員素質(zhì)甚至風俗習慣、氣候的影響,可能會有合理的生產(chǎn)效益關(guān)系,本文就從挖掘這種合理通用關(guān)系入手,實現(xiàn)對調(diào)查對象的分類研究。
假設(shè)同一地區(qū),同一時間段,不同規(guī)模的企業(yè)生產(chǎn)效率是基本相同的,那么映射到二維圖上則同序列指標的連線圖形應(yīng)高度相似,如圖1 所示,B 企業(yè)是A 企業(yè)所有指標量值的1/2,則A 企業(yè)與B 企業(yè)的圖形應(yīng)完全相似。
圖1 完全相似的兩家企業(yè)
我們對上圖對應(yīng)數(shù)據(jù)計算余弦相似度,最終得到兩列數(shù)據(jù)的相似度為1.0000000000000002,由此可以認為這兩列數(shù)據(jù)組成的圖形是完全相似的,我們的目的就是找到一個本地區(qū)所有企業(yè)都高度相似的圖形,然后圍繞與標準圖形的相似度對調(diào)查單位分類,通過層層的篩選逐步找到我們關(guān)心的調(diào)查對象。
為驗證圖形模式分類調(diào)查對象的可行性,我們采用工業(yè)月報B203 表(2- 7 月份)中26 各指標作為測試對象,對數(shù)據(jù)進行刪除零值列預(yù)處理、歸一化預(yù)處理、相似度計算、調(diào)查單位聚類,從而將調(diào)查單位按照相似度進行分類,并篩選出小眾單位。
首先我們觀察不同月份的數(shù)據(jù),可以發(fā)現(xiàn)有部分列數(shù)據(jù)為零的比重較高,這些列填零的調(diào)查對象有兩萬家左右。兩家調(diào)查單位填零導(dǎo)致的相似度是沒有意義的,這種情況下零較多的列計算出來的相似度是沒有參考意義的,因此,首先我們刪除填零較多(兩萬家左右)的列(共刪除六列)。
此外,我們的統(tǒng)計指標包含不同量級的價值量指標,如圖2所示,由于價值量指標原始數(shù)值變動幅度過大,造成圖形中大多數(shù)指標趨近于零,從而導(dǎo)致僅有價值量值較大的指標才會影響相關(guān)度。
圖2 原始數(shù)據(jù)圖形
為消除不同量級指標對相關(guān)性的影響,我們對原始數(shù)據(jù)進行規(guī)范化處理,常用的規(guī)范化處理方法有最小最大規(guī)范化、零均值規(guī)范化、數(shù)量級歸一化、極差歸一化[(0,1)標準化]、Sigmoid 函數(shù)歸一化、softmax 函數(shù)歸一化等,我們采用極差歸一化[(0,1)標準化]對原始數(shù)據(jù)去量綱處理。
極差歸一化是最簡單、最容易想到的數(shù)據(jù)歸一化方法,它將變量的極差線性變化到(0,1)區(qū)間,假設(shè)屬性x 的最大、最小值分別為max(x)和min(x),則每一個具體的值x 按如下公式規(guī)范化得y:
表1 原始數(shù)據(jù)及歸一后效果
續(xù)表
通過預(yù)處理后的數(shù)據(jù)被存放在22000 多行(每月單位數(shù)不完全一樣),20 列的矩陣中,每一行代表一個調(diào)查對象,我們需要對任意兩行計算其余弦相似度,從而判斷兩個調(diào)查對象報送的報表是否相似。
余弦相似度通常用在文檔相似度判斷上,是利用兩個向量夾角的余弦值來衡量兩個向量差異的大小,余弦值越接近1,就表明夾角越接近0°,也就是兩個向量越相似,余弦相似度不考慮兩個數(shù)據(jù)對象的量值。
圖3 余弦相似度的幾何解釋
如圖3 所示,邊x 與y 的余弦相似度是邊x 與y 之間的夾角α 的余弦值。因此,如果余弦相似度為1,則x 與y 之間的夾角為0°,此時除了長度外x 與y 是相同的,如果余弦相似度為0,則x 與y 的夾角為90°,x 與y 完全不相似。
在二維空間,根據(jù)向量點積公式,顯然:
假設(shè)向量x、y 的坐標分別為(x1,y1)、(x2,y2)。則:
注:
算法:對任意兩行數(shù)據(jù)(m 行、n 行)執(zhí)行下面程序:
CompCosα(m,n,cosa)
1.當i 小于指標數(shù)時繼續(xù)執(zhí)行,否則跳到第5 步(i 從0 開始記錄已計算指標數(shù))
3.計算m 行對應(yīng)i 指標的平方(xi2),并累加。
4.計算n 行對應(yīng)i 指標的平方(yi2),并累加。
5.對2、3、4 步累加結(jié)果計算cosα。
6.返回cosα。
常用的數(shù)據(jù)分類分析方法有很多,如貝葉斯分類、支持向量機分類、神經(jīng)網(wǎng)絡(luò)分類等,而多數(shù)分類需要先確定分類條件或訓(xùn)練樣本。聚類分析是根據(jù)“物以類聚”的道理對數(shù)據(jù)進行分類,分類前無須確定分類條件,是一種無監(jiān)督的分類過程,非常適合統(tǒng)計調(diào)查對象分類。
正確合理的理解數(shù)據(jù)分析需求是選擇聚類方法的基礎(chǔ),在面部識別程序中,無論對象什么樣貌、什么膚色,或者外部器官發(fā)生病變甚至缺失,只要對象是人,程序都應(yīng)該做出人臉的判斷,統(tǒng)計調(diào)查對象識別也一樣,無論是大企業(yè)還是小企業(yè),甚至企業(yè)部分數(shù)據(jù)缺失,程序都應(yīng)該能判斷出這是企業(yè)填報的數(shù)據(jù),除非數(shù)據(jù)是非專業(yè)人員人為臆造的。在這種情況下,我們的調(diào)查單位應(yīng)有一個通用的標準,而這個標準在多維數(shù)據(jù)空間中應(yīng)該映射到一個具體的點(我們稱之為中心點),而各個調(diào)查企業(yè)與這個點的距離(相似度)就是判斷企業(yè)數(shù)據(jù)真?zhèn)蔚臉藴省?/p>
在現(xiàn)實中我們依然很難計算出中心點的具體位置,因為我們使用的是圖形模式相似度距離,而不是絕度量距離。在這種情況下我們可以變通一下,首先我們設(shè)想一下調(diào)查對象在多維空間中的可能分布情況,第一種情況是多數(shù)單位聚集在一個簇中,少數(shù)指標游離于簇外。第二種是形成多個簇。不管是哪種情況,每個簇必然至少有一個離中心點距離最近的調(diào)查對象點,而以這個點為中心將囊括該簇最多的調(diào)查對象,這樣尋找中心點的問題轉(zhuǎn)化為尋找包含樣本最多的問題,這也呼應(yīng)了聚類分析的優(yōu)勢,因此我們使用K 中心點聚類算法,首先設(shè)定K 等于1,驗證第一種設(shè)想。
注:
算法:發(fā)現(xiàn)包含等距離(相似度)調(diào)查對象最多的點
FindCore(m,datamatrix)
1.當i 小于調(diào)查對象數(shù)時繼續(xù)執(zhí)行,否則跳到5 執(zhí)行。
2.當j 小于調(diào)查對象數(shù)時繼續(xù)執(zhí)行。
3.計算i 與datamatrix(歸一化后數(shù)據(jù)矩陣)每一行(j)的相似度,記錄相似度低于設(shè)定值的行。
4.判斷與i 相似度低于設(shè)定值的調(diào)查對象數(shù)是否創(chuàng)新低,如果創(chuàng)新低則存儲,否則i 加一跳到1 行繼續(xù)執(zhí)行。
5.輸出所有記錄的中心點及對應(yīng)的低相似度調(diào)查對象集合。
以聯(lián)網(wǎng)直報平臺查詢導(dǎo)出默認順序?qū)?shù)據(jù)進行掃描,以每個調(diào)查對象為中心點執(zhí)行聚類,并記錄每一次擴大聚類范圍時的中心點及聚類單位數(shù),表2 記錄了2 月份B203 表每次擴大聚類范圍時的中心點及相關(guān)度較低的調(diào)查對象。以最后第一個出現(xiàn)的最大聚類集為最優(yōu)聚類集,表3 記錄了對2 至7 月份數(shù)據(jù)進行聚類后的中心點及相似度低于0.9 的調(diào)查單位。
表2 2 月份B203 表調(diào)查單位聚類結(jié)果(空白區(qū)相關(guān)度大于0.9)
續(xù)表
表3 2-7 月B203 表數(shù)據(jù)分析結(jié)果
續(xù)表
從表3 可看出,填寫B(tài)203 表的調(diào)查單位聚集度較高,99.9%的調(diào)查單位聚集在不低于0.9 相似度的集群中,這說明我們選用的樣本數(shù)據(jù)整體上是穩(wěn)定的,沒有受到個別離群單位影響,這符合第一種設(shè)想,也證明在初步分類中全省B203 表填報質(zhì)量較高。
逐月觀察可以發(fā)現(xiàn),2 至7 月份與核心點相似度低于0.9的調(diào)查單位在逐步增多,相似度持續(xù)低于0.9 的企業(yè)中宇通客車、鴻富錦電子、雙匯實業(yè)、天方藥業(yè)和中煙工業(yè)始終保持與不同核心點的近似相似程度,企業(yè)數(shù)據(jù)與核心點相似度較低應(yīng)該是企業(yè)特殊經(jīng)營管理造成的(見圖4)。
圖4 持續(xù)低于0.9 并保持穩(wěn)定的企業(yè)
中石化中原油田、義馬煤業(yè)、羚銳制藥和省電力公司,從2月份開始與不同核心點相似度就小于0.9,并呈持續(xù)下降態(tài)勢,說明企業(yè)填報數(shù)據(jù)與核心點的差距在逐步拉大(見圖5)。
圖5 相似度低于0.9 并逐步下降的企業(yè)
表3 中其他企業(yè)如鄭煤、富泰華電子、焦煤和中石化河南勘探局從最初與核心點高于0.9 相似度逐步下滑至低于0.9 相似度,體現(xiàn)了企業(yè)填報模式由高度接近核心點逐步偏離核心點(見圖6)。
圖6 相似度高于0.9 下滑至低于0.9 的企業(yè)
而大多數(shù)調(diào)查單位始終保持高于0.9 的相似度,反映了大多數(shù)企業(yè)始終堅持穩(wěn)定合理的填報模式,確保統(tǒng)計數(shù)據(jù)整體穩(wěn)定。
余弦相似度通常用在文檔相似性度量領(lǐng)域,本文創(chuàng)新性地將余弦相似度用在企業(yè)填報數(shù)據(jù)的圖形識別上,試圖探索出一條拋開價值量含義,實現(xiàn)整體識別判斷的新道路。通過實現(xiàn),發(fā)現(xiàn)圖形識別確實能夠發(fā)現(xiàn)企業(yè)填報模式的區(qū)別,但靈敏度需要進一步改進。
雖然前期我們對數(shù)據(jù)刪除了零值較多的列,進行了極差歸一化處理,但數(shù)據(jù)預(yù)處理工作仍有改進的空間。由于調(diào)查對象屬性指標較多,需要進一步判斷是否需要進行主成分分析,篩選更具代表性的屬性,剔除干擾屬性,提高識別準確率。此外極差歸一化只是將價值量指標的值域直接映射到[0,1]范圍內(nèi),但是指標分布密度沒有本質(zhì)改變,能否增加一個散列函數(shù),將指標均勻分部到[0,1]之間,從而合理擴大均勻散布調(diào)查對象的值差距。對指標中的相同數(shù)字處理也是需要進一步考慮的問題,不等于零的重復(fù)價值量是有意義的,而相同的零值被判斷為高度相似就應(yīng)該設(shè)法篩除掉。
加強數(shù)據(jù)理論學習,研究余弦夾角相似度計算內(nèi)在規(guī)律,針對統(tǒng)計數(shù)據(jù)圖形規(guī)律優(yōu)化計算過程,提高相似度計算的準確性。
樣本數(shù)據(jù)只有二十個屬性、兩萬多條,相關(guān)度的計算量已經(jīng)上億次,單機計算時間達數(shù)小時,如何優(yōu)化存儲、提高運算能力是下一步必須考慮的問題。
從初步分析判斷看,樣本數(shù)據(jù)整體質(zhì)量較高,99.9%的數(shù)據(jù)保持較好的凝聚度。進一步深入分析數(shù)據(jù),提高相似度判斷靈敏性,分行業(yè)、分地區(qū)探索優(yōu)化分類條件。