亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于余弦相識度的聚類算法在統(tǒng)計調(diào)查對象分類中的應(yīng)用研究

2019-06-14 08:04:12王習濤馬雁疆劉新新

市場研究 2019年5期

王習濤馬雁疆劉新新/ 文

長期以來，統(tǒng)計人員使用中位數(shù)、眾位數(shù)、奇異值、比重等統(tǒng)計方法來甄別調(diào)查對象報送的統(tǒng)計數(shù)據(jù)，以期發(fā)現(xiàn)其中的錯誤，進一步提高統(tǒng)計數(shù)據(jù)質(zhì)量。本文嘗試跳出價值量指標判斷的藩籬，采用圖形識別的方法對調(diào)查對象進行分類，以期發(fā)現(xiàn)企業(yè)填報的規(guī)律，篩選出偏離普遍模式的調(diào)查對象。

一、總體設(shè)想

現(xiàn)實生活中，我們在首次看到外貌相似的父子、兄弟時，第一印象往往覺得彼此很像，而伴隨著相互熟悉之后我們會發(fā)現(xiàn)彼此的不同，并且不會再覺得相像，這是我們在識別對象時逐步從面到點的過程。人有各自的相貌，企業(yè)統(tǒng)計數(shù)據(jù)有沒有普遍規(guī)律呢，能否利用這種規(guī)律發(fā)現(xiàn)調(diào)查對象中的特例，逐步發(fā)現(xiàn)我們關(guān)心的現(xiàn)象？

企業(yè)統(tǒng)計數(shù)據(jù)由生產(chǎn)過程產(chǎn)生，同一時期、同一地區(qū)的企業(yè)受基礎(chǔ)設(shè)施、原材料價格、人員素質(zhì)甚至風俗習慣、氣候的影響，可能會有合理的生產(chǎn)效益關(guān)系，本文就從挖掘這種合理通用關(guān)系入手，實現(xiàn)對調(diào)查對象的分類研究。

假設(shè)同一地區(qū)，同一時間段，不同規(guī)模的企業(yè)生產(chǎn)效率是基本相同的，那么映射到二維圖上則同序列指標的連線圖形應(yīng)高度相似，如圖1 所示，B 企業(yè)是A 企業(yè)所有指標量值的1/2，則A 企業(yè)與B 企業(yè)的圖形應(yīng)完全相似。

圖1 完全相似的兩家企業(yè)

我們對上圖對應(yīng)數(shù)據(jù)計算余弦相似度，最終得到兩列數(shù)據(jù)的相似度為1.0000000000000002，由此可以認為這兩列數(shù)據(jù)組成的圖形是完全相似的，我們的目的就是找到一個本地區(qū)所有企業(yè)都高度相似的圖形，然后圍繞與標準圖形的相似度對調(diào)查單位分類，通過層層的篩選逐步找到我們關(guān)心的調(diào)查對象。

二、實驗過程

為驗證圖形模式分類調(diào)查對象的可行性，我們采用工業(yè)月報B203 表（2- 7 月份）中26 各指標作為測試對象，對數(shù)據(jù)進行刪除零值列預(yù)處理、歸一化預(yù)處理、相似度計算、調(diào)查單位聚類，從而將調(diào)查單位按照相似度進行分類，并篩選出小眾單位。

（一）數(shù)據(jù)預(yù)處理

首先我們觀察不同月份的數(shù)據(jù)，可以發(fā)現(xiàn)有部分列數(shù)據(jù)為零的比重較高，這些列填零的調(diào)查對象有兩萬家左右。兩家調(diào)查單位填零導(dǎo)致的相似度是沒有意義的，這種情況下零較多的列計算出來的相似度是沒有參考意義的，因此，首先我們刪除填零較多（兩萬家左右）的列（共刪除六列）。

此外，我們的統(tǒng)計指標包含不同量級的價值量指標，如圖2所示，由于價值量指標原始數(shù)值變動幅度過大，造成圖形中大多數(shù)指標趨近于零，從而導(dǎo)致僅有價值量值較大的指標才會影響相關(guān)度。

圖2 原始數(shù)據(jù)圖形

為消除不同量級指標對相關(guān)性的影響，我們對原始數(shù)據(jù)進行規(guī)范化處理，常用的規(guī)范化處理方法有最小最大規(guī)范化、零均值規(guī)范化、數(shù)量級歸一化、極差歸一化［（0,1）標準化］、Sigmoid 函數(shù)歸一化、softmax 函數(shù)歸一化等，我們采用極差歸一化［（0，1）標準化］對原始數(shù)據(jù)去量綱處理。

極差歸一化是最簡單、最容易想到的數(shù)據(jù)歸一化方法，它將變量的極差線性變化到（0,1）區(qū)間，假設(shè)屬性x 的最大、最小值分別為max（x）和min（x），則每一個具體的值x 按如下公式規(guī)范化得y：

表1 原始數(shù)據(jù)及歸一后效果

續(xù)表

（二）相關(guān)度計算

通過預(yù)處理后的數(shù)據(jù)被存放在22000 多行（每月單位數(shù)不完全一樣），20 列的矩陣中，每一行代表一個調(diào)查對象，我們需要對任意兩行計算其余弦相似度，從而判斷兩個調(diào)查對象報送的報表是否相似。

余弦相似度通常用在文檔相似度判斷上，是利用兩個向量夾角的余弦值來衡量兩個向量差異的大小，余弦值越接近1，就表明夾角越接近0°，也就是兩個向量越相似，余弦相似度不考慮兩個數(shù)據(jù)對象的量值。

圖3 余弦相似度的幾何解釋

如圖3 所示，邊x 與y 的余弦相似度是邊x 與y 之間的夾角α 的余弦值。因此，如果余弦相似度為1，則x 與y 之間的夾角為0°，此時除了長度外x 與y 是相同的，如果余弦相似度為0，則x 與y 的夾角為90°，x 與y 完全不相似。

在二維空間，根據(jù)向量點積公式，顯然：

假設(shè)向量x、y 的坐標分別為（x1,y1）、（x2,y2）。則：

注：

算法：對任意兩行數(shù)據(jù)（m 行、n 行）執(zhí)行下面程序：

CompCosα（m，n，cosa）

1.當i 小于指標數(shù)時繼續(xù)執(zhí)行，否則跳到第5 步（i 從0 開始記錄已計算指標數(shù)）

3.計算m 行對應(yīng)i 指標的平方（xi2），并累加。

4.計算n 行對應(yīng)i 指標的平方（yi2），并累加。

5.對2、3、4 步累加結(jié)果計算cosα。

6.返回cosα。

（三）按照相似度進行聚類分析

常用的數(shù)據(jù)分類分析方法有很多，如貝葉斯分類、支持向量機分類、神經(jīng)網(wǎng)絡(luò)分類等，而多數(shù)分類需要先確定分類條件或訓(xùn)練樣本。聚類分析是根據(jù)“物以類聚”的道理對數(shù)據(jù)進行分類，分類前無須確定分類條件，是一種無監(jiān)督的分類過程，非常適合統(tǒng)計調(diào)查對象分類。

正確合理的理解數(shù)據(jù)分析需求是選擇聚類方法的基礎(chǔ)，在面部識別程序中，無論對象什么樣貌、什么膚色，或者外部器官發(fā)生病變甚至缺失，只要對象是人，程序都應(yīng)該做出人臉的判斷，統(tǒng)計調(diào)查對象識別也一樣，無論是大企業(yè)還是小企業(yè)，甚至企業(yè)部分數(shù)據(jù)缺失，程序都應(yīng)該能判斷出這是企業(yè)填報的數(shù)據(jù)，除非數(shù)據(jù)是非專業(yè)人員人為臆造的。在這種情況下，我們的調(diào)查單位應(yīng)有一個通用的標準，而這個標準在多維數(shù)據(jù)空間中應(yīng)該映射到一個具體的點（我們稱之為中心點），而各個調(diào)查企業(yè)與這個點的距離（相似度）就是判斷企業(yè)數(shù)據(jù)真?zhèn)蔚臉藴省?/p>

在現(xiàn)實中我們依然很難計算出中心點的具體位置，因為我們使用的是圖形模式相似度距離，而不是絕度量距離。在這種情況下我們可以變通一下，首先我們設(shè)想一下調(diào)查對象在多維空間中的可能分布情況，第一種情況是多數(shù)單位聚集在一個簇中，少數(shù)指標游離于簇外。第二種是形成多個簇。不管是哪種情況，每個簇必然至少有一個離中心點距離最近的調(diào)查對象點，而以這個點為中心將囊括該簇最多的調(diào)查對象，這樣尋找中心點的問題轉(zhuǎn)化為尋找包含樣本最多的問題，這也呼應(yīng)了聚類分析的優(yōu)勢，因此我們使用K 中心點聚類算法，首先設(shè)定K 等于1，驗證第一種設(shè)想。

注：

算法：發(fā)現(xiàn)包含等距離（相似度）調(diào)查對象最多的點

FindCore（m，datamatrix）

1.當i 小于調(diào)查對象數(shù)時繼續(xù)執(zhí)行，否則跳到5 執(zhí)行。

2.當j 小于調(diào)查對象數(shù)時繼續(xù)執(zhí)行。

3.計算i 與datamatrix（歸一化后數(shù)據(jù)矩陣）每一行（j）的相似度，記錄相似度低于設(shè)定值的行。

4.判斷與i 相似度低于設(shè)定值的調(diào)查對象數(shù)是否創(chuàng)新低，如果創(chuàng)新低則存儲，否則i 加一跳到1 行繼續(xù)執(zhí)行。

5.輸出所有記錄的中心點及對應(yīng)的低相似度調(diào)查對象集合。

（四）實驗結(jié)果

以聯(lián)網(wǎng)直報平臺查詢導(dǎo)出默認順序?qū)?shù)據(jù)進行掃描，以每個調(diào)查對象為中心點執(zhí)行聚類，并記錄每一次擴大聚類范圍時的中心點及聚類單位數(shù)，表2 記錄了2 月份B203 表每次擴大聚類范圍時的中心點及相關(guān)度較低的調(diào)查對象。以最后第一個出現(xiàn)的最大聚類集為最優(yōu)聚類集，表3 記錄了對2 至7 月份數(shù)據(jù)進行聚類后的中心點及相似度低于0.9 的調(diào)查單位。

表2 2 月份B203 表調(diào)查單位聚類結(jié)果（空白區(qū)相關(guān)度大于0.9）

續(xù)表

表3 2-7 月B203 表數(shù)據(jù)分析結(jié)果

續(xù)表

三、結(jié)果分析

從表3 可看出，填寫B(tài)203 表的調(diào)查單位聚集度較高，99.9%的調(diào)查單位聚集在不低于0.9 相似度的集群中，這說明我們選用的樣本數(shù)據(jù)整體上是穩(wěn)定的，沒有受到個別離群單位影響，這符合第一種設(shè)想，也證明在初步分類中全省B203 表填報質(zhì)量較高。

逐月觀察可以發(fā)現(xiàn)，2 至7 月份與核心點相似度低于0.9的調(diào)查單位在逐步增多，相似度持續(xù)低于0.9 的企業(yè)中宇通客車、鴻富錦電子、雙匯實業(yè)、天方藥業(yè)和中煙工業(yè)始終保持與不同核心點的近似相似程度，企業(yè)數(shù)據(jù)與核心點相似度較低應(yīng)該是企業(yè)特殊經(jīng)營管理造成的（見圖4）。

圖4 持續(xù)低于0.9 并保持穩(wěn)定的企業(yè)

中石化中原油田、義馬煤業(yè)、羚銳制藥和省電力公司，從2月份開始與不同核心點相似度就小于0.9，并呈持續(xù)下降態(tài)勢，說明企業(yè)填報數(shù)據(jù)與核心點的差距在逐步拉大（見圖5）。

圖5 相似度低于0.9 并逐步下降的企業(yè)

表3 中其他企業(yè)如鄭煤、富泰華電子、焦煤和中石化河南勘探局從最初與核心點高于0.9 相似度逐步下滑至低于0.9 相似度，體現(xiàn)了企業(yè)填報模式由高度接近核心點逐步偏離核心點（見圖6）。

圖6 相似度高于0.9 下滑至低于0.9 的企業(yè)

而大多數(shù)調(diào)查單位始終保持高于0.9 的相似度，反映了大多數(shù)企業(yè)始終堅持穩(wěn)定合理的填報模式，確保統(tǒng)計數(shù)據(jù)整體穩(wěn)定。

四、改進方向

余弦相似度通常用在文檔相似性度量領(lǐng)域，本文創(chuàng)新性地將余弦相似度用在企業(yè)填報數(shù)據(jù)的圖形識別上，試圖探索出一條拋開價值量含義，實現(xiàn)整體識別判斷的新道路。通過實現(xiàn)，發(fā)現(xiàn)圖形識別確實能夠發(fā)現(xiàn)企業(yè)填報模式的區(qū)別，但靈敏度需要進一步改進。

（一）加強數(shù)據(jù)預(yù)處理

雖然前期我們對數(shù)據(jù)刪除了零值較多的列，進行了極差歸一化處理，但數(shù)據(jù)預(yù)處理工作仍有改進的空間。由于調(diào)查對象屬性指標較多，需要進一步判斷是否需要進行主成分分析，篩選更具代表性的屬性，剔除干擾屬性，提高識別準確率。此外極差歸一化只是將價值量指標的值域直接映射到[0,1]范圍內(nèi)，但是指標分布密度沒有本質(zhì)改變，能否增加一個散列函數(shù)，將指標均勻分部到[0,1]之間，從而合理擴大均勻散布調(diào)查對象的值差距。對指標中的相同數(shù)字處理也是需要進一步考慮的問題，不等于零的重復(fù)價值量是有意義的，而相同的零值被判斷為高度相似就應(yīng)該設(shè)法篩除掉。

（二）有針對性改進相似度計算

加強數(shù)據(jù)理論學習，研究余弦夾角相似度計算內(nèi)在規(guī)律，針對統(tǒng)計數(shù)據(jù)圖形規(guī)律優(yōu)化計算過程，提高相似度計算的準確性。

（三）提高存儲運算能力

樣本數(shù)據(jù)只有二十個屬性、兩萬多條，相關(guān)度的計算量已經(jīng)上億次，單機計算時間達數(shù)小時，如何優(yōu)化存儲、提高運算能力是下一步必須考慮的問題。

（四）分行業(yè)、分地區(qū)進一步分析數(shù)據(jù)

從初步分析判斷看，樣本數(shù)據(jù)整體質(zhì)量較高，99.9%的數(shù)據(jù)保持較好的凝聚度。進一步深入分析數(shù)據(jù)，提高相似度判斷靈敏性，分行業(yè)、分地區(qū)探索優(yōu)化分類條件。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于余弦相識度的聚類算法在統(tǒng)計調(diào)查對象分類中的應(yīng)用研究

一、總體設(shè)想

二、實驗過程

（一）數(shù)據(jù)預(yù)處理

（二）相關(guān)度計算

（三）按照相似度進行聚類分析

（四）實驗結(jié)果

三、結(jié)果分析

四、改進方向

（一）加強數(shù)據(jù)預(yù)處理

（二）有針對性改進相似度計算

（三）提高存儲運算能力

（四）分行業(yè)、分地區(qū)進一步分析數(shù)據(jù)

一、總體設(shè)想

二、實驗過程

三、結(jié)果分析

四、改進方向

（四）分行業(yè)、分地區(qū)進一步分析數(shù)據(jù)