亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于余弦相識度的聚類算法在統(tǒng)計調(diào)查對象分類中的應(yīng)用研究

        2019-06-14 08:04:12王習濤馬雁疆劉新新
        市場研究 2019年5期
        關(guān)鍵詞:分類企業(yè)

        王習濤 馬雁疆 劉新新/ 文

        長期以來,統(tǒng)計人員使用中位數(shù)、眾位數(shù)、奇異值、比重等統(tǒng)計方法來甄別調(diào)查對象報送的統(tǒng)計數(shù)據(jù),以期發(fā)現(xiàn)其中的錯誤,進一步提高統(tǒng)計數(shù)據(jù)質(zhì)量。本文嘗試跳出價值量指標判斷的藩籬,采用圖形識別的方法對調(diào)查對象進行分類,以期發(fā)現(xiàn)企業(yè)填報的規(guī)律,篩選出偏離普遍模式的調(diào)查對象。

        一、總體設(shè)想

        現(xiàn)實生活中,我們在首次看到外貌相似的父子、兄弟時,第一印象往往覺得彼此很像,而伴隨著相互熟悉之后我們會發(fā)現(xiàn)彼此的不同,并且不會再覺得相像,這是我們在識別對象時逐步從面到點的過程。人有各自的相貌,企業(yè)統(tǒng)計數(shù)據(jù)有沒有普遍規(guī)律呢,能否利用這種規(guī)律發(fā)現(xiàn)調(diào)查對象中的特例,逐步發(fā)現(xiàn)我們關(guān)心的現(xiàn)象?

        企業(yè)統(tǒng)計數(shù)據(jù)由生產(chǎn)過程產(chǎn)生,同一時期、同一地區(qū)的企業(yè)受基礎(chǔ)設(shè)施、原材料價格、人員素質(zhì)甚至風俗習慣、氣候的影響,可能會有合理的生產(chǎn)效益關(guān)系,本文就從挖掘這種合理通用關(guān)系入手,實現(xiàn)對調(diào)查對象的分類研究。

        假設(shè)同一地區(qū),同一時間段,不同規(guī)模的企業(yè)生產(chǎn)效率是基本相同的,那么映射到二維圖上則同序列指標的連線圖形應(yīng)高度相似,如圖1 所示,B 企業(yè)是A 企業(yè)所有指標量值的1/2,則A 企業(yè)與B 企業(yè)的圖形應(yīng)完全相似。

        圖1 完全相似的兩家企業(yè)

        我們對上圖對應(yīng)數(shù)據(jù)計算余弦相似度,最終得到兩列數(shù)據(jù)的相似度為1.0000000000000002,由此可以認為這兩列數(shù)據(jù)組成的圖形是完全相似的,我們的目的就是找到一個本地區(qū)所有企業(yè)都高度相似的圖形,然后圍繞與標準圖形的相似度對調(diào)查單位分類,通過層層的篩選逐步找到我們關(guān)心的調(diào)查對象。

        二、實驗過程

        為驗證圖形模式分類調(diào)查對象的可行性,我們采用工業(yè)月報B203 表(2- 7 月份)中26 各指標作為測試對象,對數(shù)據(jù)進行刪除零值列預(yù)處理、歸一化預(yù)處理、相似度計算、調(diào)查單位聚類,從而將調(diào)查單位按照相似度進行分類,并篩選出小眾單位。

        (一)數(shù)據(jù)預(yù)處理

        首先我們觀察不同月份的數(shù)據(jù),可以發(fā)現(xiàn)有部分列數(shù)據(jù)為零的比重較高,這些列填零的調(diào)查對象有兩萬家左右。兩家調(diào)查單位填零導(dǎo)致的相似度是沒有意義的,這種情況下零較多的列計算出來的相似度是沒有參考意義的,因此,首先我們刪除填零較多(兩萬家左右)的列(共刪除六列)。

        此外,我們的統(tǒng)計指標包含不同量級的價值量指標,如圖2所示,由于價值量指標原始數(shù)值變動幅度過大,造成圖形中大多數(shù)指標趨近于零,從而導(dǎo)致僅有價值量值較大的指標才會影響相關(guān)度。

        圖2 原始數(shù)據(jù)圖形

        為消除不同量級指標對相關(guān)性的影響,我們對原始數(shù)據(jù)進行規(guī)范化處理,常用的規(guī)范化處理方法有最小最大規(guī)范化、零均值規(guī)范化、數(shù)量級歸一化、極差歸一化[(0,1)標準化]、Sigmoid 函數(shù)歸一化、softmax 函數(shù)歸一化等,我們采用極差歸一化[(0,1)標準化]對原始數(shù)據(jù)去量綱處理。

        極差歸一化是最簡單、最容易想到的數(shù)據(jù)歸一化方法,它將變量的極差線性變化到(0,1)區(qū)間,假設(shè)屬性x 的最大、最小值分別為max(x)和min(x),則每一個具體的值x 按如下公式規(guī)范化得y:

        表1 原始數(shù)據(jù)及歸一后效果

        續(xù)表

        (二)相關(guān)度計算

        通過預(yù)處理后的數(shù)據(jù)被存放在22000 多行(每月單位數(shù)不完全一樣),20 列的矩陣中,每一行代表一個調(diào)查對象,我們需要對任意兩行計算其余弦相似度,從而判斷兩個調(diào)查對象報送的報表是否相似。

        余弦相似度通常用在文檔相似度判斷上,是利用兩個向量夾角的余弦值來衡量兩個向量差異的大小,余弦值越接近1,就表明夾角越接近0°,也就是兩個向量越相似,余弦相似度不考慮兩個數(shù)據(jù)對象的量值。

        圖3 余弦相似度的幾何解釋

        如圖3 所示,邊x 與y 的余弦相似度是邊x 與y 之間的夾角α 的余弦值。因此,如果余弦相似度為1,則x 與y 之間的夾角為0°,此時除了長度外x 與y 是相同的,如果余弦相似度為0,則x 與y 的夾角為90°,x 與y 完全不相似。

        在二維空間,根據(jù)向量點積公式,顯然:

        假設(shè)向量x、y 的坐標分別為(x1,y1)、(x2,y2)。則:

        注:

        算法:對任意兩行數(shù)據(jù)(m 行、n 行)執(zhí)行下面程序:

        CompCosα(m,n,cosa)

        1.當i 小于指標數(shù)時繼續(xù)執(zhí)行,否則跳到第5 步(i 從0 開始記錄已計算指標數(shù))

        3.計算m 行對應(yīng)i 指標的平方(xi2),并累加。

        4.計算n 行對應(yīng)i 指標的平方(yi2),并累加。

        5.對2、3、4 步累加結(jié)果計算cosα。

        6.返回cosα。

        (三)按照相似度進行聚類分析

        常用的數(shù)據(jù)分類分析方法有很多,如貝葉斯分類、支持向量機分類、神經(jīng)網(wǎng)絡(luò)分類等,而多數(shù)分類需要先確定分類條件或訓(xùn)練樣本。聚類分析是根據(jù)“物以類聚”的道理對數(shù)據(jù)進行分類,分類前無須確定分類條件,是一種無監(jiān)督的分類過程,非常適合統(tǒng)計調(diào)查對象分類。

        正確合理的理解數(shù)據(jù)分析需求是選擇聚類方法的基礎(chǔ),在面部識別程序中,無論對象什么樣貌、什么膚色,或者外部器官發(fā)生病變甚至缺失,只要對象是人,程序都應(yīng)該做出人臉的判斷,統(tǒng)計調(diào)查對象識別也一樣,無論是大企業(yè)還是小企業(yè),甚至企業(yè)部分數(shù)據(jù)缺失,程序都應(yīng)該能判斷出這是企業(yè)填報的數(shù)據(jù),除非數(shù)據(jù)是非專業(yè)人員人為臆造的。在這種情況下,我們的調(diào)查單位應(yīng)有一個通用的標準,而這個標準在多維數(shù)據(jù)空間中應(yīng)該映射到一個具體的點(我們稱之為中心點),而各個調(diào)查企業(yè)與這個點的距離(相似度)就是判斷企業(yè)數(shù)據(jù)真?zhèn)蔚臉藴省?/p>

        在現(xiàn)實中我們依然很難計算出中心點的具體位置,因為我們使用的是圖形模式相似度距離,而不是絕度量距離。在這種情況下我們可以變通一下,首先我們設(shè)想一下調(diào)查對象在多維空間中的可能分布情況,第一種情況是多數(shù)單位聚集在一個簇中,少數(shù)指標游離于簇外。第二種是形成多個簇。不管是哪種情況,每個簇必然至少有一個離中心點距離最近的調(diào)查對象點,而以這個點為中心將囊括該簇最多的調(diào)查對象,這樣尋找中心點的問題轉(zhuǎn)化為尋找包含樣本最多的問題,這也呼應(yīng)了聚類分析的優(yōu)勢,因此我們使用K 中心點聚類算法,首先設(shè)定K 等于1,驗證第一種設(shè)想。

        注:

        算法:發(fā)現(xiàn)包含等距離(相似度)調(diào)查對象最多的點

        FindCore(m,datamatrix)

        1.當i 小于調(diào)查對象數(shù)時繼續(xù)執(zhí)行,否則跳到5 執(zhí)行。

        2.當j 小于調(diào)查對象數(shù)時繼續(xù)執(zhí)行。

        3.計算i 與datamatrix(歸一化后數(shù)據(jù)矩陣)每一行(j)的相似度,記錄相似度低于設(shè)定值的行。

        4.判斷與i 相似度低于設(shè)定值的調(diào)查對象數(shù)是否創(chuàng)新低,如果創(chuàng)新低則存儲,否則i 加一跳到1 行繼續(xù)執(zhí)行。

        5.輸出所有記錄的中心點及對應(yīng)的低相似度調(diào)查對象集合。

        (四)實驗結(jié)果

        以聯(lián)網(wǎng)直報平臺查詢導(dǎo)出默認順序?qū)?shù)據(jù)進行掃描,以每個調(diào)查對象為中心點執(zhí)行聚類,并記錄每一次擴大聚類范圍時的中心點及聚類單位數(shù),表2 記錄了2 月份B203 表每次擴大聚類范圍時的中心點及相關(guān)度較低的調(diào)查對象。以最后第一個出現(xiàn)的最大聚類集為最優(yōu)聚類集,表3 記錄了對2 至7 月份數(shù)據(jù)進行聚類后的中心點及相似度低于0.9 的調(diào)查單位。

        表2 2 月份B203 表調(diào)查單位聚類結(jié)果(空白區(qū)相關(guān)度大于0.9)

        續(xù)表

        表3 2-7 月B203 表數(shù)據(jù)分析結(jié)果

        續(xù)表

        三、結(jié)果分析

        從表3 可看出,填寫B(tài)203 表的調(diào)查單位聚集度較高,99.9%的調(diào)查單位聚集在不低于0.9 相似度的集群中,這說明我們選用的樣本數(shù)據(jù)整體上是穩(wěn)定的,沒有受到個別離群單位影響,這符合第一種設(shè)想,也證明在初步分類中全省B203 表填報質(zhì)量較高。

        逐月觀察可以發(fā)現(xiàn),2 至7 月份與核心點相似度低于0.9的調(diào)查單位在逐步增多,相似度持續(xù)低于0.9 的企業(yè)中宇通客車、鴻富錦電子、雙匯實業(yè)、天方藥業(yè)和中煙工業(yè)始終保持與不同核心點的近似相似程度,企業(yè)數(shù)據(jù)與核心點相似度較低應(yīng)該是企業(yè)特殊經(jīng)營管理造成的(見圖4)。

        圖4 持續(xù)低于0.9 并保持穩(wěn)定的企業(yè)

        中石化中原油田、義馬煤業(yè)、羚銳制藥和省電力公司,從2月份開始與不同核心點相似度就小于0.9,并呈持續(xù)下降態(tài)勢,說明企業(yè)填報數(shù)據(jù)與核心點的差距在逐步拉大(見圖5)。

        圖5 相似度低于0.9 并逐步下降的企業(yè)

        表3 中其他企業(yè)如鄭煤、富泰華電子、焦煤和中石化河南勘探局從最初與核心點高于0.9 相似度逐步下滑至低于0.9 相似度,體現(xiàn)了企業(yè)填報模式由高度接近核心點逐步偏離核心點(見圖6)。

        圖6 相似度高于0.9 下滑至低于0.9 的企業(yè)

        而大多數(shù)調(diào)查單位始終保持高于0.9 的相似度,反映了大多數(shù)企業(yè)始終堅持穩(wěn)定合理的填報模式,確保統(tǒng)計數(shù)據(jù)整體穩(wěn)定。

        四、改進方向

        余弦相似度通常用在文檔相似性度量領(lǐng)域,本文創(chuàng)新性地將余弦相似度用在企業(yè)填報數(shù)據(jù)的圖形識別上,試圖探索出一條拋開價值量含義,實現(xiàn)整體識別判斷的新道路。通過實現(xiàn),發(fā)現(xiàn)圖形識別確實能夠發(fā)現(xiàn)企業(yè)填報模式的區(qū)別,但靈敏度需要進一步改進。

        (一)加強數(shù)據(jù)預(yù)處理

        雖然前期我們對數(shù)據(jù)刪除了零值較多的列,進行了極差歸一化處理,但數(shù)據(jù)預(yù)處理工作仍有改進的空間。由于調(diào)查對象屬性指標較多,需要進一步判斷是否需要進行主成分分析,篩選更具代表性的屬性,剔除干擾屬性,提高識別準確率。此外極差歸一化只是將價值量指標的值域直接映射到[0,1]范圍內(nèi),但是指標分布密度沒有本質(zhì)改變,能否增加一個散列函數(shù),將指標均勻分部到[0,1]之間,從而合理擴大均勻散布調(diào)查對象的值差距。對指標中的相同數(shù)字處理也是需要進一步考慮的問題,不等于零的重復(fù)價值量是有意義的,而相同的零值被判斷為高度相似就應(yīng)該設(shè)法篩除掉。

        (二)有針對性改進相似度計算

        加強數(shù)據(jù)理論學習,研究余弦夾角相似度計算內(nèi)在規(guī)律,針對統(tǒng)計數(shù)據(jù)圖形規(guī)律優(yōu)化計算過程,提高相似度計算的準確性。

        (三)提高存儲運算能力

        樣本數(shù)據(jù)只有二十個屬性、兩萬多條,相關(guān)度的計算量已經(jīng)上億次,單機計算時間達數(shù)小時,如何優(yōu)化存儲、提高運算能力是下一步必須考慮的問題。

        (四)分行業(yè)、分地區(qū)進一步分析數(shù)據(jù)

        從初步分析判斷看,樣本數(shù)據(jù)整體質(zhì)量較高,99.9%的數(shù)據(jù)保持較好的凝聚度。進一步深入分析數(shù)據(jù),提高相似度判斷靈敏性,分行業(yè)、分地區(qū)探索優(yōu)化分類條件。

        猜你喜歡
        分類企業(yè)
        企業(yè)
        企業(yè)
        企業(yè)
        企業(yè)
        企業(yè)
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        敢為人先的企業(yè)——超惠投不動產(chǎn)
        云南畫報(2020年9期)2020-10-27 02:03:26
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        亚洲av高清一区三区三区| 久久国产A√无码专区亚洲| 国产无遮挡又黄又爽免费网站 | 揄拍成人国产精品视频| 风韵丰满妇啪啪区老老熟女杏吧 | 国产精品美女一区二区视频| 国产精品_国产精品_k频道| 亚洲AV秘 无码一区二区三区1| 国产在线拍91揄自揄视精品91| 少妇被粗大进猛进出处故事| 一本色道无码道在线观看| 中文字幕第一页亚洲| 中文字幕一区二区三区97| 中文字幕日韩精品亚洲精品| 91精品亚洲成人一区二区三区| 国产成人精品123区免费视频| 久久久久亚洲av无码专区桃色| 久久久久国产精品片区无码| 久久综合亚洲鲁鲁五月天| 成人中文乱幕日产无线码| 丰满五十六十老熟女hd| 高潮社区51视频在线观看| 亚洲精品岛国av一区二区| 日韩中文字幕版区一区二区三区| 国产成人精品2021| 色一乱一伦一图一区二区精品| 亚洲人成绝费网站色www| 免费播放成人大片视频| 国产男小鲜肉同志免费| 制服丝袜天堂国产日韩| 一区二区三区视频偷拍| 亚洲国产成人精品无码区在线播放| 午夜亚洲av永久无码精品| 成人动漫久久| 人妻系列少妇极品熟妇| 日韩在线永久免费播放| 在线播放亚洲第一字幕| 日本熟妇精品一区二区三区| 看一区二区日本视频免费| 激情综合色五月丁香六月欧美| 亚洲国产无线乱码在线观看 |