張海均
(四川省統(tǒng)計(jì)局,四川成都610041)
大數(shù)據(jù)技術(shù)探索“四眾”企業(yè)單位查找方法研究
張海均
(四川省統(tǒng)計(jì)局,四川成都610041)
近年來,新業(yè)態(tài)、新模式蓬勃興起,眾創(chuàng)、眾包、眾扶、眾籌(以下簡稱“四眾”)快速涌現(xiàn),四川利用大數(shù)據(jù)技術(shù)查找“四眾”平臺企業(yè),以此作為調(diào)查對象,使用多維數(shù)據(jù)建立相關(guān)統(tǒng)計(jì)分析和算法模型,精準(zhǔn)識別“四眾”企業(yè),并及時(shí)鎖定、補(bǔ)充、佐證調(diào)查結(jié)果,為應(yīng)統(tǒng)盡統(tǒng)“四眾”平臺企業(yè)作了有益的探索。
“四眾”企業(yè);大數(shù)據(jù)技術(shù);統(tǒng)計(jì)分析;算法模型
按照國家統(tǒng)計(jì)局《新產(chǎn)業(yè)、新業(yè)態(tài)、新商業(yè)模式專項(xiàng)統(tǒng)計(jì)報(bào)表制度》的要求,借力四川運(yùn)用大數(shù)據(jù)技術(shù)開展“三新”統(tǒng)計(jì)的探索,四川在全國首創(chuàng)開展了運(yùn)用大數(shù)據(jù)技術(shù)精準(zhǔn)識別“四眾”企業(yè)單位查找的專項(xiàng)研究,豐富和拓展了新經(jīng)濟(jì)數(shù)據(jù)采集渠道,成效明顯。
近年來,四川省基于互聯(lián)網(wǎng)的新業(yè)態(tài)、新模式蓬勃興起,“四眾”快速涌現(xiàn)。作為新經(jīng)濟(jì)的重要組成部分,其具有分布廣、規(guī)模小、變化快等特征,呈現(xiàn)大眾化、規(guī)模化、井噴式發(fā)展之勢,正在成為創(chuàng)業(yè)創(chuàng)新重要支撐平臺。要想掌握新經(jīng)濟(jì)發(fā)展情況,傳統(tǒng)的調(diào)查單位查找和數(shù)據(jù)層層上報(bào)、逐級匯總的統(tǒng)計(jì)方法難以及時(shí)、準(zhǔn)確、全面和有效地反映新經(jīng)濟(jì)業(yè)態(tài),探索科學(xué)反映“三新”統(tǒng)計(jì)調(diào)查方法是大勢所趨,也是國家局布置的重要改革任務(wù)。
此次研究以四川省成都市為例,以按制度方法確定的207家“四眾”平臺企業(yè)為參考樣本,提出了精準(zhǔn)識別“四眾”企業(yè)的解決方案,具體包括以下3點(diǎn):①針對提供眾創(chuàng)服務(wù)的企業(yè),設(shè)計(jì)大數(shù)據(jù)算法模型,在線上采集企業(yè)數(shù)據(jù)驗(yàn)證模型,通過模型能夠準(zhǔn)確覆蓋已有的眾創(chuàng)平臺,并預(yù)測出一批疑似眾創(chuàng)的平臺企業(yè),有效彌補(bǔ)了線下人工調(diào)查缺失部分;②針對提供眾籌、眾包服務(wù)的企業(yè),利用數(shù)據(jù)爬蟲技術(shù)收集和篩選大量網(wǎng)站信息,完成眾籌眾包平臺網(wǎng)站的數(shù)據(jù)源采集和精準(zhǔn)識別,并利用大數(shù)據(jù)處理技術(shù)清洗和整理數(shù)據(jù),構(gòu)建數(shù)據(jù)統(tǒng)計(jì)需要的數(shù)據(jù)表結(jié)構(gòu),建立統(tǒng)計(jì)行業(yè)數(shù)據(jù)倉庫;③針對提供眾扶服務(wù)的企業(yè),更多是在線下開展活動,暫不具備大數(shù)據(jù)識別查找條件。
3.1 開辟了查找、識別眾創(chuàng)企業(yè)的新路徑
根據(jù)國家統(tǒng)計(jì)制度整理出一批有效的爬蟲關(guān)鍵詞,通過網(wǎng)絡(luò)爬蟲技術(shù)抓取各類網(wǎng)站數(shù)據(jù),整理企業(yè)名稱、企業(yè)經(jīng)營范圍、企業(yè)類型、企業(yè)地址和企業(yè)存活狀況等信息。運(yùn)用大數(shù)據(jù)清洗技術(shù),清洗線下人工調(diào)查的“四眾”企業(yè)數(shù)據(jù)和爬蟲技術(shù)取得的全部數(shù)據(jù),提取眾創(chuàng)平臺企業(yè)的特征詞庫。運(yùn)用綜合評分法進(jìn)行企業(yè)評分,得分越高,企業(yè)提供眾創(chuàng)模式的概率越大,再運(yùn)用交叉驗(yàn)證法檢驗(yàn)數(shù)據(jù)預(yù)測的準(zhǔn)確性,通過迭代優(yōu)化和機(jī)器學(xué)習(xí)等方法進(jìn)一步優(yōu)化、完善潛在眾創(chuàng)企業(yè)名單,提高預(yù)測的準(zhǔn)確率。
通過與成都市線下人工調(diào)查企業(yè)數(shù)據(jù)的比對,大數(shù)據(jù)預(yù)測準(zhǔn)確率為72.1%,部分企業(yè)名稱和主營業(yè)務(wù)范圍不含“四眾”特征詞的企業(yè)不能預(yù)測。通過對大數(shù)據(jù)預(yù)測的970家成都市2016年潛在眾創(chuàng)企業(yè)(不包括2015年線下人工調(diào)查部分)進(jìn)行初步人工調(diào)查,能夠短期內(nèi)線下找到的有500家,占51.5%;能夠明確判定為眾創(chuàng)平臺的有115家,占23.0%.由此可以看出,大數(shù)據(jù)技術(shù)開辟了查找、識別眾創(chuàng)企業(yè)的新路徑,使成都市眾創(chuàng)平臺企業(yè)數(shù)由146家增至214家,解決漏統(tǒng)68家,漏統(tǒng)占比46.6%.眾創(chuàng)解決方案整體思路見圖1.
3.2 為輔助統(tǒng)全統(tǒng)準(zhǔn)眾包、眾籌企業(yè)提供補(bǔ)充
利用關(guān)鍵字搜索引擎找到與眾包眾籌企業(yè)相關(guān)的網(wǎng)站,人工調(diào)研、整理出相關(guān)網(wǎng)站列表。以行業(yè)類的主流平臺為參考依據(jù),找到參與眾包、眾籌的服務(wù)商庫,根據(jù)網(wǎng)站提供的詳細(xì)信息,結(jié)合爬蟲技術(shù),對眾包、眾籌企業(yè)信息進(jìn)行抓取。在實(shí)際工作中,利用大數(shù)據(jù)處理技術(shù)將采集到的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),對于數(shù)據(jù)質(zhì)量較差的數(shù)據(jù)源進(jìn)行數(shù)據(jù)整理和清洗,以獲得眾籌眾包平臺企業(yè)的相關(guān)數(shù)據(jù)。眾籌眾包解決方案整體思路如圖2所示。
圖2 眾籌眾包解決方案整體思路示意圖
利用大數(shù)據(jù)技術(shù)爬取全省2016年眾包企業(yè)初步名錄212家、眾籌企業(yè)初步名錄64家,分別比2015年線下調(diào)查多了34家和46家,解決眾包企業(yè)漏統(tǒng)占比16%,眾籌企業(yè)漏統(tǒng)占比71%.大數(shù)據(jù)技術(shù)使得四川省的調(diào)查結(jié)果更加符合全省創(chuàng)業(yè)創(chuàng)新支撐平臺總體發(fā)展水平,為輔助統(tǒng)全統(tǒng)準(zhǔn)眾包、眾籌平臺企業(yè)提供了強(qiáng)有力的補(bǔ)充支持。
3.3 改進(jìn)了“四眾”企業(yè)數(shù)據(jù)采集和處理方式
大數(shù)據(jù)技術(shù)為新經(jīng)濟(jì)統(tǒng)計(jì)提供了一個(gè)信息系統(tǒng),在國家制度框架下開展數(shù)據(jù)采集,能夠消除線下統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的差異性,及時(shí)處理存在的數(shù)據(jù)冗余、空缺、錯(cuò)誤、更新不及時(shí)等問題,并能不斷優(yōu)化數(shù)據(jù)取舍,提高統(tǒng)計(jì)數(shù)據(jù)質(zhì)量。大數(shù)據(jù)技術(shù)能夠精準(zhǔn)識別眾創(chuàng)、眾包、眾籌平臺企業(yè)的基本名錄信息,明確初步調(diào)查對象,減輕基層統(tǒng)計(jì)工作的壓力。同時(shí),在實(shí)際工作中,相關(guān)人員不斷對算法進(jìn)行迭代優(yōu)化,使得模型更加合理、有效。
“四眾”企業(yè)存在跨界、融合、共生、滲透等情況,但是,現(xiàn)行國家制度范圍的界定還不夠明確,導(dǎo)致算法模型在企業(yè)分類過程中沒有統(tǒng)一的標(biāo)準(zhǔn),覆蓋率還不夠高。因此,大數(shù)據(jù)技術(shù)并不能替代線下人工調(diào)查,只能作為補(bǔ)充和參考。
部分企業(yè)為了獲得政府補(bǔ)助,隨意確定企業(yè)名稱、經(jīng)營范圍等,人為增加創(chuàng)業(yè)創(chuàng)新支撐平臺特征詞,但實(shí)際并未提供“四眾”服務(wù),擴(kuò)大了潛在企業(yè)數(shù)據(jù)庫,為線下人工入戶調(diào)查增加了工作量。
受現(xiàn)行工商登記制度的影響,部分企業(yè)搬遷、注銷、死亡,未在工商部門和企業(yè)信息網(wǎng)報(bào)備,從而為精準(zhǔn)識別“四眾”企業(yè)增加了難度。
在日后的工作中,相關(guān)部門要進(jìn)一步吃透國務(wù)院關(guān)于構(gòu)建創(chuàng)業(yè)創(chuàng)新支撐平臺有關(guān)部署精神和國家統(tǒng)計(jì)局“四眾”企業(yè)統(tǒng)計(jì)制度的要求,進(jìn)一步明確“四眾”企業(yè)統(tǒng)計(jì)范圍、測算方法等指標(biāo),提高線上、線下統(tǒng)計(jì)調(diào)查工作的準(zhǔn)確性。
在已有算法和模型的基礎(chǔ)上,建立大數(shù)據(jù)采集和分析信息系統(tǒng),完善大數(shù)據(jù)處理過程的自動化和一體化流程,真正實(shí)現(xiàn)對“四眾”企業(yè)的精準(zhǔn)識別。同時(shí),積極推廣運(yùn)用取得的成效,推動大數(shù)據(jù)技術(shù)在各專業(yè)統(tǒng)計(jì)工作中的運(yùn)用和實(shí)踐。
[1]王麗平,劉小龍.價(jià)值共創(chuàng)視角下眾創(chuàng)空間“四眾”融合的特征與運(yùn)行機(jī)制研究[J].中國科技論壇,2017(03).
[2]陳茫.基于大數(shù)據(jù)的信息生態(tài)系統(tǒng)演變與建設(shè)研究[J].情報(bào)理論與實(shí)踐,2015(03).
〔編輯:白潔〕
F276.44
A
10.15913/j.cnki.kjycx.2017.14.068
2095-6835(2017)14-0068-02