□曹海波
統(tǒng)計(jì)數(shù)據(jù)是統(tǒng)計(jì)工作活動(dòng)過程中所取得的反映國民經(jīng)濟(jì)和社會(huì)現(xiàn)象的數(shù)字資料及與之相聯(lián)系的其他資料的總稱,除了最直觀的統(tǒng)計(jì)數(shù)字、統(tǒng)計(jì)圖表之外,與各類文字、說明情況等也直接相關(guān)。以筆者從事的工業(yè)生產(chǎn)者價(jià)格調(diào)查為例,月度報(bào)表中企業(yè)填寫的出廠、購進(jìn)產(chǎn)品規(guī)格價(jià)格超限(波動(dòng)超過5%)說明,信息量就在200 條左右,如何充分發(fā)掘這些文字信息的效用是本文嘗試研究的內(nèi)容。
量化一切,是數(shù)據(jù)化的核心,也是大數(shù)據(jù)時(shí)代的基石。統(tǒng)計(jì)工作中接觸的各類文字說明,由于文字表述的復(fù)雜性、表達(dá)方式的不統(tǒng)一,記錄方式的多樣化、多次記錄甚至是重復(fù)記錄等因素,會(huì)給統(tǒng)計(jì)人員在運(yùn)用這些信息時(shí)增加明顯工作量,在準(zhǔn)確關(guān)聯(lián)這些信息時(shí)把握前后邏輯的一致上造成困擾。將文字化為數(shù)據(jù),本質(zhì)上是剔除文字說明中的主觀因素,提取核心客觀因素的過程,如同已經(jīng)存在的企業(yè)名稱對(duì)應(yīng)統(tǒng)一社會(huì)信用識(shí)別碼、企業(yè)所處的地址對(duì)應(yīng)的行政區(qū)劃代碼、企業(yè)所處行業(yè)對(duì)應(yīng)的統(tǒng)計(jì)行業(yè)代碼等,可視為統(tǒng)計(jì)工作與大數(shù)據(jù)時(shí)代進(jìn)一步接軌的嘗試,可更好地履行統(tǒng)計(jì)監(jiān)測(cè)職能,提供更為優(yōu)質(zhì)統(tǒng)計(jì)服務(wù)。
一是可歸類、可比較。文字?jǐn)?shù)據(jù)化可以直觀地歸類匯總問題、監(jiān)測(cè)趨勢(shì),通過統(tǒng)一分類和編碼尋找同地區(qū)、同行業(yè)之間共性問題和趨勢(shì),推動(dòng)不同行業(yè)間共性問題和趨勢(shì)的歸類互認(rèn);通過統(tǒng)一分類和編碼尋找跨地區(qū)、跨行業(yè)之間的個(gè)性問題、不同趨勢(shì),推動(dòng)個(gè)性問題、不同趨勢(shì)在跨地區(qū)間、跨行業(yè)間的比較。
二是可監(jiān)測(cè)、可回溯。文字?jǐn)?shù)據(jù)化可以強(qiáng)化數(shù)據(jù)核查力度,綜合了解企業(yè)生產(chǎn)經(jīng)營狀況、原材料購進(jìn)價(jià)格與出廠價(jià)格波動(dòng)之間的聯(lián)系、市場(chǎng)需求等方面存在的新情況和新問題,以及產(chǎn)品價(jià)格變動(dòng)趨勢(shì)、政策變化對(duì)企業(yè)的影響等情況,準(zhǔn)確掌握規(guī)格品的價(jià)格變化動(dòng)向及真實(shí)原因。對(duì)同企業(yè)、同行業(yè)的產(chǎn)品價(jià)格波動(dòng)原因進(jìn)行長期監(jiān)測(cè),進(jìn)行深入研究,進(jìn)而摸索產(chǎn)業(yè)鏈上價(jià)格傳導(dǎo)機(jī)制。
三是可拓展、可創(chuàng)新。文字?jǐn)?shù)據(jù)化有利于開展大數(shù)據(jù)分析運(yùn)用,發(fā)掘統(tǒng)計(jì)調(diào)查中各種文字說明的更大作用。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的價(jià)值不僅僅是特定目的的使用,更大的價(jià)值在于數(shù)據(jù)創(chuàng)新,在于這些數(shù)據(jù)的再利用、重組、擴(kuò)展創(chuàng)新出的新用途。例如商店里的監(jiān)控器,最開始的初衷是監(jiān)視扒手。但是后來可以通過跟蹤客戶流和他們停留的信息,設(shè)計(jì)店面的最佳布局并判斷營銷活動(dòng)的有效性。
整理匯總近幾年月度報(bào)表說明,通過TF-IDF 算法進(jìn)行關(guān)鍵詞提取。TF-IDF 算法:用于反映一個(gè)詞對(duì)于某篇文檔的重要性。濾掉常見的詞語,保留重要的詞語。如果某個(gè)詞在一篇文檔中出現(xiàn)的頻率高,則TF 高;并且在其他文檔中很少出現(xiàn),則IDF高。TF-IDF 就是將二者相乘為TF*IDF,這樣這個(gè)詞具有很好的類別區(qū)分能力。在jieba 用以下代碼實(shí)現(xiàn)(圖1):
將通過算法提取的關(guān)鍵詞進(jìn)行進(jìn)一步篩選。并按照性質(zhì)進(jìn)行分類。我們暫且把企業(yè)的說明情況(Ni,i 為從1 開始的自然數(shù),下同)假設(shè)為三維模式,即造成價(jià)格波動(dòng)的原因(bi)、原因的存續(xù)時(shí)間(ti)和造成價(jià)格波動(dòng)的結(jié)果(ri)。價(jià)格波動(dòng)原因類的“訂 單”“上 游”“需 求”“市 場(chǎng)”“終端”等,原因的前序時(shí)間“上月”“今年以來”“上季度”等,價(jià)格波動(dòng)結(jié)果的“上漲”“上升”“下跌”“下降”等。當(dāng)然,也可以進(jìn)一步增設(shè)維度,比如價(jià)格波總結(jié)果的影響范圍、影響預(yù)期時(shí)間等等。
圖1 代碼
FIND (find_text,within_text,start_num),其中括號(hào)內(nèi)的“find_text”表示我們要查找的字符串。“within_text”表示要超找的區(qū)域,也就是需要在哪個(gè)單元格內(nèi)查找“find_text”;“start_num”指定開始進(jìn)行查找的字符數(shù)。比如“start_num”為1,則從單元格內(nèi)第一個(gè)字符開始查找關(guān)鍵字。如果忽略“Start_num”,則假設(shè)其為1。具體結(jié)果(見圖2):
圖片中,數(shù)字“1”、“20”、“50”分別代表在文本中第1 個(gè)字符開始出現(xiàn)“今年以來”、第20 個(gè)字符開始顯示“需求”、第“50”個(gè)字符顯示“下降”。
每一條情況說明對(duì)應(yīng)的數(shù)字化編碼為Ni,Ni=bitiri,(見圖3)
圖片中,序號(hào)1 的文字說明對(duì)應(yīng)編碼為t1b1(b4)r2,解讀成“今年以來的需求(終端)原因?qū)е聝r(jià)格下降”;序號(hào)2 的文字說明對(duì)應(yīng)編碼為t1b1(b5)r2,解讀為“今年以來的需求(市場(chǎng))原因?qū)е聝r(jià)格下降”。
一是同報(bào)表跨期限的文字說明整理。由于文字表述的復(fù)雜性,同樣的問題說明由不同的人員來提供會(huì)出現(xiàn)不同的表述,有效的核心信息往往隱藏在較長篇幅的大段文字中,轉(zhuǎn)化成數(shù)據(jù)的形式可以有效地剔除無用的信息,以最高效的方式提供核心信息。拉長時(shí)間跨度來看,以標(biāo)準(zhǔn)的數(shù)據(jù)化形式出現(xiàn)的每月報(bào)表說明中的核心信息,有利于統(tǒng)計(jì)人員匯總、比較,發(fā)現(xiàn)運(yùn)行趨勢(shì)。
二是跨報(bào)表運(yùn)用。通過統(tǒng)一的編碼將同一企業(yè)不同報(bào)表之間的文字情況進(jìn)行標(biāo)準(zhǔn)化關(guān)聯(lián),更加容易審核、把握、厘清其中的邏輯關(guān)系,把握好企業(yè)、行業(yè)的運(yùn)行態(tài)勢(shì)。工業(yè)生產(chǎn)者價(jià)格調(diào)查中,與企業(yè)相關(guān)的文字說明除了月度的超限說明以外,還有很多其他渠道,比如日常與企業(yè)的數(shù)據(jù)核實(shí)記錄等等,通過將文字編碼化處理,將同一企業(yè)不同來源、不同表述的文字進(jìn)行標(biāo)準(zhǔn)化,可以起到印證參考的作用,也更便于發(fā)現(xiàn)前后邏輯不一致的情況。
一是文字說明源頭的精確性把握。本文所討論的文字說明的主要來源為企業(yè)人員提供的素材,精確性目前依然有所欠缺。一方面在于統(tǒng)計(jì)人員對(duì)市場(chǎng)情況不夠了解;另一方面在于企業(yè)統(tǒng)計(jì)負(fù)責(zé)人沒有對(duì)每期報(bào)表進(jìn)行過問審核,價(jià)格變動(dòng)趨勢(shì)是否符合市場(chǎng)規(guī)律及市場(chǎng)行情,報(bào)表數(shù)據(jù)審核工作有所欠缺。企業(yè)對(duì)統(tǒng)計(jì)工作重視不足,審核工作僅限于程序中簡單提示審核,對(duì)價(jià)格數(shù)據(jù)超限的說明,描述簡單沒有深入挖掘,不能做到對(duì)于每個(gè)審核背后存在的問題進(jìn)行審核,不能詳細(xì)說明價(jià)格變動(dòng)的原因。
二是代表性和推廣使用問題。從蘇州的工業(yè)生產(chǎn)者價(jià)格調(diào)查來看,月度需要填寫超限說明的產(chǎn)品數(shù)量占全部調(diào)查產(chǎn)品的比重10%左右。對(duì)此類文字說明進(jìn)行數(shù)據(jù)化編碼雖然可以更為直觀地對(duì)同企業(yè)、同行業(yè)的產(chǎn)品價(jià)格波動(dòng)原因進(jìn)行監(jiān)測(cè),但是無論從樣本的代表性和當(dāng)前的技術(shù)手段來看,所起到的作用僅停留在與指數(shù)中的行業(yè)趨勢(shì)、與行業(yè)所處的市場(chǎng)趨勢(shì)相互印證。實(shí)效性有待更多跨報(bào)表關(guān)聯(lián)使用甚至是跨專業(yè)使用后的結(jié)果檢驗(yàn),這就需要大數(shù)據(jù)技術(shù)在統(tǒng)計(jì)部門的進(jìn)一步推廣應(yīng)用。
圖2 關(guān)鍵詞
圖3 編碼組合
一是夯實(shí)業(yè)務(wù)基礎(chǔ)。將統(tǒng)計(jì)調(diào)查信息、企業(yè)報(bào)表與價(jià)格數(shù)據(jù)質(zhì)量聯(lián)動(dòng)研究,發(fā)現(xiàn)苗頭性問題及時(shí)開展有針對(duì)性的專題調(diào)研,帶著問題訪問企業(yè),同時(shí)搜集鮮活資料,對(duì)有關(guān)經(jīng)濟(jì)數(shù)據(jù)進(jìn)行深入解讀,揭示經(jīng)濟(jì)運(yùn)行中的矛盾和潛在問題,不斷提高對(duì)宏觀經(jīng)濟(jì)形勢(shì)的分析研究和預(yù)測(cè)預(yù)判能力。
二是增加統(tǒng)計(jì)調(diào)查服務(wù)供給。統(tǒng)計(jì)調(diào)查的原始資料是大量的數(shù)據(jù)和素材,要反映出潛在的問題,解釋出問題的實(shí)質(zhì),就要將專業(yè)知識(shí)與工作實(shí)踐進(jìn)行有機(jī)結(jié)合,從全局出發(fā),抓住重點(diǎn)、熱點(diǎn)、難點(diǎn),運(yùn)用專業(yè)統(tǒng)計(jì)分析方法,進(jìn)行“去粗存精,去偽存真,由此及彼,由表及里”的統(tǒng)計(jì)分析過程,從中發(fā)現(xiàn)問題,找出規(guī)律。積極主動(dòng)向黨政領(lǐng)導(dǎo)匯報(bào)情況和問題,提出解決問題的合理化建議或措施,從而使統(tǒng)計(jì)調(diào)查由事后反映變?yōu)槭虑邦A(yù)測(cè)分析,提供常態(tài)化決策參考。
三是拓展大數(shù)據(jù)技術(shù)、大數(shù)據(jù)思維的應(yīng)用范圍?!敖y(tǒng)計(jì)大數(shù)據(jù)就是統(tǒng)計(jì),是新時(shí)代、新時(shí)期和新的技術(shù)條件下的統(tǒng)計(jì)?!贝髷?shù)據(jù)時(shí)代就在當(dāng)下,統(tǒng)計(jì)系統(tǒng)要推進(jìn)以大數(shù)據(jù)運(yùn)用為核心的統(tǒng)計(jì)信息化體系融合,加強(qiáng)對(duì)現(xiàn)有統(tǒng)計(jì)數(shù)據(jù)資源資產(chǎn)化管理和大數(shù)據(jù)挖掘分析應(yīng)用,強(qiáng)化系統(tǒng)整合、數(shù)據(jù)融合、服務(wù)集合,推進(jìn)數(shù)據(jù)采集整合、綜合應(yīng)用、關(guān)聯(lián)分析和安全管理,促進(jìn)政府統(tǒng)計(jì)數(shù)字化轉(zhuǎn)型,為建立統(tǒng)計(jì)大數(shù)據(jù)奠定基礎(chǔ)。