楊健 云南省中小企業(yè)服務(wù)中心
當(dāng)前,將大數(shù)據(jù)用于經(jīng)濟(jì)監(jiān)測(cè)和預(yù)測(cè)已引起了廣泛的關(guān)注,并且由于其在研究中的及時(shí)性,準(zhǔn)確性,相對(duì)較低的成本,較高的粒度和較大的樣本量等優(yōu)點(diǎn),其應(yīng)用已變得越來(lái)越廣泛。大。傳統(tǒng)的監(jiān)測(cè)主要依賴于統(tǒng)計(jì)報(bào)告數(shù)據(jù),這些問(wèn)題包括延遲發(fā)布,采樣準(zhǔn)確性不足以及許多新興行業(yè),它們不屬于統(tǒng)計(jì)范圍,這直接或間接影響宏觀決策的及時(shí)性和科學(xué)性[1]。大數(shù)據(jù)概念和技術(shù)的科學(xué)應(yīng)用,Internet 數(shù)據(jù)資源的挖掘和使用,豐富的統(tǒng)計(jì)數(shù)據(jù)源以及更準(zhǔn)確地監(jiān)視和預(yù)測(cè)經(jīng)濟(jì)運(yùn)行,對(duì)于提高宏觀經(jīng)濟(jì)控制中的科學(xué)決策水平非常重要。
Web 爬網(wǎng)技術(shù),也稱為Web 機(jī)器人或WebSpider,這是一種可以依照相應(yīng)的規(guī)則進(jìn)行信息的收集的相關(guān)程序或者相符的腳步。如果您將Internet 比作蜘蛛網(wǎng),則網(wǎng)絡(luò)爬蟲(chóng)是一種蜘蛛,它可以瀏覽Internet,對(duì)于Internet 上一些網(wǎng)頁(yè)或者相關(guān)的鏈接依照既定的目標(biāo)進(jìn)行有選擇的訪問(wèn),同時(shí)對(duì)于Web 內(nèi)容也可以實(shí)現(xiàn)定時(shí)的讀取,并將讀取過(guò)程中的相關(guān)內(nèi)容進(jìn)行儲(chǔ)存。經(jīng)濟(jì)運(yùn)行數(shù)據(jù)的收集和開(kāi)發(fā)是經(jīng)濟(jì)運(yùn)行監(jiān)控和分析的核心。在如今時(shí)代不斷發(fā)展的背景之下,對(duì)于大數(shù)據(jù)的應(yīng)用越來(lái)越廣泛,因此,在經(jīng)濟(jì)運(yùn)行監(jiān)測(cè)分析工作的過(guò)程中,不但要充分的了解相關(guān)部門的數(shù)據(jù)統(tǒng)計(jì)情況,還要在互聯(lián)網(wǎng)的公共數(shù)據(jù)中不斷的獲得,與經(jīng)濟(jì)運(yùn)行相關(guān)的更多 信息,例如:批量產(chǎn)品價(jià)格信息。上市公司的土地市場(chǎng)供應(yīng)信息,整體的運(yùn)行模式的相關(guān)情況中體現(xiàn)的數(shù)據(jù),以及清楚了解相關(guān)的財(cái)務(wù)報(bào)表數(shù)據(jù)情況。
但是,大多數(shù)此類信息以網(wǎng)頁(yè)形式存在,因此很難直接下載和下載。在遵守適用法律的前提下,網(wǎng)絡(luò)上的大量信息也可以通過(guò)網(wǎng)絡(luò)爬蟲(chóng)進(jìn)行收集,以形成可用于分析和擴(kuò)展經(jīng)濟(jì)運(yùn)營(yíng)信息的數(shù)據(jù)集。集合的寬度和深度。
文本挖掘(TM)是指從大型文本數(shù)據(jù)庫(kù)中提取隱藏信息,先前未知或潛在有用的信息和知識(shí),在線民意分析,產(chǎn)品評(píng)估分析,微博熱點(diǎn)分析,主題前沿分析的過(guò)程。以及相關(guān)政策文本分析。在相關(guān)部委的盡職調(diào)查過(guò)程中,大量的文本數(shù)據(jù)反映了公司的生產(chǎn)和經(jīng)營(yíng)情況,并反映了公司的相關(guān)政策要求和建議,這些數(shù)據(jù)以公司為主要用戶或服務(wù)的目的在相關(guān)部委的工作系統(tǒng)中積累了下來(lái)。與數(shù)字?jǐn)?shù)據(jù)相比,文本數(shù)據(jù)是企業(yè)響應(yīng)的主要形式,它包含更多信息,但是由于數(shù)據(jù)量大,記錄粗糙且處理信息的能力不足,因此挖掘了文本數(shù)據(jù)系統(tǒng)。相對(duì)短缺限制了對(duì)公司反饋信息的深入審查和使用。就經(jīng)濟(jì)運(yùn)行監(jiān)控和分析而言,引入了文本挖掘技術(shù),例如基于LDA 主題模型的文本主題提取和基于樸素貝葉斯算法的文本情感分析,以識(shí)別跡象,趨勢(shì),潛在問(wèn)題和企業(yè)吸引力。通過(guò)研究和判斷分析,定期發(fā)現(xiàn)和分析政府部門的公司監(jiān)控系統(tǒng),調(diào)查系統(tǒng)以及公司對(duì)業(yè)務(wù)研究的反饋的文本信息,以準(zhǔn)確反映各種類型和特定于行業(yè)的困難,上訴主體的變化和情感傾向。我在作為您的研究提供依據(jù)并提出相關(guān)政策建議,以從您的企業(yè)中獲取真誠(chéng)和準(zhǔn)確的意見(jiàn)。
將計(jì)算機(jī)在大量的數(shù)據(jù)中學(xué)習(xí)特定定律的過(guò)程稱之為機(jī)器學(xué)習(xí)。這些定律包括決策樹(shù),隨機(jī)森林,邏輯回歸,支持向量機(jī),樸素貝葉斯相關(guān)分類,關(guān)聯(lián)分析,回歸,聚類等。超過(guò)12 種算法,例如K 近鄰算法,K-means 算法,AdaBoost,神經(jīng)網(wǎng)絡(luò)和Markov。如果政府的治理模式可以通過(guò)應(yīng)用大數(shù)據(jù)來(lái)充分的得到改善,在各個(gè)領(lǐng)域中對(duì)于數(shù)據(jù)的挖掘可以通過(guò)機(jī)器學(xué)習(xí)算法技術(shù)來(lái)更好的獲得有效的信息。因此對(duì)于預(yù)警企業(yè)的生產(chǎn)風(fēng)險(xiǎn)的評(píng)估已經(jīng)很好的應(yīng)用了機(jī)器學(xué)習(xí)算法這一技術(shù),并且發(fā)現(xiàn)泛化是有規(guī)律的。存在共同的問(wèn)題和趨勢(shì),并提取有價(jià)值的數(shù)據(jù),信息和建議,以更好地服務(wù)于政府決策。例如,LM 神經(jīng)網(wǎng)絡(luò)算法和CART醫(yī)生,用于監(jiān)視和預(yù)警企業(yè)生產(chǎn)和運(yùn)營(yíng)風(fēng)險(xiǎn),以保護(hù)員工的注冊(cè),稅務(wù)備案和銷售,納稅,市場(chǎng)監(jiān)督,稅務(wù),人類社會(huì),電力供應(yīng)等部門。
在科學(xué)不斷發(fā)展的背景之下,在經(jīng)濟(jì)的運(yùn)行監(jiān)測(cè)分析中應(yīng)用大數(shù)據(jù)技術(shù)還是存在許多的問(wèn)題以及困難,但是只要結(jié)合科學(xué),對(duì)于這一技術(shù)不斷的提高創(chuàng)新,在分析技術(shù)與分析業(yè)務(wù)之間找到更多的融合點(diǎn),使得經(jīng)濟(jì)運(yùn)行的工作可以和大數(shù)據(jù)技術(shù)完美的結(jié)合起來(lái),為改進(jìn)監(jiān)視和分析經(jīng)濟(jì)運(yùn)行水平提供有力的支持。