謝俊杰 謝穎 梁照文
摘要:數(shù)據(jù)是數(shù)字時(shí)代“信息石油”,足以說(shuō)明數(shù)據(jù)對(duì)于生活在互聯(lián)網(wǎng)時(shí)代人們的重要性。數(shù)據(jù),就是人們?cè)谌粘I睢⑸鐣?huì)發(fā)展等過(guò)程中計(jì)算、觀察到的信息。數(shù)據(jù)思維則是利用數(shù)學(xué)作為工具,對(duì)具體的問(wèn)題開(kāi)展數(shù)據(jù)分析的思考過(guò)程。在計(jì)算機(jī)高速發(fā)展的現(xiàn)代,利用海量的數(shù)據(jù)來(lái)模擬多元化場(chǎng)景下的實(shí)際問(wèn)題,從而選擇最佳的解決方案,可以運(yùn)用到各行各業(yè),本文的應(yīng)用場(chǎng)景則是對(duì)進(jìn)口產(chǎn)品質(zhì)量做趨勢(shì)預(yù)測(cè)。
關(guān)鍵詞:數(shù)據(jù) ?思維 ?趨勢(shì)預(yù)測(cè)
1.什么是數(shù)據(jù)思維
我們古人有云:“早晨下雨當(dāng)日晴,晚上下雨到天明”、“蜻蜓千百繞,不日雨來(lái)到”,這些都是古代勞動(dòng)人民在日常生活中觀察自然氣象并加以總結(jié)得出的樸素結(jié)論,而本文所談的數(shù)據(jù)思維就是人們基于數(shù)學(xué)思想解決實(shí)際問(wèn)題的一種思路。
在上文例舉的自然現(xiàn)象,需要人們用眼睛觀察后記錄總結(jié)。在信息化高度發(fā)達(dá)的現(xiàn)代,這些數(shù)據(jù)可以交由計(jì)算機(jī)來(lái)完成。但其實(shí)無(wú)論是人類還是電腦,都是通過(guò)觀察、分析數(shù)據(jù)從而得到某種規(guī)律,區(qū)別在于后者在前者的基礎(chǔ)上使用固式化的數(shù)學(xué)模式和算法來(lái)進(jìn)行分析。例如圍棋自古有之,經(jīng)過(guò)人們不斷總結(jié)完善,世代傳承下已經(jīng)積累很多的“棋譜”。但人的大腦思維和記憶能力畢竟有限,雖然可以計(jì)算出非常多場(chǎng)景下對(duì)手的“套路”,但對(duì)于應(yīng)對(duì)極限數(shù)量等場(chǎng)景,計(jì)算機(jī)計(jì)算能力就被放大,甚至可以擊敗世界上最頂尖的棋手。
2.數(shù)據(jù)思維的應(yīng)用場(chǎng)景
得益于計(jì)算機(jī)對(duì)海量數(shù)據(jù)的處理能力,人們?cè)谏鐣?huì)發(fā)展和工業(yè)生產(chǎn)過(guò)程中也有可能實(shí)現(xiàn)精準(zhǔn)預(yù)測(cè)和有效管理。例如市場(chǎng)流通產(chǎn)品質(zhì)量風(fēng)險(xiǎn)檢查布控管理。在最原始的風(fēng)險(xiǎn)布控階段,由于缺乏真實(shí)數(shù)據(jù),管理者只能按照產(chǎn)品本身屬性特點(diǎn)來(lái)進(jìn)行安全環(huán)保衛(wèi)生等要素來(lái)檢驗(yàn)布控。隨著后續(xù)監(jiān)管中發(fā)現(xiàn)的問(wèn)題數(shù)據(jù)源源不斷地充盈數(shù)據(jù)庫(kù),管理層注意到不同的產(chǎn)品在檢查列表中體現(xiàn)的質(zhì)量趨勢(shì)也不盡相同,于是就將不同產(chǎn)品的檢查行為分成了不同的表單(檢查頻次、檢查內(nèi)容等)給到了一線執(zhí)法人員。進(jìn)而,管理成會(huì)將表單劃分后的產(chǎn)品質(zhì)量數(shù)據(jù)信息收集起來(lái),利用計(jì)算機(jī)的分析能力來(lái)預(yù)測(cè)產(chǎn)品質(zhì)量趨勢(shì)從而可以做到有針對(duì)性地對(duì)市場(chǎng)流通產(chǎn)品質(zhì)量風(fēng)險(xiǎn)布控,這就是最基本的各管理部門(mén)使用的風(fēng)險(xiǎn)布控系統(tǒng)的原型框架
3.如何使用數(shù)據(jù)思維對(duì)產(chǎn)品質(zhì)量趨勢(shì)進(jìn)行預(yù)測(cè)
同樣的,在學(xué)科管理領(lǐng)域也可以使用數(shù)據(jù)思維來(lái)解決各類問(wèn)題。比如,地級(jí)市的某類進(jìn)口產(chǎn)品的質(zhì)量趨勢(shì)一般是無(wú)法直接應(yīng)用到整個(gè)此類進(jìn)口產(chǎn)品上的,這個(gè)質(zhì)量趨勢(shì)僅適用于某個(gè)地域、某個(gè)時(shí)間段的情形,這是由于數(shù)據(jù)豐度的局限。但從數(shù)據(jù)思維的角度來(lái)考慮,可能預(yù)測(cè)者的數(shù)學(xué)模型和算法并非有問(wèn)題,而只是缺乏其他地區(qū)產(chǎn)品的數(shù)據(jù)而已。由于海關(guān)總署本身的統(tǒng)計(jì)職責(zé),可以通過(guò)系統(tǒng)收集進(jìn)口產(chǎn)品使用前的質(zhì)量數(shù)據(jù)。但對(duì)于產(chǎn)品其他生命周期中的質(zhì)量反饋,就需要依靠其他渠道。監(jiān)管部門(mén)可以通過(guò)線上反饋、爬蟲(chóng)等手段收集和分析大量的產(chǎn)品使用中、多次返修使用、產(chǎn)品失效等階段的產(chǎn)品質(zhì)量數(shù)據(jù)。首先,這些海量數(shù)據(jù)會(huì)被全部保留在數(shù)據(jù)庫(kù);然后,我們可以根據(jù)不同的質(zhì)量問(wèn)題類別進(jìn)行劃分;最后,即使采集的數(shù)據(jù)中存在不同級(jí)別的誤差,但也可以利用數(shù)據(jù)庫(kù)中大量數(shù)據(jù)的“投票”功能來(lái)選擇一個(gè)誤差較小的“質(zhì)量趨勢(shì)”1。在當(dāng)前階段,計(jì)算機(jī)理論上是可以基于數(shù)據(jù)來(lái)預(yù)測(cè)產(chǎn)品質(zhì)量問(wèn)題的趨勢(shì)。
特別需要注意的是,我們?cè)谶@里強(qiáng)調(diào)的是抓住產(chǎn)品質(zhì)量問(wèn)題的相關(guān)性就能做出預(yù)測(cè),并不意味著可以用相關(guān)性來(lái)推導(dǎo)因果關(guān)系,因?yàn)橄嚓P(guān)性和因果性之間并沒(méi)有必然關(guān)系。假設(shè)原因A和原因B都是問(wèn)題C的結(jié)果,當(dāng)問(wèn)題C出現(xiàn)時(shí),原因A和B都會(huì)發(fā)生,所以看起來(lái)原因A和B是具有相關(guān)性的,但是這并不能說(shuō)明原因A和B具有因果聯(lián)系。例如,某產(chǎn)品A進(jìn)口數(shù)量越多,則某進(jìn)口產(chǎn)品B標(biāo)簽不全的問(wèn)題越多,從數(shù)據(jù)上看,這兩者是相關(guān)的,但是從常識(shí)來(lái)看,兩者之間的因果關(guān)系結(jié)論是極其不符合邏輯的。實(shí)際上,產(chǎn)品A進(jìn)口數(shù)量增多是因?yàn)閲?guó)家降低了入境稅率,而進(jìn)口關(guān)稅降低同樣也使得產(chǎn)品B的數(shù)量增加而導(dǎo)致標(biāo)簽問(wèn)題增多。但是,這個(gè)質(zhì)疑是否成立其實(shí)取決于我們的應(yīng)用。如果我們的應(yīng)用只是做預(yù)測(cè),而不是探尋因果關(guān)系,那么可能不會(huì)有太大的問(wèn)題:即我們不會(huì)為了對(duì)外通過(guò)發(fā)布警示通報(bào)、加大查驗(yàn)率同時(shí)要求企業(yè)提高產(chǎn)品B的質(zhì)量,而去限制A的進(jìn)口。我們只是通過(guò)觀察得到,今年A的進(jìn)口數(shù)量比往年有所增加,那么如果其他因素沒(méi)有改變的話,那么可以預(yù)測(cè)出今年B的標(biāo)簽質(zhì)量會(huì)比往年要高。把上述兩個(gè)問(wèn)題N次方化,如果用
xi=(i=0,1,2…,n)表示問(wèn)題i出現(xiàn)的次數(shù),用y來(lái)表示等式的值,假設(shè)
y=k0*x0+k1*x1+…+kn*xn,(1)
其中,k0,k1,k2…kn是待定系數(shù),需要通過(guò)已知等式來(lái)確定。當(dāng)ki=(i=0,1,2…,n)得到之后,對(duì)于任意給出的n個(gè)數(shù),代入方程(1)即可求出其值。
值得注意的是,人的判斷和計(jì)算機(jī)的唯一的區(qū)別在于,人可以得到i并且分析“ki”這種質(zhì)量趨勢(shì)產(chǎn)生的原因,但是計(jì)算機(jī)雖然也能得到i值卻無(wú)法解釋ki這條“趨勢(shì)線”和外部因素之間的因果關(guān)系。
4.提高數(shù)據(jù)思維場(chǎng)景應(yīng)用的成功率
人們是根據(jù)一些相對(duì)少量的數(shù)據(jù)和參數(shù)較少的模式識(shí)別來(lái)記憶和搜索,而計(jì)算機(jī)則是通過(guò)大規(guī)模的數(shù)據(jù)、儲(chǔ)存和計(jì)算來(lái)處理的。計(jì)算機(jī)的優(yōu)勢(shì)之處在于有更強(qiáng)大的儲(chǔ)存和計(jì)算能力。所以在某些領(lǐng)域中,計(jì)算機(jī)能夠做得和人類差不多甚至超過(guò)人類的前提條件是,使用更加大量的數(shù)據(jù)和更高維的參數(shù)空間(式子1中的ki),來(lái)彌補(bǔ)計(jì)算機(jī)“智商”上的不足。因此,為了更好地利用計(jì)算機(jī)進(jìn)行數(shù)據(jù)分析和預(yù)測(cè),有兩個(gè)特別重要的因素:盡可能使用多的數(shù)據(jù),而不是抽樣數(shù)據(jù),同時(shí)使用更高維的參數(shù)空間。為什么要盡可能多的使用數(shù)據(jù)?雖然利用抽樣可以通過(guò)較少的數(shù)據(jù)和計(jì)算資源去獲取更多的信息,但采取隨機(jī)抽樣必然會(huì)存在信息損失,尤其是一些小概率事件在抽樣的過(guò)程中會(huì)被遺漏。隨著計(jì)算機(jī)計(jì)數(shù)的迅猛發(fā)展,計(jì)算處理能力已經(jīng)不是制約人們的瓶頸時(shí),就可以使用全量數(shù)據(jù),這樣不僅可以很好的預(yù)測(cè)大概率事件,還能精確地預(yù)測(cè)小概率事件,從整體上提高決策的精準(zhǔn)度。
參考文獻(xiàn):
[1]張平文.大數(shù)據(jù)建模方法[M].北京:高等教育出版社,2019,1:33