李美會(huì)
(湖南環(huán)境生物職業(yè)技術(shù)學(xué)院,湖南 衡陽(yáng) 421005)
創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)屬于低頻金融數(shù)據(jù),創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)冗雜且多元化,在企業(yè)金融量化管理中需要對(duì)創(chuàng)業(yè)金融數(shù)據(jù)進(jìn)行挖掘和特征分析,并結(jié)合相關(guān)算法對(duì)其數(shù)據(jù)采集庫(kù)進(jìn)行建設(shè),有利于區(qū)分其數(shù)據(jù)信息、分門別類、優(yōu)化創(chuàng)新創(chuàng)業(yè)板塊,通過(guò)關(guān)鍵詞搜索等能夠快速進(jìn)行查找,尤其是在提升創(chuàng)業(yè)基金融信息調(diào)度和管理方面具有重要意義。
創(chuàng)新創(chuàng)業(yè)案例數(shù)據(jù)處理主要采用大數(shù)據(jù)技術(shù),并結(jié)合數(shù)據(jù)抓取、采集與分析,從相關(guān)數(shù)據(jù)網(wǎng)(青年創(chuàng)業(yè)網(wǎng)等)獲取相關(guān)數(shù)據(jù)信息,通過(guò)該信息可進(jìn)行相關(guān)判斷,為創(chuàng)業(yè)者提供優(yōu)質(zhì)數(shù)據(jù)和信息。
傳統(tǒng)創(chuàng)新創(chuàng)業(yè)在數(shù)據(jù)挖掘時(shí)往往采用的是隨機(jī)采樣法,調(diào)查結(jié)果雖然具有普遍性,但是與真實(shí)市場(chǎng)出入較大。采用大數(shù)據(jù)處理時(shí),對(duì)其建立起的數(shù)據(jù)庫(kù)和采集的全方位的數(shù)據(jù),更加注重?cái)?shù)據(jù)庫(kù)之間的相關(guān)性分析,從海量數(shù)據(jù)當(dāng)中利用關(guān)聯(lián)規(guī)則和特征提取算法等對(duì)創(chuàng)業(yè)信息進(jìn)行分類,有助于提高創(chuàng)業(yè)者對(duì)創(chuàng)業(yè)板塊的分析能力。
系統(tǒng)的整體框架結(jié)構(gòu)如圖1 所示。系統(tǒng)的數(shù)據(jù)采集庫(kù)的處理框架主要分為數(shù)據(jù)采集和存儲(chǔ),結(jié)合圖1 內(nèi)容,在數(shù)據(jù)采集和儲(chǔ)存當(dāng)中,需要對(duì)平臺(tái)采集數(shù)據(jù)、創(chuàng)新創(chuàng)業(yè)數(shù)學(xué)數(shù)據(jù)等進(jìn)行數(shù)據(jù)集合,為創(chuàng)新創(chuàng)業(yè)大數(shù)據(jù)平臺(tái)提供數(shù)據(jù)源,并對(duì)數(shù)據(jù)進(jìn)行分析,建立有效數(shù)據(jù)庫(kù),即通過(guò)數(shù)據(jù)挖掘、數(shù)據(jù)篩選等內(nèi)容達(dá)到數(shù)據(jù)可視化。
圖1 系統(tǒng)的數(shù)據(jù)采集庫(kù)的處理框架
1.3.1 Apriori 算法
關(guān)聯(lián)規(guī)則定義如下:假設(shè)I={i1,i2,i3,…,im},其中I是項(xiàng)的集合,給定一個(gè)交易數(shù)據(jù)庫(kù);im為第m 項(xiàng)數(shù)據(jù)。D={t1,t2,t3,…,tm},其中每個(gè)事務(wù)t是I的非空子集,即t∈I,每個(gè)交易都與一個(gè)唯一的標(biāo)識(shí)符TID 對(duì)應(yīng)。
概率P(X∩Y):關(guān)聯(lián)規(guī)則在D中的支持度(support)是D中事務(wù)包括X∩Y的百分比;置信度(confidence)是包括X∩Y的百分比。
P(Y|X)為條件概率,表示在X條件下Y的概率,置信度即可靠度,可判斷其關(guān)聯(lián)特征。
關(guān)聯(lián)規(guī)則可對(duì)數(shù)據(jù)進(jìn)行挖掘:1)頻繁項(xiàng)集查詢。2)由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。
Apriori 為逐層搜索的迭代方法,k項(xiàng)集用于探索(k+1)項(xiàng)集。結(jié)合數(shù)據(jù)處理,通過(guò)項(xiàng)集查詢,達(dá)到集合,計(jì)為L(zhǎng)1、L2,可概括為2 項(xiàng)集的集合,L2用于尋找L3,直至達(dá)到k項(xiàng)集。
Apriori 算法可提高頻繁項(xiàng)集的效率,根據(jù)頻繁出現(xiàn)情況進(jìn)行分析,其所有非空子集必須是頻繁的,判斷閾值min_sup與項(xiàng)集I是否滿足。如果I滿足閾值,則I為頻繁,即P(I)<min_sup。項(xiàng)集(即I'A)不可能比I頻繁。兩者皆不頻繁,即P(I'A)<min_sup。
1.3.2 決策樹算法
決策樹(Decision Tree)[1]為分析預(yù)測(cè)模型。結(jié)合決策樹需求,能夠根據(jù)算法采用自上而下的遞歸方式,并結(jié)合屬性進(jìn)行判斷,通過(guò)決策了解其特征屬性,進(jìn)而進(jìn)行數(shù)據(jù)挖掘,形成數(shù)據(jù)分支,這樣能夠解決分類問(wèn)題,達(dá)成預(yù)測(cè),并實(shí)現(xiàn)分類[2]。
一個(gè)簡(jiǎn)單的決策樹實(shí)例如圖2 所示。該決策樹將整個(gè)樣本空間分為2 類,是或否。如果一個(gè)樣本的奧特盧克屬性取值為晴朗且濕度屬性為正常,則該樣本為是;如果一個(gè)樣本的奧特盧克地區(qū)屬性取值為下雨且有風(fēng)屬性為強(qiáng),則該樣本為否。
圖2 決策樹算法
1.3.3 特征選擇算法
特征選擇(Feature Selection)是結(jié)合事物本身共有或相關(guān)特征對(duì)應(yīng)用領(lǐng)域的一個(gè)描述。特征選擇可從N個(gè)原始特征中選擇一個(gè)最小子集,包括M(M≤N),使包括M個(gè)特征的子集中不同類別的概率分布值接近于N個(gè)原始特征。如果FN是原始特征集而FM為選出的特征子集,則可能的類別C條件概率P接近,其中fM和fN為相應(yīng)的特征矢量FM和FN的值矢量。
總的來(lái)說(shuō),特征選擇算法可對(duì)數(shù)據(jù)描述進(jìn)行簡(jiǎn)化,使數(shù)據(jù)收集任務(wù)化繁為簡(jiǎn),進(jìn)而可解決問(wèn)題,提高數(shù)據(jù)集的質(zhì)量。當(dāng)數(shù)據(jù)集特征數(shù)很大,需要對(duì)其進(jìn)行降溫。CFS(Correlationbased Feature Subset)算法[3],即基于相關(guān)性的特征選擇算法。對(duì)連續(xù)變量,CFS 方法用特征子集的得分(Merits)來(lái)衡量其關(guān)聯(lián)度,如公式(1)所示。
式中:k為子集的變量數(shù)[4]為特征子集中所有自變量和目標(biāo)變量之間相關(guān)性的均值為特征子集中自變量?jī)蓛芍g相關(guān)性的均值。
而對(duì)連續(xù)-離散型變量,則需要把連續(xù)變量進(jìn)行離散化處理。如果離散化以后的變量分別為X和Y,則計(jì)算公式如公式(2)、公式(3)所示。
式中:p(y)為y的概率;p(y|x)為在X條件下Y的概率;H(Y)為Y信息熵;H(Y|X)為在X條件下Y的信息熵。
再計(jì)算信息增益(gain),即先驗(yàn)信息熵和后驗(yàn)信息熵的差值,如公式(4)所示。
然后計(jì)算變量之間的均勻不確定度,如公式(5)所示。
如果不確定度越大,則相關(guān)性越小。評(píng)估每個(gè)特征子集中各個(gè)變量之間的相關(guān)性,能夠根據(jù)特征進(jìn)行數(shù)據(jù)分類,更有利于數(shù)據(jù)的處理。
結(jié)合外部庫(kù)調(diào)用,利用pandas itertools 和自帶的time 進(jìn)行數(shù)據(jù)處理,結(jié)合青年創(chuàng)業(yè)網(wǎng)等數(shù)據(jù),輸入“import pandas as pd”進(jìn)行數(shù)據(jù)導(dǎo)入,import itertools as it #子集生成,并進(jìn)行處理,完成數(shù)據(jù)集。
全函數(shù)編寫,由“if __name__ == '__main__':#”導(dǎo)入數(shù)據(jù),data = data.applymap(lambda x: str(x).strip()) # 刪除導(dǎo)入時(shí)可能存在的空格值,例如“教育”成了“ 教育”。最終的數(shù)據(jù)導(dǎo)入在代碼最后,根據(jù)數(shù)據(jù)導(dǎo)入設(shè)定支持度和置信度。
輸出所有Goodlist,事實(shí)上也就是備選頻繁1項(xiàng)集,這個(gè)函數(shù)不太重要,后續(xù)調(diào)用也完全可以替代為別的方式,編寫的目的是便利邏輯過(guò)程的一種方式而已。
2.3.1 項(xiàng)集重組
因?yàn)锳priori 是通過(guò)滿足支持度閾值的頻繁k項(xiàng)集得到備選頻繁k+1 項(xiàng)集合,所以這一個(gè)函數(shù)的目的便是進(jìn)行項(xiàng)集重組和升階化的過(guò)程。這個(gè)不是放在最前面的邏輯,而是預(yù)先編寫,是為了后面直接調(diào)用的準(zhǔn)備工作。可以發(fā)現(xiàn)也都是for 循環(huán),連while 等都不帶。由于導(dǎo)入數(shù)據(jù)選擇的是列表格式,因此后續(xù)工作也都利用list 來(lái)完成,那么list 就需要一直for 循環(huán)調(diào)用,不像dict中直接for item in dict 等方便清晰。
#在關(guān)聯(lián)分析中,頻繁k項(xiàng)集得到備選頻繁k+1 項(xiàng)集合,能夠保證數(shù)據(jù)信息分類準(zhǔn)確。
2.3.2 支持度掃描與輸出
這里就回歸了邏輯線條,該文提供2 種方法,一種是輸出counts,一種是輸出rates,即支持頻數(shù)和支持度的2種衡量辦法,僅供挑選,2 個(gè)函數(shù)沒(méi)什么區(qū)別。本find_rule 函數(shù)用的是counts 函數(shù),如果要換,記得調(diào)整為rates。
#輸出每個(gè)k-項(xiàng)頻繁集的候選集的比率。#輸出每個(gè)k-項(xiàng)頻繁集的候選集的個(gè)數(shù),上有比率寫法,兩者無(wú)本質(zhì)區(qū)別,都可以使用。
def sup_counts(df,data):#輸出每個(gè)1-項(xiàng)頻繁集的候選集的次數(shù)。
2.3.3 根據(jù)最小支持度閾值進(jìn)行減枝葉
Apriori 算法的核心就是通過(guò)剪枝來(lái)減少掃描難度的。因?yàn)榉穷l繁項(xiàng)集的超級(jí)也一定不頻繁。
#得到滿足最小支持度閾值的關(guān)聯(lián)規(guī)則(find——rule of min-sup-rate item)。
if dt[j][-1] >= min_suprate*n: ##減枝過(guò)程。
2.3.4 對(duì)每個(gè)頻繁項(xiàng)集進(jìn)行子集拆分計(jì)算confi 和rule挖掘
這個(gè)函數(shù)也是一個(gè)中間函數(shù)和預(yù)備工作。前提是頻繁項(xiàng)集,如果不是的話,數(shù)量可能會(huì)非常多,很難挖掘和通過(guò)Good_list 清單來(lái)生成所有的1/2/3/.../k項(xiàng)備選頻繁集,即Apriori 算法的核心。
def Ksubset_get(df): #獲得非空子集。
結(jié)合Find_rule,選擇list 進(jìn)行數(shù)據(jù)處理,結(jié)合事物總數(shù)獲得關(guān)聯(lián)規(guī)則的重組,得到置信度,了解數(shù)據(jù)處理情況。決策樹算法能夠讀取數(shù)據(jù)集合,構(gòu)建類似于如圖3 所示的決策樹。決策樹可厘清數(shù)據(jù)中所蘊(yùn)含的知識(shí)信息,本數(shù)據(jù)采集庫(kù)建設(shè)時(shí),該文對(duì)其創(chuàng)業(yè)種類進(jìn)行了劃分,因此決策樹可以對(duì)數(shù)據(jù)集合進(jìn)行劃分和機(jī)器學(xué)習(xí)。例如對(duì)食品生產(chǎn)行業(yè)屬性進(jìn)行劃分時(shí),根據(jù)形態(tài),可劃分為休閑零食屬性和飲料行業(yè),在進(jìn)行更細(xì)的劃分,確定創(chuàng)業(yè)類型。
圖3 決策樹
輸出結(jié)果,結(jié)果統(tǒng)計(jì)表見表1。根據(jù)表1,結(jié)合決策樹分析,并通過(guò)編程可以看到,輸入支持度和置信度0.3,0.3,整個(gè)程序confi 值可以輸出,其結(jié)果大于0.7,說(shuō)明相關(guān)度高,數(shù)量建設(shè)具有可靠性。例如食品生產(chǎn)行業(yè)和飲品飲料相關(guān)度高,說(shuō)明可以根據(jù)相關(guān)度進(jìn)行種類分析,進(jìn)而對(duì)創(chuàng)業(yè)種類進(jìn)行劃分,了解目前創(chuàng)業(yè)情況,為創(chuàng)業(yè)發(fā)展做準(zhǔn)備。另外整個(gè)程序的運(yùn)行速度還是比較快的,加入更多的good 和tid 之后,可以保持較快的輸出速度。數(shù)值為0.00099945068359375,能夠有效進(jìn)行數(shù)據(jù)庫(kù)建設(shè)。
表1 結(jié)果統(tǒng)計(jì)表
創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)可反映創(chuàng)業(yè)開展的狀況,該文結(jié)合Apriori 算法、決策樹算法以及特征選擇算法,實(shí)現(xiàn)了企業(yè)創(chuàng)業(yè)期金融數(shù)據(jù)的采集。并對(duì)其支持度和置信度進(jìn)行設(shè)置,數(shù)值為0.3 和0.3,其置信度數(shù)值均超過(guò)0.7,置信度強(qiáng),說(shuō)明數(shù)據(jù)庫(kù)建設(shè)具有可靠性。創(chuàng)業(yè)者可對(duì)創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘和分析,并對(duì)這些量化數(shù)據(jù)進(jìn)行研究,進(jìn)而提高創(chuàng)業(yè)成功率。