王 燦
(成都師范學院數(shù)學系,四川 成都 611130)
城市發(fā)展的動力是科技,科技的載體是人才。因此,一個城市的人才引進機制的建立直接關系到這個城市發(fā)展的前景;對于一個城市的管理者如何制定科學合理的人才引進機制直接關乎這個城市的發(fā)展。然而對于一個人選擇就業(yè)區(qū)域就存在諸多影響因素,城市的管理者必須從這些紛繁的影響因素中能夠快速、準確地作出判斷。影響人才去留的因素包括國民經(jīng)濟核算、職工工資、資產投資、環(huán)境、物價、生活保障、產業(yè)分布、交通通訊、旅游、對外貿易、教育科技、文化體育等。因此,對高端人才的就業(yè)流向區(qū)域及其因素的研究就迫在眉睫。通過計算機智能,對海里的數(shù)據(jù)進行精確的處理,挖掘出有用的信息,為管理者決策提供有力的數(shù)據(jù)支持,刻不容緩。
關聯(lián)規(guī)則挖掘近來在算法的研究生越來越受重視,挖掘算法的健壯性和效率影響著關聯(lián)規(guī)則挖掘的實際應用。隨著關聯(lián)規(guī)則挖掘研究和應用的不斷深入,提出了許多關聯(lián)規(guī)則挖掘的理論和算法,其中比較經(jīng)典的當屬Apriori算法和FP-growth算法,并在此基礎上分支出了各種各樣的算法。
R.Agrawal等人于1994年提出了挖掘交易數(shù)據(jù)庫中項目集之間關聯(lián)規(guī)則的Apriori算法。Apriori算法是研究關聯(lián)規(guī)則中具有代表性的方法,也是最早用于解決關聯(lián)規(guī)則問題的算法。
Apriori算法基于兩階段生成頻繁項目集的思想,是通過挖掘頻繁項目集啦挖掘關聯(lián)規(guī)則的特有影響的算法。該算法是一種寬度優(yōu)先算法,采用迭代的逐層搜索方法,生成特定的候選項目集,并對數(shù)據(jù)庫進行掃描計數(shù),確定出是否頻繁項目集。
在迭代搜索過程中,首先找出頻繁1-項集F1,用F1找頻繁2-項集集合F2,用F2找F3,依次循環(huán),直到不能找到頻繁K-項集為止,找每個Fk需要一次數(shù)據(jù)庫掃描。Apriori算法在首次初始化時,直接遍歷數(shù)據(jù)集合可以找到頻繁的1-項集集合F1;算法在第k(k>2)此迭代中,依據(jù)程序上一個迭代過程獲取的項集結果Fk-1,迭代除本次候選項集的頻繁集合Ck,然后為Ck中的每個結果賦值為0的計數(shù)器,然后遍歷數(shù)據(jù)庫D中的所有元素,找到屬于所有的事務并存在于Ck的項集,程序更改計數(shù)器的值,當所有事務都遍歷完成后,那么可以得到Ck中所有項集的支持度,根據(jù)事務數(shù)據(jù)庫D中包含事務和輸入的程序參數(shù)Ck里面的頻繁集合。具體算法如下:
輸入:事務數(shù)據(jù)庫D,最小的支持度閾值minsup。
輸出:D中的多次出現(xiàn)項集F。
第一步產生頻繁項目集
第二步 產生頻繁K-項目集
第三步 掃描子集,形成頻繁項目候選集
掃描事務數(shù)據(jù)庫D對每個候選K-項目集計數(shù),達到最小支持度的頻繁候選K-項目集成為頻繁k-項目集。
Apriori算法演示
(1)首先掃描事務是數(shù)據(jù)庫,統(tǒng)計各個數(shù)據(jù)項的支持度計數(shù),并生成頻繁1-項集Fi,設最小支持度計數(shù)為2。
(2)在第二步,依據(jù)已經(jīng)有的性質,所有不包含頻繁度集合的項是不會存在頻繁度集合的。因此應該刪除掉,這樣可以減少程序處理的數(shù)據(jù)量,提高程序的運行速度。
(3)利用散列樹,管理海量的候選項目,能夠大大提高檢索的速度。Apriori算法生成的候選的數(shù)據(jù)集合,需要遍歷事務數(shù)據(jù)庫D,統(tǒng)計候選數(shù)據(jù)項集的支持度。為了提高性能,候選數(shù)據(jù)項集集合Ck被存儲到一個可擴充的散列樹中。
本文主要以2007-2014年,非川籍大學校畢業(yè)生為統(tǒng)計對象,通過對工資待遇、交通狀況、戶籍制度、房價、教育、醫(yī)療、生存環(huán)境、產業(yè)分布等因素進行定量分析,從而得出影響非川籍大學畢業(yè)生去留的選擇因素。
關聯(lián)規(guī)則挖掘算法的實現(xiàn)過程為:在關聯(lián)規(guī)則對話框中選擇需要挖掘的數(shù)據(jù)庫,即選擇已建立的數(shù)據(jù)字典表的級別,然后在下面的數(shù)據(jù)挖掘參數(shù)復選框中選擇相應的挖掘參數(shù),即支持度計數(shù),也可以直接選擇默認參數(shù)設置,然后點擊“運行”按鈕,進行關聯(lián)規(guī)則數(shù)據(jù)挖掘.
圖1 影響因素關聯(lián)規(guī)則挖掘實現(xiàn)過程
在算法實現(xiàn)程序中,根據(jù)數(shù)據(jù)表、字典表、結果表的建立,在過程中尋找變量大于7的因素,并按出現(xiàn)的置信度進行先后順序的排列。其中地區(qū)是按照凈遷移率額所屬類別排列,因素類別包含字典表中的各個屬性變量.得到進一步的結果如下表:
表1 關聯(lián)規(guī)則挖掘結果表
上述關聯(lián)挖掘規(guī)則得到的數(shù)據(jù)表明:影響非川籍大學生去留的因素,主要是生活保障以及生存環(huán)境方面;但是從表可以看出,影響因素不斷從單一因素向綜合因素轉變,即不僅僅是某一兩個因素,而是多個因素在起作用,從而提前我們要想留住人才,必須時刻不忘提高我們的綜合實力。
[1]中國國家統(tǒng)計局信息網(wǎng).統(tǒng)計局:全國總人口13.39億[J].地理教學,2011(10).
[2]姜啟源..數(shù)學模型[M].3版.北京:高等教育出版社,2003.
[3]杜英.關聯(lián)規(guī)則挖掘研究[J].知識經(jīng)濟,2011(14).
[4]徐江勇.多維關聯(lián)規(guī)則技術在進出口貿易分析中的應用[J].計算機應用與軟件,2008(12).
[5]劉金塘,伍小蘭.多元統(tǒng)計分析技術在人口研究中的應用[J].人口研究,2002(2).
[6]毛國君,等.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學出版社,2005.
[7]陳京民,等.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術[M].北京:電子工業(yè)出版社,2002.