趙會群 孫 晶 花勇民 金季春
摘要:馬爾科夫過程模型已經廣泛地應用于系統(tǒng)可靠性評價中。基于馬爾科夫模型系統(tǒng)關鍵因素分析方法被討論,重點討論了狀態(tài)轉移概率和狀態(tài)可靠性靈敏度分析兩種途徑。給出系統(tǒng)可靠性差分概念后,提出了通過狀態(tài)轉移概率和狀態(tài)可靠性增量分析系統(tǒng)可靠性差分的方法,具體分析了各個增量的選擇條件。在上述討論的基礎上,給出系統(tǒng)關鍵因素數(shù)據(jù)挖掘算法。為了展示和驗證算法的可行性和正確性,對乒乓球比賽制勝關進因素進行分析,實驗結果表明提出的算法具有正確性和可行性。
關鍵詞:馬爾科夫過程模型;數(shù)據(jù)挖掘;技戰(zhàn)術分析
中圖分類號:G80-32文獻標識碼:A文章編號:1007-3612(2008)05-0712-04
數(shù)據(jù)挖掘(Data Mining簡稱DM)是用算法來抽取信息和模式,它是知識發(fā)現(xiàn)(Knowledge Discovery in Databases,簡稱KDD)過程的一個步驟[1]。一般認為數(shù)據(jù)挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取出隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識的過程[1]。
長期的研究與實踐已經總結出多種數(shù)據(jù)挖掘方法。
關聯(lián)模式挖掘(Association Rule Mining)就是從給定的數(shù)據(jù)集中發(fā)現(xiàn)頻繁出現(xiàn)的項集模式知識。關聯(lián)分析已經廣泛應用于市場營銷、事務分析等應用領域。最著名的關聯(lián)規(guī)則挖掘算法是由Agrawal等人于1944年提出的Apriori算法[2]。Apriori算法的核心是:用前一次掃描數(shù)據(jù)庫的結果產生本次掃描的候選項目集,從而提高搜索效率。在此基礎上一些學者先后提出了許多關聯(lián)規(guī)則的挖掘算法,但其主要工作集中在如何提高項集的生成效率和降低計算代價上[3]。
還有許多數(shù)據(jù)挖掘技術,如分類與預測、聚類分析、異類分析、演化分析、回歸分析等等,這里不再一一介紹。本文提出一種基于馬爾科夫過程的數(shù)據(jù)挖掘方法,并結合體育比賽技戰(zhàn)術分析中制勝戰(zhàn)術挖掘為例,介紹該方法的具體應用。
1基于馬爾科夫過程的系統(tǒng)分析模型
以上算法并沒有討論狀態(tài)可靠性的變化情況。從實際系統(tǒng)控制角度,狀態(tài)轉移是可以調控的因素,而狀態(tài)可靠性相對穩(wěn)定,所以這里僅給出轉移概率變化的系統(tǒng)可靠性分析的挖掘算法。同理不難給出基于狀態(tài)可靠性的挖掘算法。
3算法應用
數(shù)據(jù)挖掘技術在商品零售、銀行、保險等行業(yè)得到廣泛地應用,用于體育比賽中技戰(zhàn)術分析并不多見。下面以乒乓球為例,介紹算法2.1在乒乓球比賽臨場技戰(zhàn)術分析中的應用。
3.1乒乓球比賽技戰(zhàn)術數(shù)據(jù)采集根據(jù)乒乓球比賽臨場技戰(zhàn)術分析和算法2.1的要求,需要對比賽中每一個技術動作的執(zhí)行過程進行記錄。由于比賽中運動員的技戰(zhàn)術動作變化較多,并且各種動作在瞬間完成,所以紀錄比賽的過程具有挑戰(zhàn)性,為此專門設計了乒乓球比賽腳本描述語言(Table Tennis Language簡稱TTL)和腳本數(shù)據(jù)庫來完成紀錄工作。
3.1.1乒乓球技戰(zhàn)術描述TTL語言首先把運動員的技術動作分解成擊球方式、擊球基本動作、擊球效果、擊球路線四個方面,并對其進行編碼,這些編碼構成乒乓球技戰(zhàn)術描述語言的基本詞匯。下面是單詞表的部分單詞。
表1中的第3列“動作編碼”是描述語言的基本詞匯,第4列是適合英語習慣的編碼。開發(fā)者可以二選一,或一起使用。
對乒乓球比賽中的常見技戰(zhàn)術進行分類和編碼,這些技戰(zhàn)術編碼構成了腳本描述語言的基本句型。下面是部分技戰(zhàn)術編碼。
3.1.2乒乓球技戰(zhàn)術采集技術在實際比賽中可以分別利用腳本描述語言的單詞與句型編碼進行技戰(zhàn)術信息的采集。下面介紹基于技術動作編碼的采集方法。
基于技術動作編碼的數(shù)據(jù)采集技術是指,利用技術動作編碼規(guī)則,對比賽中雙方運動實際運用的技術動作,逐一加以描述并輸入到計算機中。使用方法案例如下:
圖1腳本和對應的輸入碼上述腳本紀錄存放在技戰(zhàn)術數(shù)據(jù)的數(shù)據(jù)庫中,如圖2所示。
圖2部分技戰(zhàn)術腳本數(shù)據(jù)3.2乒乓球比賽技戰(zhàn)術分析乒乓球比賽中每一次比分的形成過程都是由若干技術動作構成,不同的技術動作的組合形成各種戰(zhàn)術套路。在比賽中,技戰(zhàn)術的制定與對手采用的戰(zhàn)術有關,所以一個優(yōu)秀運動員在比賽過程中要制定多種技戰(zhàn)術套路,這些套路在比賽中交替采用,形成各種戰(zhàn)術變化。比賽的制勝與技術動作的成功率(狀態(tài)可靠性)和技術動作轉換,即戰(zhàn)術的成功率(狀態(tài)轉移概率)有關。從統(tǒng)計學角度,高水平運動員的技術動作成功率呈現(xiàn)一種相對的穩(wěn)定性,而戰(zhàn)術的調整是比賽制勝的關鍵,所以對戰(zhàn)術分析尤為重要。
4結論
本文對基于馬爾科夫過程的數(shù)據(jù)挖掘方法進行了研究和討論,其主要貢獻如下:1) 從理論上證明了基于馬爾科夫過程的系統(tǒng)關鍵因素挖掘方法的正確性,給出了系統(tǒng)可靠性靈敏度分析中轉移概率增量的設定方法,為進一步挖掘關鍵因素奠定了基礎。2) 提出了基于馬爾科夫過程的數(shù)據(jù)挖掘算法,并對算法的執(zhí)行時間和空間進行了分析。3) 結合乒乓球比賽中制勝因素分析問題,給出了挖掘算法的應用。經過分析得出“高水平乒乓球比賽中,控制到相持、發(fā)球到接發(fā)球和控制到進攻”是比賽制勝關鍵的結論,這一結論與實際情況吻合。
本文提出的數(shù)據(jù)挖掘方法不但可以用于乒乓球比賽的技戰(zhàn)術分析,還可以用于其他球類比賽的技戰(zhàn)術分析,比如排球、羽毛球、網球等等,只要系統(tǒng)行為滿足馬爾科夫過程條件既可。體育比賽技戰(zhàn)術分析中應用數(shù)據(jù)挖掘技術還是一種新的嘗試,我們已經開發(fā)出乒乓球比賽臨場技戰(zhàn)術分析系統(tǒng)。
參考文獻:
[1] Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth, Knowledge discovery and data mining: Towards a unifying framework. Proceedings of the International Conference on Knowledge Discovery and Data Mining, pages,1996:82-88.
[2] Agrawal R,Srikant R. Fast algorithms for mining association rules[A].Proceedings of the 20th International Conference on Very Large Databases[C].Santiago:Morgan Kaufmann,1994:487-499.
[3] Agrawal R,Srikant R. Mining sequential patterns. In Proc, 1995 Int,Conf.Data Engineering (ICDE'95), pages 3-14,Taipei,Taiwan,Mar,1995.
[4] A. Hohmann and Hui Zhang. Performance diagnosis by mathematical simulation in table tennis. Science and Racket Sports III. pages 220-226. Taylor & Francis Group. New York.
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文