朱文富
(重慶工商大學(xué)體育學(xué)院,重慶 400067)
如今體育比賽已經(jīng)成為人們生活中的重要內(nèi)容,從女排的五連冠到男足的韓日世界杯之旅,再到中國北京奧運(yùn)會的成功舉辦,中國體育事業(yè)的突飛猛進(jìn)已經(jīng)向世界證明東方巨龍巍然屹立在體育賽場上,五星紅旗高高飄揚(yáng)在競技之顛。然而人們關(guān)注體育比賽的重要方面在于它的結(jié)果,比賽結(jié)果已經(jīng)成為體育比賽的焦點(diǎn)和集中點(diǎn)。如何對體育比賽進(jìn)行合理的、科學(xué)的預(yù)測是當(dāng)今廣大體育科研工作者廣泛關(guān)注的話題。在這個(gè)社會信息化高速發(fā)展的時(shí)代,KDD(Knowledge Discovery in Data-base)這項(xiàng)原本不為大家熟悉的技術(shù)現(xiàn)如今已受到極其廣泛的關(guān)注,同時(shí)也開始了進(jìn)一步的研究,此外,此項(xiàng)技術(shù)已經(jīng)在很多相關(guān)的領(lǐng)域得到了運(yùn)用并且相當(dāng)成功[1-2]。從這一方面可以看出,KDD使用的目的不是單方面的,它不僅要在實(shí)踐中得出數(shù)據(jù),并在這些數(shù)據(jù)中通過進(jìn)一步的分析找出一部分具有重要價(jià)值的決策支持信息。所以,可以認(rèn)為KDD它不是研究某種具體的方法,而是主要著重于系統(tǒng)的實(shí)用性,是根據(jù)每一個(gè)用戶需求以及該研究領(lǐng)域的特點(diǎn),利用現(xiàn)在已經(jīng)掌握的技術(shù),在計(jì)算資源相當(dāng)有限的情況下,從實(shí)踐中得到的眾多數(shù)據(jù)中發(fā)現(xiàn)一些可運(yùn)用到研究中的各種有用的信息。在此就是針對此類非對壘式的,以每一位參加比賽的以個(gè)體的成績?yōu)橹饕芯繉ο髞磉M(jìn)行排定名次的體育競賽和娛樂比賽,在這種情況下應(yīng)用KDD技術(shù)建模,制定出一個(gè)該類比賽的情況分析并且對最后比賽成績進(jìn)行預(yù)測。其意義就是要驗(yàn)證并且發(fā)現(xiàn)對該類別比賽成績有影響的各種因素,同時(shí)對最后比賽的結(jié)果進(jìn)行科學(xué)的預(yù)測。從而在對個(gè)體如何最有效的提高比賽成績,安排其參加何種比賽較適合方面起著輔助決策作用。
在體育比賽中屬于非對壘式比賽或項(xiàng)目占了很大的比重,非對壘式比賽(即以個(gè)體成績?yōu)橹鞯拿闻判虮荣悾τ谠擃惐荣?,平時(shí)的訓(xùn)練以及比賽前的準(zhǔn)備應(yīng)該注意對成績有意義的影響因素,要注意哪些問題才有利于提高成績;從另一方面來說,對于每一個(gè)個(gè)體如何科學(xué)的安排和合理的選擇參加什么比賽才能得到更理想的的名次?即要能根據(jù)個(gè)體的實(shí)際情況對比賽成績做出較為準(zhǔn)確的預(yù)測。以上的任務(wù)雖然是抽象具體的,但是意義卻是非常明確而重大的。不過此類比賽卻具有以下的特征和難點(diǎn):(1)一個(gè)隊(duì)伍中參加比賽的每一個(gè)參賽個(gè)體都要有自己相對獨(dú)立的模型。而針對某一方面的影響因素,或許它對參賽個(gè)體A有非常明顯的影響,而對參賽個(gè)體B的影響卻很小甚至沒有任何影響;很明顯在這種情況下對于最后比賽成績的預(yù)測,不同的個(gè)體由于個(gè)體自身的差異性導(dǎo)致無法沿用同樣的模型來進(jìn)行最后結(jié)果的預(yù)測。(2)每個(gè)個(gè)體在某一具體比賽中最后取得的成績也與其臨場狀況有關(guān),也與其近階段比賽的歷史成績有一定關(guān)系。臨場狀況在這里指的是個(gè)體自身的各方面因素和此次比賽賽場的構(gòu)成、現(xiàn)場氣氛等可以影響比賽成績的各種客觀因素整體所構(gòu)成的情形。但這不包括由于人為因素故意降低比賽成績等情況,因?yàn)檫@是無法用科學(xué)的方法來進(jìn)行分析和預(yù)測的。(3)影響成績的關(guān)系錯(cuò)綜復(fù)雜,而且因素可能很多。(4)它取值不僅是基于模糊的,而且是主觀判斷的和定性概念的屬性,甚至有些還可能是非常重要屬性。例如,身體狀況問題、情緒問題等等。(5)時(shí)間的發(fā)展對參賽個(gè)體成績的預(yù)測也有影響。例如:某一運(yùn)動(dòng)員從高峰期開始走向低峰期或反之,數(shù)據(jù)都會發(fā)生變化。此外,因?yàn)槊看伪荣悈①悅€(gè)體的模型具有多樣性多樣性,所以就會出現(xiàn)這樣一種情況:一些參賽個(gè)體的數(shù)據(jù)會經(jīng)過一段時(shí)間的積累才會得到相對準(zhǔn)確的結(jié)果。
2.1.1 可以用關(guān)聯(lián)規(guī)則探索或者是確定影響因素
此方法主要包括兩種類型:發(fā)現(xiàn)型挖掘和驗(yàn)證型挖掘。其中發(fā)現(xiàn)型挖掘一般是用于未被注意到的、發(fā)現(xiàn)新的或特定于某個(gè)體的影響因素。驗(yàn)證挖掘用于經(jīng)驗(yàn)所認(rèn)定的或已由專家驗(yàn)證認(rèn)定的因素。由于每次參加比賽的群體具有多樣性,所以最后得出的數(shù)據(jù)的可用性就不一定會很充分,而且又因?yàn)闀r(shí)間性相對來說很強(qiáng),時(shí)間稍微早些的數(shù)據(jù)或許就已經(jīng)不能再用來研究。所以,每當(dāng)在預(yù)測建模的時(shí),為了在多種影響因素中選取最主要的因素,就需要對已經(jīng)發(fā)現(xiàn)的的影響因素進(jìn)行合理的調(diào)整,必要時(shí)還要進(jìn)行重新挖掘。而且,在挖掘的時(shí)候,為了選取主要的影響因素,要排除過雜過多的情形,此時(shí)置信度則可偏大些,在預(yù)測建模和影響因素挖掘之間構(gòu)成一個(gè)優(yōu)化的循環(huán)的過程。
2.1.2 用神經(jīng)網(wǎng)絡(luò)方法建立臨場狀況的描述和分類模型
把某一參賽個(gè)體的臨場狀況所表現(xiàn)出來的情況劃分為不同的級別,例如很優(yōu)、良、中、差、很差等等。
2.1.3 成績的預(yù)測
預(yù)測成績:s=a1s1+a2s2a1+a2=1,其中s1=E(I)即是參賽個(gè)體I在同一比賽所能取得的成績的數(shù)學(xué)期望值,但必須保證參賽個(gè)體是在最近的一個(gè)時(shí)間段P內(nèi);s2是由回歸方程所獲得的成績,該成績是預(yù)測成績預(yù)測。參數(shù)P視具體的個(gè)體情況和實(shí)際問題而定,也就是說由于個(gè)體自身情況不同或具體出現(xiàn)的問題不同,P的取值就可能會出現(xiàn)變化。參數(shù)a1和a2可根據(jù)方程式結(jié)果進(jìn)行調(diào)整,其調(diào)整的具體方法和重要意義將會在本節(jié)稍后進(jìn)行進(jìn)一步論述。
由上可以得出一個(gè)結(jié)論,一個(gè)個(gè)體在即將要參加的同種比賽中預(yù)測取得的比賽成績會與他近一段時(shí)間的所取得的成績相差不大。例如,一個(gè)世界冠軍級別的運(yùn)動(dòng)員和一個(gè)平時(shí)成績非常一般的運(yùn)動(dòng)員進(jìn)行比賽,世界冠軍在緊接的比賽中被成績平平的運(yùn)動(dòng)員打敗的幾率是相當(dāng)小甚至是沒有這種可能的。所以,由于E(I)這一參考值是相對穩(wěn)定的,所以E(I)就成為預(yù)測比賽結(jié)果的一個(gè)比較科學(xué)而又有用的參考值。而回歸模型則是通過挖掘影響因素來建模,是利用通過挖掘已經(jīng)得到的各種影響因素,來通過逐步的回歸,分析相關(guān)系數(shù)和檢驗(yàn)其顯著性,從而進(jìn)一步明確最主要的因素,最后分析出它們之間所存在的相互聯(lián)系,在必要時(shí)還要挖掘相關(guān)聯(lián)規(guī)則,然后再重新建立出模型等。采用回歸方法,要考慮到對預(yù)測值的連續(xù)性、精度要求以及計(jì)算的效率等問題。
2.1.4 對有關(guān)比賽信息的數(shù)據(jù)進(jìn)行存儲
對每一參賽者的每一比賽,增加存儲參數(shù)由神經(jīng)網(wǎng)絡(luò)模型得到的臨場狀況級別L,預(yù)測成績(包括s1、s2、s和名次),以及a1、a2值。
2.1.5 模型的評估
以排名為最終標(biāo)準(zhǔn),以成績?yōu)閰⒖紭?biāo)準(zhǔn)。假如能夠做到實(shí)際取得的成績與預(yù)測的成績完全相符,實(shí)際比賽的排名和賽前預(yù)測的排名相符,這當(dāng)然是最理想的??墒牵瑥牧硪环矫鎭碇v要達(dá)到這種很理想的準(zhǔn)確程度是非常不容易的的。當(dāng)把比賽的成績來作為預(yù)測的直接結(jié)果時(shí)就具有不受參賽群體數(shù)量多少的限制,具有較好的可區(qū)分度和靈活性,但是要做到高準(zhǔn)確性和高精準(zhǔn)度卻是非常困難的。此外,對于某些比賽來說,更加看重,更加關(guān)心的結(jié)果可能會是比賽的名次。
2.1.6 修正或重建模型
獲取可變參數(shù)a1和a2值。
參數(shù)a1和a2除了對預(yù)測進(jìn)行修正和作為s1和s2的置信比度外,另一方面來說它還具有以下的作用和重要的意義;如果出現(xiàn)兩個(gè)值當(dāng)中的其中一個(gè)值始終持續(xù)維持在某一低水平,這種情況就表明與個(gè)體參賽成績相關(guān)的預(yù)測值是不準(zhǔn)確的,出現(xiàn)此類情況后就說明該模型就要進(jìn)行改進(jìn),在必要時(shí)還需要重新建模。此外,對a1值的變化還具有另外一效用即“趨勢發(fā)現(xiàn)”的效用,其值能顯示出此位參賽個(gè)體的發(fā)展在近期是提高了已進(jìn)入高峰期,還是由于某種原因下跌而進(jìn)入低潮期。很明顯,對a1、a2值的處理是便捷方便捷靈活的,通過系統(tǒng)就可以完全自動(dòng)實(shí)現(xiàn)。雖然,a1,a2值和狀況級別L值的存儲代價(jià)不是很高,但是它可以用于模型的進(jìn)一步改進(jìn)及重建。
根據(jù)以上在實(shí)際應(yīng)用時(shí)出現(xiàn)的問題及其特征,在此將利用以下兩項(xiàng)原則和三條策略來解決此類問題。原則:一定要能對模型的重建給出建議和自動(dòng)的給與提示,并且能為模型重建給出有用的信息;必須能夠方便、靈活且自動(dòng)地對已有的模型進(jìn)行修正。策略:對付主觀、模糊的概念屬性時(shí)用模糊的邏輯。經(jīng)研究發(fā)現(xiàn),處理復(fù)雜問題時(shí)采用多方法、多模型是一種有實(shí)用性的策略,而且預(yù)測精度還可以得到很大程度的提高[3-4];而處理主觀、含糊的語言變量是運(yùn)用模糊邏輯則是非常有效而成熟的[5]。以多模型、多方法的組合/結(jié)合提高預(yù)測的準(zhǔn)確性并對付問題的復(fù)雜性。當(dāng)把輕量級模型應(yīng)用于每個(gè)參賽個(gè)體時(shí),就必須要用自己獨(dú)特模型所附帶的對資源的特殊要求和效率問題。
把以上方法有效地應(yīng)用于某一地區(qū)的賽車比賽中,首先確定出8個(gè)對比賽有影響的因素,它們分別為:決定性因素(賽程),賽車本身因素(重量、排量、輪胎性能),其他影響因素(賽車手排位、車輛出發(fā)排位、場地的性質(zhì)、天氣情況等)。問題的客觀實(shí)際就基本上被精準(zhǔn)而簡練的反映出來。運(yùn)用建模方法對此種比賽的50場比賽結(jié)果進(jìn)行預(yù)測,預(yù)測的名次與實(shí)際名次相差在五名以內(nèi)的準(zhǔn)確率大概為85%。具有相當(dāng)高的準(zhǔn)確率。另外有專家也曾經(jīng)把以上方法應(yīng)用于賽馬娛樂項(xiàng)目,預(yù)測所得出的名次與實(shí)際比賽的名次相差在三名以內(nèi)的概率約為75%。但是,由于有一些商業(yè)方面上的特殊原因(比如其他預(yù)測系統(tǒng)的預(yù)測:馬評家的觀測等),此類比賽的結(jié)果還不能與其他的同類預(yù)測相比較。另一方面,也考慮到一些參賽馬匹近期的真實(shí)歷史資料不太容易獲取和馬匹的不確定性等問題,這就給預(yù)測增添了很大的難度,所以由于各方面的原因,該預(yù)測的準(zhǔn)確率也還是可以接受的。
通過對幾個(gè)參數(shù)進(jìn)行簡單的分析處理,最后可以方便、自動(dòng)地修正已存在的模型、完善,把多模型的、輕量的和多種技術(shù)的組合/結(jié)合作為策略;研究問題的主要特征而又兼顧到該問題的各個(gè)方面,對非對壘式比賽類給出了一個(gè)分析以及預(yù)測的KDD建模方法,對比賽結(jié)果作出預(yù)測,并對每個(gè)參賽者的比賽成績有影響的各種重要因素進(jìn)行分析和確定。同時(shí)參賽群體許多客觀的問題也通過KDD建模方法得到了較好的解決,包括多種多樣的參賽群體、復(fù)雜的影響因素以及預(yù)測上的困難等一系列問題。此外,KDD建模方法不僅能夠主動(dòng)對模型的改進(jìn)或重建給出合理的建議,還可以為模型的改進(jìn)或重建提供有用的信息。
[1]陸偉,吳朝暉.知識發(fā)現(xiàn)方法的比較研究[J].計(jì)算機(jī)科學(xué),2000,27(3):80-84
[2]歐陽為民,鄭誠,張燕.國際知識發(fā)現(xiàn)與數(shù)據(jù)挖掘工具評述[J].計(jì)算機(jī)科學(xué),2001,28(3):101-108
[3]刁力力,胡可云,陸玉昌,等.數(shù)據(jù)挖掘與組合學(xué)習(xí),計(jì)算機(jī)學(xué)習(xí)[J].2001,28(7):73-78
[4]韓宏,楊靜宇.多分類器組合及其應(yīng)用[J].計(jì)算機(jī)科學(xué),2000,27(1):58-61
[5]SMITH E,ELOFF J.Cognitive fuzzy modeling for enhanced risk assess-ment in a health care institution[J].IEEE Intelligent Systems,2000,15(2):69-75
[6] NARENDA K S,MUKHOPADHYAY S.Adaptive Control ofnonlinearmulti-variable systems using neural networks[J].NeuralNetworks,1994,7(5):737-752
[7]張德培,羅蘊(yùn).應(yīng)用概率統(tǒng)計(jì)[M].北京:高等教育出版社,2000
[8]焦李成.神經(jīng)網(wǎng)絡(luò)系統(tǒng)理論[M].西安:西安電子科技大學(xué)出版社,1990