胡謙鋒 陳沁磊
(1.南京中醫(yī)藥大學(xué)圖書館 南京 210000)(2.江蘇省中醫(yī)院 南京 210000)
Vapnik 提出的結(jié)構(gòu)風(fēng)險最小化原理指出要最小化期望風(fēng)險必須同時最小化經(jīng)驗風(fēng)險和VC 維,SVM 就是基于結(jié)構(gòu)風(fēng)險最小化的一種機(jī)器學(xué)習(xí)算法[1~2],其源自在線性且樣本指標(biāo)可分開情況下的最優(yōu)劃分面,結(jié)構(gòu)如圖1。
圖1 SVM原理示意圖
上圖中,“●”符號和“○”符號表示兩種不同的樣本,H為假設(shè)最優(yōu)劃分線(所謂假設(shè)最優(yōu)劃分線,要求能將不同的樣本劃分出來,目標(biāo)是0 錯誤,還要使兩劃分線中間間隔盡可能大,這樣能使風(fēng)險保持最小狀態(tài)。使間隔盡可能大使推廣性界中的置信范圍最小,在實際應(yīng)用中把風(fēng)險降到最低,H1、H2分別為數(shù)據(jù)樣本中距離最優(yōu)劃分線最近的平行劃分直線,H1、H2和H中間的部分是分類間隔(margin)。從一維空間擴(kuò)展到高維空間,假設(shè)最優(yōu)劃分線H就成為了最優(yōu)劃分面,而H1、H2上的訓(xùn)練樣本點群,便成了距超平面最近的異類向量,我們稱其為支持向量(Support Vector),如圖1 中用圓圈標(biāo)出的數(shù)據(jù)樣本所示。一組支持向量可以確定一個超平面,且這個平面是唯一確定的。
給定訓(xùn)練子集{(x1,y1),…,(xl,yl)} ,其中,x∈Rn,yi∈{1 ,2,…,M},i=1,2,…,l。尋找Rn上的一個差別函數(shù)f(x),對于任一輸入x給出相對應(yīng)的y值。上述多類分類問題實質(zhì)上就是找到一個把Rn上的點分成M部分的規(guī)則[4]。
下面是利用二值分類的方法構(gòu)造一個n類分類器的方法與步驟。
1)構(gòu)造n個二值分類規(guī)則,其中規(guī)則fk(x),k=1,…,n將第k類的訓(xùn)練樣本與其他訓(xùn)練樣本分開,若向量xi屬于第k類,則sgn[fk(xi)]=1,否則sgn[fk(xi)]=-1
2)選取函數(shù)fk(x),k=1,…,n中最大值所對應(yīng)的類別:
以上兩個步驟便可以將n類數(shù)據(jù)樣本進(jìn)行分類,以此為支持向量機(jī)處理多類分類問題的依據(jù)來構(gòu)造多類分類器。
即多類分類問題的支持向量方法的描述如下:
設(shè)數(shù)據(jù)樣本訓(xùn)練子集為
其中,中的目標(biāo)k表示向量屬于第k類。
考慮線性函數(shù)集;
目標(biāo)是構(gòu)造n個函數(shù),n對 (ωk,bk) ,使得規(guī)則;
能將訓(xùn)練樣本無錯誤地分開,即不等式
對所有k=1,…,n,m≠k和i=1,…,ln成立。
如果數(shù)據(jù)集間的指標(biāo)不能準(zhǔn)確地分開,則最小化如下泛函數(shù);
約束條件為
其中,k=1,…,n,m≠k,i=1,…,lk。
Lagrange 最優(yōu)化技術(shù)具有科學(xué)性,以該技術(shù)處理fk(x)函數(shù),展開求解得可知:
函數(shù)fk(x)展開式的系數(shù)ai(k,m),k=1,…,n,m≠k,i=1,…,lk,j=1,…,lm需要最小化如下的二次形式:
約束條件為
ABC分類管理方法,是一種國內(nèi)外應(yīng)用較為廣泛的方法,而且其原理比較好理解。ABC管理具有以下特點:成本低、見效快、技術(shù)簡單。ABC分類方法,尤其在復(fù)雜錯綜的系統(tǒng)里,為了達(dá)到有效的管理,集中有限的精力于重要關(guān)鍵的領(lǐng)域,它是既必要又可行的方法。在傳統(tǒng)的ABC 分類法中,首先基于年資金使用量對于庫存項目按降序進(jìn)行排序,然后把庫存單位分成三類:前15%~20%屬于A 類,控制年庫存資金總使用量的80%,需要實行重點管理;最后50%~60%構(gòu)成C 類,占有很少量的庫存資金;在兩類之間的屬于B 類,約占項目的20%~30%。換言之,該分類方法依托的是傳統(tǒng)模型,圖書的單價與圖書的重要程度直接掛鉤(價格作為價值的唯一表現(xiàn)形式),對于單價不貴的圖書并不重點管理,而要求重點管理高價值圖書。
傳統(tǒng)的ABC 分類方法以資金占比這一經(jīng)濟(jì)角度為依據(jù),對圖書的重要性進(jìn)行評估,有失于全面性和精準(zhǔn)性。作為圖書管理方,圖書的經(jīng)濟(jì)特征指標(biāo)、圖書的時間特征指標(biāo)(如提前采買天數(shù)的長短)和重要度量化指標(biāo)(如圖書缺件時造成損失的程度)同樣是不可缺少的,甚至占有更高的權(quán)重,所以傳統(tǒng)的ABC 分類方法并不總是有效的。傳統(tǒng)的ABC分類法在實際應(yīng)用中指標(biāo)過于簡單片面,輸入的量化指標(biāo)主觀性、隨機(jī)性強(qiáng),而想要該表這一狀況就要輸入大量統(tǒng)計數(shù)據(jù),開展大規(guī)模的復(fù)雜運算。對于樣本規(guī)模并不甚大圖書分類,引入基于支持向量機(jī)的機(jī)器學(xué)習(xí)方法是十分必要的[6~7]。
圖書分類模型的指標(biāo)選取應(yīng)堅持以下原則:與圖書分類等管理活動相關(guān)度高;精簡指標(biāo)數(shù)量和規(guī)模;(降低SVM 的輸入空間維數(shù),縮小問題的規(guī)模,從而降低計算難度,節(jié)約時間)如實反映圖書分類所需的各項特征。本文綜合考慮圖書管理工作的特點,制定了一個圖書分類指標(biāo)體系,如表1所示。
圖書運營過程中,各個指標(biāo)都影響其分類結(jié)果以及運營部門投入的關(guān)注度。這些指標(biāo)要素影響著管理方的圖書分類工作。加權(quán)各要素的總體,我們發(fā)現(xiàn)各個種類圖書關(guān)注度整體上與對相關(guān)圖書進(jìn)行重點管理的程度同向變化[8~10]。
“單價”指的是單位圖書的采購成本,是圖書管理的經(jīng)濟(jì)性因素。在傳統(tǒng)模型和當(dāng)今模型中,單價都與關(guān)注度正相關(guān)[11]。
“提前采買天數(shù)”指圖書從出單發(fā)貨、運輸?shù)浇邮杖霂斓暮臅r總長,體現(xiàn)的是采購難易程度。提前采買天數(shù)體現(xiàn)著采買過程中的變數(shù),與缺貨可能性和所需的關(guān)注度[12]都正向相關(guān)。
“年出貨量”指的是該種類圖書全年的銷售量的大小。圖書的年出貨量越大,說明暢銷程度越高,也就越需要提高關(guān)注度。
“歷史銷售量”指該種圖書投入銷售運營全過程以來的銷售總量,是該圖書交易的總體穩(wěn)定性。對于歷史銷售量與關(guān)注等級正向相關(guān)。
“圖書庫存時間長度”指圖書售出所需的時間長度。對于庫存期越短的圖書,市場需求就越大,關(guān)注程度應(yīng)提高[13]。
“重要度等級”指該種圖書對整體施加的影響水平和缺件時造成時損失的程度的大小。圖書重要性與該種類圖書對管理運營成本的影響、缺貨造成的損失呈現(xiàn)正相關(guān)關(guān)系,要重點關(guān)注重要性等級高的圖書。
“供應(yīng)方等級”指圖書供應(yīng)方的綜合水平。供應(yīng)方等級和其供貨的質(zhì)量、服務(wù)水平呈現(xiàn)正相關(guān)的關(guān)系。當(dāng)圖書的供應(yīng)方等級較低時,就需要調(diào)高對其提供的圖書的關(guān)注程度。
表1 集內(nèi)各指標(biāo)內(nèi)容說明
應(yīng)用基于支持向量機(jī)構(gòu)建圖書ABC 分類模型的基本步驟。
第1 步,根據(jù)實際情況,分別選取圖書的單價、提前采買天數(shù)、年出貨量、歷史銷售量、圖書庫存時間長度、重要度等級、供應(yīng)方等級作為圖書的分類指標(biāo)。
第2 步,提取圖書管理單位部分圖書的各項指標(biāo)值,形成數(shù)據(jù)集,由經(jīng)驗豐富的圖書管理人員對圖書進(jìn)行分類。
第3 步,用極差變換法對數(shù)據(jù)集進(jìn)行歸一化處理,通過極差變換法,將圖書的各個屬性均變?yōu)閷儆赱0 ,1] 區(qū)間的值,但并不改變各屬性之間的相對關(guān)系,不會影響到分類模型的構(gòu)建。
第4 步,隨機(jī)抽取圖書數(shù)據(jù)集中的部分樣本作為訓(xùn)練子集,其它樣本作為測試子集。
第5 步,采用向量機(jī)模型選擇方法,以訓(xùn)練子集樣本為基礎(chǔ),完成對支持向量機(jī)的優(yōu)化。在后優(yōu)化過程中,以訓(xùn)練子集作為驗證支持向量機(jī)多分類模型的性能樣本反復(fù)測試。若達(dá)不到預(yù)期性能,就該換方法重新進(jìn)行優(yōu)化,返回上步。
第6 步,若測試性能達(dá)標(biāo),分類模型的具體性能就可以在測試子集上進(jìn)行驗證。若該模型在訓(xùn)練子集和測試子集上的分類正確率達(dá)到合理區(qū)間,說明該模型比較成熟。若分類正確率達(dá)不到合理區(qū)間,甚至與預(yù)期相差較大,則從數(shù)據(jù)質(zhì)量問題,模型優(yōu)化方法兩個方面考慮改進(jìn)。
第7 步,如果在測試子集上的分類正確率在合理區(qū)間內(nèi),可以對得到的新模型進(jìn)行保存,以新模型對圖書樣本分類[14~15]處理。
模型建立的具體過程如下圖2所示。
圖2 支持向量機(jī)圖書分類基本步驟
選取某書店的200 種圖書,這里以同樣方法進(jìn)行處理。以150 種圖書形成一個數(shù)據(jù)集合體(集內(nèi)要素任意選擇),其余的50 種圖書作為測試的數(shù)據(jù)集合體,分別應(yīng)用網(wǎng)格搜索法和遺傳算法優(yōu)化的支持向量機(jī)進(jìn)行圖書ABC 分類,將兩種方法優(yōu)化參數(shù)的支持向量機(jī)的預(yù)測模型對實際數(shù)據(jù)進(jìn)行分類處理,并將分類結(jié)果進(jìn)行對比。
圖3 網(wǎng)格搜索法參數(shù)優(yōu)化
圖4 遺傳算法參數(shù)優(yōu)化
分類結(jié)果見到表2。
表2 參數(shù)優(yōu)化方法比較
通過實驗我們發(fā)現(xiàn),經(jīng)過網(wǎng)格搜索法優(yōu)化參數(shù)的支持向量機(jī)訓(xùn)練子集分類正確率為96.6187 %、測試子集正確率為93.5484%,兩者大致相當(dāng);經(jīng)過遺傳算法優(yōu)化參數(shù)的支持向量機(jī)訓(xùn)練子集分類正確率97.4789%和測試子集正確率96.7741%,兩者大致相當(dāng)。這說明參數(shù)優(yōu)化的合適。
另外通過實驗數(shù)據(jù)對比,我們發(fā)現(xiàn)應(yīng)用遺傳算法進(jìn)行參數(shù)優(yōu)化后的支持向量機(jī)的分類正確率較傳統(tǒng)的網(wǎng)格搜索法的支持向量機(jī)分類正確率有了較大的提高,其分類效果更優(yōu)越一些。因此我們選擇遺傳算法來優(yōu)化支持向量機(jī)的參數(shù)優(yōu)化方法。
為了更好地對支持向量機(jī)圖書ABC 分類模型的性能進(jìn)行檢驗,我們另外再從圖書中隨機(jī)抽取10 種圖書進(jìn)行分類,然后與傳統(tǒng)的分類結(jié)果進(jìn)行對比分析。這里以RBF函數(shù)對于數(shù)據(jù)進(jìn)行處理,經(jīng)過算法處理和優(yōu)化,易知參數(shù)發(fā)生了顯著變化,這里選擇C=23.235 和g=1.9326,輸入變量后以我們提出的模型分類處理,采用對比法研究,得出的分類結(jié)果見表3。
圖書0654124 以傳統(tǒng)分類處理的結(jié)果顯然應(yīng)該看作是A類圖書,但我們的處理結(jié)果與傳統(tǒng)結(jié)果不同,將其劃作B 類。由表可知,圖書0654124 具有較高的供應(yīng)方等級,中等的重要度等級、采購價格和年出貨量,較短的提前采購期等,綜上所述,并沒有顯著必要性對該圖書進(jìn)行特別劃分,所以由該數(shù)據(jù)認(rèn)為相較于傳統(tǒng)分類,該分類結(jié)果更加合理準(zhǔn)確。
圖書0412486和圖書0145413它們的提前采買天數(shù)都比較短,基本上能夠通過及時采購得到,較高的供應(yīng)方等級,中等的重要度等級,年出貨量不佳,庫存周期也比較長,是小眾圖書,劃分為C 類圖書更加具有合理性。
圖書1456439 是傳統(tǒng)意義上的C 類圖書。它具有低價、提前訂貨期長、消耗量大、重要度高等特點,但受到供應(yīng)方等級的限制小,從數(shù)據(jù)表征的結(jié)果來看,我們認(rèn)為其作為A 類一樣是合理的,這里的分類不局限于C類。
表3 隨機(jī)抽取的圖書分類結(jié)果分析表
由此可見,支持向量機(jī)分類模型具有強(qiáng)大的分類能力,它能夠依據(jù)從圖書多個指標(biāo)要素點出發(fā),對圖書分類情況進(jìn)行系統(tǒng)性的考察,得出較之于傳統(tǒng)方法更加準(zhǔn)確的分類結(jié)果。兼具精準(zhǔn)性和高效性是該方法的顯著特點。在實際的圖書分類實施過程中,能夠?qū)崿F(xiàn)以較小的指標(biāo)要素規(guī)模實現(xiàn)更加科學(xué)準(zhǔn)確的運算,有效降低了運算的復(fù)雜程度,一定程度上減小了現(xiàn)實分析運算中常見的數(shù)據(jù)千頭萬緒、應(yīng)用困難等問題,是一種優(yōu)化進(jìn)步。在新的模型中,各個指標(biāo)的加權(quán)比重一般無需反復(fù)設(shè)定,使準(zhǔn)確性大大提高。應(yīng)用的簡單提高了學(xué)習(xí)的泛化性能,“過學(xué)習(xí)”情況也得到緩解。