郭鳳娟,李曉東,2
(1.新疆大學(xué) 資源與環(huán)境科學(xué)學(xué)院,新疆 烏魯木齊 830046;2.新疆大學(xué) 旅游學(xué)院,新疆 烏魯木齊 830046)
基于SVM的旅游網(wǎng)站頁面判別模型探討
郭鳳娟1,李曉東1,2
(1.新疆大學(xué) 資源與環(huán)境科學(xué)學(xué)院,新疆 烏魯木齊 830046;2.新疆大學(xué) 旅游學(xué)院,新疆 烏魯木齊 830046)
新疆旅游網(wǎng)站中存在大量頁面本身為空或頁面為導(dǎo)航頁面、新聞動態(tài)及政策法規(guī)等用戶關(guān)注度相對較低的頁面。而用戶在使用搜索引擎進(jìn)行旅游信息查詢時,這些頁面卻經(jīng)常顯示在搜索結(jié)果的前面,從而帶來用戶獲取信息不暢、用戶體驗差等問題。為解決上述問題,提出基于支持向量機(jī)(SVM)原理構(gòu)建旅游網(wǎng)站自動判別模型的方法,并結(jié)合9 000張訓(xùn)練樣本語料和3 000張測試樣本語料,對該模型進(jìn)行測試研究。結(jié)果表明,基于該模型構(gòu)建的分類器,具有良好的判別效果。當(dāng)特征詞超過120個,該模型的準(zhǔn)確率、召回率及F1值均趨于收斂,達(dá)到98%。
旅游網(wǎng)站;搜索引擎;自動判別;支持向量機(jī)
根據(jù)第32次中國互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計報告,截止2013年6月底,我國網(wǎng)民達(dá)5.91億,而搜索引擎用戶達(dá)4.70億,旅行預(yù)訂網(wǎng)民達(dá)1.33億[1]。從統(tǒng)計報告可以看出,搜索引擎作為互聯(lián)網(wǎng)的基礎(chǔ)應(yīng)用,是網(wǎng)民獲取信息的重要工具,而我國旅行預(yù)訂用戶相對狹窄,應(yīng)用滲透水平還較低,未來增長空間廣闊[1]。因此,在“眼球經(jīng)濟(jì)”時代的今天,如何利用搜索引擎抓住用戶的眼球,將旅游信息展現(xiàn)給用戶,成為擺在當(dāng)前新疆旅游工作者面前的一個重大問題。
用戶在使用搜索引擎進(jìn)行信息檢索時,搜索結(jié)果經(jīng)常會出現(xiàn)網(wǎng)頁本身已不存在或頁面本身為導(dǎo)航頁面、新聞動態(tài)及政策法規(guī)等用戶關(guān)注度相對較低等情況,令用戶滿意度大打折扣。出現(xiàn)上述情況原因在于搜索引擎服務(wù)器鏡像中保留上述頁面,這些頁面本身常包含有大量用戶檢索關(guān)鍵詞,而這些關(guān)鍵詞打分排名相對靠前,容易被搜索引擎檢索出來且顯示到搜索結(jié)果的最前面。當(dāng)旅游網(wǎng)站本身已經(jīng)將上述頁面刪除或該網(wǎng)站已停止使用時,便會出現(xiàn)可以搜索出相應(yīng)網(wǎng)頁而網(wǎng)頁本身卻打不開的現(xiàn)象。另外,根據(jù)筆者對新疆旅游網(wǎng)站的調(diào)查統(tǒng)計,平均每個旅游網(wǎng)站包含有80個上述頁面,而在諸多旅游網(wǎng)站中包含有相同或相近關(guān)鍵詞的旅游網(wǎng)站的數(shù)量更是巨大。因此,研究旅游網(wǎng)站的自動判別和過濾方法具有十分重要的現(xiàn)實意義。孫曉琳[2]等人討論了如何對旅游網(wǎng)站的數(shù)量和質(zhì)量進(jìn)行對比分析,并提出對旅游網(wǎng)站的質(zhì)量進(jìn)行評價的5個指標(biāo)。李蓉[3]等人提出以“網(wǎng)絡(luò)影響因子”和“比價度”指標(biāo)為核心,同時利用加權(quán)優(yōu)序圖法確定指標(biāo)權(quán)重來構(gòu)建旅游搜索引擎檢索性能的評價體系;羅龍艷[4]等人運(yùn)用層次分析法構(gòu)建了以流量速度、檢索范圍、功能指標(biāo)、服務(wù)功能等4個一級指標(biāo),下設(shè)15個二級指標(biāo)的旅游搜索引擎評價指標(biāo)體系。本文在上述研究的基礎(chǔ)上,結(jié)合文獻(xiàn)[5]~文獻(xiàn)[11]中闡述的現(xiàn)代文本分類技術(shù)、搜索引擎優(yōu)化處理、索引壓縮等關(guān)鍵技術(shù),采用SVM原理,以旅游網(wǎng)站的自動判別為切入點,對如何改進(jìn)旅游搜索引擎的檢索質(zhì)量、提升用戶滿意度進(jìn)行深入研究。
旅游網(wǎng)站判別技術(shù)是以旅游網(wǎng)站中網(wǎng)頁源碼為研究對象,通過定義網(wǎng)頁的分類標(biāo)準(zhǔn)對網(wǎng)頁進(jìn)行人工標(biāo)定,并從人工標(biāo)定結(jié)果中選取訓(xùn)練樣本語料和測試樣本語料,然后經(jīng)過文本表示和分類器訓(xùn)練,最終得到網(wǎng)頁的類別。旅游網(wǎng)站判別流程見圖1。
圖1 旅游網(wǎng)站判別流程圖
從圖1可以看出,旅游網(wǎng)站判別的核心技術(shù)有:①網(wǎng)頁抓取;②訓(xùn)練樣本語料和測試樣本語料選擇;③分詞技術(shù);④文本表示;⑤分類器訓(xùn)練。
XJTourSearch(以下簡稱XJTS)是自主設(shè)計的一個面向新疆旅游行業(yè)的垂直搜索引擎,本文采用該搜索引擎針對新疆綜合旅游、新疆地級市旅游、新疆交通旅游、新疆各大旅行社等網(wǎng)站進(jìn)行實時采集,共采集了95萬張網(wǎng)頁,采集時按網(wǎng)站類別將網(wǎng)頁分類保存至數(shù)據(jù)庫中,網(wǎng)頁采集結(jié)束后,按25∶34∶25∶10的比例從數(shù)據(jù)庫中抽取其中的9.4萬張網(wǎng)頁進(jìn)行測試研究,網(wǎng)頁采集結(jié)果詳見表1。
表1 各大網(wǎng)站網(wǎng)頁數(shù)據(jù)采集結(jié)果
3.1 網(wǎng)頁分類標(biāo)準(zhǔn)定義
我們把抓取的樣本語料及測試語料均分為2大類:①非旅游相關(guān)頁面;②旅游相關(guān)頁面。其中,非旅游相關(guān)頁面定義為網(wǎng)頁主要內(nèi)容為空、包含信息與旅游信息相關(guān)度低,或者網(wǎng)頁本身為新聞動態(tài)頁面、政策法規(guī)頁面中的任意一種頁面;不滿足以上條件的頁面都稱之為旅游相關(guān)頁面。
3.2 訓(xùn)練樣本語料和測試樣本語料選擇
組織60名學(xué)生對9.4萬張旅游網(wǎng)頁進(jìn)行人工標(biāo)定,學(xué)生共分30組,每組2人,每組標(biāo)定3 000張網(wǎng)頁,同一組內(nèi)學(xué)生標(biāo)定的網(wǎng)頁相同,對同一張網(wǎng)頁,當(dāng)且僅當(dāng)2人標(biāo)定結(jié)果相同時方可確定其類別,否則重新進(jìn)行標(biāo)定。經(jīng)過3輪不重復(fù)標(biāo)定,樣本語料的人工文本分類的結(jié)果為:旅游相關(guān)網(wǎng)頁共80 013個,非旅游相關(guān)網(wǎng)頁共13 987個。從旅游相關(guān)網(wǎng)頁和非旅游相關(guān)網(wǎng)頁中各抽取6 000張網(wǎng)頁,并從各自的6 000張網(wǎng)頁中分別隨機(jī)抽取4 500張作為訓(xùn)練樣本語料,剩余的3 000張網(wǎng)頁作為測試樣本語料進(jìn)行模型測試。
3.3 中文分詞技術(shù)
由于目前網(wǎng)頁信息大多情況下以中文連續(xù)文本的形式存在,因此,需要將連續(xù)文本進(jìn)行分詞處理,即將文本切割成獨(dú)立的漢字序列。本文選用ICTCLAS作為分詞工具。
3.4 文本表示
3.4.1 特征選擇
特征選擇算法有互增益、文檔頻率、信息增益、卡方檢驗等數(shù)十種??ǚ綑z驗是一種非常有效的特征選擇算法,它最基本的思想就是通過觀察實際值與理論值的偏差來確定理論的正確與否。首先假設(shè)2個變量是相互獨(dú)立的(即原假設(shè)),然后觀察實際值與理論值的偏差程度,如果偏差程度很小,我們就接受原假設(shè);如果偏差程度大到一定程度,我們就否定原假設(shè),而接受備擇假設(shè)??ǚ綑z驗的計算方法如下:
式中,N表示訓(xùn)練語料中的文檔總數(shù);c為某一特定類別;t表示特定的詞條;A表示屬于類別c且包含詞條t的文檔數(shù);B表示不屬于類別c但包含詞條t的文檔數(shù);C表示屬于類別c但不包含詞條t的文檔數(shù);D表示不屬于類別c也不包含詞條t的文檔數(shù)。
3.4.2 特征抽取
1)對選取的9.4萬張旅游網(wǎng)頁進(jìn)行預(yù)處理,去除網(wǎng)頁html標(biāo)簽,消除停用詞,過濾掉敏感詞,最終得到純文本集合。
2)對得到的純文本集合進(jìn)行中文分詞和建立倒排索引。本文使用的倒排索引構(gòu)建工具包為Lucene3.0。
3)讀取倒排索引文件,通過式(1)給詞語打分,并按分值排序,分值較大的詞語即為選取的特征詞。
按照詞語分值順序,本文選擇前200個詞語作為旅游網(wǎng)站頁面文本特征詞,用來測試特征詞多少對判別效果的影響。
分類器實質(zhì)是一個學(xué)習(xí)算法(或稱之為數(shù)學(xué)模型),而分類器訓(xùn)練的目標(biāo)就是通過相應(yīng)的學(xué)習(xí)算法,將數(shù)據(jù)自動分到已知類別。在機(jī)器學(xué)習(xí)中,網(wǎng)頁分類實際上是有監(jiān)督的學(xué)習(xí)方法,這就意味著我們首先需要通過人工標(biāo)定訓(xùn)練樣本語料信息的方式對分類器進(jìn)行一定程度的訓(xùn)練,然后利用訓(xùn)練出來的分類器對測試樣本語料進(jìn)行預(yù)測分類。因此,分類器的性能就取決于人工標(biāo)定信息的質(zhì)量和訓(xùn)練使用的學(xué)習(xí)算法。在中文語料的試驗中,文獻(xiàn)[5]使用了復(fù)旦大學(xué)自然語言處理實驗室提供的基準(zhǔn)語料對5種基于詞空間文本模型的分類算法進(jìn)行了測試,測試結(jié)果表明SVM綜合性能最優(yōu)。基于旅游網(wǎng)站的判別問題實際上是一個二類分類問題,所以本文選用二類SVM算法作為分類器訓(xùn)練使用的學(xué)習(xí)算法。
4.1 SVM模型原理
給定的訓(xùn)練語料為:
其中,xi∈X=Rn;yi∈Y={-1,1},i=1,…,l。
在給定的二類樣本語料線性可分情況下,一定?ω∈Rn,b ∈ R,ε>0,使得對所有的yi=1的下標(biāo)i有(ω·xi)+b≥ε,而對所有的yi=-1的下標(biāo)i有(ω·xi)+b≤-ε。記2類樣本集分別為:
定義M+的凸包conv(M+)為:
定義M-的凸包conv(M-)為:
其中,N+表示+1類樣本語料中樣本點的個數(shù);N-代表-1類樣本語料中樣本點的個數(shù)。此時,存在一個超平面ω·X+b=0將2類樣本語料零誤差正確劃分,最優(yōu)分類函數(shù)為:
在給定的二類樣本語料線性不可分的情況下,可以在條件yi[ωxi+b]-1≥0中增加一個松弛因子ξi≥0,成為yi[ωxi+b]-1+ξi≥0,引入常量C作為樣本懲罰因子,同時引入適當(dāng)?shù)暮撕瘮?shù)K(Xi,Xj)將原問題轉(zhuǎn)換為線性可分問題,即折衷考慮最少錯分樣本和最大分類間隔,從而得到廣義最優(yōu)分類面。此時,最優(yōu)分類函數(shù)為:
式(2)和式(3)中的sgn為符號函數(shù);α*為拉格朗日乘子的估計;b*為分類閾值。
4.2 數(shù)據(jù)處理
本文借助臺灣大學(xué)林智仁副教授開發(fā)的libSVM[11-13]工具包,對SVM分類及識別預(yù)測。
1)將數(shù)據(jù)轉(zhuǎn)換到libSVM指定的格式,并對數(shù)據(jù)進(jìn)行歸一化處理。
2)選擇徑向基(RBF)核函數(shù),用核函數(shù)將樣本轉(zhuǎn)換成核函數(shù)矩陣,相當(dāng)于將輸入數(shù)據(jù)通過非線性函數(shù)映射到高維空間。本文選擇K(Xi,Xj)=exp(-γ|(|Xi-Xj| )|2),γ>0作為處理特征及其屬性之間非線性關(guān)系的RBF核函數(shù)。
3)采用交叉驗證選擇最佳參數(shù)C和g(優(yōu)化參數(shù))。
4)利用得到的最佳參數(shù)C和g對訓(xùn)練樣本語料進(jìn)行訓(xùn)練,得到最優(yōu)分類函數(shù)式(2)和式(3)。
5)利用得到的分類函數(shù)對測試樣本語料進(jìn)行預(yù)測分類。
4.3 評價指標(biāo)
本文選取國際上常用的性能評價指標(biāo)對XJTS進(jìn)行整體性能評估,這些評價指標(biāo)分別是:準(zhǔn)確率(用P表示,也稱為查準(zhǔn)率)、召回率(用R表示,也稱為查全率)和F1值。假設(shè)分類器判別正例為正例的個數(shù)為A,判別正例為反例的個數(shù)為B,判別反例為正例的個數(shù)為C,判別反例為反例的個數(shù)為D,可以用形式化定義描述為:
本文結(jié)合SVM模型構(gòu)建分類器,針對訓(xùn)練樣本語料進(jìn)行學(xué)習(xí)訓(xùn)練,并用訓(xùn)練結(jié)果對測試樣本語料進(jìn)行預(yù)測分類,預(yù)測結(jié)果如圖2。
圖2 測試樣本語料文本特征預(yù)測結(jié)果
從圖2可以看出,當(dāng)特征詞個數(shù)為0~60之間時,隨著特征詞個數(shù)的增加,預(yù)測準(zhǔn)確率、召回率及F1值大致呈線性增長趨勢;當(dāng)特征詞個數(shù)為60~120之間時,隨著特征詞個數(shù)的增加,預(yù)測準(zhǔn)確率、召回率呈現(xiàn)波動趨勢,F(xiàn)1值先降后增;當(dāng)特征詞個數(shù)超過120時,隨著特征詞的增加,預(yù)測準(zhǔn)確率、召回率及F1值趨于收斂,達(dá)到98%左右。本文是在給定訓(xùn)練樣本語料的前提下,用訓(xùn)練樣本語料中已訓(xùn)練的數(shù)據(jù)去預(yù)測測試樣本語料,既減少了噪音特征對文本分類效果的影響,強(qiáng)化了有效特征詞對文本特征預(yù)測的貢獻(xiàn),同時又降低了文本特征的維數(shù),解決了高維稀疏問題。因此,在文本特征預(yù)測時,取得了良好的預(yù)測分類效果。初始階段,有些特征詞對文本分類的貢獻(xiàn)小,有些貢獻(xiàn)大,因此隨著特征詞數(shù)的增加,準(zhǔn)確率、召回率及F1值顯著增加;而在特征詞數(shù)增加到一定程度時,不同特征詞的貢獻(xiàn)趨于飽和,難以加大,準(zhǔn)確率、召回率及F1值隨特征詞個數(shù)的增加逐漸趨于穩(wěn)定。
本文利用機(jī)器學(xué)習(xí)中的SVM理論構(gòu)建旅游網(wǎng)站的頁面判別模型,并以新疆主要的旅游網(wǎng)站為例,通過定義網(wǎng)頁標(biāo)準(zhǔn)、選擇文本特征、抽取文本特征及訓(xùn)練分類器,對該模型進(jìn)行預(yù)測測試試驗。結(jié)果表明,該模型具有良好的頁面判別效果。但該模型也存在一定的不足,比如訓(xùn)練樣本語料代表性不足。當(dāng)數(shù)據(jù)規(guī)模非常大時,模型處理的復(fù)雜度會增加,處理速度和分類精度會明顯下降。在下一步的工作中,首先,需要選擇更具代表性的訓(xùn)練語料庫。其次,可以考慮將聚類和分類結(jié)合在一起,進(jìn)一步降低文本特征的維數(shù),從減少分類器的訓(xùn)練強(qiáng)度,達(dá)到提升分類速度和分類精度的目的。
[1] 互聯(lián)網(wǎng)信息中心. 第32次中國互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計報 告 [EB/OL].http://www.cnnic.cn/hlwfzyj/hlwxzbg/ hlwtjbg/201307/P020130717505343100851.pdf,2013-07-17
[2] 孫曉琳,郝俊卿.西安旅游網(wǎng)站建設(shè)的對比評價研究[J].統(tǒng)計與信息論壇,2008(8):48-52
[3] 李蓉,全朝暉,董亞蘋.旅游業(yè)在線搜索引擎評價體系的建立及分析[J].重慶郵電大學(xué)學(xué)報:社會科學(xué)版,2011(3):72-79
[4] 羅龍艷,竇厚璽.基于AHP的旅游搜索引擎評價分析[J].科技管理研究,2011(9):71-75
[5] 周文霞.現(xiàn)代文本分類技術(shù)研究[J].武警學(xué)院學(xué)報,2007(12):93-96
[6] 王專. 旅游網(wǎng)站的搜索引擎優(yōu)化[J].旅游學(xué)刊.2007(6):11-13
[7] 單松巍,馮是聰,李曉明.幾種典型特征選取方法在中文網(wǎng)頁分類上的效果比較[J].計算機(jī)工程與應(yīng)用,2003,39(22):146-148
[8] Jung J J.Using Evolution Strategy for Cooperative Focused Crawling on Semantic Web[J]. Neural Computing and Applications , 2009 (3):163-167
[9] Talvensaari T,AriPirkola, J?rvelin K,et al.Focused Web Crawling in the Acquisition of Comparable Corpora[J]. Information Retrieval , 2008 (5):81-88
[10] Yang Yiming, Slattery S, Ghani R. A Study of Approaches to Hypertext Categorization[J] . Journal of Intelligent Information Systems, 2002 , 18 ( 2-3) : 219-241
[11] LIBSVM—Alibrary for Support Vector Machines[EB/OL]. http://www.csie.ntu.edu.tw/~cjlin/libsvm/,2009-06-07
[12] Hsu C W.A Practical Guide to Support Vector Classification[EB/ OL]. http://www.csie.ntu.edu.tw/~cjlin/papers/ guide/ guide. pdf, 2009-06-20
[13] Bottou L,Lin C J.Support Vector Machine Solvers[EB/OL]. http://www.csie.ntu.edu.tw/~cjlin/ papers/bottou_lin. pdf,2007-02-08
P208
B
1672-4623(2015)01-0026-04
10.3969/j.issn.1672-4623.2015.01.009
郭鳳娟,碩士,主要從事人文地理、旅游開發(fā)等研究。
2014-12-28。
項目來源:國家自然科學(xué)基金資助項目(41130531);新疆維吾爾自治區(qū)旅游局資助項目(XJLY2012-1);新疆大學(xué)2012年精品課程建設(shè)資金資助項目。