馬騫
(西安航空職業(yè)技術(shù)學(xué)院,陜西西安 710089)
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展與普及,電子商務(wù)逐漸被應(yīng)用于貨幣交換、商品買(mǎi)賣(mài)與旅游服務(wù)等多個(gè)領(lǐng)域[1-2]。在這些領(lǐng)域中,由于旅游行業(yè)嚴(yán)重依賴(lài)于資金流動(dòng)、信息傳遞與流通,所以如何利用高效率的信息引導(dǎo)普通的游客,是旅游景點(diǎn)提高經(jīng)濟(jì)效益的重要環(huán)節(jié)[3-7]。而在與互聯(lián)網(wǎng)融合的背景下,通過(guò)借鑒淘寶等商品平臺(tái),攜程網(wǎng)或途牛等旅游服務(wù)平臺(tái)也逐漸引入針對(duì)旅游目的地的游客評(píng)價(jià)等功能,從而優(yōu)化其相應(yīng)旅游目的地的服務(wù)產(chǎn)品。然而,隨著游客數(shù)量的快速增加,對(duì)于評(píng)論數(shù)據(jù)的情感分析也逐漸成為旅游服務(wù)平臺(tái)亟待解決的技術(shù)問(wèn)題[8]。目前,國(guó)內(nèi)外的學(xué)者提出一些經(jīng)典的解決方法,例如:Bo Yang 等學(xué)者通過(guò)引入機(jī)器學(xué)習(xí)方法,對(duì)互聯(lián)網(wǎng)上的觀眾影評(píng)進(jìn)行了準(zhǔn)確度較高的情感分析[9];Sanjiv Das 等學(xué)者針對(duì)投資者對(duì)股票走勢(shì)的評(píng)價(jià),建立了情感分析的計(jì)算模型[10]。然而,這些研究所提出的分析模型依然存在準(zhǔn)確度較低的問(wèn)題,難以應(yīng)用到大規(guī)模的旅游服務(wù)平臺(tái)中。
為了進(jìn)一步提高游客在旅游服務(wù)平臺(tái)上的分析準(zhǔn)確度,基于支持向量機(jī)等機(jī)器學(xué)習(xí)分類(lèi)算法[11],文中提出了針對(duì)游客評(píng)論數(shù)據(jù)的智能分類(lèi)與分析技術(shù)。使用數(shù)據(jù)的自動(dòng)抓取技術(shù),實(shí)現(xiàn)了旅游服務(wù)平臺(tái)的數(shù)據(jù)獲取與預(yù)處理操作,通過(guò)引入支持向量機(jī)技術(shù),文中提高了分析模型的泛化能力,實(shí)現(xiàn)具有較高準(zhǔn)確度的情感分析技術(shù)。相關(guān)仿真結(jié)果表明,基于機(jī)器學(xué)習(xí)方法的游客評(píng)論數(shù)據(jù)分析技術(shù)優(yōu)于傳統(tǒng)的語(yǔ)義分析方法。
在數(shù)學(xué)領(lǐng)域中,情感分類(lèi)是一個(gè)映射過(guò)程。令a表示由多種數(shù)據(jù)組成的待分類(lèi)集合,b表示經(jīng)過(guò)精確分類(lèi)之后的類(lèi)別集合,則情感分類(lèi)f,可用式(1)表達(dá)。
在當(dāng)前研究中,情感分類(lèi)技術(shù)主要可分為語(yǔ)義分析[12-14]與機(jī)器學(xué)習(xí)[15-16]兩類(lèi),其簡(jiǎn)介如下:
1)基于語(yǔ)義分析的情感分類(lèi)技術(shù),是通過(guò)對(duì)詞語(yǔ)的語(yǔ)義傾向進(jìn)行分析的情感分類(lèi)方法,該方法需要提取、表示與統(tǒng)計(jì)詞語(yǔ)的語(yǔ)義特征。其分類(lèi)流程如圖1 所示。
圖1 基于語(yǔ)義分析的情感分類(lèi)流程圖
2)基于機(jī)器學(xué)習(xí)的情感分類(lèi)技術(shù)需要使用統(tǒng)計(jì)學(xué),比較當(dāng)前數(shù)據(jù)與已定義的分類(lèi)特征向量的相似程度,從而完成文本數(shù)據(jù)的情感分類(lèi)。其分類(lèi)流程如圖2 所示。
圖2 基于機(jī)器學(xué)習(xí)的情感分類(lèi)流程圖
一般而言,基于機(jī)器學(xué)習(xí)的常用情感分類(lèi)技術(shù),主要包括支持向量機(jī)(SVM)、K 近鄰與樸素貝葉斯算法等。在基于語(yǔ)義分析與機(jī)器學(xué)習(xí)的情感分類(lèi)技術(shù)中,由于支持向量機(jī)技術(shù)具有準(zhǔn)確度較高的分類(lèi)效果,故文中選用該技術(shù)對(duì)游客的評(píng)論數(shù)據(jù)進(jìn)行智能分析。
在智能分析技術(shù)中,鑒于用戶(hù)數(shù)量與關(guān)注度均較高,所以文中的訓(xùn)練集與測(cè)試集數(shù)據(jù)均來(lái)自于攜程網(wǎng)的數(shù)據(jù)庫(kù)。為快速獲取大量的數(shù)據(jù),利用Java語(yǔ)言在Eclipes 平臺(tái)上,分別編寫(xiě)了網(wǎng)頁(yè)抓取程序Crawler 與解析數(shù)據(jù)程序Parse。利用抓取程序與用戶(hù)數(shù)據(jù),建立了由旅游景點(diǎn)信息與評(píng)論信息組成的數(shù)據(jù)表。其中,旅游景點(diǎn)信息主要由城市序號(hào)、城市名稱(chēng)、游客人數(shù)、綜合評(píng)分、景點(diǎn)評(píng)分、評(píng)論數(shù)量與評(píng)價(jià)時(shí)間等組成;評(píng)論信息主要由評(píng)論序號(hào)、城市序號(hào)、城市名稱(chēng)、評(píng)論內(nèi)容、游客評(píng)分、評(píng)價(jià)時(shí)間與游客姓名等組成。
為便于機(jī)器學(xué)習(xí)方法的分類(lèi)與計(jì)算,文中還需要對(duì)原始的評(píng)論數(shù)據(jù)進(jìn)行必要的預(yù)處理。其中,數(shù)據(jù)預(yù)處理過(guò)程又可分為訓(xùn)練集與測(cè)試集、文本清理與初始分類(lèi)流程,其詳細(xì)內(nèi)容如下。
1)訓(xùn)練集與測(cè)試集
在數(shù)據(jù)預(yù)處理的過(guò)程中,文中需要對(duì)數(shù)據(jù)庫(kù)中的原始數(shù)據(jù)進(jìn)行反復(fù)地調(diào)整與運(yùn)算,從而選取出由大量游客評(píng)論數(shù)據(jù)組成的訓(xùn)練集;同時(shí),選擇出由一定數(shù)量評(píng)論數(shù)據(jù)與分類(lèi)結(jié)果組成的測(cè)試集。利用數(shù)據(jù)的自動(dòng)抓取程序,文中從攜程網(wǎng)平臺(tái)上獲取了10個(gè)旅游景點(diǎn)的在線(xiàn)評(píng)論數(shù)據(jù)。經(jīng)過(guò)反復(fù)地訓(xùn)練與測(cè)試,文中對(duì)多個(gè)分類(lèi)器的參數(shù)進(jìn)行了優(yōu)化與改進(jìn)。
2)文本清理與初始分類(lèi)
在旅游服務(wù)平臺(tái)上,原始數(shù)據(jù)的自動(dòng)抓取程序是直接復(fù)制相應(yīng)的評(píng)論內(nèi)容,導(dǎo)致了抓取的數(shù)據(jù)中包含較多英文、符號(hào)等額外信息。所以,文中需要對(duì)原始的抓取數(shù)據(jù)進(jìn)行一定的“過(guò)濾”,該過(guò)程主要由以下行為組成。
①剔除無(wú)意義的游客評(píng)論數(shù)據(jù)。其中,無(wú)意義的評(píng)論數(shù)據(jù)主要包括3 種數(shù)據(jù),即外文或符號(hào)等無(wú)法判別內(nèi)容、特別簡(jiǎn)略而無(wú)法判斷情感傾向的內(nèi)容、包含大量廣告的評(píng)論內(nèi)容;
②精簡(jiǎn)有意義的游客評(píng)論數(shù)據(jù)。在具有參考意義的評(píng)論數(shù)據(jù)中,大量的英文單詞或怪異的表情符號(hào)等內(nèi)容較難反映游客的真實(shí)情感傾向,需要進(jìn)行一定的精簡(jiǎn)與優(yōu)化。
為了實(shí)現(xiàn)更加精確的評(píng)論自動(dòng)分類(lèi),文中需要對(duì)經(jīng)過(guò)清理的文本數(shù)據(jù)進(jìn)行人工初始分類(lèi),即將文本的評(píng)價(jià)內(nèi)容簡(jiǎn)單分成積極正面評(píng)價(jià)與消極負(fù)面評(píng)價(jià)內(nèi)容,從而盡量提高分類(lèi)的準(zhǔn)確度。
當(dāng)完成原始數(shù)據(jù)的預(yù)處理后,基于機(jī)器學(xué)習(xí)的評(píng)論數(shù)據(jù)分類(lèi)技術(shù)還需要執(zhí)行特征表示、特征提取與分類(lèi)計(jì)算等多個(gè)流程,其詳細(xì)介紹如下。
1)特征表示
由于機(jī)器學(xué)習(xí)算法無(wú)法直接對(duì)文本數(shù)據(jù)進(jìn)行處理與運(yùn)算,所以文中利用向量空間模型表示文本數(shù)據(jù)。
一般而言,向量空間模型是使用具有權(quán)值的特征向量空間表示文本的方法。在所有文本數(shù)據(jù)中,每個(gè)文本d均由n維向量空間V的一個(gè)點(diǎn)來(lái)表示,即V(d)=(w1,…,wn)。其中,向量空間的分量wi(1 ≤i≤n)均表示文本數(shù)據(jù)在特征向量空間中的權(quán)重值。利用該方式,文中即可將游客的文本數(shù)據(jù)逐一匹配到n維的特征向量空間。
2)特征提取
由于中文的詞語(yǔ)總數(shù)較多,所以經(jīng)過(guò)特征表示的特征向量,仍需要進(jìn)行特征提取,從而降低特征向量的維度。目前,針對(duì)中文文本的常用特征提取方法主要有:文檔頻率統(tǒng)計(jì)、信息增益計(jì)算與交互信息統(tǒng)計(jì)等。其中,因?yàn)闄C(jī)器學(xué)習(xí)方法被用于分類(lèi)計(jì)算,所以文中選用信息增益計(jì)算的方法來(lái)完成特征提取。
通常,信息增益計(jì)算是廣泛用于機(jī)器學(xué)習(xí)領(lǐng)域的特征提取方法,令t表示文檔詞語(yǔ),c表示文檔類(lèi)別,s表示文檔的類(lèi)別數(shù)量,p(c)表示c類(lèi)文檔在中文語(yǔ)料集合中的出現(xiàn)概率,而p(t)與表示文檔詞語(yǔ)t在中文語(yǔ)料集合中的出現(xiàn)與不出現(xiàn)的概率,分別表示文檔詞語(yǔ)t在c類(lèi)文檔中出現(xiàn)與不出現(xiàn)的概率。則文本特征提取的計(jì)算結(jié)果I(t)如式(2)所示。
3)分類(lèi)計(jì)算
為了提高評(píng)論數(shù)據(jù)的分析準(zhǔn)確度,文中選用支持向量機(jī)(SVM)技術(shù),作為評(píng)論文本數(shù)據(jù)的主要分析工具。在概率論與數(shù)理統(tǒng)計(jì)原理的基礎(chǔ)上,以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為運(yùn)算基準(zhǔn)原則,SVM 的學(xué)習(xí)泛化能力更高,解決了傳統(tǒng)機(jī)器學(xué)習(xí)算法始終存在的非線(xiàn)性與過(guò)學(xué)習(xí)等問(wèn)題。其基本思想為利用監(jiān)督學(xué)習(xí)的方法,對(duì)文本數(shù)據(jù)進(jìn)行二元線(xiàn)性分類(lèi)。
而樣本集F的所有點(diǎn)(xi,yi)滿(mǎn)足以下不等式:
而在數(shù)據(jù)空間Rd中,樣本數(shù)據(jù)x到分類(lèi)超平面距離l的計(jì)算方法,如式(5)所示。
通常而言,為了實(shí)現(xiàn)更加精確的分類(lèi),文中需要尋找最優(yōu)的分類(lèi)超平面,而這一問(wèn)題可以轉(zhuǎn)化為支持向量機(jī)二次規(guī)劃的數(shù)學(xué)計(jì)算模型。其中,該數(shù)學(xué)模型的目標(biāo)函數(shù)obj(w)如式(6)所示。
對(duì)于樣本數(shù)據(jù)集F={(xi,yi)},令i=1,2,…,s,則該數(shù)學(xué)模型的約束條件如式(7)所示。
此外,令ai表示第i個(gè)樣本對(duì)應(yīng)的拉格朗日算子,文中分別將目標(biāo)函數(shù)與約束條件細(xì)化為式(8)與式(9):
根據(jù)庫(kù)恩塔克爾定理,通過(guò)一定的推導(dǎo)可知,上述數(shù)學(xué)模型的優(yōu)化解必然滿(mǎn)足以下條件,如式(10)所示。
其中,在大部分樣本數(shù)據(jù)的求解過(guò)程中,ai=0 。而當(dāng)ai≠0 時(shí)的少部分樣本即為支持向量,通過(guò)推導(dǎo)與求解可得分類(lèi)判別函數(shù)D(x,y),如式(11)所示。
為驗(yàn)證文中提出的智能分析方法的有效性,利用攜程網(wǎng)的游客評(píng)論內(nèi)容,分別對(duì)基于語(yǔ)義分析與機(jī)器學(xué)習(xí)的智能分析方法進(jìn)行了仿真與分析。在仿真過(guò)程中,文中采用卡方檢驗(yàn)的方法衡量這兩種文本分析方法的優(yōu)劣。需要說(shuō)明的是,所有的仿真均采用相同的樣本數(shù)據(jù)與檢驗(yàn)條件。經(jīng)過(guò)多種訓(xùn)練集與測(cè)試集等樣本數(shù)據(jù)的測(cè)試和分析,文中得到了測(cè)試集的分類(lèi)正確率結(jié)果。其中,當(dāng)訓(xùn)練集樣本數(shù)據(jù)的數(shù)量分別為50、100、200 與400 時(shí),這兩種方法的測(cè)試集分類(lèi)正確率,如表1 所示。
表1 測(cè)試集評(píng)論數(shù)據(jù)分類(lèi)正確率結(jié)果
由表1 可知,在同樣的仿真條件下,基于機(jī)器學(xué)習(xí)方法的智能分析技術(shù)具有較高的正確率,顯著優(yōu)于傳統(tǒng)的語(yǔ)義分析方法,證明了文中所提分析技術(shù)的優(yōu)越性。
針對(duì)游客評(píng)論文本的數(shù)據(jù)分析問(wèn)題,文中基于機(jī)器學(xué)習(xí)方法提出了一種文本智能分析技術(shù)。通過(guò)引入支持向量機(jī)的數(shù)據(jù)處理方法,這種智能分析技術(shù)顯著提高了游客評(píng)論數(shù)據(jù)的分類(lèi)正確率,具有一定的借鑒與參考意義。然而,由于仿真條件的限制,文中并沒(méi)有對(duì)這種技術(shù)進(jìn)行大規(guī)模的仿真與分析,該技術(shù)的穩(wěn)定性表現(xiàn)無(wú)法判定,下一步將致力于解決這一問(wèn)題。