孫麗霞 山東外事翻譯職業(yè)學(xué)院
基于查詢?nèi)罩镜南M意圖挖掘分析
孫麗霞 山東外事翻譯職業(yè)學(xué)院
隨著互聯(lián)網(wǎng)的普及,在線廣告成為人們生活中不可缺少的一部分。而用戶在搜索行為中包含了大量的內(nèi)容豐富的信息,這些信息中有相當數(shù)量都表現(xiàn)了用戶的消費意圖。本文在進行了充分的預(yù)處理后,在數(shù)據(jù)上進行特征的分析和抽取, 利用SVM分類器結(jié)合抽取出的特征進行測試,提出對用戶搜索的消費意圖具有較高的區(qū)分能力的方法。
消費意圖識別;二元分類模型;SVM
在網(wǎng)絡(luò)上投放廣告已經(jīng)成為了一種十分普遍,十分重要,收益簡單高效的廣告投放方式。在我們點擊網(wǎng)頁的時候,不經(jīng)意間就能看到各種各樣的廣告。隨著在線廣告的不斷普及,越來越多的銷售商希望通過在線廣告來提升自己產(chǎn)品的知名度,提高自己產(chǎn)品的銷量。這樣一來,搜索引擎便成為了銷售商進行產(chǎn)品推銷的一個重要媒介。一些搜索引擎,如百度,搜狗等,都會記錄用戶的訪問信息,例如,百度的查詢?nèi)罩揪陀捎脩羲阉髡Z句、用戶點擊標題、用戶點擊URL三部分組成。其中,有些信息顯示了用戶意圖是期望購買某類產(chǎn)品的內(nèi)容。消費對象能更好地反映出用戶的消費興趣,真實的消費需求和消費類別。
第一步需要準確確定有意圖或者無意圖一個標準,這樣才能判斷最終得到的系統(tǒng)給出的結(jié)果是不是正確的。首先,需要得到用戶的真實查詢語句,在大量的,真實的語料上進行分析。準確的判斷出用戶的一條查詢究竟是有意圖的還是無意圖的。
在確定了標準之后,需要根據(jù)這些數(shù)據(jù)抽取特征。所謂特征,也就是一個規(guī)則,這個規(guī)則可以較為有效的分辨出用戶的查詢是有意圖或者無意圖。在多個特征的基礎(chǔ)上,下一步就是確定如何利用這多個特征進行分類,因而就需要找到一個合適的分類模型,然后利用抽取出的多維特征,在數(shù)據(jù)上將每一條語句表示成一個由多個特征組成的向量,然后把這個向量交給分類器去處理。分類器則會計算每一個特征對這條語句是否是有意圖查詢的影響程度。進而計算出每一個特征影響的權(quán)重,當一個新的查詢到來的時候,可以利用分類器訓(xùn)練出來的模型進行測試,進而得出結(jié)果,判斷出該條查詢是否具有消費意圖。
LibSvm是臺灣大學(xué)林智仁(Lin Chih-Jen)教授等開發(fā)設(shè)計的一個簡單、易于使用和快速有效的SVM模式識別與回歸的軟件包,他不但提供了編譯好的可在Windows系列系統(tǒng)的執(zhí)行文件,還提供了源代碼,方便改進、修改以及在其它操作系統(tǒng)上應(yīng)用;該軟件對SVM所涉及的參數(shù)調(diào)節(jié)相對比較少,提供了很多的默認參數(shù),利用這些默認參數(shù)可以解決很多問題;并提供了交互檢驗(Cross Validation)的功能。該軟件可以解決C-SVM、ν-SVM、ε-SVR和ν-SVR等問題,包括基于一對一算法的多類模式識別問題。
SVM是最常用的二元分類器之一。支持向量機SVM作為一種可訓(xùn)練的機器學(xué)習(xí)方法,依靠小樣本學(xué)習(xí)后的模型參數(shù)進行導(dǎo)航星提取,可以得到分布均勻且恒星數(shù)量大為減少的導(dǎo)航星表。
SVM分類器即可以解決線性分類問題,也可以解決非線性分類問題。在解決非線性分類問題上,SVM采用了核函數(shù)的方法,可以將低維空間的非線性問題映射為高維空間的線性問題,并且?guī)缀醪辉黾佑嬎銖?fù)雜度,在一定程度上避免了其他機器學(xué)習(xí)算法的“維度災(zāi)難”的問題。SVM分類器中常用的幾種核函數(shù)包括:(1)線性核函數(shù),如公式(1-1)所示;(2)多項式核函數(shù),如公式(1-2)所示;(3)徑向基函數(shù),如公式(1-3)所示;(4)二層神經(jīng)網(wǎng)絡(luò)核函數(shù),如公式(1-4)所示。
如果想對消費意圖進行準確的分類,首先就要有一個高質(zhì)量的初始語料庫。本數(shù)據(jù)來源于百度2012年3月份的部分用戶查詢數(shù)據(jù)。數(shù)據(jù)由用戶查詢語句、用戶點擊標題、用戶點擊URL三部分組成。
用戶查詢語句:用戶在搜索框中輸入的內(nèi)容
用戶點擊標題:用戶點擊的網(wǎng)頁對應(yīng)的title
用戶點擊URL:用戶點擊的網(wǎng)頁對應(yīng)的URL
由于人們對消費意圖這一概念比較模糊,而且對于不同的人,會有不同的理解,所以在這里嚴格定義消費意圖的概念如下:
(1)用戶搜索語句或點擊標題中有明確的購買意向,如 “求推薦一部性價比高的手機”這條語料都很明確的具有消費意圖,指出了消費對象,并出現(xiàn)了購買觸發(fā)詞,如“推薦”“求”等。
(2)明確的指出了購買意向,但沒有觸發(fā)詞“水貨智能機,1000元以內(nèi)”這類數(shù)據(jù)雖然沒有出現(xiàn)購買意愿詞,但是仍然可以認為這些語料具有顯式消費意圖。
(3)用戶點擊網(wǎng)站的標題具有消費意圖傾向“三星Galaxy S6 報價_中關(guān)村在線”
這類數(shù)據(jù)可能用戶只搜索了“三星Galaxy s6”,單單從這個搜索中,我們并不能確定該查詢具有消費意圖,但是從用戶的點擊上可知其應(yīng)當具有消費傾向。
(4)用戶點擊的URL中包含電商網(wǎng)站
如用戶搜索“手機”后,點擊淘寶網(wǎng),僅僅通過搜索詞并不能看出用戶具有消費意圖,但是通過用戶點擊的URL:http://www. taobao.com/,可以判定用戶的點擊行為具有消費意圖。
一個消費意圖二元分類系統(tǒng),主要針對用戶的搜索數(shù)據(jù),對數(shù)據(jù)進行預(yù)處理,進而在數(shù)據(jù)上進行特征的分析和抽取,最終利用特征選擇模塊,獲得了最優(yōu)特征。
[1]張鴻, 莊越挺, 吳飛. 一種基于內(nèi)容相關(guān)性的跨媒體檢索方法. 計算機學(xué)報. 2010, 31(5): 820-826.
[2]H. K. Dai, L. Zhao, Z. Nie, J.-R. Wen, L. Wang, and Y. Li. Detecting online commercial intention (oci). In Proc. of WWW '06, pages 829-837, 2006.
[3]趙妍妍, 秦兵, 劉挺. 文本情感分析. 軟件學(xué)報. 2010, 21(8):1834-1848.
[4]劉非凡, 趙軍, 呂碧波, 徐波, 于浩, 夏迎炬. 面向商務(wù)信息抽取的產(chǎn)品命名實體識別研究. 中文信息學(xué)報. 2006, 20(1): 7-13.
孫麗霞,女,1982年出生,民族∶漢,籍貫∶山東省乳山市人,學(xué)歷∶本科,職稱∶講師,主要研究方向∶計算機軟件工程。