亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于查詢(xún)?nèi)罩镜南M(fèi)意圖挖掘分析

        2016-04-18 06:51:08孫麗霞山東外事翻譯職業(yè)學(xué)院
        電子制作 2016年20期
        關(guān)鍵詞:語(yǔ)料語(yǔ)句意圖

        孫麗霞 山東外事翻譯職業(yè)學(xué)院

        基于查詢(xún)?nèi)罩镜南M(fèi)意圖挖掘分析

        孫麗霞 山東外事翻譯職業(yè)學(xué)院

        隨著互聯(lián)網(wǎng)的普及,在線(xiàn)廣告成為人們生活中不可缺少的一部分。而用戶(hù)在搜索行為中包含了大量的內(nèi)容豐富的信息,這些信息中有相當(dāng)數(shù)量都表現(xiàn)了用戶(hù)的消費(fèi)意圖。本文在進(jìn)行了充分的預(yù)處理后,在數(shù)據(jù)上進(jìn)行特征的分析和抽取, 利用SVM分類(lèi)器結(jié)合抽取出的特征進(jìn)行測(cè)試,提出對(duì)用戶(hù)搜索的消費(fèi)意圖具有較高的區(qū)分能力的方法。

        消費(fèi)意圖識(shí)別;二元分類(lèi)模型;SVM

        引言

        在網(wǎng)絡(luò)上投放廣告已經(jīng)成為了一種十分普遍,十分重要,收益簡(jiǎn)單高效的廣告投放方式。在我們點(diǎn)擊網(wǎng)頁(yè)的時(shí)候,不經(jīng)意間就能看到各種各樣的廣告。隨著在線(xiàn)廣告的不斷普及,越來(lái)越多的銷(xiāo)售商希望通過(guò)在線(xiàn)廣告來(lái)提升自己產(chǎn)品的知名度,提高自己產(chǎn)品的銷(xiāo)量。這樣一來(lái),搜索引擎便成為了銷(xiāo)售商進(jìn)行產(chǎn)品推銷(xiāo)的一個(gè)重要媒介。一些搜索引擎,如百度,搜狗等,都會(huì)記錄用戶(hù)的訪(fǎng)問(wèn)信息,例如,百度的查詢(xún)?nèi)罩揪陀捎脩?hù)搜索語(yǔ)句、用戶(hù)點(diǎn)擊標(biāo)題、用戶(hù)點(diǎn)擊URL三部分組成。其中,有些信息顯示了用戶(hù)意圖是期望購(gòu)買(mǎi)某類(lèi)產(chǎn)品的內(nèi)容。消費(fèi)對(duì)象能更好地反映出用戶(hù)的消費(fèi)興趣,真實(shí)的消費(fèi)需求和消費(fèi)類(lèi)別。

        1.構(gòu)建消費(fèi)意圖二元分類(lèi)系統(tǒng)

        第一步需要準(zhǔn)確確定有意圖或者無(wú)意圖一個(gè)標(biāo)準(zhǔn),這樣才能判斷最終得到的系統(tǒng)給出的結(jié)果是不是正確的。首先,需要得到用戶(hù)的真實(shí)查詢(xún)語(yǔ)句,在大量的,真實(shí)的語(yǔ)料上進(jìn)行分析。準(zhǔn)確的判斷出用戶(hù)的一條查詢(xún)究竟是有意圖的還是無(wú)意圖的。

        在確定了標(biāo)準(zhǔn)之后,需要根據(jù)這些數(shù)據(jù)抽取特征。所謂特征,也就是一個(gè)規(guī)則,這個(gè)規(guī)則可以較為有效的分辨出用戶(hù)的查詢(xún)是有意圖或者無(wú)意圖。在多個(gè)特征的基礎(chǔ)上,下一步就是確定如何利用這多個(gè)特征進(jìn)行分類(lèi),因而就需要找到一個(gè)合適的分類(lèi)模型,然后利用抽取出的多維特征,在數(shù)據(jù)上將每一條語(yǔ)句表示成一個(gè)由多個(gè)特征組成的向量,然后把這個(gè)向量交給分類(lèi)器去處理。分類(lèi)器則會(huì)計(jì)算每一個(gè)特征對(duì)這條語(yǔ)句是否是有意圖查詢(xún)的影響程度。進(jìn)而計(jì)算出每一個(gè)特征影響的權(quán)重,當(dāng)一個(gè)新的查詢(xún)到來(lái)的時(shí)候,可以利用分類(lèi)器訓(xùn)練出來(lái)的模型進(jìn)行測(cè)試,進(jìn)而得出結(jié)果,判斷出該條查詢(xún)是否具有消費(fèi)意圖。

        LibSvm是臺(tái)灣大學(xué)林智仁(Lin Chih-Jen)教授等開(kāi)發(fā)設(shè)計(jì)的一個(gè)簡(jiǎn)單、易于使用和快速有效的SVM模式識(shí)別與回歸的軟件包,他不但提供了編譯好的可在Windows系列系統(tǒng)的執(zhí)行文件,還提供了源代碼,方便改進(jìn)、修改以及在其它操作系統(tǒng)上應(yīng)用;該軟件對(duì)SVM所涉及的參數(shù)調(diào)節(jié)相對(duì)比較少,提供了很多的默認(rèn)參數(shù),利用這些默認(rèn)參數(shù)可以解決很多問(wèn)題;并提供了交互檢驗(yàn)(Cross Validation)的功能。該軟件可以解決C-SVM、ν-SVM、ε-SVR和ν-SVR等問(wèn)題,包括基于一對(duì)一算法的多類(lèi)模式識(shí)別問(wèn)題。

        SVM是最常用的二元分類(lèi)器之一。支持向量機(jī)SVM作為一種可訓(xùn)練的機(jī)器學(xué)習(xí)方法,依靠小樣本學(xué)習(xí)后的模型參數(shù)進(jìn)行導(dǎo)航星提取,可以得到分布均勻且恒星數(shù)量大為減少的導(dǎo)航星表。

        SVM分類(lèi)器即可以解決線(xiàn)性分類(lèi)問(wèn)題,也可以解決非線(xiàn)性分類(lèi)問(wèn)題。在解決非線(xiàn)性分類(lèi)問(wèn)題上,SVM采用了核函數(shù)的方法,可以將低維空間的非線(xiàn)性問(wèn)題映射為高維空間的線(xiàn)性問(wèn)題,并且?guī)缀醪辉黾佑?jì)算復(fù)雜度,在一定程度上避免了其他機(jī)器學(xué)習(xí)算法的“維度災(zāi)難”的問(wèn)題。SVM分類(lèi)器中常用的幾種核函數(shù)包括:(1)線(xiàn)性核函數(shù),如公式(1-1)所示;(2)多項(xiàng)式核函數(shù),如公式(1-2)所示;(3)徑向基函數(shù),如公式(1-3)所示;(4)二層神經(jīng)網(wǎng)絡(luò)核函數(shù),如公式(1-4)所示。

        如果想對(duì)消費(fèi)意圖進(jìn)行準(zhǔn)確的分類(lèi),首先就要有一個(gè)高質(zhì)量的初始語(yǔ)料庫(kù)。本數(shù)據(jù)來(lái)源于百度2012年3月份的部分用戶(hù)查詢(xún)數(shù)據(jù)。數(shù)據(jù)由用戶(hù)查詢(xún)語(yǔ)句、用戶(hù)點(diǎn)擊標(biāo)題、用戶(hù)點(diǎn)擊URL三部分組成。

        用戶(hù)查詢(xún)語(yǔ)句:用戶(hù)在搜索框中輸入的內(nèi)容

        用戶(hù)點(diǎn)擊標(biāo)題:用戶(hù)點(diǎn)擊的網(wǎng)頁(yè)對(duì)應(yīng)的title

        用戶(hù)點(diǎn)擊URL:用戶(hù)點(diǎn)擊的網(wǎng)頁(yè)對(duì)應(yīng)的URL

        由于人們對(duì)消費(fèi)意圖這一概念比較模糊,而且對(duì)于不同的人,會(huì)有不同的理解,所以在這里嚴(yán)格定義消費(fèi)意圖的概念如下:

        (1)用戶(hù)搜索語(yǔ)句或點(diǎn)擊標(biāo)題中有明確的購(gòu)買(mǎi)意向,如 “求推薦一部性?xún)r(jià)比高的手機(jī)”這條語(yǔ)料都很明確的具有消費(fèi)意圖,指出了消費(fèi)對(duì)象,并出現(xiàn)了購(gòu)買(mǎi)觸發(fā)詞,如“推薦”“求”等。

        (2)明確的指出了購(gòu)買(mǎi)意向,但沒(méi)有觸發(fā)詞“水貨智能機(jī),1000元以?xún)?nèi)”這類(lèi)數(shù)據(jù)雖然沒(méi)有出現(xiàn)購(gòu)買(mǎi)意愿詞,但是仍然可以認(rèn)為這些語(yǔ)料具有顯式消費(fèi)意圖。

        (3)用戶(hù)點(diǎn)擊網(wǎng)站的標(biāo)題具有消費(fèi)意圖傾向“三星Galaxy S6 報(bào)價(jià)_中關(guān)村在線(xiàn)”

        這類(lèi)數(shù)據(jù)可能用戶(hù)只搜索了“三星Galaxy s6”,單單從這個(gè)搜索中,我們并不能確定該查詢(xún)具有消費(fèi)意圖,但是從用戶(hù)的點(diǎn)擊上可知其應(yīng)當(dāng)具有消費(fèi)傾向。

        (4)用戶(hù)點(diǎn)擊的URL中包含電商網(wǎng)站

        如用戶(hù)搜索“手機(jī)”后,點(diǎn)擊淘寶網(wǎng),僅僅通過(guò)搜索詞并不能看出用戶(hù)具有消費(fèi)意圖,但是通過(guò)用戶(hù)點(diǎn)擊的URL:http://www. taobao.com/,可以判定用戶(hù)的點(diǎn)擊行為具有消費(fèi)意圖。

        2.結(jié)語(yǔ)

        一個(gè)消費(fèi)意圖二元分類(lèi)系統(tǒng),主要針對(duì)用戶(hù)的搜索數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,進(jìn)而在數(shù)據(jù)上進(jìn)行特征的分析和抽取,最終利用特征選擇模塊,獲得了最優(yōu)特征。

        [1]張鴻, 莊越挺, 吳飛. 一種基于內(nèi)容相關(guān)性的跨媒體檢索方法. 計(jì)算機(jī)學(xué)報(bào). 2010, 31(5): 820-826.

        [2]H. K. Dai, L. Zhao, Z. Nie, J.-R. Wen, L. Wang, and Y. Li. Detecting online commercial intention (oci). In Proc. of WWW '06, pages 829-837, 2006.

        [3]趙妍妍, 秦兵, 劉挺. 文本情感分析. 軟件學(xué)報(bào). 2010, 21(8):1834-1848.

        [4]劉非凡, 趙軍, 呂碧波, 徐波, 于浩, 夏迎炬. 面向商務(wù)信息抽取的產(chǎn)品命名實(shí)體識(shí)別研究. 中文信息學(xué)報(bào). 2006, 20(1): 7-13.

        孫麗霞,女,1982年出生,民族∶漢,籍貫∶山東省乳山市人,學(xué)歷∶本科,職稱(chēng)∶講師,主要研究方向∶計(jì)算機(jī)軟件工程。

        猜你喜歡
        語(yǔ)料語(yǔ)句意圖
        原始意圖、對(duì)抗主義和非解釋主義
        法律方法(2022年2期)2022-10-20 06:42:20
        陸游詩(shī)寫(xiě)意圖(國(guó)畫(huà))
        制定法解釋與立法意圖的反事實(shí)檢驗(yàn)
        法律方法(2021年3期)2021-03-16 05:56:58
        重點(diǎn):語(yǔ)句銜接
        精彩語(yǔ)句
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語(yǔ)料
        國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類(lèi)型與收集方法
        如何搞定語(yǔ)句銜接題
        国产99久久久国产精品~~牛| 一区二区特别黄色大片| 亚洲一区域二区域三区域四| 亚洲av丰满熟妇在线播放| 国产黄在线观看免费观看不卡 | 国产大片在线观看91| 久久久精品人妻一区二区三区四区 | 亚洲夫妻性生活视频网站| 国产无卡视频在线观看| 久久婷婷色香五月综合缴缴情| 精品人妻人人做人人爽夜夜爽| 91华人在线| 精品国产av一区二区三区| 日韩久久无码免费毛片软件| 欧美成a人片在线观看久| 精品三级久久久久久久| 日本少妇熟女一区二区| 国产偷久久久精品专区| 亚洲人成网站77777在线观看| 久久精品国产亚洲精品色婷婷| 在线观看国产成人自拍视频| 亚洲人精品亚洲人成在线| 欧美在线观看一区二区| 亚洲成生人免费av毛片| 妺妺窝人体色777777| 亚洲av男人的天堂在线观看 | 国产一级内射视频在线观看| 亚洲国产日韩欧美一区二区三区 | 国产精品va在线观看一| 天堂网日韩av在线播放一区| 永久黄网站免费视频性色| 欧美精品中文字幕亚洲专区| 97自拍视频国产在线观看| 亚洲中文字幕日产无码| 亚洲av无码第一区二区三区| 中文字幕亚洲综合久久| 亚洲一区二区三区精品| 亚洲国产精品日韩av不卡在线| 国产妇女乱一性一交| 久久国产精品免费专区| 一本久久a久久精品vr综合|