亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)技術(shù)的詞語(yǔ)相關(guān)性計(jì)算在電商廣告關(guān)鍵詞選詞中的應(yīng)用

2021-05-25 10:24:36張函

科學(xué)技術(shù)創(chuàng)新 2021年11期

張函

（金華職業(yè)技術(shù)學(xué)院，浙江金華321000）

在電商網(wǎng)店的運(yùn)營(yíng)過(guò)程中，搜索營(yíng)銷(xiāo)幾乎是電商企業(yè)所必須投入的營(yíng)銷(xiāo)方式，特別是在當(dāng)今競(jìng)爭(zhēng)日益激烈的主流電子商務(wù)平臺(tái)上開(kāi)設(shè)店鋪，商家為搜索營(yíng)銷(xiāo)投入的成本約占到企業(yè)總體營(yíng)銷(xiāo)成本的30%以上。我們以淘寶直通車(chē)為例，簡(jiǎn)要介紹一下電商搜索營(yíng)銷(xiāo)的業(yè)務(wù)模式和流程。淘寶的直通車(chē)功能本質(zhì)上是對(duì)競(jìng)價(jià)搜索模式的一種創(chuàng)新。效果示以圖文結(jié)合的方式為主,本質(zhì)上是嚴(yán)格基于點(diǎn)擊收費(fèi)(CPC)模式。用戶(hù)利用某關(guān)鍵詞進(jìn)行檢索時(shí)，搜索結(jié)果頁(yè)面出現(xiàn)該關(guān)鍵詞相關(guān)的廣告內(nèi)容。

關(guān)鍵詞選擇作為競(jìng)價(jià)排名廣告的核心要素，被認(rèn)為是廣告投放者（電商賣(mài)家）提高績(jī)效需要考慮的重中之重。關(guān)鍵詞的選擇會(huì)極大地影響競(jìng)價(jià)排名廣告的效果，不僅是因?yàn)殛P(guān)鍵詞與用戶(hù)的搜索詞之間的相關(guān)性決定了位置的高低，更是因?yàn)殛P(guān)鍵詞本身就是對(duì)用戶(hù)群的一個(gè)劃分。

近年來(lái)，隨著大數(shù)據(jù)、人工智能的發(fā)展，通過(guò)智能化的算法策略代替或輔助人工進(jìn)行關(guān)鍵詞選取，成為一種非常常見(jiàn)的選詞方式。

1 智能化選詞流程概述

智能化選詞是整個(gè)廣告推廣平臺(tái)中的一部分。在廣告推廣平臺(tái)的運(yùn)行流程中，商家選擇商品，然后后提交給平臺(tái)，并設(shè)置好推廣需求。平臺(tái)替自動(dòng)分析商品詳情，并根據(jù)商家設(shè)置的需求為商品智能化地選定推廣關(guān)鍵詞。然后，平臺(tái)可根據(jù)已制定的競(jìng)價(jià)模型，為推廣關(guān)鍵詞設(shè)置價(jià)格，并提交給電商平臺(tái)后臺(tái)（如淘寶后臺(tái)接口），以進(jìn)行正式的投放推廣。以上過(guò)程可以用圖1 概括：

圖1

在這個(gè)過(guò)程中，智能化選詞是相當(dāng)關(guān)鍵的一個(gè)環(huán)節(jié)，選詞質(zhì)量的好壞直接決定了推廣的效果。因此，我們需要關(guān)注智能化選詞的具體過(guò)程。

基于對(duì)某知名電商企業(yè)服務(wù)平臺(tái)中智能化選詞平臺(tái)中選詞流程的抽象和概括，智能化選詞的基本流程如圖2 所示。

圖2

從圖中可以看出，在詞庫(kù)中關(guān)鍵詞的質(zhì)量保持一定的情況下，關(guān)鍵詞和店鋪信息（包括標(biāo)題、詳情）的相關(guān)性對(duì)選詞的質(zhì)量至關(guān)重要。而如何智能化地計(jì)算關(guān)鍵詞調(diào)整和店鋪信息之間的相關(guān)性，進(jìn)而取得更好的選詞效果，是本文重點(diǎn)討論的課題。

2 詞語(yǔ)相關(guān)性計(jì)算的基本方法概述

2.1 詞語(yǔ)相關(guān)性概述

在電商廣告推廣平臺(tái)智能選詞的業(yè)務(wù)場(chǎng)景里，詞語(yǔ)的相關(guān)性是指一個(gè)商品所使用的關(guān)鍵詞與商品的實(shí)際信息和屬性的相關(guān)程度。換言之，詞語(yǔ)相關(guān)性的高低，就表征了關(guān)鍵詞的含義是否是商品所具有的屬性，或者關(guān)鍵詞是否能夠體現(xiàn)出商品某些方面的特征。

在多數(shù)電商平臺(tái)中，關(guān)鍵詞的相關(guān)性采用類(lèi)目相關(guān)性和語(yǔ)義相關(guān)性二者的加權(quán)。其中，語(yǔ)義相關(guān)性比較容易理解，指的是這個(gè)關(guān)鍵詞與商品描述信息的相符程度。之所以需要加入類(lèi)目相關(guān)性，是因?yàn)楝F(xiàn)在很多詞語(yǔ)的意義發(fā)生了很大的變化，同一個(gè)詞代表了完全不同類(lèi)目的事物。例如，在“水果”類(lèi)目中的“蘋(píng)果”和在“數(shù)碼產(chǎn)品”類(lèi)目中的“蘋(píng)果”顯然是指不同的商品。本文重點(diǎn)討論的是語(yǔ)義相關(guān)性的計(jì)算。

在很多智能選詞平臺(tái)的實(shí)現(xiàn)中，采用分詞后計(jì)算重合詞數(shù)量的方式來(lái)計(jì)算詞語(yǔ)相關(guān)性是一種普遍的方法。而采取這種方案的前提是需要對(duì)商品的信息（例如標(biāo)題，詳情等）的文本，以及對(duì)候選詞庫(kù)中的關(guān)鍵詞進(jìn)行高質(zhì)量的中文分詞。

2.2 中文分詞方法簡(jiǎn)介

分詞就是將連續(xù)的字序列按照一定的規(guī)范重新切分并組合成詞序列的過(guò)程。在英文的行文中，單詞之間是以空格作為自然分界符的。而中文只是字、句和段能通過(guò)明顯的分界符來(lái)簡(jiǎn)單劃界，唯獨(dú)詞沒(méi)有一個(gè)形式上的分界符。

不同的中文分詞方法根據(jù)其實(shí)現(xiàn)原理和特點(diǎn)，主要分為基于詞典的分詞算法和統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法兩大類(lèi)。常見(jiàn)的分詞器都是使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法和詞典相結(jié)合，一方面能夠提高分詞準(zhǔn)確率，另一方面能夠改善領(lǐng)域適應(yīng)性。

2.3 基于重合詞數(shù)量的相關(guān)性計(jì)算

在中文分詞的基礎(chǔ)上，我們可以通過(guò)包含相同的詞的個(gè)數(shù)來(lái)計(jì)算商品信息和候選關(guān)鍵詞的語(yǔ)義相關(guān)度。雖然這種方法有明顯的局限性，但在很多場(chǎng)合，仍然不失為一種簡(jiǎn)單和快捷的方法。具體的算法如圖3 所示。

圖3

上述流程有兩個(gè)輸入，其一是商品信息，即電商平臺(tái)上某個(gè)店鋪中的某個(gè)商品的標(biāo)題、詳情信息以及其它商品屬性。一般情況下，由于商品標(biāo)題本身已經(jīng)能夠代表商品最關(guān)鍵的信息，我們?cè)谶M(jìn)行相關(guān)性計(jì)算時(shí)，可以只將商品標(biāo)題作為輸入。例如：“派度瑜伽磚練功舞蹈瑜珈磚器材”、“日本叮叮蚊蟲(chóng)子叮咬止癢藥膏驅(qū)蚊膏”。另外一個(gè)輸入是待匹配的候選關(guān)鍵詞列表。智能化選詞平臺(tái)往往會(huì)事先獲取和收集海量的商品關(guān)鍵詞作為詞庫(kù)。而這里的待匹配關(guān)鍵詞往往就來(lái)自于詞庫(kù)。當(dāng)然，對(duì)于每一個(gè)具體的商品，不太可能用全量的詞庫(kù)作為待匹配的關(guān)鍵詞列表，而是用商品對(duì)應(yīng)的類(lèi)目下的關(guān)鍵詞作為待匹配列表。一方面，在全量關(guān)鍵詞庫(kù)中逐一計(jì)算和匹配比較耗時(shí)；另一方面，不是一個(gè)類(lèi)目的關(guān)鍵詞的含義和商品也往往不相關(guān)，即便是兩者有著相同的詞語(yǔ)構(gòu)成。

通過(guò)上述流程，系統(tǒng)能夠迅速找到包含相同詞語(yǔ)的候選關(guān)鍵詞，在此基礎(chǔ)上，如果可以根據(jù)按上述方法計(jì)算出的相關(guān)性進(jìn)行排序，則排名靠前的候選關(guān)鍵詞，可以作為智能化選詞的結(jié)果來(lái)輸出。

然而，由于自然語(yǔ)言的復(fù)雜和多義性，僅僅根據(jù)包含相同詞語(yǔ)多數(shù)來(lái)計(jì)算相似度的方法存在著局限。詞語(yǔ)的先后順序沒(méi)有反映到計(jì)算中來(lái)，習(xí)慣用語(yǔ)和同義詞也無(wú)法作為完全相同的詞進(jìn)行匹配，這就給計(jì)算帶來(lái)一定的偏差。

3 基于深度學(xué)習(xí)的詞語(yǔ)相關(guān)性計(jì)算方法概述

近年來(lái)，隨著深度學(xué)習(xí)技術(shù)的發(fā)展，基于深度學(xué)習(xí)的文本相關(guān)性計(jì)算方法也不斷涌現(xiàn)。談到這類(lèi)方法，就不得不提到文本向量化(word embedding)這個(gè)概念。文本向量化是指將文本表示成一系列能夠表達(dá)文本語(yǔ)義的向量，進(jìn)而可以通過(guò)這些向量化之后的表示來(lái)進(jìn)行分類(lèi)、聚類(lèi)等機(jī)器學(xué)習(xí)的標(biāo)準(zhǔn)任務(wù)，當(dāng)然也包括通過(guò)計(jì)算向量相似度的方式來(lái)計(jì)算文本的相關(guān)度。目前對(duì)文本向量化大部分的研究都是通過(guò)詞向量化實(shí)現(xiàn)的，比如有word2vec 算法，也有一部分研究者將句子作為文本處理的基本單元，這就衍生出doc2vec 算法等。

3.1 Word2vec 概述

詞袋(bag of word)模型是最早的以詞語(yǔ)為基本單元的文本向量化算法。在詞袋模型中產(chǎn)生的向量，與文本中單詞的出現(xiàn)順序無(wú)關(guān)，而是與詞典中每個(gè)單詞在文本中出現(xiàn)的頻率相關(guān)。這個(gè)方法雖然簡(jiǎn)單易行，但是存在著維度災(zāi)難（以語(yǔ)言中的總詞語(yǔ)量為維度數(shù)量，也造成了向量表示十分稀疏的問(wèn)題）；同時(shí)，該模型無(wú)法保留詞語(yǔ)順序的信息，也無(wú)法表示因上下文順序而帶來(lái)的語(yǔ)義信息。

隨著自然語(yǔ)言理解技術(shù)和深度學(xué)習(xí)技術(shù)的發(fā)展，大量研究轉(zhuǎn)移到利用無(wú)標(biāo)注數(shù)據(jù)挖掘有價(jià)值的信息的方向上來(lái)。Word2vec 技術(shù)就利用了深度神經(jīng)網(wǎng)絡(luò)技術(shù)，從大量無(wú)標(biāo)注的文本語(yǔ)料中提取出有用的信息，從而更好地完成了文本向量化的過(guò)程。Word2vec 依賴(lài)skip-grams 或連續(xù)詞袋（CBOW）來(lái)進(jìn)行文本向量化，前者是在通過(guò)某個(gè)詞預(yù)測(cè)這個(gè)詞的上下文詞語(yǔ)來(lái)訓(xùn)練模型，后者則是通過(guò)上下文來(lái)預(yù)測(cè)某個(gè)詞來(lái)訓(xùn)練模型。進(jìn)過(guò)word2vec 處理之后的詞向量，已經(jīng)可以通過(guò)作用于向量的加減運(yùn)算，達(dá)到對(duì)于詞語(yǔ)含義“理解”的效果。比如，可以達(dá)到“巴黎”-“法國(guó)”+“英國(guó)”=“倫敦”這樣的效果。這里“巴黎”指通過(guò)word2vec 訓(xùn)練得到的“巴黎”對(duì)應(yīng)的詞向量。顯然，這樣的詞向量表示，非常方便對(duì)詞語(yǔ)相關(guān)度的計(jì)算，并且這里的相關(guān)度包含了一定程度的語(yǔ)義信息。

3.2 從word2vec 到doc2vec

然而，在通過(guò)word2vec 將文本中的詞向量化之后，我們可能需要利用所有詞向量的平均值作為分類(lèi)算法的輸入值，從而對(duì)整個(gè)文本文檔進(jìn)行分類(lèi)處理，以應(yīng)對(duì)文本類(lèi)的分類(lèi)任務(wù)。即上述的word2vec 只是基于詞的維度進(jìn)行“語(yǔ)義分析”的，而并不具有上下文的“語(yǔ)義分析”能力。作為一個(gè)處理可變長(zhǎng)度文本的總結(jié)性方法，Quoc Le 和Tomas Mikolov 提出了Doc2Vec 方法。除了增加一個(gè)段落向量以外，這個(gè)方法幾乎等同于Word2Vec。Doc2vec 方法也被廣泛應(yīng)用于文本分類(lèi)、相似度計(jì)算等場(chǎng)景中。

本文嘗試通過(guò)doc2vec 方法，對(duì)于電商廣告智能選詞的方法進(jìn)行優(yōu)化，以提升選詞的質(zhì)量和相關(guān)度。

4 基于doc2vec 的電商廣告關(guān)鍵詞選詞實(shí)驗(yàn)

為了驗(yàn)證doc2vec 方法在智能選詞中相關(guān)度計(jì)算環(huán)節(jié)的效果，并在此基礎(chǔ)上優(yōu)化傳統(tǒng)的基于共同詞語(yǔ)數(shù)量的相關(guān)度計(jì)算方法，設(shè)計(jì)和進(jìn)行實(shí)驗(yàn)如下文所示。

4.1 實(shí)驗(yàn)流程及架構(gòu)設(shè)計(jì)如圖4。

圖4

4.2 實(shí)驗(yàn)數(shù)據(jù)及模型準(zhǔn)備

上述實(shí)驗(yàn)中，所涉及到的數(shù)據(jù)來(lái)源如下：

4.2.1 商品標(biāo)題列表

通過(guò)抓取某網(wǎng)站上維護(hù)的某電商平臺(tái)上10 多個(gè)類(lèi)目的數(shù)千個(gè)促銷(xiāo)商品列表，將其URL 及商品標(biāo)題進(jìn)行保存，用于構(gòu)成本次實(shí)驗(yàn)的商品信息庫(kù)。

4.2.2 候選關(guān)鍵詞列表

我們通過(guò)定期抓取淘寶公開(kāi)的PC/無(wú)線熱詞和候選熱詞，構(gòu)成候選關(guān)鍵詞列表。

4.2.3 Doc2vec 模型訓(xùn)練

為了訓(xùn)練doc2vec 模型，我們需要實(shí)現(xiàn)準(zhǔn)備和電商關(guān)鍵詞相對(duì)接近的海量預(yù)料來(lái)進(jìn)行模型訓(xùn)練。通過(guò)和上述商品類(lèi)目相關(guān)的關(guān)鍵詞作為搜索詞，在某中文分類(lèi)語(yǔ)料網(wǎng)站上進(jìn)行檢索，并將每個(gè)類(lèi)目關(guān)鍵詞相關(guān)的前10000 條語(yǔ)料抓取和收錄。將這些語(yǔ)料整合成語(yǔ)料庫(kù)，作為doc2vec 的訓(xùn)練語(yǔ)料進(jìn)行分詞并進(jìn)行模型訓(xùn)練。在本實(shí)驗(yàn)中，我們使用了jieba 中文分詞庫(kù)進(jìn)行分詞，使用了gensim 自然語(yǔ)言處理庫(kù)來(lái)進(jìn)行doc2vec 模型訓(xùn)練。關(guān)鍵代碼如下：

4.3 實(shí)驗(yàn)關(guān)鍵策略及步驟

4.3.1 在上面的實(shí)驗(yàn)流程中，為了區(qū)別兩種文本相關(guān)度計(jì)算的方法，將上述基于相同詞語(yǔ)個(gè)數(shù)量計(jì)算的相關(guān)度稱(chēng)為“相關(guān)度A”,將基于深度學(xué)習(xí)doc2vec 所計(jì)算的相關(guān)度稱(chēng)之為“相關(guān)度B”。

4.3.2 我們將實(shí)現(xiàn)抓取到的電商網(wǎng)站上的商品網(wǎng)頁(yè)上的商品標(biāo)題作為輸入，對(duì)這些標(biāo)題的商品進(jìn)行智能選詞。我們也實(shí)現(xiàn)準(zhǔn)備好了候選詞庫(kù)。為了簡(jiǎn)化起見(jiàn)，我們并沒(méi)有根據(jù)類(lèi)目信息來(lái)匹配篩選候選關(guān)鍵詞，而是直接在全量關(guān)鍵詞庫(kù)中進(jìn)行匹配，在實(shí)驗(yàn)中的數(shù)據(jù)規(guī)模下相對(duì)也不影響實(shí)驗(yàn)效果。

4.3.3 對(duì)于每一個(gè)候選關(guān)鍵詞，我們都先嘗試通過(guò)計(jì)算相同詞語(yǔ)數(shù)量的方法來(lái)計(jì)算相關(guān)度，我們稱(chēng)之為相關(guān)度A。我們對(duì)于所有候選關(guān)鍵詞都計(jì)算相關(guān)度A，然后將相關(guān)度排名在前N 位（在實(shí)驗(yàn)中，N 可以取5 或10 等數(shù)值）。的關(guān)鍵詞作為候選關(guān)鍵詞。這樣可以篩選掉其它完全不相關(guān)的候選詞。同時(shí)，在候選關(guān)鍵詞中，我們可以通過(guò)doc2vec 算法，對(duì)于這些候選關(guān)鍵詞本身，以及候選關(guān)鍵詞分詞重組之后生成的新關(guān)鍵詞，計(jì)算相關(guān)度B。最后，我們將相關(guān)度A 排名前N 位的候選關(guān)鍵詞A，以及對(duì)于候選關(guān)鍵詞本身及分詞重組候選關(guān)鍵詞所分別計(jì)算的相關(guān)度B（仍然是只有前N 位），都作為結(jié)果進(jìn)行保存和輸出，用于進(jìn)行相關(guān)試的比較。

4.4 實(shí)驗(yàn)結(jié)果展示

實(shí)驗(yàn)結(jié)果中的數(shù)據(jù)節(jié)選展示如表1-3。

表1

表2

表3

5 結(jié)論

5.1 實(shí)驗(yàn)結(jié)論

5.1.1 從實(shí)驗(yàn)結(jié)果可以看出，基于相關(guān)度A，即根據(jù)包含相同詞語(yǔ)多少來(lái)計(jì)算的相似度，可作為候選集的初步篩選方案，過(guò)濾掉明顯不相關(guān)的諸多關(guān)鍵詞。

5.1.2 同為基于doc2vec 的相關(guān)度計(jì)算方案，基于候選關(guān)鍵詞重組的計(jì)算方案明顯由于基于原始候選關(guān)鍵詞的候選方案。分析其原因，因?yàn)榛赿oc2vec 的模型考慮到了同義詞、上下文等高級(jí)特征，而重組之后的關(guān)鍵詞在doc2vec 模型中體現(xiàn)出了符合語(yǔ)義的相關(guān)性。

5.1.3 綜上，可以看出，基于doc2vec 的相關(guān)度計(jì)算方案，適合作為基于相同詞語(yǔ)的相關(guān)度計(jì)算方案的優(yōu)化方案，以提升關(guān)鍵詞選詞的相關(guān)度。

5.2 后續(xù)工作

5.2.1 本文設(shè)計(jì)和進(jìn)行了基于深度學(xué)習(xí)中的doc2vec 方法的候選詞相關(guān)度計(jì)算實(shí)驗(yàn)，驗(yàn)證了基于doc2vec 方法對(duì)于提升關(guān)鍵詞選詞相關(guān)試的效果。但從實(shí)驗(yàn)結(jié)果可以看出，在整個(gè)的智能選詞流程中，仍然有很多可改善及優(yōu)化的空間。

5.2.2 首先，在進(jìn)行商品信息輸入時(shí)，僅僅引入了商品標(biāo)題信息，雖然可以表征商品最關(guān)鍵的信息，但如果將商品詳情、靜態(tài)屬性、商品銷(xiāo)售信息，可以獲得更好的實(shí)驗(yàn)效果。

5.2.3 其次，在進(jìn)行候選關(guān)鍵字匹配時(shí)，也可以引入類(lèi)目信息，這樣可以提升全局匹配的效率，過(guò)濾掉更多不在同一類(lèi)目的關(guān)鍵詞。

5.2.4 最后，在線抓取的語(yǔ)料來(lái)自互聯(lián)網(wǎng)新聞和社交媒體。但從實(shí)際情況來(lái)看，這些語(yǔ)料的文本特征和電商平臺(tái)上的網(wǎng)店標(biāo)題以及商品信息的文本特征還是有不小的差異，這也造成了訓(xùn)練出的模型在計(jì)算商品信息相關(guān)度時(shí)存在些許的不適應(yīng)。特別是由于電商平臺(tái)（如淘寶）檢索系統(tǒng)發(fā)展歷程中的歷史原因，網(wǎng)店中的商品標(biāo)題往往多用單字和非自然語(yǔ)言的語(yǔ)序來(lái)描述商品，如“閃亮洗眼液清潔眼部護(hù)理液清洗眼睛”、“兒童拖鞋夏季可愛(ài)卡通防滑軟底”等，這些標(biāo)題的文本語(yǔ)言特征確實(shí)與自然語(yǔ)言句子不盡相同。后續(xù)可以考慮抓取海量網(wǎng)店的文本信息進(jìn)行模型訓(xùn)練，以期取得更好的商品信息相關(guān)度計(jì)算效果。