亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學習技術(shù)的詞語相關(guān)性計算在電商廣告關(guān)鍵詞選詞中的應用

        2021-05-25 10:24:36張函
        科學技術(shù)創(chuàng)新 2021年11期
        關(guān)鍵詞:選詞分詞詞語

        張函

        (金華職業(yè)技術(shù)學院,浙江 金華321000)

        在電商網(wǎng)店的運營過程中,搜索營銷幾乎是電商企業(yè)所必須投入的營銷方式,特別是在當今競爭日益激烈的主流電子商務平臺上開設店鋪,商家為搜索營銷投入的成本約占到企業(yè)總體營銷成本的30%以上。我們以淘寶直通車為例,簡要介紹一下電商搜索營銷的業(yè)務模式和流程。淘寶的直通車功能本質(zhì)上是對競價搜索模式的一種創(chuàng)新。效果示以圖文結(jié)合的方式為主,本質(zhì)上是嚴格基于點擊收費(CPC)模式。用戶利用某關(guān)鍵詞進行檢索時,搜索結(jié)果頁面出現(xiàn)該關(guān)鍵詞相關(guān)的廣告內(nèi)容。

        關(guān)鍵詞選擇作為競價排名廣告的核心要素,被認為是廣告投放者(電商賣家)提高績效需要考慮的重中之重。關(guān)鍵詞的選擇會極大地影響競價排名廣告的效果,不僅是因為關(guān)鍵詞與用戶的搜索詞之間的相關(guān)性決定了位置的高低,更是因為關(guān)鍵詞本身就是對用戶群的一個劃分。

        近年來,隨著大數(shù)據(jù)、人工智能的發(fā)展,通過智能化的算法策略代替或輔助人工進行關(guān)鍵詞選取,成為一種非常常見的選詞方式。

        1 智能化選詞流程概述

        智能化選詞是整個廣告推廣平臺中的一部分。在廣告推廣平臺的運行流程中,商家選擇商品,然后后提交給平臺,并設置好推廣需求。平臺替自動分析商品詳情,并根據(jù)商家設置的需求為商品智能化地選定推廣關(guān)鍵詞。然后,平臺可根據(jù)已制定的競價模型,為推廣關(guān)鍵詞設置價格,并提交給電商平臺后臺(如淘寶后臺接口),以進行正式的投放推 廣。以上過程可以用圖1 概括:

        圖1

        在這個過程中,智能化選詞是相當關(guān)鍵的一個環(huán)節(jié),選詞質(zhì)量的好壞直接決定了推廣的效果。因此,我們需要關(guān)注智能化選詞的具體過程。

        基于對某知名電商企業(yè)服務平臺中智能化選詞平臺中選詞流程的抽象和概括,智能化選詞的基本流程如圖2 所示。

        圖2

        從圖中可以看出,在詞庫中關(guān)鍵詞的質(zhì)量保持一定的情況下,關(guān)鍵詞和店鋪信息(包括標題、詳情)的相關(guān)性對選詞的質(zhì)量至關(guān)重要。而如何智能化地計算關(guān)鍵詞調(diào)整和店鋪信息之間的相關(guān)性,進而取得更好的選詞效果,是本文重點討論的課題。

        2 詞語相關(guān)性計算的基本方法概述

        2.1 詞語相關(guān)性概述

        在電商廣告推廣平臺智能選詞的業(yè)務場景里,詞語的相關(guān)性是指一個商品所使用的關(guān)鍵詞與商品的實際信息和屬性的相關(guān)程度。換言之,詞語相關(guān)性的高低,就表征了關(guān)鍵詞的含義是否是商品所具有的屬性,或者關(guān)鍵詞是否能夠體現(xiàn)出商品某些方面的特征。

        在多數(shù)電商平臺中,關(guān)鍵詞的相關(guān)性采用類目相關(guān)性和語義相關(guān)性二者的加權(quán)。其中,語義相關(guān)性比較容易理解,指的是這個關(guān)鍵詞與商品描述信息的相符程度。之所以需要加入類目相關(guān)性,是因為現(xiàn)在很多詞語的意義發(fā)生了很大的變化,同一個詞代表了完全不同類目的事物。例如,在“水果”類目中的“蘋果”和在“數(shù)碼產(chǎn)品”類目中的“蘋果”顯然是指不同的商品。本文重點討論的是語義相關(guān)性的計算。

        在很多智能選詞平臺的實現(xiàn)中,采用分詞后計算重合詞數(shù)量的方式來計算詞語相關(guān)性是一種普遍的方法。而采取這種方案的前提是需要對商品的信息(例如標題,詳情等)的文本,以及對候選詞庫中的關(guān)鍵詞進行高質(zhì)量的中文分詞。

        2.2 中文分詞方法簡介

        分詞就是將連續(xù)的字序列按照一定的規(guī)范重新切分并組合成詞序列的過程。在英文的行文中,單詞之間是以空格作為自然分界符的。而中文只是字、句和段能通過明顯的分界符來簡單劃界,唯獨詞沒有一個形式上的分界符。

        不同的中文分詞方法根據(jù)其實現(xiàn)原理和特點,主要分為基于詞典的分詞算法和統(tǒng)計機器學習算法兩大類。常見的分詞器都是使用統(tǒng)計機器學習算法和詞典相結(jié)合,一方面能夠提高分詞準確率,另一方面能夠改善領域適應性。

        2.3 基于重合詞數(shù)量的相關(guān)性計算

        在中文分詞的基礎上,我們可以通過包含相同的詞的個數(shù)來計算商品信息和候選關(guān)鍵詞的語義相關(guān)度。雖然這種方法有明顯的局限性,但在很多場合,仍然不失為一種簡單和快捷的方法。具體的算法如圖3 所示。

        圖3

        上述流程有兩個輸入,其一是商品信息,即電商平臺上某個店鋪中的某個商品的標題、詳情信息以及其它商品屬性。一般情況下,由于商品標題本身已經(jīng)能夠代表商品最關(guān)鍵的信息,我們在進行相關(guān)性計算時,可以只將商品標題作為輸入。例如:“派度瑜伽磚練功舞蹈瑜珈磚器材”、“日本叮叮蚊蟲子叮咬止癢藥膏驅(qū)蚊膏”。另外一個輸入是待匹配的候選關(guān)鍵詞列表。智能化選詞平臺往往會事先獲取和收集海量的商品關(guān)鍵詞作為詞庫。而這里的待匹配關(guān)鍵詞往往就來自于詞庫。當然,對于每一個具體的商品,不太可能用全量的詞庫作為待匹配的關(guān)鍵詞列表,而是用商品對應的類目下的關(guān)鍵詞作為待匹配列表。一方面,在全量關(guān)鍵詞庫中逐一計算和匹配比較耗時;另一方面,不是一個類目的關(guān)鍵詞的含義和商品也往往不相關(guān),即便是兩者有著相同的詞語構(gòu)成。

        通過上述流程,系統(tǒng)能夠迅速找到包含相同詞語的候選關(guān)鍵詞,在此基礎上,如果可以根據(jù)按上述方法計算出的相關(guān)性進行排序,則排名靠前的候選關(guān)鍵詞,可以作為智能化選詞的結(jié)果來輸出。

        然而,由于自然語言的復雜和多義性,僅僅根據(jù)包含相同詞語多數(shù)來計算相似度的方法存在著局限。詞語的先后順序沒有反映到計算中來,習慣用語和同義詞也無法作為完全相同的詞進行匹配,這就給計算帶來一定的偏差。

        3 基于深度學習的詞語相關(guān)性計算方法概述

        近年來,隨著深度學習技術(shù)的發(fā)展,基于深度學習的文本相關(guān)性計算方法也不斷涌現(xiàn)。談到這類方法,就不得不提到文本向量化(word embedding)這個概念。文本向量化是指將文本表示成一系列能夠表達文本語義的向量,進而可以通過這些向量化之后的表示來進行分類、聚類等機器學習的標準任務,當然也包括通過計算向量相似度的方式來計算文本的相關(guān)度。目前對文本向量化大部分的研究都是通過詞向量化實現(xiàn)的,比如有word2vec 算法,也有一部分研究者將句子作為文本處理的基本單元,這就衍生出doc2vec 算法等。

        3.1 Word2vec 概述

        詞袋(bag of word)模型是最早的以詞語為基本單元的文本向量化算法。在詞袋模型中產(chǎn)生的向量,與文本中單詞的出現(xiàn)順序無關(guān),而是與詞典中每個單詞在文本中出現(xiàn)的頻率相關(guān)。這個方法雖然簡單易行,但是存在著維度災難(以語言中的總詞語量為維度數(shù)量,也造成了向量表示十分稀疏的問題);同時,該模型無法保留詞語順序的信息,也無法表示因上下文順序而帶來的語義信息。

        隨著自然語言理解技術(shù)和深度學習技術(shù)的發(fā)展,大量研究轉(zhuǎn)移到利用無標注數(shù)據(jù)挖掘有價值的信息的方向上來。Word2vec 技術(shù)就利用了深度神經(jīng)網(wǎng)絡技術(shù),從大量無標注的文本語料中提取出有用的信息,從而更好地完成了文本向量化的過程。Word2vec 依賴skip-grams 或連續(xù)詞袋(CBOW)來進行文本向量化,前者是在通過某個詞預測這個詞的上下文詞語來訓練模型,后者則是通過上下文來預測某個詞來訓練模型。進過word2vec 處理之后的詞向量,已經(jīng)可以通過作用于向量的加減運算,達到對于詞語含義“理解”的效果。比如,可以達到“巴黎”-“法國”+“英國”=“倫敦”這樣的效果。這里“巴黎”指通過word2vec 訓練得到的“巴黎”對應的詞向量。顯然,這樣的詞向量表示,非常方便對詞語相關(guān)度的計算,并且這里的相關(guān)度包含了一定程度的語義信息。

        3.2 從word2vec 到doc2vec

        然而,在通過word2vec 將文本中的詞向量化之后,我們可能需要利用所有詞向量的平均值作為分類算法的輸入值,從而對整個文本文檔進行分類處理,以應對文本類的分類任務。即上述的word2vec 只是基于詞的維度進行“語義分析”的,而并不具有上下文的“語義分析”能力。作為一個處理可變長度文本的總結(jié)性方法,Quoc Le 和Tomas Mikolov 提出了Doc2Vec 方法。除了增加一個段落向量以外,這個方法幾乎等同于Word2Vec。Doc2vec 方法也被廣泛應用于文本分類、相似度計算等場景中。

        本文嘗試通過doc2vec 方法,對于電商廣告智能選詞的方法進行優(yōu)化,以提升選詞的質(zhì)量和相關(guān)度。

        4 基于doc2vec 的電商廣告關(guān)鍵詞選詞實驗

        為了驗證doc2vec 方法在智能選詞中相關(guān)度計算環(huán)節(jié)的效果,并在此基礎上優(yōu)化傳統(tǒng)的基于共同詞語數(shù)量的相關(guān)度計算方法,設計和進行實驗如下文所示。

        4.1 實驗流程及架構(gòu)設計如圖4。

        圖4

        4.2 實驗數(shù)據(jù)及模型準備

        上述實驗中,所涉及到的數(shù)據(jù)來源如下:

        4.2.1 商品標題列表

        通過抓取某網(wǎng)站上維護的某電商平臺上10 多個類目的數(shù)千個促銷商品列表,將其URL 及商品標題進行保存,用于構(gòu)成本次實驗的商品信息庫。

        4.2.2 候選關(guān)鍵詞列表

        我們通過定期抓取淘寶公開的PC/無線熱詞和候選熱詞,構(gòu)成候選關(guān)鍵詞列表。

        4.2.3 Doc2vec 模型訓練

        為了訓練doc2vec 模型,我們需要實現(xiàn)準備和電商關(guān)鍵詞相對接近的海量預料來進行模型訓練。通過和上述商品類目相關(guān)的關(guān)鍵詞作為搜索詞,在某中文分類語料網(wǎng)站上進行檢索,并將每個類目關(guān)鍵詞相關(guān)的前10000 條語料抓取和收錄。將這些語料整合成語料庫,作為doc2vec 的訓練語料進行分詞并進行模型訓練。在本實驗中,我們使用了jieba 中文分詞庫進行分詞,使用了gensim 自然語言處理庫來進行doc2vec 模型訓練。關(guān)鍵代碼如下:

        4.3 實驗關(guān)鍵策略及步驟

        4.3.1 在上面的實驗流程中,為了區(qū)別兩種文本相關(guān)度計算的方法,將上述基于相同詞語個數(shù)量計算的相關(guān)度稱為“相關(guān)度A”,將基于深度學習doc2vec 所計算的相關(guān)度稱之為“相關(guān)度B”。

        4.3.2 我們將實現(xiàn)抓取到的電商網(wǎng)站上的商品網(wǎng)頁上的商品標題作為輸入,對這些標題的商品進行智能選詞。我們也實現(xiàn)準備好了候選詞庫。為了簡化起見,我們并沒有根據(jù)類目信息來匹配篩選候選關(guān)鍵詞,而是直接在全量關(guān)鍵詞庫中進行匹配,在實驗中的數(shù)據(jù)規(guī)模下相對也不影響實驗效果。

        4.3.3 對于每一個候選關(guān)鍵詞,我們都先嘗試通過計算相同詞語數(shù)量的方法來計算相關(guān)度,我們稱之為相關(guān)度A。我們對于所有候選關(guān)鍵詞都計算相關(guān)度A,然后將相關(guān)度排名在前N 位(在實驗中,N 可以取5 或10 等數(shù)值)。的關(guān)鍵詞作為候選關(guān)鍵詞。這樣可以篩選掉其它完全不相關(guān)的候選詞。同時,在候選關(guān)鍵詞中,我們可以通過doc2vec 算法,對于這些候選關(guān)鍵詞本身,以及候選關(guān)鍵詞分詞重組之后生成的新關(guān)鍵詞,計算相關(guān)度B。最后,我們將相關(guān)度A 排名前N 位的候選關(guān)鍵詞A,以及對于候選關(guān)鍵詞本身及分詞重組候選關(guān)鍵詞所分別計算的相關(guān)度B(仍然是只有前N 位),都作為結(jié)果進行保存和輸出,用于進行相關(guān)試的比較。

        4.4 實驗結(jié)果展示

        實驗結(jié)果中的數(shù)據(jù)節(jié)選展示如表1-3。

        表1

        表2

        表3

        5 結(jié)論

        5.1 實驗結(jié)論

        5.1.1 從實驗結(jié)果可以看出,基于相關(guān)度A,即根據(jù)包含相同詞語多少來計算的相似度,可作為候選集的初步篩選方案,過濾掉明顯不相關(guān)的諸多關(guān)鍵詞。

        5.1.2 同為基于doc2vec 的相關(guān)度計算方案,基于候選關(guān)鍵詞重組的計算方案明顯由于基于原始候選關(guān)鍵詞的候選方案。分析其原因,因為基于doc2vec 的模型考慮到了同義詞、上下文等高級特征,而重組之后的關(guān)鍵詞在doc2vec 模型中體現(xiàn)出了符合語義的相關(guān)性。

        5.1.3 綜上,可以看出,基于doc2vec 的相關(guān)度計算方案,適合作為基于相同詞語的相關(guān)度計算方案的優(yōu)化方案,以提升關(guān)鍵詞選詞的相關(guān)度。

        5.2 后續(xù)工作

        5.2.1 本文設計和進行了基于深度學習中的doc2vec 方法的候選詞相關(guān)度計算實驗,驗證了基于doc2vec 方法對于提升關(guān)鍵詞選詞相關(guān)試的效果。但從實驗結(jié)果可以看出,在整個的智能選詞流程中,仍然有很多可改善及優(yōu)化的空間。

        5.2.2 首先,在進行商品信息輸入時,僅僅引入了商品標題信息,雖然可以表征商品最關(guān)鍵的信息,但如果將商品詳情、靜態(tài)屬性、商品銷售信息,可以獲得更好的實驗效果。

        5.2.3 其次,在進行候選關(guān)鍵字匹配時,也可以引入類目信息,這樣可以提升全局匹配的效率,過濾掉更多不在同一類目的關(guān)鍵詞。

        5.2.4 最后,在線抓取的語料來自互聯(lián)網(wǎng)新聞和社交媒體。但從實際情況來看,這些語料的文本特征和電商平臺上的網(wǎng)店標題以及商品信息的文本特征還是有不小的差異,這也造成了訓練出的模型在計算商品信息相關(guān)度時存在些許的不適應。特別是由于電商平臺(如淘寶)檢索系統(tǒng)發(fā)展歷程中的歷史原因,網(wǎng)店中的商品標題往往多用單字和非自然語言的語序來描述商品,如“閃亮洗眼液清潔眼部護理液清洗眼睛”、“兒童拖鞋夏季可愛卡通防滑軟底”等,這些標題的文本語言特征確實與自然語言句子不盡相同。后續(xù)可以考慮抓取海量網(wǎng)店的文本信息進行模型訓練,以期取得更好的商品信息相關(guān)度計算效果。

        猜你喜歡
        選詞分詞詞語
        容易混淆的詞語
        選詞寫故事
        找詞語
        結(jié)巴分詞在詞云中的應用
        智富時代(2019年6期)2019-07-24 10:33:16
        選詞填空好方法
        讀一讀,選詞填空
        詞語欣賞
        值得重視的分詞的特殊用法
        選詞填空
        一枚詞語一門靜
        亚洲中文字幕无码中文字在线| 亚洲女人毛茸茸的视频| 蜜臀av毛片一区二区三区| 日韩精品一区二区午夜成人版| 又爽又黄禁片视频1000免费 | 国产亚洲一区二区手机在线观看| 国产短视频精品区第一页| 日韩av综合色区人妻| 日本强伦姧人妻一区二区| 亚洲一区二区三区无码国产| 亚洲制服无码一区二区三区| 国产亚洲精品久久久久秋霞| 欧美v日韩v亚洲综合国产高清| 丰满人妻被持续侵犯中出在线| 在线观看特色大片免费视频| 亚洲欧美日韩一区二区三区在线| 亚洲一区二区三区在线网站| 人妻少妇精品视频一区二区三区| 久久精品国产亚洲av不卡国产| 欧洲vat一区二区三区| 欧美人妻日韩精品| 国产亚洲激情av一区二区| 青青草精品视频在线播放| 变态 另类 欧美 大码 日韩 | 国产极品美女高潮抽搐免费网站 | 色yeye免费视频免费看| 久久蜜臀av一区三区| 丰满少妇人妻无码| 影视先锋av资源噜噜| 天天射色综合| 黄色影院不卡一区二区| 亚洲综合激情五月丁香六月| 免费人成在线观看播放国产| 日韩日本国产一区二区| 国产精品videossex久久发布 | 亚洲日韩av一区二区三区中文| 北条麻妃在线视频观看| 国产黄色一级到三级视频| 国产aⅴ无码专区亚洲av| 最新亚洲av日韩av二区| 风韵丰满妇啪啪区老老熟女杏吧|