王嬋娟
摘 要:本文首先介紹了淘寶寶貝標(biāo)題分詞的意義和常用方法,然后闡述了深度學(xué)習(xí)的分詞技術(shù),通過深度學(xué)習(xí)的分詞技術(shù)提高寶貝標(biāo)題分詞的準(zhǔn)確性,最后通過對相似的熱銷寶貝的標(biāo)題分詞對比,進(jìn)一步提高寶貝標(biāo)題的搜索有效性。
關(guān)鍵詞:深度學(xué)習(xí);分詞技術(shù);標(biāo)題優(yōu)化
一、深度學(xué)習(xí)分詞技術(shù)介紹
深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。人工神經(jīng)網(wǎng)絡(luò)思想來源于大腦機(jī)制的探索,即對大腦思維能力的研究和模仿。神經(jīng)網(wǎng)絡(luò)理論與相關(guān)技術(shù)就是為了實現(xiàn)思維的認(rèn)識機(jī)能而發(fā)展出來的,長久以來,它都是這門學(xué)科的基本任務(wù)。
自2006年以來,Geoffrey Hinton在深度學(xué)習(xí)上獲得了重大突破,他與他的深度學(xué)習(xí)理論將人工智能帶入了一個新的時代:認(rèn)知計算。認(rèn)知計算的目標(biāo)不再是尋求顯示問題的最優(yōu)解或在給定的數(shù)據(jù)結(jié)構(gòu)上進(jìn)一步提高搜索性能,而是把算法領(lǐng)域擴(kuò)展到了探索大腦的深度機(jī)制—認(rèn)知機(jī)制方面。
含多隱層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中一種基于對數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法。觀測值(例如一幅圖像)可以使用多種方式來表示,如每個像素強(qiáng)度值的向量,或者更抽象地表示成一系列邊、特定形狀的區(qū)域等。而使用某些特定的表示方法更容易從實例中學(xué)習(xí)任務(wù)(例如,人臉識別或面部表情識別)。深度學(xué)習(xí)的好處是用非監(jiān)督式或半監(jiān)督式的特征學(xué)習(xí)和分層特征提取高效算法來替代手工獲取特征。
這些新生的算法在自然語言處理領(lǐng)域同樣獲得了巨大的成功。
中文分詞是個比較經(jīng)典的問題,一般工業(yè)界中文分詞方案都是基于規(guī)則。
1.基于規(guī)則的常見的就是最大正/反向匹配,以及雙向匹配。
2.規(guī)則里糅合一定的統(tǒng)計規(guī)則,會采用動態(tài)規(guī)劃計算最大的概率路徑的分詞
以上說起來很簡單,其中還有很多細(xì)節(jié),比如詞法規(guī)則的高效匹配編譯,詞庫的索引結(jié)構(gòu)等。
深度學(xué)習(xí)方法為分詞技術(shù)帶來了新的思路,直接以最基本的向量化原子特征作為輸入,經(jīng)過多層非線性變換,輸出層就可以很好的預(yù)測當(dāng)前字的標(biāo)記或下一個動作。在深度學(xué)習(xí)的框架下,仍然可以采用基于子序列標(biāo)注的方式,或基于轉(zhuǎn)移的方式,以及半馬爾科夫條件隨機(jī)場。深度學(xué)習(xí)主要有兩點優(yōu)勢:
1.深度學(xué)習(xí)可以通過優(yōu)化最終目標(biāo),有效學(xué)習(xí)原子特征和上下文的表示;
2.基于深層網(wǎng)絡(luò)如 CNN、 NN、 LSTM等,深度學(xué)習(xí)可以更有效的刻畫長距離句子信息。
二、 淘寶搜索與寶貝關(guān)鍵詞:優(yōu)化
買家使用淘寶應(yīng)用,往往使用搜索框查找希望購買的商品,淘寶搜索是連接商家與消費(fèi)者的核心,是賣家需要關(guān)注的重點。淘寶SEO全稱“淘寶搜索引擎優(yōu)化”,是指按照淘寶搜索引擎的規(guī)則,來設(shè)置優(yōu)化寶貝,從而使得寶貝排名靠前,進(jìn)而獲取更多流量的一種技術(shù)。
淘寶SEO的核心內(nèi)容是關(guān)鍵詞:搜索優(yōu)化。商品標(biāo)題的關(guān)鍵詞:優(yōu)化是重點,寶貝的標(biāo)題是與買家搜索關(guān)鍵詞:聯(lián)系最大且最直接的一個,買家輸入的關(guān)鍵詞:,會在寶貝標(biāo)題中進(jìn)行匹配,一個優(yōu)秀的寶貝標(biāo)題可以帶來更多的搜索展現(xiàn)。
寶貝關(guān)鍵詞:優(yōu)化需要注意的點和常用方法包括如下內(nèi)容:
1.在書寫淘寶寶貝標(biāo)題的時候,一定要符合寶貝真實屬性,避免堆砌關(guān)鍵詞:,講求實事求是。標(biāo)題中所包含的關(guān)鍵詞:,一定是在寶貝屬性中真實具有的。比如:標(biāo)題中寫“中長款”,在商品屬性中“短”就屬于屬性不相關(guān)。
2.一般來說一個寶貝標(biāo)題最多支持60個字符,總共包含30個漢字。在搜索關(guān)鍵詞:時,系統(tǒng)首先對輸入的關(guān)鍵詞:切詞,比如搜索“新款休閑褲”,淘寶系統(tǒng)會將這個詞切分成:“新款休閑”,“休閑褲”,“褲”,“休閑”,“新款休閑褲”,“新款 休閑褲”。被切分后,系統(tǒng)將切分的詞與系統(tǒng)數(shù)據(jù)庫中的字典比較。原則上只要標(biāo)題中含有切分后的詞,在搜索時都有可能被展現(xiàn)。
3.將關(guān)鍵詞:放到淘寶指數(shù)里面,查看其搜索指數(shù)。
4.關(guān)鍵詞:還可以包含類目主關(guān)鍵詞:,屬性關(guān)鍵詞:,長尾關(guān)鍵詞:,如何挖掘關(guān)鍵詞:還包括從淘寶搜索下拉框挑選一些推薦的搜索熱詞,使用生意參謀市場行情中的搜索詞查詢,或者使用淘寶指數(shù)來了解淘寶搜索熱點,定位消費(fèi)人群,研究細(xì)分市場。淘寶指數(shù)包括通過市場趨勢,市場細(xì)分,排行榜來了解關(guān)鍵詞:排名及變化情況?;蛘邚闹蓖ㄜ囮P(guān)鍵詞:詞典里面挑選關(guān)鍵詞:。
5.有了關(guān)鍵詞:,需要有序地排列這些關(guān)鍵詞:,構(gòu)造合適的標(biāo)題。一般來說包括標(biāo)題包括營銷詞+類目詞+屬性詞+核心關(guān)鍵詞:。
三、深度學(xué)習(xí)分詞技術(shù)應(yīng)用到標(biāo)題優(yōu)化
淘寶后臺當(dāng)前越來越多地使用深度學(xué)習(xí)算法來搜索用戶感興趣的寶貝,因此使用深度學(xué)習(xí)分析過的標(biāo)題能夠更好地匹配淘寶后臺的搜索算法,提高寶貝展現(xiàn)率。
主要通過兩個方面來優(yōu)化:
1.分詞準(zhǔn)確性
采用深度學(xué)習(xí)后,相比傳統(tǒng)的分詞,能夠極大提高分詞的準(zhǔn)確性,貼近詞語在句子中的合適位置。本文采用了兩種采用了分詞技術(shù)的系統(tǒng)來對標(biāo)題進(jìn)行切分。一個是百度人工智能自然語言詞法分析工具[1]。
以淘寶中一款寶貝[2]為例,其寶貝標(biāo)題如下:
kumayes 秋季韓版寬松圓領(lǐng)套頭撞色愛心針織毛衫愛心減齡毛衣女
使用百度詞法分析工具對該寶貝標(biāo)題分詞后,分詞詞性如圖1所示。
另一個分詞工具是哈工大的語言技術(shù)平臺[3],用其對同一款寶貝標(biāo)題進(jìn)行分詞得到的結(jié)果如圖2所示。
從上面的百度和哈工大語言平臺可以看到,兩個工具對詞語的分詞效果結(jié)果一致。其中“愛心”出現(xiàn)了兩次,寶貝管理人員可以考慮優(yōu)化標(biāo)題,只保留一個“愛心”關(guān)鍵詞:。
2.同相似寶貝標(biāo)題的分詞對比(以百度平臺的為例)
淘寶寶貝[4]標(biāo)題如下:
標(biāo)題:2018秋季韓版學(xué)生寬松圓領(lǐng)套頭撞色甜美針織毛衫女愛心減齡毛衣潮
對該標(biāo)題進(jìn)行分詞分析如3所示。
根據(jù)淘寶中競品的情況,尤其是一些熱銷品,看看他們的標(biāo)題命名是怎樣的。使用分詞分析平臺,可以對每個詞進(jìn)行詞性分析,例如名詞,動詞,形容詞。通過向熱銷品參考,達(dá)到優(yōu)化標(biāo)題的目的。
以下通過兩個競品寶貝進(jìn)行分析對比。
競品1[5]:
kumayes 秋季韓版寬松圓領(lǐng)套頭撞色愛心針織毛衫愛心減齡毛衣女
其在百度平臺的分詞結(jié)果如圖1所示。
競品2[6]:
標(biāo)題:2018秋冬新款韓版女式平面純色高翻領(lǐng)針織打底毛衫修身套頭毛衣
百度分詞工具分析結(jié)果如圖4所示。
其中,在分詞詞性中,m表示數(shù)量詞,t表示時間名詞,n表示名詞,a表示形容詞,v表示普通動詞,vn表示名動詞。通過對比自擬的寶貝標(biāo)題和競品的寶貝標(biāo)題詞性,可以通過優(yōu)化詞性,來達(dá)到標(biāo)題優(yōu)化的目的。
四、總結(jié)
由上文可知,利用深度學(xué)習(xí)分詞技術(shù)為寶貝標(biāo)題分析及SEO中的標(biāo)題優(yōu)化提供了新的分析手段,可以通過進(jìn)一步的研究分析如何根據(jù)爆款標(biāo)題指導(dǎo)制作標(biāo)題。
參考文獻(xiàn):
[1]百度人工智能自然語言詞法分析工具:https://cloud.baidu.com/product/nlp/lexical
[2]淘寶寶貝:https://item.taobao.com/item.htm?spm=a219r.lmn002.14.6.4cd75b624FbMAw&id=576354597258&ns=1&abbucket=7#detail
[3]哈工大語言技術(shù)平臺:http://ltp.ai/demo.html
[4]淘寶寶貝:https://item.taobao.com/item.htm?spm=a230r.1.14.34.185e2fc7pCCtyc&id=578189753845&ns=1&abbucket=7#detail
[5]競品1寶貝:https://detail.tmall.com/item.htm?spm=a230r.1.14.6.34d4466fN5OkeJ&id=577399581385&cm_id=140105335569ed55e27b&abbucket=16&sku_properties=20509:28383
[6]競品2寶貝:https://detail.tmall.com/item.htm?spm=a230r.1.14.10.5da225b5rypyKZ&id=575633483211&ad_id=&am_id=&cm_id=140105335569ed55e27b&pm_id=&abbucket=7