亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        在線社區(qū)廣告文本聯(lián)系方式的抽取研究

        2018-08-19 09:26:48王俊芳韓澤峰陳楠
        科學(xué)與財(cái)富 2018年23期
        關(guān)鍵詞:深度學(xué)習(xí)

        王俊芳 韓澤峰 陳楠

        摘要:在線社區(qū)已經(jīng)成為許多用戶交流與獲取信息的主要場所。但是同時,很多廣告信息也充斥在許多網(wǎng)絡(luò)社區(qū)里。這些廣告不僅嚴(yán)重?fù)p害了社區(qū)的使用質(zhì)量,使得用戶在瀏覽這些無的信息上浪費(fèi)了大量時間,一些虛假廣告還有可能對普通網(wǎng)民的財(cái)產(chǎn)等方面帶來嚴(yán)重的損失。目前已經(jīng)在廣告文本檢測上已經(jīng)有相關(guān)研究,相應(yīng)的算法也應(yīng)用于實(shí)際系統(tǒng)??紤]到幾乎所有的在線社區(qū)廣告均包含了聯(lián)系方式,本項(xiàng)工作研究從檢測到的廣告文本里面提取聯(lián)系方式。我們提取了兩種算法:基于規(guī)則的算法和基于深度學(xué)習(xí)的算法。實(shí)驗(yàn)表明我們的算法具備較好的性能。

        關(guān)鍵詞:廣告文本;抽??;算法;深度學(xué)習(xí)

        1 前言

        經(jīng)過網(wǎng)絡(luò)文本中聯(lián)系方式的抽取具有重要的意義,從我們接觸到的文獻(xiàn)來看,目前尚沒有專門的公開論文來探討這一問題。本文提出了兩種聯(lián)系方式抽取算法:基于規(guī)則的算法和基于深度學(xué)習(xí)的算法。同時,我們構(gòu)造了一個包含7000條互聯(lián)網(wǎng)文本的數(shù)據(jù)集來驗(yàn)證我們算法的性能。本文的貢獻(xiàn)主要體現(xiàn)在:1)我們首次研究了互聯(lián)網(wǎng)文本中聯(lián)系方式的抽取問題;2)我們提出了兩種有效地算法,特別是首次將深度學(xué)習(xí)應(yīng)用到該問題上;3)我們提出了一種結(jié)合拼音嵌入的方式來作為深度神經(jīng)網(wǎng)絡(luò)的輸入。

        2 相關(guān)工作

        2.1 深度學(xué)習(xí)

        現(xiàn)有的深度神經(jīng)網(wǎng)絡(luò)主要包含三種主要的架構(gòu)。第一種架構(gòu)是卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn)在于其每一層的特征都由上一層的局部區(qū)域通過共享權(quán)值的卷積核激勵得到。這一特點(diǎn)使得卷積神經(jīng)網(wǎng)絡(luò)相比于其他神經(jīng)網(wǎng)絡(luò)方法更適合應(yīng)用于圖像特征的學(xué)習(xí)與表達(dá)。第二種架構(gòu)是循環(huán)神經(jīng)網(wǎng)絡(luò)。RNN的本質(zhì)特征是在處理單元之間既有內(nèi)部的反饋連接又有前饋連接,并且RNN特別適宜用于建立序列性數(shù)據(jù),例如文本。第三種架構(gòu)是前面兩種架構(gòu)的融合,特別是在視頻信息處理上,通過CNN來表征單幀信息,通過RNN來建模時序信息。由于本文所處理的對象是文本,所以本文將利用RNN來作為基本架構(gòu)進(jìn)行算法設(shè)計(jì)。

        2.2 網(wǎng)絡(luò)廣告文本識別

        網(wǎng)絡(luò)廣告文本識別基本都是沿用文本分類的思路來處理。傳統(tǒng)文本分類一般包括特征選擇與分類器構(gòu)建兩個步驟。特征選擇的方法包括信息增益、互信息等等。而深度學(xué)習(xí)廣泛應(yīng)用于自然語言處理之后,一般利用字向量或者詞向量來作為最基本的特征輸入,然后利用網(wǎng)絡(luò)來逐步得到句子、段落甚至篇章級的特征表示,并且分類器也融入網(wǎng)絡(luò)之中。文本分類所采用的網(wǎng)絡(luò)架構(gòu)既有CNN,也有RNN,也有兩者的結(jié)合。

        3 本文的方法

        3.1 基于語句規(guī)則的抽取

        本文主要是針對中文文本中聯(lián)系方式的提取,提取類型主要分為微信,QQ,手機(jī)號碼三大類,其中微信又分為微信號和公眾號兩小類,QQ分為QQ號和QQ群號兩小類。顧名思義,基于語義規(guī)則提取即根據(jù)數(shù)據(jù)中出現(xiàn)的標(biāo)志性詞匯來提取數(shù)據(jù)中可能的聯(lián)系方式。本文規(guī)則提取的特點(diǎn)在于應(yīng)用了拼音函數(shù)和漢字判別函數(shù),現(xiàn)在的廣告商為躲避各種屏蔽機(jī)制,往往會以標(biāo)致性詞匯的諧音詞代替原來的標(biāo)志性詞匯,要統(tǒng)計(jì)所有的標(biāo)致性詞匯和其諧音詞工作量大,且往往會漏掉一部分諧音詞,現(xiàn)在我們通過拼音函數(shù)將9萬多的漢字翻譯成400個左右的拼音,這不僅使標(biāo)致性詞匯無所遁形,并且大大的降低了規(guī)則類別的維度,從而減輕了人工查找規(guī)則的負(fù)擔(dān)和機(jī)器運(yùn)行的負(fù)擔(dān)。

        3.2 基于深度神經(jīng)網(wǎng)絡(luò)的抽取

        鑒于LSTM+CRF對于詞性、命名體等信息提取的良好性能,本文將該模型作為聯(lián)系方式提取的核心模型。模型訓(xùn)練數(shù)據(jù)的預(yù)處理通過語義規(guī)則標(biāo)注部分?jǐn)?shù)據(jù),之后將標(biāo)注結(jié)果再進(jìn)行人工處理,完善規(guī)則標(biāo)注程序的短板,從而保證訓(xùn)練出的模型在有限條件下效果最佳。標(biāo)注好的數(shù)據(jù)分為訓(xùn)練集和測試集,實(shí)驗(yàn)中我們選取了漢字,漢字拼音,詞性,以及對應(yīng)的標(biāo)簽四個特征(其中標(biāo)簽必選),并對其進(jìn)行了不同的組合方式對模型進(jìn)行了訓(xùn)練,其中包括基于(漢字,漢字拼音,標(biāo)簽),(漢字,詞性,標(biāo)簽),(漢子拼音,詞性,標(biāo)簽)三種特征方式的LSTM模型以及三種特征方式的GRU模型。

        4 實(shí)驗(yàn)數(shù)據(jù)及評價指標(biāo)

        4.1 實(shí)驗(yàn)數(shù)據(jù)

        本文選取的數(shù)據(jù)為一游戲相關(guān)數(shù)據(jù),其中大多包含了游戲金幣鉆石買賣,戰(zhàn)盟拉人等相關(guān)聯(lián)系方式,其中主要包括QQ,QQ群,微信,微信公眾號,手機(jī)號碼這五類聯(lián)系方式。本次實(shí)驗(yàn)的數(shù)據(jù)量為7442,其中1000條作為測試集,其余6442條數(shù)據(jù)作為訓(xùn)練集。

        4.2 評價指標(biāo)

        本文主要考慮了兩類評價指標(biāo):準(zhǔn)確率和召回率。其中準(zhǔn)確率包括各類聯(lián)系方式的準(zhǔn)確率以及平均準(zhǔn)確率。對于五個小類分別有一個準(zhǔn)確率和召回率,并且最終會有一個平均的準(zhǔn)確率和召回率。

        5 實(shí)驗(yàn)結(jié)果與結(jié)論分析

        在以上所提到的兩類方法的基礎(chǔ)上,我們對已有數(shù)據(jù)進(jìn)行了實(shí)驗(yàn),以下是兩類模型在樣本容量為1000的同一測試集上作用得到的結(jié)果。

        語義規(guī)則下的聯(lián)系方式提取準(zhǔn)確率占優(yōu),其主要優(yōu)勢體現(xiàn)在QQ和QQ群的提取,而其余的準(zhǔn)確率均在深度學(xué)習(xí)模型里取得最優(yōu)值,其中漢字,拼音,標(biāo)簽為特征的模型效果最佳。

        語義規(guī)則同樣占優(yōu),其主要優(yōu)勢體現(xiàn)在QQ群和電話的提取,但其短板也尤為突出,公眾號召回率低至15.79%。除QQ群的其余聯(lián)系方式的召回率均在深度學(xué)習(xí)模型里取得最優(yōu)值,且集中體現(xiàn)在漢字,拼音,標(biāo)簽三種特征下的GRU模型之中。

        由以上兩組數(shù)據(jù)的對比可知基于此數(shù)據(jù)集語義規(guī)則提取效果較好,漢字拼音標(biāo)簽GRU模型次之,語義規(guī)則在處理純數(shù)字類型的聯(lián)系方式上效果尤為突出,但在其他類型數(shù)據(jù)上尤其是包含漢字的公眾號上效果不佳。對于深度學(xué)習(xí)模型其表現(xiàn)較為均衡,但在QQ和QQ群提取方面表現(xiàn)不突出,其原因是提取時部分QQ群錯誤提取成QQ,致使整體稍遜色于規(guī)則。基于此我們對數(shù)據(jù)集進(jìn)行了分析,手機(jī)號碼和公眾號的比例與其他三類聯(lián)系方式的比例相差甚大,且QQ,QQ群占據(jù)了數(shù)據(jù)的主要部分,由此可見數(shù)據(jù)分布可能會更有利于規(guī)則提取。

        6 總結(jié)

        本文基于7442條中文數(shù)據(jù),對其分別進(jìn)行了基于LSTM/GRU模型和傳統(tǒng)語義規(guī)則提取聯(lián)系方式的實(shí)驗(yàn)。傳統(tǒng)語義規(guī)則提取更為精準(zhǔn),對于適量的數(shù)據(jù)可以擬定有限的規(guī)則提取出盡可能多類別的目標(biāo)數(shù)據(jù),但對于大數(shù)據(jù)傳統(tǒng)語義規(guī)則離散型較強(qiáng),擬定規(guī)則費(fèi)時費(fèi)力,且規(guī)則之間的影響會限制規(guī)則的種類,導(dǎo)致部分類別的數(shù)據(jù)難提取甚至漏提取;基于LSTM/GRU模型和傳統(tǒng)語義規(guī)則相比提取更具有連續(xù)性,學(xué)習(xí)規(guī)則也更具有主動性,在當(dāng)今大數(shù)據(jù)的背景下更為適用和契合,但其也暴露出致命的難點(diǎn)和弊端,深度學(xué)習(xí)模型對數(shù)據(jù)的依賴性強(qiáng),數(shù)據(jù)量和數(shù)據(jù)分布也有比較高的要求,所以數(shù)據(jù)擴(kuò)充和怎樣高效的處理數(shù)據(jù)是當(dāng)前科技環(huán)境亟需探索的一大方向。下一步還將探索更為高效的嵌入方式和網(wǎng)絡(luò)結(jié)構(gòu)。

        參考文獻(xiàn):

        [1]張嬙嬙,黃廷磊,張銀明.基于聚類分析的二分網(wǎng)絡(luò)社區(qū)挖掘[J]. 計(jì)算機(jī)應(yīng)用,2015,35(12):3511-3514.

        [3]艾瑞咨詢集團(tuán),《2016年中國網(wǎng)絡(luò)廣告行業(yè)年度監(jiān)測報告簡版》

        基金項(xiàng)目: 本文工作受國際自然科學(xué)基金支持(資助號:61673377).

        猜你喜歡
        深度學(xué)習(xí)
        從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
        面向大數(shù)據(jù)遠(yuǎn)程開放實(shí)驗(yàn)平臺構(gòu)建研究
        基于自動智能分類器的圖書館亂架圖書檢測
        搭建深度學(xué)習(xí)的三級階梯
        有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
        利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
        考試周刊(2016年94期)2016-12-12 12:15:04
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        国产乱人伦偷精品视频还看的| 亚洲成a人片在线观看久| 日韩av二区三区一区| 午夜亚洲精品一区二区| 国产小视频在线看不卡| 中文字幕久久精品一二三区| 9999精品视频| 日韩精品免费一区二区中文字幕 | 亚洲VA欧美VA国产VA综合| 久久久亚洲一区二区三区| 久久无码潮喷a片无码高潮| 日本人与黑人做爰视频网站| 91久久久久无码精品露脸| 日本精品啪啪一区二区| 欧美午夜理伦三级在线观看| 国产伦精品一区二区三区| 色欲色欲天天天www亚洲伊| 久久精品国产亚洲av成人| 国产精品爽爽VA吃奶在线观看| 日本按摩偷拍在线观看| 又色又爽又高潮免费视频国产| 男女真实有遮挡xx00动态图| 中文字幕精品永久在线| 中文字幕乱码熟女人妻在线| 又大又粗又爽的少妇免费视频| 无码熟妇人妻AV影音先锋| 亚洲国产精品成人一区二区三区| 99久久99久久精品国产片 | 国产人妻高清国产拍精品| 亚洲旡码a∨一区二区三区| 91久久国产情侣真实对白| 久久日本视频在线观看| 国产av一区二区三区传媒| 一级片久久| 亚洲中字永久一区二区三区| 日本顶级metart裸体全部| 久久久久国产精品免费免费搜索 | 911国产在线观看精品| 极品少妇人妻一区二区三区| 国产a国产片国产| 无码专区中文字幕DVD|