亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CNN與規(guī)則匹配的廣告類中文短小文本信息識(shí)別

        2019-04-27 01:39:02殷越
        科技資訊 2019年2期
        關(guān)鍵詞:分類

        殷越

        摘 要:隨著互聯(lián)網(wǎng)越來越深入生活的方方面面,越來越多的人開始積極參與互聯(lián)網(wǎng)上的各種互動(dòng)行為?;ヂ?lián)網(wǎng)上也有越來越多的地方允許人與人之間通過文本的形式進(jìn)行互動(dòng)。但伴隨著文本互動(dòng)行為的規(guī)模不斷擴(kuò)大,也對(duì)網(wǎng)站的管理人員造成了逐漸增長(zhǎng)的壓力。廣告類行為相比其他垃圾行為而言,背后有著利益進(jìn)行驅(qū)動(dòng)。大量的廣告信息對(duì)管理者的管理方式造成了挑戰(zhàn)。為了緩解這些問題,該文構(gòu)造了一種規(guī)則匹配與卷積神經(jīng)網(wǎng)絡(luò)(CNN)結(jié)合的廣告類短小文本信息識(shí)別方法,取得了較好的識(shí)別效果。

        關(guān)鍵詞:CNN NLP 廣告 分類 自然語言處理

        中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2019)01(b)-00-04

        1 背景介紹

        目前對(duì)此類識(shí)別短小文本信息進(jìn)行識(shí)別,方法大致有3種:(1)基于語義理解的方法;(2)使用基于標(biāo)簽的方法;(3)使用機(jī)器學(xué)習(xí)方法進(jìn)行分類。該文主要探尋使用主流的機(jī)器學(xué)習(xí)分類技術(shù)與規(guī)則過濾方法通過自動(dòng)識(shí)別廣告類文本信息解決傳統(tǒng)手段對(duì)于文本互動(dòng)的管理問題。關(guān)于分類問題,有一些常見算法可供選擇:Naive Bayes、AdaBoost、Gradient boosting、卷積神經(jīng)網(wǎng)絡(luò)(CNN)等。盡管文本分類是自然語言處理(NLP)領(lǐng)域的經(jīng)典問題[1],但在實(shí)際應(yīng)用中,大多數(shù)運(yùn)營(yíng)者仍然采用傳統(tǒng)的人工方式或人工方式加簡(jiǎn)單關(guān)鍵詞進(jìn)行過濾。但這種管理手段效率低下,無法及時(shí)過濾迅速產(chǎn)生的海量短小文本互動(dòng)信息,影響互動(dòng)功能的正常使用。很多論壇可能一夜之間,就被機(jī)器人發(fā)送的大量廣告信息充斥著版面。增大了用戶瀏覽和查找正常內(nèi)容的困難。盡管招聘專人對(duì)論壇版面管理是個(gè)不錯(cuò)的選擇,但專人成本高,負(fù)荷量大,管理困難,而且未必能在第一時(shí)間處理問題。如今,用戶生成內(nèi)容成為互聯(lián)網(wǎng)上的重要信息來源。因此采用一些技術(shù)手段自動(dòng)對(duì)用戶發(fā)出的文本內(nèi)容做初步的篩選和過濾,提高網(wǎng)站對(duì)于文本互動(dòng)中的廣告類短小文本信息的管理效率,保障互動(dòng)功能的正常使用成為了迫切的需求,如圖1所示。

        2 研究現(xiàn)狀分析

        廣告類短小文本信息是指廣告類的評(píng)論、留言、或者公共板塊的即時(shí)通信信息。針對(duì)廣告類短小文本信息的自動(dòng)識(shí)別現(xiàn)在主要有以下幾種方法:(1)采用驗(yàn)證碼等方式;(2)基于關(guān)鍵詞、鏈接數(shù)量等特征的自動(dòng)識(shí)別方法等。

        研究人員目前對(duì)垃圾文本信息的識(shí)別做了大量的工作,取得了長(zhǎng)足的進(jìn)步,Liu等從評(píng)論、用戶行為、商品3個(gè)角度提取特征項(xiàng),對(duì)非評(píng)論的無關(guān)文本以及只涉及商品品牌而無關(guān)商品本身的垃圾評(píng)論進(jìn)行識(shí)別,較好地識(shí)別了英文領(lǐng)域中存在的無用評(píng)論,但由于中英文之間存在差異,往往英文領(lǐng)域的垃圾識(shí)別方法不能直接有效地應(yīng)用到中文領(lǐng)域當(dāng)中。邱云飛等及吳敏等分別從用戶行為、商品特征的顯著性以及評(píng)論是否有用等角度對(duì)垃圾評(píng)論的識(shí)別進(jìn)行了研究。但以上研究大多僅僅適用于特定使用場(chǎng)景(例如商品評(píng)論)的廣告文本識(shí)別,很難應(yīng)用到其他領(lǐng)域。也有人指出大部分實(shí)驗(yàn)室研究數(shù)據(jù)都是小樣本,并且很多都是手動(dòng)添加標(biāo)簽,具有很大的誤差。大多數(shù)研究?jī)H停留在理論、模型構(gòu)建、實(shí)驗(yàn)測(cè)試,數(shù)據(jù)量小主觀性強(qiáng)。

        3 研究目的和預(yù)期成果

        由研究現(xiàn)狀分析可見,當(dāng)前的主要研究方向主要集中在對(duì)特定場(chǎng)景的垃圾評(píng)論分析,例如,微博和電子商務(wù)平臺(tái),但在真實(shí)的互聯(lián)網(wǎng)上,還存在著大量綜合性論壇。如綜合性論壇網(wǎng)站百度貼吧,其有超過22500000個(gè)貼吧,用戶量超過15億。市面上也有諸多通用論壇模板,例如Crossday Discuz! Board、phpwind、Ucenter home等。在這些綜合性論壇中發(fā)布的帖子等廣告類中文短小文本信息識(shí)別與產(chǎn)品/微博的評(píng)論識(shí)別有很大不同:(1)綜合性論壇中一般沒有固定的話題,并且討論無關(guān)內(nèi)容一般也是允許的;(2)當(dāng)前的研究多要求使用用戶的歷史行為數(shù)據(jù)而不是對(duì)文本進(jìn)行單獨(dú)的分析,然而一旦基于歷史行為進(jìn)行分析,很容易導(dǎo)致同一段文本,A用戶發(fā)送的被視為廣告文本而被阻止,B用戶則未被阻止。在論壇等開放討論環(huán)境中易引起用戶的不滿。并且,對(duì)數(shù)據(jù)(諸如用戶歷史行為數(shù)據(jù)等)更多的要求會(huì)加大應(yīng)用研究成果的難度。論壇與電子商務(wù)相比較而言,論壇的注冊(cè)大多是低門檻的,廣告信息發(fā)布者可以通過低成本地建立另一個(gè)賬號(hào)的方式規(guī)避對(duì)歷史行為數(shù)據(jù)的分析。同時(shí),還存在諸多含有評(píng)論功能的小型網(wǎng)站/個(gè)人網(wǎng)站/網(wǎng)站模板。對(duì)于這類網(wǎng)站,應(yīng)存在一種適配簡(jiǎn)單、針對(duì)性不強(qiáng)的通用廣告類中文短小文本信息檢測(cè)方法。

        因此,有必要實(shí)現(xiàn)一種快速高精度的識(shí)別方法,其只依賴文本內(nèi)容本身進(jìn)行識(shí)別,且僅需識(shí)別主要的廣告類中文短小文本即可,從而緩解人工識(shí)別時(shí)效性低、成本高的缺點(diǎn)。

        4 規(guī)則匹配

        為了對(duì)大多數(shù)廣告類中文短小文本進(jìn)行初步的過濾,我們首先構(gòu)造規(guī)則匹配方法進(jìn)行特征建模和特征提取。

        4.1 廣告類短小文本的特征建模和特征提取

        對(duì)于廣告類的文本信息一般都包含一些比較明顯、獨(dú)特的關(guān)鍵詞,例如,一條廣告類的文本信息:“滿額立減不玩兒虛的,超值會(huì)員盛宴僅剩3天”,其中就包含與商業(yè)廣告非常相關(guān)的關(guān)鍵詞:“滿額立減”“會(huì)員”“超值”,這些關(guān)鍵詞對(duì)廣告類文本的識(shí)別是非常重要的特征。故根據(jù)大量的廣告類文本信息構(gòu)造了關(guān)鍵詞列表,對(duì)包含此類關(guān)鍵詞頻率較高的文本信息進(jìn)行初步的過濾。

        一般廣告類的文本信息主要以獲取商業(yè)利益為主要目的,所以該類信息中不僅含有比較明顯、獨(dú)特的關(guān)鍵詞,并且在信息中一般還包含URL、QQ號(hào)、微信、電話號(hào)碼等聯(lián)系方式.例如,“【BV原創(chuàng)設(shè)計(jì)復(fù)古度假沙灘高腰V領(lǐng)大擺仙女網(wǎng)紗吊帶蓬蓬連衣裙女夏】https://m.tb.cn/h.3MpMLQ4?sm=5a7a87點(diǎn)擊鏈接,再選擇瀏覽器咑閞;或復(fù)·制這段描述¥BXn3bmeFCQP¥后到淘♂寳♀”“3D仙俠手游火熱內(nèi)測(cè)中,上線就得極品仙器一件,永不刪檔 url.cn/ABCDEFG”。該文通過構(gòu)造正則表達(dá)式來檢驗(yàn)一條文本中是否存在該類信息,并結(jié)合關(guān)鍵詞頻率進(jìn)行初步的過濾。

        4.2 卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)

        CNN是機(jī)器學(xué)習(xí)中一類深度前饋人工神經(jīng)網(wǎng)絡(luò),最常用于分析視覺圖像,后來逐漸被應(yīng)用于自然語言處理和文本分析。

        CNN是一種模仿生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能的數(shù)學(xué)模型或計(jì)算模型,用于對(duì)數(shù)據(jù)所服從的真實(shí)分布函數(shù)進(jìn)行估計(jì)或近似。相比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),CNN增加了一個(gè)或多個(gè)卷積層、池化層和頂端的全連接層。

        從整體結(jié)構(gòu)而言,CNN像常規(guī)的神經(jīng)網(wǎng)絡(luò)一樣,大體的結(jié)構(gòu)主要分為輸入層、隱層、輸出層。卷積層、池化層和全連接層都屬于隱層。卷積神經(jīng)網(wǎng)絡(luò)的每層神經(jīng)元與下一層神經(jīng)元全互連,神經(jīng)元之間不存在同層連接,也不存在跨層連接,如圖2所示。

        卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的優(yōu)秀模型有著良好的容錯(cuò)能力、并行處理能力和自學(xué)能力。廣泛用于處理不清楚背景知識(shí),不明確推理規(guī)則的問題,能夠適應(yīng)具有較大缺損、畸變的樣本數(shù)據(jù),具有良好的魯棒性和運(yùn)算效率。

        該文采用TensorFlow 1.9構(gòu)建該文所述的CNN模型。TensorFlow是一個(gè)開源軟件庫,主要用于機(jī)器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)方面的研究,也可廣泛用于其他計(jì)算領(lǐng)域。它是Google基于DistBelief進(jìn)行研發(fā)的第二代人工智能學(xué)習(xí)系統(tǒng)。

        首先我們嘗試對(duì)數(shù)據(jù)使用結(jié)巴分詞進(jìn)行分詞處理,采用Word2vec進(jìn)行處理,用Text-CNN進(jìn)行分類,但效果不佳,通過多次嘗試,我們最終選擇了Char-CNN算法。最終構(gòu)建的網(wǎng)絡(luò)簡(jiǎn)圖如圖3所示。

        第一個(gè)網(wǎng)絡(luò)層是輸入層,這一層采用Word embedding的方法將詞匯索引向低維度的詞向量進(jìn)行映射,起到降維作用。它本質(zhì)是一個(gè)從數(shù)據(jù)中學(xué)習(xí)得到的詞匯向量表,是一種特征提取器。

        卷積層有局部連通性,可以用來消除局部相關(guān)性(比如在數(shù)據(jù)集中“我”后面一定跟著“們”,那么“們”這個(gè)信息就可以被刪減)。降低數(shù)據(jù)量以準(zhǔn)備進(jìn)入全連接層。

        池化層用來選取卷積結(jié)果計(jì)算后的最強(qiáng)特征。池化可自適應(yīng)輸入寬度從而將不同長(zhǎng)度的輸入轉(zhuǎn)化為統(tǒng)一長(zhǎng)度的輸出并起到降低數(shù)據(jù)量的目的。這里采用的是最大池化。

        全連接層,隱含語義表達(dá),把上一層有用的信息提取整合。在兩個(gè)全連接層之間會(huì)進(jìn)行一次dropout。它會(huì)根據(jù)一定的概率“禁用”某些神經(jīng)元的發(fā)放。這種方法可以防止神經(jīng)元共同適應(yīng)一個(gè)特征,而迫使它們單獨(dú)學(xué)習(xí)有用的特征來緩解過擬合問題。

        5 實(shí)驗(yàn)結(jié)果與分析

        5.1 實(shí)驗(yàn)數(shù)據(jù)集

        通過自行開發(fā)的一個(gè)網(wǎng)絡(luò)爬蟲,我們從互聯(lián)網(wǎng)中收集到了50000用戶互動(dòng)文本信息(如評(píng)論或即時(shí)通訊聊天記錄)和50000條廣告,總數(shù)100000條。我們?nèi)≌Tu(píng)論和廣告各40000條組成訓(xùn)練數(shù)據(jù)集。剩下的作為驗(yàn)證集和測(cè)試集。

        5.2 實(shí)驗(yàn)環(huán)境

        該文實(shí)驗(yàn)采用的編程語言是Python,運(yùn)行環(huán)境是Python 3.6 4Ghz Intel Core i7 16GB 2666Mhz DDR4 NVIDIA GeForce GTX 1080。

        5.3 實(shí)驗(yàn)結(jié)果

        我們通過隨機(jī)從訓(xùn)練集中抽取指定數(shù)量的樣本,進(jìn)行了實(shí)驗(yàn)1,比較了不同算法達(dá)到準(zhǔn)確率所需要的訓(xùn)練次數(shù)。其中Method 1是采用樸素貝葉斯實(shí)現(xiàn)的廣告信息過濾器,Method 2是采用Gradient boosting與決策樹結(jié)合實(shí)現(xiàn)的廣告信息過濾器,Method 3是該文采用的方法,但沒有加入規(guī)則過濾,如圖4所示。

        深度學(xué)習(xí)在不同樣本容量下準(zhǔn)確度均有較大的優(yōu)勢(shì),并且一直成上漲趨勢(shì),可以推測(cè),如果樣本量進(jìn)一步增長(zhǎng),準(zhǔn)確度還可以繼續(xù)提升。

        將該文實(shí)驗(yàn)的方法與其他主流機(jī)器學(xué)習(xí)方法實(shí)驗(yàn)的分類器進(jìn)行比較,進(jìn)行實(shí)驗(yàn)2,其中Method4是該文采用的方法并加入規(guī)則匹配,如圖5所示。

        可以看出Method1、Method2在指標(biāo)上基本接近,并且弱于其他方法。Method3的各項(xiàng)指標(biāo)位居第二。而Method4也就是該文的方法在準(zhǔn)確度、F1、正常文本準(zhǔn)確率、正常文本查全率4個(gè)指標(biāo)中都高于其他方法。

        6 結(jié)語

        該文的創(chuàng)新點(diǎn)在于使用了Char-CNN以及規(guī)則匹配進(jìn)行短小文本的分類,探索了一種可以有效識(shí)別廣告類中文短小文本信息的方法。通過使用實(shí)際數(shù)據(jù)對(duì)比多種文本分類技術(shù)在廣告類中文短小文本信息識(shí)別的效果,該文所提出的方法在準(zhǔn)確度上優(yōu)于傳統(tǒng)方法。

        但當(dāng)樣本容量過小時(shí),該文的方法的識(shí)別率較低,因此,下一步工作可考慮采用相應(yīng)方法降低算法對(duì)訓(xùn)練樣本量的要求,并結(jié)合一些其他相關(guān)技術(shù),進(jìn)一步提高算法的識(shí)別準(zhǔn)確率。

        希望未來可以繼續(xù)完善本文工作,最終將該技術(shù)應(yīng)用到實(shí)際生產(chǎn)環(huán)境(例如綜合性論壇、論壇模板、小型網(wǎng)站及個(gè)人網(wǎng)站)中,較大地減輕了管理員的數(shù)據(jù)處理壓力,提升了管理效率。

        參考文獻(xiàn)

        [1] 田雅.社交網(wǎng)絡(luò)下的垃圾信息處理算法研究[D].山東師范大學(xué),2017.

        [2] 李京蔚.在線商品垃圾評(píng)論發(fā)布動(dòng)機(jī)影響因素研究[J].企業(yè)技術(shù)開發(fā),2016,35(5):72,75.

        猜你喜歡
        分類
        2021年本刊分類總目錄
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        星星的分類
        我給資源分分類
        垃圾分類,你準(zhǔn)備好了嗎
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        按需分類
        教你一招:數(shù)的分類
        久久99精品国产99久久6尤物| 精品国产夫妻自拍av| 日韩一区三区av在线| 日韩av无码社区一区二区三区 | 亚洲精品乱码久久久久久蜜桃图片| 精品国产AⅤ无码一区二区| 国产目拍亚洲精品二区| 一区二区三区日韩亚洲中文视频| 国产午夜av一区二区三区| 放荡成熟人妻中文字幕| 麻豆tv入口在线看| 亚洲精品国产美女久久久 | 中文字幕文字幕视频在线| 秋霞在线视频| 亚洲美免无码中文字幕在线| 日韩免费高清视频网站| av网站免费观看入口| 国产精品多人p群无码| 久久久久久成人毛片免费看| 免费无码AⅤ片在线观看| 好看的日韩精品视频在线 | 亚洲av无码成人精品区在线观看| 国产91AV免费播放| 久久精品亚洲成在人线av乱码| 亚洲精品无码久久久久av老牛| 国产欧美成人| 亚洲av乱码国产精品观看麻豆| 精品国产品香蕉在线| 国产自偷亚洲精品页65页| 中文字幕高清无码不卡在线| av黄色在线免费观看| 亚洲成av人片在线观看ww| 99热这里只有精品国产66| 日本高清视频一区二区| 亚洲乱亚洲乱妇| 521色香蕉网站在线观看| 一区二区三区免费自拍偷拍视频| 午夜成人理论福利片| 国产黄色片在线观看| 蜜桃在线观看视频在线观看| 老妇高潮潮喷到猛进猛出|