亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于群聊文本的分類(lèi)研究

        2019-04-22 12:03:04周園林邵國(guó)林
        現(xiàn)代計(jì)算機(jī) 2019年8期
        關(guān)鍵詞:分類(lèi)文本模型

        周園林,邵國(guó)林

        (四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)

        0 引言

        隨著網(wǎng)絡(luò)服務(wù)場(chǎng)景的不斷豐富,網(wǎng)絡(luò)終端的性能提升和普及,移動(dòng)數(shù)據(jù)量持續(xù)擴(kuò)大,海量移動(dòng)即時(shí)通訊工具所產(chǎn)生的數(shù)據(jù)在互聯(lián)網(wǎng)移動(dòng)數(shù)據(jù)中占比最大[1],信息和通信技術(shù)(Information and Communication Technologies,ICT)正快速的改變著人們的生活。人們頻繁地利用社交軟件與朋友、親人、商家、同事甚至是陌生人進(jìn)行著聊天交友、活動(dòng)組織、獲取資訊、完成交易等活動(dòng),大大降低人們的時(shí)間成本,方便了人們的日常生活。但這些社交軟件也方便了違法犯罪人員組織和資訊違法犯罪方法、完成犯罪交易等非法活動(dòng),降低了違法犯罪人員的犯罪成本。所以,甄別和判斷即時(shí)通訊數(shù)據(jù)中蘊(yùn)含的豐富信息,對(duì)于協(xié)助公安偵查違法犯罪行為,找出違法犯罪團(tuán)伙,獲取違法犯罪證據(jù),抓捕違法犯罪人員,搗毀違法犯罪社交組織,有著至關(guān)重要的作用。

        目前,公安對(duì)于即時(shí)通訊類(lèi)數(shù)據(jù)進(jìn)行收集和分析的主要手段依然是利用大量人力進(jìn)行自主甄別,從中找出有利于警方破案和偵察的消息。這無(wú)異于大海撈針。而利用人工智能領(lǐng)域的方法,可以有效地提取社交軟件的大量信息,進(jìn)行學(xué)習(xí)和甄別,幫助警方自動(dòng)的找到有關(guān)違法犯罪的有用信息,幫助警方提高辦案效率。同時(shí),群聊文本具有的非正規(guī)性、不完整性、稀疏性等特點(diǎn),相比單一的短文本和長(zhǎng)文本信息,群聊文本更難分析和處理。所以對(duì)聊天文本進(jìn)行有效分類(lèi),在數(shù)據(jù)處理和分析上面臨著巨大挑戰(zhàn)。

        針對(duì)這些問(wèn)題,本文提出了面向群聊的分類(lèi)模型,一是利用群聊之間的相關(guān)性將其整合為長(zhǎng)文本后,通過(guò)分詞和去停用詞等操作對(duì)整合出來(lái)的聊天長(zhǎng)文本進(jìn)行預(yù)處理;二是通過(guò)TF-IDF計(jì)算所有文本的詞匯,并將所有詞匯的TF-IDF值作為該詞在詞向量處的權(quán)重值;三是利用梯度降維的方法對(duì)詞向量的維度進(jìn)行降維處理;最后利用傳統(tǒng)的機(jī)器學(xué)習(xí)方法對(duì)詞向量進(jìn)行分類(lèi)訓(xùn)練得到用于群聊分類(lèi)的分類(lèi)模型。

        對(duì)涉槍、涉毒、涉黃和正常群體的分類(lèi)實(shí)驗(yàn)結(jié)果表明,本文提出的分類(lèi)模型能很好的分類(lèi)出涉嫌犯罪的群體。本文的創(chuàng)新點(diǎn)為提出了一種基于群聊文本分類(lèi)的方法,該方法利用詞向量賦權(quán)排序,通過(guò)梯度降維的方式減少詞向量的權(quán)重?;诹奶煳谋镜奶攸c(diǎn),詞向量賦權(quán)排序可以將聊天文本的特點(diǎn)篩選出來(lái),并且將權(quán)重大的特征放在最前面,而將權(quán)重低的特征放在后邊,通過(guò)梯度降維的方式將權(quán)重低的詞排除,不僅增加了模型訓(xùn)練的準(zhǔn)確性,提高了模型的泛化能力。同時(shí)降低了模型訓(xùn)練需要的詞向量維度,加快了模型的訓(xùn)練和預(yù)測(cè),提高了模型的效率。

        1 相關(guān)工作

        群聊文本分類(lèi)可以普適性的歸納到文本分類(lèi)中,群聊天文本的分類(lèi)方法和一般文本的分類(lèi)方法大致可以歸為以下幾類(lèi):

        (1)基于統(tǒng)計(jì)的文本分類(lèi)方法

        基于統(tǒng)計(jì)的文本處理方法是自然語(yǔ)言處理中最常用的分析方法之一,也稱(chēng)經(jīng)驗(yàn)主義方法[2],該方法一般通過(guò)收集一些文本作為統(tǒng)計(jì)模型建立的基礎(chǔ),然后計(jì)算統(tǒng)計(jì)得出的先驗(yàn)概率去計(jì)算詞匯之間的后驗(yàn)概率。常用的分類(lèi)算法包括:貝葉斯分類(lèi)法(Naive Bayesian classifier)及其變種,例如Shuo xu[3]提出的具有高斯事件模型的貝葉斯文本分類(lèi)器在分類(lèi)效果上優(yōu)于經(jīng)典的樸素貝葉斯文本分類(lèi)器;基于支持向量機(jī)(Support Vector Machines,SVM)的文本分類(lèi)器及其變種,例如Goudjil[4]等人提出一組SVM分類(lèi)器提供的后驗(yàn)概率標(biāo)記文本信息,提高了文本分類(lèi)的準(zhǔn)確率。此外,還包括k-最近鄰(k-Neareast Neighbor,kNN)文本分類(lèi)器、神經(jīng)網(wǎng)絡(luò)(Neural Network,NNet)文本分類(lèi)器、決策樹(shù)(Decision Tree)、模糊分類(lèi)法(Fuzzy Classifier)、Rocchio分類(lèi)方法和Boosting算法等優(yōu)秀的文本分類(lèi)方法。文本分類(lèi)器算法的性能取決于數(shù)據(jù)集的特征[5]。

        (2)基于人工知識(shí)庫(kù)和詞典輔助的文本分類(lèi)方法

        許多顯性文本分類(lèi)模型主要利用詞匯上下文之間的依賴(lài)關(guān)系,來(lái)將文本內(nèi)容概念化,通過(guò)建立不同類(lèi)別的人工知識(shí)庫(kù)或關(guān)鍵詞詞典進(jìn)行類(lèi)別分類(lèi),例如Song Y[6]等人通過(guò)使用概率只是庫(kù)來(lái)改進(jìn)文本理解,然后通過(guò)貝葉斯方法來(lái)概念化單詞和文本,獲取文本中每個(gè)詞語(yǔ)概念間的條件概率 p(concept|word)和 p(word|concept),最終推出每個(gè)文本的概念分布?;蛘呃矛F(xiàn)有的知識(shí)來(lái)提供作為文本分類(lèi)的先驗(yàn)知識(shí)。例如Hua Wen等人[7]通過(guò)提供眾所周知的語(yǔ)義網(wǎng)絡(luò)提供的詞匯語(yǔ)義知識(shí)來(lái)進(jìn)行文本分類(lèi)。他們提出的LexSA(Lexical Semantic Analysis)模型將文本理解系統(tǒng)化為分詞、詞性標(biāo)注和概念識(shí)別三個(gè)步驟,并在每個(gè)步驟使用新的模型消除歧義。

        (3)基于結(jié)合統(tǒng)計(jì)和人工知識(shí)庫(kù)的文本分類(lèi)方法

        因?yàn)槿毫奈谋颈旧硗ǔ0煌暾湍:男畔?,這使得在用統(tǒng)計(jì)的方法之外還需要添加額外的知識(shí)來(lái)理解它。J Bian等人[8]認(rèn)為文本本身已經(jīng)包好明確的形態(tài)和句法知識(shí),同時(shí)加入Web上的大量文本可以提取大量的語(yǔ)義知識(shí),通過(guò)定義新的詞表示來(lái)輔助神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(Neural Language Model,NLM)的訓(xùn)練。Bing Li[9]等人,提出了利用Wikipedia和查詢(xún)分段特征方式形成文本特征向量空間,再利用傳統(tǒng)的統(tǒng)計(jì)方法進(jìn)行機(jī)器學(xué)習(xí),獲得了更好的F1值。Qiuxing等人[10]提出的基于LDA主題模型和kNN算法的文本分類(lèi)方法,生成的概率主題有助于使文本以語(yǔ)義為中心,同時(shí)減少了稀疏性。

        綜上所述,目前國(guó)內(nèi)外在文本分類(lèi)等方面已經(jīng)取得了很大的研究進(jìn)展。然而,在交互性社交群體的應(yīng)用場(chǎng)景下,交互性的聊天文本有其獨(dú)有的特點(diǎn),例如聊天文本多人交互帶來(lái)的復(fù)雜度更高,子話(huà)題內(nèi)容更加多樣、樣本噪聲難以清洗等,給聊天文本的分類(lèi)帶來(lái)了巨大的挑戰(zhàn)。同時(shí)由于聊天文本數(shù)據(jù)難以獲取、特征提取工作難度較大、樣本規(guī)模難以支撐模型的有效訓(xùn)練等,所以面向群聊文本的研究關(guān)注也還比較少。

        2 群聊文本及特點(diǎn)分析

        群聊是在網(wǎng)絡(luò)社交軟件上與多個(gè)參與者通過(guò)文本通信同步交談的聊天形式[11-12],它是由短文本消息組成(例如一條評(píng)論、一條即時(shí)通訊等),這和郵件、新聞等長(zhǎng)文本信息有著非常大的區(qū)別。它突破了傳統(tǒng)的面對(duì)面聊天所具有的時(shí)間和空間的限制,允許多個(gè)用戶(hù)能夠隨時(shí)隨地的通過(guò)終端進(jìn)行即時(shí)聊天[13]。用戶(hù)之間通過(guò)消息進(jìn)行交互,這些交互信息一般由三部分組成:用來(lái)識(shí)別用戶(hù)身份的昵稱(chēng),交互信息的時(shí)間戳,和交互信息的內(nèi)容。

        群聊文本(Interactive Text)是即時(shí)消息中主要以短文本為主的由多個(gè)移動(dòng)終端參與的眾多消息構(gòu)成,一般指如群聊天,討論組等形式的交互信息。群聊文本既不同于長(zhǎng)文本,如博文、日志靜態(tài)網(wǎng)頁(yè)、文檔等,又區(qū)別于傳統(tǒng)的短文本,如國(guó)內(nèi)的微博、短信、網(wǎng)絡(luò)評(píng)論以及國(guó)外的Facebook、Twitter等,其具備短文本的非正規(guī)性、不完整性及稀疏性三個(gè)特點(diǎn)[14]。

        (1)非正規(guī)性。短消息通常在表達(dá)方式上與人們的口語(yǔ)接近,同時(shí)包含了非常多的網(wǎng)絡(luò)詞匯和表情符號(hào)。

        (2)不完整性。短消息一般句子表達(dá)不完整(通常會(huì)破壞主謂賓的句法結(jié)構(gòu)),指代不明,或者出現(xiàn)拼寫(xiě)錯(cuò)誤,或詞語(yǔ)簡(jiǎn)寫(xiě)。一般不會(huì)影響閱讀者的理解,但會(huì)增加語(yǔ)義分析的難度。

        (3)稀疏性。短消息是以短文本的形式,僅包含幾個(gè)到十幾個(gè)字詞,在整個(gè)時(shí)間和空間中,僅占有語(yǔ)料庫(kù)中非常小的一部分字詞。

        因?yàn)槿毫奶斓姆钦?guī)、不完整和稀疏性這類(lèi)特點(diǎn)給研究帶來(lái)了困難,因此本文通過(guò)組合長(zhǎng)文本,并用TF-IDF進(jìn)行詞向量權(quán)重賦值排序,并用梯度降維的方式去解決群聊天文本特點(diǎn)所帶來(lái)的挑戰(zhàn)。

        3 模型設(shè)計(jì)

        本文綜合考慮了群聊文本非正規(guī)性、不完整性、稀疏性的特點(diǎn)。而長(zhǎng)文本相對(duì)群聊文本而言,更加方便語(yǔ)義分析,分詞操作。在二分類(lèi)或多類(lèi)問(wèn)題中,我們對(duì)群聊文本進(jìn)行有監(jiān)督學(xué)習(xí),把群聊文本組合成長(zhǎng)文本進(jìn)行統(tǒng)一分析學(xué)習(xí)。我們提出了群聊文本轉(zhuǎn)長(zhǎng)文本分類(lèi)模型,整個(gè)算法模型如圖2所示,該模型將一組群聊文本融合成一篇長(zhǎng)文本,對(duì)多組群聊文本分類(lèi)轉(zhuǎn)化為對(duì)多篇長(zhǎng)文本進(jìn)行分類(lèi)的算法模型,并引入TF-IDF統(tǒng)計(jì)方法,增加群聊文本主題詞的權(quán)重,減少噪音詞匯的影響,并用傳統(tǒng)機(jī)器學(xué)習(xí)算法對(duì)處理好的詞向量進(jìn)行學(xué)習(xí)和分類(lèi)驗(yàn)證。

        圖1 算法流程圖

        表1給出了文中使用的符號(hào)和定義。

        表1 符號(hào)定義

        3.1 預(yù)處理

        因?yàn)槿毫奈谋臼怯啥鄺l消息組成,在一篇群聊文本中消息之間具有相關(guān)性,因此將一篇群聊文本看成一篇長(zhǎng)文本,并不影響消息之間的相關(guān)性。以下給出證明。首先,一條消息在整個(gè)群聊文本的語(yǔ)料庫(kù)中計(jì)算給定詞項(xiàng)條件下詞項(xiàng)出現(xiàn)的概率值。

        其中 Pm(ωiωj)表示詞項(xiàng) ωiωj在整個(gè)短文本語(yǔ)料庫(kù)中出現(xiàn)的概率:

        d(ωi)為詞ωi在該文檔中出現(xiàn)的頻率,由公式(2)、(3)可知,一篇群聊文本,將其中消息融合,將群聊文本當(dāng)成一篇長(zhǎng)文本處理,其詞項(xiàng)的概率保持不變。于是,在群聊分類(lèi)問(wèn)題中,我們可以直接用長(zhǎng)文本的方式對(duì)群聊文本做分詞、去噪、轉(zhuǎn)詞向量處理。

        圖2 預(yù)處理過(guò)程圖

        預(yù)處理流程如圖2所示,主要包括短消息整合為長(zhǎng)文本、數(shù)據(jù)清洗、分詞處理以及去除停用詞,具體描述如下:

        (1)將群聊文本直接通過(guò)append的方式,將群聊文本消息組合成一篇長(zhǎng)文本(如一個(gè)群的聊天記錄,便是一個(gè)長(zhǎng)文本)。

        (2)對(duì)長(zhǎng)文本進(jìn)行數(shù)據(jù)清洗,去除長(zhǎng)文本中不需要的圖片、鏈接、標(biāo)點(diǎn)和表情符號(hào)。

        (3)對(duì)長(zhǎng)文本進(jìn)行中文分詞。本文采用的是開(kāi)源的結(jié)巴分詞工具進(jìn)行中文分詞。

        (4)去除停用詞。將在文本中不具備實(shí)際意義的詞語(yǔ)去除,減少詞空間。

        3.2 詞向加權(quán)策略

        因?yàn)槿毫奈谋局幸话阍?huà)題性比較明確,不同類(lèi)別的群聊文本之間的話(huà)題區(qū)別性比較明顯。如一個(gè)涉毒的討論組會(huì)討論涉毒的話(huà)題,一個(gè)涉槍的討論組會(huì)討論涉槍的話(huà)題,一個(gè)日常交流組會(huì)討論生活日?;虬素孕侣劦?,不同類(lèi)別的群聊文本的話(huà)題比較容易區(qū)分。為了提高與群聊文本分類(lèi)相關(guān)的詞匯權(quán)重,我們采用 TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆文件頻率)統(tǒng)計(jì)方法對(duì)不同群聊文本進(jìn)行詞頻和逆文件頻率計(jì)算。

        詞頻(Term Frequency,TF)指的是某一個(gè)給定的詞語(yǔ)在該文件中出現(xiàn)的次數(shù)。這里用頻率做歸一化處理,同(1)式:

        逆向文件頻率(Inverse Document Frequency,IDF)的主要思想是:如果包含詞條t的文檔越少,IDF越大,則說(shuō)明詞條具有很好的類(lèi)別區(qū)分能力。

        pd(ωk)指包含詞條ωk的文檔數(shù),M指文檔的總數(shù),分母加1是為了避免分母為0。某一特定文檔內(nèi)的高頻率詞語(yǔ),以及該詞語(yǔ)在整個(gè)文檔集合中的低頻率詞語(yǔ),可以產(chǎn)生出高權(quán)重的TF-IDF。因此,TF-IDF傾向于過(guò)濾掉常見(jiàn)的詞語(yǔ),保留特定文檔中重要的詞語(yǔ)。

        本文將群聊文本中的每個(gè)詞的Ptf-idf值作為在詞向量上該詞位置的值。

        3.3 梯度降維策略

        不同的社交群體的詞向量通過(guò)TF-IDF賦值權(quán)重后,由于群聊天的稀疏性的特點(diǎn),詞向量后的頻次呈現(xiàn)出趨于平穩(wěn)的狀態(tài)。如圖3所示,為某涉槍群體各個(gè)詞權(quán)重與維度關(guān)系,隨著維度(橫軸)不斷變大,詞的權(quán)重變化逐漸收斂。

        圖3 某涉槍群體詞權(quán)重曲線(xiàn)圖

        在最前端其各個(gè)詞向量間的差異變化比較明顯,后面的詞向量之間的差異越來(lái)越小,并逐漸趨于平穩(wěn),差異越小的詞向量對(duì)模型的影響作用就越小,差異越大的詞向量對(duì)模型的影響作用就越大,所以我們可以利用梯度的方式截?cái)嗪竺嬗绊懽饔眯〉脑~向量,達(dá)到降維的目的。給定梯度閾值σ,如果梯度?〈σ,則詞向量將以此為界分開(kāi)。

        因?yàn)樘荻冉稻S的方法要計(jì)算詞向量?jī)蓛芍苯拥牟町?,其效率并不高效,?jīng)過(guò)大量的數(shù)據(jù)觀(guān)察和對(duì)比,我們發(fā)現(xiàn)詞向量之間的差異和詞向量的權(quán)重值程正相關(guān)關(guān)系,所以我們可以直接依據(jù)詞向量的權(quán)重進(jìn)行截?cái)啵A舾邫?quán)重的詞向量,去除低權(quán)重的詞向量,以達(dá)到降維的目的。本文一般通過(guò)統(tǒng)計(jì)多個(gè)群聊詞項(xiàng)權(quán)重后,選取最長(zhǎng)的一個(gè)群聊向量作為統(tǒng)一標(biāo)準(zhǔn)。

        3.4 模型訓(xùn)練

        群聊文本分類(lèi)模型主要過(guò)程就是利用長(zhǎng)文本與短文本中消息間的相關(guān)性保持一致的性質(zhì),利用TF-IDF統(tǒng)計(jì)方法,給定關(guān)鍵詞更高的權(quán)重生成群聊文本的詞向量。模型利用機(jī)器學(xué)習(xí)算法來(lái)訓(xùn)練學(xué)習(xí)處理好的詞向量。算法過(guò)程描述如下:

        算法模型訓(xùn)練過(guò)程

        輸入:帶有分類(lèi)標(biāo)簽的群聊文本

        輸出:針對(duì)不同群聊類(lèi)別的分類(lèi)器

        步驟1對(duì)輸入的群聊文本D進(jìn)行消息整合為偽長(zhǎng)文本;

        步驟2對(duì)偽長(zhǎng)文本進(jìn)行數(shù)據(jù)清洗、分詞等預(yù)處理,得到 D′;

        步驟 3利用公式(4)(5)(6)對(duì) D′詞項(xiàng)進(jìn)行加權(quán),得到D′的詞向量;

        步驟4利用機(jī)器學(xué)習(xí)算法對(duì)標(biāo)簽和詞向量進(jìn)行學(xué)習(xí),構(gòu)造分類(lèi)器

        算法模型預(yù)測(cè)過(guò)程

        輸入:待分類(lèi)的交互式短文本

        輸出:短文本分類(lèi)類(lèi)別

        步驟1對(duì)輸入的交互式短文本D進(jìn)行消息整合為偽長(zhǎng)文本;

        步驟2對(duì)偽長(zhǎng)文本進(jìn)行數(shù)據(jù)清洗、分詞等預(yù)處理,得到 D′;

        步驟 3利用公式(4)(5)(6)對(duì) D,D′詞項(xiàng)進(jìn)行加權(quán),得到D,D′的詞向量;

        步驟4利用已學(xué)習(xí)好的分類(lèi)器進(jìn)行預(yù)測(cè)

        ①該模型分為訓(xùn)練過(guò)程和分析預(yù)測(cè)過(guò)程兩塊。每一塊均需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和加權(quán)生成詞向量的操作。

        ②詞向量的維度對(duì)模型的效率有著至關(guān)重要的作用,本文的詞向量保持在1000維度空間中。(單條消息的詞向量是稀疏的,但轉(zhuǎn)換為偽長(zhǎng)文本后,經(jīng)過(guò)詞向量賦權(quán)排序降維后,避免了稀疏性)。

        4 實(shí)驗(yàn)與結(jié)果分析

        4.1 評(píng)價(jià)指標(biāo)

        本文將采用四個(gè)指標(biāo)來(lái)評(píng)價(jià)分類(lèi)的性能:查準(zhǔn)率P、查全率R、F值,以針對(duì)涉槍和涉毒與正常群進(jìn)行二分類(lèi)后的AUC值。查準(zhǔn)率表示正確分類(lèi)的文檔數(shù)占總文檔比例,對(duì)于類(lèi)別Ci,,其中|C|代

        i表類(lèi)別Ci的總數(shù),max|Ci|代表Ci中正確分類(lèi)的文檔數(shù),對(duì)于總體:

        查全率,即召回率,表示所有相似文本中,正確分類(lèi)的比例,對(duì)于類(lèi)別Ci,,其中|RC|代

        i表類(lèi)別Ci所有正確分類(lèi)的大小,max|Ci|代表Ci中正確分類(lèi)的文檔數(shù),對(duì)于總體:

        F值是綜合準(zhǔn)確率和召回率的一個(gè)綜合評(píng)價(jià)指標(biāo),定義如下:

        以上三個(gè)分類(lèi)指標(biāo)的取值都規(guī)范化在[0,1],其值越高代表著分類(lèi)效果越好。對(duì)于二分類(lèi)分類(lèi)器來(lái)說(shuō),輸出結(jié)果標(biāo)簽(0還是1)往往取決于輸出的概率以及預(yù)定的概率閾值,例如常見(jiàn)的閾值就是0.5,大于0.5的認(rèn)為是正樣本,小于0.5的認(rèn)為是負(fù)樣本。ROC曲線(xiàn)就是反映分類(lèi)器分類(lèi)能力。其橫軸代表著假陽(yáng)率(FPR)、縱軸代表真陽(yáng)率(TPR)。

        ●假陽(yáng)率,簡(jiǎn)單通俗來(lái)理解就是預(yù)測(cè)為正樣本但是預(yù)測(cè)錯(cuò)了的可能性,顯然,我們不希望該指標(biāo)太高。

        ●真陽(yáng)率,則是代表預(yù)測(cè)為正樣本但是預(yù)測(cè)對(duì)了的可能性,當(dāng)然,我們希望真陽(yáng)率越高越好。

        AUC實(shí)際上就是ROC曲線(xiàn)下的面積。AUC直觀(guān)地反映了ROC曲線(xiàn)表達(dá)的分類(lèi)能力。

        4.2 模型有效性分析

        在社交網(wǎng)絡(luò)中存在大量的群聊文本信息。為了幫助公安更好地對(duì)群聊的類(lèi)別進(jìn)行分類(lèi),對(duì)涉槍、涉毒等違法犯罪群體進(jìn)行篩選甄別,基于這類(lèi)群聊文本信息,我們提出了一種基于群聊的分類(lèi)模型。為了評(píng)估我們的模型,我們從一些社交平臺(tái)收集到了總共1057份群聊文本數(shù)據(jù),其中包括涉槍有48份,涉毒有51份,正常群聊有958份,每個(gè)社交群里至少有200條消息。本文實(shí)驗(yàn)主要以中文的群聊為實(shí)驗(yàn)樣本數(shù)據(jù)。

        本文通過(guò)KNN、SVM、樸素貝葉斯、AdaBoost、決策樹(shù)和隨機(jī)森林等多個(gè)學(xué)習(xí)算法進(jìn)行了對(duì)比實(shí)驗(yàn),對(duì)每一類(lèi)算法均迭代1000次,并記錄準(zhǔn)確率、召回率和F1-Measure值的平均值。其中SVM的核函數(shù)為線(xiàn)性核,決策樹(shù)的特征選擇標(biāo)準(zhǔn)為信息熵,最大深度為10。隨機(jī)森林有10棵,特征選擇標(biāo)準(zhǔn)為基尼不純度。Ada-Boost的迭代次數(shù)為1000次,其弱學(xué)習(xí)器為決策樹(shù)。

        實(shí)驗(yàn)中,分別對(duì)涉毒、涉槍和正常群體進(jìn)行了多分類(lèi)驗(yàn)證,因?yàn)樯娑竞蜕鏄尩臉颖緮?shù)據(jù)與正常群體的樣本數(shù)量差異很大,我們?cè)谟?xùn)練和驗(yàn)證的過(guò)程中,對(duì)涉毒和涉槍的樣本數(shù)據(jù)進(jìn)行了過(guò)采樣處理。如圖4所示,其訓(xùn)練集有1136個(gè),詞向量為300維,測(cè)試集有762個(gè),詞向量為300維。詞向量的平均稀疏度保持在37.76%。其中,隨機(jī)森林的表現(xiàn)最為突出,得益于隨機(jī)森林在處理高維數(shù)據(jù)的優(yōu)勢(shì),能夠有效的檢測(cè)到特征之間的影響,并且有很強(qiáng)的抗干擾和過(guò)擬合的能力。圖5所示,在訓(xùn)練和驗(yàn)證過(guò)程中,各學(xué)習(xí)算法迭代1000次所消耗的時(shí)間度量。綜合圖4和圖5呈現(xiàn)的結(jié)果,可以得出群聊分類(lèi)模型中用隨機(jī)森林作為文本分類(lèi)器,是比較合理的選擇。

        圖4 群聊分類(lèi)模型不同算法性能度量

        圖5 群聊分類(lèi)模型不同算法1000次迭代時(shí)間度量

        在群聊分類(lèi)模型中,基于面向社交群體的分類(lèi),我們更加關(guān)注社交群體分類(lèi)的正確性(因?yàn)樯缃蝗后w的特征過(guò)于廣泛,僅有的樣本數(shù)據(jù)不能一一對(duì)應(yīng)真實(shí)情況,所以召回率高反而會(huì)忽略其他特征下的相同類(lèi)別的社交群體,例如涉毒群體中有販毒、帶毒、制毒,有吸冰毒、吸大麻、吸海洛因的不同人群,同時(shí)隨著時(shí)間的推移,不同群體的特征會(huì)不斷變化,因此我們更加關(guān)注準(zhǔn)確率,輕微忽視召回率)。通過(guò)ROC曲線(xiàn),我們計(jì)算AUC,其中隨機(jī)森林,SVM均有較好的結(jié)果。

        4.3 與傳統(tǒng)文本分類(lèi)方法對(duì)比

        與傳統(tǒng)的文本分類(lèi)相比,本文在針對(duì)群聊天文本的不完整性、非正規(guī)性和稀疏性的特點(diǎn)采用了TF-IDF權(quán)重賦值和排序,并通過(guò)梯度降維的方式減小了詞向量的維度。本文通過(guò)傳統(tǒng)的文本分類(lèi)模型和基于群聊天的文本分類(lèi)模型在不同算法進(jìn)行了對(duì)比實(shí)驗(yàn)。如圖7所示,基于群聊文本的分類(lèi)模型在不同算法之間的準(zhǔn)確率均是大于傳統(tǒng)的文本分類(lèi),可以得出TF-IDF權(quán)重賦權(quán)和梯度降維能夠有效提高群聊文本分類(lèi)的準(zhǔn)確率。

        圖6 群聊分類(lèi)模型不同算法ROC曲線(xiàn)

        圖7 傳統(tǒng)文本分類(lèi)算法和基于群聊天分類(lèi)模型準(zhǔn)確率對(duì)比

        5 結(jié)語(yǔ)

        針對(duì)群聊文本非正規(guī)性、不完整性、稀疏性等特點(diǎn),本文提出了一種基于群聊文本分類(lèi)模型。利用TF-IDF統(tǒng)計(jì)方法和梯度降維,去掉了大量重復(fù)、不重要的噪音詞匯,利用現(xiàn)有的機(jī)器學(xué)習(xí)算法,有效地構(gòu)建出交互式短文本分類(lèi)器。實(shí)驗(yàn)部分驗(yàn)證了本文提出的分析模型,得出了較好的分類(lèi)效果;同時(shí),我們希望更進(jìn)一步會(huì)深入到群聊語(yǔ)義分析中,希望能夠通過(guò)語(yǔ)義層面的分析,來(lái)提高分類(lèi)的效果。

        猜你喜歡
        分類(lèi)文本模型
        一半模型
        分類(lèi)算一算
        重要模型『一線(xiàn)三等角』
        重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        在808DA上文本顯示的改善
        分類(lèi)討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類(lèi)討論
        教你一招:數(shù)的分類(lèi)
        3D打印中的模型分割與打包
        内谢少妇xxxxx8老少交| 日韩av天堂一区二区| 久久精品第九区免费观看| 欧洲女人性开放免费网站| 精品十八禁免费观看| 少妇特殊按摩高潮不断| 亚洲美女毛多水多免费视频| 精品国产青草久久久久福利| 亚洲狠狠婷婷综合久久| 99热在线播放精品6| 国产女人精品一区二区三区 | 成年女人窝窝视频| 在线观看的a站免费完整版 | 亚洲精品美女久久久久久久| 91视频香蕉| 亚洲精品中文有码字幕| 91自拍视频国产精品| 蜜桃视频无码区在线观看| 国产一区二区精品在线观看| 国产精品三级国产精品高| 娇小女人被黑人插免费视频 | 久久久精品人妻一区亚美研究所 | 亚洲欧美中文日韩在线v日本| 亚洲а∨天堂久久精品2021| 正在播放淫亚洲| 久久精品蜜桃美女av| 欧美最猛黑人xxxx| 天堂sv在线最新版在线| 亚洲黄片高清在线观看| 精品国内日本一区二区| 黑色丝袜秘书夹住巨龙摩擦| 免费的一级毛片| 人妻乱交手机在线播放| 国产99久久久国产精品~~牛| 色伦专区97中文字幕| 国产在线天堂av| 亚洲一区二区三区免费网站| 无人区一码二码三码四码区| 欧美人与动zozo| 国产三级视频在线观看国产 | 97色偷偷色噜噜狠狠爱网站|