亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        學(xué)術(shù)相關(guān)通知類郵件處理系統(tǒng)設(shè)計(jì)

        2018-11-08 10:05:30徐傲雪張凌張晶
        中國(guó)教育網(wǎng)絡(luò) 2018年10期
        關(guān)鍵詞:規(guī)則分類文本

        文/徐傲雪 張凌 張晶

        引言

        研究背景

        在互聯(lián)網(wǎng)高速發(fā)展的時(shí)代,網(wǎng)絡(luò)通訊手段愈加豐富,對(duì)比眾多網(wǎng)絡(luò)通信手段,由于電子郵件擁有全球統(tǒng)一公開的通用通信協(xié)議,具有長(zhǎng)期保存、書面性等特性,因此電子郵件作為互聯(lián)網(wǎng)應(yīng)用最廣的服務(wù)依然保持著其不可替代性。根據(jù)電子郵件的辦公特性,針對(duì)電子郵件開發(fā)的郵件服務(wù)類工具被廣泛應(yīng)用在企業(yè)、高?;驒C(jī)構(gòu)中,此類工具除了滿足基本的通訊需求,更加應(yīng)該提供給用戶優(yōu)質(zhì)的事務(wù)處理服務(wù),為用戶篩選出重要的待處理郵件,并且提供管理郵件資源的方案。

        在電子郵件的主要應(yīng)用場(chǎng)景之一高校、研究機(jī)構(gòu)環(huán)境下,學(xué)術(shù)相關(guān)通知類郵件是備受重視的,學(xué)術(shù)相關(guān)通知類郵件主要包含期刊征文通知、相關(guān)領(lǐng)域的學(xué)術(shù)會(huì)議召開通知、學(xué)術(shù)競(jìng)賽及論壇講座類的學(xué)術(shù)活動(dòng)的舉辦通知,此類郵件是高校師生、研究人員會(huì)經(jīng)常收到并且需要及時(shí)處理的。然而在現(xiàn)實(shí)中存在一些常見的問題,一方面現(xiàn)在網(wǎng)絡(luò)上垃圾郵件、訂閱郵件、廣告郵件泛濫,在處理郵件時(shí)需要耗費(fèi)相當(dāng)多的時(shí)間精力去篩選學(xué)術(shù)相關(guān)的通知類郵件;另一方面高校人員會(huì)收到大量的征文,會(huì)議邀請(qǐng)的郵件,其中大部分并不符合他們的研究領(lǐng)域;另外此類通知郵件中往往有一些不重要的部分,在處理郵件時(shí)需要花費(fèi)時(shí)間去定位有效信息。

        為解決上面提出的問題,本文提出了一個(gè)針對(duì)學(xué)術(shù)相關(guān)通知類郵件的處理系統(tǒng)AREP(Academic Related Email Processor),AREP構(gòu)建了郵件收發(fā)的組件,應(yīng)用基于關(guān)鍵詞的方法篩選出學(xué)術(shù)相關(guān)通知類郵件,使用基于SVM的分類方法對(duì)學(xué)術(shù)相關(guān)通知類郵件進(jìn)行領(lǐng)域分類,開發(fā)基于規(guī)則的后處理模塊進(jìn)行郵件資源的管理。本文提出系統(tǒng)有助于提高科研人員處理郵件的效率,從而激發(fā)學(xué)術(shù)熱情,促進(jìn)學(xué)術(shù)研究工作。

        背景知識(shí)及相關(guān)工作

        重要郵件處理:相較于比較成熟的垃圾郵件過濾技術(shù),對(duì)于在非垃圾郵件中區(qū)分重要郵件的研究則不那么充分,然而重要郵件的劃分能夠很好地提高用戶的處理效率,具有實(shí)用意義。在進(jìn)行重要郵件分類的研究時(shí),可以采取的方法有個(gè)性化的郵件優(yōu)先級(jí)分類,以優(yōu)先級(jí)來劃分比起劃分重要非重要更加細(xì)致[1]。S.Yoo等在2009年提出通過社交網(wǎng)絡(luò)個(gè)人數(shù)據(jù)挖掘提取特征使用半監(jiān)督學(xué)習(xí)方法來實(shí)現(xiàn)郵件重要性排序[2],G.Tang等在2013年提出實(shí)現(xiàn)多分類和半監(jiān)督的學(xué)習(xí)方法來實(shí)現(xiàn)郵件分類[3],國(guó)內(nèi)外各個(gè)郵件服務(wù)器廠商大多提供重要郵件標(biāo)記的功能,由用戶手動(dòng)標(biāo)記重要郵件,如Outlook的重要收件箱,網(wǎng)易郵箱的紅旗郵件等,這樣的標(biāo)記方法實(shí)用性并不強(qiáng)并且發(fā)生在用戶處理郵件后。Gmail 的重要郵件分類的排序算法為線性邏輯回歸算法,主要利用社會(huì),內(nèi)容,線程,標(biāo)簽四個(gè)特征,自動(dòng)為重要郵件標(biāo)記[4]。本文主要解決學(xué)術(shù)相關(guān)通知類郵件的劃分問題,根據(jù)觀察,學(xué)術(shù)相關(guān)通知類郵件具有明顯區(qū)別于普通郵件的關(guān)鍵詞特征,因此本文設(shè)計(jì)了一個(gè)學(xué)術(shù)相關(guān)通知類文件的關(guān)鍵詞生成方案,通過基于關(guān)鍵詞的方法實(shí)現(xiàn)學(xué)術(shù)相關(guān)通知類郵件的篩選。

        文本分類:文本分類是解決學(xué)術(shù)相關(guān)通知類郵件領(lǐng)域分類問題的一個(gè)關(guān)鍵技術(shù),文本分類中的主要研究?jī)?nèi)容主要有文本表示、分類方法等,文本分類方法自20世紀(jì)90年代從傳統(tǒng)的知識(shí)工程和專家系統(tǒng)逐漸發(fā)展出基于機(jī)器學(xué)習(xí)的文本分類方法,逐漸發(fā)展成熟,近年來基于深度學(xué)習(xí)的文本分類方法也為文本分類領(lǐng)域帶來了新的活力。文本表示是文本分類方法中一個(gè)關(guān)鍵技術(shù),目前最常用的文本表示方法有VSM、基于主題概率模型和詞向量模型[5],詞向量模型于2003年被首次提出,在2013年Google團(tuán)隊(duì)開源的word2vec工具[6]后被推上了研究的高潮,Vintan等在2017年提出了一種使用word embedding擴(kuò)展VSM 的文本表示方法,通過在傳統(tǒng)的VSM 模型中添加詞嵌入的信息,雖然實(shí)驗(yàn)結(jié)果并不理想,但是提出了一種新的突破[7];傳統(tǒng)的機(jī)器學(xué)習(xí)算法在文本分類的應(yīng)用已經(jīng)研究得非常成熟,許多的分類算法都能在不同的軟件直接應(yīng)用,最常用的算法包括SVM,NB,KNN,IDT等,近年來關(guān)于集成學(xué)習(xí)以及深度學(xué)習(xí)在文本分類上的應(yīng)用越發(fā)引起重視[8],Lai等提出一種遞歸卷積神經(jīng)網(wǎng)絡(luò)模型用以文本分類,并且分析了遞歸神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò)等模型在文本分類的應(yīng)用,并分別在中英文文檔上進(jìn)行實(shí)驗(yàn)[9];Zhang等提出字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)的文本分類方案,對(duì)比了詞袋模型、n-gram模型等文本表示方法,以及基于詞語的CNN模型以及遞歸神經(jīng)網(wǎng)絡(luò)模型[10]。本文提出的AREP采用結(jié)合TF-IDF及詞向量的文本表示方法,選用SVM作為分類方法解決學(xué)術(shù)相關(guān)通知類郵件的領(lǐng)域分類問題。

        系統(tǒng)概述

        系統(tǒng)配置

        系統(tǒng)在網(wǎng)絡(luò)環(huán)境的設(shè)置: AREP實(shí)現(xiàn)多郵箱的聚合,支持多種郵件服務(wù)器的后處理,實(shí)現(xiàn)方法如圖1所示 使用DNS服務(wù)器配置郵件域的MX記錄,將對(duì)應(yīng)的MX指向系統(tǒng)所在服務(wù)器的IP地址,使得發(fā)往指定郵件域的郵件都會(huì)經(jīng)過本系統(tǒng)。

        預(yù)訓(xùn)練的離線組件:如圖1所示AREP 包含以下一些離線預(yù)處理的組件:(1)學(xué)術(shù)相關(guān)通知類消息采集工具:利用網(wǎng)頁采集技術(shù)從一些公開的會(huì)議、期刊網(wǎng)站收集學(xué)術(shù)相關(guān)通知類網(wǎng)頁,提取網(wǎng)頁的主要內(nèi)容轉(zhuǎn)換為純文本的數(shù)據(jù),混合從個(gè)人郵件中收集的學(xué)術(shù)相關(guān)通知類郵件,構(gòu)建學(xué)術(shù)相關(guān)通知類文本數(shù)據(jù)集。(2)關(guān)鍵詞規(guī)則生成工具:關(guān)鍵詞規(guī)則生成工具從學(xué)術(shù)相關(guān)通知類文本數(shù)據(jù)集中生成一組形如(關(guān)鍵詞 權(quán)值)關(guān)鍵詞規(guī)則,為AREP中的學(xué)術(shù)相關(guān)通知類郵件篩選模塊提供支持。(3)公開的預(yù)訓(xùn)練詞向量集(4)預(yù)訓(xùn)練的SVM分類器:在學(xué)術(shù)相關(guān)通知類文本數(shù)據(jù)集上訓(xùn)練得到的SVM分類器,為AREP中的學(xué)術(shù)相關(guān)通知類郵件領(lǐng)域分類模塊提供支持。

        系統(tǒng)設(shè)計(jì)

        本節(jié)主要討論AREP系統(tǒng)在設(shè)計(jì)時(shí)的目標(biāo)和實(shí)現(xiàn)的核心方法。

        穩(wěn)定的郵件服務(wù):AREP 設(shè)置在郵件服務(wù)器的前方,必須保證在提供穩(wěn)定的郵件收發(fā)服務(wù)的基礎(chǔ)上執(zhí)行學(xué)術(shù)相關(guān)通知類郵件的處理,為了不影響郵件的正常傳輸,,系統(tǒng)設(shè)計(jì)時(shí)采用模塊化的設(shè)計(jì),并獨(dú)立各個(gè)模塊的進(jìn)程組,通過序列化的數(shù)據(jù)流及本地消息隊(duì)列連接各個(gè)模塊。例如不能允許處理模塊的處理時(shí)間影響了收取郵件的響應(yīng)時(shí)間,另外分發(fā)組件易受到網(wǎng)絡(luò)故障的影響并且實(shí)時(shí)性要求不強(qiáng),因此在完成處理后先將郵件正常發(fā)送出去同時(shí)通過本地的消息隊(duì)列通知分發(fā)組件所在的進(jìn)程組有待處理的學(xué)術(shù)相關(guān)通知類郵件。

        圖1 AREP系統(tǒng)框架

        用戶個(gè)性化設(shè)置:AREP 是為了減輕人工處理重要郵件的負(fù)擔(dān)而設(shè)計(jì)的,需要為不同用戶提供個(gè)性化的設(shè)置,本系統(tǒng)提供基于RESTful架構(gòu)的接口設(shè)計(jì),提供用戶交互瀏覽器端的實(shí)現(xiàn),用戶使用瀏覽器的管理端可監(jiān)控系統(tǒng)的郵件處理記錄,配置郵件處理規(guī)則,例如將經(jīng)系統(tǒng)處理判斷為計(jì)算機(jī)科學(xué)領(lǐng)域的學(xué)術(shù)相關(guān)通知類郵件轉(zhuǎn)發(fā)到指定郵箱或者歸檔到個(gè)人云盤。

        系統(tǒng)組件及工作流程

        郵件處理組件:如圖1所示AREP 包含以下一些必要的郵件處理組件:(1)郵件接收組件:基于SMTP協(xié)議實(shí)現(xiàn)郵件接收功能,基于異步事件驅(qū)動(dòng)實(shí)現(xiàn)高并發(fā)地處理到達(dá)郵件,進(jìn)行頻率控制、并發(fā)控制,保證本系統(tǒng)具有一定抵御網(wǎng)絡(luò)攻擊的能力。(2)郵件解析組件:解析郵件原件,實(shí)現(xiàn)接收的郵件的元數(shù)據(jù)如發(fā)件人、接件人、發(fā)送時(shí)間等的結(jié)構(gòu)化,實(shí)現(xiàn)郵件內(nèi)容拆分,如分成郵件頭、郵件正文、郵件附件。(3)郵件發(fā)送組件:基于SMTP協(xié)議實(shí)現(xiàn)郵件的發(fā)送,通過對(duì)郵件原件的分析,定位主題,正文,未顯示部分等在郵件原件的位置,在指定位置添加系統(tǒng)處理后的標(biāo)簽。

        學(xué)術(shù)相關(guān)通知類文本處理組件:如圖1所示AREP的核心處理組件主要包含兩個(gè)部分(1)篩選組件: 使用預(yù)訓(xùn)練得到的關(guān)鍵詞規(guī)則,計(jì)算一封郵件的正文中所有命中的關(guān)鍵詞規(guī)則的分?jǐn)?shù)總和,設(shè)置一個(gè)分?jǐn)?shù)閾值作為標(biāo)準(zhǔn),標(biāo)記普通郵件和學(xué)術(shù)相關(guān)通知類郵件(2)分類組件:使用預(yù)訓(xùn)練得到的SVM分類器對(duì)郵件正文進(jìn)行分析實(shí)現(xiàn)領(lǐng)域分類,并標(biāo)記分類。

        分發(fā)組件:如圖1所示AREP的分發(fā)組件實(shí)現(xiàn)基于規(guī)則的后處理,根據(jù)用戶在管理端配置的規(guī)則以及系統(tǒng)學(xué)術(shù)相關(guān)通知類文本處理組件對(duì)郵件處理后的標(biāo)簽結(jié)果分發(fā)郵件,每一條規(guī)則形如(規(guī)則,操作),規(guī)則包括郵件類別的判定,學(xué)術(shù)相關(guān)通知類郵件領(lǐng)域分類等,操作包括丟棄、轉(zhuǎn)發(fā)、歸檔等。

        系統(tǒng)的完整處理流程:一封到達(dá)系統(tǒng)服務(wù)器的郵件通過郵件接收組件接收后通過文件系統(tǒng)遞交給郵件解析組件,將解析得到的各部分源文件暫存,將郵件正文內(nèi)容傳輸給篩選組件,根據(jù)篩選結(jié)果,普通郵件直接遞交給郵件發(fā)送組件發(fā)送,將學(xué)術(shù)相關(guān)通知類郵件傳輸?shù)椒诸惤M件,進(jìn)行領(lǐng)域劃分后,標(biāo)記分類結(jié)果,同時(shí)通知郵件發(fā)送組件和分發(fā)組件進(jìn)行發(fā)送和后處理,分發(fā)組件檢查用戶規(guī)則庫,對(duì)每一條命中規(guī)則執(zhí)行對(duì)應(yīng)操作。

        具體方案

        本節(jié)討論了AEPR 中核心組件的關(guān)鍵實(shí)現(xiàn):基于關(guān)鍵詞的篩選組件中關(guān)鍵詞規(guī)則的生成方法以及基于SVM的分類組件的完整分類方案。

        關(guān)鍵詞規(guī)則生成方法

        基于關(guān)鍵詞的學(xué)術(shù)相關(guān)通知類郵件篩選組件需要解決的核心問題是如何設(shè)計(jì)合適的關(guān)鍵詞規(guī)則,本文參考應(yīng)用最廣泛的垃圾郵件開源解決方案之一SpamAssassin中為關(guān)鍵詞規(guī)則賦分值的感知器算法[11],設(shè)計(jì)了一種基于單層感知器的關(guān)鍵詞生成方法。本文使用的關(guān)鍵詞生成方法主要包括以下幾個(gè)步驟:

        (1)選取學(xué)術(shù)相關(guān)通知類郵件中詞頻最高的N個(gè)詞,統(tǒng)計(jì)這N個(gè)詞中每個(gè)詞Wi在學(xué)術(shù)相關(guān)通知類郵件中出現(xiàn)的次數(shù)ARi和在非學(xué)術(shù)相關(guān)通知類郵件中出現(xiàn)的次數(shù)NARi,篩選滿足公式1的詞作為特征候選詞,其中N和T的取值通過實(shí)驗(yàn)選取較優(yōu)數(shù)值。

        (2)使用上述特征候選詞對(duì)郵件數(shù)據(jù)集中的所有郵件進(jìn)行過濾,得到每條特征候選詞規(guī)則在學(xué)術(shù)相關(guān)通知類郵件和非學(xué)術(shù)相關(guān)通知類郵件的觸發(fā)情況,結(jié)構(gòu)化觸發(fā)情況數(shù)據(jù),每封郵件的觸發(fā)情況為一個(gè)n維的數(shù)組,n為特征候選詞的個(gè)數(shù),郵件中包含此特征候選詞則數(shù)組對(duì)應(yīng)位置值為1否則為0。

        (3)將上述觸發(fā)情況作為輸入,使用包含一個(gè)轉(zhuǎn)換函數(shù)和一個(gè)激活函數(shù)的單層感知機(jī)算法進(jìn)行訓(xùn)練得到關(guān)鍵詞規(guī)則的權(quán)值,轉(zhuǎn)換函數(shù)形如公式2,隨機(jī)設(shè)置初始權(quán)值,指該規(guī)則在指定郵件中的觸發(fā)情況。

        激活函數(shù)形如公式3。

        感知器算法使用的誤差函數(shù)為公式4。

        每一次迭代的權(quán)值更新函數(shù)為公式5。

        num_sample_hit 表示當(dāng)前樣本觸發(fā)的規(guī)則數(shù)量,rate表示權(quán)值更新的學(xué)習(xí)率,通過實(shí)驗(yàn)確定表現(xiàn)較優(yōu)的迭代次數(shù)和學(xué)習(xí)率,訓(xùn)練完成后保存關(guān)鍵詞規(guī)則權(quán)值W,偏差b。

        基于SVM的學(xué)術(shù)相關(guān)通知類郵件領(lǐng)域分類

        學(xué)術(shù)相關(guān)通知類郵件的領(lǐng)域分類問題,等同于一個(gè)文本的多分類問題,在常見的文本分類方法中主要包括如何進(jìn)行預(yù)處理,如何選擇特征選擇方法,如何選擇文本表示方法,如何選擇分類方法四個(gè)關(guān)鍵的待研究問題。

        AREP使用的文本預(yù)處理流程包括分詞,數(shù)據(jù)清洗,去停用詞,詞干提取。

        AREP在文本表示方法上,參考唐明等提出的一種基于word2vec的文本表示方法[12],AREP使用結(jié)合TF-IDF及在大型語料庫上進(jìn)行預(yù)訓(xùn)練的詞向量來進(jìn)行文本表示,文檔向量可表示為公式6。

        公式6中Di表示第i篇文檔,K(t,Di)表示詞t在中的TF-IDF值, WVt表示詞t的詞向量。

        在選取分類算法的時(shí)候,分類效果是最重要的一個(gè)衡量標(biāo)準(zhǔn),另外還需要考慮系統(tǒng)的計(jì)算能力、存儲(chǔ)空間限制、響應(yīng)時(shí)延等,雖然基于深度神經(jīng)網(wǎng)絡(luò)的分類方法是近年的研究熱點(diǎn),但是考慮到深度神經(jīng)網(wǎng)絡(luò)高度的復(fù)雜性,不適用于實(shí)時(shí)性要求較高的郵件處理系統(tǒng)中,而SVM算法在一定程度上可以代表傳統(tǒng)機(jī)器學(xué)習(xí)單分類器方法在文本分類上的發(fā)展水平,SVM方法的其中一個(gè)優(yōu)點(diǎn)是它在處理高維數(shù)據(jù)時(shí)較為健壯,學(xué)習(xí)過程幾乎獨(dú)立于特征空間的維度[13],文本數(shù)據(jù)具有高維稀疏分布和特征不相關(guān)的特性,因此本文系統(tǒng)選用SVM作為分類方法。

        實(shí)驗(yàn)評(píng)估

        基于關(guān)鍵詞規(guī)則的篩選效果評(píng)估

        關(guān)鍵詞規(guī)則生成所使用的訓(xùn)練數(shù)據(jù)集為個(gè)人真實(shí)郵件,經(jīng)人工篩選標(biāo)記為學(xué)術(shù)相關(guān)通知類郵件及普通郵件,出于隱私保護(hù),郵件文本內(nèi)容僅選取郵件體正文部分,不考慮郵件頭內(nèi)容,此郵件數(shù)據(jù)集共包含學(xué)術(shù)相關(guān)通知類郵件1709封,普通郵件1500封。

        文本預(yù)處理的過程執(zhí)行數(shù)據(jù)清洗:去除標(biāo)點(diǎn)符號(hào),數(shù)字,中文,大小寫轉(zhuǎn)換;分詞;去停用詞:使用nltk語料庫的英文停用詞表;詞干提取。

        特征候選詞選取過程中相關(guān)的設(shè)置如下:統(tǒng)計(jì)學(xué)術(shù)相關(guān)通知類郵件中總詞頻最高的500個(gè)詞,篩選符合的詞作為關(guān)鍵詞候選詞,共獲取有效候選詞436個(gè),部分候選詞如表1所示:

        表1 部分關(guān)鍵詞候選詞展示

        關(guān)鍵詞候選詞權(quán)值生成過程中相關(guān)設(shè)置如 下:(1) 為 了 降 低普通郵件的誤過濾率,首先對(duì)郵件數(shù)據(jù)集中的普通郵件進(jìn)行冗余復(fù)制,設(shè)置每封普通郵件復(fù)制的數(shù)量為:num_sample_hit/2+1,num_sample_hit 表示當(dāng)前樣本觸發(fā)的規(guī)則數(shù)量,由郵件數(shù)據(jù)集中的1500封普通郵件生成7576封普通郵件(2)神經(jīng)網(wǎng)絡(luò)權(quán)值更新過程中的學(xué)習(xí)率可以控制權(quán)值更新速度,學(xué)習(xí)速率過高會(huì)造成訓(xùn)練過程不穩(wěn)定,一般學(xué)習(xí)率的設(shè)置為[0,1],本次實(shí)驗(yàn)設(shè)置學(xué)習(xí)率rate=0.05,將訓(xùn)練結(jié)果以每5次迭代為單位記錄下來,如圖2所示:觀察得到算法在迭代次數(shù)250次時(shí)基本收斂,因此設(shè)置迭代次數(shù)為300次。

        圖2

        將郵件數(shù)據(jù)集分成70%訓(xùn)練集和30%的測(cè)試集,訓(xùn)練過程中,每5次迭代,使用測(cè)試集對(duì)得到的關(guān)鍵詞候選詞規(guī)則進(jìn)行評(píng)估,評(píng)估標(biāo)準(zhǔn)包括:

        (1)accuracy=correct_classified_mail/num_of_mail *100%即正確分類的郵件占總郵件的比例。

        (2)arm%=mis_classified_ar/num_of_ar_mail *100%即被誤分類的學(xué)術(shù)相關(guān)通知類郵件占所有學(xué)術(shù)相關(guān)通知類郵件的比例。

        (3)narm%=mis_classified_nar/num_of_nar_mail *100%即 被 誤分類的普通郵件占所有普通郵件的比例。

        評(píng)估標(biāo)準(zhǔn)中使用的變量定義為:correct_ classified _mail 表示被正確分類的郵件數(shù)量,num _ of_mail 表示所有郵件數(shù)量,mis_ classified _ar 表示被誤分類為普通郵件的學(xué)術(shù)相關(guān)通知類郵件數(shù)量,mis_ classified _nar 表示被誤分類為學(xué)術(shù)相關(guān)通知類郵件的普通郵件數(shù)量,num _ of_ ar_mail 表示學(xué)術(shù)相關(guān)通知類郵件的數(shù)量,num _ of _ nar_mail 表示普通郵件的數(shù)量。

        算法迭代300次后,最終評(píng)估結(jié)果如表2所示:

        表2 關(guān)鍵詞規(guī)則最終評(píng)估結(jié)果

        根據(jù)實(shí)驗(yàn)得到的評(píng)估效果,基于關(guān)鍵詞規(guī)則實(shí)現(xiàn)學(xué)術(shù)相關(guān)通知類郵件篩選的精確度達(dá)到99.75%,并且非學(xué)術(shù)相關(guān)通知類郵件的誤分類率為0,證明了學(xué)術(shù)相關(guān)通知類郵件具有區(qū)別度很高的關(guān)鍵詞特征,因此在AREP中使用基于關(guān)鍵詞規(guī)則的方法實(shí)現(xiàn)篩選功能是可行的。

        學(xué)術(shù)相關(guān)通知類郵件領(lǐng)域分類性能評(píng)估

        訓(xùn)練學(xué)術(shù)相關(guān)通知類郵件領(lǐng)域分類器所用的數(shù)據(jù)集來自網(wǎng)站world conference calendar[14]公開的會(huì)議舉辦信息,共收集該網(wǎng)站上10個(gè)類別38361個(gè)會(huì)議通知,采集會(huì)議通知正文部分的文本內(nèi)容,詳細(xì)的領(lǐng)域類別信息如表3所示:

        表3 會(huì)議通知數(shù)據(jù)集組成情況詳細(xì)信息

        表4 基于SVM的學(xué)術(shù)相關(guān)通知類郵件領(lǐng)域分類器性能評(píng)估結(jié)果

        本文系統(tǒng)使用的文本表示方法為結(jié)合TF-IDF及預(yù)訓(xùn)練詞向量的方法,文本表示過程中的相關(guān)設(shè)置如下:(1)計(jì)算詞的TF-IDF值,經(jīng)過預(yù)處理后的文檔構(gòu)建的詞典共包含110543個(gè)詞,共有38361個(gè)文檔,統(tǒng)計(jì)每個(gè)文檔中每個(gè)詞的TF-IDF值,需要生成一個(gè)38361*110543大小的數(shù)組來存放,超出了一般計(jì)算機(jī)的內(nèi)存限制,考慮到詞的TF-IDF值是作為領(lǐng)域分類的特征,因此TF-IDF值的統(tǒng)計(jì)基于類別文檔,將某一類的文檔聚合為一個(gè)文檔(2) 使用的預(yù)訓(xùn)練的詞向量來自Stanford 公開的在一些大型公開語料庫上通過GloVe方法訓(xùn)練得到的詞向量集,本文實(shí)驗(yàn)選用在Wikipedia 2014 + Gigaword 5語料庫訓(xùn)練得到的詞向量glove.6B,共有50d, 100d, 200d, 300d四種維度[15]。

        使用one-against-one的方法實(shí)現(xiàn)SVM的多分類,使用交叉驗(yàn)證的評(píng)估方法,以精確度為評(píng)估標(biāo)準(zhǔn),最終得到的評(píng)估結(jié)果如表4所示,根據(jù)表4的評(píng)估結(jié)果,可以看出選用詞向量維度為50時(shí),模型訓(xùn)練與模型預(yù)測(cè)的耗時(shí)最短,分類表現(xiàn)也最優(yōu)。詞向量維度的選擇主要受數(shù)據(jù)集規(guī)模影響,高維的詞向量雖然能夠保留更多信息,但是在規(guī)模較小的數(shù)據(jù)集上容易存在過擬合現(xiàn)象,根據(jù)實(shí)驗(yàn)結(jié)果本文系統(tǒng)使用的詞向量為50維。

        系統(tǒng)使用情況評(píng)估

        圖3 系統(tǒng)記錄的2018年07年01日的處理情況

        圖4 系統(tǒng)運(yùn)行3個(gè)月以來月統(tǒng)計(jì)記錄

        本文設(shè)計(jì)實(shí)現(xiàn)的系統(tǒng)已投入實(shí)際使用,并且穩(wěn)定運(yùn)行3個(gè)月,本節(jié)主要介紹系統(tǒng)運(yùn)行情況,通過將郵件記錄可視化管理,可以掌握系統(tǒng)運(yùn)行的情況,圖3為系統(tǒng)記錄的2018年07年01日的處理情況,圖4為系統(tǒng)運(yùn)行3個(gè)月以來月統(tǒng)計(jì)記錄,根據(jù)處理記錄能夠證明系統(tǒng)能夠較穩(wěn)定的運(yùn)行。

        考慮到郵件在科研環(huán)境的廣泛應(yīng)用,面向科研人員的郵件處理需求,本文提出了一個(gè)針對(duì)學(xué)術(shù)相關(guān)通知類郵件的處理系統(tǒng)AREP(Academic Related Email Processor),AREP在保證郵件傳輸要求的基礎(chǔ)上,實(shí)現(xiàn)了學(xué)術(shù)相關(guān)通知類郵件的核心處理組件:首先通過基于關(guān)鍵詞規(guī)則的方法篩選出學(xué)術(shù)相關(guān)通知類郵件,其中關(guān)鍵詞規(guī)則的生成方案包括基于詞頻、文檔頻率的特征詞選取方法和基于感知器算法的權(quán)值計(jì)算方法;對(duì)于篩選結(jié)果為學(xué)術(shù)相關(guān)通知類的郵件應(yīng)用基于SVM的分類方法進(jìn)行領(lǐng)域分類,其中文檔的表示方法結(jié)合TF-IDF和詞向量;通過實(shí)驗(yàn)證明了郵件篩選方法和領(lǐng)域分類方法具有良好表現(xiàn),足夠應(yīng)對(duì)現(xiàn)實(shí)環(huán)境的學(xué)術(shù)相關(guān)通知類郵件處理。另外設(shè)計(jì)了根據(jù)處理組件處理的結(jié)果進(jìn)行個(gè)性化的后處理的分發(fā)組件,提供給用戶設(shè)置郵件后處理規(guī)則的服務(wù),協(xié)助用戶進(jìn)行郵件資源的管理,真正減輕人為處理的負(fù)擔(dān)。本文提出的系統(tǒng)已投入實(shí)際應(yīng)用環(huán)境,穩(wěn)定運(yùn)行3個(gè)月以上,具實(shí)用意義。

        猜你喜歡
        規(guī)則分類文本
        撐竿跳規(guī)則的制定
        數(shù)獨(dú)的規(guī)則和演變
        分類算一算
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        教你一招:數(shù)的分類
        TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
        99久久亚洲精品加勒比| 18禁超污无遮挡无码免费游戏 | 无套无码孕妇啪啪| 高清破外女出血av毛片| 久久成人免费电影| 日韩一区二区三区天堂| 后入丝袜美腿在线观看| 日韩视频中文字幕精品偷拍 | 亚洲av无码久久精品狠狠爱浪潮| 欧美在线视频免费观看| 国产人成在线成免费视频| 女同另类一区二区三区| 精品高朝久久久久9999| 手机看片福利一区二区三区| 九九热在线视频观看这里只有精品 | 美女人妻中文字幕av| 人妻夜夜爽天天爽三区丁香花| 手机看片福利一区二区三区| 免费国产一级特黄aa大片在线| 中文字幕日本女优在线观看| 国产免费观看久久黄av麻豆| 亚洲中文字幕久久无码精品| 亚洲欧洲精品成人久久曰影片| 久久dvd| 青青草手机免费播放视频 | 亚洲伊人av天堂有码在线| 忘忧草社区www日本高清| 国产成人精品三级麻豆| 人妻少妇粉嫩av专区一| 综合亚洲伊人午夜网| 无码乱人伦一区二区亚洲一| 永久无码在线观看| 亚洲综合伊人久久综合| 国产一区二区三区在线观看完整版| 手机福利视频| 亚洲男人的天堂网站| 大陆啪啪福利视频| 精品人妻久久一日二个| 久久伊人少妇熟女大香线蕉| 亚洲av成人精品日韩一区| 无码中文字幕av免费放|