亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語言風格的郵件分析問題

        2018-08-22 19:35:16張敬巍
        科學與財富 2018年20期
        關鍵詞:分類特征文本

        張敬巍

        摘要:作者識別是一個應用廣泛的研究領域,可以應用于中外文學作品的作者考證領域,也可以應用于版權保護、惡意郵件識別等信息安全領域【1】。本文主要研究如何通過電子郵件的語言特征來識別作者的問題。在眾多郵件當中,根據(jù)語言風格的分析,確定作者?!帮L格”是指由于作者的生活經(jīng)歷、藝術素養(yǎng)等造成的不同的創(chuàng)作特色,而語言風格是作家通過作品表現(xiàn)出來的創(chuàng)作語言特有的格調(diào)。我們將要進行的作者識別過程其實是一個文本分類的過程。文本分類是對文本集按照一定的分類體系或標準進行自動分類標記,屬于一種基于分類體系的自動分類。已有的文本分類算法有:決策樹、神經(jīng)網(wǎng)絡、k近鄰、樸素貝葉斯、遺傳算法和支持向量機等。文本的分類通過分析電子郵件的語言特征實現(xiàn),作者的語言特征是長期形成的行文習慣在寫作活動中的體現(xiàn)。我們通過統(tǒng)計的方法用某些數(shù)量特征表現(xiàn)作者的行文風格,從例如詞長、句長、詞頻,以及修辭、句法等不同角度綜合體現(xiàn)。我們運用支持向量機結(jié)合語言風格學的方法分析郵件的作者歸屬問題。

        關鍵詞:作者識別支持向量機語言特征

        1.問題分析

        問題要求基于電子郵件的語言特征來識別作者。每位作者在書寫時會體現(xiàn)出不同的行文風格,我們選取一些不同的角度對每位作者的郵件文本進行分析。分析過程包括:文本預處理、詞頻統(tǒng)計、文本特征的抽取、分類器的訓練。

        2.假設

        1.假設郵件的主要內(nèi)容主要集中在后半部分。

        2.假設文本中詞與詞之間的關系是相互獨立的。

        3.1文本預處理

        文本預處理是我們進行詞頻統(tǒng)計和文本預處理的第一步,只有對文本進行預處理,才能對郵件的詞頻進行統(tǒng)計,對訓練集進行有效的訓練。首先進行詞干化,詞干化是將所有形式的衍生詞脫離各種各樣的詞性和語法變化,提取出共同的主干,變?yōu)榻y(tǒng)一的詞根,降低文本特征的維數(shù),便于接下來的處理。如:effective→effect等。

        過濾停用詞和稀有詞:通常意義上,停用詞大致分為兩類。一類是人類語言中包含的功能詞,這些功能詞極其普遍,與其他詞相比,功能詞沒有什么實際含義,比如'the'、'is'、'at'、'which'、'on'等。

        3.2特征選擇

        3.3文本表示模型

        對于計算機而言,如果要進行文本分類,那么需要將文本表示成計算機能夠處理的形式,我們選擇的表示模型為向量空間模型,這也是最常用的一個模型。向量空間模型(VSM)是指將每篇文檔表示成一個向量,各個特征詞的詞頻作為向量中的一個元素,語料庫中所有的文檔構成一個矩陣。

        3.4特征權重表示

        在將文檔用向量空間模型表示后,還需要給每個特征詞賦予一定的權重,以矩陣的形式交給計算機去處理。布爾權重是常用的文本特征權重表示方法。布爾權重基于簡單的二元判定標準,定義十分直觀。

        3.5分類方法統(tǒng)計

        K-近鄰法:K-近鄰法(KNN)因算法簡單、易于實現(xiàn)、不需要估計參數(shù)、分類精度高等優(yōu)勢,已成為模式識別和統(tǒng)計學領域最著名的算法之一,也是機器學習中最早應用于自動文本分類的非參數(shù)算法之一。

        樸素貝葉斯法:樸素貝葉斯法是基于貝葉斯定理與特征條件獨立假設的分類方法。最為廣泛的兩種分類模型是決策樹模型和樸素貝葉斯模型。和決策樹模型相比,樸素貝葉斯分類器(Naive Bayes Classifier,或NBC)發(fā)源于古典數(shù)學理論,有著堅實的數(shù)學基礎,以及穩(wěn)定的分類效率。同時,NBC模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡單。理論上,NBC模型與其他分類方法相比具有最小的誤差率。

        3.6分類器訓練

        為了準確的預測郵件的作者,我們首先對分類器進行訓練。我們選取樣本的75%作為訓練集使訓練器更具有準確性,剩下的25%作為測試集,檢驗分類器的正確性。

        參考文獻:

        [1]萬晶.中文作者識別方法研究[D].湖南大學,2012.

        [2]劉明勇.基于寫作風格學的作者識別技術研究[D].浙江大學,2013.

        [3]吳寅雪.歐美科普作品的詞法特征及其翻譯[J].校園英語(中旬),2015,(7):237-238.

        [4][期刊論文] 蘇佩娟,劉赪,牟建波,王麗梅,SU Peijuan,LIU Cheng,MU Jianbo,WANGLimei- 《西華大學學報(自然科學版)》2017年4期

        猜你喜歡
        分類特征文本
        分類算一算
        如何表達“特征”
        在808DA上文本顯示的改善
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        分類討論求坐標
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        热99re久久精品这里都是免费| 久久午夜无码鲁丝片直播午夜精品| 人妻体内射精一区二区三区| 久久久久亚洲av无码专区喷水 | 中文字幕一区二区人妻性色| 亚洲精品国产第一区二区尤物| 人妻少妇一区二区三区| 精品少妇后入一区二区三区| 亚洲六月丁香色婷婷综合久久| 美利坚日韩av手机在线| 97色偷偷色噜噜狠狠爱网站| 无码人妻精品一区二区三区不卡| 成人国产午夜在线视频| 亚洲专区在线观看第三页| 久久久亚洲成年中文字幕| 亚洲一区二区三区特色视频| 真人做人试看60分钟免费视频| 久久老子午夜精品无码怎么打| 伊人久久综在合线亚洲不卡| 国产精品人成在线观看| 男女啪啪动态视频在线观看| 久久人妻av一区二区软件| 国产精品丝袜久久久久久不卡| 日韩久久一级毛片| 久久久调教亚洲| 日本黄网色三级三级三级| 午夜天堂精品久久久久| 蜜桃视频一区二区三区在线观看| 丝袜国产高跟亚洲精品91| 中文字幕亚洲精品码专区| 亚洲无人区乱码中文字幕动画 | 亚洲中文高清乱码av中文| 中文字幕在线看精品乱码| 国产精品无码av无码| 亚洲av永久无码精品秋霞电影影院| 亚洲嫩模高清在线视频| 一级黄色一区二区三区视频| 亚洲人成网站色在线入口口| 影音先锋色小姐| 99re热这里只有精品最新| 久久久精品电影|