亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于樸素貝葉斯的機器學(xué)習(xí)實驗教學(xué)設(shè)計

        2021-07-01 18:09:42王敏羅婧雯劉軍劉沛澤
        中國新通信 2021年6期

        王敏 羅婧雯 劉軍 劉沛澤

        【摘要】? ? 貝葉斯學(xué)習(xí)是機器學(xué)習(xí)理論中的重要研究方向。本文主要實現(xiàn)基于樸素貝葉斯的機器學(xué)習(xí)實驗教學(xué)設(shè)計,貝葉斯學(xué)習(xí)以貝葉斯法則為基礎(chǔ),通過已了解的數(shù)據(jù)分布的先驗知識,結(jié)合樣本訓(xùn)練數(shù)據(jù)來估算出整體數(shù)據(jù)的數(shù)學(xué)模型。貝葉斯學(xué)習(xí)的結(jié)果是獲得一組變量的聯(lián)合概率分布。貝葉斯學(xué)習(xí)由于其用概率的形式來表示不確定知識,故對不確定形式的問題它有獨特的描述和計算優(yōu)勢。而樸素貝葉斯是在屬性獨立性假設(shè)的條件下進行計算,可以大大減小計算的復(fù)雜程度。實驗設(shè)計目的是根據(jù)樸素貝葉斯公式實現(xiàn)對文檔的分類,給學(xué)生提供一種實驗教學(xué)案例。

        【關(guān)鍵詞】? ? 樸素貝葉斯? ? 實驗教學(xué)設(shè)計? ? 文本分類

        一、實驗研究背景與目的

        本實驗設(shè)計主要基于樸素貝葉斯理論,目前是為學(xué)生提供基于貝葉斯理論的實驗項目,讓學(xué)生更好地理解該理論解決實際問題。 隨著互聯(lián)網(wǎng)的飛速發(fā)展, 海量數(shù)據(jù)注入到通訊設(shè)備中。如此大量的信息就讓信息檢索和數(shù)據(jù)挖掘的重要性更加突出。文本分類作為數(shù)據(jù)挖掘的一部分也逐漸被人們重視起來。其中文本分類的主要內(nèi)容是在預(yù)先給定的類標(biāo)簽的集下, 根據(jù)文章內(nèi)容, 確定它的類別。我們接下來將要通過三個方面來介紹:文本表示, 分類器構(gòu)造和分類器評估。

        二、實驗設(shè)計思路

        本實驗的思路是把一部分含有女性、體育、文學(xué)出版、校園的話題用網(wǎng)絡(luò)爬蟲爬下來存在特定的文檔中,然后通過樸素貝葉斯分類算法實現(xiàn)貝葉斯分類。

        三、方案設(shè)計

        系統(tǒng)設(shè)計流程框圖如下。

        四、具體算法描述

        除去噪聲,如格式轉(zhuǎn)換,去掉符號,整體規(guī)范化;遍歷的讀取一個文件下的每個文本。操作如下。

        def readFile(path):

        with open(path, 'r', errors='ignore') as file:

        content = file.read()

        return content

        def saveFile(path, result):

        with open(path, 'w', errors='ignore') as file:

        file.write(result)

        4.1 jieba分詞

        1)首先利用import調(diào)用jieba模塊、TF-IDF分詞模塊、樸素貝葉斯算法模塊;

        import jieba

        2)jieba分詞算法的基本原理是:1.基于前綴詞典實現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖(DAG); 2.采用動態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合; 3.對于未登錄詞,采用了基于漢字成詞能力的HMM模型,使用了Viterbi算法;

        代碼如下:

        def segText(inputPath, resultPath):

        fatherLists = os.listdir(inputPath)

        for eachDir in fatherLists:

        eachPath = inputPath + eachDir + "/"? ? ? ? ? each_resultPath = resultPath + eachDir + "/"

        if not os.path.exists(each_resultPath):

        os.makedirs(each_resultPath)

        childLists = os.listdir(eachPath)

        for eachFile in childLists:

        eachPathFile = eachPath + eachFile

        #? print(eachFile)

        content = readFile(eachPathFile)

        # content = str(content)

        result = (str(content)).replace("\r\n", "").strip()

        # result = content.replace("\r\n","").strip()

        cutResult = jieba.cut(result)

        saveFile(each_resultPath + eachFile, " ".join(cutResult))

        4.2 TF-IDF逆文本頻率指數(shù)

        1)首先調(diào)用TF-IDF向量轉(zhuǎn)換類和向量生成類。

        from sklearn.feature_extraction.text import TfidfTransformer

        from sklearn.feature_extraction.text import TfidfVectorizer

        2)TF-IDF逆文本頻率指數(shù)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。是一種統(tǒng)計方法,用以評估一個詞對于一個語料庫中一份文件的重要程度。詞的重要性隨著在文件中出現(xiàn)的次數(shù)正比增加,同時隨著它在語料庫其他文件中出現(xiàn)的頻率反比下降。

        3)TF-IDF詞頻算法實現(xiàn)。一個詞在某一文檔中出現(xiàn)次數(shù)比較多,其他文檔沒有出現(xiàn),說明該詞對該文檔分類很重要。然而如果其他文檔也出現(xiàn)比較多,說明該詞的區(qū)分性不大,就用IDF來降低該詞的權(quán)重。

        TF-IDF=TF×IDF

        其中,詞頻:TF=詞在文檔中出現(xiàn)的次數(shù)/文檔中總詞數(shù);

        逆文本頻率:IDF=log(語料庫中文檔總數(shù)/包含該詞的文檔數(shù)+1)。

        def getTFIDFMat(inputPath, stopWordList, outputPath):

        bunch = readBunch(inputPath)

        tfidfspace = Bunch(target_name=bunch.target_name,label=bunch.label, filenames=bunch.filenames, tdm=[],

        vocabulary={})

        vectorizer = TfidfVectorizer(stop_words=stopWordList, sublinear_tf=True, max_df=0.5)

        transformer = TfidfTransformer()

        tfidfspace.tdm = vectorizer.fit_transform(bunch.contents)

        tfidfspace.vocabulary = vectorizer.vocabulary_

        writeBunch(outputPath, tfidfspace)

        4.3樸素貝葉斯分類法

        1)首先調(diào)用貝葉斯分類法算法模塊,這個模塊是調(diào)用已有的別人寫好的算法,下面會詳細介紹原理過程。

        from sklearn.naive_bayes import MultinomialNB

        2)樸素貝葉斯原理

        樸素貝葉斯分類器采用了“屬性條件獨立性假設(shè)” 對已知類別假設(shè)所有屬性相互獨立。換言之,假設(shè)每個屬性獨立地對分類結(jié)果發(fā)生影響。故貝葉斯公式可以重寫為

        因為給定樣本P(x)為已知的,故貝葉斯準(zhǔn)則就可以轉(zhuǎn)化為

        顯然,樸素貝葉斯分類器的訓(xùn)練過程就是基于訓(xùn)練集 D 來估計類先驗概率P(c),并為每個屬性估計條件概率。

        令Dc表示訓(xùn)練集D中第c類樣本組成的集合,若有充足的獨立同分布樣本則可容易地估計出類先驗概率。

        對離散屬性而言,令表示Dc中在第i個屬性上取值為的樣本組成的集合,則條件概率可估計為

        程序如下:

        def bayesAlgorithm(trainPath, testPath):

        trainSet = readBunch(trainPath)

        testSet = readBunch(testPath)

        clf = MultinomialNB(alpha=0.001).fit(trainSet.tdm, trainSet.label)

        #alpha:0.001 alpha 越小,迭代次數(shù)越多,精度越高

        #print(shape(trainSet.tdm))? #輸出單詞矩陣的類型

        #print(shape(testSet.tdm))

        predicted = clf.predict(testSet.tdm)

        total = len(predicted)

        rate = 0

        for flabel, fileName, expct_cate in zip(testSet.label, testSet.filenames, predicted):

        if flabel != expct_cate:

        rate += 1

        print(fileName, ":實際類別:", flabel, "-->預(yù)測類別:", expct_cate)

        print("erroe rate:", float(rate) * 100 / float(total), "%")

        五、系統(tǒng)測試情況

        下圖中data文件夾中是原始數(shù)據(jù),result文件夾是jieba分詞結(jié)果,stop是文本預(yù)處理篩掉的的停用詞。test是測試數(shù)據(jù),test_segResult是測試結(jié)果。

        其中測試數(shù)據(jù)集:女性話題有38個,體育話題115個,文學(xué)出版話題31個,校園話題16個,以下是測試出錯的結(jié)果。其中校園話題出錯的概率最大。

        六、小結(jié)

        此程序簡單易懂,是在貝葉斯的基礎(chǔ)上進一步了解了樸素貝葉斯公式的原理及其運用,介紹了jieba分詞和TF-IDF逆文本頻率指數(shù)及其應(yīng)用,在實際案例中錯誤率僅為0.570,準(zhǔn)確率較高,可以在實驗課程教學(xué)中使用。

        參? 考? 文? 獻

        [1]蘇金樹, 張博鋒, 徐昕.基于機器學(xué)習(xí)的文本分類技術(shù)研究進展[J].軟件學(xué)報, 2006, 17 (09) :1848-1859.

        [2]李學(xué)明, 李海瑞, 薛亮, 何光軍.基于信息增益與信息熵的TFIDF算法[J].計算機工程, 2012, 38 (08) :37-40.

        [3]Tom M.Mitchell著;曾華軍等譯,機器學(xué)習(xí)[M]. 機械工業(yè)出版社,2003.

        [4]陳葉旺,余金山. 一種改進的樸素貝葉斯文本分類方法[J].? 華僑大學(xué)學(xué)報(自然科學(xué)版). 2011(04).

        久久午夜一区二区三区| 无码AV高潮喷水无码专区线| 亚洲av日韩av一卡二卡| 国产精品二区三区在线观看| 亚洲一区二区三区乱码在线中国| 亚洲中文字幕在线第二页| 日韩精品无码区免费专区| 亚洲日韩精品AⅤ片无码富二代| 激情五月开心五月啪啪| 亚洲av无码一区二区三区网址 | aaaaa级少妇高潮大片免费看| 免费一级国产大片| 亚洲第一大av在线综合| 久久99精品久久久久久噜噜| 亚洲av纯肉无码精品动漫| 国产va在线播放| 天涯成人国产亚洲精品一区av| 免费无遮挡无码永久视频| 亚洲精品国偷拍自产在线观看蜜臀 | 国产愉拍91九色国产愉拍| 免费无码不卡视频在线观看| 久久久久亚洲av无码专区桃色| 欧美丝袜激情办公室在线观看| 激情五月开心五月啪啪| 少妇人妻在线无码天堂视频网 | 亚洲欧洲日韩另类自拍| 免费在线亚洲视频观看| 国产乱码卡二卡三卡老狼| 国产午夜影视大全免费观看 | 国产国产人精品视频69| 熟女丝袜美腿亚洲一区二区三区 | 午夜大片又黄又爽大片app| 一本大道久久精品一本大道久久| 亚洲毛片一区二区在线| 中文字幕精品久久久久人妻红杏ⅰ| 国产乱色国产精品免费视频| 国产又湿又爽又猛的视频| 日本在线 | 中文| 5级做人爱c视版免费视频| 亚洲日本一区二区在线观看| 日韩人妻无码精品一专区二区三区 |