亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于python的數(shù)據(jù)處理和模糊層次聚類

        2018-09-26 10:18:50趙金暉
        無線互聯(lián)科技 2018年14期
        關(guān)鍵詞:模糊數(shù)學(xué)紅樓夢

        趙金暉

        摘 要:《紅樓夢》的作者問題一直是“紅學(xué)研究”的熱點。其中前80回和后40回分別由曹雪芹和高鶚?biāo)鶗恼f法廣為流傳。通過直接調(diào)用數(shù)據(jù)分析的軟件可以直觀地看到結(jié)果,但并不能展示細(xì)節(jié)。文章將應(yīng)用模糊層次聚類的方法,并詳細(xì)展示主要步驟,比起均值聚類,文中的方法更加貼近于人的思維,便于理解和學(xué)習(xí),研究者可以通過訓(xùn)練,熟練掌握文本處理、矩陣運算和編程等技巧。

        關(guān)鍵詞:python;層次聚類;模糊數(shù)學(xué);紅樓夢

        《紅樓夢》的作者問題一直是紅學(xué)研究的熱點。多位作者、不同時期的寫作都可能是《紅樓夢》全本風(fēng)格不一的原因。其中前80回和后40回分別由曹雪芹和高鶚?biāo)鶗恼f法廣為流傳。文章對這一假說進(jìn)行簡單的驗證。本文取1—70回和86—120回進(jìn)行聚類得出標(biāo)準(zhǔn)模型,并用余下的71—85回測試標(biāo)準(zhǔn)模型并驗證所選的關(guān)于《紅樓夢》作者的假說。

        1 驗證準(zhǔn)備步驟

        驗證準(zhǔn)備工作主要分為以下6個步驟。

        (1)分章存儲《紅樓夢》全本;(2)分詞后獲取各章節(jié)共有的詞;(3)得到章節(jié)間聯(lián)系的模糊矩陣;(4)自下而上的層次聚類分析;(5)得到并驗證標(biāo)準(zhǔn)模型;(6)掃描二維碼(見圖1)查看代碼和處理結(jié)果。

        2 文本處理

        利用正則表達(dá)式獲取《紅樓夢》各章標(biāo)題,以字典的形式分章存儲紅樓夢,key為標(biāo)題,value為每章文本。對全本和各章進(jìn)行分詞后獲取公共的詞列表,共114個。統(tǒng)計公共詞個數(shù),得到長度為114的各章向量,如表1所示。

        3 模糊向量和模糊矩陣

        求1—70回和86—120回模糊向量集合List_for_matrix_index和章節(jié)間直接聯(lián)系的模糊矩陣Direct_relation_matrix[i][j]。

        4 聚類

        數(shù)據(jù)準(zhǔn)備完畢,開始聚類過程。設(shè)置閾值從1開始按0.000 1的步長逐漸減小,進(jìn)行自下而上的聚類,當(dāng)截矩陣(Cut_matrix)發(fā)生變化,以列表的形式存儲閾值(Change_level_l)st)和新的截矩陣(Level_matrix_list)。

        各截矩陣相減得到的布爾矩陣(New_relation_matrix)是向上聚類的依據(jù),存儲New_relation_matrix到New_relation_matrix_list。=1時,截矩陣對角線全為1其余為零,分成105類。

        5 標(biāo)準(zhǔn)模型和假說驗證

        分別取1—70回和86—120回的平均向量為標(biāo)準(zhǔn)模型,計算71—85回到標(biāo)準(zhǔn)模型的距離效果比計算貼近度的效果更好,比較71—85各章到標(biāo)準(zhǔn)模型的距離,取小得['曹', '曹', '曹', '高', '曹', '曹', '曹', '曹', '曹', '曹', '高', '高', '高', '高', '高'],只有第74章判斷錯誤,結(jié)果良好,由此可以簡單驗證《紅樓夢》前80回和后40回不是同一人所寫。

        6 結(jié)語

        本文在項目中應(yīng)用模糊數(shù)學(xué)知識和Python編程語言。在實踐中反復(fù)訓(xùn)練了文本處理、矩陣運算和編程技巧等,加深了對模糊向量和模糊矩陣的認(rèn)識,初步掌握了模糊層次聚類的方法和應(yīng)用,驗證紅樓夢前80回后40回是否為同一人所寫僅僅是模糊數(shù)學(xué)的小小應(yīng)用,通過模糊數(shù)學(xué)這一方法,我們可以發(fā)現(xiàn)更多意想不到的有趣的關(guān)聯(lián)規(guī)則。

        [參考文獻(xiàn)]

        [1]施建軍.關(guān)于以《紅樓夢》120回為樣本進(jìn)行其作者聚類分析的可信度問題研究[J].紅樓夢學(xué)刊,2010(5):318-335.

        [2]肖天久,劉穎.《紅樓夢》詞和N元文法分析[J].現(xiàn)代圖書情報技術(shù),2015(4):50-57.

        [3]葉雷.基于計量文體特征聚類的《紅樓夢》作者分析[J].紅樓夢學(xué)刊,2016(5):312-324.

        猜你喜歡
        模糊數(shù)學(xué)紅樓夢
        論《紅樓夢》中的賭博之風(fēng)
        從《紅樓夢》看養(yǎng)生
        海峽姐妹(2020年7期)2020-08-13 07:49:32
        《〈紅樓夢〉寫作之美》序
        別樣解讀《紅樓夢》
        海峽姐妹(2018年5期)2018-05-14 07:37:10
        模糊數(shù)學(xué)方法在產(chǎn)教融合評價中的應(yīng)用
        科技資訊(2016年25期)2016-12-27 11:06:21
        基于層次分析法的橋梁運營階段風(fēng)險分析
        價值工程(2016年32期)2016-12-20 20:08:43
        漫談“模糊數(shù)學(xué)”
        不確定性數(shù)學(xué)方法的比較研究
        女同性恋看女女av吗| 猫咪www免费人成网最新网站| 免费看欧美日韩一区二区三区| 日本黄色高清视频久久| 日本一区二区视频免费在线看| 久久久久无码精品国产app| 国产午夜福利不卡在线观看视频 | 国产精品一区二区性色| 亚洲av日韩av无码污污网站 | 亚洲欧美日韩在线精品2021| 日本av不卡一区二区三区| 日日摸天天碰中文字幕你懂的| 国产精品免费久久久久影院仙踪林 | 99久久人人爽亚洲精品美女 | 一区二区韩国福利网站| 福利视频在线一区二区三区| 强开小婷嫩苞又嫩又紧视频韩国| 国产精品免费大片| 亚洲国产成人精品激情| 亚洲啪啪色婷婷一区二区| 久久亚洲av午夜福利精品一区 | 国产日产精品一区二区三区四区的特点 | 粗大的内捧猛烈进出在线视频 | 天天做天天摸天天爽天天爱| 18禁无遮挡羞羞污污污污网站| 亚洲AV无码日韩综合欧亚| 日韩免费精品在线观看| 69一区二三区好的精华| 国产成人免费a在线视频| 国产黄色三级三级三级看三级| 人妻中文字幕乱人伦在线| 亚洲暴爽av人人爽日日碰| 亚洲av熟女天堂系列| 国产精品久久免费中文字幕| 色噜噜狠狠一区二区三区果冻| 白丝美女被狂躁免费视频网站| 精品亚洲国产日韩av一二三四区| 99久久超碰中文字幕伊人| 亚洲中文无码久久精品1| 中文字幕丰满人妻被公强| 人人妻人人澡人人爽国产一区|