亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘技術(shù)的文本分析研究

        2022-04-20 10:57:08劉建國陳曼倩
        無線互聯(lián)科技 2022年2期
        關(guān)鍵詞:詞表數(shù)據(jù)挖掘詞匯

        趙 丹,劉建國,陳曼倩

        (1.哈爾濱職業(yè)技術(shù)學(xué)院,黑龍江 哈爾濱 150000;2.哈爾濱開放大學(xué),黑龍江 哈爾濱 150000)

        0 引言

        數(shù)據(jù)挖掘的主要功能體現(xiàn)在從海量數(shù)據(jù)中找到價值較高的信息,并實現(xiàn)信息轉(zhuǎn)化,將其變成有用知識。隨著計算機普及,數(shù)據(jù)飛速膨脹,信息構(gòu)成更加復(fù)雜,僅依靠關(guān)鍵詞檢索會有大量信息遺漏?;跀?shù)據(jù)挖掘,研究人員可以對本文特征精細(xì)化分析,找到有效信息,精準(zhǔn)發(fā)現(xiàn)隱藏的客觀規(guī)律。

        1 數(shù)據(jù)挖掘技術(shù)應(yīng)用優(yōu)勢

        數(shù)據(jù)挖掘?qū)崿F(xiàn)了多領(lǐng)域的滲透、融合,是人工智能的一大延伸,屬于數(shù)據(jù)庫領(lǐng)域核心技術(shù)。主要思路是從數(shù)據(jù)庫中,借助深度挖掘技術(shù),查找關(guān)鍵信息,揭示出隱含的信息價值,從而高效利用信息。數(shù)據(jù)挖掘的應(yīng)用意義重大,屬于決策支持實現(xiàn)過程,其融合了人工智能、模式識別等多項技術(shù),可以自動化且全方位地分析對象內(nèi)容,并在此前提下完成歸納性的推理。

        研究發(fā)現(xiàn),其實現(xiàn)知識庫交互的過程大體分為3個階段:數(shù)據(jù)準(zhǔn)備(基礎(chǔ)保障)、數(shù)據(jù)挖掘(核心技術(shù))、結(jié)果表達(dá)和解釋。現(xiàn)階段,數(shù)據(jù)挖掘相對成熟,被廣泛應(yīng)用在文本分析領(lǐng)域,并取得了較好的成績,不僅保障了分析效率,還提高了本文利用率。數(shù)據(jù)挖掘技術(shù)原理如圖1所示。

        圖1 數(shù)據(jù)挖掘技術(shù)運行原理

        借助數(shù)據(jù)挖掘可以全面地、深層次地分析本文數(shù)據(jù),深度挖掘文本信息內(nèi)容,提取關(guān)鍵信息,從大量數(shù)據(jù)中精準(zhǔn)定位,最大限度地提高數(shù)據(jù)利用率。具體包括數(shù)據(jù)準(zhǔn)備、規(guī)律尋找等核心板塊,在具體操作中,數(shù)據(jù)準(zhǔn)備屬于基礎(chǔ)保障環(huán)節(jié),從相關(guān)數(shù)據(jù)源中整合、分析、提煉出有用的數(shù)據(jù),并將其匯總、篩選,形成數(shù)據(jù)集,為后續(xù)應(yīng)用做足準(zhǔn)備。規(guī)律尋找是指將數(shù)據(jù)集中隱藏規(guī)律找出來,例如本文詞匯出現(xiàn)頻次等。其中,要想完整表示規(guī)律,就要采取用戶可以理解的方式,并達(dá)到理想的可視化程度。

        2 基于數(shù)據(jù)挖掘的文本分析應(yīng)用

        2.1 基于詞頻統(tǒng)計功能的文本分析

        在數(shù)據(jù)挖掘之前,收集目標(biāo)數(shù)據(jù)是主要任務(wù),需要借助語料庫資源,或者完成爬蟲程序編寫,實現(xiàn)網(wǎng)絡(luò)資源自動采集。之后,完成數(shù)據(jù)的預(yù)處理,這是數(shù)據(jù)挖掘的前期工作,也是基本保障性工作。

        以日語和漢語為例,其特征類似,沒有單詞的形態(tài)標(biāo)記,因此在分析前都要進(jìn)行分詞。實踐證明,借助Mecab形態(tài)素解析器可以起到理想的分詞效果。該工具性能穩(wěn)定,屬于效率較高的形態(tài)素分析引擎,在實際應(yīng)用中不依賴具體的語言就可以完成分詞工作,同時,借助詞典或語料庫,采用CRF模型,基本上可以實現(xiàn)連接方式的配價以及詞匯參數(shù)的估計。這種方法可行性較高,無論是解析速度還是詞匯解析精度都比較理想,均高于常用解析器。實際操作中,分詞之后就要制作詞表,詞表完全可以借助“數(shù)據(jù)透視表”功能,或者也可以選擇KH Coder的“Frequency List”完成同樣的工作。比較發(fā)現(xiàn),后者更加方便、操作性更強,但想要保證詞表制作效果,需要注意以下內(nèi)容:(1)KH Coder功能有限,只能統(tǒng)計名詞等少部分詞類。(2)在進(jìn)行代詞、感嘆詞這部分詞匯統(tǒng)計時,發(fā)生錯誤概率會增大。因此,現(xiàn)實操作中,有必要對照最終得出的統(tǒng)計結(jié)果,完成對KH Coder的修正工作。

        2.2 基于詞表比對功能的信息挖掘

        分析單個詞表可以掌握文本高頻詞匯的文體特征,在此基礎(chǔ)上進(jìn)行詞表比對,可以將重要信息及時捕捉。高頻人稱代詞隱含了事件關(guān)鍵信息,還有專用名詞等也都屬于重要詞匯。例如:科技類文章中通過專用名詞的使用頻次統(tǒng)計,可以判斷文章大體介紹的方向??萍碱愇恼陆?jīng)常以第三人稱進(jìn)行介紹,敘事方式較為客觀,采用旁觀者視角,會讓文章脈絡(luò)清晰、敘事更加合理[1]。不同題材的科技文章,專用名詞因為用法的不同,使用頻率也會存在差異。為了例證,選取了幾篇關(guān)于汽車性能介紹的文獻(xiàn),如《時代汽車》《機械設(shè)計與制造》《鍛壓技術(shù)》《內(nèi)燃機與配件》等,統(tǒng)計后所得的專用名詞頻率如表1所示。

        表1 高頻專用詞匯

        通過表1中高頻詞匯的使用,可以基本判斷文章的類型以及科技論文研究的主攻方向。借助挖掘高頻詞匯還可以掌握其他關(guān)聯(lián)信息,通過捕捉以及深入挖掘能夠掌握較為前沿的技術(shù),在了解文章類型的基礎(chǔ)上掌握文章主要框架。

        2.3 基于詞語共現(xiàn)網(wǎng)絡(luò)功能完成熱點事件抓取

        隨著網(wǎng)絡(luò)時代到來,無數(shù)新聞事件發(fā)酵、膨脹,社會充斥大量信息。怎樣從紛繁復(fù)雜網(wǎng)絡(luò)中自動提煉熱點事件,成為談?wù)摰慕裹c,也是新時期的重要課題?;诖?詞語共現(xiàn)網(wǎng)絡(luò)被提出,Co occurrence Network作為新的理念,為本文分析指明了方向。構(gòu)建技術(shù)可以實現(xiàn)文本信息可視化,使其更加直觀、立體詮釋文本中人物關(guān)系,并且提取出熱點人物、新聞事件以及組織、概念等核心內(nèi)容,在此基礎(chǔ)上完整揭示熱詞聯(lián)系[2]。該技術(shù)實現(xiàn)原理是借助統(tǒng)計詞頻,步驟是先完成最頻繁詞匯抽取,再掌握其潛在關(guān)系,從而搭建詞語網(wǎng)絡(luò)圖,概括高頻詞匯,并且掌握其關(guān)聯(lián)性。實踐證明,借助詞匯的組建,可以將文本事件揭示出來,幫助獲取核心信息。

        為了驗證數(shù)據(jù)挖掘以及分析方法的有效性,可以采用“Co-Occurrence Net-work”進(jìn)行驗證,借助其構(gòu)建功能,多角度地分析《每日新聞》全部報道,完成了關(guān)鍵性文本詞匯的提取,最終形成了詞語共現(xiàn)網(wǎng)絡(luò)圖。借助這種方法,高頻詞不僅被抽取出來,還可以組成高頻詞群,詞群或大或小,直接或者間接地反映了新聞事件。高頻詞群從不同角度揭示了熱點話題的核心內(nèi)容,也可以看出信息挖掘技術(shù)的價值。借助詞語共現(xiàn),網(wǎng)絡(luò)可以清晰、直觀地觀察到高頻詞匯,并在此基礎(chǔ)上借助科學(xué)計算提取出共現(xiàn)詞,以完成熱點話題的追蹤和媒體動向的捕捉[3];再利用先進(jìn)網(wǎng)絡(luò)爬蟲,對輿情動態(tài)跟蹤反饋。

        3 結(jié)語

        數(shù)據(jù)挖掘技術(shù)意義顯著,在文本分析中可以讓語言學(xué)研究視角拓展,從而實現(xiàn)研究手段的豐富。同時,完成文本數(shù)據(jù)的準(zhǔn)確獲取,并合理提煉高質(zhì)量的隱含信息,讓研究效率更高。值得一提的是,在本文分析領(lǐng)域,數(shù)據(jù)挖掘技術(shù)起步較晚,其應(yīng)用值得學(xué)界共同關(guān)注。

        猜你喜歡
        詞表數(shù)據(jù)挖掘詞匯
        本刊可直接用縮寫的常用詞匯
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
        英語世界(2021年13期)2021-01-12 05:47:51
        一些常用詞匯可直接用縮寫
        本刊可直接用縮寫的常用詞匯
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        敘詞表與其他詞表的互操作標(biāo)準(zhǔn)
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        本刊一些常用詞匯可直接用縮寫
        97中文字幕在线观看| 日韩精品视频一区二区三区| 国产黄在线观看免费观看不卡| 日本欧美国产精品| 久久爱91精品国产一区| 精品国产自在现线看久久| 无遮挡呻吟娇喘视频免费播放| 色妺妺视频网| 五月激情狠狠开心五月| 日本视频在线观看二区| 国产熟妇另类久久久久| 国产美女网站视频| 伊人久久婷婷综合五月97色 | 日本不卡在线视频二区三区| 97在线观看视频| 日子2020一区二区免费视频| 青青草视频在线你懂的| 国产内射视频在线免费观看| 国产av丝袜旗袍无码网站| 麻豆五月婷婷| 亚洲一区二区视频免费看| 无码喷潮a片无码高潮| 亚洲色大成网站www永久一区| 国产欧美激情一区二区三区| 手机免费高清在线观看av| 国产午夜伦鲁鲁| 91麻豆精品激情在线观看最新| 中文字幕中乱码一区无线精品| 一区二区精品国产亚洲| 999久久久国产精品| 一区二区在线亚洲av蜜桃| 精品人妻一区二区三区狼人| 久9re热视频这里只有精品| 欧美国产日产一区二区| 好爽要高潮了在线观看| 久久精品国产亚洲av精东| 亚洲色无码国产精品网站可下载| 亚洲国产成人AⅤ片在线观看| 国产精品毛片一区二区三区| 3d动漫精品啪啪一区二区免费| 亚洲免费黄色|