亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)環(huán)境下的文本挖掘教學(xué)內(nèi)容探討

        2018-05-09 02:54:48
        無線互聯(lián)科技 2018年9期
        關(guān)鍵詞:數(shù)據(jù)挖掘可視化文本

        白 楊

        (遼東學(xué)院 信息工程學(xué)院,遼寧 丹東 118003)

        近年來,人工智能、云計算、物聯(lián)網(wǎng)、移動通信等技術(shù)與應(yīng)用的快速發(fā)展及其與社會經(jīng)濟(jì)活動的廣泛融合,把人類社會帶入一個全新的大數(shù)據(jù)時代。大數(shù)據(jù)成為國際競爭、國家發(fā)展的重要領(lǐng)域,給人們的生活、學(xué)習(xí)和工作帶來新的模式,采用合理的方法針對大數(shù)據(jù)進(jìn)行挖掘和利用,將有助于獲取有價值的信息。高校的發(fā)展也應(yīng)迎合大數(shù)據(jù)新環(huán)境的要求,在教學(xué)理念上做出適合學(xué)生能力發(fā)展的調(diào)整,并切實(shí)在教學(xué)實(shí)踐中付諸行動,增強(qiáng)學(xué)生的就業(yè)競爭優(yōu)勢。

        目前,面向大數(shù)據(jù)相關(guān)人才的迫切需求,我國各大高校的計算機(jī)科學(xué)、信息管理等專業(yè)開設(shè)了“數(shù)據(jù)挖掘”課程。大數(shù)據(jù)環(huán)境下的互聯(lián)網(wǎng)約95%的數(shù)據(jù)以文本數(shù)據(jù)形式存在,文本挖掘技術(shù)及其應(yīng)用已經(jīng)成為新的研究熱點(diǎn),是數(shù)據(jù)挖掘技術(shù)發(fā)展的重要方向[1]。在各類相關(guān)教材中,也只將文本挖掘作為Web挖掘的一個小知識點(diǎn),并沒對其知識構(gòu)成和主要技術(shù)做全面介紹。針對這一現(xiàn)象,本文將對文本挖掘這一知識點(diǎn)進(jìn)行系統(tǒng)概述,對其區(qū)別于其他形式數(shù)據(jù)的挖掘技術(shù)特點(diǎn)進(jìn)行闡述。

        1 文本挖掘概述

        文本挖掘一詞最早出現(xiàn)于1998年第十屆歐洲機(jī)器學(xué)習(xí)會議上,它是一個從大量文本數(shù)據(jù)中提取以前未知的、有用的、可理解的、可操作的知識的過程[2]。文本挖掘的目的是從文本集合中,試圖在一定的理解水平上盡可能多地提取知識,其本質(zhì)是自然語言處理(Natural Language Processing,NLP)過程,NLP是將無結(jié)構(gòu)的自然語言轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)自然語言,便于計算機(jī)的理解、存儲和管理。

        1.1 文本挖掘的應(yīng)用場景

        文本挖掘的應(yīng)用場景豐富,主要包括以下幾個方面:新聞檢索歸類,如谷歌新聞;社交網(wǎng)絡(luò)分析,如微博、推特?zé)狳c(diǎn)發(fā)現(xiàn)、謠言識別等;輿情監(jiān)測分析,如股票分析、房產(chǎn)分析等;顧客反饋評價,如電子商務(wù)評價情感分析;用戶畫像,如用戶興趣偏好分析。

        1.2 文本挖掘與數(shù)據(jù)挖掘的聯(lián)系和區(qū)別

        廣義上,文本挖掘是數(shù)據(jù)挖掘的一個分支領(lǐng)域,挖掘目標(biāo)也分為預(yù)測和描述兩種。預(yù)測是利用數(shù)據(jù)庫中已有的變量預(yù)測未知或?qū)淼臄?shù)值;描述是用于探索已有數(shù)據(jù)的性質(zhì),對數(shù)據(jù)中的模式或關(guān)系進(jìn)行辨別,注重發(fā)現(xiàn)描述數(shù)據(jù)的模式,提供給用戶解釋和表述。狹義上,如果將文本挖掘作為一個單獨(dú)的研究領(lǐng)域,其研究對象是無結(jié)構(gòu)或半結(jié)構(gòu)的文本,而非結(jié)構(gòu)化數(shù)據(jù);以提取概念和知識以及做出描述和預(yù)測為目標(biāo),而非預(yù)測未來的狀態(tài);挖掘方法以提取短語、形成概念為主,與數(shù)據(jù)挖掘的傳統(tǒng)方法類似,也包括聚類、分類、關(guān)聯(lián)分析等。另外,由于文本數(shù)據(jù)是各類網(wǎng)站的主要數(shù)據(jù)形式,它廣泛應(yīng)用于社交網(wǎng)站、電子商務(wù)平臺、文獻(xiàn)集合、知識庫、電子郵件等媒介。

        2 文本挖掘過程

        如何使得文本數(shù)據(jù)可被計算機(jī)理解?如何利用計算機(jī)幫助解讀文本數(shù)據(jù)?要解決這些問題,皆要求文本挖掘具備數(shù)據(jù)獲取、數(shù)據(jù)分析和數(shù)據(jù)建模3方面的能力,以下5個步驟闡述了文本挖掘過程。

        2.1 文本數(shù)據(jù)獲取

        通常通過爬蟲程序?qū)崿F(xiàn)網(wǎng)絡(luò)海量文本數(shù)據(jù)的抓取,具體過程是根據(jù)挖掘目的設(shè)計爬蟲程序,爬取相關(guān)的數(shù)據(jù),以形成文本數(shù)據(jù)挖掘的初始數(shù)據(jù)。

        2.2 文本挖掘的預(yù)處理

        預(yù)處理過程是對編碼、缺失值、分布分析等問題進(jìn)行處理,是能否獲得有效挖掘結(jié)果的關(guān)鍵。由于文本數(shù)據(jù)的特征,文本數(shù)據(jù)的預(yù)處理方法區(qū)別于其他類型數(shù)據(jù)的預(yù)處理方法,具有其特殊性,因此這部分知識點(diǎn)是文本挖掘教學(xué)內(nèi)容的重點(diǎn),預(yù)處理過程一般劃分為以下幾個環(huán)節(jié)。

        2.2.1 編碼處理

        首先需要對文本數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,因為不同編碼格式,有些軟件可能會不識別導(dǎo)致出錯,統(tǒng)一編碼(如將編碼轉(zhuǎn)化成“UTF-8”)將方便進(jìn)一步的主題特征抽取。

        2.2.2 分詞處理

        分詞處理將確定語句的詞(words)或詞項(terms),即文檔粒度。不同于英文語句中的詞與詞之間自帶空格的構(gòu)句特點(diǎn),中文句子往往因為斷句的不同而引起歧義,因此,中文分詞方法顯得額外重要。中文分析方法分為詞典分詞和無詞典分詞兩種,前者是利用詞典中包括的領(lǐng)域術(shù)語,根據(jù)設(shè)定好的切詞字?jǐn)?shù),通過最大正向匹配將語句從左至右進(jìn)行切分。后者是利用統(tǒng)計思想來分詞,如最大概率法公式為:一個詞的概率=其出現(xiàn)的次數(shù)/語料中總的詞數(shù),以此區(qū)分詞在一個文檔中的重要程度。另外,還有一些常用的切詞工具如StandardAnalyzer,ChineseAnalyzer等都各具優(yōu)勢。

        2.2.3 文本數(shù)據(jù)的表示—DTM矩陣生成

        分詞處理之后需要進(jìn)行數(shù)據(jù)的表示,通過文檔—詞項矩陣(Document-Term Matrix,DTM)矩陣實(shí)現(xiàn)對本文數(shù)據(jù)的結(jié)構(gòu)化處理,它由文檔為樣本(行)、詞項為變量(列)、詞頻為觀測值(元素)構(gòu)成,如表1所示3個文檔(Doc1,Doc2,Doc3)的各個詞項(“歡迎”“來到”等)的詞頻值為1或0,1表示該詞項在文檔中出現(xiàn),0表示該詞項在文檔中未出現(xiàn)。

        2.2.4 文本信息過濾—停用詞及常用詞處理

        詞項中有些停用詞(如表1中的“的”“與”)無法給予我們有價值的信息,因此,需要借助詞典對停用詞進(jìn)行處理。需要注意的是,在分析具體行業(yè)時,一些常用詞也可以處理掉,如只分析房地產(chǎn)行業(yè)時,“房地產(chǎn)”一詞本身的意義就不大了。

        2.2.5 文本特征篩選TF-DIF處理

        詞頻—逆文本頻率指數(shù)(Term Frequency-Inverse Document Frequency,TF-IDF)的思想是一個詞在A文檔中出現(xiàn)頻率高(對A重要),而在其他文檔中出現(xiàn)次數(shù)相對低(對全局具有個性化),那么認(rèn)為該詞對于A文檔是重要的,它對A文檔有信息代表性,這將有利于進(jìn)行文本分類,從而方便提取規(guī)律和進(jìn)行檢索。

        表1 數(shù)據(jù)挖掘與文本挖掘的區(qū)別

        2.2.6 文本特征抽取—LDA主題模型

        與TF-IDF不同,文檔主題生成模型(Latent Dirichlet Allocation,LDA)則將分析粒度從詞映射為詞的組合(構(gòu)成主題),從而使得分析粒度變大,分析維度降低。

        2.3 文本數(shù)據(jù)分析與挖掘

        根據(jù)挖掘目的和任務(wù)的不同,將文本挖掘分析與挖掘劃分為以下幾個功能。(1)關(guān)鍵詞檢索:與傳統(tǒng)的信息檢索使用的技術(shù)類似,關(guān)鍵詞檢索功能通過建立倒排文件索引實(shí)現(xiàn)。(2)相似檢索:找到相似內(nèi)容的文本,通常利用向量空間模型、余弦相似度模型進(jìn)行相似度計算。(3)詞語關(guān)聯(lián)分析:聚焦在詞語(包括關(guān)鍵詞)之間的關(guān)聯(lián)信息分析上。(4)文本分類和聚類:文本分類是有監(jiān)督地將文檔分為指定類;文本聚類是無監(jiān)督地將文檔分為若干類。實(shí)際上,多種分析方法經(jīng)?;旌线\(yùn)用,如進(jìn)行數(shù)據(jù)特征化處理使數(shù)據(jù)降維,從文檔中抽取能反映研究主題的一些特征后,再使用分類器進(jìn)行訓(xùn)練,而分類設(shè)置包括很多方法,如聚類、關(guān)聯(lián)、信息檢索、鏈接分析等方法。(5)自然語言處理:揭示自然語言的涵義,實(shí)現(xiàn)文本語義挖掘,如運(yùn)用LDA模型生成文本主題。

        2.4 文本數(shù)據(jù)可視化

        數(shù)據(jù)可視化就是把復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為直觀的圖形,有利于進(jìn)行數(shù)據(jù)分析以及方便人們洞悉數(shù)據(jù)規(guī)律。目前研究領(lǐng)域和Web上最受歡迎的文本內(nèi)容可視化方法是標(biāo)簽云和Wordle,它們都是基于關(guān)鍵詞的方法。另外還有文本特征可視化、情感分析可視化、文本關(guān)系可視化等。

        2.5 挖掘結(jié)果和策略

        為輔助決策,文本挖掘的結(jié)果必須被用戶所理解,因此,需要對挖掘結(jié)果進(jìn)行評估。評估標(biāo)準(zhǔn)一般分為客觀標(biāo)準(zhǔn)和主觀標(biāo)準(zhǔn),其出發(fā)點(diǎn)均是判斷挖掘結(jié)果是否具有新穎的、有趣的、有價值的性質(zhì)。

        3 結(jié)語

        本文對文本挖掘的教學(xué)內(nèi)容做了系統(tǒng)、全面的設(shè)置,梳理了此知識點(diǎn)的基本概念,著重介紹區(qū)別于其他數(shù)據(jù)挖掘預(yù)處理的分詞技術(shù)及矩陣表示方法,并闡述了主要挖掘和分析方法及其應(yīng)用場景。實(shí)踐教學(xué)中,將利用開放的互聯(lián)網(wǎng)數(shù)據(jù)庫資源,使課堂教學(xué)、上機(jī)實(shí)驗案例相結(jié)合,引導(dǎo)學(xué)生掌握文本數(shù)據(jù)挖掘技術(shù)的知識結(jié)構(gòu),調(diào)動學(xué)生的學(xué)習(xí)積極性和興趣。未來工作中,將進(jìn)一步引入前沿的文本挖掘問題應(yīng)用于“數(shù)據(jù)挖掘”課程的教學(xué)中,豐富教學(xué)案例,提高教學(xué)效果。

        [參考文獻(xiàn)]

        [1]袁軍鵬,朱東華,李毅,等.文本挖掘技術(shù)研究進(jìn)展[J].計算機(jī)應(yīng)用研究,2006(2):1-4.

        [2]JIAWEI H,MICHELINE K,JIAN P,等.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2012.

        猜你喜歡
        數(shù)據(jù)挖掘可視化文本
        基于CiteSpace的足三里穴研究可視化分析
        基于Power BI的油田注水運(yùn)行動態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于CGAL和OpenGL的海底地形三維可視化
        在808DA上文本顯示的改善
        “融評”:黨媒評論的可視化創(chuàng)新
        傳媒評論(2019年4期)2019-07-13 05:49:14
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        日本加勒比一道本东京热| 久久丫精品国产亚洲av不卡 | 日韩精品免费一区二区三区观看| 亚洲精品久久久久成人2007| 亚洲中文无码av在线| 中文人妻av大区中文不卡| 伊人久久大香线蕉av不变影院| 亚洲av综合av一区| 国产主播一区二区三区在线观看 | 久久久久久人妻无码| 国产精品美女久久久久| 久久男人av资源网站无码| 在线久草视频免费播放| 亚洲第一狼人天堂网亚洲av| 亚洲精品国产福利一二区| 日韩亚洲欧美精品| 亚洲成av人片极品少妇| 夜夜爽妓女8888888视频| 少妇人妻在线视频| 在线视频一区二区亚洲| 日韩人妻系列在线观看| 天堂а√在线最新版中文在线| 日韩精品电影在线观看| 偷拍与自偷拍亚洲精品| 亚无码乱人伦一区二区| 中文字幕日本最新乱码视频| 狼色在线精品影视免费播放| av影片手机在线观看免费网址| 亚洲人成无码区在线观看| 久久免费视频国产| 久久精品国产精品亚洲婷婷| 日本精品女优一区二区三区| 一区二区三区国产亚洲网站| 日本不卡一区二区高清中文| 蜜乳一区二区三区亚洲国产| 日韩精品极品视频在线观看免费| 中文字幕免费观看视频| 久久国产精品免费久久久 | 日本精品αv中文字幕| 国产在线观看黄| 久久综合激情的五月天|