亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)時代基于統(tǒng)計特征的情報關(guān)鍵詞提取方法嘗試

        2017-06-11 18:42:30楊新華付萍萍
        工業(yè)設(shè)計 2017年6期
        關(guān)鍵詞:詞匯特征文本

        楊新華 付萍萍

        摘 要:本文對大數(shù)據(jù)時代基于統(tǒng)計特征的情報關(guān)鍵詞提取方法展開了相關(guān)的探究工作,首先就大數(shù)據(jù)的概念與特征進行了簡要介紹,進而具體分析了目前情報關(guān)鍵詞提取領(lǐng)域的發(fā)展現(xiàn)狀與存在的主要問題,并最終提出了基于語義方法、基于統(tǒng)計方法、基于機器學(xué)習(xí)方法、基于復(fù)雜網(wǎng)絡(luò)方法等關(guān)鍵詞提取方法,旨在為有關(guān)研究人員提供一些新的研究思路與方法。

        關(guān)鍵詞:大數(shù)據(jù);統(tǒng)計特征;情報關(guān)鍵詞;提取方法

        引言

        隨著當前相關(guān)科學(xué)技術(shù)的快速化發(fā)展,以互聯(lián)網(wǎng)技術(shù)為代表的信息技術(shù)已經(jīng)廣泛滲透到了人們?nèi)粘I畹姆椒矫婷?,大?shù)據(jù)時代已經(jīng)悄然來臨。由此也使得網(wǎng)絡(luò)情報研究工作面臨著前所未有的挑戰(zhàn)與機遇,針對目前的現(xiàn)狀情況,相關(guān)科研人員怎樣能夠在極度復(fù)雜的網(wǎng)絡(luò)信息當中高效獲取具有研究價值的重要議題將異常關(guān)鍵,對此,本文將就大數(shù)據(jù)時代基于統(tǒng)計特征的情報關(guān)鍵詞提取方法展開相關(guān)的研究工作。

        1概述

        大數(shù)據(jù)也被稱之為巨量數(shù)據(jù)集合,是指無法在一定的時間范圍當中采用一般性的軟件工具所獲取、管理及處置的數(shù)據(jù)集合,必須要借助于新型處理模式方可達到更加強大的決策能力、洞察發(fā)現(xiàn)能力以及對流程優(yōu)化改造能力的海量、高增長率以及多樣化的信息資產(chǎn)。大數(shù)據(jù)的主要特征可概括為6V特征:

        ⑴Volume:數(shù)據(jù)容量大,大數(shù)據(jù)所具備的大容量是其與傳統(tǒng)數(shù)據(jù)最為明顯的一項特征差異。傳統(tǒng)的一般關(guān)系型數(shù)據(jù)庫處理其數(shù)據(jù)量級往往在TB級左右,而反觀大數(shù)據(jù)所數(shù)據(jù)的數(shù)據(jù)量級經(jīng)??蛇_到PB級別以上。

        ⑵Variety:數(shù)據(jù)類型多,大數(shù)據(jù)所進行處理的計算機數(shù)據(jù)類型已經(jīng)不僅再局限于一般性的文本形式亦或是結(jié)構(gòu)化的數(shù)據(jù)庫表格,其同時還含括了音頻、視頻、文字、BLOG、微博等多種復(fù)雜的數(shù)據(jù)結(jié)構(gòu)。

        ⑶Velocity:數(shù)據(jù)流動快,與傳統(tǒng)的數(shù)據(jù)相比高速化同樣也是大數(shù)據(jù)的一項重要特征,在面對接近于無窮盡的海量數(shù)據(jù)時,針對所獲取到的數(shù)據(jù)信息分析處理效率越快越好,數(shù)據(jù)的處理效率將直接決定著組織命運。

        ⑷Value:數(shù)據(jù)潛在價值大,利用強大的智能學(xué)習(xí)機制與高級分析可更加高效的完成對數(shù)據(jù)價值的“精煉萃取”,將大數(shù)據(jù)的潛在價值盡可能多的挖掘出來,科學(xué)應(yīng)用大數(shù)據(jù),以低成本來創(chuàng)造出高價值。

        ⑸Veracity:數(shù)據(jù)真實性高,由于大數(shù)據(jù)所包含的數(shù)據(jù)容量十分龐大,其可通過多個不同的維度來實現(xiàn)對數(shù)據(jù)的分析與處理,因此最終所提煉出的目標數(shù)據(jù)具有較高的真實性。

        2現(xiàn)狀及問題

        一般情況下,關(guān)鍵詞是在所表述文章當中對其核心內(nèi)容具有實質(zhì)性價值的一類詞匯,是為了實現(xiàn)對文章更加便捷的標引與檢索而從文章的題目、摘要,以及正文當中所精選出的詞匯或詞組。在本次研究中將關(guān)鍵詞的概念界定為可反映出互聯(lián)網(wǎng)網(wǎng)頁核心內(nèi)容的有關(guān)詞匯。對于關(guān)鍵詞的提取則主要是利用對核心詞匯的統(tǒng)計以及其語義內(nèi)涵的分析,進而由各個獨立的網(wǎng)頁亦或是網(wǎng)頁集當中挑選出合理的,可以將文章主旨思想精確表述的特征集選取過程。關(guān)鍵詞是表述網(wǎng)頁主旨內(nèi)涵最為基礎(chǔ)的一個單位,因此就通常在信息檢索、自主問答、內(nèi)容追蹤等相關(guān)信息處理領(lǐng)域內(nèi)均需進行關(guān)鍵詞的提取,并且對于關(guān)鍵詞的提取也將會對情報監(jiān)測與跟蹤產(chǎn)生出極其關(guān)鍵的線索價值,并使得情報工作的方向逐步變得確定。

        受到大數(shù)據(jù)本身特點的影響,采取傳統(tǒng)情報關(guān)鍵詞提取方法難免會出現(xiàn)一些問題情況,其中主要就包括了:(1)進行關(guān)鍵詞的提取往往都會帶有一定的目的性,因此數(shù)據(jù)本身的代表性便至關(guān)重要,若所提取的關(guān)鍵詞代表性不強,則很有可能導(dǎo)致最終的結(jié)論不夠客觀;(2)在關(guān)鍵詞提取時還必須充分考量到大數(shù)據(jù)相關(guān)性有可能會產(chǎn)生的誤差,切忌僅關(guān)注于表面,如某地區(qū)的網(wǎng)頁數(shù)據(jù)量十分龐大,這是否就代表了該地區(qū)的網(wǎng)絡(luò)形象較好?很顯然并不一定,也很有可能會存在著大量的負面信息,因此在進行關(guān)鍵詞的提取時還應(yīng)當就信息相關(guān)性予以充分考量;(3)在提取關(guān)鍵詞時還必須將信息當中所含括的個人隱私予以充分考量,在大數(shù)據(jù)當中所涵括的內(nèi)容十分復(fù)雜而且來源途徑眾多,其中必然會涉及到大量的個人隱私,因此在實施大數(shù)據(jù)關(guān)鍵詞提取時應(yīng)盡可能回避這一問題。

        3大數(shù)據(jù)時代情報關(guān)鍵詞提取方法及構(gòu)造

        3.1關(guān)鍵詞提取方法

        3.1.1基于語義方法

        基于詞典的輔助,利用句法和詞法來實施自動分詞與詞性標注,可促使計算機能夠更加全面的掌握各類信息片段、詞匯間的語義相關(guān)性,并進一步可借助于復(fù)雜計算來提取相應(yīng)關(guān)鍵詞。

        3.1.2基于統(tǒng)計方法

        利用詞語統(tǒng)計信息來進行關(guān)鍵詞的提取,其中應(yīng)用最普遍的方法是詞頻—逆向文本頻率指標以及N-gram方法,這一種類型的方法僅需對有關(guān)詞匯的應(yīng)用頻率及過濾技巧加以統(tǒng)計即可,但其缺點也較為明顯,即精度性相對較差。有研究人員就提出了一種經(jīng)改進處理的TFIDF網(wǎng)頁關(guān)鍵詞提取方法,其可實現(xiàn)與網(wǎng)頁內(nèi)容結(jié)構(gòu)與詞匯特征的綜合權(quán)衡,可建立起一個候選特征詞匯綜合評價公式來進行對關(guān)鍵詞的提取。

        3.1.3基于機器學(xué)習(xí)方法

        借助于針對大規(guī)模訓(xùn)練語句資料庫的訓(xùn)練,便可得到相關(guān)的系統(tǒng)參數(shù)與模型,而后再借助于模型來運用到測試語言資料庫當中并對關(guān)鍵詞的提取結(jié)果予以驗證。在訓(xùn)練集當中,可將關(guān)鍵詞的提取視作為是具備監(jiān)督作用的一種分類問題。一般可經(jīng)常應(yīng)用到的就包括了支持向量機、最大熵、決策樹等模型。

        3.1.4基于復(fù)雜網(wǎng)絡(luò)方法

        依據(jù)預(yù)備選取特征詞間的相關(guān)性,依據(jù)現(xiàn)有規(guī)則建立起一個復(fù)雜網(wǎng)絡(luò)亦或是加權(quán)復(fù)雜網(wǎng)絡(luò)模型,采用計算節(jié)點權(quán)重系統(tǒng)與介數(shù)來代表節(jié)點的綜合性價值,選取其中價值較大的即可確定為關(guān)鍵詞。這一方法通常所需要的計算量十分龐大,在應(yīng)對大規(guī)模的文檔信息或是網(wǎng)頁內(nèi)容時,此方法的缺陷便會暴露無遺。

        3.2關(guān)鍵詞提取方法構(gòu)造

        3.2.1中文詞語特征和自動分詞

        中文語句的構(gòu)成包括了單字與詞語,其語句的主干通常是由動詞、名詞、代詞、量詞、形容詞等具有實際意義的詞匯所組合而成,其中介詞、連詞與助詞等虛詞由于不具備實際意義,因此通常無法在語句中擔當主要構(gòu)成部分。因此在開展中文關(guān)鍵詞的提取工作時應(yīng)盡可能的把虛詞與單字排除在外。

        在英文語言體系下其各個詞匯間有著天然的分隔符,單字便可充當一項關(guān)鍵詞。而反觀中文詞匯的構(gòu)成基本不會少于兩個單字,而且語句是連續(xù)書寫,由此也就需要在進行文本自動分析前,首先把一整句語句分割為若干個小的詞匯單元,也就是中文分詞。這同時也是在進行自然語言處理時較為困難的一項內(nèi)容,當前相對較為成熟的分詞系統(tǒng)就包括了CRF中文分詞系統(tǒng)、ICTCLAS系統(tǒng)等。

        3.2.2詞語過濾

        在將虛詞完全過濾后,文本集內(nèi)仍然會存在有不少的噪聲詞。這一種類型的詞匯大都適合文本主題沒有密切相關(guān)性的詞匯,例如“人民”、“國家”、“西部網(wǎng)”等。通常情況下這一種類型的詞匯在文本當中會有較高的出現(xiàn)頻率,并且在文本集內(nèi)出現(xiàn)較高頻率的詞匯亦為噪聲詞。對此可采用詞頻與文本頻率乘積的離散系數(shù)方式來進行噪聲詞過濾。

        3.2.3詞共現(xiàn)概率分布及偏度

        伴隨著信息技術(shù)的快速化發(fā)展,詞共現(xiàn)分析的重要性也愈發(fā)突出,其含義為在某學(xué)科領(lǐng)域當中某兩個關(guān)鍵詞在同篇文獻當中所出現(xiàn)的頻率越高,即代表此兩個關(guān)鍵詞存在有特殊的內(nèi)在相關(guān)性。因而,便可利用建構(gòu)關(guān)鍵詞共現(xiàn)矩陣的以及應(yīng)用多元統(tǒng)計方法來實施期刊評價與學(xué)科結(jié)構(gòu)分析。

        在單一文本當中往往包括了多個語句,各語句間往往是利用句號、問號、感嘆號等加以區(qū)分。若兩詞匯在單個語句內(nèi)同時出現(xiàn),即認定其共現(xiàn)一次。應(yīng)用于對候選關(guān)鍵詞進行表示的集合,可表示出候選關(guān)鍵詞的數(shù)量,相應(yīng)的候選關(guān)鍵詞共現(xiàn)矩陣便可利用任意兩項候選關(guān)鍵詞于單個文本亦或是集合內(nèi)出現(xiàn)的頻次來充當元素構(gòu)成。

        4結(jié)語

        總而言之,隨著大數(shù)據(jù)時代的來臨,一方面大數(shù)據(jù)的出現(xiàn)與應(yīng)用可促使情報研究工作延伸至更為廣闊的范圍領(lǐng)域,應(yīng)用新的技術(shù)與方法,實現(xiàn)了對情報研究工作價值的重新定義;另一方面,大數(shù)據(jù)也促使社會各個行業(yè)都更加關(guān)注于情報研究工作。對此,本文就通過對大數(shù)據(jù)時代情報關(guān)鍵詞提取的現(xiàn)狀與問題分析,提出了一些大數(shù)據(jù)時代情報關(guān)鍵詞提取的方法與構(gòu)造,希望能夠為相關(guān)的研究人員提供一些參考。

        參考文獻:

        [1]劉志輝,鄭彥寧.基于作者關(guān)鍵詞耦合分析的研究專業(yè)識別方法研究[J].情報學(xué)報,2013,32(8).

        [2]劉自強,王效岳,白如江等.語義分類的學(xué)科主題演化分析方法研究——以我國圖書情報領(lǐng)域大數(shù)據(jù)研究為例[J].圖書情報工作,2016,(15).

        [3]李樹青,孫穎.基于加權(quán)關(guān)鍵詞共現(xiàn)時間元的個性化學(xué)術(shù)研究時序路徑發(fā)現(xiàn)及其可視化呈現(xiàn)方法[J].情報學(xué)報,2014,33(1).

        [4]翁勝斌.CNKI數(shù)據(jù)源的關(guān)鍵詞共現(xiàn)分析與多維尺度分析的現(xiàn)實方法[J].現(xiàn)代情報,2013,33(4).

        [5]陳衛(wèi)靜,鄭穎.基于作者關(guān)鍵詞耦合的潛在合作關(guān)系挖掘[J].情報雜志,2013,32(5).

        [6]楊建林.關(guān)鍵詞選擇策略及其對共詞分析的影響[J].情報學(xué)報,2014,(10).

        猜你喜歡
        詞匯特征文本
        本刊可直接用縮寫的常用詞匯
        一些常用詞匯可直接用縮寫
        如何表達“特征”
        在808DA上文本顯示的改善
        本刊可直接用縮寫的常用詞匯
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        如何快速走進文本
        語文知識(2014年1期)2014-02-28 21:59:13
        av一区二区不卡久久| 亚洲美女又黄又爽在线观看| 亚洲天堂在线播放| 白白青青视频在线免费观看| 韩国一区二区三区黄色录像| 国产黄大片在线观看画质优化| 亚洲 欧美精品suv| 蜜桃在线播放免费一区二区三区| 开心五月激动心情五月| 久久无码高潮喷水抽搐| 怡红院a∨人人爰人人爽| AV无码中文字幕不卡一二三区| 粉嫩的18在线观看极品精品| 青青草成人在线免费视频| 日本免费a级毛一片| 国产精品三级一区二区按摩| 国产一级黄片久久免费看| 白白白在线视频免费播放| 在线精品国产一区二区三区| 四虎精品国产一区二区三区| h视频在线观看视频在线| 久久久久久久亚洲av无码| 日韩乱码人妻无码中文字幕视频| 99久久99久久精品免观看| 国产高潮迭起久久av| 亚洲精品www久久久久久| 国产欧美日产久久| 久久色悠悠亚洲综合网| 亚洲国产中文字幕视频| 国产精品久久久久影院嫩草| 精品免费一区二区三区在| 亚洲av综合日韩精品久久| 亚洲精品少妇30p| 亚洲人成影院在线无码观看| 精品国产一区二区三区毛片| 久久亚洲精品中文字幕| 久久久精品人妻一区二区三区| 尤物蜜芽福利国产污在线观看 | 亚洲一区二区三区视频免费看| 亚洲一区二区三区av无码| 伊人22综合|