亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        輿情分析中自然語言處理的研究

        2020-12-15 06:53:14杜芳
        商情 2020年47期
        關(guān)鍵詞:自然語言處理

        杜芳

        【摘要】輿情來源于網(wǎng)頁內(nèi)容,對網(wǎng)頁內(nèi)容的理解程度,即對自然語言處理的能力,在一定程度上決定了對網(wǎng)絡(luò)軍事輿情分析的準(zhǔn)確性及有效性。自然語言處理屬于文本挖掘領(lǐng)域,隨著人工智能的發(fā)展,自然語言處理成為人工智能與語言學(xué)領(lǐng)域的交叉學(xué)科,對該學(xué)科的研究有著重要的現(xiàn)實(shí)意義,包括文本分類、信息檢索、智能摘要、機(jī)器翻譯等行業(yè),因此,大量的專家和學(xué)者均對該課題進(jìn)行了深入的探索。

        【關(guān)鍵詞】自然語言處理;中文分詞;詞向量

        自然語言處理通常包括了詞向量,文本向量,文本壓縮,模型預(yù)測四個(gè)方面。對自然語言進(jìn)行處理,第一步是對文本進(jìn)行詞向量,詞向量算法中,不僅要考慮詞本身的準(zhǔn)確識別,同時(shí)還應(yīng)考慮語義距離,使得對單詞的識別能夠結(jié)合上下文語義。第二步是文本向量,大多數(shù)自然語言處理問題面對的不是單個(gè)詞語,而是通篇的文章,根據(jù)詞向量的結(jié)果,將整個(gè)文章編碼為矩陣模型。第三步文本壓縮,也稱為注意力機(jī)制,將文本向量矩陣壓縮為向量表示,即對高緯度信息進(jìn)行降維。第四步為模型預(yù)測,將壓縮好的文本向量輸入預(yù)測模型中,輸出相應(yīng)的預(yù)測標(biāo)簽。

        一、中文分詞

        在自然語言處理,尤其是對輿情信息進(jìn)行分析前,需要對大量的文本信息進(jìn)行處理,文本信息主要是抽象的非結(jié)構(gòu)化信息,對于人類來說非常容易理解,但是對于機(jī)器而言,很難結(jié)合句子上下文,對整個(gè)文本的意見進(jìn)行識別,挖掘文本中的話題、事件及情感傾向。

        (1)中文分詞

        中文分詞的主要難點(diǎn)包括歧義消除和未錄入詞語,分詞歧義的產(chǎn)生主要是由于分詞粒度難以標(biāo)準(zhǔn)化產(chǎn)生的,具體的包括詞語組合產(chǎn)生的歧義,單詞共用產(chǎn)生的歧義。如對于“軍事網(wǎng)絡(luò)輿情”為例,粗粒度的劃分可以直接識別出這個(gè)詞語是“軍事網(wǎng)絡(luò)輿情”,細(xì)粒度劃分可以識別為“軍事”,“網(wǎng)絡(luò)”,“輿情”三個(gè)詞。中文分詞在搜索引擎中屬于很重要的一個(gè)科學(xué)分支,通常的做法是,為保證搜索的召回率,在構(gòu)建索引時(shí)使用細(xì)粒度分詞,為保證精度,在查詢的時(shí)候使用粗粒度分詞。

        分詞算法主要包括基于詞典的分詞和基于機(jī)器學(xué)習(xí)的分詞,基于詞典的使用了傳統(tǒng)的基于字符串匹配的方法,以預(yù)先寫好的正則表達(dá)式作為策略,將待分詞的文本信息與一個(gè)類似詞典的知識庫進(jìn)行匹配,若詞典中包含了該詞條,則識別為匹配,由于漢字固有特性,通常出現(xiàn)一個(gè)單詞屬于詞典中多個(gè)單詞的子集,出現(xiàn)一對多的關(guān)系,造成歧義,因此需要制定相關(guān)的匹配粒度,常使用的包括正向最大匹配法,在一些文章中也稱之為最長詞有限匹配法,雙向匹配法等。隨著機(jī)器學(xué)習(xí)和人工智能的興起,單純的使用正則匹配策略無法達(dá)到分詞應(yīng)有的準(zhǔn)確率和召回率?,F(xiàn)階段,通常使用機(jī)器學(xué)習(xí)與詞典算法相結(jié)合的方式,在保證精確度的前提下,提升領(lǐng)域適應(yīng)性。

        二、詞向量

        語言作為人類進(jìn)化過程中總結(jié)、傳承知識的載體,具有極高的抽象性,僅根據(jù)字面意義,機(jī)器幾乎無法判定兩個(gè)詞語之間的關(guān)系,因此,如何對文本數(shù)據(jù)進(jìn)行合理的劃分,即特征工程,使得文本數(shù)據(jù)能夠被神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)模型使用,變得尤為重要,常見的詞向量模型包括獨(dú)熱表示和分布式表示。

        單詞的獨(dú)熱表示,是根據(jù)其英文含義one-hot representation翻譯而來的,獨(dú)熱表示在處理結(jié)構(gòu)化數(shù)據(jù)的過程中表現(xiàn)了優(yōu)異的性能,將數(shù)據(jù)進(jìn)行符號化,在用戶推薦等領(lǐng)域占到了主導(dǎo)的地位[29]。設(shè)機(jī)器學(xué)習(xí)模型所有的輸入集合為N,定義一個(gè)列向量,V=[P1,P2,P3,……,PN],其維度為N,且每個(gè)維度上的取值僅有0和1兩種選項(xiàng),每個(gè)位置均描述了輸入的一種可能條件是否存在,如果存在,則置1,如果不存在,則為0,因此,為了描述單個(gè)節(jié)點(diǎn)的輸入內(nèi)容,任何時(shí)刻,一個(gè)列向量中只可能有一位為1。以“機(jī)器學(xué)習(xí)”,“軍事”,“網(wǎng)絡(luò)”,“輿情”,“分析”這五個(gè)詞為例,其輸入集合N=5,則器編碼為:“分析”:[0,0,0,0,1]

        當(dāng)輸入情況較多時(shí),為了避免向量維度過高產(chǎn)生的不必要運(yùn)算,使用Hash表為每個(gè)單詞分配編號。這種表示方法在進(jìn)行一般的二分類或多分類的過程中,極大地解決了計(jì)算機(jī)語言與實(shí)際情況之間的映射問題,如MINIST數(shù)據(jù)集中,對于手寫數(shù)字的識別只可能為0到9中的一個(gè),共計(jì)10中可能,使用獨(dú)熱編碼完全可以滿足要求,而面對文本識別的問題時(shí),文本中的單詞量非常大,以在“中華軍事網(wǎng)”2018年3月1日發(fā)布的文章“中國空軍發(fā)布?xì)?16宣傳片,飛行畫面披露”為例,其中共有498個(gè)字,使用中科院計(jì)算所的NLPIR的分詞器得到了共計(jì)169個(gè)單詞,為了能夠描述這篇短文,需要構(gòu)建169維的列向量對每個(gè)單詞進(jìn)行表示,隨著文章的篇幅不斷增加,這個(gè)數(shù)字會(huì)不斷擴(kuò)充,最終由于維度過大導(dǎo)致計(jì)算量過載。在自然語言處理方面,獨(dú)熱編碼的缺點(diǎn)主要包括:一是使用獨(dú)熱編碼表示自然語言維度過大,難以計(jì)算;二是任意詞語之間是孤立的,無法結(jié)合上下文對語義進(jìn)行分析,即無法解決詞匯鴻溝問題。

        通過分析獨(dú)熱編碼的缺點(diǎn),明確了在對自然語言進(jìn)行處理時(shí),單詞向量化的目標(biāo)包括緯度不能過大,否則會(huì)出現(xiàn)計(jì)算過載的問題,同時(shí),需要不僅要刻畫目標(biāo)詞本身的含義,還需要刻畫其上下文的關(guān)系。根據(jù)Harris與1954年提出的分布假設(shè),表明單個(gè)單詞的語義需要由其上下文決定。其核心思想為:通過對語言進(jìn)行訓(xùn)練,得出每個(gè)詞的低緯向量表示,通常維度為50到100之間,這里所談及的低緯度是相對于獨(dú)熱編碼動(dòng)輒成百上千維度而言的,可以得到一個(gè)向量空間,該語言所有的詞語都可以在向量空間中進(jìn)行定位,通過訓(xùn)練,可以得到空間點(diǎn)的距離,在對語義進(jìn)行相似度判定是,可以引入空間距離,很好的結(jié)合了上下文。將單詞映射到三維空間中,基于對已經(jīng)人工標(biāo)記文章的訓(xùn)練,可以通過模型將所有單詞均映射在同一個(gè)三維空間中,亦可以得到其距離。根據(jù)建模方式的不同,將分布式表示分為基于矩陣的分布式表示、基于聚類的分布式表示和基于神經(jīng)網(wǎng)絡(luò)的分布式表示。

        綜上,詞向量在自然語言處理中扮演著重要的角色,使用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等模型能夠有效地對單詞進(jìn)行分詞和向量化,為下一步的文本分析和話題識別提供適用于模型的優(yōu)質(zhì)數(shù)據(jù)。

        參考文獻(xiàn):

        [1]朱丹浩,楊蕾,王東波.基于深度學(xué)習(xí)的中文機(jī)構(gòu)名識別研究一種漢字級別的循環(huán)神經(jīng)網(wǎng)絡(luò)方法[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,32(12):36-43.

        [2]牛耘,潘明慧,魏歐,等.基于詞典的中文微博情緒識別[J].計(jì)算機(jī)科學(xué),2014,41(9):253-258.

        猜你喜歡
        自然語言處理
        基于LSTM自動(dòng)編碼機(jī)的短文本聚類方法
        自然語言處理與司法案例
        魅力中國(2017年24期)2017-09-15 04:35:10
        國外基于知識庫的問答系統(tǒng)相關(guān)研究進(jìn)展及其啟示
        中國市場(2016年39期)2017-05-26 17:55:58
        基于依存句法的實(shí)體關(guān)系抽取
        基于組合分類算法的源代碼注釋質(zhì)量評估方法
        面向機(jī)器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
        詞向量的語義學(xué)規(guī)范化
        漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
        HowNet在自然語言處理領(lǐng)域的研究現(xiàn)狀與分析
        科技視界(2016年5期)2016-02-22 11:41:39
        基于.NET的維哈柯多語種網(wǎng)上數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
        亚洲欧美日韩国产一区二区精品 | 亚洲精品一区二区三区av| 与最丰满美女老师爱爱视频| 无码aⅴ精品一区二区三区浪潮| 国产亚洲日韩在线三区| 国产在线精品福利大全| 国产三级视频在线观看国产| 国产在线无码精品无码| 亚洲aⅴ在线无码播放毛片一线天| 国产精品九九九无码喷水| av有码在线一区二区| 草逼动态图视频免费观看网站| 麻豆精品国产精华精华液好用吗 | 无码aⅴ精品一区二区三区浪潮| 永久免费不卡在线观看黄网站| 国产高清一级毛片在线看| 国产毛片精品av一区二区| 无码人妻h动漫中文字幕| 99久久国产综合精品麻豆| 欧美zozo另类人禽交| 精品国产免费一区二区久久| 无码专区亚洲综合另类| 日韩av高清无码| 欧美成人a视频免费专区| 放荡成熟人妻中文字幕| 欧美人伦禁忌dvd放荡欲情| 奇米狠狠色| 成人一区二区三区蜜桃| 久久天天躁狠狠躁夜夜av浪潮| 亚洲欧美在线观看| 2020亚洲国产| 日本本土精品午夜视频| 免费网站看av片| 亚洲免费不卡| 亚洲国产精品一区二区| 77777_亚洲午夜久久多人| 日日摸夜夜添狠狠添欧美| 免费观看成人稀缺视频在线播放| 日本最新一区二区三区视频观看| 国产97在线 | 免费| 亚洲色四在线视频观看|