亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        企業(yè)互聯(lián)網(wǎng)負(fù)面信息分析與去噪

        2018-02-01 07:05:54蔣鳴珂曾偉紅
        科技與創(chuàng)新 2018年3期
        關(guān)鍵詞:語(yǔ)義文本情感

        蔣鳴珂,曾偉紅

        (湘潭大學(xué) 信息工程學(xué)院,湖南 湘潭 411105)

        1 概述

        隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,人們能夠在互聯(lián)網(wǎng)中找到各種有用的信息,特別是近年來(lái)大數(shù)據(jù)技術(shù)的迅速發(fā)展,社會(huì)已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代。在現(xiàn)代社會(huì),企業(yè)的負(fù)面信息對(duì)于我們來(lái)說(shuō)是非常重要的,銀行放貸時(shí)需要確定該企業(yè)是否有負(fù)面信息,以此判斷該企業(yè)是否有能力還貸然后再發(fā)放貸款,而我們?cè)趯ふ液献骰锇闀r(shí)也需要這些信息來(lái)幫助我們做個(gè)判斷。企業(yè)在互聯(lián)網(wǎng)中的負(fù)面信息可以通過(guò)爬蟲(chóng)來(lái)獲取,但是,有時(shí)通過(guò)爬蟲(chóng)獲取的數(shù)據(jù)并不能直接被判斷為是負(fù)面信息,所以,我們需要對(duì)爬蟲(chóng)獲取的初步數(shù)據(jù)進(jìn)行進(jìn)一步的分析和去噪,從而精確獲取企業(yè)負(fù)面信息。獲取精確的企業(yè)負(fù)面信息能夠便于銀行和某些特定用戶(hù)直觀地看到企業(yè)狀況,從而做出相應(yīng)的決定。

        2 相關(guān)工作

        文本作為一種重要的信息表達(dá)方式,如何分辨一段文本是否是負(fù)面信息呢?我們需要對(duì)其進(jìn)行情感分析,研究文本語(yǔ)義和情感傾向。

        對(duì)于一段文本來(lái)說(shuō),能夠表達(dá)其情感傾向的主要是構(gòu)成文本的詞語(yǔ)。所以,判斷一段文本是否為負(fù)面信息,主要是判斷其中某些關(guān)鍵字的語(yǔ)義傾向。張錦明提出了一種基于詞匯的語(yǔ)義傾向向量空間模型表示算法(SOVR算法),它結(jié)合了語(yǔ)法、語(yǔ)義、語(yǔ)用,將統(tǒng)計(jì)測(cè)度方法與機(jī)器學(xué)習(xí)方法結(jié)合起來(lái),大大提升了判斷性能。但是,這種方法還存在側(cè)重統(tǒng)計(jì)方法、規(guī)則利用較為單一、對(duì)特定領(lǐng)域依賴(lài)較大等問(wèn)題。以單詞為基礎(chǔ)的語(yǔ)義傾向研究是對(duì)文章語(yǔ)義傾向研究的基礎(chǔ)。Vasileios Hatzivassiloglou和Kathleen R.McKeown依賴(lài)于文本語(yǔ)料庫(kù)對(duì)形容詞語(yǔ)義進(jìn)行分析,他們發(fā)現(xiàn),形容詞語(yǔ)義會(huì)受到連接詞的影響,所以,可分析連接詞前后2個(gè)形容詞來(lái)判斷其是否有相同或者不同的取向。文中提出一種四步走的方法來(lái)有效判別一個(gè)形容詞的語(yǔ)義傾向。Peter D.Turney運(yùn)用統(tǒng)計(jì)方法,使用點(diǎn)互信息(PMI)和潛在語(yǔ)義分析(LSA)對(duì)正面和負(fù)面樣例詞匯進(jìn)行語(yǔ)義傾向分析,從而提高各類(lèi)詞統(tǒng)計(jì)的準(zhǔn)確率。

        機(jī)器學(xué)習(xí)方法在情感分類(lèi)中發(fā)揮著非常重要的作用。Bo Pang和Lillian Lee使用機(jī)器學(xué)習(xí)解決文本情感分類(lèi),利用樸素貝葉斯、最大熵分類(lèi)器和SVM這3種方法分析電影評(píng)論數(shù)據(jù)。經(jīng)過(guò)實(shí)驗(yàn)對(duì)比,在對(duì)相同數(shù)據(jù)進(jìn)行文本語(yǔ)義傾向分析時(shí),在這3種方法中,樸素貝葉斯效果相對(duì)比較差,而SVM的效果相對(duì)比較好。情感傾向研究在互聯(lián)網(wǎng)中被廣泛應(yīng)用。楊歡在其文章中闡述將文本分類(lèi)用于微博中情感傾向的研究,解決了以往檢索和采集以關(guān)鍵字為基礎(chǔ)難以支持情感傾向挖掘的問(wèn)題。同時(shí),他還提出了一種基于主題情感相關(guān)的改進(jìn)k最近鄰算法,這種方法能夠?qū)η楦羞M(jìn)行正面、負(fù)面和中性的分類(lèi),在處理微博熱門(mén)中文主題情感時(shí)有一定的可行性。從目前情況來(lái)看,這個(gè)領(lǐng)域還沒(méi)有一個(gè)完整的語(yǔ)料庫(kù)。因此,楊江等人提出建設(shè)漢語(yǔ)語(yǔ)義傾向語(yǔ)料庫(kù),以語(yǔ)言主觀性多維度描述體系為指導(dǎo)理論,將類(lèi)別、程度、形式、成分、關(guān)聯(lián)和模式6個(gè)維度構(gòu)成一個(gè)體系,每個(gè)維度表示一種屬性,從而構(gòu)建一個(gè)具有檢索統(tǒng)計(jì)、結(jié)果檢查、可視化等特點(diǎn)的語(yǔ)料庫(kù)工具箱系統(tǒng),這對(duì)于人們理解語(yǔ)言主觀性有一定的幫助。朱嫣嵐、閔錦等人基于HowNet提出語(yǔ)義相似度和基于語(yǔ)義相關(guān)場(chǎng)的2種語(yǔ)義傾向計(jì)算方法,通過(guò)選擇褒貶基準(zhǔn)詞,計(jì)算被測(cè)試詞與基準(zhǔn)詞之間的語(yǔ)義緊密程度,從而得到這個(gè)詞的語(yǔ)義傾向值。這種方法在漢語(yǔ)常用詞中效果比較好,具有一定的實(shí)用價(jià)值。

        3 數(shù)據(jù)描述與分析

        基于百度搜索使用爬蟲(chóng)來(lái)獲取所需要的數(shù)據(jù),使用“公司全稱(chēng)或者簡(jiǎn)稱(chēng)+負(fù)面詞”的方式搜索,使用420個(gè)負(fù)面詞循環(huán)抓取百度搜索結(jié)果前10頁(yè)的數(shù)據(jù),最終獲取了10萬(wàn)多條數(shù)據(jù)并對(duì)其進(jìn)行分析。

        3.1 數(shù)據(jù)處理流程

        對(duì)于獲取到的數(shù)據(jù),具體處理流程是:①判斷是否有簡(jiǎn)稱(chēng)或全稱(chēng)+負(fù)面詞。②識(shí)別內(nèi)容中的實(shí)體,判斷公司名稱(chēng)是否為全稱(chēng)。例如搜索的簡(jiǎn)稱(chēng)是“國(guó)基建設(shè)”,全稱(chēng)是“湖北國(guó)基建設(shè)”,結(jié)果內(nèi)容中實(shí)體卻是“湖南國(guó)基建設(shè)”,則這個(gè)結(jié)果不符合,就要去除。③對(duì)包含負(fù)面詞的句子調(diào)用HanLP進(jìn)行依存句法分析,進(jìn)一步解析,判斷其是否為負(fù)面信息。爬蟲(chóng)獲取的整個(gè)網(wǎng)頁(yè)的原始數(shù)據(jù)被存放在一個(gè)json中,在處理數(shù)據(jù)時(shí),會(huì)先從這段文本中找出負(fù)面關(guān)鍵字所在的句子,將其提取出來(lái),然后調(diào)用HanLP對(duì)其進(jìn)行依存句法解析,并根據(jù)解析結(jié)果得到依存句法樹(shù)。數(shù)據(jù)處理流程如圖1所示。

        圖1 數(shù)據(jù)處理流程圖

        3.2 依存句法分析

        依存句法用來(lái)描述詞語(yǔ)之間的依存關(guān)系,即用來(lái)表示詞語(yǔ)之間句法上的搭配關(guān)系,這種關(guān)系與語(yǔ)義相關(guān)。在依存句法樹(shù)中,輸入的句子從普通排列模式變成樹(shù)狀結(jié)構(gòu),可以更加直觀地發(fā)現(xiàn)句子內(nèi)部詞語(yǔ)之間的遠(yuǎn)距離搭配或者修飾關(guān)系。中文文本詞性標(biāo)注情況如表1所示。

        經(jīng)過(guò)依存句法分析后,生成的依存句法樹(shù)如圖2所示。

        表1 中文文本詞性標(biāo)注

        圖2 生成依存句法樹(shù)的結(jié)果

        通過(guò)依存句法樹(shù)我們可以清楚看到,負(fù)面詞“涉案”的主語(yǔ)是“員工”,員工一共3名,而員工是“中聯(lián)重科”的員工,所以,該語(yǔ)句可以判斷為是中聯(lián)重科的負(fù)面信息。

        4 負(fù)面信息噪聲產(chǎn)生因素分析

        在本節(jié)中,對(duì)比、分析獲取到的10萬(wàn)多條數(shù)據(jù),最終得到了若干可能會(huì)造成負(fù)面信息噪聲的因素,并將其歸納為以下幾點(diǎn)。

        4.1 負(fù)面詞否定

        在眾多影響負(fù)面信息去噪的因素中,負(fù)面詞否定可以說(shuō)是一種比較直接的影響因素,因?yàn)榉穸ㄐ揎椩~往往直接作用于負(fù)面詞。在此次實(shí)驗(yàn)中,共獲取該類(lèi)語(yǔ)句8 812條,占總數(shù)據(jù)的8.5%.例如,“從根本上控制污染”中,“污染”是負(fù)面詞,但是“控制”修飾“污染”構(gòu)成動(dòng)賓關(guān)系,“控制污染”并不是負(fù)面詞,所以,該語(yǔ)句不能被列為負(fù)面信息;“并不會(huì)夸張到有95%的創(chuàng)業(yè)公司倒閉”中,“倒閉”是負(fù)面詞,但是,“夸張”和“有”為并列關(guān)系,而“有”修飾“倒閉”,所以,該語(yǔ)句也不能被列為負(fù)面信息;“在沖擊下堅(jiān)挺危機(jī)逆襲”中,“危機(jī)”是負(fù)面詞,但是,“逆襲”作為定語(yǔ)修飾“危機(jī)”,“危機(jī)逆襲”不能表達(dá)出負(fù)面信息,所以,該語(yǔ)句不是負(fù)面信息。

        4.2 有負(fù)面詞但不是負(fù)面信息

        在眾多噪聲因素中,有很多語(yǔ)句包含負(fù)面詞但不是負(fù)面信息這個(gè)問(wèn)題比較普遍。在本次實(shí)驗(yàn)中,共獲取該類(lèi)語(yǔ)句17 353條,占總數(shù)據(jù)的16.7%.該問(wèn)題的出現(xiàn)大致可以分為以下幾種情況:①負(fù)面詞可能夾雜在某個(gè)專(zhuān)有名詞中出現(xiàn),即負(fù)面詞只是作為某個(gè)名詞中的部分出現(xiàn)。例如,“暫停業(yè)務(wù)”中的“停業(yè)”,“遇難題”中的“遇難”,都是負(fù)面詞作為部分出現(xiàn),而“青山寨特產(chǎn)店”中的“山寨”也是作為店鋪名字中部分出現(xiàn),它們都不屬于負(fù)面信息。②有負(fù)面詞但是并不能體現(xiàn)負(fù)面意思。例如,“曝光”“借款”等負(fù)面詞所表示的內(nèi)容可能并不是負(fù)面的,需要對(duì)其作進(jìn)一步的判斷。③負(fù)面詞可能是某一個(gè)產(chǎn)品介紹中的詞語(yǔ)。例如,“出現(xiàn)交通事故,車(chē)子會(huì)馬上報(bào)警”中的“事故”,“意外傷害保險(xiǎn)”中的“傷害”,“舉報(bào)受理方式”中的“舉報(bào)”,這些雖然都是負(fù)面詞,但具體內(nèi)容均為產(chǎn)品或業(yè)務(wù)介紹,并不屬于負(fù)面信息。④負(fù)面詞體現(xiàn)出正面意思或者是欲揚(yáng)先抑。例如,“正是這樣的困境,構(gòu)成了創(chuàng)新工場(chǎng)人工智能工程院建設(shè)的初衷”中的“困境”,“有很多珠寶企業(yè)資金鏈出現(xiàn)了危機(jī),而該公司卻逆市而上”中的“危機(jī)”均為負(fù)面詞,但卻體現(xiàn)出了目標(biāo)公司的正面形象,不屬于負(fù)面信息。

        4.3 負(fù)面詞主語(yǔ)問(wèn)題

        負(fù)面詞主語(yǔ)問(wèn)題在噪聲中也算是一個(gè)重要問(wèn)題。在本次實(shí)驗(yàn)中,共獲取該類(lèi)語(yǔ)句28 655條,占總數(shù)據(jù)的27.5%.經(jīng)過(guò)研究,可以將該問(wèn)題劃分成以下3類(lèi):①語(yǔ)句中表達(dá)的公司不是目標(biāo)公司,或者是目標(biāo)公司去舉報(bào)別的公司。例如,“OKAI公司侵犯了合肥華泰集團(tuán)的商標(biāo)權(quán)”中的目標(biāo)公司為“合肥華泰集團(tuán)”,負(fù)面詞為“侵犯”,“在梯子網(wǎng)倒閉的同時(shí),在線教育行業(yè)遭遇質(zhì)問(wèn)關(guān)鍵節(jié)點(diǎn),績(jī)優(yōu)堂還能受到如此熱捧”中目標(biāo)公司是“績(jī)優(yōu)堂”,負(fù)面詞是“倒閉”。這兩句話都可被認(rèn)定為噪聲,因?yàn)樨?fù)面詞所說(shuō)的公司并不是目標(biāo)公司。②語(yǔ)句中負(fù)面詞的主語(yǔ)不是公司。例如,“有4家規(guī)模較小的企業(yè)出現(xiàn)了大幅虧損”中負(fù)面詞“虧損”,“曾伙同他人在梅縣維也納酒店內(nèi)故意損害酒店財(cái)物,涉案金額總計(jì)8 850元”中“損害”“涉案”為負(fù)面詞。雖然此類(lèi)例子中有負(fù)面詞,但是,負(fù)面詞的主語(yǔ)與公司無(wú)關(guān),所以也是噪聲。③負(fù)面詞反映了一個(gè)行業(yè)的問(wèn)題。例如,“寶怡珠寶這種穩(wěn)扎穩(wěn)打、有實(shí)力、有準(zhǔn)備的珠寶企業(yè),更容易在危機(jī)中找到進(jìn)一步發(fā)展的機(jī)遇”中“危機(jī)”為負(fù)面詞,但是,該語(yǔ)句說(shuō)明的是珠寶行業(yè)的問(wèn)題,與目標(biāo)公司無(wú)關(guān),屬于噪聲。

        4.4 簡(jiǎn)稱(chēng)問(wèn)題

        在搜索階段使用公司簡(jiǎn)稱(chēng)搜索可能會(huì)獲得更多的相關(guān)信息,但是,這么搜索在獲得更多信息的同時(shí)也會(huì)出現(xiàn)很多噪聲信息。在本次實(shí)驗(yàn)中,通過(guò)簡(jiǎn)稱(chēng)搜索到數(shù)據(jù)36 331條,其中,存在噪聲問(wèn)題的數(shù)據(jù)有14 323條,占搜索到的額外數(shù)據(jù)的39.4%,占總數(shù)據(jù)的13.8%.出現(xiàn)簡(jiǎn)稱(chēng)問(wèn)題的原因也有幾種,例如目標(biāo)搜索公司可能有很多分公司,或者有名字相近的公司,但是,使用公司簡(jiǎn)稱(chēng)搜索后可能會(huì)搜到很多分公司信息,或者搜索到了別的公司,而這些信息并不屬于你的目標(biāo)公司,屬于噪聲;又或者搜索到的內(nèi)容中的簡(jiǎn)稱(chēng)關(guān)鍵字可能只是一句話中的某些詞語(yǔ),對(duì)于公司來(lái)說(shuō)并沒(méi)有什么意義,也可列為噪聲。

        4.5 負(fù)面詞庫(kù)設(shè)置

        負(fù)面詞庫(kù)中負(fù)面詞的設(shè)置不僅決定著爬蟲(chóng)抓取信息量,還在負(fù)面信息噪聲判斷方面發(fā)揮著重要作用。增加負(fù)面詞庫(kù)中的負(fù)面詞數(shù)量,可以使爬蟲(chóng)在抓取信息過(guò)程中獲得更多負(fù)面信息,但是,在去噪過(guò)程中,會(huì)發(fā)現(xiàn)有部分負(fù)面詞在大多數(shù)語(yǔ)句中并不能表現(xiàn)為負(fù)面信息,此時(shí)就要?jiǎng)h減負(fù)面詞庫(kù)來(lái)提升去噪效果。

        4.6 句式

        在爬蟲(chóng)獲取的大量語(yǔ)句中,除了有以上幾種問(wèn)題外,還有小部分包含負(fù)面詞的語(yǔ)句可能是疑問(wèn)句或者是假設(shè)句,等等,這類(lèi)句子也需要對(duì)其進(jìn)行二次判斷才能確定是否為噪聲。例如,“如果發(fā)現(xiàn)有拖欠農(nóng)民工工資等違法違規(guī)行為”是假設(shè)句,“是否會(huì)產(chǎn)生此類(lèi)危害”是疑問(wèn)句,但是這都不能直接將其語(yǔ)句列為負(fù)面語(yǔ)句,需要再次判斷。

        4.7 數(shù)據(jù)總體分析

        獲取數(shù)據(jù)分布情況如圖3和圖4所示,可以看出,主語(yǔ)問(wèn)題在噪聲中占有較大的比例,有負(fù)面詞但不是負(fù)面信息和簡(jiǎn)稱(chēng)問(wèn)題隨后,占比最小的是負(fù)面詞否定問(wèn)題。

        圖3 數(shù)據(jù)分布柱狀圖

        圖4 數(shù)據(jù)分布餅圖

        5 總結(jié)與展望

        本文主要考察了爬蟲(chóng)獲取的初步文本中噪聲產(chǎn)生的因素,并且分析了判斷一個(gè)語(yǔ)句是否為負(fù)面信息時(shí)噪聲造成的影響。使用HanLP對(duì)語(yǔ)句進(jìn)行依存句法分析,得到依存句法樹(shù),然后對(duì)其進(jìn)行解析,能夠有效判斷一個(gè)語(yǔ)句是否為負(fù)面信息。

        然而本文還有一些地方需要改進(jìn),例如,可能還有其他噪聲因素等待我們?nèi)グl(fā)現(xiàn),需要進(jìn)一步獲取更多數(shù)據(jù)來(lái)分析實(shí)驗(yàn)。此外,是否還有其他方法可以用來(lái)判斷一個(gè)語(yǔ)句是否為負(fù)面信息還需要我們進(jìn)一步探索,如果有的話,對(duì)比現(xiàn)有方法,其在效率、復(fù)雜度上是否更有優(yōu)勢(shì)等。

        [1]張錦明.中文語(yǔ)義傾向識(shí)別的關(guān)鍵算法研究[D].北京:北京郵電大學(xué),2008.

        [2]Vasileios Hatzivassiloglou,Kathleen R.McKeown.Predicting the Semantic Orientation ofAdjectives[C]//In:Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and the 8th Conference of the European Chapter of the ACL,1997:174-181.

        [3]Peter D.Turney,Michael L.Littman.Measuring Praise and Criticism:Inference of Semantic Orientation from Association[J].ACM Transactions on Information Systems,2003,21(4):315-346.

        [4]Bo Pang,Lillian Lee,Shivakumar Vaithyanathan.Thumbs up Sentiment Classification Using Machine Learning Techniques[C]//In:Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing,2002:79-86.

        [5]楊歡.基于文本分類(lèi)的微博情感傾向研究[D].重慶:重慶師范大學(xué),2016.

        [6]楊江,李薇,彭石玉.漢語(yǔ)語(yǔ)義傾向語(yǔ)料庫(kù)的建設(shè)[J].中文信息學(xué)報(bào),2014,28(05):74-82.

        [7]朱嫣嵐,閔錦,周雅倩,等.基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J].中文信息學(xué)報(bào),2006(01):14-20.

        [8]徐軍,丁宇新,王曉龍.使用機(jī)器學(xué)習(xí)方法進(jìn)行新聞的情感自動(dòng)分類(lèi)[J].中文信息學(xué)報(bào),2007(06):95-100.

        [9]馬妍.商品評(píng)論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京交通大學(xué),2015.

        [10]宋光鵬.文本的情感傾向分析研究[D].北京:北京郵電大學(xué),2008.

        [11]馬那那.面向產(chǎn)品評(píng)論的情感文本分類(lèi)研究[D].合肥:安徽大學(xué),2017.

        [12]李鈍,喬保軍,曹元大,等.基于語(yǔ)義分析的詞匯傾向識(shí)別研究[J].模式識(shí)別與人工智能,2008,21(04):482-487.

        [13]李正華.漢語(yǔ)依存句法分析關(guān)鍵技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2013.

        猜你喜歡
        語(yǔ)義文本情感
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        語(yǔ)言與語(yǔ)義
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        認(rèn)知范疇模糊與語(yǔ)義模糊
        亚洲国产成人久久综合一区77| 国产成人精品久久二区二区91| 粉嫩的极品女神尤物在线| 日韩极品视频免费观看| 人成午夜大片免费视频77777 | 玩中年熟妇让你爽视频| 午夜精品久久久久成人| 色偷偷88888欧美精品久久久| 91精品全国免费观看青青| 综合久久久久6亚洲综合| 国产激情久久久久久熟女老人| 亚洲国产黄色在线观看| 青青草中文字幕在线播放| 亚洲图片自拍偷图区| 草草浮力影院| 99国产精品视频无码免费| 热re99久久精品国产66热6| 亚洲成生人免费av毛片| av在线免费观看男人天堂| 国产在线无码精品无码| 无人高清电视剧在线观看 | 97久久草草超级碰碰碰| 国产av一区二区精品久久凹凸| 欧美性猛交xxxx乱大交蜜桃| 2021年性爱喷水视频| 在线观看高清视频一区二区三区| 日本一区二区不卡精品| 久久亚洲色一区二区三区| 毛片大全真人在线| 久久精品亚洲中文无东京热| 日本道免费一区日韩精品| 男女搞事在线观看视频| 欧美国产亚洲日韩在线二区| 强行无套内谢大学生初次| 国产天堂在线观看| 精品人妻一区二区三区蜜臀在线| 六月婷婷亚洲性色av蜜桃| 亚洲精品国产精品国自产| 亚洲精品综合一区二区三| 91视频爱爱| 九一精品少妇一区二区三区|