亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

大數(shù)據(jù)語義分析關(guān)鍵技術(shù)綜述

2018-12-21 09:49:59李博

現(xiàn)代計算機 2018年8期

李博

（四川大學(xué)視覺合成圖形圖像技術(shù)國防重點學(xué)科實驗室，成都 610065)

0 引言

隨著網(wǎng)絡(luò)社會的迅猛發(fā)展，以微博和微信為代表的在線網(wǎng)絡(luò)社會已經(jīng)成為互聯(lián)網(wǎng)的新業(yè)態(tài)，為物理社會的計算與分析提供了極佳的大數(shù)據(jù)平臺。在大數(shù)據(jù)新型社會媒體環(huán)境下，人們在網(wǎng)絡(luò)分享各種信息，發(fā)表自己的觀點，面對規(guī)模巨量、來源龐雜的信息，大數(shù)據(jù)語義分析與情感量化分析面臨如下挑戰(zhàn)：

（1）信息表示方式多樣，個性化和碎片化，無法使用規(guī)范文本為對象。

（2）當(dāng)前非結(jié)構(gòu)化內(nèi)容大數(shù)據(jù)計算范式與個體或群體計算的方法不一致。

（3）面對千萬級語義關(guān)聯(lián)節(jié)點，已有的基于知識的算法不適用于大數(shù)據(jù)實時分析。

1 國內(nèi)外研究現(xiàn)狀與發(fā)展分析

基于知識本體的大數(shù)據(jù)語義分析關(guān)鍵技術(shù)涉及文本表示、知識本體、語義分析、情感計算、深度機器學(xué)習(xí)、大數(shù)據(jù)等多個方面。下面將分別從語義計算、文本表示、語義知識本體構(gòu)造、情感分析四個方面進行綜述分析。

1.1 語義計算

語義可以理解為數(shù)據(jù)所對應(yīng)的現(xiàn)實世界中的客觀事物所代表的概念的含義，以及這些含義之間的關(guān)系，是數(shù)據(jù)的邏輯表示。語義計算就是研究計算機對自然語言符號背后的語義理解，構(gòu)建語義表示，處理自然語言，產(chǎn)生關(guān)于客觀世界的知識。常見的語義計算的方法有格語法（Case Grammar），概念依存理論（Conceptu?al Dependency Theory）與語義網(wǎng)絡(luò)（Semantic Network）。語義計算屬于自然語言處理的終極任務(wù)，也是難點所在。當(dāng)前各種理論各有優(yōu)缺點，多數(shù)屬于研究探索階段，離實用化還有一段距離；在大數(shù)據(jù)背景下的語義計算，通過海量多樣化的數(shù)據(jù)源，可以彌補知識框架的不足，小樣本的統(tǒng)計方法存在語義缺漏的困難。通過在大數(shù)據(jù)信息客體集合上采用大數(shù)據(jù)的語義計算，依據(jù)已有的大數(shù)據(jù)關(guān)聯(lián)分析，可以通過隱形語義表達的方式，在應(yīng)用上獲得較好的效果。

1.2 文本表示

文本表示是語義計算的基礎(chǔ)。文本表示是指原始文本在計算機內(nèi)的最終表示，是信息檢索、文本分類等的處理對象。文本表示的粒度一般為字、詞、短語、句子等語言維度。

傳統(tǒng)的文本表示很難完整地表示出大數(shù)據(jù)背景下的短消息。一是社交媒體具有文本內(nèi)容、時間、主體與客體等多維度，而僅考慮文本內(nèi)容的現(xiàn)行方法對于多維度遠遠不夠。二是長文本具有口語化、不規(guī)則等特點，而傳統(tǒng)方法以字、詞為粒度居多，不同粒度之間缺乏內(nèi)在的語義關(guān)聯(lián)性。需要融合多維度時空、主體特征，同時引入知識本體，對文本表示進行擴展。

1.3 語義知識本體構(gòu)建

計算機科學(xué)中的知識本體指的是一個采用類型、屬性、關(guān)系等集合來描述客觀世界的模型。自然語言處理的眾多領(lǐng)域都獲益于知識本體的有效獲取與構(gòu)建。目前面向通用自然語言處理研究的知識本體包括WordNet、FrameNet、HowNet、CCD、BiFrameNet等。這些通用本體對詞匯及詞匯間的關(guān)系等靜態(tài)知識做了描述，包含了高質(zhì)量的語言知識。

1.4 情感分析

情感分析，又稱情感傾向性分析、意見挖掘或情感分類，利用計算機從文本中提取出作者的情感方向。通過情感分析，可以發(fā)現(xiàn)作者所表達的觀點、感情、立場等主觀情感。情感分析的方法可以分為三類：規(guī)則方法、有監(jiān)督機器學(xué)習(xí)方法、無監(jiān)督機器學(xué)習(xí)方法。

縱觀常規(guī)長文本與短文本的情感分析，沒有考慮到信息主體背景的個體差異，現(xiàn)有的方法有一定缺陷。由于感情分析客觀上與信息主體的觀點有很大的相關(guān)性，僅僅依靠分析文本內(nèi)容不能準確表達信息主體的情感觀點。

2 技術(shù)框架

基于知識本體的主客觀大數(shù)據(jù)語義分析關(guān)鍵技術(shù)旨在以知識本體為語義表示基本單元，研究社會主體與信息客體融合的統(tǒng)一語義分析模型，探索本體概念生成與知識抽取的大數(shù)據(jù)方法，建立由大數(shù)據(jù)關(guān)聯(lián)分析構(gòu)成的語義網(wǎng)，實現(xiàn)以主體為中心的個性化情感量化計算關(guān)鍵技術(shù)；對所涉及領(lǐng)域的創(chuàng)新方法進行測試和分析，為探索社會公共安全的宏觀態(tài)勢預(yù)測與微觀洞察提供新的視角和切入點，為科學(xué)理論與關(guān)鍵技術(shù)研究奠定堅實基礎(chǔ)；以面向社會公共安全事件的群體態(tài)勢推演為示范應(yīng)用，驗證基于知識本體的主客觀大數(shù)據(jù)語義分析關(guān)鍵技術(shù)的研究成果。

3 基于知識本體大數(shù)據(jù)語義分析技術(shù)的應(yīng)用實踐

基于知識本體的大數(shù)據(jù)語義分析旨在以知識本體為語義表示基本單元，研究社會主體與信息客觀融合的統(tǒng)一語義分析模型，且目前已經(jīng)正式投入實踐應(yīng)用。

3.1 NLPIR 大數(shù)據(jù)搜索與挖掘共享平臺

NLPIR大數(shù)據(jù)搜索與挖掘共享平臺是大數(shù)據(jù)語義分析技術(shù)在應(yīng)用上的典型實踐。NLPIR在前身ICT?CLAS詞法分析系統(tǒng)的基礎(chǔ)上進行了十余次的內(nèi)核升級，已經(jīng)能夠滿足各類型大數(shù)據(jù)文本處理的要求，其中包括了正文提取、中英文分詞、實體抽取、文本分類、分詞標注等完整的大數(shù)據(jù)技術(shù)鏈條。在NLPIR的所有技術(shù)鏈條中，都直接或者間接地使用了大數(shù)據(jù)語義分析技術(shù)。

（1）正文提取

NLPIR通過網(wǎng)站的RSS摘要，利用網(wǎng)絡(luò)采集系統(tǒng)自動抓取非導(dǎo)航性質(zhì)的網(wǎng)頁，并去除網(wǎng)頁中的導(dǎo)航、廣告等內(nèi)容，利用深度神經(jīng)網(wǎng)絡(luò)模型，提取有價值的正文內(nèi)容。

（2）分詞標注

針對漢語淺層語言分析各個層面的處理對象及問題特點，引入層疊隱馬模型統(tǒng)一建模，對原始語料進行分詞和詞性標注，還可以自動識別人名地名等專用詞匯。另外，系統(tǒng)還支持在線用戶詞典的輸入，更加方便了對專有詞、自造詞、外來詞及存在詞性爭議的詞等在實際運用及詞性方面的掌控。

（3）文本分類

NLPIR根據(jù)深度神經(jīng)網(wǎng)絡(luò)，采用內(nèi)置算法進行分類訓(xùn)練，該分類算法有較高的準確率，可應(yīng)用于新聞分類、郵件分類、簡歷分類、區(qū)域分類、辦公文檔分類等方面，而且還能夠?qū)⑻厥庑畔拇罅课谋局锌焖俚刈R別和過濾出來，實現(xiàn)文本過濾功能。

3.2 JZSearch語義精準搜索引擎

隨著知識圖譜的迅速發(fā)展和大數(shù)據(jù)語義分析技術(shù)的不斷進步，JZSearch運用了語義知識圖譜的相關(guān)技術(shù)，實現(xiàn)了針對大數(shù)據(jù)垂直搜索的全文智能檢索。JZSearch語義精準搜索引擎利用自然語言理解、文本挖掘和網(wǎng)絡(luò)搜索技術(shù)，進行人機互動和機器學(xué)習(xí)，具有了一定程度的語義推理能力。JZSearch最大的進步就是把常用的關(guān)鍵詞粒度提高到知識概念粒度，有了理解、處理和分析知識的能力。現(xiàn)列舉幾個主要功能。

（1）人機自然語言問答式查詢

JZSearch具有人機自然語言問答式查詢功能，通過人機互動，自然語言理解，對請求信息進行語義分析，能夠精準地提取出問題主體，對搜索內(nèi)容去重并精準回復(fù)答案。

（2）搜索結(jié)果在線主體聚類

搜索結(jié)果在線主體聚類就是通過相似性算法，將搜索結(jié)果根據(jù)內(nèi)容的大致一致性，自動進行文檔歸類，而且還為不同類型的文檔生成標題和主題詞，并搜索出與問題內(nèi)容相關(guān)聯(lián)的其他結(jié)果。除此之外，該搜索引擎還具有多字段關(guān)聯(lián)搜索的功能，可以對多個字符串進行迭代語義分析，最終給出融合延伸結(jié)果。

（3）搜索主題時光機技術(shù)

JZSearch通過語義分析和關(guān)鍵字提取，將挖掘出的相關(guān)信息根據(jù)時間先后順序展示，并呈現(xiàn)為動態(tài)地隨時間變化的可視化圖譜。

（4）大數(shù)據(jù)挖掘分析

搜索引擎充分理解問題語義后，利用聚類技術(shù)智能搜索出與搜索主題有關(guān)的文章并統(tǒng)計出文章的數(shù)量，并標注出來源、發(fā)布時間、作者和關(guān)鍵詞等相關(guān)內(nèi)容。

JZSearch語義精準引擎具有對自然語言理解的技術(shù)優(yōu)勢，人機互動更加智能化，具有一定推理判斷能力，實現(xiàn)了從信息檢索到智能搜索的進步，能夠給用戶更精準快捷的搜索體驗。

4 結(jié)語

隨著電子信息產(chǎn)業(yè)的飛速發(fā)展，互聯(lián)網(wǎng)的數(shù)據(jù)量呈幾何倍數(shù)增長，大數(shù)據(jù)技術(shù)雖然發(fā)展迅猛，但由于起步較晚，還有許多技術(shù)和設(shè)計不夠成熟。本文對大數(shù)據(jù)語義分析的關(guān)鍵技術(shù)，特別是對基于知識本體大數(shù)據(jù)語義分析技術(shù)的NLPIR大數(shù)據(jù)搜索與挖掘共享平臺和JZSearch語義精準搜索引擎和進行總結(jié)和分析，對讀者對于大數(shù)據(jù)語義分析的研究和應(yīng)用有一定的幫助。

參考文獻：

[1]李國杰.大數(shù)據(jù)研究的科學(xué)價值[J].中國計算機學(xué)會通信，2012,8（9）.

[2]張華平，高凱，黃河燕，趙燕平.大數(shù)據(jù)搜索與挖掘[M].北京：科學(xué)出版社，2014.

[3]趙妍妍，秦兵，劉挺.文本感情分析[J].軟件學(xué)報，2010,21（8）.

[4]靳小龍，王元卓，程學(xué)旗.大數(shù)據(jù)的研究體系與現(xiàn)狀[J].信息通信技術(shù)，2013（6）.

現(xiàn)代計算機2018年8期

現(xiàn)代計算機的其它文章: 實驗室資產(chǎn)管理系統(tǒng)設(shè)計與實現(xiàn); Windows平臺下圖形渲染引擎的實現(xiàn); WebVR在藝術(shù)品展示中的應(yīng)用研究; 一種支持在線公式編輯的動態(tài)輔助鍵盤的設(shè)計方法; 多衛(wèi)星鏈路消息分發(fā)機制的設(shè)計與實現(xiàn); 一種提升網(wǎng)上營業(yè)廳頁面加載速度方法的研究與實現(xiàn)