亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于知識圖譜的人物關(guān)系設(shè)計(jì)和實(shí)現(xiàn)

        2021-01-29 03:06:44羅潤雨安徽理工大學(xué)
        數(shù)碼世界 2020年12期
        關(guān)鍵詞:張三分詞搜索引擎

        羅潤雨 安徽理工大學(xué)

        互聯(lián)網(wǎng)時(shí)代,手握搜索引擎即可將世界一系列信息一覽無余,比如在輸入框中輸入搜索詞,便可以得到相關(guān)的搜索結(jié)果。2012年,搜索巨頭谷歌率先闡釋“知識圖譜”概念,使得搜索結(jié)果產(chǎn)生重大變化。比如在搜索引擎之中輸入數(shù)學(xué)表達(dá)式可以獲取所需要的網(wǎng)頁。還可以在搜索之中輸入“張三的爸爸的弟弟的生日”,根據(jù)知識圖譜獲取該人物與張三的關(guān)系,從而找出此人的生日時(shí)間。若輸入“蘋果”,由于蘋果可以表示水果中的蘋果,也可以表示是蘋果公司。依據(jù)知識圖譜影響力與關(guān)聯(lián)性,其呈現(xiàn)出的信息數(shù)據(jù)同樣各有差異。借助搜索引擎的方式,能夠基于知識圖譜展開進(jìn)一步延伸,實(shí)現(xiàn)功能的豐富與拓張。知識圖譜不僅僅是各種信息的堆砌,同時(shí)亦蘊(yùn)藏著實(shí)體抽取等先進(jìn)技術(shù),能夠統(tǒng)籌歸納用戶需求目標(biāo)形成一種觀點(diǎn)關(guān)系展示出來。

        1 數(shù)據(jù)采集層

        1.1 結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入

        系統(tǒng)數(shù)據(jù)在格式方面具備顯著復(fù)雜性,其來源更是極其分散。結(jié)構(gòu)化數(shù)據(jù)主要包含了oracle、mysql、txt、excel。非結(jié)構(gòu)化數(shù)據(jù)則主要以極具普及性的txt以及word為主。由于結(jié)構(gòu)化數(shù)據(jù)差異,與之關(guān)聯(lián)的適配器亦有差別,因而應(yīng)當(dāng)確保數(shù)據(jù)導(dǎo)入環(huán)節(jié)分門別類,更具契合度。比如某個(gè)數(shù)據(jù)庫某個(gè)數(shù)據(jù)表中有9千萬條數(shù)據(jù),應(yīng)用sqlserver格式,數(shù)據(jù)則是需要囊括頭字段名,比如QQ號是2個(gè)字段,郵箱號是1個(gè)字段,備注信息文本是1個(gè)字段。若web進(jìn)行消息傳輸時(shí)需要用到worker,那么此時(shí)workersql獲取任務(wù)指令,即選擇動(dòng)態(tài)讀取數(shù)據(jù)的方式,首先讀取100萬條數(shù)據(jù)并且保存為csv文件,其于hbase表形成記錄一項(xiàng),同時(shí)于Recod表形成記錄一項(xiàng),在此之后,傳輸消息至worker,當(dāng)workerimp完成接受之時(shí),針對抽取方式展開相應(yīng)識別。其中兩大重要元素郵箱以及QQ無需進(jìn)行抽取,備注則是應(yīng)當(dāng)展開分詞抽取,根據(jù)每個(gè)分詞結(jié)果,對已有類庫的規(guī)則進(jìn)行匹配,并且標(biāo)上標(biāo)簽。隨后于orientdb范圍之中對于抽取實(shí)體進(jìn)行儲存處理。隨后展開后續(xù)流程,最終即可有效達(dá)成sqlserver導(dǎo)入目標(biāo)。

        1.2 靜態(tài)文本數(shù)據(jù)監(jiān)聽導(dǎo)入

        文本數(shù)據(jù)一直以來都是系統(tǒng)范疇具有重要影響力的數(shù)據(jù)源泉,每一條數(shù)據(jù)格式是json,其中還包括了data、detip、srcip等字段。每個(gè)文件有將近有1萬條數(shù)據(jù),系統(tǒng)會不斷的進(jìn)行文件更新,針對這些數(shù)據(jù)的來源需要在mongodb數(shù)據(jù)庫之中導(dǎo)入這些數(shù)據(jù)。導(dǎo)入過程中可能會存在的問題是部分?jǐn)?shù)據(jù)寫一部份數(shù)據(jù)被讀取,從而導(dǎo)致數(shù)據(jù)導(dǎo)入不完整。無法監(jiān)聽所有的文件。

        1.3 mongodb存儲原始數(shù)據(jù)

        在大數(shù)據(jù)時(shí)代,原本根深蒂固關(guān)系型數(shù)據(jù)庫難以應(yīng)對海量的數(shù)據(jù)搜索、存儲,索引,要解決此問題首要任務(wù)就是提高可擴(kuò)展性,實(shí)現(xiàn)高效存儲。sql層面很難解決此問題,但是nosql可以解決,sql在關(guān)系層面有著業(yè)務(wù)優(yōu)勢,而nosql在數(shù)據(jù)存儲與數(shù)據(jù)擴(kuò)展性方面有著巨大的優(yōu)勢。nosql數(shù)據(jù)庫包含混合數(shù)據(jù)庫、圖數(shù)據(jù)庫、文檔型數(shù)據(jù)庫等。

        1.4 實(shí)體抽取

        當(dāng)前具備影響力與有效性的分詞方案堪稱雙峰插云,由中科院設(shè)計(jì)的ICTCLAS分詞系統(tǒng)以及哈工大設(shè)計(jì)的LTP平臺,均圍繞非結(jié)構(gòu)化文本實(shí)體抽取這一重要技術(shù)展開,對于結(jié)果進(jìn)行系統(tǒng)分析之后進(jìn)行抽取分析,是實(shí)體抽取技術(shù)FLP的有效呈現(xiàn)。FLP其針對LTP特征,以及難以有效踐行號碼類范疇任務(wù)等問題進(jìn)行針對性補(bǔ)充。主要利用了數(shù)字自動(dòng)機(jī)正則引擎,實(shí)現(xiàn)對于包括hanLP各項(xiàng)名稱進(jìn)行識別,隨后利用基于數(shù)字類實(shí)體進(jìn)行的一系列抽取等等展開,應(yīng)用范圍極其廣布。ICTCLAS系統(tǒng)則是圍繞中文自然語言進(jìn)行分詞,其基礎(chǔ)在于詞性界定,隨后即可完成對于目標(biāo)名詞的識別,進(jìn)而判定姓名,書名,商品名,企業(yè)名等等,并將其歸入用戶詞典范疇,完成識別過程中的詞匯無需重復(fù)分詞。

        2 知識圖譜應(yīng)用

        數(shù)據(jù)展示需要依靠底層知識圖譜,不同實(shí)體建立起一系列關(guān)聯(lián),將其進(jìn)行集合即可獲取網(wǎng)狀結(jié)構(gòu),可視化含義是把許多的信息、數(shù)據(jù)以及知識轉(zhuǎn)化成一種人類的可視化,知識圖譜的作用在于幫助人們以宏觀視角完成對于目標(biāo)事物的識別與了解,進(jìn)而提升查詢效率以及記憶程度。借助分析數(shù)據(jù)的方式可以找到數(shù)據(jù)關(guān)聯(lián)聯(lián)系,從中找到直接測算數(shù)據(jù)難以精準(zhǔn)得出的其他關(guān)聯(lián),實(shí)現(xiàn)認(rèn)知水平的有效趨升。現(xiàn)如今可視化研究發(fā)展愈發(fā)廣泛性與先進(jìn)性,知識圖譜作為其中最具關(guān)鍵性的分支未來前景愈發(fā)可觀。

        2.1 基于搜索引擎的關(guān)聯(lián)查詢

        知識圖譜有著廣泛的運(yùn)用,甚至被譽(yù)為未來搜索引擎的靈丹妙藥。在搜索欄中輸入“張三”,可以顯示出有關(guān)“張三”的基本信息,還包括“張三”的個(gè)人經(jīng)歷,朋友關(guān)系等信息,以及其他的一些人員信息。這一類信息并非屬于張三直接信息,不過借助知識圖譜,能夠以“張三”為核心進(jìn)行輻射,找到與其關(guān)聯(lián)的實(shí)體,隨后完成對于相關(guān)數(shù)據(jù)的歸納構(gòu)設(shè)。倘若外延程度更廣,捕捉到的實(shí)體信息亦將愈發(fā)繁雜,不過科學(xué)指出查詢應(yīng)當(dāng)限制在六層之內(nèi),原因在于以外數(shù)據(jù)不具備過高借鑒價(jià)值。

        2.2 可視化關(guān)聯(lián)分析圖

        關(guān)鍵資源的分析圖是知識圖譜之中一個(gè)重要內(nèi)容。知識圖譜的關(guān)鍵點(diǎn)在于把握實(shí)體之間的關(guān)聯(lián)差異。應(yīng)當(dāng)認(rèn)識到,關(guān)聯(lián)分析圖通常需要基于分組展開,兩實(shí)體與整體并不屬于直接關(guān)聯(lián)狀態(tài),其主要依據(jù)分組節(jié)點(diǎn)的方式完成相應(yīng)關(guān)聯(lián)。舉例而言,小賈與小譚是同學(xué)關(guān)系,小賈與小陳同樣亦是同學(xué)關(guān)系,此時(shí)借助“相關(guān)人員”這一節(jié)點(diǎn)完成整體串聯(lián),小賈關(guān)聯(lián)相關(guān)人員,相關(guān)人員則是分別延伸至小賈與小譚。

        3 知識圖譜查詢管理

        知識圖譜的出現(xiàn),使得語義搜索重綻生機(jī),在語義網(wǎng)絡(luò)中知識圖譜有著巨大的作用。從某種角度而言,知識圖譜屬于傳統(tǒng)搜索引擎的科學(xué)升級,搜索引擎通過語義網(wǎng)絡(luò)實(shí)體之間的關(guān)系從而優(yōu)化搜索,從某一個(gè)人物出發(fā)從而找出人物之間的關(guān)系,以此遞歸下去,隨著遞歸次數(shù)增加,重要性也就降低。知識圖譜在關(guān)聯(lián)關(guān)系查詢方面有著很大運(yùn)用,可以在數(shù)據(jù)繁雜的數(shù)據(jù)群體中有效識別數(shù)據(jù)存在的關(guān)聯(lián)性。在關(guān)系網(wǎng)中,和張三有關(guān)聯(lián)關(guān)系的人主要是來自于知識圖譜,張三有朋友,親人,老婆,父母,每一個(gè)人物能夠逐次打開,同時(shí)繼延伸。通過定性與定量分析,從而完整地展示知識圖譜體系。

        4 結(jié)語

        隨著知識圖譜的飛速發(fā)展,Google便是基于知識圖譜展開深層次的搜索升級,使得無論輸入什么搜索關(guān)鍵詞,都可以提取到需要的信息,給予用戶高質(zhì)量體驗(yàn)。隨著知識圖譜技術(shù)的不斷更新,幾乎全部的搜索引擎都不斷地靠近知識圖譜,輸入任何一個(gè)關(guān)鍵詞,從而得到自己想要的結(jié)果,然而需要意識到,知識圖譜無論功能效果多顯著多領(lǐng)先,其核心都需要圍繞知識庫展開,因此未來對于知識庫的選擇與審視同樣不容小覷。

        猜你喜歡
        張三分詞搜索引擎
        結(jié)巴分詞在詞云中的應(yīng)用
        值得重視的分詞的特殊用法
        下車就跑
        東方劍(2016年6期)2016-08-27 06:12:27
        讀張三書法之感想
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        尋找張三
        小說月刊(2014年1期)2014-04-23 08:59:55
        我的名字叫張三
        小說月刊(2014年11期)2014-04-18 14:12:24
        廣告主與搜索引擎的雙向博弈分析
        高考分詞作狀語考點(diǎn)歸納與疑難解析
        高潮又爽又无遮挡又免费| 青青草视频在线播放81| 加勒比av在线一区二区| 在线观看av网站永久| 国产高清一区二区三区三州| 熟女肥臀白浆一区二区| 99久久精品国产一区二区| 无码人妻精品一区二区| 国产尤物精品自在拍视频首页| av大片在线无码永久免费网址| 亚洲av日韩一区二三四五六七| 国产一级黄色录像大片| 精品国产性色无码av网站| 综合三区后入内射国产馆| 国产一线视频在线观看高清| 蜜桃成熟时日本一区二区| 欧美熟妇另类久久久久久不卡| 乱子伦视频在线看| 亚洲欧洲国产日产国码无码| 亚洲在线视频一区二区| 精品国产亚洲av麻豆| 久久www色情成人免费观看| 最新亚洲人AV日韩一区二区| 国内偷拍第一视频第一视频区 | 国产免费牲交视频| 色伦专区97中文字幕| 精精国产xxx在线视频app| 久久国产精品免费专区| 亚洲乱码中文字幕在线| 少妇久久久久久被弄到高潮 | 美女扒开内裤让我捅的视频| 色欲色欲天天天www亚洲伊| 无码国产精品一区二区免| 国产又爽又黄又不遮挡视频| 国产一区二区免费在线视频| 在线中文字幕乱码英文字幕正常| 制服丝袜人妻中文字幕在线| 日本精品久久久久中文字幕1| 亚洲国产精品国自产拍性色| 色噜噜狠狠狠综合曰曰曰| 国产成人综合久久久久久|