亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于知識圖譜的搜索引擎技術(shù)研究與應(yīng)用

        2021-09-10 23:06:46劉昱甫
        無線互聯(lián)科技 2021年6期
        關(guān)鍵詞:用戶需求知識圖譜搜索引擎

        劉昱甫

        摘 要:現(xiàn)代信息技術(shù)的發(fā)展使得網(wǎng)絡(luò)中的信息數(shù)據(jù)呈爆炸式增長。海量的數(shù)據(jù)確實對社會發(fā)展產(chǎn)生了巨大貢獻,但同時龐大數(shù)據(jù)的提取與應(yīng)用則成為一個難題,尤其在對成千上萬類別的信息數(shù)據(jù)進行搜索時,其為搜索引擎的功能、性能都帶來巨大考驗。現(xiàn)有的搜索引擎主要是針對網(wǎng)絡(luò)中的數(shù)據(jù)全文進行索引,而缺少足夠的針對性,難以充分滿足用戶的信息篩選需求。因此,如何對現(xiàn)有搜索引擎技術(shù)進行改善和優(yōu)化就成為互聯(lián)網(wǎng)領(lǐng)域的一個重要研究課題。文章主要圍繞特定領(lǐng)域內(nèi)基于知識圖譜的搜索引擎技術(shù)及其實現(xiàn)展開研究,提出了一種更能夠理解用戶需求的搜索引擎解決方案。

        關(guān)鍵詞:搜索引擎;知識圖譜;數(shù)據(jù)提取;用戶需求

        1 基于知識圖譜的搜索引擎技術(shù)概述

        知識圖譜是融合現(xiàn)代應(yīng)用數(shù)學(xué)、圖形學(xué)、信息可視化技術(shù)、計量學(xué)引文分析等理論與方法而形成的一種現(xiàn)代理論[1-4]。在互聯(lián)網(wǎng)領(lǐng)域,知識圖譜則具體指基于實體或概念之間的語義關(guān)系構(gòu)建而形成的一種知識網(wǎng)絡(luò)。一直以來,知識圖譜都是互聯(lián)網(wǎng)領(lǐng)域的重點研究對象,并且在一些領(lǐng)域的信息抽取系統(tǒng)中得到深入應(yīng)用,如Never-Ending語言學(xué)習(xí)系統(tǒng)、Google搜索引擎等。而隨著互聯(lián)網(wǎng)的高速發(fā)展,針對某一領(lǐng)域或全網(wǎng)范圍進行知識圖譜的建構(gòu)也是當(dāng)前互聯(lián)網(wǎng)領(lǐng)域的重點工作之一[5]。目前,基于知識圖譜的搜索引擎技術(shù)主包含本體庫、網(wǎng)絡(luò)爬蟲、索引和查詢等[6]。而這些技術(shù)形成不同的模塊共同構(gòu)成了基于知識圖譜的搜索引擎。此外,這種搜索引擎的體系結(jié)構(gòu)一般包含3部分:網(wǎng)絡(luò)爬蟲模塊、索引與檢索模塊、知識圖譜模塊[7]。

        2 基于知識圖譜的搜索引擎技術(shù)

        2.1 爬蟲技術(shù)

        在互聯(lián)網(wǎng)搜索引擎中,爬蟲技術(shù)是最重要的技術(shù)之一[8-9]。搜索過程中網(wǎng)絡(luò)爬蟲會自動的對所有可以訪問的內(nèi)容進行采集同時按照搜索要求從中抓取相應(yīng)數(shù)據(jù)。從互聯(lián)網(wǎng)搜索引擎誕生之初,該技術(shù)就一直在被應(yīng)用。網(wǎng)絡(luò)爬蟲技術(shù)的實現(xiàn)涉及協(xié)議處理器、內(nèi)容提取、URL提取以及URL處理器4部分。而網(wǎng)絡(luò)爬蟲在進行頁面信息抓取時通常采取廣度優(yōu)先、深度優(yōu)先以及最優(yōu)選擇3種策略。

        2.2 索引與檢索技術(shù)

        索引與檢索技術(shù)的基礎(chǔ)是Lucene開源全文檢索框架[10]。該框架能夠有效融入程序,從而使各種應(yīng)用借助這一框架實現(xiàn)搜索功能。該檢索框架由索引組件以及搜索組件兩部分組成。索引組件的主要作用在于將原始數(shù)據(jù)轉(zhuǎn)換成可以被檢索的數(shù)據(jù),以提升數(shù)據(jù)檢索效率。搜索組件則主要用以進行目標(biāo)關(guān)鍵詞與相關(guān)條目的匹配,進而完成數(shù)據(jù)搜索命中的任務(wù)。

        2.3 知識圖譜技術(shù)

        知識圖譜技術(shù)是互聯(lián)網(wǎng)搜索引擎技術(shù)領(lǐng)域中的一個巨大突破,它為網(wǎng)絡(luò)搜索引擎的發(fā)展帶來巨大變革。以知識圖譜技術(shù)為基礎(chǔ),搜索引擎可以更深入地理解用戶需求,理解相關(guān)搜索問題并提供信息和知識解答。可以說,知識圖譜技術(shù)使搜索引擎擺脫了傳統(tǒng)泛化搜索的局面。

        知識圖譜技術(shù)主要涉及知識圖譜模型的構(gòu)建方法,而其模型又主要由Web實體挖掘及數(shù)據(jù)處理模塊、知識表示模塊、知識圖譜引擎模塊和數(shù)據(jù)分析接口模塊構(gòu)成。

        3 基于知識圖譜的搜索引擎技術(shù)應(yīng)用

        作為一種先進的搜索引擎技術(shù),基于知識圖譜的搜索引擎在具體應(yīng)用中需要通過以下項目的構(gòu)建來實現(xiàn)。

        3.1 搜索引擎構(gòu)建

        搜索引擎的構(gòu)建需要確定好相應(yīng)的數(shù)據(jù)爬取框架和索引引擎。此處搜索引擎的構(gòu)建采用Scrapy框架與Solr索引引擎。Scrapy爬蟲在相應(yīng)的網(wǎng)站中進行實體數(shù)據(jù)的實現(xiàn)方法如圖1所示。

        Solr數(shù)據(jù)檢索的構(gòu)建和實現(xiàn)可以分為實體數(shù)據(jù)向索引數(shù)據(jù)的轉(zhuǎn)換和匹配關(guān)鍵詞完成數(shù)據(jù)檢索兩部分。

        3.2 知識圖譜構(gòu)建

        知識圖譜的構(gòu)建過程如下:首先需要將相關(guān)搜索領(lǐng)域的實體插入圖譜,隨后再將內(nèi)容實體插入,最后將內(nèi)容實體與其他實體之間的關(guān)聯(lián)建構(gòu)起來,從而形成一個完整的知識圖譜。此外,在節(jié)點的插入過程中,還應(yīng)該依據(jù)實體類型來進行屬性信息索引的建構(gòu),從而進一步提升檢索的準(zhǔn)確性和效率。

        3.3 檢索結(jié)果排序

        基于知識圖譜的搜索引擎構(gòu)建還涉及最終的檢索結(jié)果排序問題。本文采用的Lucene框架下的搜索結(jié)果排序方式一般有按照索引先后順序和按照匹配相似度計算的分值兩種,但這兩種排序方式都有一定的弊端。因此,本文提出了一個全新的檢索結(jié)構(gòu)排序模型。該模型下的基本排序步驟為:(1)對每個實體及其屬性值與檢索詞的匹配值進行計算;(2)對屬性匹配值與屬性權(quán)重累加和進行相乘;(3)對命中實體和其他命中實體的關(guān)系值進行相加,若兩者有關(guān)系,記為1,若無關(guān)則記為0;(4)將上述計算值乘以權(quán)重再求和。

        3.4 信息推薦

        在搜索引擎中,檢索得到最終結(jié)果后還需要對檢索到的內(nèi)容進行推薦,這也是搜索引擎構(gòu)建中必須要完成的一環(huán)。由于傳統(tǒng)搜索引擎基于內(nèi)容的推薦算法已經(jīng)無法滿足人們的需求,本文在構(gòu)建搜索引擎的過程中以知識圖譜為基礎(chǔ)提出了一種信息推薦方法,即以命中實體與其他實體間的距離來進行推薦,而這一距離則代表著實體間的匹配度。A,B兩個節(jié)點間的距離由路徑代表。在信息推薦過程中依據(jù)對每種關(guān)系的賦值就可以將不同節(jié)點間的距離準(zhǔn)確計算出來,隨后再結(jié)合這一距離值進行信息的推薦。這一推薦方式可以在實踐中優(yōu)先推薦與特定實體匹配度高的實體。

        4 結(jié)語

        通過上述基于知識圖譜的搜索引擎技術(shù)及其應(yīng)用的研究,我們基本可以了解到這一技術(shù)的基本內(nèi)容和搜索引擎構(gòu)建的基本思路。然而在實際應(yīng)用中,該技術(shù)還需要技術(shù)人員明確具體的應(yīng)用領(lǐng)域后,有針對性地開展搜索引擎構(gòu)建、知識圖譜構(gòu)建以及排序方式和信息推薦方式的設(shè)計。該技術(shù)在實踐中仍有較大的研究空間。

        [參考文獻]

        [1]郭蘊穎.基于知識圖譜的電網(wǎng)信息搜索引擎的設(shè)計與實現(xiàn)[D].北京:中國科學(xué)院大學(xué),2020.

        [2]秦長江,侯漢清.知識圖譜—信息管理與知識管理的新領(lǐng)域[J].大學(xué)圖書館學(xué)報,2009(1):30-37,96.

        [3]陳悅,劉則淵,陳勁,等.科學(xué)知識圖譜的發(fā)展歷程[J].科學(xué)學(xué)研究,2008(3):449-460.

        [4]陳悅,劉則淵.悄然興起的科學(xué)知識圖譜[J].科學(xué)學(xué)研究,2005(2):149-154.

        [5]徐增林,盛泳潘,賀麗榮,等.知識圖譜技術(shù)綜述[J].電子科技大學(xué)學(xué)報,2016(4):589-606.

        [6]劉春圃.基于疾病知識圖譜的關(guān)聯(lián)搜索技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2019.

        [7]劉嶠,李楊,段宏,等.知識圖譜構(gòu)建技術(shù)綜述[J].計算機研究與發(fā)展,2016(3):582-600.

        [8]孫立偉,何國輝,吳禮發(fā).網(wǎng)絡(luò)爬蟲技術(shù)的研究[J].電腦知識與技術(shù),2010(15):4112-4115.

        [9]周立柱,林玲.聚焦爬蟲技術(shù)研究綜述[J].計算機應(yīng)用,2005(9):1965-1969.

        [10]高龍,張涵初,楊亮.基于知識圖譜與語義計算的智能信息搜索技術(shù)研究[J].情報理論與實踐,2018(7):42-47.

        (編輯 傅金睿)

        猜你喜歡
        用戶需求知識圖譜搜索引擎
        基于用戶需求的圖書館移動信息服務(wù)
        以用戶需求為導(dǎo)向的高校檔案利用研究
        青年時代(2016年20期)2016-12-08 17:50:05
        近十五年我國小學(xué)英語教學(xué)研究的熱點、問題及對策
        基于知識圖譜的產(chǎn)業(yè)集群創(chuàng)新績效可視化分析
        智富時代(2016年12期)2016-12-01 16:28:41
        基于知識圖譜的智慧教育研究熱點與趨勢分析
        融媒體背景下健康類紙媒的轉(zhuǎn)型
        從《ET&S》與《電化教育研究》對比分析中管窺教育技術(shù)發(fā)展
        基于用戶需求的政務(wù)微信發(fā)展策略探析
        今傳媒(2016年5期)2016-06-01 23:47:05
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        国产精品视频一区二区三区四| 国产高清在线一区二区不卡| 亚洲av无码一区二区三区鸳鸯影院| 日韩少妇内射免费播放| 中文字幕在线日韩| 在线免费观看国产视频不卡| av免费不卡一区二区| 永久黄网站色视频免费看| 在线观看免费a∨网站| 激情人妻网址| 亚洲一区二区刺激的视频| 午夜无遮挡男女啪啪免费软件| 日本丶国产丶欧美色综合| 国产精品国产三级国产三不| 日本最新视频一区二区| 国产精品亚洲а∨无码播放不卡| 狠狠久久亚洲欧美专区| 免费国产在线精品三区| 精品女同一区二区三区免费战| 国产三区在线成人av| 国产精品自在线免费| 亚洲国产精品成人一区| 人妻久久久一区二区三区蜜臀| 国产熟人av一二三区| 成人亚洲欧美久久久久| 少妇我被躁爽到高潮在线影片| 午夜爽爽爽男女免费观看影院| 日日躁夜夜躁狠狠躁超碰97 | 国产免费一区二区在线视频| 久久久久国产综合av天堂| 日本不卡视频免费的| av天堂手机一区在线| 欧美性猛交aaaa片黑人| 欧美丰满大屁股ass| 粉嫩国产白浆在线播放| 青青草成人在线播放视频 | 成人亚洲性情网站www在线观看 | 亚欧AV无码乱码在线观看性色| 中文字幕精品一区二区日本| 公厕偷拍一区二区三区四区五区| 亚洲一线二线三线写真 |