亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)的智能搜索服務(wù)系統(tǒng)*

        2022-06-24 03:04:14靜,張
        山西電子技術(shù) 2022年3期
        關(guān)鍵詞:搜索引擎智能內(nèi)容

        溫 靜,張 穎

        (山西省信息產(chǎn)業(yè)技術(shù)研究院有限公司,山西 太原 030006)

        0 引言

        搜索引擎成為人們當下學(xué)習(xí)、生活中不可缺少的助手,有什么問題,上搜索引擎搜索,答案迎刃而解。不過,即使現(xiàn)在的搜索服務(wù)系統(tǒng)已經(jīng)相當成熟,但是人們還經(jīng)常抱怨搜索內(nèi)容不符合自己心理預(yù)期的內(nèi)容,每次搜索的結(jié)果有自己想要的內(nèi)容,也有和自己搜索詞條無關(guān)的內(nèi)容。例如搜索“蘋果”,搜索結(jié)果中不僅出現(xiàn)水果蘋果,還搜索出蘋果公司、蘋果手機等內(nèi)容。而這些都不是用戶想要的結(jié)果,用戶真正想要的結(jié)果是蘋果及其營養(yǎng)價值,種植方式等內(nèi)容的介紹。如圖1所示。

        圖1 常用的搜索引擎

        由上例可知,目前搜索引擎存在的問題包括兩個方面:一是現(xiàn)在的搜索引擎普遍是按照網(wǎng)頁中是否含有搜索詞條去搜索的,并不是按照語義搜索的;二是搜索方式比較單一,不可以語音識別,圖像識別,這樣對于文化程度不高的用戶來說,使用搜索引擎成為一大難題。

        一個智能搜索服務(wù)系統(tǒng)最主要的任務(wù)就是能夠理解用戶需求,通過分析用戶輸入的文字、圖片、語音來解決以上問題。

        如何解決這一普遍性問題成為一大熱點。

        1 背景分析

        搜索引擎是時代發(fā)展必然的產(chǎn)物,人類文明采用文字、書籍記錄著,如果沒有搜索引擎的出現(xiàn),我們很難找到自己想要的目標信息。

        在1990年,出現(xiàn)了歷史上第一個真正意義的搜索引擎——Archie,用于FTP服務(wù)器。而1993年用于WEB網(wǎng)絡(luò)的搜索引擎Word Wide Web Wanderer,只能用作收集網(wǎng)址;同年產(chǎn)生的ALIWEB已經(jīng)可以檢索辯題等信息,但文件主體內(nèi)容還是無法索引。1997年,ASK正式上線,由于當時采用純?nèi)斯ぽ斎敕绞竭M行錄入、搜索,之后不得不采用其他搜索引擎的數(shù)據(jù)。1998年下半年,谷歌公司成立。2000年初,百度公司成立,在2001年百度正式上線,中文搜索隨即進入百度時代,2005年百度上市。中文搜索引擎不僅為用戶提供了問題的解答,更提高了大家的工作效率。

        2 基礎(chǔ)知識

        2.1 網(wǎng)絡(luò)爬蟲

        網(wǎng)絡(luò)爬蟲是一個可以實現(xiàn)自動提取網(wǎng)頁功能的程序,它可以從萬維網(wǎng)下載所需網(wǎng)頁,并提交給搜索引擎,因此,它成為了搜索引擎必不可少的一部分。

        目前,爬蟲軟件的主要功能就是爬取網(wǎng)頁信息,為用戶從萬維網(wǎng)上搜取數(shù)據(jù),供大家使用。

        2.2 知識圖譜

        知識圖譜是將數(shù)學(xué)、圖像學(xué)、可視化技術(shù)等科學(xué)理論與方法結(jié)合,并利用可視化圖譜展現(xiàn)學(xué)科的核心結(jié)構(gòu)、發(fā)展前沿以及整體知識架構(gòu)等內(nèi)容,從而達到多學(xué)科融合的目的。

        2.3 自然語言處理

        自然語言幾乎是人們?nèi)粘J褂玫耐ㄋ渍Z言,自然語言處理就是建立一個能夠分析自然語言的計算機模型。處理過程中需要采用漢語分詞技術(shù)、短語識別技術(shù)和同義詞處理等技術(shù)。

        漢語分詞技術(shù):中文不像英文那樣每個單詞中間有空格間隔,中文之間沒有界定符,只能人為切分。但是在分詞的過程中可能會偏離查詢詞匯的真正含義。因此我們可以根據(jù)語料庫進行總結(jié),獲取詞語出現(xiàn)的概率以及每個詞之間的關(guān)聯(lián),這樣就能有效排除詞語的歧義,從而提高分詞的準確性。

        短語識別技術(shù):就是利用詞語之間的特定搭配和語法規(guī)則,快速全面的建立他們之間的聯(lián)系,從而合理的切分詞語。

        同義詞處理技術(shù):處理同義詞有兩種方法,一種方法是人工構(gòu)造同義詞詞庫進行搜索,另一種方法是從語料庫中獲取同義詞關(guān)聯(lián),從而搜索出同義詞。

        3 開發(fā)環(huán)境

        系統(tǒng)前端界面采用HTML、CSS、JS等開發(fā)語言,其余采用python語言進行開發(fā),后臺數(shù)據(jù)采用Mysql數(shù)據(jù)庫集群云處。

        4 設(shè)計目標

        基于大數(shù)據(jù)的智能搜檢系統(tǒng)實現(xiàn)網(wǎng)內(nèi)網(wǎng)外數(shù)據(jù)的融合、基于機器自學(xué)習(xí)的智慧爬蟲、專業(yè)化的科技搜索、知識圖譜的構(gòu)建。通過對現(xiàn)有數(shù)據(jù)的融合處理和互聯(lián)網(wǎng)數(shù)據(jù)的爬取積累,搭建專業(yè)化的科技搜索,實現(xiàn)企業(yè)需求數(shù)據(jù)的多維知識圖譜構(gòu)建。建成智能科技搜索服務(wù)系統(tǒng),實現(xiàn)網(wǎng)內(nèi)外數(shù)據(jù)的積累、融合挖掘、知識圖譜展現(xiàn)。具體內(nèi)容分為三步:

        1)研究知識庫、知識圖譜的構(gòu)建方法,進行網(wǎng)內(nèi)數(shù)據(jù)的分析整理:目標整理完成自由數(shù)據(jù)。研究網(wǎng)絡(luò)爬蟲和機器學(xué)習(xí),進行智慧爬蟲的架構(gòu);目標初步建成網(wǎng)絡(luò)爬蟲,開始數(shù)據(jù)積累。

        2)在融合網(wǎng)內(nèi)數(shù)據(jù)和爬蟲數(shù)據(jù)基礎(chǔ)上,不斷積累新的數(shù)據(jù),進行智慧爬蟲的建設(shè)和完善,研究并設(shè)計構(gòu)架專業(yè)化的科技搜索。深入研究知識圖譜等,構(gòu)建圖元關(guān)系網(wǎng)絡(luò),進行特征行為分析,建立技術(shù)需求與科技要素的關(guān)聯(lián)元數(shù)據(jù)庫,構(gòu)架需求數(shù)據(jù)知識圖譜。

        3)持續(xù)積累數(shù)據(jù),不斷補充完善機器自學(xué)習(xí)規(guī)劃的設(shè)計,進行智慧爬蟲算法優(yōu)化,進行科技搜索算法優(yōu)化,完善擴充數(shù)據(jù)知識圖譜。

        5 功能設(shè)計

        本系統(tǒng)一共分為三個模塊:文字搜索模塊、圖片搜索模塊和語音搜索模塊。主要實現(xiàn)采用不同類型的載體對數(shù)據(jù)實現(xiàn)智能搜索功能。

        5.1 文字搜索系統(tǒng)

        文字搜索模塊下又分成三個不同的子模塊:文檔搜索、新聞搜索和網(wǎng)頁搜索。

        1)文檔搜索:輸入文檔的關(guān)鍵字,點擊文檔搜索,進行定向搜索,搜索的內(nèi)容只能是文檔形式,沒有其他形式。如圖2所示。

        圖2 文檔搜索

        2)新聞搜索:新聞搜索的主要內(nèi)容是摘取自中國新聞網(wǎng)、各地新聞網(wǎng)、新聞聯(lián)播、新聞頭條等官方新聞網(wǎng)站的信息??紤]到新聞關(guān)注者老年人比例較大,所以又設(shè)置了適老版PC端。如圖3所示。

        圖3 新聞搜索

        3)網(wǎng)頁搜索:網(wǎng)頁搜索的主要內(nèi)容是百度百科、360百科等關(guān)于專業(yè)知識的權(quán)威解答。如圖4所示。

        圖4 網(wǎng)頁搜索

        5.2 圖片搜索模塊

        搜索框末端有相機樣式的標志,首先將想要搜索的內(nèi)容以圖片的形式上傳到系統(tǒng)中,然后點擊搜索。搜索出來的內(nèi)容只有圖片格式,沒有其他格式的。如圖5所示。

        圖5 圖片搜索

        5.3 語音搜索模塊

        搜索框下端有話筒樣式的標志,點擊話筒開始講話,輸入想要搜索的內(nèi)容后松開鼠標,此時搜索框內(nèi)出現(xiàn)語音,點擊搜索開始檢索內(nèi)容。如圖6所示。

        圖6 語音搜索

        6 智能搜索系統(tǒng)的優(yōu)點

        1)搜索結(jié)果精度高。傳統(tǒng)的搜索系統(tǒng)存在很多缺點,如:查詢結(jié)果定位不準確、查詢的無用信息過多,給用戶帶來不必要的困擾等。智能搜索系統(tǒng)基于大數(shù)據(jù)的方法獲得用戶在查詢過程中表達出來的真正意圖,使用戶告訴搜索系統(tǒng)哪些文檔和用戶相關(guān),哪些不相關(guān),通過多次交互逐步實現(xiàn)。

        2)搜索范圍準確。由于采用知識圖譜等先進技術(shù),將搜索范圍確定的更加準確.用戶不需要再對搜索出來的內(nèi)容做進一步的篩選,同時它還能夠支撐全文檢索以及概念檢索,使不同的用戶得到滿足。

        3)搜索過程交互智能。智能搜索系統(tǒng)在信息檢索的過程中,不斷的與用戶交互,在用戶提出進一步查詢的線索基礎(chǔ)上,不斷修改檢索過程。

        7 總結(jié)

        本文用一種大數(shù)據(jù)的智能方法來進行搜索系統(tǒng)的改進,采用基于機器自學(xué)習(xí)的智慧爬蟲、專業(yè)化的科技搜索、知識圖譜的方法,使得搜索的內(nèi)容更加準確,更加符合用戶需求。

        猜你喜歡
        搜索引擎智能內(nèi)容
        內(nèi)容回顧溫故知新
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        主要內(nèi)容
        臺聲(2016年2期)2016-09-16 01:06:53
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        廣告主與搜索引擎的雙向博弈分析
        搜索,也要“深搜熟濾”
        国产一区二区三区av免费观看| 亚洲精品无码av中文字幕| 美丽人妻被按摩中出中文字幕| 欧美精品日韩一区二区三区 | 国产成人无码A区在线观| 杨幂二区三区免费视频| 久久在一区二区三区视频免费观看| 成 人 免费 在线电影| 亚洲午夜精品久久久久久人妖| 国产精品一区区三区六区t区| 很黄很色的女同视频一区二区| 被三个男人绑着躁我好爽视频| 亚洲一区中文字幕在线电影网 | 在线综合网| 久久中文字幕av第二页| 亚洲中文字幕在线综合| 中文www新版资源在线| 国产女人精品视频国产灰线| 免费人成网在线观看品观网 | 国产一区二区三区中出| 免费av一区二区三区无码| 又黄又爽又高潮免费毛片| 国产人妖xxxx做受视频| 欧美精品v欧洲高清| 亚洲一本二区偷拍精品| 少妇人妻中文字幕hd| 欧美亚洲国产精品久久高清| 手机在线中文字幕国产| 日韩av毛片在线观看| 亚洲av福利无码无一区二区| 国产精品大屁股1区二区三区| 亚洲av手机在线一区| 国产精品亚洲片在线观看不卡| 日韩精品人妻系列无码专区免费| 最新福利姬在线视频国产观看 | 国产精品成人久久一区二区| 久久精品免费中文字幕| 又爽又黄又无遮挡的激情视频| 人妻无码人妻有码不卡| 四季极品偷拍一区二区三区视频 | 国产成人av在线影院无毒|