亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于大數(shù)據(jù)的智能搜索服務(wù)系統(tǒng)*

2022-06-24 03:04:14溫靜，張穎

山西電子技術(shù) 2022年3期

溫靜，張穎

(山西省信息產(chǎn)業(yè)技術(shù)研究院有限公司，山西太原 030006)

0 引言

搜索引擎成為人們當下學(xué)習(xí)、生活中不可缺少的助手，有什么問題，上搜索引擎搜索，答案迎刃而解。不過，即使現(xiàn)在的搜索服務(wù)系統(tǒng)已經(jīng)相當成熟，但是人們還經(jīng)常抱怨搜索內(nèi)容不符合自己心理預(yù)期的內(nèi)容，每次搜索的結(jié)果有自己想要的內(nèi)容，也有和自己搜索詞條無關(guān)的內(nèi)容。例如搜索“蘋果”，搜索結(jié)果中不僅出現(xiàn)水果蘋果，還搜索出蘋果公司、蘋果手機等內(nèi)容。而這些都不是用戶想要的結(jié)果，用戶真正想要的結(jié)果是蘋果及其營養(yǎng)價值，種植方式等內(nèi)容的介紹。如圖1所示。

圖1 常用的搜索引擎

由上例可知，目前搜索引擎存在的問題包括兩個方面：一是現(xiàn)在的搜索引擎普遍是按照網(wǎng)頁中是否含有搜索詞條去搜索的，并不是按照語義搜索的；二是搜索方式比較單一，不可以語音識別，圖像識別，這樣對于文化程度不高的用戶來說，使用搜索引擎成為一大難題。

一個智能搜索服務(wù)系統(tǒng)最主要的任務(wù)就是能夠理解用戶需求，通過分析用戶輸入的文字、圖片、語音來解決以上問題。

如何解決這一普遍性問題成為一大熱點。

1 背景分析

搜索引擎是時代發(fā)展必然的產(chǎn)物，人類文明采用文字、書籍記錄著，如果沒有搜索引擎的出現(xiàn)，我們很難找到自己想要的目標信息。

在1990年，出現(xiàn)了歷史上第一個真正意義的搜索引擎——Archie，用于FTP服務(wù)器。而1993年用于WEB網(wǎng)絡(luò)的搜索引擎Word Wide Web Wanderer，只能用作收集網(wǎng)址；同年產(chǎn)生的ALIWEB已經(jīng)可以檢索辯題等信息，但文件主體內(nèi)容還是無法索引。1997年，ASK正式上線，由于當時采用純?nèi)斯ぽ斎敕绞竭M行錄入、搜索，之后不得不采用其他搜索引擎的數(shù)據(jù)。1998年下半年，谷歌公司成立。2000年初，百度公司成立，在2001年百度正式上線，中文搜索隨即進入百度時代，2005年百度上市。中文搜索引擎不僅為用戶提供了問題的解答，更提高了大家的工作效率。

2 基礎(chǔ)知識

2.1 網(wǎng)絡(luò)爬蟲

網(wǎng)絡(luò)爬蟲是一個可以實現(xiàn)自動提取網(wǎng)頁功能的程序，它可以從萬維網(wǎng)下載所需網(wǎng)頁，并提交給搜索引擎，因此，它成為了搜索引擎必不可少的一部分。

目前，爬蟲軟件的主要功能就是爬取網(wǎng)頁信息，為用戶從萬維網(wǎng)上搜取數(shù)據(jù)，供大家使用。

2.2 知識圖譜

知識圖譜是將數(shù)學(xué)、圖像學(xué)、可視化技術(shù)等科學(xué)理論與方法結(jié)合，并利用可視化圖譜展現(xiàn)學(xué)科的核心結(jié)構(gòu)、發(fā)展前沿以及整體知識架構(gòu)等內(nèi)容，從而達到多學(xué)科融合的目的。

2.3 自然語言處理

自然語言幾乎是人們?nèi)粘Ｊ褂玫耐ㄋ渍Z言，自然語言處理就是建立一個能夠分析自然語言的計算機模型。處理過程中需要采用漢語分詞技術(shù)、短語識別技術(shù)和同義詞處理等技術(shù)。

漢語分詞技術(shù)：中文不像英文那樣每個單詞中間有空格間隔，中文之間沒有界定符，只能人為切分。但是在分詞的過程中可能會偏離查詢詞匯的真正含義。因此我們可以根據(jù)語料庫進行總結(jié)，獲取詞語出現(xiàn)的概率以及每個詞之間的關(guān)聯(lián)，這樣就能有效排除詞語的歧義，從而提高分詞的準確性。

短語識別技術(shù)：就是利用詞語之間的特定搭配和語法規(guī)則，快速全面的建立他們之間的聯(lián)系，從而合理的切分詞語。

同義詞處理技術(shù)：處理同義詞有兩種方法，一種方法是人工構(gòu)造同義詞詞庫進行搜索，另一種方法是從語料庫中獲取同義詞關(guān)聯(lián)，從而搜索出同義詞。

3 開發(fā)環(huán)境

系統(tǒng)前端界面采用HTML、CSS、JS等開發(fā)語言，其余采用python語言進行開發(fā)，后臺數(shù)據(jù)采用Mysql數(shù)據(jù)庫集群云處。

4 設(shè)計目標

基于大數(shù)據(jù)的智能搜檢系統(tǒng)實現(xiàn)網(wǎng)內(nèi)網(wǎng)外數(shù)據(jù)的融合、基于機器自學(xué)習(xí)的智慧爬蟲、專業(yè)化的科技搜索、知識圖譜的構(gòu)建。通過對現(xiàn)有數(shù)據(jù)的融合處理和互聯(lián)網(wǎng)數(shù)據(jù)的爬取積累，搭建專業(yè)化的科技搜索，實現(xiàn)企業(yè)需求數(shù)據(jù)的多維知識圖譜構(gòu)建。建成智能科技搜索服務(wù)系統(tǒng)，實現(xiàn)網(wǎng)內(nèi)外數(shù)據(jù)的積累、融合挖掘、知識圖譜展現(xiàn)。具體內(nèi)容分為三步：

1)研究知識庫、知識圖譜的構(gòu)建方法，進行網(wǎng)內(nèi)數(shù)據(jù)的分析整理：目標整理完成自由數(shù)據(jù)。研究網(wǎng)絡(luò)爬蟲和機器學(xué)習(xí)，進行智慧爬蟲的架構(gòu)；目標初步建成網(wǎng)絡(luò)爬蟲，開始數(shù)據(jù)積累。

2)在融合網(wǎng)內(nèi)數(shù)據(jù)和爬蟲數(shù)據(jù)基礎(chǔ)上，不斷積累新的數(shù)據(jù)，進行智慧爬蟲的建設(shè)和完善，研究并設(shè)計構(gòu)架專業(yè)化的科技搜索。深入研究知識圖譜等，構(gòu)建圖元關(guān)系網(wǎng)絡(luò)，進行特征行為分析，建立技術(shù)需求與科技要素的關(guān)聯(lián)元數(shù)據(jù)庫，構(gòu)架需求數(shù)據(jù)知識圖譜。

3)持續(xù)積累數(shù)據(jù)，不斷補充完善機器自學(xué)習(xí)規(guī)劃的設(shè)計，進行智慧爬蟲算法優(yōu)化，進行科技搜索算法優(yōu)化，完善擴充數(shù)據(jù)知識圖譜。

5 功能設(shè)計

本系統(tǒng)一共分為三個模塊：文字搜索模塊、圖片搜索模塊和語音搜索模塊。主要實現(xiàn)采用不同類型的載體對數(shù)據(jù)實現(xiàn)智能搜索功能。

5.1 文字搜索系統(tǒng)

文字搜索模塊下又分成三個不同的子模塊：文檔搜索、新聞搜索和網(wǎng)頁搜索。

1)文檔搜索：輸入文檔的關(guān)鍵字，點擊文檔搜索，進行定向搜索，搜索的內(nèi)容只能是文檔形式，沒有其他形式。如圖2所示。

圖2 文檔搜索

2)新聞搜索：新聞搜索的主要內(nèi)容是摘取自中國新聞網(wǎng)、各地新聞網(wǎng)、新聞聯(lián)播、新聞頭條等官方新聞網(wǎng)站的信息?？紤]到新聞關(guān)注者老年人比例較大，所以又設(shè)置了適老版PC端。如圖3所示。

圖3 新聞搜索

3)網(wǎng)頁搜索：網(wǎng)頁搜索的主要內(nèi)容是百度百科、360百科等關(guān)于專業(yè)知識的權(quán)威解答。如圖4所示。

圖4 網(wǎng)頁搜索

5.2 圖片搜索模塊

搜索框末端有相機樣式的標志，首先將想要搜索的內(nèi)容以圖片的形式上傳到系統(tǒng)中，然后點擊搜索。搜索出來的內(nèi)容只有圖片格式，沒有其他格式的。如圖5所示。

圖5 圖片搜索

5.3 語音搜索模塊

搜索框下端有話筒樣式的標志，點擊話筒開始講話，輸入想要搜索的內(nèi)容后松開鼠標，此時搜索框內(nèi)出現(xiàn)語音，點擊搜索開始檢索內(nèi)容。如圖6所示。

圖6 語音搜索

6 智能搜索系統(tǒng)的優(yōu)點

1)搜索結(jié)果精度高。傳統(tǒng)的搜索系統(tǒng)存在很多缺點，如：查詢結(jié)果定位不準確、查詢的無用信息過多，給用戶帶來不必要的困擾等。智能搜索系統(tǒng)基于大數(shù)據(jù)的方法獲得用戶在查詢過程中表達出來的真正意圖，使用戶告訴搜索系統(tǒng)哪些文檔和用戶相關(guān)，哪些不相關(guān)，通過多次交互逐步實現(xiàn)。

2)搜索范圍準確。由于采用知識圖譜等先進技術(shù)，將搜索范圍確定的更加準確.用戶不需要再對搜索出來的內(nèi)容做進一步的篩選，同時它還能夠支撐全文檢索以及概念檢索，使不同的用戶得到滿足。

3)搜索過程交互智能。智能搜索系統(tǒng)在信息檢索的過程中，不斷的與用戶交互，在用戶提出進一步查詢的線索基礎(chǔ)上，不斷修改檢索過程。

7 總結(jié)

本文用一種大數(shù)據(jù)的智能方法來進行搜索系統(tǒng)的改進，采用基于機器自學(xué)習(xí)的智慧爬蟲、專業(yè)化的科技搜索、知識圖譜的方法，使得搜索的內(nèi)容更加準確，更加符合用戶需求。