亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于物聯(lián)網(wǎng)技術(shù)的搜索引擎技術(shù)研究

        2018-07-28 07:20:04劉丹英于光偉
        科技創(chuàng)新與應(yīng)用 2018年20期
        關(guān)鍵詞:搜索引擎物聯(lián)網(wǎng)技術(shù)

        劉丹英 于光偉

        摘 要:近年來,隨著物聯(lián)網(wǎng)在各個領(lǐng)域的不斷應(yīng)用,使搜索引擎技術(shù)具備了極為廣闊的發(fā)展前景,針對搜索引擎在我國的應(yīng)用現(xiàn)狀,現(xiàn)將物聯(lián)網(wǎng)技術(shù)應(yīng)用到搜索引擎軟件當(dāng)中,以此提高搜索引擎軟件的速度,使搜索引擎能夠為人們提供更好的信息搜索服務(wù)。

        關(guān)鍵詞:物聯(lián)網(wǎng);搜索引擎;軟件模塊;技術(shù);設(shè)計

        中圖分類號:TP391.3 文獻(xiàn)標(biāo)志碼:A 文章編號:2095-2945(2018)20-0143-02

        Abstract: In recent years, with the continuous application of the Internet of things (IoT) in various fields, search engine technology has a very broad development prospects. In view of the current situation of search engine application in China, the Internet of things technology is now applied to search engine software to improve the speed of search engine software, so that search engines can provide people with better information search services.

        Keywords: Internet of things (IoT); search engine; software module; technology; design

        引言

        隨著物聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,將信息技術(shù)和物聯(lián)網(wǎng)技術(shù)進(jìn)行融合,將使其在各個領(lǐng)域中發(fā)揮更大的作用。其主要包括檢索器、搜索器、用戶接口及索引器四個組成部分。搜索引擎在物聯(lián)網(wǎng)中發(fā)揮著極為重要的作用,人們能夠通過搜索引擎在物聯(lián)網(wǎng)中搜索到自己所需的信息,同時還能利用搜索引擎進(jìn)行漫游,可以說,搜索引擎極大程度地滿足了人們對信息的需求。將物聯(lián)網(wǎng)技術(shù)應(yīng)用到搜索引擎技術(shù)當(dāng)中去,能夠在很大程度上提高搜索引擎的性能,使搜索引擎在物聯(lián)網(wǎng)中進(jìn)行更加優(yōu)質(zhì)的信息搜索服務(wù)。因此,本文便對基于物聯(lián)網(wǎng)技術(shù)的搜索引擎技術(shù)進(jìn)行深入的研究,以此開發(fā)出更加智能化的搜索引擎。

        1 基于物聯(lián)網(wǎng)技術(shù)的搜索引擎軟件模塊的設(shè)計

        在基于物聯(lián)網(wǎng)技術(shù)的搜索引擎軟件中,其共包括四個組成模塊,這些模塊分別是網(wǎng)頁抓取模塊、內(nèi)容索引模塊、內(nèi)容提取模塊以及內(nèi)容顯示模塊,以下便對這四個組成模塊進(jìn)行深入的研究。

        1.1 網(wǎng)頁抓取模塊的設(shè)計

        網(wǎng)頁抓取模塊的功能在于其能夠?qū)τ脩羲付ǖ恼军c實施網(wǎng)頁抓取,然后將所抓取的網(wǎng)頁存儲到用戶計算機(jī)的數(shù)據(jù)庫當(dāng)中。而在本文中所提到的基于物聯(lián)網(wǎng)技術(shù)的搜索引擎軟件模塊能夠從騰訊、搜狐、鳳凰及網(wǎng)易等大型網(wǎng)站中對相關(guān)網(wǎng)頁進(jìn)行抓取,其只需要將這些大型網(wǎng)站中的頁面URL當(dāng)作種子URL,并對這些大網(wǎng)站中的網(wǎng)頁URL所具備的格式進(jìn)行分析,然后對網(wǎng)絡(luò)爬蟲在網(wǎng)頁分析及抓取時所產(chǎn)生的行為進(jìn)行相應(yīng)的控制,并對能夠進(jìn)行爬取的網(wǎng)頁URL格式和對能夠進(jìn)入到等待爬取的URL隊列所具備的URL格式進(jìn)行限定。而要想使網(wǎng)絡(luò)爬蟲的爬取速度得到相應(yīng)提高,就必須要對URL分配策略進(jìn)行相應(yīng)的改善,以確保網(wǎng)絡(luò)爬蟲所具備的并發(fā)線程數(shù)量能夠增多,同時,還可以對Robot文件訪問進(jìn)行限制,以達(dá)到提高網(wǎng)絡(luò)爬蟲爬取網(wǎng)頁效率的目的。

        1.2 內(nèi)容提取模塊的設(shè)計

        網(wǎng)頁內(nèi)容的提取模塊功能在于其能夠從用戶計算機(jī)存儲的網(wǎng)頁中根據(jù)特定的提取規(guī)則來對用戶的所需信息進(jìn)行提取,然后將這些提取的信息按照相應(yīng)的格式存儲至數(shù)據(jù)庫當(dāng)中。其在分析目標(biāo)網(wǎng)頁過程中,會對相應(yīng)的信息抽取規(guī)則進(jìn)行制定,以定位網(wǎng)頁中的相關(guān)內(nèi)容,同時對網(wǎng)頁中所包含的文本內(nèi)容進(jìn)行抽取。在網(wǎng)頁信息詞庫的構(gòu)建中,利用分詞器來對用戶所需的提取信息進(jìn)行解析,然后將這些提取到的信息寫入到相應(yīng)的詞庫文件當(dāng)中,從而使這些提取出的網(wǎng)頁信息能夠轉(zhuǎn)化為結(jié)構(gòu)化信息,最后再由數(shù)據(jù)庫對這些結(jié)構(gòu)化信息進(jìn)行存儲。

        1.3 內(nèi)容索引模塊的設(shè)計

        在基于物聯(lián)網(wǎng)技術(shù)的搜索引擎軟件中,對于內(nèi)容索引模塊的設(shè)計,主要是通過Luence索引工具來根據(jù)數(shù)據(jù)庫中所存儲的結(jié)構(gòu)化信息來對索引文件進(jìn)行建立的,在成功建立索引文件后,再將這些索引文件分別存儲至磁盤當(dāng)中。這樣,當(dāng)用戶需要對相應(yīng)的內(nèi)容進(jìn)行索引查詢時,其只需要在搜索引擎中輸入相應(yīng)的查詢條件,即可對磁盤中的任意索引文件實施查詢,而且搜索引擎軟件還會根據(jù)用戶輸入的查詢條件的滿足程度,按照相應(yīng)的順序分別反饋給用戶,從而使用戶能夠?qū)λ蟹喜樵儣l件的索引文件進(jìn)行一目了然地篩選。

        1.4 內(nèi)容顯示模塊的設(shè)計

        在基于物聯(lián)網(wǎng)技術(shù)的搜索引擎軟件中,內(nèi)容顯示模塊的設(shè)計也是一大設(shè)計要點,該模塊以Jsp技術(shù)為核心,在向用戶展示界面時,是以Web形式實現(xiàn)的。用戶在對某些信息進(jìn)行搜索時,需要在搜索引擎軟件的搜索欄界面輸入相應(yīng)的關(guān)鍵詞,此時,搜索引擎軟件便會根據(jù)用戶搜索的詞,從本地數(shù)據(jù)庫中對能夠與關(guān)鍵詞相匹配的網(wǎng)頁進(jìn)行查詢,在查詢到所有與關(guān)鍵詞相匹配的網(wǎng)頁后,搜索引擎軟件會根據(jù)這些網(wǎng)頁的匹配程度,并按照相應(yīng)的排序規(guī)則將這些網(wǎng)頁顯示到界面當(dāng)中,用戶只需要點擊這些網(wǎng)頁信息,便可迅速切換到該網(wǎng)頁的詳細(xì)內(nèi)容,進(jìn)而幫助用戶快速找出網(wǎng)頁內(nèi)容。

        2 基于物聯(lián)網(wǎng)技術(shù)的搜索引擎技術(shù)的具體設(shè)計

        2.1 網(wǎng)頁抓取

        在基于物聯(lián)網(wǎng)技術(shù)的搜索引擎軟件設(shè)計中,網(wǎng)頁抓取技術(shù)實質(zhì)上便是一個能夠?qū)W(wǎng)頁進(jìn)行自動提取的網(wǎng)絡(luò)爬蟲程序,其能夠從物聯(lián)網(wǎng)中對網(wǎng)頁進(jìn)行下載,可以說,該程序也是搜索引擎軟件的核心所在。在以往的網(wǎng)絡(luò)爬蟲中,其是從單獨或多個初始網(wǎng)頁的URL做為起始點,以得到這些初始網(wǎng)頁中的URL格式,其在對網(wǎng)頁進(jìn)行抓取時,需要在當(dāng)前界面中對新的URL進(jìn)行不斷地抽取,然后將其放入到隊列當(dāng)中,當(dāng)滿足停止條件時才會停止。對于聚焦爬蟲的工作流程來說,其是比較復(fù)雜的,其依據(jù)網(wǎng)頁分析算法來對網(wǎng)頁中和主題沒有關(guān)系的鏈接進(jìn)行過濾,并對有用鏈接進(jìn)行保留,同時將其置于待抓取URL隊列當(dāng)中。此時,其便會按照特定的搜索策略在URL隊列中對需要進(jìn)一步抓取的網(wǎng)頁URL進(jìn)行抓取,然后對上述過程進(jìn)行不斷的重復(fù),直至滿足系統(tǒng)的停止條件時才停取抓取。網(wǎng)頁抓取模塊利用網(wǎng)絡(luò)爬蟲從各個網(wǎng)頁中對用戶的所需頁面URL進(jìn)行爬取。網(wǎng)絡(luò)爬蟲在被激活時,我們需要在URL請求隊列中加入URL種子,種子應(yīng)為具備代表性的頁面URL,如鳳凰、搜狐、騰訊等,并通過分析這些具備代表性的頁面URL格式,以獲得與上述頁面相符的URL格式,然后將這些URL格式放入到請求隊列當(dāng)中。

        2.2 網(wǎng)頁信息抽取

        在搜索引擎軟件中的網(wǎng)頁信息抽取模塊中,其主要是根據(jù)相應(yīng)的抽取規(guī)則來對本地計算機(jī)中存儲的網(wǎng)頁進(jìn)行相關(guān)信息的抽取,然后將這些抽取到的用戶所需信息按照相應(yīng)的格式存儲至數(shù)據(jù)庫當(dāng)中。其在對網(wǎng)頁信息進(jìn)行抽取時,需要對存儲網(wǎng)頁的本地文件夾進(jìn)行遍歷搜索,遍歷的方法可以采用深度優(yōu)先遍歷或廣度優(yōu)先遍歷等。當(dāng)遍歷到該文件中包含有需要抓取的網(wǎng)頁時,則會通過Jsoup的使用來對網(wǎng)頁中的作者、標(biāo)題、正文及時間進(jìn)行定向抓取,然后將這些抓取到的內(nèi)容按照.txt格式存儲至用戶所指定的文件夾當(dāng)中。對于這些抓取到的內(nèi)容,如網(wǎng)頁中的標(biāo)題、發(fā)布時間、作者、鏈接地址等還會存儲到數(shù)據(jù)庫中的new表相應(yīng)列當(dāng)中。

        2.3 內(nèi)容索引

        在內(nèi)容索引時,搜索引擎會根據(jù)數(shù)據(jù)庫中所存儲的結(jié)構(gòu)化信息,通過Luence索引工具來對相應(yīng)的索引文件進(jìn)行構(gòu)建,在索引文件構(gòu)建好以后會將其存儲至磁盤當(dāng)中,然后依據(jù)用戶的查詢條件來對相應(yīng)的索引文件進(jìn)行排序,然后將排序結(jié)果反饋給用戶。

        綜上所述,本文根據(jù)物聯(lián)網(wǎng)技術(shù)中所生成的海量數(shù)據(jù),提出一種基于物聯(lián)網(wǎng)技術(shù)的搜索引擎,該搜索引擎在實際應(yīng)用過程中具備以下功能:其一,通過擴(kuò)展網(wǎng)絡(luò)爬蟲來提高網(wǎng)頁抓取速度;其二,利用Jsoup網(wǎng)頁解析工具來對目標(biāo)網(wǎng)頁中的具體內(nèi)容進(jìn)行提取,然后將這些提取到的內(nèi)容存儲到數(shù)據(jù)庫當(dāng)中;其三,利用Luence檢索工具實現(xiàn)用戶對本地數(shù)據(jù)庫中相關(guān)信息的索引,并采用Jsp來對信息進(jìn)行過濾及展示;其四,通過MYSQL數(shù)據(jù)庫在搜索引擎中的應(yīng)用,以使搜索成本降低,并且MYSQL數(shù)據(jù)庫還能有效減輕結(jié)果集的負(fù)荷,使數(shù)據(jù)的傳輸速度加快;其五,搜索引擎軟件的界面美觀簡便。通過對該搜索引擎軟件進(jìn)行測試,測試結(jié)果證明,基于物聯(lián)網(wǎng)技術(shù)的搜索引擎在信息搜索過程中具備穩(wěn)定、高效的優(yōu)勢,同時具備良好的UI交互設(shè)計功能。

        參考文獻(xiàn):

        [1]李彥辰,艾慶忠,王少非.基于Redis的分布式搜索引擎研究[J].軟件導(dǎo)刊,2018,17(03):201-204.

        [2]郭文俊,喬世東.基于多Agent的搜索引擎技術(shù)的研究[J].山西大同大學(xué)學(xué)報(自然科學(xué)版),2017,33(03):4-6.

        [3]楊宇,杜文斌,周亞軍.計算機(jī)搜索引擎智能化技術(shù)研究[J].電腦迷,2017(07):20.

        [4]蔣繼婭,劉彤,劉宇.基于搜索引擎優(yōu)化技術(shù)與模板引擎技術(shù)的網(wǎng)站優(yōu)化策略[J].情報理論與實踐,2010(05):99-102.

        [5]許瑞.搜索引擎技術(shù)的發(fā)展現(xiàn)狀與前景[J].中國新技術(shù)新產(chǎn)品,2017(02):20-21.

        [6]楊子墨.智能技術(shù)在搜索引擎中的應(yīng)用[J].科技創(chuàng)新與應(yīng)用,2016(35):98.

        [7]周先軍,曹基軍,周瑾,等.基于關(guān)鍵詞提煉的搜索引擎優(yōu)化方案[J].科技創(chuàng)新與應(yīng)用,2016(12):78-79.

        猜你喜歡
        搜索引擎物聯(lián)網(wǎng)技術(shù)
        基于物聯(lián)網(wǎng)的煤礦智能倉儲與物流運輸管理系統(tǒng)設(shè)計與應(yīng)用
        淺談鋼筋混凝土結(jié)構(gòu)建筑應(yīng)用外包粘鋼加固技術(shù)
        基于高職院校物聯(lián)網(wǎng)技術(shù)應(yīng)用人才培養(yǎng)的思考分析
        探討電力系統(tǒng)中配網(wǎng)自動化技術(shù)
        科技視界(2016年21期)2016-10-17 20:00:58
        移動應(yīng)用系統(tǒng)開發(fā)
        科技視界(2016年21期)2016-10-17 19:38:30
        北京市中小企業(yè)優(yōu)化升級
        商(2016年27期)2016-10-17 04:13:28
        中國或成“物聯(lián)網(wǎng)”領(lǐng)軍者
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        廣告主與搜索引擎的雙向博弈分析
        亚洲∧v久久久无码精品| 国产黑色丝袜在线看片| 亚洲av日韩av永久无码下载| 精品久久久噜噜噜久久久| 色爱无码A V 综合区| 免费看黄在线永久观看| 亚洲免费观看视频| 亚洲精品无码专区在线| 亚洲精品亚洲人成在线下载 | 国产成人精品蜜芽视频| 在线成人影院国产av| 中文字幕在线日亚洲9| 日韩精品大片在线观看| 青青手机在线视频观看| 国内自拍速发福利免费在线观看| 亚洲国产av玩弄放荡人妇系列| 精品人无码一区二区三区| 一本久道视频无线视频试看 | 少妇一区二区三区精选| 亚洲av无码一区二区三区鸳鸯影院| 日产国产精品亚洲系列| 99riav精品国产| 最新国产激情视频在线观看| 人妻体内射精一区二区三四| 俺也去色官网| 日本在线免费一区二区三区| 麻豆精品导航| 日韩好片一区二区在线看| 91免费国产高清在线| 日本系列有码字幕中文字幕| 天堂√在线中文官网在线 | 欧洲乱码伦视频免费| 美女扒开内裤让我捅的视频| 精品久久香蕉国产线看观看亚洲| 狠狠躁夜夜躁AV网站中文字幕 | 国产免费久久精品国产传媒| av永远在线免费观看| 尤物在线观看一区蜜桃| 亚洲精品中文字幕无码蜜桃| 亚洲国产日韩在线精品频道| 91偷拍与自偷拍亚洲精品86|