亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)對(duì)于搜索引擎技術(shù)重要性的探究

        2020-12-28 02:10:22許恒源袁彩虹
        電腦知識(shí)與技術(shù) 2020年33期
        關(guān)鍵詞:大數(shù)據(jù)分析搜索引擎發(fā)展趨勢(shì)

        許恒源 袁彩虹

        摘要:搜索引擎作為人們生活工作、科研等必不可少的核心工具之一,它在很大程度上影響了人們的日常生活。在互聯(lián)網(wǎng)技術(shù)飛速發(fā)展,信息急速增長等情況下,人們需要功能更加強(qiáng)大的搜索引擎。對(duì)此,該文介紹大數(shù)據(jù)分析和搜索引擎技術(shù)相結(jié)合帶來的益處和優(yōu)勢(shì)。大數(shù)據(jù)搜索引擎技術(shù)也必然會(huì)成為搜索引擎的一個(gè)正確的發(fā)展方向,并為人們學(xué)習(xí)和生活提供更加有效的幫助。

        關(guān)鍵詞:搜索引擎;大數(shù)據(jù)分析;發(fā)展趨勢(shì)

        中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1009-3044(2020)33-0041-03

        開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

        大數(shù)據(jù)時(shí)代已經(jīng)到來,隨著互聯(lián)網(wǎng)的不斷發(fā)展,人們無時(shí)無刻不在產(chǎn)生新的數(shù)據(jù),并且堆積新的數(shù)據(jù),人們也可以使用已經(jīng)存在的大數(shù)據(jù)分析出新的數(shù)據(jù),得到新的答案。搜索引擎在我們的現(xiàn)實(shí)生活中已經(jīng)成為不可缺少的一部分。如谷歌、百度、搜狗等這些搜索引擎已經(jīng)成為幫助人們解決問題查找答案的代名詞,并且已經(jīng)與人們的生活、學(xué)習(xí)和工作密不可分,無論是新聞、天氣、疾病、文獻(xiàn)或者某些名人的信息等人們想知道的信息,都可以從搜索引擎中得到答案。在兩大技術(shù)廣泛應(yīng)用的時(shí)候,將大數(shù)據(jù)分析技術(shù)和搜索引擎技術(shù)相結(jié)合會(huì)更有利于人們搜索自己需要的答案。本文也在此猜想的基礎(chǔ)上進(jìn)行深入探索。

        1 搜索引擎

        1.1搜索引擎的定義和發(fā)展歷史

        搜索引擎是一種計(jì)算機(jī)程序,它是特定的搜索策略,用在文件、信息記載或數(shù)據(jù)庫中進(jìn)行搜索,并且它的核心模塊一般包括爬蟲、索引、檢索和排序等。搜索引擎自身的特點(diǎn)包括信息查找和抓取的速度之快、挖掘信息的深度之深、檢索出的內(nèi)容具有多樣性和廣泛性等。

        摘要搜索引擎是一種工具,它根據(jù)搜索字符串,搜索引擎返回結(jié)果,這被稱為搜索引擎結(jié)果頁(SERPs)。通常情況下,搜索引擎會(huì)得到正確的結(jié)果,并顯示最相關(guān)的結(jié)果,所以搜索引擎沒有固定的規(guī)則來顯示準(zhǔn)確的結(jié)果。

        第一代搜索引擎具有的特殊要點(diǎn)是通過人工分類、存放網(wǎng)站的各種目錄,并且用戶可以通過多種方式尋找網(wǎng)站,因?yàn)樵诋?dāng)時(shí)那個(gè)互聯(lián)網(wǎng)剛剛興起的時(shí)代,那時(shí)的信息與技術(shù)和現(xiàn)在根本無法相比。代表有Yahoo。

        后來隨著網(wǎng)絡(luò)上的信息量快速增加和數(shù)據(jù)的大量出現(xiàn),第二代搜索引擎開始利用關(guān)鍵字查詢信息,基本上就是利用爬蟲技術(shù)( Crawler)等來采集信息和索引網(wǎng)站。第二代最成功的代表就是Google。

        1.2 搜索引擎的工作原理

        現(xiàn)在的搜索引擎進(jìn)行工作一般都是以下幾點(diǎn):1)搜索引擎蜘蛛訪問Web,進(jìn)行網(wǎng)頁抓取;2)對(duì)抓取來的網(wǎng)頁進(jìn)行預(yù)處理然后再建立索引;3)在搜索界面進(jìn)行查詢服務(wù)。

        因?yàn)楝F(xiàn)代搜索引擎搜索信息的速度快范圍廣,并且檢索內(nèi)容廣泛,所以當(dāng)代搜索引擎技術(shù)基本上可以無條件滿足人們的各種各樣的數(shù)據(jù)類型的檢索,例如智能語言,不僅音頻映像圖片可以被檢索,甚至人類的指紋、面部特征等都可以被檢索。

        1.3現(xiàn)代搜索引擎的不足之處

        眾所周知,人們可以通過使用搜索引擎來獲得自己想知道的答案,但是現(xiàn)代的搜索仍然不是人們想要達(dá)到的最終目的?,F(xiàn)代搜索引擎存在的不足之處有:(1)現(xiàn)代搜索引擎無法實(shí)時(shí)檢索,對(duì)信息進(jìn)行實(shí)時(shí)更新的能力比較差,主要是現(xiàn)代網(wǎng)絡(luò)信息量巨大。(2)信息無法準(zhǔn)確地分類,因?yàn)樾畔⒔⑺饕龜?shù)據(jù)庫的同時(shí),接觸到的信息量過于巨大,所以會(huì)導(dǎo)致分類不準(zhǔn)確。

        因此,人們?cè)谑褂盟阉饕鏁r(shí),為了提高搜索的效率,經(jīng)常會(huì)使用一些搜索技巧,例如在Coogle搜索中使用邏輯符號(hào)搜索就是一種老套的技術(shù):利用雙引號(hào)(“”)查詢完全符合關(guān)鍵字串的網(wǎng)站、在關(guān)鍵詞的前面使用加號(hào)+就表明搜索結(jié)果中的網(wǎng)頁上必須有該關(guān)鍵字、在關(guān)鍵詞的前面使用減號(hào)一就表明在查詢結(jié)果中不能出現(xiàn)該關(guān)鍵詞。

        通過搜索引擎優(yōu)化技術(shù)SEO(Search Engine Optimization)也是一種好的方法,可以有效地提升搜索的覆蓋面,但是它還是不能準(zhǔn)確到其中最重要的一點(diǎn),并且不能夠通過數(shù)據(jù)來分析搜索到的結(jié)果的其他可能性。

        2 將大數(shù)據(jù)的分析融入搜索引擎中

        2.1 大量數(shù)據(jù)堆積

        由于人們已經(jīng)到了離不開信息和數(shù)據(jù)的地步,所以大量數(shù)據(jù)開始從各個(gè)方面產(chǎn)生,并且堆積在一起。人工整理的數(shù)據(jù)主要掌握在政府部門、機(jī)關(guān)組織和一些企業(yè)手里;社交產(chǎn)生的數(shù)據(jù),例如QQ、微信等聊天數(shù)據(jù)或者是郵件、App產(chǎn)生的數(shù)據(jù);個(gè)人的云應(yīng)用產(chǎn)生的數(shù)據(jù),許多用戶現(xiàn)在已經(jīng)選擇將數(shù)據(jù)保存在云端;物聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù),例如水文監(jiān)測(cè)、監(jiān)控錄像等物聯(lián)網(wǎng)應(yīng)用,每時(shí)每刻都在產(chǎn)生大量的數(shù)據(jù)?,F(xiàn)在正處于大數(shù)據(jù)的時(shí)代,人們可以輕易地利用信息技術(shù)快速地了解更多的信息。例如,用戶用手機(jī)搜索某樣?xùn)|西,數(shù)據(jù)會(huì)上傳到大數(shù)據(jù)中心,數(shù)據(jù)庫會(huì)分析信息并反饋給應(yīng)用程序,系統(tǒng)就會(huì)清楚地了解到要向不同用戶推薦的內(nèi)容。

        2.2 大數(shù)據(jù)對(duì)搜索的價(jià)值

        2.2.1 大數(shù)據(jù)分析的用途

        大數(shù)據(jù)分析基本分為可視化分析( Analytic Visualizations)、數(shù)據(jù)挖掘算法( Data Mining Algorithms)、預(yù)測(cè)性分析能力(Pre-dictive Analytic Capabilities)、語義引擎(Semantic Engines)、數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)倉庫。

        2.2.2 將兩種技術(shù)相融合的價(jià)值

        根據(jù)筆者多方面查找的資料和對(duì)這兩種技術(shù)的分析發(fā)現(xiàn),由于現(xiàn)在人們使用的搜索引擎還無法和大數(shù)據(jù)分析深度相結(jié)合,不能更直觀地展現(xiàn)給使用者,所以沒有了解過大數(shù)據(jù)分析的人使用搜索引擎是無法查得出未來事情的,只能憑借一味地猜想。因此,需要將搜索引擎更進(jìn)一步的智能化,使抓取的網(wǎng)頁和提取的數(shù)據(jù)更加的精確,由搜索引擎自我進(jìn)行大數(shù)據(jù)分析并給出結(jié)果,這樣子在人們搜索時(shí)就可以得到更深入有效的答案,不需要人們自己去查找數(shù)據(jù)庫分析數(shù)據(jù)得出結(jié)論。即在現(xiàn)有搜索引擎的基礎(chǔ)上,增加對(duì)“大數(shù)據(jù)”處理和分析的能力。

        3 大數(shù)據(jù)分析與搜索引擎相結(jié)合的實(shí)驗(yàn)研究

        大數(shù)據(jù)分析方向是分析的一個(gè)主要環(huán)節(jié),大致可以分為六種:可視化分析、數(shù)據(jù)挖掘算法、預(yù)測(cè)性分析能力、語義引擎、數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理、數(shù)據(jù)存儲(chǔ),數(shù)據(jù)倉庫,它們各自都是不同的方向和特點(diǎn)。在搜索引擎中,文件多是以大數(shù)據(jù)集的方式出現(xiàn),根據(jù)多方搜索,我們發(fā)現(xiàn)通過在搜索引擎上只能查找到已經(jīng)存在的數(shù)據(jù)例如過去和現(xiàn)在波士頓的房價(jià),以及波士頓各地區(qū)犯罪次數(shù),但根本無法分析到波士頓的房價(jià)的變化和各地的治安情況之間的關(guān)系,因此筆者翻閱瀏覽了國外的某個(gè)數(shù)據(jù)庫( Kaggle)并找到所需要的數(shù)據(jù)集進(jìn)行分析。找到了一個(gè)506行13列的數(shù)據(jù)集,里面包括犯罪率( CRIM: per capita crime rate bytown)、CHAS: Charles River dummy variable r_1 if tract boundsriver;0 0therwise)、LSTAT:%lower status of the population,房價(jià)(PRICE: Median value of owner-occupied homes),并使用R和MATLAB分析方法來得出各個(gè)數(shù)據(jù)之間存在的關(guān)系。在大量的實(shí)驗(yàn)數(shù)據(jù)中,選擇了下面幾組數(shù)據(jù)以展開分析。

        經(jīng)過這一系列科學(xué)并有效地分析證明了房價(jià)高的地方治安較好犯罪率也較低。

        以Google開發(fā)出的軟件為例,用于數(shù)據(jù)密集型應(yīng)用的Google File System;簡(jiǎn)化處理數(shù)據(jù)集和創(chuàng)建大規(guī)模數(shù)據(jù)集的編程模型MapReduce;用于管理和存儲(chǔ)大規(guī)模的非結(jié)構(gòu)化數(shù)據(jù)的BigTable;處理分布式系統(tǒng)隊(duì)列分組并且執(zhí)行任務(wù)調(diào)度的Google Workqueue等軟件,都為搜索引擎和大數(shù)據(jù)分析兩項(xiàng)技術(shù)相結(jié)合起到很大的作用。

        4 搜索引擎與大數(shù)據(jù)分析技術(shù)相結(jié)合的影響

        搜索引擎與大數(shù)據(jù)分析技術(shù)相結(jié)合,將搜索引擎建立在知識(shí)庫、數(shù)據(jù)庫的技術(shù)上,使搜索更加的智能化,并通過對(duì)信息進(jìn)行提取和分析,精準(zhǔn)地實(shí)現(xiàn)了智能化搜索這一特點(diǎn)。

        5 結(jié)論與展望

        時(shí)代進(jìn)步科技發(fā)展,搜索引擎技術(shù)也一步步的從最初分類目錄導(dǎo)航進(jìn)化到海量網(wǎng)頁關(guān)聯(lián)再更新到了細(xì)粒度的知識(shí)實(shí)體抽取,從第一代進(jìn)化到第三代,搜索引擎技術(shù)變得愈來愈成熟也更加龐大,囊括的輔助性的知識(shí)內(nèi)容也越來越多,簡(jiǎn)簡(jiǎn)單單的一行搜索框背后隱藏著極其復(fù)雜的機(jī)制。人們想要的是找準(zhǔn)唯一的、正確的答案,所以搜索引擎與大數(shù)據(jù)分析技術(shù)相結(jié)合是未來必不可少的、更加智能的搜索技術(shù)。若想要了解清楚在這個(gè)特殊的技術(shù)背后的原理,我們?nèi)孕枰谖磥硗度氪罅康墓ぷ鞑⒄归_更加深入的研究,僅僅做幾組實(shí)驗(yàn)通過數(shù)據(jù)淺顯的證明是不夠的。我期望這一先驅(qū)性的工作可以激勵(lì)本領(lǐng)域更多的同行研究人員在此方向上開展更為相近深入的研究。讓搜索引擎將在我們以后的生活中發(fā)揮更加出色的作用,將它與我們的生活變得更加的密不可分。

        參考文獻(xiàn):

        [1]姜恩波,覃琳.基于結(jié)構(gòu)化數(shù)據(jù)的搜索引擎[J].現(xiàn)代情報(bào),2019,39(2):66-72.

        [2]李?,?百度公司搜索引擎技術(shù)的專利分析[Jl,中國發(fā)明與專利,2019(4):99-106.

        [3)周永紅,吳芳.大數(shù)據(jù)時(shí)代搜索引擎用戶的信息安全問題研究[J].圖書館,2017(5):32-35,57.

        [4]劉波,計(jì)算機(jī)搜索引擎智能化技術(shù)探析[J].現(xiàn)代信息科技,2019(5):102-104.

        [5]龍佳,論搜索引擎的特點(diǎn)與發(fā)展態(tài)勢(shì)[J].電腦知識(shí)與技術(shù),2019,15(1):200-201.

        [6]方師師.搜索引擎中的新聞呈現(xiàn):從新聞等級(jí)到千人千搜[J] 新聞?dòng)浾撸?018(12):45-57.

        【通聯(lián)編輯:代影】

        作者簡(jiǎn)介:許恒源(1999-),男,河南溫縣人,河南大學(xué),本科,主要研究方向?yàn)橛?jì)算機(jī)科學(xué)與技術(shù);袁彩虹(1980-),女,河南開封人,河南大學(xué),講師,博士,主要研究方向?yàn)橛?jì)算機(jī)視覺與深度學(xué)習(xí)。

        猜你喜歡
        大數(shù)據(jù)分析搜索引擎發(fā)展趨勢(shì)
        面向大數(shù)據(jù)遠(yuǎn)程開放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
        面向大數(shù)據(jù)分析的信息管理實(shí)踐教學(xué)體系構(gòu)建
        傳媒變局中的人口電視欄目困境與創(chuàng)新
        科技傳播(2016年19期)2016-12-27 14:35:21
        大數(shù)據(jù)分析的移動(dòng)端在網(wǎng)絡(luò)課堂教學(xué)中的應(yīng)用
        論企業(yè)管理模式與企業(yè)管理現(xiàn)代化
        快速原型技術(shù)在機(jī)械制造中的應(yīng)用及發(fā)展趨勢(shì)
        鄉(xiāng)鎮(zhèn)配網(wǎng)規(guī)劃及未來發(fā)展趨勢(shì)
        分析我國品牌營銷的管理及發(fā)展問題
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        男男亚洲av无一区二区三区久久| 九九免费在线视频| 仙女白丝jk小脚夹得我好爽| 国产成人高清视频在线观看免费 | 一区二区三区视频在线观看免费| 亚洲国产天堂久久综合| 欧美极品色午夜在线视频| 日子2020一区二区免费视频| 亚洲综合原千岁中文字幕| 日本一二三区免费在线 | 国产中文字幕乱码在线| 久久国产亚洲中文字幕| 91久久精品美女高潮喷白浆| 久久一区二区av毛片国产| 国产丝袜美女| 中文字幕人妻偷伦在线视频| 久久99精品免费一区二区| 国产一区二区三区经典| 谷原希美中文字幕在线| www夜插内射视频网站| 成年站免费网站看v片在线| 一道久在线无码加勒比| 精品国产你懂的在线观看| 国产主播一区二区三区在线观看| 永久免费视频网站在线| 亚洲精品一区国产欧美| 香蕉人妻av久久久久天天| 免费国人成人自拍视频| 一区在线视频免费播放| 精品亚洲成在人线av无码| 日本中文字幕在线播放第1页| 精品久久久久久99人妻| 久久一区二区三区老熟女| 亚洲成熟丰满熟妇高潮xxxxx| 欧美最猛黑人xxxxx猛交| 日韩精品精品一区二区三区| 狼人精品剧情av在线观看| 少妇精品无码一区二区三区| 亚洲综合婷婷久久| 一区二区无码精油按摩| 神马影院日本一区二区|