亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Python技術(shù)的校園網(wǎng)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)

        2019-11-05 07:45:15熊輝
        科技視界 2019年28期
        關(guān)鍵詞:信息化設(shè)計(jì)

        熊輝

        【摘 要】面對(duì)高速發(fā)展的經(jīng)濟(jì)以及科技新突破給我國(guó)帶來(lái)的翻天覆地變化,互聯(lián)網(wǎng)已經(jīng)普及國(guó)內(nèi)外,人們的生活也因科技的作用而便利了很多,但科技是一把“雙刃劍”,互聯(lián)網(wǎng)的高速發(fā)展與各種信息的傳播也讓給我們帶來(lái)了“信息污染”,一時(shí)間很難辨別信息的正確性。對(duì)于校園數(shù)字化建設(shè)來(lái)說(shuō),也同樣不可避免的會(huì)受到“信息污染”的干擾,各種無(wú)效信息使我們對(duì)正確信息的查找與定位變得艱難,而調(diào)查發(fā)現(xiàn)對(duì)于很多學(xué)校來(lái)說(shuō),大多是運(yùn)用很普通的搜索引擎檢索信息,而普通的搜索引擎難以搜集到有效、正確的信息。針對(duì)上述問(wèn)題,為了還學(xué)校一個(gè)高效、清凈的信息環(huán)境,筆者將結(jié)合Python技術(shù)對(duì)校園網(wǎng)的搜索引擎進(jìn)行相關(guān)介紹和設(shè)計(jì),設(shè)計(jì)方案僅供參考。

        【關(guān)鍵詞】Python技術(shù);校園網(wǎng)搜索引擎;設(shè)計(jì);信息化;信息污染

        中圖分類(lèi)號(hào): TP391.3;TP393.18文獻(xiàn)標(biāo)識(shí)碼: A文章編號(hào): 2095-2457(2019)28-0173-002

        DOI:10.19694/j.cnki.issn2095-2457.2019.28.079

        【Abstract】In the face of the rapid development of the economy and new breakthroughs in science and technology to bring about great changes in our country, the Internet has been popularized at home and abroad, people's lives are also because of the role of science and technology and facilitate a lot, but science and technology is a "double-edged sword", the rapid development of the Internet and the dissemination of various information has also brought us "information pollution", It's hard to tell the correctness of information for a while. For the campus digital construction, is also inevitable by the "information pollution" interference, all kinds of invalid information makes us to find and locate the correct information become difficult, and the survey found that for many schools, most lying through a very common search engine to retrieve information, and ordinary search engines difficult to collect effective, The right information. In view of the above-mentioned problems, in order to return the school an efficient and clean information environment, the author will combine Python technology on the campus network search engine related introduction and design, design design for reference only.

        【Key words】Python technology; Campus web search engine; Design; Information; Information pollution

        21世紀(jì)是一個(gè)經(jīng)濟(jì)高速發(fā)展,高度信息化的社會(huì),互聯(lián)網(wǎng)在我國(guó)境內(nèi)幾乎已經(jīng)全覆蓋,通過(guò)它人們不出門(mén)就能夠獲取各種各樣的信息,但如今隨著它的高速發(fā)展,各種各樣的網(wǎng)絡(luò)信息也隨處都是,人們有時(shí)候很難在第一時(shí)間找到自己想要的信息,因此要想讓自己的信息搜索效率提高就需要改進(jìn)搜索引擎,好的搜索引擎能夠極大的幫助人們獲取自己想要的信息。本文將主要針對(duì)校園網(wǎng)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)進(jìn)行探討,而要將校園網(wǎng)搜索引擎設(shè)計(jì)好則需要運(yùn)用Python技術(shù),筆者下文將對(duì)此展開(kāi)分析,第一,從建立校園網(wǎng)搜索引擎的相關(guān)流程展開(kāi):首先構(gòu)建設(shè)計(jì)框架,然后再利用反向引擎進(jìn)行索引。第二,對(duì)scrapy爬蟲(chóng)框架運(yùn)用于校園網(wǎng)搜索引擎的設(shè)計(jì)進(jìn)行詳細(xì)介紹:首先解釋Scrapy爬蟲(chóng)框架的含義以及其運(yùn)行步驟,然后在Scrapy爬蟲(chóng)對(duì)URL進(jìn)行查重種推薦更有效的算法進(jìn)行查重,最后對(duì)寫(xiě)完爬蟲(chóng)后要進(jìn)行相關(guān)的設(shè)置進(jìn)行簡(jiǎn)單介紹。

        1 建立搜索引擎的相關(guān)流程

        1.1 首先建立框架

        要想將校園搜索引擎建立好首先就要將設(shè)計(jì)的流程先分析好,然后再對(duì)Python語(yǔ)言中的Scrapy開(kāi)源網(wǎng)絡(luò)爬蟲(chóng)結(jié)構(gòu)進(jìn)行分析然后做設(shè)計(jì),這之后要進(jìn)行分析以Python語(yǔ)言為基礎(chǔ)的Whoosh索引檢索庫(kù),最后還要測(cè)試自己建構(gòu)的系統(tǒng)的實(shí)際效用。

        1.2 什么是網(wǎng)絡(luò)爬蟲(chóng)

        網(wǎng)絡(luò)爬蟲(chóng)的前身是“網(wǎng)絡(luò)漫游者”,1993年時(shí)已經(jīng)誕生?!熬W(wǎng)絡(luò)漫游者”被稱(chēng)作網(wǎng)絡(luò)機(jī)器人,是全世界中第一個(gè)出現(xiàn)的網(wǎng)絡(luò)爬蟲(chóng)程序。之所以將其網(wǎng)絡(luò)爬蟲(chóng)是因?yàn)樗軌蚶脠D論程序中的遍歷算法將互聯(lián)網(wǎng)中充斥的信息下載下來(lái),而若要建立搜索引擎,利用圖論程序中的遍歷算法先下載互聯(lián)網(wǎng)的信息這個(gè)步驟是必不可少的。此方法目的是要利用互聯(lián)網(wǎng)中的每個(gè)網(wǎng)頁(yè)中的超鏈接將每個(gè)網(wǎng)頁(yè)相互連接,即將互聯(lián)網(wǎng)比作一張巨大的網(wǎng)絡(luò),里面的每個(gè)網(wǎng)頁(yè)比作一個(gè)點(diǎn),然后利用網(wǎng)頁(yè)的超鏈接將每個(gè)網(wǎng)頁(yè)鏈接,這樣才能為搜索引擎的有效使用打好堅(jiān)實(shí)的基礎(chǔ)。

        1.3 利用搜索引擎進(jìn)行索引

        要進(jìn)行有效的索引必須進(jìn)行布爾集合運(yùn)算,這是所有搜索引擎的基礎(chǔ),無(wú)論其設(shè)計(jì)的引擎有多么高端智能,都要運(yùn)用該運(yùn)算,總之布爾運(yùn)算是索引的核心。布爾運(yùn)算的三個(gè)運(yùn)算邏輯是and、or和not,O與I是該運(yùn)算主要使用的值。

        索引包括正向索引和反向索引。其中正索引是先把每篇文章中的關(guān)鍵詞圈出并建立集合,然后再將關(guān)鍵詞提取出來(lái),索引程序會(huì)將每一個(gè)關(guān)鍵詞出現(xiàn)的位置以及次數(shù)記下,進(jìn)行正索引時(shí)就能夠有效的對(duì)文檔中的關(guān)鍵詞進(jìn)行有效的查詢(xún)、索引、分析,注意正向索引以遍歷掃描為基礎(chǔ),要掃描所有文檔關(guān)鍵詞得出結(jié)論,。而且這個(gè)過(guò)程會(huì)受到系列因素的限制,比如內(nèi)存、處理器和時(shí)間等,這就導(dǎo)致工作效率不高。因此我們實(shí)際工作中主要是對(duì)反向索引進(jìn)行設(shè)計(jì)和運(yùn)用,反向索引以“單詞——文檔矩陣”為結(jié)構(gòu),可以通過(guò)關(guān)鍵詞快速的搜索自己想要查詢(xún)信息,因此對(duì)于校園網(wǎng)搜索引擎的設(shè)計(jì),筆者是運(yùn)用反向索引程序進(jìn)行索引。

        2 將scrapy爬蟲(chóng)框架運(yùn)用于校園網(wǎng)搜索引擎中

        2.1 Scrapy爬蟲(chóng)框架的介紹以及運(yùn)行步驟

        Scrapy是一種爬蟲(chóng)框架,它的效用發(fā)揮需要以Python語(yǔ)言技術(shù)為基礎(chǔ),這種爬蟲(chóng)結(jié)構(gòu)進(jìn)入到網(wǎng)站數(shù)據(jù)中就能夠提取想要的數(shù)據(jù)信息。不僅如此,而且它對(duì)數(shù)據(jù)的挖掘、歷史數(shù)據(jù)的存儲(chǔ)、自動(dòng)測(cè)試和檢測(cè)以及信息的處理方面都起來(lái)重要的作用,應(yīng)用廣泛。

        Scrapy的運(yùn)行步驟主要包括四步。第一,為了能夠?qū)ξ磥?lái)信息進(jìn)行有效抓取,需要在基于Scrapy爬蟲(chóng)框架的校園網(wǎng)搜索引擎的調(diào)度器中提取URL(連接)。第二,利用該引擎將連接(URL)變成一個(gè)請(qǐng)求通過(guò)下載器傳送并且通過(guò)下載器將其下載下來(lái),之后嘴周會(huì)將其包裝變成相應(yīng)的回答。第三,scrapy爬蟲(chóng)接受應(yīng)答。第四,爬蟲(chóng)接收后若解讀出實(shí)體則將其交給管道進(jìn)行在處理,而如果解析出的是URL(連接)則將其床給調(diào)度器,最后信息就會(huì)被抓取。

        2.2 利用Scrapy爬蟲(chóng)框架對(duì)URL進(jìn)行查重

        利用Scrapy爬蟲(chóng)框架對(duì)URL進(jìn)行查重,主要是利用RFP Dupe Filter類(lèi)進(jìn)行實(shí)現(xiàn)的,這個(gè)過(guò)程的實(shí)現(xiàn)需要輸入一系列代碼,這之后就能夠?qū)π畔⑦M(jìn)行有效的查重。這個(gè)過(guò)程中Scrapy有自帶的算法對(duì)URL查重,但是因?yàn)榫W(wǎng)頁(yè)數(shù)量的巨大,而且查重過(guò)程還會(huì)占用很大的內(nèi)存,因此該算法存在一定的缺陷,不太能適用。所以利用Scrapy爬蟲(chóng)框架對(duì)URL進(jìn)行查重時(shí)推薦用Bloom Filter算法,筆者運(yùn)用此算法可以利用布隆過(guò)濾器節(jié)省大量的內(nèi)存。

        2.3 寫(xiě)完爬蟲(chóng)后要進(jìn)行相關(guān)的設(shè)置

        一般寫(xiě)完爬蟲(chóng)之后不做另外的設(shè)置的話(huà),那么對(duì)網(wǎng)站訪(fǎng)問(wèn)時(shí)就會(huì)被立刻禁止,所以寫(xiě)完爬蟲(chóng)不能直接默認(rèn),要進(jìn)行相關(guān)設(shè)置,有兩種方法可供選擇。第一中方法可以在settings-py的文件中對(duì)download-delay程序進(jìn)行相關(guān)的設(shè)置,為了能夠有效降低爬蟲(chóng)爬取頻率要對(duì)其賦值1s以上,不過(guò)這種方法的缺點(diǎn)是會(huì)使抓取目標(biāo)的時(shí)間延長(zhǎng)。第二種方法可以運(yùn)用user agent池,筆者運(yùn)用這種設(shè)置方法后可以更加高效的縮短抓取目標(biāo)的時(shí)間,因此推薦在此過(guò)程中運(yùn)用第二種方法對(duì)爬蟲(chóng)進(jìn)行相關(guān)設(shè)置,以免Scrapy爬蟲(chóng)被禁止。

        3 結(jié)語(yǔ)

        綜合上述分析可知,要運(yùn)用python技術(shù)建立高效的校園網(wǎng)搜索引擎是一個(gè)科技含量高且難度大的工程,但為了校園網(wǎng)絡(luò)的清凈,筆者認(rèn)為學(xué)校還是很有必要跟上科技的潮流,對(duì)學(xué)校的相關(guān)搜索引擎進(jìn)行改善。本文針對(duì)如今“信息污染”嚴(yán)重化的問(wèn)題對(duì)基于python技術(shù)的校園網(wǎng)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)進(jìn)行了相應(yīng)的分析,主要是為同行提供了筆者認(rèn)為在索引中更加有效的方法,而且在實(shí)際的測(cè)試中通過(guò)相應(yīng)的技術(shù)改進(jìn)和正確的方法可以有效的控制索引更新的速度從而提高其更新的頻率,使校園網(wǎng)收取信息更及時(shí),并且筆者利用Python技術(shù)使搜索程序簡(jiǎn)單化、高效化。希望上述方法能給相關(guān)從業(yè)者提供有價(jià)值的參考,讓搜索引擎更加高效,還學(xué)校、社會(huì)一個(gè)更加清凈的“信息社會(huì)”。

        【參考文獻(xiàn)】

        [1]陳道存[1],劉斌[2],張?chǎng)蝃3].高校FTP搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J].蚌埠學(xué)院學(xué)報(bào),2015(3):1-5.

        [2]楊國(guó)志,江業(yè)峰.基于python的聚焦網(wǎng)絡(luò)爬蟲(chóng)數(shù)據(jù)采集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].科學(xué)技術(shù)創(chuàng)新,2018(2):73-74.

        [3]陳蒙,王鋒,鄧輝,etal.基于Python的天文軟件命令行界面設(shè)計(jì)與實(shí)現(xiàn)[J].天文研究與技術(shù),2015,12(2):196-203.

        [4]王天奇,管新潮.語(yǔ)料庫(kù)語(yǔ)言學(xué)研究的技術(shù)拓展——《Python文本分析:用可實(shí)現(xiàn)的方法挖掘數(shù)據(jù)價(jià)值》評(píng)介[J].外語(yǔ)電化教學(xué),2017(05):94-97.

        猜你喜歡
        信息化設(shè)計(jì)
        月“睹”教育信息化
        月“睹”教育信息化
        幼兒教育信息化策略初探
        甘肅教育(2020年18期)2020-10-28 09:06:02
        何為設(shè)計(jì)的守護(hù)之道?
        《豐收的喜悅展示設(shè)計(jì)》
        流行色(2020年1期)2020-04-28 11:16:38
        “云會(huì)計(jì)”在中小企業(yè)會(huì)計(jì)信息化中的應(yīng)用分析
        活力(2019年21期)2019-04-01 12:16:40
        瞞天過(guò)海——仿生設(shè)計(jì)萌到家
        設(shè)計(jì)秀
        海峽姐妹(2017年7期)2017-07-31 19:08:17
        有種設(shè)計(jì)叫而專(zhuān)
        Coco薇(2017年5期)2017-06-05 08:53:16
        信息化是醫(yī)改的重要支撐
        国产亚洲午夜精品| 国产尤物精品视频| 成人免费看片又大又黄| 亚洲在AV极品无码天堂手机版 | 免费看欧美日韩一区二区三区| 男女男生精精品视频网站| 刚出嫁新婚少妇很紧很爽| 国产一品二品三品精品久久| 午夜精品免费视频一区二区三区| 免费不卡在线观看av| 国模无码人体一区二区| 国内精品久久久久国产盗摄| 亚洲综合小综合中文字幕| 邻居少妇张开腿让我爽了一夜| 香蕉久久福利院| 美女污污网站| 视频一区视频二区亚洲免费观看 | 韩国日本一区二区在线| 午夜精品久久久久久久无码| 中文字幕亚洲无线码| 亚洲欧洲日产国码久在线| 蜜桃夜夜爽天天爽三区麻豆av| 久久久久人妻精品一区三寸| 四虎影院在线观看| 亚洲视频在线播放免费视频 | 99精品欧美一区二区三区| 亚洲无码a∨在线视频| 在线高清亚洲精品二区| 无码h黄肉3d动漫在线观看| 久久综合精品国产丝袜长腿| 中文字幕有码高清| 成人大片免费视频播放一级| 亚洲国产精品ⅴa在线观看| 色悠久久久久综合欧美99| 欧美亚洲国产丝袜在线| 在线国人免费视频播放| 亚洲一区二区三区无码久久| 亚洲av无码久久寂寞少妇| 激,情四虎欧美视频图片| 经典三级免费看片天堂| 国产成本人片无码免费2020|