亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種利用網(wǎng)絡(luò)爬蟲技術(shù)提高多語種術(shù)語庫校審效率的方法

        2023-05-24 04:51:46劉雯
        科技資訊 2023年8期
        關(guān)鍵詞:網(wǎng)絡(luò)爬蟲

        劉雯

        摘要:為保障多語種智能翻譯系統(tǒng)充分發(fā)揮其標(biāo)準(zhǔn)化、快速翻譯的作用,必須構(gòu)建高質(zhì)量的多語種術(shù)語庫,不斷充實翻譯系統(tǒng)的后臺詞匯。在多語種術(shù)語庫的構(gòu)建過程中校審是保證術(shù)語庫質(zhì)量的關(guān)鍵環(huán)節(jié)。然而,與運(yùn)用數(shù)萬詞條量、甚至體量更為龐大的待校審術(shù)語庫對比,單純使用傳統(tǒng)的人力校審方式,已經(jīng)不能滿足為智能翻譯系統(tǒng)及時擴(kuò)充術(shù)語庫的需求。針對上述問題,文章提出了一種網(wǎng)絡(luò)爬蟲技術(shù)在多語種術(shù)語庫校審中的應(yīng)用方法,并介紹了網(wǎng)絡(luò)爬蟲技術(shù)的概念、原理、分類、特點(diǎn),詳細(xì)闡述了該技術(shù)在多語種術(shù)語庫校審中的應(yīng)用實踐,最后對網(wǎng)絡(luò)爬蟲技術(shù)在翻譯和情報專業(yè)領(lǐng)域的應(yīng)用進(jìn)行了展望。

        關(guān)鍵詞:網(wǎng)絡(luò)爬蟲??多語種術(shù)語庫??校審??多語種智能翻譯系統(tǒng)

        中圖分類號:TP393.09????文獻(xiàn)標(biāo)識碼:A

        A?method?for?Improving?the?Efficiency?of?Proofreading?Multilingual

        Terminology?Databases?by?Using?Web?Crawler?Technology

        LIU?Wen

        (Beijing?Institute?of?Aerospace?Information,?Beijing,?100854?China)

        Abstract:?In?order?to?guarantee?the?multilingual?intelligent?translation?system?to?give?full?play?to?its?standardized?and?fast?translation?function,?it?is?necessary?to?build?a?high-quality?multilingual?terminology?database?and?continuously?enrich?the?background?vocabulary?of?the?translation?system.?In?the?process?of?building?the?multilingual?terminology?database,?proofreading?is?the?key?link?to?ensure?the?quality?of?the?terminology?database.?However,?compared?with?the?use?of?tens?of?thousands?of?terms?or?even?a?larger?volume?of?the?terminology?database?to?be?proofread,?the?simple?use?of?the?traditional?manual?proofreading?method?can?no?longer?meet?the?demand?for?expanding?the?terminology?database?in?time?for?the?intelligent?translation?system.?In?response?to?the?above?problems,?this?paper?proposes?an?application?method?of?web?crawler?technology?in?proofreading?multilingual?terminology?databases,?introduces?the?concept,?principle,?classification?and?characteristics?of?web?crawler?technology,?elaborates?the?application?practice?of?this?technology?in?proofreading?multilingual?terminology?databases,?and?finally?looks?forward?to?the?application?of?web?crawler?technology?in?translation?and?intelligence?professional?fields.

        Key?Words:?Web?crawler;?Multilingual?terminology?database;?Proofreading;?Multilingual?intelligent?translation?system

        在大數(shù)據(jù)時代,信息采集是一項非常重要的工作,如果單純靠人力采集信息,不僅效率低,采集成本也很高。為了從海量的網(wǎng)絡(luò)信息中快速、準(zhǔn)確地獲取需要的信息,網(wǎng)絡(luò)爬蟲應(yīng)運(yùn)而生,其不僅可以抓取網(wǎng)頁、提取信息并保存,而且還具有極高的可擴(kuò)展性[1]。目前,網(wǎng)絡(luò)爬蟲技術(shù)已經(jīng)廣泛地應(yīng)用到眾多領(lǐng)域,如金融、醫(yī)療、旅游、教育等行業(yè)[2]。

        1?網(wǎng)絡(luò)爬蟲概述

        1.1?網(wǎng)絡(luò)爬蟲的概念

        網(wǎng)絡(luò)爬蟲技術(shù)是指一種按照一定的規(guī)則,自動地抓取互聯(lián)網(wǎng)信息的程序或是腳本[3]。它作為搜索引擎的信息采集器,是搜索引擎技術(shù)的最基礎(chǔ)部分,能幫助人們在互聯(lián)網(wǎng)的海量數(shù)據(jù)中自動、高效地獲取感興趣的信息[4]。

        1.2?網(wǎng)絡(luò)爬蟲的工作原理

        網(wǎng)絡(luò)爬蟲通過請求站點(diǎn)上的HTML文檔訪問某一站點(diǎn)。它爬行Web空間,不斷從一個站點(diǎn)移動到另一個站點(diǎn),自動建立索引,并加入到網(wǎng)頁數(shù)據(jù)庫中。當(dāng)網(wǎng)絡(luò)爬蟲進(jìn)入某個超級文本時,利用HTML語言的標(biāo)記結(jié)構(gòu)來搜索信息并獲取指向其他超級文本的URL地址,無需用戶干預(yù)就能實現(xiàn)網(wǎng)絡(luò)上的自動“爬行”和搜索。

        1.3?網(wǎng)絡(luò)爬蟲的分類

        網(wǎng)絡(luò)爬蟲按照技術(shù)和結(jié)構(gòu)可分為通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲和深層網(wǎng)絡(luò)爬蟲等類型[5]。

        1.3.1?通用網(wǎng)絡(luò)爬蟲

        通用網(wǎng)絡(luò)爬蟲又稱為全網(wǎng)爬蟲,其爬取的目標(biāo)資源在全互聯(lián)網(wǎng)中,主要由初始URL集合、URL隊列、頁面爬行模塊、頁面分析模塊、頁面數(shù)據(jù)庫、鏈接過濾模塊等構(gòu)成。其在爬行時采取深度優(yōu)先、廣度優(yōu)先的策略,適用于某一主題的廣泛搜索,一般應(yīng)用于搜索引擎和大型Web服務(wù)商[6]。

        1.3.2?聚焦網(wǎng)絡(luò)爬蟲

        聚焦網(wǎng)絡(luò)爬蟲根據(jù)內(nèi)容評價、鏈接結(jié)構(gòu)評價,按照預(yù)設(shè)的主題,有選擇性地爬行[6],可將爬取目標(biāo)網(wǎng)頁定位在與主題相關(guān)的頁面中,可以節(jié)約帶寬資源和服務(wù)器資源。聚焦網(wǎng)絡(luò)爬蟲主要由初始URL集合、URL隊列、頁面爬行模塊、頁面分析模塊、頁面數(shù)據(jù)庫、鏈接過濾模塊、內(nèi)容評價模塊、鏈接評價模塊等構(gòu)成。內(nèi)容評價模塊和鏈接評價模塊能夠分別分辨內(nèi)容和鏈接的重要性,以確定優(yōu)先訪問哪些頁面。聚焦網(wǎng)絡(luò)爬蟲采取的主要策略包括基于內(nèi)容評價的爬行策略、基于鏈接評價的爬行策略,基于增強(qiáng)學(xué)習(xí)的爬行策略和基于語境圖的爬行策略。

        1.3.3?增量式網(wǎng)絡(luò)爬蟲

        增量式網(wǎng)絡(luò)爬蟲在爬行過程中,網(wǎng)頁會發(fā)生增量式的更新[6]。增量式更新是指在更新的時候只更新改變的地方,未改變的地方不更新。所以,增量式網(wǎng)絡(luò)爬蟲在爬取網(wǎng)頁的時候只爬取內(nèi)容發(fā)生變化的網(wǎng)頁或新產(chǎn)生的網(wǎng)頁,它在一定程度上能夠保證所爬取的頁面盡可能是新頁面。

        1.3.4?深層網(wǎng)絡(luò)爬蟲

        互聯(lián)網(wǎng)的網(wǎng)頁按照存在方式可以分為表層頁面和深層頁面。表層頁面指的是不需要提交表單、使用靜態(tài)的鏈接就能夠到達(dá)的靜態(tài)頁面;深層頁面則隱藏在表單后,不能通過靜態(tài)鏈接直接獲取,需要提交一定的關(guān)鍵詞才能獲取得到的頁面。在互聯(lián)網(wǎng)中,深層頁面的數(shù)量更多,所以我們要想辦法爬取深層頁面。深層網(wǎng)絡(luò)爬蟲主要由URL列表、LVS列表(填充表單的數(shù)據(jù)源)、爬行控制器、解析器、LVS控制器、表單分析器、表單處理器、響應(yīng)分析器等部分構(gòu)成。深層網(wǎng)絡(luò)爬蟲表單的填寫類型分為兩種。一種是基于領(lǐng)域知識的表單填寫:進(jìn)行語義分析,獲取關(guān)鍵詞,提交關(guān)鍵詞后,獲取Web頁面。另一種是基于網(wǎng)絡(luò)結(jié)構(gòu)分析的表單填寫:利用DOM樹形式,表示HTML網(wǎng)頁。

        1.4?網(wǎng)絡(luò)爬蟲的特點(diǎn)

        網(wǎng)絡(luò)爬蟲具有高性能、可擴(kuò)展性、健壯性等特點(diǎn)[7],具體如下。

        1.4.1?網(wǎng)絡(luò)爬蟲具有高性能

        網(wǎng)絡(luò)爬蟲的高性能是指爬蟲的信息抓取速度高。在互聯(lián)網(wǎng)的海量信息中,爬蟲的高性能是保證高效率信息采集的關(guān)鍵因素,通常以爬蟲每秒能夠下載的網(wǎng)頁數(shù)量作為性能指標(biāo),單位時間能夠下載的網(wǎng)頁數(shù)量越多,爬蟲的性能越高。

        1.4.2?網(wǎng)絡(luò)爬蟲具有可擴(kuò)展性

        網(wǎng)絡(luò)爬蟲的可擴(kuò)展性指通過增加抓取服務(wù)器和爬蟲數(shù)量來盡可能縮短抓取周期。單個爬蟲的性能雖然很高,但是要將全部網(wǎng)頁都下載到本地,仍需要相當(dāng)長的時間周期,所以網(wǎng)絡(luò)爬蟲的擴(kuò)展性有利于提高爬蟲系統(tǒng)的整體性能。

        1.4.3?網(wǎng)絡(luò)爬蟲具有健壯性

        爬蟲訪問的網(wǎng)站服務(wù)器類型繁多,所以有時可能會遇到HTML編碼不規(guī)范、被抓取服務(wù)器突然死機(jī)等異常情況,為了避免爬蟲程序在抓取過程中死掉,或者其所在的服務(wù)器宕機(jī),爬蟲應(yīng)該具有一定的健壯性,再次啟動爬蟲時,能夠恢復(fù)之前抓取的內(nèi)容和數(shù)據(jù)結(jié)構(gòu),而不是每次都需要把所有工作完全從頭做起。

        2?多語種術(shù)語庫的校審問題

        多語種智能翻譯系統(tǒng)以術(shù)語庫和語料庫為基礎(chǔ),借助機(jī)翻引擎,能夠?qū)崿F(xiàn)快速機(jī)器翻譯、人機(jī)協(xié)同翻譯等功能,為翻譯人員賦能,大幅提高翻譯效率。多語種術(shù)語庫是多語種智能翻譯系統(tǒng)的重要組成部分,其為智能翻譯系統(tǒng)提供了大規(guī)模、強(qiáng)有力的詞匯后臺支持,是多語種智能翻譯系統(tǒng)充分發(fā)揮其標(biāo)準(zhǔn)化、快速翻譯作用的重要基礎(chǔ)。多語種術(shù)語庫的構(gòu)建工作包括搜集專業(yè)詞匯、翻譯、校審、入庫等環(huán)節(jié)。為保證多語種術(shù)語庫的正確性、權(quán)威性,術(shù)語在入庫前必須經(jīng)過嚴(yán)格的校審程序,這是保證術(shù)語庫質(zhì)量的關(guān)鍵環(huán)節(jié)。術(shù)語校審流程如圖1。

        校審人員在校審術(shù)語庫時需要在互聯(lián)網(wǎng)中搜索術(shù)語,查找包含術(shù)語的文獻(xiàn)例句,以驗證術(shù)語是否正確、地道,并將例句和來源網(wǎng)址粘貼留存,以保證術(shù)語驗證可溯源。為縮短多語種術(shù)語庫校審周期,提升多語種術(shù)語庫建設(shè)水平,進(jìn)一步釋放多語種智能翻譯系統(tǒng)的效能,必須尋求具有可操作性的實用手段來提高多語種術(shù)語詞條的校審效率。而網(wǎng)絡(luò)爬蟲就是一個快速得到有效信息的重要手段,我們可以編寫輔助術(shù)語庫校審的網(wǎng)絡(luò)爬蟲程序,實現(xiàn)多語種術(shù)語例句和來源網(wǎng)址的自動抓取和匯總。

        3?網(wǎng)絡(luò)爬蟲技術(shù)在多語種術(shù)語庫校審中的應(yīng)用

        網(wǎng)絡(luò)爬蟲技術(shù)的常規(guī)應(yīng)用場景通常以收集資料為重點(diǎn),側(cè)重于數(shù)量,如搜索引擎場景,可通過深度遍歷HTML超鏈接收集盡可能多的頁面。多語種術(shù)語庫校審場景對術(shù)語相關(guān)例句的數(shù)量要求較低,通常只需要3~5條,但是對術(shù)語在例句中的語義準(zhǔn)確性和表達(dá)地道性要求較高。針對多語種術(shù)語庫校審工作的特點(diǎn),下文論述了一種專門的聚焦式爬蟲程序——校審輔助爬蟲程序。

        3.1?校審輔助爬蟲程序的應(yīng)用對象

        文章將俄語專業(yè)技術(shù)術(shù)語庫作為校審輔助爬蟲程序的應(yīng)用對象。俄語專業(yè)技術(shù)術(shù)語庫的全部俄文術(shù)語詞條已經(jīng)翻譯完畢,進(jìn)入正式入庫前的校審環(huán)節(jié),剩余待校審詞條量為61?385條。

        3.2?校審輔助爬蟲程序的數(shù)據(jù)來源

        俄文搜索引擎yandex中的網(wǎng)頁信息。

        3.3?校審輔助爬蟲程序的工作流程

        校審輔助爬蟲程序使用開發(fā)語言go1.17.5,它能夠解析校審人員提供的包含待校審術(shù)語的Excel文件,從約定的位置提取需要校審的術(shù)語詞條,然后模擬校審人員的操作習(xí)慣,自動打開本地運(yùn)行的瀏覽器,使用搜索引擎查詢目標(biāo)術(shù)語,將搜索引擎送回的前三條非廣告搜索結(jié)果采集并錄入到校審人員使用的Excel文件中,最終生成包含術(shù)語例句和例句來源網(wǎng)址的匯總Excel文件。爬蟲程序可以對復(fù)制詞條、搜索詞條、抓取例句、粘貼例句和來源網(wǎng)址等機(jī)械性重復(fù)勞動進(jìn)行自動化批量操作,校審人員只需在生成的文件中篩選例句,從而簡化校審環(huán)節(jié),提高了校審的效率。以俄語專業(yè)技術(shù)術(shù)語庫為例的校審輔助爬蟲程序的工作流程如圖2。

        在使用校審輔助爬蟲程序時,校審人員需要將待查驗的術(shù)語詞條粘貼進(jìn)input文件里的相應(yīng)位置(見圖4),一次可以粘貼至少200條術(shù)語。

        校審輔助爬蟲程序的運(yùn)行流程和關(guān)鍵代碼邏輯如下。

        第一,雙擊啟動校審輔助爬蟲程序(見圖5),程序開始解析包含俄語專業(yè)技術(shù)術(shù)語的Excel文件。

        //?準(zhǔn)備輸入文件解析引擎

        parseEngine,?err?:=?parser.NewExcelParseEngine(ctx)

        if?err?!=?nil?{

        utils.FatalReport(fmt.Errorf("init?ExcelParseEngine?fail?fail:?err=%v",?err))?os.Exit(-1)

        }

        俄語專業(yè)技術(shù)術(shù)語詞條的解析引擎的接口設(shè)計:

        type?TargetWord?struct?{

        OriginalChinese string //中文原文

        CandidatesRussian string //候選的初譯俄文:分隔符號支持三種(/;,)?QcSelectedRussian string //QC選中的俄語譯問:初譯俄文的第一個詞?QcReferRussianTexts []string?//QC獲取的參考文獻(xiàn):yandex?搜索結(jié)果的摘要?QcReferRussianLinks []string?//QC獲取的文獻(xiàn)鏈接:yandex?搜索結(jié)果的鏈接?QcReferYandexSearchLink?string //QC使用的Yandex搜索地址

        }

        type?ParseEngine?interface?{

        ParseTargetWords(inputFile,?sheet?string)?([]*TargetWord,?error)

        }

        func?NewExcelParseEngine(ctx?context.Context)?(*ExcelParseEngine,?error)???{

        return?&ExcelParseEngine{ctx:?ctx},?nil

        }

        第二,初始化網(wǎng)站。

        //?準(zhǔn)備術(shù)語詞條搜索引擎

        searchEngine,?err?:=?search.NewYandexSearchEngine(ctx)

        if?err?!=?nil?{

        utils.FatalReport(fmt.Errorf("NewYandexSearchEngine?fail:?err=%v",?err))?os.Exit(-1)

        }

        俄語搜索引擎yandex的接口設(shè)計:

        type?SearchEngine?interface?{

        Prepare(resetPageStat?func(),?isInteractiveTime?func()?bool)?chromedp.Tasks?????SearchWord(targetWord?*parser.TargetWord,?abstracts?*[]string,?absLinksAttr?*[]map[string]string,

        resetPageStat?func(),?waitPageFinished?func(duration?time.Duration))?chromedp.Tasks

        }

        func?NewDefaultSearchEngine(ctx?context.Context)?(SearchEngine,?error)?{?return?NewYandexSearchEngine(ctx)

        }

        func?NewYandexSearchEngine(ctx?context.Context)?(*YandexSearchEngine,?error){

        return?&YandexSearchEngine{ctx:?ctx},?nil

        }

        第三,爬蟲程序執(zhí)行搜索動作,搜索包含術(shù)語的例句(見圖6),提取搜索結(jié)果,生成包含術(shù)語例句和例句來源網(wǎng)址的Excel文件(見圖7)。

        //?執(zhí)行?QC?校對任務(wù)

        go?Execute(InputExcelFile,?InputExcelSheet,?parseEngine,?searchEngine,?outputFileHandler,?signalChan)

        //?QC校對任務(wù)執(zhí)行

        func?Execute(fileName,?sheetName?string,?parseEngine?parser.ParseEngine,?searchEngine?search.SearchEngine,

        outputFileHandler?*excelize.File,?signalChan?chan?os.Signal)?{

        var?err?error

        var?input?string

        //?設(shè)置QC任務(wù)執(zhí)行標(biāo)記

        if?err?=?utils.MarkExecuteStat(outputFileHandler);?err?!=?nil?{

        utils.FatalReport(fmt.Errorf("MarkExecuteStat?fail:?err=%v",?err))

        os.Exit(-1)

        }

        //?程序退出時取消QC任務(wù)標(biāo)記

        defer?func()?{

        if?err?=?utils.UnMarkExecuteStat(outputFileHandler);?err?!=?nil?{

        utils.FatalReport(fmt.Errorf("UnMarkExecuteStat?fail:?err=%v",?err))

        os.Exit(-1)

        }

        }()

        //?解析輸入文件中的目標(biāo)詞匯

        targetWords,?err?:=?parseEngine.ParseTargetWords(fileName,?sheetName)

        if?err?!=?nil?{

        utils.FatalReport(fmt.Errorf("ParseTargetWords?fail:?err=%v",?err))

        os.Exit(-1)

        }

        //?初始化瀏覽器

        taskCtx,?taskCancel?:=?utils.InitChromeCtx()

        defer?taskCancel()

        fmt.Printf("確認(rèn)已安裝?chrome?瀏覽器?[按回車鍵確認(rèn)]:")

        _,?_?=?fmt.Scanf("%s",?&input)

        fmt.Printf("確認(rèn)需要校對的目標(biāo)數(shù)量(%d個)?[按回車鍵確認(rèn)]:",?len(targetWords))

        _,?_?=?fmt.Scanf("%s",?&input)

        chromedp.ListenTarget(taskCtx,?utils.TargetEvent)

        glog.Infof("Yandex準(zhǔn)備中...")

        ……(過程代碼省略)

        //獲取搜索結(jié)果頁地址

        chromedp.Location(&targetWord.QcReferYandexSearchLink),

        //獲取首頁結(jié)果地址

        chromedp.AttributesAll(resultLinkSel,?absLinksAttr,?chromedp.ByQueryAll,?chromedp.AtLeast(0)),

        //獲取首頁結(jié)果摘要?chromedp.Evaluate(resultTextSelFunc,?abstracts),

        }}

        3.4?校審輔助爬蟲程序的效果和特點(diǎn)

        文章選取了200個術(shù)語詞條,分別計算了純?nèi)斯ば徦璧臅r間和使用爬蟲程序輔助校審所需的時間。結(jié)果顯示,在校審環(huán)節(jié)完成一次“從校審表里復(fù)制詞條→在互聯(lián)網(wǎng)中搜索詞條→復(fù)制詞條例句→在校審表中粘貼例句和來源網(wǎng)址”的操作,純?nèi)斯て骄脮r為30?s,應(yīng)用校審輔助爬蟲程序后,批量抓取200條詞條需要約15?min,完成一次上述操作僅需要約5?s,搜索術(shù)語、摘取例句并粘貼例句和來源網(wǎng)址的時間大幅縮減。而且,爬蟲抓取例句的精準(zhǔn)度較好,校審人員從抓取結(jié)果中基本上能篩選出合適的例句,但在術(shù)語翻譯錯誤的情況下可能出現(xiàn)人工重新搜索的情況。可見,校審輔助爬蟲程序可以大幅降低校審的操作時間,其例句抓取精準(zhǔn)度受術(shù)語詞條翻譯質(zhì)量的影響,對于翻譯正確的術(shù)語可以實現(xiàn)準(zhǔn)確的例句抓取。此外,校審輔助爬蟲程序還有以下特點(diǎn)。

        3.4.1?支持多語種術(shù)語校審

        校審輔助爬蟲程序支持英語、法語和俄語術(shù)語例句的搜索和抓取,根據(jù)不同語種,校審輔助爬蟲程序?qū)釉撜Z種的主流搜索引擎進(jìn)行搜索。例如:搜索俄語術(shù)語時啟動俄語的主流搜索引擎yandex(https://ya.ru/),搜索英語術(shù)語時啟動英語的主流搜索引擎Google(https://www.google.cn/),搜索法語時啟動法語的主流搜索引擎Yahoo(http://search.yahoo.com)。此外,校審輔助爬蟲程序具有擴(kuò)展性,可按需要增加其他語種術(shù)語的搜索功能。

        3.4.2?適應(yīng)反爬蟲機(jī)制

        針對目前互聯(lián)網(wǎng)的反爬蟲機(jī)制,校審輔助爬蟲程序設(shè)置了隨機(jī)等待時間,這使爬蟲的運(yùn)行更像人的操作,在一定程度上降低了人工驗證非機(jī)器人行為的頻率,保證了程序運(yùn)行的流暢性。

        3.4.3?自動跳過敏感詞

        在校審輔助爬蟲程序的實踐應(yīng)用過程中,由于正值俄烏沖突局勢緊張時期,俄語專業(yè)技術(shù)術(shù)語庫中的某些詞條成為了敏感詞,在俄文搜索引擎中的查詢結(jié)果為空白頁,此種情況出現(xiàn)時,程序運(yùn)行中斷。鑒于該情況,爬蟲程序中增加了自動跳過敏感詞的搜索功能,防止出現(xiàn)卡頓現(xiàn)象。

        3.4.4?具有一鍵搜索功能

        在生成的例句和網(wǎng)址匯總文件中,設(shè)置了搜索直達(dá)鏈接功能。如果校審人員在自動搜索給出的3個例句中沒有找到合適的例句,可以點(diǎn)擊該鏈接,自動打開對應(yīng)的搜索引擎,實現(xiàn)一鍵搜索術(shù)語,節(jié)約搜索時間。

        4?結(jié)語

        文章從多語種術(shù)語庫的校審問題入手,以俄語專業(yè)技術(shù)術(shù)語庫為例,詳細(xì)介紹、分析了網(wǎng)絡(luò)爬蟲技術(shù)在多語種術(shù)語庫校審中的應(yīng)用方法,展示了網(wǎng)絡(luò)爬蟲技術(shù)從海量信息里獲取有效信息的能力和優(yōu)勢。作為一種強(qiáng)大的信息搜集工具,爬蟲技術(shù)在翻譯專業(yè)和情報專業(yè)領(lǐng)域有很大的應(yīng)用潛力。在翻譯專業(yè)方面,爬蟲技術(shù)的應(yīng)用可以替代人工語料搜集,從廣度和精確度上提升語料庫的建設(shè)水平。在情報專業(yè)方面,可以將爬蟲技術(shù)和AI技術(shù)結(jié)合,爬取關(guān)鍵情報信息,自動分析并生成情報信息簡訊,高效地為情報研究工作提供可參考的信息資料。

        參考文獻(xiàn)

        [1] 鄭苗.基于網(wǎng)絡(luò)爬蟲的北京市房價研究[D].荊州:長江大學(xué),2018.

        [2] 鄭鑫臻,吳韶波.基于網(wǎng)絡(luò)爬蟲技術(shù)的時令旅游信息獲取[J].物聯(lián)網(wǎng)技術(shù),2018(5):83-87.

        [3] 顧勤.網(wǎng)絡(luò)爬蟲技術(shù)原理及其應(yīng)用研究[J].信息與電腦(理論版),2021(4):174-176.

        [4] 繆治.網(wǎng)絡(luò)爬蟲技術(shù)的研究與實現(xiàn)[J].中國新通信,2019(6):70.

        [5] 傅一平.詳解4種類型的爬蟲技術(shù)[J].計算機(jī)與網(wǎng)絡(luò),2021(6):37-38.

        [6] 李文華.解析網(wǎng)絡(luò)爬蟲技術(shù)原理[J].福建電腦,2021(1):95-96.

        [7]?Kevin.網(wǎng)絡(luò)爬蟲技術(shù)原理[J].計算機(jī)與網(wǎng)絡(luò),2018(10):38-39.

        猜你喜歡
        網(wǎng)絡(luò)爬蟲
        基于分布式的農(nóng)業(yè)信息檢索系統(tǒng)的設(shè)計與實現(xiàn)
        微信平臺下的教務(wù)信息獲取和隱私保護(hù)方法研究
        基于網(wǎng)絡(luò)爬蟲的電子易購軟件設(shè)計與實現(xiàn)
        搜索引擎技術(shù)的發(fā)展現(xiàn)狀與前景
        煉鐵廠鐵量網(wǎng)頁數(shù)據(jù)獲取系統(tǒng)的設(shè)計與實現(xiàn)
        基于社會網(wǎng)絡(luò)分析的權(quán)威網(wǎng)頁挖掘研究
        主題搜索引擎中網(wǎng)絡(luò)爬蟲的實現(xiàn)研究
        淺析如何應(yīng)對網(wǎng)絡(luò)爬蟲流量
        中國市場(2016年23期)2016-07-05 04:35:08
        基于淘寶某商品銷售量監(jiān)控系統(tǒng)
        網(wǎng)絡(luò)爬蟲針對“反爬”網(wǎng)站的爬取策略研究
        男女好痛好深好爽视频一区| 国产极品少妇一区二区| av天堂午夜精品一区| 大又大粗又爽又黄少妇毛片| 欧美丰满熟妇乱xxxxx图片| 久久老子午夜精品无码| 国产自产在线视频一区| 白白色发布会在线观看免费| 国产精品国产精品国产专区不卡 | 亚洲精品一区二在线观看| 凌辱人妻中文字幕一区| 久久久久久曰本av免费免费| 中文字幕亚洲乱码熟女一区二区| 2020最新国产激情| 美女丝袜诱惑在线播放蜜桃| 日韩精品人成在线播放| 日日碰狠狠添天天爽无码| 亚洲成AⅤ人在线观看无码| 国产麻豆放荡av激情演绎| 六月婷婷亚洲性色av蜜桃| 日本成本人片免费网站| 无码人妻少妇色欲av一区二区| 2020国产精品久久久久| 国产av三级精品车模| 精品人妻一区二区三区浪人在线| 成人性生交大片免费| 99久久人妻无码精品系列蜜桃 | 国产成人啪精品午夜网站| 亚洲综合一区二区三区蜜臀av| 成人av综合资源在线| 日韩人妻无码一区二区三区久久| 欧美成年黄网站色视频| 一区二区三区在线视频免费观看 | 色哟哟av网站在线观看| 日日噜噜噜夜夜狠狠久久蜜桃| av天堂午夜精品一区| 色狠狠av老熟女| 2021最新久久久视精品爱| 一区二区三区国产精品麻豆| 欧洲女人与公拘交酡视频| 亚洲依依成人亚洲社区|