亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Python爬蟲的英漢互譯項目的設計與實現(xiàn)

        2021-12-06 07:55:40羅曉東
        科學與生活 2021年24期
        關鍵詞:英漢互譯爬蟲

        羅曉東

        摘語:爬蟲是能夠自動爬取網(wǎng)頁中許多種類數(shù)據(jù)的一種程序。爬蟲一般是利用網(wǎng)頁的URL來查找網(wǎng)頁內(nèi)容,然后直接返回給用戶所需要的數(shù)據(jù),不需要人工操作瀏覽器獲取。爬蟲是搜索引擎的一個重要組成部分,幫搜索引擎爬取互聯(lián)網(wǎng)中的重要數(shù)據(jù)。爬蟲程序核心是對網(wǎng)頁進行解析,從中提取出自己想要的信息數(shù)據(jù)。

        關鍵詞:Python、爬蟲、英漢互譯

        英漢互譯在生活中也是特別重要的一個問題,像是平時大家在學習或者瀏覽一個英文的網(wǎng)頁,會經(jīng)常遇到不認識的英文單詞。有時候一個單詞會讓我們很難去理解一句話的意思,這時候我就就不得已去查英漢字典,可是查字典又費時費力。在這里就引出了本文的重要例題----英漢互譯。我可以在這里運用Python做一個英漢互譯的項目來準確實時的對英語進行翻譯?;蛟S我們在跟外國人交流的時候還有很多中文單詞我們不能翻譯成英文。還有我們不僅可以去翻譯單個單詞,當然也可以翻譯一段話。該文章詳細介紹了如何運用Python爬蟲抓取網(wǎng)站。

        隨著互聯(lián)網(wǎng)時代迅猛發(fā)展,網(wǎng)絡已成為大數(shù)據(jù)信息的載體,如何能從網(wǎng)絡里有效地提取并利用這些信息就是一個富有挑戰(zhàn)的難題。用戶網(wǎng)絡檢索信息通常用的方法便是搜索引擎,但是具有一定的局限性,比如說,不同期望的用戶往往具有不同的檢索目的和需求,而普遍的搜索引擎它返回的內(nèi)容往往包含很多用戶不需要的東西。若要實時監(jiān)測網(wǎng)絡新聞的發(fā)展與變化,則必須使用相關工具,人工的速度太慢,這時候網(wǎng)絡爬蟲就應運而生了。

        利用C++和Java進行爬蟲的程序代碼,C++代碼復雜性高,而且可讀性、可理解性較低,不易上手,一般比較適合資深程序員編?寫,來加深對C++語言的理解,不合適初學者學習。Java的可讀性適中,可是代碼冗余較多,相同的一個爬蟲,Java的代碼量大概會是Python的兩倍。Python作為一種語法簡練,其便捷性、簡單上手性令眾多程序員喜歡,當然Python也跟其他大多數(shù)程序語言一樣也具有面向?qū)ο蟮木幊?。本文主要介紹如何利用Python進行網(wǎng)站數(shù)據(jù)的抓取工作,然后加以利用使其成為一個英漢互譯的工具。

        在安裝Python的基礎上,運用編輯器PyCharm對代碼進行一系列的編輯。PyCharm是一種Python?IDE,帶有一整套可以幫助用戶在使用Python語言開發(fā)時提高其效率的工具,比如調(diào)試、語法高亮、Project管理、代碼跳轉、智能提示、自動完成、單元測試、版本控制。此外,該IDE提供了一些高級功能,以用于支持Django框架下的專業(yè)Web開發(fā)。我們可以導入別人寫好的庫,非常的方便簡潔。

        設計網(wǎng)絡爬蟲翻譯系統(tǒng)要解決的以下幾個問題:

        窗口的初始化、輸出,文本框、按鈕等標簽控件的使用。

        網(wǎng)頁的分析,運用pip第三方庫的導入。

        請求頭——模擬瀏覽器去請求服務器,反反爬蟲的運用。

        運用URL中有道詞典對輸入的關鍵字進行翻譯,然后運用爬蟲獲取翻譯之后的返回值。

        系統(tǒng)結構邏輯上由四個部分組成:第一個部分是窗口模塊,負責窗口、輸入框標簽和按鈕的搭建;第二個部分是按鈕功能實現(xiàn)模塊,將窗口模塊中的按鈕實現(xiàn)具體的功能;第三個部分負責爬取后網(wǎng)頁數(shù)據(jù)的處理與分析;第四層是數(shù)據(jù)展示模塊,負責將分析整理后的數(shù)據(jù)以文本的形式在翻譯之后的文本框內(nèi)顯示出來。

        1.窗口模塊

        設計這個項目的時候首先來創(chuàng)建一個窗口,然后在窗口中添加文本框、輸入框和按鈕。當我們添個各個組件的時候并未顯示,在Python中叫做未實例化,所以可以通過root.maimloop()來顯示窗口.?當我們在設計窗口時,我們可以先給它一個標題。然后發(fā)現(xiàn)它的初始化都是在電腦的左上角,而且大小還是初始的大小,為了利于輸入時的內(nèi)容看得見,現(xiàn)在需要對窗口的大小和位置進行調(diào)整。在這里我們用到了title()以及geometry().窗口創(chuàng)建完后先開始添加標簽控件,創(chuàng)建好了但是沒有顯示,因為在tkinter中標簽控件需要進行定位,確定標簽控件在窗口中的具體位置。在這里直接用label.grid()就可以顯示。在這里我們運用了表格式布局。同理根據(jù)標簽控件的定位方法,可以對輸入框進行定位。在這里出現(xiàn)了一個問題,因為這個窗口是表格式布局,所以在實現(xiàn)輸入框?qū)嵗臅r候其實它跟我們的要求有一定的差距。當然我們?yōu)榱嗣烙^,可以對輸入框和標簽控件進行布局整理。輸入框和標簽控件還需要加上坐標,然后設置輸入框內(nèi)所輸入的字體跟字號,在這里我們選擇適合的大小,大小選擇380x100就可以,位置可以根據(jù)屏幕的大小進行具體的調(diào)整,在這里我選用530+300。然后加上“翻譯后的結果:”的標簽。同理我們可以在grid()中通過row和column來確定具體的行和列。在這里我們還需要兩個按鈕來做點擊事件,一個是“翻譯”按鈕,點擊就可以對輸入框內(nèi)的內(nèi)容進行翻譯;另外一個就是“退出”按鈕,點擊此按鈕窗口進行關閉,任務結束。button.grid()里對齊方式運用sticky?=?W、E、N、S分別表示左對齊、右對齊、上對齊、下對齊。在這里我們對“翻譯”按鈕運用左對齊,對“退出”按鈕運用右對齊。

        2.按鈕功能實現(xiàn)模塊

        首先簡單地介紹下Tkinter的概念,Tkinter?模塊(Tk?接口)是?Python?的標準?Tk?GUI?工具包的接口.Tk和Tkinter可以在大多數(shù)的Unix平臺下使用,同樣可以應用在?Windows?和?Macintosh?系統(tǒng)里。Tk8.0?的后續(xù)版本可以實現(xiàn)本地窗口風格,并良好地運行在絕大多數(shù)平臺中Tkinter?按鈕組件用于在Python應用程序中添加按鈕,按鈕上可以放上文本或圖像,按鈕可用于監(jiān)聽用戶行為,能夠與一個?Python?函數(shù)關聯(lián),當按鈕被按下時,自動調(diào)用該函數(shù)。

        3.爬蟲分析模塊

        爬蟲分析的設計思路:爬取的網(wǎng)站地址,獲取對應頁面,提取有用數(shù)據(jù)并將數(shù)據(jù)顯示在我們要他現(xiàn)在是的文本框內(nèi)。接下來就是對爬蟲一步一步的實現(xiàn)功能。

        首先我們要爬取的URL地址是http://fanyi.youdao.com/,我們可以先用瀏覽器打開有道翻譯的地址進行網(wǎng)頁分析。這時我們應該去找POST屬性的網(wǎng)絡請求,然后我們就會發(fā)現(xiàn),這個POST請求的網(wǎng)址到底什么意思?其實它就是服務器的地址。當我們要翻譯一個內(nèi)容就必須向服務器發(fā)送一些數(shù)據(jù),它是以表單參數(shù)的形式發(fā)送過去,我們可以在瀏覽器中找到,當網(wǎng)絡通暢,沒有其他阻礙的時候,服務器收到了給它發(fā)的數(shù)據(jù),也會返回一個響應,其實它是一個json的數(shù)據(jù)類型。其中包括我們輸入的內(nèi)容以及服務器分析之后返回的內(nèi)容,數(shù)據(jù)類型如下,

        {"translateResult":[[{"tgt":"hello","src":"你好"}]],"errorCode":0,"type":"zh-CHS2en","smartResult":{"entries":["","hello\r\n","hi\r\n","how?do?you?do\r\n"],"type":1}}

        4.爬蟲實現(xiàn)模塊

        以上就是我們對翻譯過程進行的分析,其實也不是很難,接下來我們用Python來模擬這一過程就可以實現(xiàn)英漢互譯的效果。瀏覽器給服務器發(fā)送什么內(nèi)容我們可以用Python同樣發(fā)送一個內(nèi)容,當我們用Python模擬成瀏覽器之后服務器也會返回給我們一個參數(shù)。我們可以讓程序運行一下,并輸入任意一個英文單詞,效果圖如下:

        通過對Python項目的分析,對該系統(tǒng)的各個功能進行設計,并采用了GUI的tkinter庫及整合,用requests庫進行爬蟲項目,完成了整個網(wǎng)站的各個功能的實現(xiàn)。

        【參考文獻】

        于娟,劉強.?主題網(wǎng)絡爬蟲研究綜述[J].?計算機工程與科學,?2015,?37(02):231-237.

        張紅云.?基于頁面分析的主題網(wǎng)絡爬蟲的研究[D].?武漢理工大學,?2010.

        張瑩.?面向動態(tài)頁面的網(wǎng)絡爬蟲系統(tǒng)的設計與實現(xiàn)[D].?南開大學,?2012.

        猜你喜歡
        英漢互譯爬蟲
        利用網(wǎng)絡爬蟲技術驗證房地產(chǎn)灰犀牛之說
        基于Python的網(wǎng)絡爬蟲和反爬蟲技術研究
        利用爬蟲技術的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡爬蟲技術
        電子制作(2017年9期)2017-04-17 03:00:46
        從民族特性看“狗”與“dog”的英漢互譯
        英漢互譯課翻轉課堂教學研究
        淺議科技術語英漢互譯中的幾個問題
        英漢互譯中的漢語四字結構
        科技視界(2015年9期)2015-04-07 11:07:01
        亚洲精品偷拍自综合网| 亚洲动漫成人一区二区| 亚洲AV秘 无码一区二区久久| 日本少妇又色又紧又爽又刺激| 亚洲国产精品一区二区成人片国内 | 欧美巨大性爽| 欧美精品日韩一区二区三区| 亚洲精品一区二在线观看| 亚洲第一狼人天堂网亚洲av| 中文字幕人妻av一区二区| 国产视频最新| 国产午夜福利在线观看中文字幕| 国产香港明星裸体xxxx视频| 无码人妻丰满熟妇区毛片| 偷拍网日本一区二区三区| 精品国产日韩亚洲一区在线| 又大又长粗又爽又黄少妇视频| 亚洲国产高清在线一区二区三区| 久久亚洲午夜牛牛影视| 日本午夜理论一区二区在线观看| 国产情侣真实露脸在线| 国产精品.xx视频.xxtv| 亚洲国产剧情一区在线观看| 丝袜美足在线视频国产在线看| 成人免费直播| 国产乱子伦露脸在线| 亚洲国产综合性感三级自拍| av剧情演绎福利对白| av一区二区三区人妻少妇| 欧美中文字幕在线看| 粉色蜜桃视频完整版免费观看在线 | 大地资源中文在线观看官网第二页| 成人免费无码视频在线网站| 国产午夜免费一区二区三区视频| 色噜噜狠狠综曰曰曰| 不卡视频一区二区三区| 97超碰国产一区二区三区| 风韵丰满熟妇啪啪区老熟熟女| 真人二十三式性视频(动) | 肉色丝袜足j视频国产| 国产自国产在线观看免费观看|