亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于爬蟲和WPF技術(shù)的藏文命名實體數(shù)據(jù)集半自動構(gòu)建器設(shè)計

        2024-01-03 08:42:08李甜華楊文藝
        現(xiàn)代計算機(jī) 2023年21期
        關(guān)鍵詞:用戶界面藏文爬蟲

        李甜華,央 啦,楊文藝,春 燕

        (西藏大學(xué)信息科學(xué)與技術(shù)學(xué)院,拉薩 850000)

        0 引言

        在自然語言處理中,數(shù)據(jù)集的質(zhì)量對模型的性能和準(zhǔn)確性有著至關(guān)重要的影響。數(shù)據(jù)集構(gòu)建是自然語言處理中的一個重要環(huán)節(jié),需要收集大量的文本數(shù)據(jù),并對這些數(shù)據(jù)進(jìn)行標(biāo)注和清洗,以便用于訓(xùn)練和評估自然語言處理模型[1]。

        在中文自然語言處理領(lǐng)域,有很多公開成熟的數(shù)據(jù)集可以獲取,但藏文數(shù)據(jù)集公開程度低,大部分為實驗室內(nèi)部使用,無法通過公開渠道獲取。因此需要自建數(shù)據(jù)集以便更好地滿足研究要求。

        《中國藏族網(wǎng)》藏文版包含了大量關(guān)于西藏公開的新聞報道,是一個方便快捷的藏文語料來源。本文采用半自動標(biāo)注的構(gòu)建方法,基于爬蟲技術(shù)從該網(wǎng)站獲取充足的原始語料[2]。利用WPF 新一代Windows 界面開發(fā)技術(shù)設(shè)計快速高效、開發(fā)友好的界面[3],導(dǎo)入通過人工標(biāo)注的大量的人名、地名和機(jī)構(gòu)名三類命名實體庫,對采集的原始數(shù)據(jù)集進(jìn)行粗篩選,大幅降低了數(shù)據(jù)構(gòu)建的工作量。

        1 相關(guān)技術(shù)介紹

        1.1 數(shù)據(jù)爬蟲技術(shù)介紹

        數(shù)據(jù)爬蟲技術(shù)是一種自動化獲取互聯(lián)網(wǎng)上數(shù)據(jù)的技術(shù),也稱為網(wǎng)絡(luò)爬蟲、網(wǎng)絡(luò)蜘蛛或網(wǎng)絡(luò)機(jī)器人。它可以模擬人類在互聯(lián)網(wǎng)上的行為,自動訪問網(wǎng)站、抓取數(shù)據(jù)、解析數(shù)據(jù)并存儲到本地或數(shù)據(jù)庫中[4]。通常包括以下幾個步驟:

        (1)確定目標(biāo)網(wǎng)站:確定需要的目標(biāo)網(wǎng)站,了解網(wǎng)站的結(jié)構(gòu)和數(shù)據(jù)類型;

        (2)編寫爬蟲程序:根據(jù)目標(biāo)網(wǎng)站的結(jié)構(gòu)和數(shù)據(jù)類型,編寫相應(yīng)程序;

        (3)發(fā)送請求:爬蟲程序向目標(biāo)網(wǎng)站發(fā)送請求,獲取網(wǎng)頁源代碼;

        (4)解析數(shù)據(jù):爬蟲程序解析源代碼,可使用正則表達(dá)式、XPath、CSS 選擇器等提取數(shù)據(jù);

        (5)存儲數(shù)據(jù):將解析后的數(shù)據(jù)存儲到本地文件或數(shù)據(jù)庫中。

        1.2 WPF界面設(shè)計技術(shù)介紹

        WPF(Windows presentation foundation)是微軟推出的一種基于.NET Framework 的用戶界面框架,它提供了一種基于XAML(extensible application markup language)的聲明式編程模型,提供了一種高度可定制的用戶界面設(shè)計方案,可以大大提高應(yīng)用程序的用戶體驗和開發(fā)效率[5]。包含如下核心技術(shù):

        (1)XAML:是一種基于XML 的標(biāo)記語言,用于描述WPF 應(yīng)用程序的用戶界面。開發(fā)人員可以將用戶界面的布局、樣式、動畫等元素定義為標(biāo)記,實現(xiàn)可重用性和可維護(hù)性;

        (2)數(shù)據(jù)綁定:可將數(shù)據(jù)模型與用戶界面元素進(jìn)行綁定,實現(xiàn)數(shù)據(jù)的自動更新和同步。數(shù)據(jù)綁定可以大大簡化開發(fā)人員的工作,提高應(yīng)用程序的可維護(hù)性和可擴(kuò)展性;

        (3)樣式模板:可對用戶界面元素進(jìn)行樣式化和模板化。樣式和模板可以大大提高用戶界面的可定制性和可重用性,同時也可以提高開發(fā)人員的工作效率;

        (4)動畫轉(zhuǎn)換:可實現(xiàn)用戶界面元素的動態(tài)效果和交互效果。可提高應(yīng)用程序的用戶體驗;

        (5)自定義控件:增強(qiáng)用戶界面的定制性和擴(kuò)展性,提高開發(fā)人員的工作效率。

        1.3 C#編程語言介紹

        C#(C Sharp)是一種由微軟開發(fā)的面向?qū)ο缶幊陶Z言,它是.NET Framework 的一部分,可以在Windows、Linux 和macOS 等操作系統(tǒng)上運行,具有以下特點[6]:

        (1)簡單易學(xué):C#語法結(jié)構(gòu)簡單、清晰,易于學(xué)習(xí)和理解。它采用了類似于C++和Java的語法,同時也借鑒了其他編程語言的優(yōu)點,如Python的簡潔性和Ruby的靈活性;

        (2)面向?qū)ο螅阂环N面向?qū)ο缶幊陶Z言,支持封裝、繼承和多態(tài)等面向?qū)ο蟮奶匦裕?/p>

        (3)安全性高:提供了多種安全機(jī)制,如類型安全、內(nèi)存安全、異常處理等,可以有效地防止代碼中的漏洞和錯誤;

        (4)跨平臺性:可在多個操作系統(tǒng)上運行,包括Windows、Linux和macOS等;

        (5)豐富類庫:包括.NET Framework 和.NET Core 等,這些類庫可以幫助開發(fā)人員快速地實現(xiàn)各種功能,如文件操作、網(wǎng)絡(luò)通信、圖形界面等。

        1.4 八爪魚爬蟲技術(shù)介紹

        八爪魚是一款功能強(qiáng)大的網(wǎng)絡(luò)爬蟲工具,可以幫助用戶快速、高效地抓取互聯(lián)網(wǎng)上的數(shù)據(jù)。以下是八爪魚爬蟲工具的介紹:

        (1)界面友好:提供了直觀、易用的界面,通過簡單的拖拽和配置,創(chuàng)建自己的爬蟲任務(wù);

        (2)多種數(shù)據(jù)抓取方式:包括網(wǎng)頁、API、RSS、FTP抓取等;

        (3)數(shù)據(jù)處理功能:包括數(shù)據(jù)的清洗、轉(zhuǎn)換和數(shù)據(jù)合并等,可快速處理和分析抓取的數(shù)據(jù);

        (4)多種輸出方式:包括Excel、CSV、JSON、XML等;

        (5)自動化任務(wù)調(diào)度:可定時執(zhí)行爬蟲任務(wù),自動抓取和處理數(shù)據(jù)。

        2 系統(tǒng)架構(gòu)設(shè)計

        藏文數(shù)據(jù)集半自動構(gòu)建器由數(shù)據(jù)爬蟲和數(shù)據(jù)篩選兩部分組成。其中,數(shù)據(jù)爬蟲部分通過八爪魚采集器設(shè)計采集任務(wù)快速實現(xiàn),設(shè)置目標(biāo)網(wǎng)站為《中國藏族網(wǎng)》藏文版,快速抓取網(wǎng)站中的新聞報道正文并導(dǎo)出CSV文件。

        數(shù)據(jù)篩選則通過WPF 進(jìn)行界面設(shè)計,可導(dǎo)入抓取的CSV 文件和命名實體庫,基于C#編程語言進(jìn)行編寫篩選邏輯,拆分語料的語句,批量處理,提取其中命中了實體的語句。處理結(jié)束后導(dǎo)出數(shù)據(jù)。整體結(jié)構(gòu)設(shè)計如圖1所示。

        圖1 系統(tǒng)結(jié)構(gòu)圖

        圖2 目標(biāo)網(wǎng)頁采集配置

        3 藏文數(shù)據(jù)集半自動構(gòu)建器實現(xiàn)

        3.1 爬蟲部分實現(xiàn)

        在八爪魚采集器中創(chuàng)建任務(wù)“藏文命名實體爬蟲”,設(shè)置其采集頁面起始網(wǎng)址為:https://ti.tibet3.com/news/tibet/xz/,使用八爪魚瀏覽器可自由點擊并選取需要爬取的頁面元素。

        本文需要采集的字段有文章標(biāo)題、發(fā)表時間、記者、瀏覽次數(shù)和正文內(nèi)容五個部分。進(jìn)入其中一個正文報道后,通過點擊頁面中的元素設(shè)計采集字段,預(yù)覽圖如圖3所示。

        圖3 數(shù)據(jù)集字段設(shè)計

        通過加入循環(huán)的處理邏輯,可以采集多頁的數(shù)據(jù),最終爬蟲任務(wù)設(shè)計流程如圖4所示。

        圖4 八爪魚采集器爬蟲流程設(shè)計圖

        3.2 拆分部分實現(xiàn)

        3.2.1 整體設(shè)計

        拆分部分基于集成開發(fā)環(huán)境Visual Studio 2019設(shè)計開發(fā),由前臺和后臺兩部分組成,前臺通過編寫樣式和模板,以及基于XAML 代碼設(shè)計程序界面實現(xiàn);后臺通過C#代碼實現(xiàn)拆分邏輯。前后臺通過MVVM(框架如圖5所示)設(shè)計模式實現(xiàn)拆分邏輯和頁面分離[7]。

        藏文數(shù)據(jù)集半自動構(gòu)建器模塊包含頁面公共工具模塊、數(shù)據(jù)導(dǎo)入模塊、拆分模塊、結(jié)果展示模塊四部分。如圖6所示。

        圖6 藏文數(shù)據(jù)集半自動構(gòu)建器模塊設(shè)計

        3.2.2 拆分算法實現(xiàn)

        拆分算法采用基于滑動窗口的命名實體匹配算法,通過字符串處理實現(xiàn)。處理流程如圖7所示。具體流程為:通過藏文懸垂符和空格將文本拆分成單個句子,再將單個句子通過隔音符拆分成單個藏文字符,通過滑動窗口動態(tài)拼接藏文字符組成藏文短語,再放入實體庫中比較,將命中實體的窗口進(jìn)行拆分,進(jìn)而將實體詞從語句中進(jìn)行拆分,并輸出該語句。

        圖7 拆分算法流程圖

        3.3 實際效果顯示

        3.3.1 爬蟲效果展示

        八爪魚爬蟲采集器運行效果如圖8 所示,在2 小時31 分內(nèi),打開了1287 條報道,并爬取了相應(yīng)內(nèi)容,平均每分鐘可采集8條報道。最終將結(jié)果導(dǎo)出為Excel表格文件,如圖9所示。

        圖9 爬蟲結(jié)果

        3.3.2 拆分界面展示

        拆分頁面設(shè)計如圖10 所示,在拆分頁面分別點擊打開人名數(shù)據(jù)集、地名數(shù)據(jù)集和機(jī)構(gòu)數(shù)據(jù)集,導(dǎo)入實體庫,并在左下方三個Tab頁進(jìn)行顯示。再點擊提取關(guān)鍵句,導(dǎo)入爬取的Excel 原始數(shù)據(jù),程序?qū)?zhí)行拆分算法,并將結(jié)果導(dǎo)出為CSV文件。

        圖10 拆分頁面展示圖

        3.3.3 拆分結(jié)果展示

        拆分算法執(zhí)行完后,共命中實體語句7036條,導(dǎo)出結(jié)果如圖11所示。

        圖11 拆分結(jié)果展示

        4 結(jié)語

        基于爬蟲和WPF 技術(shù)的藏文命名實體數(shù)據(jù)集半自動構(gòu)建器設(shè)計為快速高效地從公開的藏文數(shù)據(jù)集網(wǎng)絡(luò)上獲取命名實體數(shù)據(jù),可在一定程度降低藏文數(shù)據(jù)集自建難度,提高構(gòu)建效率。該設(shè)計采用了應(yīng)用成熟、上手難度低的八爪魚采集器作為數(shù)據(jù)爬取部分;拆分部分采用WPF技術(shù)設(shè)計了較為美觀,操作簡單的用戶界面?;贑#編程語言設(shè)計并實現(xiàn)基于窗口的命名實體匹配及拆分算法。

        猜你喜歡
        用戶界面藏文爬蟲
        自然用戶界面在智能家居系統(tǒng)中的應(yīng)用路徑創(chuàng)新研究:生成式人工智能技術(shù)的調(diào)節(jié)作用
        包裝工程(2023年16期)2023-08-25 11:40:58
        利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
        基于CiteSpace的國外用戶界面體驗圖譜量化分析
        基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
        西藏大批珍貴藏文古籍實現(xiàn)“云閱讀”
        布達(dá)拉(2020年3期)2020-04-13 10:00:07
        黑水城和額濟(jì)納出土藏文文獻(xiàn)簡介
        西夏學(xué)(2019年1期)2019-02-10 06:22:34
        利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        UI用戶界面色彩設(shè)計研究
        流行色(2017年12期)2017-10-26 03:08:44
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        藏文音節(jié)字的頻次統(tǒng)計
        99热免费观看| 色综合天天综合欧美综合| 无码av不卡一区二区三区| 国产av一区二区精品久久凹凸| 国产精品毛片久久久久久l| av男人的天堂手机免费网站| 日本免费大片一区二区| 国产裸体舞一区二区三区| y111111少妇影院无码| 久草视频在线这里只有精品| 野花视频在线观看免费| 成年性生交大片免费看| 夜夜爽一区二区三区精品| 成人综合久久精品色婷婷| 日本精品一区二区三区试看| 亚洲av日韩av女同同性| 国产成人麻豆精品午夜福利在线| 国产乱子伦农村xxxx| 午夜免费观看一区二区三区| 日本一区二区三区免费播放| 国产成人av一区二区三区无码| 亚洲国产不卡av一区二区三区| 国产一区二区三区视频在线观看| 久久精品中文字幕大胸| 中文字幕天堂网| 国产美女高潮流的白浆久久| 中文字幕在线乱码一区| 毛多水多www偷窥小便| 亚洲mv国产精品mv日本mv| 亚洲综合中文一区二区| 一区二区三区内射美女毛片| 亚洲av无码国产剧情| 99在线国产视频| 少妇高潮精品在线观看| 午夜福利av无码一区二区| 亚洲区小说区图片区qvod伊| 久久精品成人一区二区三区蜜臀 | 国产精品国产三级国产an| 亚洲熟女少妇精品综合| 精品乱码久久久久久久| 秋霞日韩一区二区三区在线观看|