亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于爬蟲和WPF技術(shù)的藏文命名實(shí)體數(shù)據(jù)集半自動(dòng)構(gòu)建器設(shè)計(jì)

        2024-01-03 08:42:08李甜華楊文藝
        現(xiàn)代計(jì)算機(jī) 2023年21期
        關(guān)鍵詞:頁面設(shè)計(jì)

        李甜華,央 啦,楊文藝,春 燕

        (西藏大學(xué)信息科學(xué)與技術(shù)學(xué)院,拉薩 850000)

        0 引言

        在自然語言處理中,數(shù)據(jù)集的質(zhì)量對模型的性能和準(zhǔn)確性有著至關(guān)重要的影響。數(shù)據(jù)集構(gòu)建是自然語言處理中的一個(gè)重要環(huán)節(jié),需要收集大量的文本數(shù)據(jù),并對這些數(shù)據(jù)進(jìn)行標(biāo)注和清洗,以便用于訓(xùn)練和評估自然語言處理模型[1]。

        在中文自然語言處理領(lǐng)域,有很多公開成熟的數(shù)據(jù)集可以獲取,但藏文數(shù)據(jù)集公開程度低,大部分為實(shí)驗(yàn)室內(nèi)部使用,無法通過公開渠道獲取。因此需要自建數(shù)據(jù)集以便更好地滿足研究要求。

        《中國藏族網(wǎng)》藏文版包含了大量關(guān)于西藏公開的新聞報(bào)道,是一個(gè)方便快捷的藏文語料來源。本文采用半自動(dòng)標(biāo)注的構(gòu)建方法,基于爬蟲技術(shù)從該網(wǎng)站獲取充足的原始語料[2]。利用WPF 新一代Windows 界面開發(fā)技術(shù)設(shè)計(jì)快速高效、開發(fā)友好的界面[3],導(dǎo)入通過人工標(biāo)注的大量的人名、地名和機(jī)構(gòu)名三類命名實(shí)體庫,對采集的原始數(shù)據(jù)集進(jìn)行粗篩選,大幅降低了數(shù)據(jù)構(gòu)建的工作量。

        1 相關(guān)技術(shù)介紹

        1.1 數(shù)據(jù)爬蟲技術(shù)介紹

        數(shù)據(jù)爬蟲技術(shù)是一種自動(dòng)化獲取互聯(lián)網(wǎng)上數(shù)據(jù)的技術(shù),也稱為網(wǎng)絡(luò)爬蟲、網(wǎng)絡(luò)蜘蛛或網(wǎng)絡(luò)機(jī)器人。它可以模擬人類在互聯(lián)網(wǎng)上的行為,自動(dòng)訪問網(wǎng)站、抓取數(shù)據(jù)、解析數(shù)據(jù)并存儲(chǔ)到本地或數(shù)據(jù)庫中[4]。通常包括以下幾個(gè)步驟:

        (1)確定目標(biāo)網(wǎng)站:確定需要的目標(biāo)網(wǎng)站,了解網(wǎng)站的結(jié)構(gòu)和數(shù)據(jù)類型;

        (2)編寫爬蟲程序:根據(jù)目標(biāo)網(wǎng)站的結(jié)構(gòu)和數(shù)據(jù)類型,編寫相應(yīng)程序;

        (3)發(fā)送請求:爬蟲程序向目標(biāo)網(wǎng)站發(fā)送請求,獲取網(wǎng)頁源代碼;

        (4)解析數(shù)據(jù):爬蟲程序解析源代碼,可使用正則表達(dá)式、XPath、CSS 選擇器等提取數(shù)據(jù);

        (5)存儲(chǔ)數(shù)據(jù):將解析后的數(shù)據(jù)存儲(chǔ)到本地文件或數(shù)據(jù)庫中。

        1.2 WPF界面設(shè)計(jì)技術(shù)介紹

        WPF(Windows presentation foundation)是微軟推出的一種基于.NET Framework 的用戶界面框架,它提供了一種基于XAML(extensible application markup language)的聲明式編程模型,提供了一種高度可定制的用戶界面設(shè)計(jì)方案,可以大大提高應(yīng)用程序的用戶體驗(yàn)和開發(fā)效率[5]。包含如下核心技術(shù):

        (1)XAML:是一種基于XML 的標(biāo)記語言,用于描述WPF 應(yīng)用程序的用戶界面。開發(fā)人員可以將用戶界面的布局、樣式、動(dòng)畫等元素定義為標(biāo)記,實(shí)現(xiàn)可重用性和可維護(hù)性;

        (2)數(shù)據(jù)綁定:可將數(shù)據(jù)模型與用戶界面元素進(jìn)行綁定,實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)更新和同步。數(shù)據(jù)綁定可以大大簡化開發(fā)人員的工作,提高應(yīng)用程序的可維護(hù)性和可擴(kuò)展性;

        (3)樣式模板:可對用戶界面元素進(jìn)行樣式化和模板化。樣式和模板可以大大提高用戶界面的可定制性和可重用性,同時(shí)也可以提高開發(fā)人員的工作效率;

        (4)動(dòng)畫轉(zhuǎn)換:可實(shí)現(xiàn)用戶界面元素的動(dòng)態(tài)效果和交互效果??商岣邞?yīng)用程序的用戶體驗(yàn);

        (5)自定義控件:增強(qiáng)用戶界面的定制性和擴(kuò)展性,提高開發(fā)人員的工作效率。

        1.3 C#編程語言介紹

        C#(C Sharp)是一種由微軟開發(fā)的面向?qū)ο缶幊陶Z言,它是.NET Framework 的一部分,可以在Windows、Linux 和macOS 等操作系統(tǒng)上運(yùn)行,具有以下特點(diǎn)[6]:

        (1)簡單易學(xué):C#語法結(jié)構(gòu)簡單、清晰,易于學(xué)習(xí)和理解。它采用了類似于C++和Java的語法,同時(shí)也借鑒了其他編程語言的優(yōu)點(diǎn),如Python的簡潔性和Ruby的靈活性;

        (2)面向?qū)ο螅阂环N面向?qū)ο缶幊陶Z言,支持封裝、繼承和多態(tài)等面向?qū)ο蟮奶匦裕?/p>

        (3)安全性高:提供了多種安全機(jī)制,如類型安全、內(nèi)存安全、異常處理等,可以有效地防止代碼中的漏洞和錯(cuò)誤;

        (4)跨平臺性:可在多個(gè)操作系統(tǒng)上運(yùn)行,包括Windows、Linux和macOS等;

        (5)豐富類庫:包括.NET Framework 和.NET Core 等,這些類庫可以幫助開發(fā)人員快速地實(shí)現(xiàn)各種功能,如文件操作、網(wǎng)絡(luò)通信、圖形界面等。

        1.4 八爪魚爬蟲技術(shù)介紹

        八爪魚是一款功能強(qiáng)大的網(wǎng)絡(luò)爬蟲工具,可以幫助用戶快速、高效地抓取互聯(lián)網(wǎng)上的數(shù)據(jù)。以下是八爪魚爬蟲工具的介紹:

        (1)界面友好:提供了直觀、易用的界面,通過簡單的拖拽和配置,創(chuàng)建自己的爬蟲任務(wù);

        (2)多種數(shù)據(jù)抓取方式:包括網(wǎng)頁、API、RSS、FTP抓取等;

        (3)數(shù)據(jù)處理功能:包括數(shù)據(jù)的清洗、轉(zhuǎn)換和數(shù)據(jù)合并等,可快速處理和分析抓取的數(shù)據(jù);

        (4)多種輸出方式:包括Excel、CSV、JSON、XML等;

        (5)自動(dòng)化任務(wù)調(diào)度:可定時(shí)執(zhí)行爬蟲任務(wù),自動(dòng)抓取和處理數(shù)據(jù)。

        2 系統(tǒng)架構(gòu)設(shè)計(jì)

        藏文數(shù)據(jù)集半自動(dòng)構(gòu)建器由數(shù)據(jù)爬蟲和數(shù)據(jù)篩選兩部分組成。其中,數(shù)據(jù)爬蟲部分通過八爪魚采集器設(shè)計(jì)采集任務(wù)快速實(shí)現(xiàn),設(shè)置目標(biāo)網(wǎng)站為《中國藏族網(wǎng)》藏文版,快速抓取網(wǎng)站中的新聞報(bào)道正文并導(dǎo)出CSV文件。

        數(shù)據(jù)篩選則通過WPF 進(jìn)行界面設(shè)計(jì),可導(dǎo)入抓取的CSV 文件和命名實(shí)體庫,基于C#編程語言進(jìn)行編寫篩選邏輯,拆分語料的語句,批量處理,提取其中命中了實(shí)體的語句。處理結(jié)束后導(dǎo)出數(shù)據(jù)。整體結(jié)構(gòu)設(shè)計(jì)如圖1所示。

        圖1 系統(tǒng)結(jié)構(gòu)圖

        圖2 目標(biāo)網(wǎng)頁采集配置

        3 藏文數(shù)據(jù)集半自動(dòng)構(gòu)建器實(shí)現(xiàn)

        3.1 爬蟲部分實(shí)現(xiàn)

        在八爪魚采集器中創(chuàng)建任務(wù)“藏文命名實(shí)體爬蟲”,設(shè)置其采集頁面起始網(wǎng)址為:https://ti.tibet3.com/news/tibet/xz/,使用八爪魚瀏覽器可自由點(diǎn)擊并選取需要爬取的頁面元素。

        本文需要采集的字段有文章標(biāo)題、發(fā)表時(shí)間、記者、瀏覽次數(shù)和正文內(nèi)容五個(gè)部分。進(jìn)入其中一個(gè)正文報(bào)道后,通過點(diǎn)擊頁面中的元素設(shè)計(jì)采集字段,預(yù)覽圖如圖3所示。

        圖3 數(shù)據(jù)集字段設(shè)計(jì)

        通過加入循環(huán)的處理邏輯,可以采集多頁的數(shù)據(jù),最終爬蟲任務(wù)設(shè)計(jì)流程如圖4所示。

        圖4 八爪魚采集器爬蟲流程設(shè)計(jì)圖

        3.2 拆分部分實(shí)現(xiàn)

        3.2.1 整體設(shè)計(jì)

        拆分部分基于集成開發(fā)環(huán)境Visual Studio 2019設(shè)計(jì)開發(fā),由前臺和后臺兩部分組成,前臺通過編寫樣式和模板,以及基于XAML 代碼設(shè)計(jì)程序界面實(shí)現(xiàn);后臺通過C#代碼實(shí)現(xiàn)拆分邏輯。前后臺通過MVVM(框架如圖5所示)設(shè)計(jì)模式實(shí)現(xiàn)拆分邏輯和頁面分離[7]。

        藏文數(shù)據(jù)集半自動(dòng)構(gòu)建器模塊包含頁面公共工具模塊、數(shù)據(jù)導(dǎo)入模塊、拆分模塊、結(jié)果展示模塊四部分。如圖6所示。

        圖6 藏文數(shù)據(jù)集半自動(dòng)構(gòu)建器模塊設(shè)計(jì)

        3.2.2 拆分算法實(shí)現(xiàn)

        拆分算法采用基于滑動(dòng)窗口的命名實(shí)體匹配算法,通過字符串處理實(shí)現(xiàn)。處理流程如圖7所示。具體流程為:通過藏文懸垂符和空格將文本拆分成單個(gè)句子,再將單個(gè)句子通過隔音符拆分成單個(gè)藏文字符,通過滑動(dòng)窗口動(dòng)態(tài)拼接藏文字符組成藏文短語,再放入實(shí)體庫中比較,將命中實(shí)體的窗口進(jìn)行拆分,進(jìn)而將實(shí)體詞從語句中進(jìn)行拆分,并輸出該語句。

        圖7 拆分算法流程圖

        3.3 實(shí)際效果顯示

        3.3.1 爬蟲效果展示

        八爪魚爬蟲采集器運(yùn)行效果如圖8 所示,在2 小時(shí)31 分內(nèi),打開了1287 條報(bào)道,并爬取了相應(yīng)內(nèi)容,平均每分鐘可采集8條報(bào)道。最終將結(jié)果導(dǎo)出為Excel表格文件,如圖9所示。

        圖9 爬蟲結(jié)果

        3.3.2 拆分界面展示

        拆分頁面設(shè)計(jì)如圖10 所示,在拆分頁面分別點(diǎn)擊打開人名數(shù)據(jù)集、地名數(shù)據(jù)集和機(jī)構(gòu)數(shù)據(jù)集,導(dǎo)入實(shí)體庫,并在左下方三個(gè)Tab頁進(jìn)行顯示。再點(diǎn)擊提取關(guān)鍵句,導(dǎo)入爬取的Excel 原始數(shù)據(jù),程序?qū)?zhí)行拆分算法,并將結(jié)果導(dǎo)出為CSV文件。

        圖10 拆分頁面展示圖

        3.3.3 拆分結(jié)果展示

        拆分算法執(zhí)行完后,共命中實(shí)體語句7036條,導(dǎo)出結(jié)果如圖11所示。

        圖11 拆分結(jié)果展示

        4 結(jié)語

        基于爬蟲和WPF 技術(shù)的藏文命名實(shí)體數(shù)據(jù)集半自動(dòng)構(gòu)建器設(shè)計(jì)為快速高效地從公開的藏文數(shù)據(jù)集網(wǎng)絡(luò)上獲取命名實(shí)體數(shù)據(jù),可在一定程度降低藏文數(shù)據(jù)集自建難度,提高構(gòu)建效率。該設(shè)計(jì)采用了應(yīng)用成熟、上手難度低的八爪魚采集器作為數(shù)據(jù)爬取部分;拆分部分采用WPF技術(shù)設(shè)計(jì)了較為美觀,操作簡單的用戶界面?;贑#編程語言設(shè)計(jì)并實(shí)現(xiàn)基于窗口的命名實(shí)體匹配及拆分算法。

        猜你喜歡
        頁面設(shè)計(jì)
        微信群聊總是找不到,打開這個(gè)開關(guān)就好了
        大狗熊在睡覺
        刷新生活的頁面
        何為設(shè)計(jì)的守護(hù)之道?
        《豐收的喜悅展示設(shè)計(jì)》
        流行色(2020年1期)2020-04-28 11:16:38
        瞞天過?!律O(shè)計(jì)萌到家
        設(shè)計(jì)秀
        海峽姐妹(2017年7期)2017-07-31 19:08:17
        有種設(shè)計(jì)叫而專
        Coco薇(2017年5期)2017-06-05 08:53:16
        同一Word文檔 縱橫頁面并存
        淺析ASP.NET頁面導(dǎo)航技術(shù)
        处破痛哭a√18成年片免费| 国产一区av男人天堂| 99久久精品免费看国产| 国产97色在线 | 亚洲| 亚洲制服无码一区二区三区| 国产人妖一区二区av| 人妻一区二区三区av| 免费看美女被靠的网站| 亚洲欧洲高潮| 精品久久久亚洲中文字幕| 美女脱掉内裤扒开下面让人插| 无码人妻一区二区三区兔费| 丰满人妻熟妇乱又伦精品视| 少妇bbwbbw高潮| 人妻中文字幕一区二区视频| 男人女人做爽爽18禁网站| 亚洲gv白嫩小受在线观看| 青青青国产免A在线观看| 女同av在线观看网站| 国产精品高清免费在线| 精品亚洲麻豆1区2区3区| 无遮挡又黄又刺激又爽的视频| 99久久国内精品成人免费| 中文字幕久久精品一区二区| 国产成人精品2021| 日本55丰满熟妇厨房伦| 日本一区二区三区小视频| 成人久久久精品乱码一区二区三区| 男ji大巴进入女人的视频小说| 一级片久久| 亚洲一区二区三区1区2区| 人妻 丝袜美腿 中文字幕| 无码h黄动漫在线播放网站| 天堂岛国精品在线观看一区二区| 日本国产精品久久一线| 国产特级毛片aaaaaa| 亚洲最大无码AV网站观看| 东京热加勒比国产精品| 久久国产精品偷任你爽任你 | 在线免费毛片| 日本高清一区二区三区色|