亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        外文數(shù)據(jù)庫(kù)英譯中文作者姓名消歧實(shí)踐*

        2022-04-14 02:00:10朱玉強(qiáng)江濤李翼飛
        數(shù)字圖書(shū)館論壇 2022年2期
        關(guān)鍵詞:消歧語(yǔ)料庫(kù)網(wǎng)頁(yè)

        朱玉強(qiáng) 江濤 李翼飛

        (1. 山東師范大學(xué)圖書(shū)館,濟(jì)南 250014;2. 海南醫(yī)學(xué)院圖書(shū)館,???571199)

        Web of Science(WoS)、Scopus、Engineering Village(EI)等外文數(shù)據(jù)庫(kù)收錄英文學(xué)術(shù)論文,正文以外包括題名、作者、摘要、關(guān)鍵詞等信息,其中作者信息包含作者姓名和所屬機(jī)構(gòu)名稱(機(jī)構(gòu)所在省市和郵編)。中國(guó)作者在外文期刊發(fā)文時(shí)按國(guó)際慣例須將中文姓名翻譯為英文,因不同國(guó)家或地區(qū)期刊出版規(guī)范不同、不同歷史時(shí)期數(shù)據(jù)加工標(biāo)準(zhǔn)有差異等原因[1-2],有些作者姓名不是按漢語(yǔ)拼音方案翻譯,如按威妥瑪-翟理斯方案將“蔣介石”翻譯為“Chiang Kai-shek”,將“張三豐”譯為“Chang San-feng”[3];即便使用漢語(yǔ)拼音方案,因期刊執(zhí)行時(shí)格式有差異,同一作者有不同英譯名或同一英譯名對(duì)應(yīng)不同作者的情況相當(dāng)普遍,如“張三豐”有“Zhang(,)Sanfeng”[4]“Zhang(,)San-F(f)eng”“Sanf(F)eng(,)Zhang”“San-F(f)eng(,)Zhang”等譯法,還有“Zhang(,)S.F.”“Zhang(,)SF”“S.F. Zhang”“Zhang(,)S.”“S. Zhang”等縮寫(xiě)版本,后兩種譯法甚至將“豐”字丟棄,可對(duì)應(yīng)“章四鳳”“張桑”“張思”等中文作者名。中文單姓單名英譯因“姓前名后”或“名前姓后”原則不同造成的混亂尤甚,如將“姚明”翻譯為“Yao Ming”[5]或“Ming Yao”[6],后者亦可對(duì)應(yīng)中文名“明瑤”“明堯”等。即便機(jī)構(gòu)確切、人名拼音標(biāo)記完全,還存在類(lèi)似“明瑤”“明堯”音同字不同的情況。因此,僅依據(jù)外文數(shù)據(jù)庫(kù)中作者英譯姓名及機(jī)構(gòu)名稱確認(rèn)其歸屬易錯(cuò)易漏,給文獻(xiàn)計(jì)量工作帶來(lái)諸多不便,進(jìn)而使基于文獻(xiàn)計(jì)量的情報(bào)分析、人才評(píng)價(jià)、參考咨詢工作受到很大影響。有鑒于此,對(duì)外文數(shù)據(jù)庫(kù)英譯中文作者姓名進(jìn)行消歧處理是進(jìn)行數(shù)據(jù)清洗、提高數(shù)據(jù)質(zhì)量的關(guān)鍵。英譯中文作者姓名漢化消歧的難點(diǎn)在于英文縮寫(xiě)還原、同拼音漢字溯源及不同機(jī)構(gòu)相同漢字人名身份的甄別,手工排檢工作量繁雜巨大,如多人協(xié)作則數(shù)據(jù)質(zhì)量難以統(tǒng)一,從業(yè)者對(duì)半自動(dòng)或全自動(dòng)數(shù)據(jù)處理工具的需求日益迫切。

        1 相關(guān)研究與實(shí)踐

        英譯中文作者姓名漢化消歧的解決方案按自動(dòng)化程度可分人工、半自動(dòng)和全自動(dòng)3類(lèi)[7]。人工排檢實(shí)踐方面,侯長(zhǎng)來(lái)[8]對(duì)SCI論文中同一拼音著者,先將署名機(jī)構(gòu)翻譯為中文,再到《中國(guó)科技論文統(tǒng)計(jì)與引文分析數(shù)據(jù)庫(kù)》中找到對(duì)應(yīng)中文機(jī)構(gòu),查找該機(jī)構(gòu)下有無(wú)同拼音著者進(jìn)行辨識(shí)追蹤。人工排檢優(yōu)點(diǎn)為結(jié)果準(zhǔn)確,如原英文署名為“Hu G.C.”,找到對(duì)應(yīng)中文機(jī)構(gòu)后模糊匹配,關(guān)注“胡貴超”“胡國(guó)策”“胡桂朝”“胡國(guó)才”“呼革彩”等疑似作者,再根據(jù)二級(jí)機(jī)構(gòu)、專業(yè)方向等進(jìn)一步篩選確認(rèn)。極端情況下兩位作者機(jī)構(gòu)、專業(yè)方向甚至所在教研室都完全相同,如作者發(fā)文時(shí)自行用性別、年齡等做了標(biāo)識(shí),人工排檢時(shí)即可按已有標(biāo)識(shí)記為“胡貴超(男)”或“胡貴超(大)”,如無(wú)標(biāo)識(shí)又確需分清彼此則只能和原作者聯(lián)系。人工排檢的缺點(diǎn)為效率非常低且成功率受中文對(duì)照庫(kù)豐富程度影響,如“胡貴超”只發(fā)表外文論文從未發(fā)表中文論文,僅從中文期刊庫(kù)這一語(yǔ)料庫(kù)查找就無(wú)解,只能再借助于搜索引擎或百科網(wǎng)站等其他語(yǔ)料庫(kù)。何春建[9]、高營(yíng)[10]開(kāi)展了以正則表達(dá)式為主要技術(shù)的半自動(dòng)排檢實(shí)踐,該技術(shù)可從字符串中靈活提取指定文本,但此類(lèi)實(shí)踐僅能篩選或微調(diào)檢索結(jié)果,如取回網(wǎng)頁(yè)源碼中疑似作者姓名拼音的文本串“G.C. Hu”再轉(zhuǎn)為中國(guó)人習(xí)慣的“Hu G C”,無(wú)法將姓名拼音補(bǔ)全,更無(wú)法漢字化,只能為后續(xù)人工介入提供比較干凈的姓名拼音或機(jī)構(gòu)名稱,為補(bǔ)全拼音全稱做準(zhǔn)備。孫源[11]、何濤等[12]、霍朝光等[13]、盛曉光等[14]、鄧啟平等[15]開(kāi)展了以詞向量為主要技術(shù)的半自動(dòng)排檢實(shí)踐,該技術(shù)思路為:將文本按一定規(guī)則數(shù)字化為空間坐標(biāo)系中的點(diǎn),各點(diǎn)連接構(gòu)成大小、方向不同的向量,通過(guò)各向量差異(夾角、長(zhǎng)度)表征文本相似程度,夾角越小、長(zhǎng)度越相近表明兩點(diǎn)越可能重合,則兩點(diǎn)代表的原文本越相似。常用計(jì)算方法有編輯距離相似度[16]、余弦相似度等,如將“山東濟(jì)南250014”通過(guò)一定規(guī)則數(shù)字化為平面直角坐標(biāo)系中的點(diǎn)對(duì)(1,2),按同樣規(guī)則將“山東濟(jì)南250100”數(shù)字化為(2,3),兩點(diǎn)各自與坐標(biāo)原點(diǎn)連接成兩條線段,使用余弦相似度計(jì)算兩線段夾角余弦值為0.992 3,則夾角接近0°,表明兩段文本非常相似。在半自動(dòng)排檢實(shí)踐的語(yǔ)料庫(kù)選擇、應(yīng)用方面,昌寧等[17]選用了中國(guó)知網(wǎng)、維普、萬(wàn)方和個(gè)人主頁(yè),劉瑋辰等[18]選用引文網(wǎng)絡(luò),Waqas等[19]選用了作者個(gè)人網(wǎng)頁(yè)、ResearchGate(RG)和Google Scholar,Zhang等[20]選用了Microsoft Academic Graph、Semantic Scholar和PubMed Knowledge Graph等,Rehs[21]選用了infomap社區(qū)。全自動(dòng)排檢理論研究方面,Kim等[22]指出隨著ORCID繼續(xù)推進(jìn),通過(guò)ORCID鏈接的標(biāo)記數(shù)據(jù)可以使消歧數(shù)據(jù)總體得到改進(jìn),Author-ity2009的ORCID鏈接標(biāo)記數(shù)據(jù)可公開(kāi)用于驗(yàn)證,但全自動(dòng)排檢實(shí)踐尚未見(jiàn)報(bào)道。

        本文通過(guò)組合并改進(jìn)正則表達(dá)式、詞向量和多源數(shù)據(jù)等技術(shù)手段,將人工排檢操作的共性部分如查找不同語(yǔ)料庫(kù)并比對(duì)結(jié)果交由程序完成,減少人工介入并縮短操作時(shí)間。通過(guò)編制帶用戶界面的應(yīng)用程序,為外文數(shù)據(jù)庫(kù)英譯中文作者姓名消歧工作提供更便捷有效的工具。程序?qū)τ脩粲?jì)算機(jī)操作能力幾乎沒(méi)有要求,工作組中一人導(dǎo)出數(shù)據(jù)源,清洗工作可由多人多臺(tái)電腦分批合作完成,仍可保證數(shù)據(jù)處理質(zhì)量統(tǒng)一、收割結(jié)果有序,甚至可以無(wú)人值守。

        2 程序設(shè)計(jì)思路

        系統(tǒng)總體目標(biāo)是編制一個(gè)帶用戶界面的應(yīng)用程序,以實(shí)現(xiàn)外文數(shù)據(jù)庫(kù)英譯中文作者姓名的漢化消歧。用戶單擊“開(kāi)始工作”按鈕即開(kāi)展全自動(dòng)清洗工作,先自動(dòng)將英譯作者姓名修正為作者本人或所在團(tuán)隊(duì)認(rèn)可的、符合我國(guó)及國(guó)際標(biāo)準(zhǔn)的漢語(yǔ)拼音形式,然后自動(dòng)處理英譯作者姓名所屬機(jī)構(gòu)名稱,包括翻譯成中文、查詢語(yǔ)料庫(kù)、確定最可能的中文機(jī)構(gòu)名稱,再將作者漢語(yǔ)拼音姓名與中文機(jī)構(gòu)名稱同時(shí)提交語(yǔ)料庫(kù)進(jìn)行檢索獲取可能的作者中文姓名,結(jié)果以xls格式寫(xiě)出。程序根據(jù)前期調(diào)查問(wèn)卷反饋結(jié)果預(yù)設(shè)可調(diào)節(jié)參數(shù)默認(rèn)值,同時(shí)允許用戶自由調(diào)整,如同時(shí)執(zhí)行任務(wù)進(jìn)程數(shù)量、網(wǎng)頁(yè)就緒超時(shí)秒數(shù)、網(wǎng)頁(yè)解析器失敗時(shí)重試次數(shù)等,在工序順暢和結(jié)果準(zhǔn)確之間尋求平衡點(diǎn),確保程序處理的全自動(dòng)化,遇少量錯(cuò)誤寫(xiě)出詳細(xì)日志供后續(xù)人工處理或?qū)氤绦虿⒂谜{(diào)整后的閾值再次自動(dòng)處理,實(shí)現(xiàn)程序處理和人工介導(dǎo)剝離。

        系統(tǒng)由待處理數(shù)據(jù)集、工作層和結(jié)果數(shù)據(jù)集組成。待處理數(shù)據(jù)集由用戶手工檢索外文庫(kù)后手工導(dǎo)出。程序軟件會(huì)提醒用戶根據(jù)自身需求在特定外文數(shù)據(jù)庫(kù)手工檢索并導(dǎo)出待分析記錄,記錄格式可為html、xls(x)、txt或csv格式中任意一種,允許用戶通過(guò)單擊按鈕導(dǎo)入上述格式中任何一種或多種格式組合的一件或多件記錄文檔。軟件自動(dòng)根據(jù)源文件格式讀取字段及對(duì)應(yīng)數(shù)據(jù)、合并記錄并寫(xiě)入數(shù)據(jù)庫(kù),并且允許用戶通過(guò)單擊按鈕瀏覽、查找、增加、刪除或修改數(shù)據(jù)庫(kù)記錄。工作層實(shí)現(xiàn)自動(dòng)化操作,將待處理數(shù)據(jù)集中英譯中文作者姓名補(bǔ)充完整并找出對(duì)應(yīng)的中文姓名。這一過(guò)程借助多個(gè)語(yǔ)料庫(kù)進(jìn)行匹配,程序界面允許用戶勾選一種或多種語(yǔ)料庫(kù),勾選越多則結(jié)果越精確。本文用到的語(yǔ)料庫(kù)包括:多源數(shù)據(jù),如中國(guó)知網(wǎng)、萬(wàn)方數(shù)據(jù)知識(shí)服務(wù)平臺(tái)、維普網(wǎng)、讀秀學(xué)術(shù)搜索;學(xué)術(shù)社交網(wǎng)絡(luò),如RG、Academia.edu、Mendeley、HumanitiesCommons及科研之友(Scholar Mate);網(wǎng)絡(luò)知識(shí)庫(kù),如維基百科、百度百科;在線翻譯網(wǎng)站,如金山詞霸、海詞詞典。學(xué)術(shù)社交網(wǎng)絡(luò)以RG為主。近5年,百度指數(shù)[23]和谷歌趨勢(shì)[24]均表明RG在國(guó)內(nèi)的影響力逐年攀升,谷歌提示中國(guó)對(duì)其搜索熱度穩(wěn)居全球第一,所以選用以RG為代表的學(xué)術(shù)社交網(wǎng)絡(luò)作語(yǔ)料庫(kù)開(kāi)展署名作者姓名消歧實(shí)踐在數(shù)據(jù)量上有一定保障。自動(dòng)檢索語(yǔ)料庫(kù)使用多進(jìn)程工作,使用一種或多種語(yǔ)料庫(kù)在耗時(shí)方面沒(méi)有顯著差別。還要允許用戶編輯、測(cè)試正則表達(dá)式,可根據(jù)應(yīng)用場(chǎng)景分類(lèi)管理,內(nèi)置按漢語(yǔ)拼音方案編寫(xiě)的成熟的正則表達(dá)式并支持一鍵導(dǎo)入。主程序開(kāi)放接口,針對(duì)不同語(yǔ)料庫(kù)編寫(xiě)的網(wǎng)頁(yè)文檔對(duì)象自動(dòng)操作腳本均使用獨(dú)立插件(exe格式)方式提供,方便今后在不更新主程序的情況下更新舊插件或加入新插件,同時(shí)解決“大而全”程序的兼容性與準(zhǔn)確性不可兼得問(wèn)題,主程序根據(jù)用戶勾選情況自動(dòng)調(diào)用所需運(yùn)行插件,使該工具兼容常見(jiàn)外文數(shù)據(jù)庫(kù)如WoS、Scopus及EI等。工作層的處理結(jié)果自動(dòng)寫(xiě)入結(jié)果數(shù)據(jù)集。

        以WoS導(dǎo)出的一條文獻(xiàn)為例,作者“Xiang,JW”“Hu,GC”“Zhang,XG”3人共同署名發(fā)表論文“Equivalent linear damping model of nonlinear hydraulic damper for helicopter rotor”,作者所屬機(jī)構(gòu)“Beijing Univ Aeronaut & Astronaut,Dept Aircraft Design & Appl Mech,Beijing 100083,Peoples R China”。首先,利用正則表達(dá)式提取文本,將題名、作者名、作者機(jī)構(gòu)一一對(duì)應(yīng),得3個(gè)列表(每位作者1個(gè)列表),其中1個(gè)列表為“[Equivalent linear damping model of…,Xiang,JW,Beijing Univ Aeronaut & Astronaut…]”。取論文標(biāo)題,自動(dòng)在語(yǔ)料庫(kù)如RG中檢索此文,發(fā)現(xiàn)有同樣題名的論文其3位作者姓名分別為Jinwu Xiang、Guocai Hu和Xiaogu Zhang。由此將作者完整的英文姓名自動(dòng)替換3個(gè)列表中的作者英文名。有時(shí)入駐RG作者還會(huì)修改變更后單位名稱(如工作變動(dòng)或?qū)W校更名),程序不應(yīng)該修改原文作者機(jī)構(gòu)名稱,但如果工作任務(wù)同時(shí)要求梳理發(fā)文作者工作單位變動(dòng)情況,則可另立字段記錄。如有作者未入駐RG,姓名仍未補(bǔ)全,可另尋語(yǔ)料庫(kù)重試。下一步另設(shè)正則表達(dá)式,按漢語(yǔ)拼音方案將英譯中文作者的姓與名位置調(diào)換,“Jinwu Xiang”自動(dòng)轉(zhuǎn)換為“Xiang Jinwu”。然后,取該作者所在列表第3個(gè)元素即機(jī)構(gòu)名稱,將分詞或全部字符自動(dòng)提交至翻譯網(wǎng)站,得“北京”“大學(xué)”“航天”“航空”“航天和航空”“北京航空航天大學(xué)”等結(jié)果,利用文本相似度計(jì)算等方法,按得分最高者取“北京航空航天大學(xué)”。隨后利用語(yǔ)料庫(kù)如中國(guó)知網(wǎng)、百科網(wǎng)站、搜索引擎等,使用正則表達(dá)式、文本相似度檢測(cè)等算法,使用此機(jī)構(gòu)名稱反復(fù)、多方位自動(dòng)模糊檢索“Xiang Jinwu”,已知語(yǔ)料庫(kù)如中國(guó)知網(wǎng)支持模糊匹配漢語(yǔ)拼音,即在作者姓名檢索入口允許輸入漢語(yǔ)拼音并在檢索結(jié)果輸出可能的同音或相近漢字,最終挖掘出作者中文姓名為“向錦武”。如取不回任何結(jié)果,則記錄詳細(xì)日志,待后續(xù)人工介入,或使用作者合作網(wǎng)絡(luò)等更多語(yǔ)料庫(kù),或使用該作者在學(xué)術(shù)社交網(wǎng)絡(luò)標(biāo)記的新單位等再使用程序自動(dòng)檢索。中英文機(jī)構(gòu)對(duì)照表也可事先人工建立從而節(jié)省計(jì)算時(shí)間,程序自動(dòng)映射時(shí)可追加或更新此表(如北京航空航天大學(xué)的官方英譯已改為“Beihang University”)。實(shí)踐中還發(fā)現(xiàn)有學(xué)者誤領(lǐng)或冒領(lǐng)作者身份,導(dǎo)致取回錯(cuò)誤的姓名全拼,故設(shè)計(jì)程序時(shí)應(yīng)多方查找取概率最大者。

        3 技術(shù)方案

        整體技術(shù)方案如圖1所示。以文獻(xiàn)標(biāo)題為抓手,綜合利用網(wǎng)頁(yè)機(jī)器人、網(wǎng)絡(luò)爬蟲(chóng)、正則表達(dá)式和短文本相似度檢測(cè)技術(shù),抓取特定文獻(xiàn)標(biāo)題對(duì)應(yīng)的不同版本作者英文姓名和機(jī)構(gòu)名稱,去粗取精、去偽存真,計(jì)算對(duì)應(yīng)中文姓名和機(jī)構(gòu)名稱?!叭ゴ秩【敝笇⑹褂梅g網(wǎng)站自動(dòng)翻譯的機(jī)構(gòu)名稱如“北京航空的和航天的大學(xué)”精簡(jiǎn)為“北京航空航天大學(xué)”;“去偽存真”指將外文文獻(xiàn)中作者提供的非官方機(jī)構(gòu)名稱(如將“浙江大學(xué)”按方言自行翻譯為“Zheijing Univ.”[25])通過(guò)程序自動(dòng)檢索中外文語(yǔ)料庫(kù)或規(guī)則表予以糾正,如將“Zheijing Univ,Coll Med,Affiliated Hosp 1”對(duì)應(yīng)為“浙江大學(xué)醫(yī)學(xué)院附屬第一醫(yī)院”??紤]到各編程語(yǔ)言主要適用方向及書(shū)寫(xiě)便利性,使用易語(yǔ)言設(shè)計(jì)界面引擎提供人機(jī)交互、Python實(shí)現(xiàn)主體算法、AutoHotKey承擔(dān)全局熱鍵腳本任務(wù)、JavaScript設(shè)計(jì)各語(yǔ)言產(chǎn)品聯(lián)絡(luò)中間件(如配置文件、日志文件等)。

        圖1 技術(shù)方案

        編制程序關(guān)鍵技術(shù)與方法包括網(wǎng)頁(yè)文檔對(duì)象操作、短文本相似度檢測(cè)、正則表達(dá)式技術(shù)、使用多進(jìn)程代替多線程作業(yè)。

        3.1 網(wǎng)頁(yè)文檔對(duì)象操作

        該技術(shù)應(yīng)用于程序中網(wǎng)頁(yè)相關(guān)操作,如語(yǔ)料庫(kù)檢索并提取結(jié)果、解析元素后配合正則表達(dá)式提取格式化文本串等。程序自動(dòng)操作網(wǎng)頁(yè)的抓手是元素,故首先從網(wǎng)頁(yè)源碼中分離、識(shí)別、定位網(wǎng)頁(yè)各元素,再通過(guò)讀寫(xiě)其InnerText屬性或Value屬性獲得或改寫(xiě)對(duì)應(yīng)文本,或通過(guò)“click方法”自動(dòng)點(diǎn)擊,實(shí)現(xiàn)自動(dòng)在語(yǔ)料庫(kù)網(wǎng)頁(yè)選取檢索入口、輸入文本、單擊按鈕檢索、等待網(wǎng)頁(yè)就緒、抓取結(jié)果頁(yè)文本等。常用獲取元素方法有“通過(guò)元素ID獲取”(getElementById)、“通過(guò)元素名稱獲取”(getElementsByName)和“通過(guò)元素標(biāo)簽名獲取”(getElementsByTagName)等。程序涉及跨域網(wǎng)頁(yè)文檔對(duì)象操作對(duì)象,即主頁(yè)面使用IFrame技術(shù)嵌套不同域名的獨(dú)立網(wǎng)頁(yè),可使用document.getElementsByTagName取回所有IFrame再按需篩選。程序框架使用一家網(wǎng)站對(duì)應(yīng)一個(gè)獨(dú)立插件思路,遇網(wǎng)站微改版,主程序和插件程序可讀取更新后配置文件調(diào)整解析語(yǔ)法,甚至無(wú)須調(diào)整源碼并另行編譯。

        3.2 短文本相似度檢測(cè)

        該技術(shù)應(yīng)用于程序中計(jì)算兩段文本是否相似及相似程度,用于計(jì)算最可能的英譯漢機(jī)構(gòu)名稱、判斷語(yǔ)料庫(kù)機(jī)構(gòu)名稱與原文機(jī)構(gòu)名稱是否存在本質(zhì)變化,并由此推測(cè)作者機(jī)構(gòu)變更、語(yǔ)料庫(kù)被自動(dòng)補(bǔ)全拼音的作者是否存在誤領(lǐng)等。本文采用TF-IDF模型計(jì)算短文本相似度[26]。TF-IDF模型計(jì)算相似度技術(shù)方案為:將兩段待計(jì)算文本各自分詞寫(xiě)入列表;合并兩列表,去重,寫(xiě)入集合;轉(zhuǎn)換集合為詞典,為各分詞建立索引;按分詞出現(xiàn)位置分別編碼兩列表,文本首次實(shí)現(xiàn)簡(jiǎn)單數(shù)字化;對(duì)應(yīng)詞典,將兩列表進(jìn)行獨(dú)熱編碼(OneHot),文本正式數(shù)字化、向量化,且將含不同成員數(shù)的列表編碼統(tǒng)一為相等成員數(shù);計(jì)算空間向量余弦?jiàn)A角。

        由于該模型沒(méi)有考慮特征詞位置因素對(duì)文本區(qū)分度影響[27],本研究在計(jì)算時(shí)擴(kuò)展待檢索詞提高計(jì)算可信度,如計(jì)算“機(jī)構(gòu)名稱”時(shí)使用“省市+郵編+機(jī)構(gòu)名稱”組織待檢詞。為進(jìn)一步提高計(jì)算可信度,可先構(gòu)造映射規(guī)則,如建立機(jī)構(gòu)常用簡(jiǎn)稱與全稱對(duì)照表,自動(dòng)將“中科院”先映射為“中國(guó)科學(xué)院”再參與計(jì)算。初期可手工建立映射規(guī)則,后期可將程序計(jì)算并達(dá)到一定閾值的數(shù)據(jù)寫(xiě)入數(shù)據(jù)庫(kù)自動(dòng)建立。

        以計(jì)算“中科院水生所”和“中國(guó)科學(xué)院水生生物研究所”相似度為例,結(jié)果為15.81%;將“中科院”按規(guī)則映射為“中國(guó)科學(xué)院”后,計(jì)算“中國(guó)科學(xué)院水生所”與“中國(guó)科學(xué)院水生生物研究所”相似度為71.71%;另加入省市郵編,“湖北武漢430072中國(guó)科學(xué)院水生所”與“湖北武漢430072中國(guó)科學(xué)院水生生物研究所”相似度達(dá)78.94%;“湖北武漢430072中國(guó)科學(xué)院水生生物研究所”與自身相似度為100%。同樣代碼計(jì)算“北京100081中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)經(jīng)濟(jì)與發(fā)展研究所”與“湖北武漢430072中國(guó)科學(xué)院水生生物研究所”相似度為40.36%。由此認(rèn)為,“中國(guó)科學(xué)院水生生物研究所”可能是“中國(guó)科學(xué)院水生所”更詳盡地址。當(dāng)語(yǔ)料庫(kù)返回樣本足夠多時(shí),取字符更多、相似度最大者,正確率隨之提高。

        3.3 正則表達(dá)式技術(shù)

        該技術(shù)應(yīng)用于程序中從雜亂無(wú)章的網(wǎng)頁(yè)源碼提取非格式化文本,或用于驗(yàn)證指定文本是否具有特定屬性等。非格式化文本相對(duì)格式化文本而言,后者明顯的特征為使用標(biāo)記語(yǔ)言書(shū)寫(xiě),提取標(biāo)記間文本只需使用常規(guī)方法如“取文本中間”等。非格式化文本往往無(wú)規(guī)律可循,如提取網(wǎng)頁(yè)源碼中隨機(jī)出現(xiàn)的疑似中國(guó)郵政編碼的文本(前后均無(wú)特殊、固定標(biāo)記),只需將計(jì)算式“[0-9]d{5}(?!d)”應(yīng)用于正則算法,表示提取僅6位、開(kāi)頭可為0、連續(xù)數(shù)字型且其后不可緊跟數(shù)字的文本。驗(yàn)證屬性時(shí),如提取到“Chiang Kai-shek”,人工排檢時(shí)可非常方便地判斷該文本不符合漢語(yǔ)拼音方案,至少“Ch”后不可跟“iang”,據(jù)此原理可編制“聲母后可跟韻母”“聲母后不可跟韻母”兩種算法的正則表達(dá)式,用來(lái)判斷某文本是否為漢語(yǔ)拼音(標(biāo)準(zhǔn)拼音、威妥瑪-翟理斯方案拼音或郵政拼音)或非漢語(yǔ)拼音。程序反復(fù)使用正則表達(dá)式技術(shù),將任務(wù)細(xì)化,在不同場(chǎng)合編輯不同正則表達(dá)式,遇多種需求則組合不同可執(zhí)行文件實(shí)現(xiàn),提升各表達(dá)式功能確切性,盡最大可能保證工序順暢,提高自動(dòng)化程度。

        3.4 使用多進(jìn)程代替多線程作業(yè)

        程序中調(diào)用多語(yǔ)料庫(kù)檢索時(shí),如按用戶勾選語(yǔ)料庫(kù)順序依次操作則耗時(shí)較長(zhǎng),無(wú)法充分發(fā)揮電腦計(jì)算潛力。如在可執(zhí)行文件內(nèi)部開(kāi)啟多線程任務(wù),首先因?yàn)榫W(wǎng)頁(yè)文檔對(duì)象操作時(shí)容易混淆元素,其次線程池操作不穩(wěn)定,在不同電腦表現(xiàn)不同,為獲得更好效果,程序使用多進(jìn)程代替多線程作業(yè)。思路為:將實(shí)現(xiàn)某相對(duì)完整功能的核心算法封裝在插件文件中,插件運(yùn)行后首先查看主程序有無(wú)為其分配任務(wù),如有,首先領(lǐng)取任務(wù)ID,執(zhí)行任務(wù),將結(jié)果寫(xiě)出帶任務(wù)ID的xls文檔等,待主程序發(fā)起合并結(jié)果指令,按任務(wù)ID順序合并為整體結(jié)果,合并算法由主程序提供,確保數(shù)據(jù)處理質(zhì)量統(tǒng)一、收割結(jié)果有序。

        4 應(yīng)用效果

        程序可在32位和64位Windows 7與Windows 10操作系統(tǒng)下平穩(wěn)運(yùn)行,在下載網(wǎng)速平均60Mbps、上傳網(wǎng)速平均50Mbps、使用Ping命令訪問(wèn)www.a.shifen.com平均耗時(shí)10ms、網(wǎng)絡(luò)抖動(dòng)平均2.67ms、丟包平均0.5%網(wǎng)絡(luò)環(huán)境下7×24小時(shí)運(yùn)行未見(jiàn)崩潰且功能確切。

        筆者陸續(xù)向大連理工大學(xué)、河南農(nóng)業(yè)大學(xué)、東北師范大學(xué)、贛南醫(yī)學(xué)院、青島農(nóng)業(yè)大學(xué)、曲阜師范大學(xué)等圖書(shū)館情報(bào)分析或參考咨詢崗位同人分發(fā)軟件測(cè)試版,通過(guò)軟件內(nèi)置模塊回收用戶有效反饋表139份,共處理文獻(xiàn)3 685批(共計(jì)1 842 841篇),批均處理約500篇,統(tǒng)計(jì)結(jié)果見(jiàn)表1,滿分值均為100%。

        表1 軟件評(píng)分 %

        漢化人名自動(dòng)化率為63.24%,指100位作者姓名中,約63位可通過(guò)中外文語(yǔ)料庫(kù)匹配為中文姓名,約37位因?qū)W術(shù)社交網(wǎng)絡(luò)無(wú)人認(rèn)領(lǐng)、無(wú)文章被中文數(shù)據(jù)庫(kù)收錄等原因取不回漢化結(jié)果,但程序算法依然適用。姓名漢化消歧總體成功率為63.24%×71.39%,即45.15%,尚有很大提升空間,但對(duì)于長(zhǎng)期從事情報(bào)分析、數(shù)據(jù)治理的從業(yè)人員來(lái)講,自動(dòng)成功處理45%的工作量依然頗具應(yīng)用價(jià)值,96.46%的受訪問(wèn)者有繼續(xù)使用意愿并希望軟件持續(xù)更新。

        以前文提到的文獻(xiàn)“Equivalent linear damping model of nonlinear hydraulic damper for helicopter rotor”為例,消歧前后數(shù)據(jù)對(duì)照表如表2所示,人工復(fù)核漢化消歧單筆成功率100%。

        表2 某文獻(xiàn)作者姓名、機(jī)構(gòu)名稱消歧前后對(duì)照表

        5 結(jié)語(yǔ)

        數(shù)據(jù)預(yù)處理是數(shù)據(jù)治理、情報(bào)分析工作中必不可少且非常重要的一環(huán)。本文通過(guò)編制程序,近乎全自動(dòng)地實(shí)現(xiàn)了以往工作中需要人工投入大量精力的英譯中文作者姓名漢化消歧,其優(yōu)勢(shì)在于將情報(bào)分析等相關(guān)從業(yè)人員從煩瑣的數(shù)據(jù)清洗工作中部分地解放出來(lái),使其可以將精力更多地用于探索數(shù)據(jù)背后的邏輯。139份程序試用反饋表顯示,有92%用戶認(rèn)為功能確切,81%用戶認(rèn)為執(zhí)行速度快,97%用戶表示工具運(yùn)行不受第三方軟件影響,96%用戶表示有繼續(xù)使用意愿并希望軟件持續(xù)更新,用戶對(duì)程序正向認(rèn)可程度為91%。程序的不足之處在于自動(dòng)化程度偏低,成功率和精確率尚有待進(jìn)一步提高。但該工具框架下的語(yǔ)料庫(kù)具有可擴(kuò)展性,用戶無(wú)須更新主程序,只需在程序運(yùn)行目錄添加獨(dú)立動(dòng)態(tài)鏈接庫(kù)(dll)文件即可擴(kuò)展語(yǔ)料庫(kù)。工具算法適用于對(duì)信息爬取、數(shù)據(jù)清洗有需求的應(yīng)用場(chǎng)景,包括但不限于情報(bào)分析、關(guān)聯(lián)挖掘、查收查引及自引識(shí)別與排除等領(lǐng)域。程序在操作便利性、爬蟲(chóng)穩(wěn)定性與兼容性、正則表達(dá)式通用性及成功率等方面還有優(yōu)化空間,接下來(lái)計(jì)劃繼續(xù)提升算法可靠性與架構(gòu)可擴(kuò)展性,發(fā)現(xiàn)并利用更多中外文語(yǔ)料庫(kù),提高成功率。

        猜你喜歡
        消歧語(yǔ)料庫(kù)網(wǎng)頁(yè)
        基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*
        基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
        《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
        基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
        電子制作(2018年10期)2018-08-04 03:24:38
        藏文歷史文獻(xiàn)識(shí)別過(guò)程中藏文自由虛詞的自動(dòng)識(shí)別及消歧算法的研究
        基于URL和網(wǎng)頁(yè)類(lèi)型的網(wǎng)頁(yè)信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
        網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
        基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
        10個(gè)必知的網(wǎng)頁(yè)設(shè)計(jì)術(shù)語(yǔ)
        国产激情久久久久久熟女老人| 国产亚洲成年网址在线观看| 黄色中文字幕视频网站| 男女边摸边吃奶边做视频韩国| 人妻色综合网站| 奇米影视久久777中文字幕| 精品国产亚洲av麻豆尤物| 99青青草视频在线观看| 2019最新中文字幕在线观看| 国产山东熟女48嗷嗷叫| 国产成人精品无码一区二区老年人| 国产二区中文字幕在线观看| 18国产精品白浆在线观看免费 | 久久综合国产乱子伦精品免费| 亚洲毛片αv无线播放一区| 国内精品久久人妻性色av| 中文字幕一区二区人妻秘书| 初女破初的视频| 欧美人成在线播放网站免费| 牛仔裤人妻痴汉电车中文字幕| 欧美性猛交xxxx乱大交极品| 人妻无码aⅴ不卡中文字幕| 日本加勒比东京热日韩| 精品国产三区在线观看| 7777色鬼xxxx欧美色妇| 人与嘼av免费| av网址不卡免费在线观看| 欲女在线一区二区三区| 台湾无码av一区二区三区| 中文字幕乱码亚洲无线精品一区| 亚洲永久精品日韩成人av| 日本中国内射bbxx| 精品人妻伦九区久久AAA片69| 521色香蕉网站在线观看| 国产在线看不卡一区二区| 在厨房拨开内裤进入毛片| 国产乱人伦av在线a| 亚洲av永久无码精品成人| 黄片视频大全在线免费播放| 久久99精品久久久久久秒播 | 午夜在线观看一区二区三区四区 |