余 恒,崔辰州,張 暉
(1. 北京師范大學(xué)天文系,北京 100875;2. 中國(guó)科學(xué)院國(guó)家天文臺(tái),北京 100012;3. 全國(guó)科學(xué)技術(shù)名詞審定委員會(huì),北京 100717)
CN 53-1189/P ISSN 1672-7673
天文學(xué)英語(yǔ)新詞自動(dòng)提取系統(tǒng)*
余 恒1,崔辰州2,張 暉3
(1. 北京師范大學(xué)天文系,北京 100875;2. 中國(guó)科學(xué)院國(guó)家天文臺(tái),北京 100012;3. 全國(guó)科學(xué)技術(shù)名詞審定委員會(huì),北京 100717)
科技名詞中文譯名標(biāo)準(zhǔn)化和規(guī)范化工作是推動(dòng)我國(guó)科技進(jìn)步和科學(xué)知識(shí)傳播的重要基礎(chǔ)。新的科學(xué)概念和技術(shù)名詞層出不窮,如何及時(shí)發(fā)現(xiàn)并確定新生術(shù)語(yǔ)的中文譯名是一項(xiàng)普遍的社會(huì)需求。介紹了一套全新的天文學(xué)英語(yǔ)新詞自動(dòng)提取系統(tǒng)。該系統(tǒng)綜合使用腳本過(guò)濾、術(shù)語(yǔ)識(shí)別、正則表達(dá)匹配等多種方法,能夠自動(dòng)追蹤ArXiv論文數(shù)據(jù)庫(kù)的更新,分析天文學(xué)論文的內(nèi)容,生成推薦術(shù)語(yǔ)列表,從而將學(xué)科專家從繁重的科技新詞收集整理工作中解放出來(lái),把有限的精力集中到更能體現(xiàn)專業(yè)素養(yǎng)的新詞審定工作當(dāng)中。這個(gè)系統(tǒng)將為推動(dòng)天文學(xué)等基礎(chǔ)學(xué)科的新詞收集,乃至學(xué)科標(biāo)準(zhǔn)化等工作發(fā)揮積極作用。
天文學(xué)名詞;自然語(yǔ)言處理;術(shù)語(yǔ)抽取;自動(dòng)術(shù)語(yǔ)識(shí)別;詞性標(biāo)注
科技名詞中文譯名標(biāo)準(zhǔn)化和規(guī)范化工作是推動(dòng)我國(guó)科技進(jìn)步和科學(xué)知識(shí)傳播的重要基礎(chǔ)。隨著現(xiàn)代科技的不斷發(fā)展,新的科學(xué)概念和技術(shù)名詞層出不窮,如何及時(shí)發(fā)現(xiàn)并確定新生術(shù)語(yǔ)的中文譯名是一項(xiàng)普遍的社會(huì)需求。如果能在外文新詞尚未被國(guó)內(nèi)同行廣泛采用、成為新聞熱點(diǎn)、形成輿論共識(shí)之前及時(shí)賦予準(zhǔn)確合理的中文譯名,這將在規(guī)范中文用法、豐富科技詞匯、方便合作交流、傳播科技知識(shí)等許多方面起到事半功倍的效果[1]。
天文學(xué)界在科技新詞的引進(jìn)和譯介方面有良好的傳統(tǒng)。中國(guó)天文學(xué)會(huì)自1922年成立以來(lái)一直非常重視天文學(xué)名詞的審定出版工作,所組織的譯名委員會(huì)早在1934年就完成了第一版的 《天文學(xué)名詞》,并由當(dāng)時(shí)的民國(guó)政府教育部公布。新中國(guó)成立以后,天文學(xué)名詞編譯委員會(huì)又在第一時(shí)間修訂和增補(bǔ)了 《天文學(xué)名詞》,并于1951年出版。改革開(kāi)放以后,國(guó)務(wù)院設(shè)立全國(guó)自然科學(xué)名詞審定委員會(huì),天文學(xué)名詞委員會(huì)又是最先拿出學(xué)科名詞規(guī)范,并被審定公布的。從20世紀(jì)80年代至今,天文學(xué)名詞審定委員會(huì)已出版天文學(xué)名詞辭書(shū)共6種,對(duì)中文天文學(xué)名詞的規(guī)范和普及,乃至科技名詞定名工作的開(kāi)展都起到了重要作用。在網(wǎng)絡(luò)時(shí)代,天文學(xué)名詞又率先于2005年開(kāi)始提供詞條在線檢索,并逐步增加模糊檢索、分類(lèi)瀏覽、RSS訂閱更新、用戶修訂、新詞提交、名詞審定等眾多功能,成為天文學(xué)名詞工作的重要工具和窗口[2]。
目前,科技新詞的篩選推薦工作仍和百年之前的模式相差不遠(yuǎn),主要由各個(gè)專業(yè)領(lǐng)域的專家從科技圖書(shū)和論文中人工篩選整理。這種傳統(tǒng)方法盡管可靠,但需要相關(guān)專家有足夠的時(shí)間和精力關(guān)注前沿領(lǐng)域和研究熱點(diǎn),并及時(shí)整理反饋給專業(yè)委員會(huì)。由于是服務(wù)性的公益事務(wù),時(shí)間一長(zhǎng)便難以為繼。中國(guó)天文學(xué)會(huì)名詞委員會(huì)從1985年起,堅(jiān)持在 《天文學(xué)進(jìn)展》 和 《中國(guó)科技術(shù)語(yǔ)》 上發(fā)表天文學(xué)名詞的推薦譯名,到2009年一共公布16批共2636個(gè)名詞,隨后因無(wú)人承擔(dān)選詞任務(wù)而終止[3-4]。雖然在網(wǎng)絡(luò)時(shí)代也可以通過(guò)網(wǎng)站接受天文愛(ài)好者和網(wǎng)站用戶的在線推薦[5],但是由于用戶數(shù)量、分享積極性和專業(yè)背景知識(shí)等多方面的限制,這樣收集來(lái)的名詞無(wú)論是數(shù)量還是質(zhì)量都無(wú)法滿足需要。
在如今這樣一個(gè)知識(shí)爆炸、學(xué)科細(xì)化、專業(yè)分工日益明確的時(shí)代,僅憑個(gè)人之力已經(jīng)越來(lái)越難以應(yīng)對(duì)社會(huì)對(duì)專業(yè)新詞的旺盛需求。因此有必要借助信息技術(shù)發(fā)展一套能夠?qū)崟r(shí)監(jiān)測(cè)各學(xué)科發(fā)展動(dòng)態(tài),自動(dòng)識(shí)別提取科技新詞的自動(dòng)化方法和系統(tǒng),將學(xué)科專家從繁重的科技新詞收集整理工作中解放出來(lái),讓他們把有限的精力集中到更能體現(xiàn)專業(yè)素養(yǎng)的新詞審定和定名工作中。此外,還可以在此基礎(chǔ)上進(jìn)行熱點(diǎn)新詞、年度新詞、新詞流行趨勢(shì)等多角度多層面的研究,為宏觀科技政策的制定提供參考,豐富科技新詞工作的內(nèi)容。
術(shù)語(yǔ)識(shí)別所使用的語(yǔ)料庫(kù)規(guī)模直接影響到提取結(jié)果的統(tǒng)計(jì)顯著度??萍夹略~通常首先出現(xiàn)于專業(yè)科技論文和報(bào)告中,然后隨著概念的普及而逐漸為大眾所知。所以科技新詞獲取應(yīng)當(dāng)選取專業(yè)的期刊論文作為信息來(lái)源。此外,科技新詞自身也在不斷的變化和發(fā)展中,從首次提出到被廣泛認(rèn)可也需要一段時(shí)間的沉淀。因此提取的新詞需要有一定的熱度和穩(wěn)定性,不能以單一文獻(xiàn)或者單一作者作為信息源。綜上所述,科技新詞自動(dòng)提取工作需要一個(gè)能夠提供較為全面的學(xué)科進(jìn)展的文獻(xiàn)數(shù)據(jù)庫(kù),要有最新的科技論文并支持對(duì)全文的完全訪問(wèn)。
國(guó)際上絕大部分商用期刊數(shù)據(jù)庫(kù)都無(wú)法滿足上述要求。國(guó)內(nèi),中國(guó)知網(wǎng)(CNKI)、萬(wàn)方等數(shù)據(jù)庫(kù)收錄的文獻(xiàn)又以中文為主,其關(guān)鍵詞提取技術(shù)主要為搜索引擎優(yōu)化,不適合作為術(shù)語(yǔ)提取工具。美國(guó)宇航局主辦的天文數(shù)據(jù)系統(tǒng)(ADS)是天文學(xué)科最全的論文索引系統(tǒng)。它提供了天文及相關(guān)領(lǐng)域自20世紀(jì)初以來(lái)800多萬(wàn)篇論文和出版物的目錄索引和大部分摘要。但是由于缺乏全文數(shù)據(jù),摘要中專業(yè)術(shù)語(yǔ)的出現(xiàn)頻率不夠,因此沒(méi)有采用。
始于1991年的arXiv.org是一個(gè)收集物理學(xué)、天文學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)與生物學(xué)論文預(yù)印本的網(wǎng)站,ArXiv網(wǎng)站年提交論文數(shù)統(tǒng)計(jì)及各學(xué)科論文比例見(jiàn)圖1。ArXiv網(wǎng)站的主服務(wù)器目前托管在美國(guó)康奈爾大學(xué)圖書(shū)館,在我國(guó)中國(guó)科學(xué)院理論物理所設(shè)有鏡像。相關(guān)學(xué)科的科學(xué)家都會(huì)在論文投稿前或者發(fā)表前將文章上傳到這個(gè)網(wǎng)站上,供全世界的同行免費(fèi)下載,自由閱讀,從而獲得最大限度的關(guān)注和引用。目前,arXiv網(wǎng)站收錄的論文已多達(dá)95萬(wàn)篇,而且仍在以每月7 000篇以上的速度增長(zhǎng),基本能夠較為全面地反映相關(guān)學(xué)科的最新成果。
ArXiv網(wǎng)站的天文學(xué)(天體物理)分支(astro-ph)下設(shè)6個(gè)子類(lèi),分別為:星系天文學(xué)、宇宙學(xué)及大尺度結(jié)構(gòu)、地球和行星科學(xué)、高能天體物理、天文儀器和方法、太陽(yáng)和恒星物理。工作日平均每天更新文章在50篇以上。這樣一個(gè)開(kāi)放的科學(xué)論文數(shù)據(jù)庫(kù),可以基本滿足科技新詞提取對(duì)語(yǔ)料規(guī)模和實(shí)效性的要求。
術(shù)語(yǔ)識(shí)別(Automatic Term Recognition, ATR)和術(shù)語(yǔ)抽取(Terminology extraction)是自然語(yǔ)言處理(Natural Language Processing, NLP)一個(gè)非常活躍的領(lǐng)域,在機(jī)器翻譯、知識(shí)抽取、文本挖掘、信息檢索等許多方面都有著廣泛的應(yīng)用。簡(jiǎn)而言之,術(shù)語(yǔ)識(shí)別就是從文本中自動(dòng)發(fā)現(xiàn)領(lǐng)域術(shù)語(yǔ)的過(guò)程。這項(xiàng)技術(shù)是準(zhǔn)確監(jiān)測(cè)并提取科技新詞的前提。術(shù)語(yǔ)識(shí)別的主要途徑有語(yǔ)言學(xué)方法和統(tǒng)計(jì)方法兩種。語(yǔ)言學(xué)方法是根據(jù)術(shù)語(yǔ)在詞性、詞綴、詞形等語(yǔ)言學(xué)特點(diǎn)來(lái)尋找符合條件類(lèi)型的術(shù)語(yǔ);而統(tǒng)計(jì)方法是構(gòu)建數(shù)學(xué)模型來(lái)分析詞串之間的關(guān)聯(lián)度,將密切相關(guān)的單詞搭配作為術(shù)語(yǔ)候選,也有不少方法將這兩種思路結(jié)合起來(lái)以提高識(shí)別的成功率[6-8]。此外,不同語(yǔ)種之間的識(shí)別技術(shù)也有差別。例如,英語(yǔ)詞素之間有空格分隔,雖然有詞形變化,但詞組的提取較為容易;而中文則沒(méi)有這種便利,需要克服中文分詞的困難??紤]到英語(yǔ)是當(dāng)今國(guó)際科技交流的主要語(yǔ)言,絕大部分科技新詞是首先出現(xiàn)、流行于英文科技文獻(xiàn)中;而且英語(yǔ)的術(shù)語(yǔ)識(shí)別技術(shù)比較簡(jiǎn)單且成熟。因此,這里選擇基于英文論文展開(kāi)新詞提取工作。
圖1 ArXiv 網(wǎng)站年提交論文數(shù)統(tǒng)計(jì),及各學(xué)科論文比例。其中q-fin為定量金融學(xué),q-bio為定量生物學(xué),stat為統(tǒng)計(jì)學(xué),cs為計(jì)算機(jī)科學(xué),physics為物理學(xué)子學(xué)科,math為數(shù)學(xué),hep為高能物理,cond-mat為凝聚態(tài),astro-ph為天文學(xué)。來(lái)源:http://www.arxiv.org/help/stats/2013_by_area/index
Fig.1 Statistics of the scientific papers submitted to the ArXiv over the years. Left panel: Numbers of papers in different disciplines. Right panel: Fractions of papers from different disciplines, In the plots, the ‘hep’ stands for High Energy Physics (hep-th+hep-ph+hep-lat+hep-ex), the ‘cond-mat’ stands for Condensed Matter Physics, the ‘a(chǎn)stro-ph’ stands for Astrophysics, the ‘math’ stands for Mathematics (math+math-ph), the ‘other physics’ stands for physics+nucl+gr-qc+quant-ph+nlin, the ‘cs’ stands for Computer Science, the ‘stats’ stands for statistics, the ‘q-bio’ stands for Quantitative Biology, and the ‘q-fin’ stands for Quantitative Finance
術(shù)語(yǔ)抽取主要有統(tǒng)計(jì)學(xué)方法和語(yǔ)言學(xué)規(guī)則兩大類(lèi)。統(tǒng)計(jì)學(xué)方法要求術(shù)語(yǔ)在語(yǔ)料中有一定的出現(xiàn)頻次,對(duì)于提取時(shí)事熱點(diǎn)、新聞關(guān)鍵詞很有效;但科技新詞通常為低頻詞匯,出現(xiàn)次數(shù)明顯低于常用詞組和固定搭配(對(duì)于表達(dá)程式化的科技寫(xiě)作來(lái)講更是如此),不適合使用這種方法。語(yǔ)言學(xué)規(guī)則是通過(guò)術(shù)語(yǔ)的構(gòu)成特點(diǎn)和語(yǔ)言學(xué)特征匹配相應(yīng)的詞語(yǔ)組合,這與科技術(shù)語(yǔ)的形成特點(diǎn)比較吻合,應(yīng)有相對(duì)更高的識(shí)別率。不過(guò),通過(guò)語(yǔ)言學(xué)規(guī)則得到的組合詞和常用詞組偏多。如何有效地降低這類(lèi)名詞的比例便成為科技術(shù)語(yǔ)提取的關(guān)鍵。
科技術(shù)語(yǔ)有其自身的特點(diǎn),如果根據(jù)這些特點(diǎn)做針對(duì)性的優(yōu)化限制,可以有效地提高術(shù)語(yǔ)提取的效率。譬如:
(1)新詞監(jiān)測(cè)應(yīng)有明確的范圍限制??萍夹略~首先出現(xiàn)于專業(yè)的期刊文獻(xiàn),然后才被網(wǎng)站、報(bào)紙、科技雜志等媒體報(bào)道,因此限定術(shù)語(yǔ)識(shí)別的來(lái)源可以有效地排除誤判。而對(duì)各個(gè)學(xué)科的獨(dú)立監(jiān)測(cè)也可以在源頭上解決新詞的學(xué)科分類(lèi)問(wèn)題。
(2)術(shù)語(yǔ)識(shí)別基于篇章進(jìn)行??萍济~會(huì)在相關(guān)的文章前后反復(fù)出現(xiàn),單篇中的術(shù)語(yǔ)復(fù)現(xiàn)頻率會(huì)因此增高很多,容易發(fā)現(xiàn)。而且這樣還可以建立術(shù)語(yǔ)同所在論文之間的關(guān)聯(lián)度,進(jìn)而為術(shù)語(yǔ)溯源提供方便。基于語(yǔ)料庫(kù)的大范圍平權(quán)搜索只會(huì)降低小領(lǐng)域術(shù)語(yǔ)的相對(duì)出現(xiàn)頻率。
(3)科技論文中術(shù)語(yǔ)新詞的出現(xiàn)形式相對(duì)固定,通常會(huì)用引號(hào)強(qiáng)調(diào)、括號(hào)注釋或給出明確的定義。設(shè)備和項(xiàng)目名稱則會(huì)有對(duì)應(yīng)的全稱和縮寫(xiě)。使用模式匹配可以較為容易地提取這部分格式固定的名詞。
這些原則都是不依賴于具體術(shù)語(yǔ)識(shí)別方法的。為了測(cè)試這些原則的有效性,采用最簡(jiǎn)單的詞性標(biāo)注方法提取術(shù)語(yǔ)。詞性標(biāo)注(POS tagging)是利用語(yǔ)言學(xué)規(guī)則進(jìn)行術(shù)語(yǔ)提取的一種方法,對(duì)英文尤其有效。這種方法根據(jù)參考詞典將句子中的每個(gè)詞指派一個(gè)合適的詞性(名詞、動(dòng)詞、形容詞等),然后便可以根據(jù)構(gòu)成名詞的常見(jiàn)詞性組合來(lái)提取詞組[9]。
在此算法的基礎(chǔ)上以學(xué)科文章為單位進(jìn)行術(shù)語(yǔ)分析,并使用隨機(jī)選取的10篇文章作為測(cè)試樣本,測(cè)試基本模塊的功能效果。
這套在線自動(dòng)運(yùn)行的新詞發(fā)現(xiàn)系統(tǒng),能夠根據(jù)arXiv網(wǎng)站每月更新的天文論文自動(dòng)生成推薦新詞列表,供相關(guān)領(lǐng)域的專家審核參考?;玖鞒倘鐖D2。
圖2 新詞提取系統(tǒng)流程圖
Fig.2 A flowchart of the Terminology Extraction system
根據(jù)arXiv的RSS輸出獲取每月的文章列表,然后下載原始文件,從中提取TeX文本源文件;通過(guò)TeX語(yǔ)法過(guò)濾腳本去除格式控制命令,以及公式、表格等冗余內(nèi)容;然后使用詞性標(biāo)注方法提取每篇文章中多次出現(xiàn)的固定詞組作為候選術(shù)語(yǔ),同時(shí)使用正則匹配提取縮寫(xiě)詞,并統(tǒng)計(jì)出現(xiàn)次數(shù);根據(jù)英語(yǔ)詞典、天文詞典等已有的術(shù)語(yǔ)庫(kù)對(duì)得到的候選詞組進(jìn)行初步過(guò)濾,得到每篇文章的候選名詞列表。每篇文章提取的術(shù)語(yǔ)包含頻次和長(zhǎng)度兩個(gè)特征量。然后以月為單位統(tǒng)計(jì)所有候選名詞出現(xiàn)的總次數(shù)、相關(guān)文章數(shù)和具體文章編號(hào)。這樣就可以追溯到每個(gè)詞組的原始出處,有助于隨后的人工篩選和定名。為了便于審閱核對(duì),系統(tǒng)將最終的結(jié)果以網(wǎng)頁(yè)的形式實(shí)時(shí)發(fā)布。
具體步驟和處理方法分述如下:
(1)TeX過(guò)濾
arXiv網(wǎng)站接受的論文格式主要為T(mén)eX格式,這種格式在科學(xué)排版中應(yīng)用廣泛。同時(shí),arXiv也接受PDF格式的文件。TeX文件是包含全部信息的純文本,因此系統(tǒng)直接忽略了沒(méi)有提交TeX源文件的論文。TeX文件作為學(xué)術(shù)界的排版文件標(biāo)準(zhǔn),包含大量格式控制字符和代碼,不能直接作為自然語(yǔ)言分析工具的輸入。同時(shí),術(shù)語(yǔ)提取的目標(biāo)主要存在于正文中,所以系統(tǒng)在格式控制命令之外還需要過(guò)濾掉公式、圖像、表格、參考文獻(xiàn)等附加內(nèi)容。
TeX文件中的命令和環(huán)境都有明確的特征和定義,比如,所有命令均以反斜杠()開(kāi)頭,行間公式都包含在美元符號(hào)($)之間,各種環(huán)境(公式、表格、圖像等)則由諸如egin{}…end{}之類(lèi)的標(biāo)簽標(biāo)記,可以根據(jù)這些特征對(duì)論文源文件進(jìn)行有效的過(guò)濾。
(2)術(shù)語(yǔ)提取
首先使用詞性標(biāo)注方法對(duì)語(yǔ)料進(jìn)行初步分析。所用的詞性詞典是美國(guó)賓夕法尼亞大學(xué)PennBioIE項(xiàng)目的結(jié)果[10],包含9萬(wàn)基本單詞和字符的詞性。標(biāo)注系統(tǒng)采用樹(shù)庫(kù)樣本(University of Pennsylvania Treebank Tag-set),如用NN表示名詞,NNS表示名詞復(fù)數(shù),NNP表示專有名詞,NNPS表示專有名詞復(fù)數(shù),VB表示動(dòng)詞,JJ表示形容詞等。目前,系統(tǒng)沒(méi)有處理詞性兼類(lèi)的問(wèn)題,只采用最常用的詞性進(jìn)行標(biāo)注,在后續(xù)的工作中會(huì)持續(xù)改進(jìn)。根據(jù)這個(gè)詞典對(duì)整篇文章的單詞進(jìn)行標(biāo)注,從中選出名詞和名詞短語(yǔ)。然后根據(jù)短語(yǔ)在不同文章和不同時(shí)期的出現(xiàn)頻率特點(diǎn),得到候選術(shù)語(yǔ)列表。這些候選詞會(huì)與英語(yǔ)常用詞詞典、物理學(xué)詞典、數(shù)學(xué)詞典、天文學(xué)名詞詞典相比較,過(guò)濾掉已被收錄的術(shù)語(yǔ)。
(3)縮寫(xiě)詞提取
縮寫(xiě)詞通常為理論、設(shè)備、機(jī)構(gòu)的名稱,形式相對(duì)固定。按照慣例,在論文中首次出現(xiàn)時(shí)會(huì)給出全稱并在括號(hào)中注明縮寫(xiě)(通常為大寫(xiě)字母,但也有例外),在隨后的表述中僅使用縮寫(xiě)即可。系統(tǒng)便可以根據(jù)這個(gè)特性設(shè)計(jì)相應(yīng)的匹配模式提取縮寫(xiě)詞。首先在文章中尋找只有字母和數(shù)字構(gòu)成的括號(hào)內(nèi)容(不包含標(biāo)點(diǎn)符號(hào));然后再?gòu)淖罄ㄌ?hào)開(kāi)始向左查詢n+3個(gè)單詞(n為括號(hào)中的字母數(shù)),直到找到和縮寫(xiě)詞由相同大寫(xiě)字母開(kāi)頭的單詞,把該單詞向右直到括號(hào)的全部單詞整體作為全稱候選;最后檢驗(yàn)縮寫(xiě)中的所有字母是否出現(xiàn)在全稱中。得到的術(shù)語(yǔ)列表也會(huì)和已有的詞典庫(kù)相比較,過(guò)濾已被收錄的全稱。需要特別指出的是,本系統(tǒng)不直接比較縮寫(xiě),因?yàn)橥粋€(gè)縮寫(xiě)可能會(huì)對(duì)應(yīng)多個(gè)不同的全稱,始終以術(shù)語(yǔ)全稱的單數(shù)形式為準(zhǔn)。
根據(jù)科技縮寫(xiě)詞的特點(diǎn)設(shè)計(jì)了寬松的提取模式,沒(méi)有限制縮寫(xiě)字母全為大寫(xiě)(例如PanSTAR項(xiàng)目全稱為Panoramic Survey Telescope and Rapid Response System),也沒(méi)有要求全稱所有單詞首字母均為大寫(xiě)(例如supernova常??s寫(xiě)為SN),或者首字母全部進(jìn)入縮寫(xiě)(例如LAMOST來(lái)自Large Sky Area Multi-Object Fiber Spectroscopic Telescope),這樣在不降低錯(cuò)誤率的情況下,最大限度地保證特殊縮寫(xiě)詞的入選。
但是系統(tǒng)尚不能識(shí)別包含非英文字符的縮寫(xiě)詞,這是由于TeX文件默認(rèn)采用ASCII編碼,希臘字母等非拉丁字符都不是顯式地保存在本文中,而是用控制命令實(shí)現(xiàn)的,造成識(shí)別障礙。而且包含空格和特殊字符的縮寫(xiě)詞由于分詞困難也暫時(shí)無(wú)法支持,例如碳氧白矮星carbon-oxygen white dwarf在有的文章中被簡(jiǎn)寫(xiě)為C+O WD。
(4)詞頻統(tǒng)計(jì)
從單篇文章中得到的術(shù)語(yǔ)列表包含許多常用詞組和固定搭配,僅憑有限幾篇文章的結(jié)果無(wú)法自動(dòng)區(qū)分術(shù)語(yǔ)和常用詞組。但是考慮到學(xué)科專業(yè)術(shù)語(yǔ)在相關(guān)文章中會(huì)反復(fù)提及,而在其他學(xué)科領(lǐng)域論文中很少出現(xiàn);而常用詞組和習(xí)慣表達(dá)在大部分文章中都有出現(xiàn),因此可以將來(lái)自眾多文章的術(shù)語(yǔ)列表匯總起來(lái)聯(lián)合統(tǒng)計(jì)。
為了方便查看,系統(tǒng)以月份為單位匯總詞表,arXiv網(wǎng)站每月更新的天文類(lèi)論文在1 000篇左右,可以直接用于統(tǒng)計(jì)。將候選詞在每月所有文章中的出現(xiàn)頻率相加,得到月度總詞頻;記錄包含候選詞的所有文章作為文章數(shù)和出處;然后按總詞頻排序,確定優(yōu)先級(jí)。這樣就得到了每月的術(shù)語(yǔ)索引,如圖3。每月的高頻詞直接進(jìn)入推薦列表,出現(xiàn)頻率較低的候選術(shù)語(yǔ)仍然保留,進(jìn)入候選術(shù)語(yǔ)池,和之前月份的統(tǒng)計(jì)結(jié)果合并處理。當(dāng)?shù)皖l術(shù)語(yǔ)的復(fù)現(xiàn)頻率達(dá)到一定閾值時(shí),也能夠進(jìn)入推薦列表。這樣就保證了非熱門(mén)學(xué)科、小眾專業(yè)詞匯的收錄。
圖3 系統(tǒng)自動(dòng)生成的2014年7月份候選縮略語(yǔ)列表
Fig.3 A list of abbreviations extracted automatically from the papers posted in July 2014
從目前的初步結(jié)果來(lái)看,這套系統(tǒng)能夠有效地處理最新論文并給出合理的推薦術(shù)語(yǔ)。不過(guò),這項(xiàng)工作還有很大的改進(jìn)余地,比如采用更有效的術(shù)語(yǔ)抽取算法,設(shè)計(jì)更合理的候選詞排序指標(biāo)等等。這些問(wèn)題會(huì)在今后的工作和系統(tǒng)使用中得到持續(xù)改進(jìn)。
這套方法不僅可以用于天文學(xué)新詞術(shù)語(yǔ)的提取,還可以直接應(yīng)用于數(shù)學(xué)、物理、計(jì)算機(jī)、生物等arXiv網(wǎng)站涉及的領(lǐng)域。考慮到不同學(xué)科的術(shù)語(yǔ)可能有各自的特點(diǎn),這些學(xué)科的處理仍要根據(jù)提取結(jié)果和專家反饋對(duì)算法做相應(yīng)的修改。
本文所建立的這套天文新詞發(fā)現(xiàn)系統(tǒng)能夠自動(dòng)追蹤論文,自動(dòng)分析內(nèi)容,自動(dòng)更新網(wǎng)站,大大減輕天文術(shù)語(yǔ)收集的工作量和難度。新詞審定工作也有希望在此工作的基礎(chǔ)上得以常態(tài)化。
同時(shí),科技術(shù)語(yǔ)的規(guī)范性定名和審定還是科學(xué)研究活動(dòng)規(guī)范化的重要方面。隨著科技的進(jìn)步,天文學(xué)已經(jīng)步入數(shù)據(jù)密集型時(shí)代,成為一門(mén)數(shù)據(jù)驅(qū)動(dòng)的科學(xué)。天文學(xué)家為了促進(jìn)全球天文數(shù)據(jù)的融合和互操作,提出了虛擬天文臺(tái)的方案,制訂了一系列數(shù)據(jù)格式、數(shù)據(jù)模型、數(shù)據(jù)訪問(wèn)接口等互操作方面的標(biāo)準(zhǔn)。不但如此,還規(guī)范了天文單位、標(biāo)識(shí)符、內(nèi)容描述符等語(yǔ)義相關(guān)的內(nèi)容。名詞術(shù)語(yǔ)規(guī)范化則屬于更高層次的標(biāo)準(zhǔn)化工作,有助于天文學(xué)家等科研人員之間、公眾之間對(duì)于科學(xué)問(wèn)題的理解和溝通。本文上述工作將對(duì)天文學(xué)的數(shù)據(jù)融合和標(biāo)準(zhǔn)化產(chǎn)生積極的影響。
[1] 張暉. 科技新詞工作實(shí)踐探索[J]. 中國(guó)科技術(shù)語(yǔ), 2013(6): 5-9. Zhang Hui. Practices and thoughts on scientific neologism work[J]. China Terminology, 2013(6): 5-9.
[2] 崔辰州, 余恒, 卞毓麟. 《天文學(xué)名詞》 數(shù)據(jù)庫(kù)新版網(wǎng)站設(shè)計(jì)與實(shí)現(xiàn)[J]. 天文研究與技術(shù)——國(guó)家天文臺(tái)臺(tái)刊, 2011, 8(2): 178-184. Cui Chenzhou, Yu Heng, Bian Yulin, et al. Design and implementation of a new version of the website “Glossary of Astronomical Terms” [J]. Astronomical Research & Technology——Publications of National Astronomical Observatories of China, 2011, 8(2): 178-184.
[3] 中國(guó)天文學(xué)會(huì)天文學(xué)名詞審定委員會(huì). 第十六批天文學(xué)名詞的推薦譯名[J]. 天文學(xué)進(jìn)展, 2009, 27(2): 189-192. The Astronomical Terminology Committee of the CAS. The 16th draft for the Chinese-translation of some astronomical terms[J]. Progress in Astronomy, 2009, 27(2): 189-192.
[4] 全國(guó)科學(xué)技術(shù)名詞審定委員會(huì). 第十一批天文學(xué)新名詞[J]. 中國(guó)科技術(shù)語(yǔ), 2010(3): 61-63.
[5] 崔辰州. 充分利用現(xiàn)代信息技術(shù)開(kāi)展科技名詞工作[J]. 中國(guó)科技術(shù)語(yǔ), 2010(3): 19-21. Cui Chenzhou. Taking advantages of advanced information technologies for new academic glossary items collection[J]. China Terminology, 2010(3): 19-21.
[6] 張文靜, 梁穎紅. 術(shù)語(yǔ)抽取技術(shù)研究[J]. 信息技術(shù), 2008(3): 6-9. Zhang Wenjing, Liang Yinghong. Study on the technology of term identification[J]. Information Technology, 2008(3): 6-9.
[7] 祝清松, 冷伏海. 自動(dòng)術(shù)語(yǔ)識(shí)別存在的問(wèn)題及發(fā)展趨勢(shì)綜述[J]. 圖書(shū)情報(bào)工作, 2012(18): 104-109. Zhu Qingsong, Leng Fuhai. Existing problems and developing trends of automatic term recognition[J]. Library and Information Service, 2012(18): 104-109.
[8] 劉建華, 張智雄, 徐健, 等. 自動(dòng)術(shù)語(yǔ)識(shí)別——對(duì)科技文獻(xiàn)進(jìn)行文本挖掘的重要技術(shù)方法[J]. 現(xiàn)代圖書(shū)情報(bào)技術(shù), 2008(8): 12-17. Liu Jianhua, Zhang Zhixiong, Xu Jian, et al. Automatic Term Recognition——an important method for text mining on scientific literature[J]. New Technology of Library and Information Service, 2008(8): 12-17.
[9] 于娟, 黨延忠. 結(jié)合詞性分析與串頻統(tǒng)計(jì)的詞語(yǔ)提取方法[J]. 系統(tǒng)工程理論與實(shí)踐, 2010, 30(1): 105-111. Yu Juan, Dang Yanzhong. Chinese term extraction based on POS analysis & string frequency[J]. Systems Engineering-Theory & Practice, 2010, 30(1): 105-111.
[10]Kulick S, Bies A, Liberman M, et al. Integrated annotation for biomedical information extraction[C]. HLT-NAACL 2004 Workshop, 2004: 61-68.
A System for Automated Extraction of Astronomical English Terms
Yu Heng1, Cui Chenzhou2, Zhang Hui3
(1. Department of Astronomy,Beijing Normal University, Beijing 100875, China, Email: yuheng@bnu.edu.cn;2. National Astronomical Observatories, Chinese Academy of Sciences, Beijing 100012, China;3. China National Committee for Terms in Sciences and Technologies, Beijing 100717, China)
Standardized Chinese translations of scientific terms are important for scientific research as well as science communication. Identifying new English terms in time is a basic requirement for standardized translations. In this paper we introduce a system that is designed for automated extraction of astronomical English terms from scientific publications. The system combines several techniques, e.g. the script filter, automatic term recognition, and regular-expression match. It can automatically trace updates of the arXiv paper database, analyze contents of papers, and generate lists of candidates of new terms. By using the system the China National Committee for Terms in Sciences and Technologies can focus on deciding Chinese translations of terms instead of spending time on term collection. We expect the system to contribute substantially to standardization of Chinese translations of astronomical English terms in the near future and promote other activities of standardization in astronomy.
Astronomical term; Natural language processing; Term extraction; Automatic term recognition; POS tagging
全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)課題 (MCW-2013-XC1);中國(guó)科學(xué)院信息化專項(xiàng) (XXH12503-05-05);國(guó)家自然科學(xué)基金委員會(huì)與中國(guó)科學(xué)院天文聯(lián)合基金 (U1231108);科技部科技基礎(chǔ)性工作專項(xiàng) (2012FY120500) 資助.
2014-10-28;修定日期:2014-11-21
余 恒,男,博士. 研究方向:宇宙學(xué)、星系團(tuán)、天文信息技術(shù). Email: yuheng@bnu.edu.cn
P1; TP39
A
1672-7673(2015)03-0374-07