張溟 徐進 解放軍信息工程大學洛陽校區(qū)
時間作為新聞的一個基本組成要素決定著新聞的價值。分析新聞的一個核心環(huán)節(jié)就是識別和分析時間。通??梢愿鶕承┕潭ù钆浠蚴菙底纸M合得到文本中的具體時間點。俄語新聞中時間的識別是一個難題,主要原因在于:一是俄語時間的表述形式非常豐富,不僅有數字格式,還有一系列時間副詞,或是以紀念日等說法代替具體時間出現的現象。二是時間與其他詞匯一樣也涉及變格的問題,并且有部分表示時間的數詞的變格屬于特殊變化,這又為時間的識別和分析增加了難度。三是俄語行文具有避免重復的特點,時間表示方面也是如此,一篇文章中常常使用多種方式來表達同一時間。下面本文首先簡要介紹一種方便機器處理的形式化時間表達方法,之后分析俄語新聞中時間識別與判定的難點,并嘗試解決。
俄語新聞中,時間的表達方式多種多樣。要讓機器來挑出這些時間表達,并確定一些具體的時間點,僅憑自然語言是不行的,單依靠一兩張詞表也很難完成這個任務。因此首先需要對現有的時間表達方法進行梳理,整理出形式化的規(guī)則,這樣才能讓機器識別,并進行后續(xù)的處理工作。
形式化的規(guī)則主要包括兩個部分,一個是匹配規(guī)則,一個是時間值。匹配規(guī)則就是一串包含前置詞、數詞等“線索詞”的語句,也就是一組“類聯接”(colligation),程序將根據它們找出符合條件的時間表述。時間值是一些表示時間的詞對應的具體數值或運算符,程序可根據給出的值來計算一些具體的時間。在確定具體時間點時,常常需要結合上下文相關信息做進一步的判斷與推理。這些信息有時并不從文本中直接體現,需要語法層面和語義層面的分析才能剝離出來。因此對應規(guī)則有時需要結合語法分析過程,并增加分析和判斷的步驟。
以央視網俄語臺推送的一條新聞(圖1)為例說明時間表達形式的多樣性及相應的處理步驟和規(guī)則。文中被強調標記的部分都是時間的表示方法。標題下方“2013-06-06”為新聞在本網站的發(fā)布時間。而在本段新聞中,с е г о дня一詞對應的日期應該是2013-06-05,而不是發(fā)布時間2013-06-06,這里就需要引入一個時間參照點來幫助判斷。如果以發(fā)布日期為參照點,那么首先假設с е г о дня對應日期為 2013-06-06。同時,后文中給出的參考時間段с 5 п о 7 июня表明會議起止時間為6月5日開幕,6月7日閉幕。所以若假設成立,с е г о дня后的動詞“開幕”(о тк р о е т)的時態(tài)(現在時)與已知參考時間段的時態(tài)不一致,產生沖突。因此假設不成立。根據參考時間段和現在時動詞的使用時間范圍,可以推知с е г о дня指的是 2013-06-05。
圖1 央視網俄語臺2013年6月6日推送新聞
俄語的時間表達方式并不拘泥于某幾種特定的格式,這首先為識別規(guī)則的確定造成了困難。想要盡可能多地覆蓋所有可能出現的情況,僅靠幾條規(guī)則是無法完成的。然而過于細致和復雜的規(guī)則會為機器的處理帶來困難,因此需要在保持一定粒度的前提下,盡量合并精簡規(guī)則。以具體鐘點的表達為例:
表 示“ 在 六 點十 五分”的 表 述 有:в ше с т ь ч а с о в пя тна дца т ь минут/в пя тна дца т ь минут с е дьмо г о/ч е т в е р т ь с е дьмо г о/в ше с т ь с ч е т в е р т ью
如果為每種表述方法都寫特定的規(guī)則,那么規(guī)則庫將會變得十分臃腫,因此必須對此進行精簡,寫成規(guī)則為:
然而,并不是每種情況都可以整合精簡在一條規(guī)則之中。語言的靈活性和詞匯的搭配關系使得一些形式大體相同的組合之間由于選詞的差別而在前后搭配詞語的選擇上存在差異。比如,序數詞“第一”與其他序數詞的接格關系及搭配的名詞都存在較大差別,需要單獨列出,并給出對應的規(guī)則。這一部分的困難主要是比較難把握規(guī)則的顆粒度。規(guī)則過細會造成規(guī)則庫臃腫,降低整個系統運行的效率;而規(guī)則過于精簡則會大大降低匹配的準確度。尋找一個平衡點是這一階段的核心問題。
俄語新聞文本中,縮略現象隨處可見,表示時間的縮略形式是其中重要的一部分。最常見的就是年份與月份的縮寫,這種情況較好識別,只要將縮略形式與原型一一對應起來就可以了。然而,縮略的書寫形式并不總是規(guī)范的,這使得此類時間詞的識別與提取非常困難。
時間詞的非規(guī)范縮略寫法主要發(fā)生在變格的數字形式中。如年份的變格,以“在2013年”為例,常見的寫法有:
可以看到,數字后的變形詞尾為數字“3”的序數詞6格單數形式詞尾,屬于形容詞軟變化??梢钥吹剑瑪底趾蠼拥耐褡冃卧~尾出現了多種形式。在機器識別時,需要把這些形式都通過詞典來告知機器。另一種解決方案是明確線索詞,例如文中的в … г о д у,此時負責匹配和識別的部分是作為一組完整的類聯接(colligation)出現的,不能省略。總體來說,對于非規(guī)范寫法的識別主要依靠規(guī)則在機讀詞典中窮舉所有詞尾及相關的前置詞搭配。研究者需要分析和整理大量文本,列舉出所有可能的形式。這個階段中需要人工分析各種詞形變化。
規(guī)則的確定不僅需要看形式,還要看意義。例如:в др у г о й д е нь與н а др у г о й д е нь不能合為一條規(guī)則 *в/н а+др у г о й д е нь(case 4),而要單獨拆開來寫,因為各自對應的語義信息是不同的,前者是“另一天”,后者是“第二天”,因此轉換而成的時間值也不同。所以,上例應寫為:
這種比較明顯直觀的語義信息表示只需要在轉換部分加以區(qū)別就能夠解決。然而,俄語中還存在大量的“模糊概念”和一詞多義現象,特別是在描述某個時間段(某時期)時,轉換規(guī)則必須加入語義分析,否則無法得出準確時間。
另外,慣用語的處理也需要特殊對待。慣用語的特殊性在于單個詞的意義之和并不等于整個表達的意義,這就為規(guī)則的確定以及機器的自動處理帶來了很大的困難。俄語時間表達方法中也存在著慣用語的現象,如 np.+н е з а г о р ами/н а н о с у/с т о я т ь у д в о р а,字面意思為“(名詞短語)沒在山后 / 已經到了鼻子尖/站在院子里”,然而作為表示時間的習慣用語,這三組詞組的意義都是“近在眼前,眼看著要(來臨)”。解決這類問題的最大障礙是整個表達沒有標志性線索詞,組成詞組的各個單詞均為普通詞,這樣就很難將表示時間的情況與表示其字面意義情況相區(qū)分。目前此類問題通常還是采用窮舉的方法來解決。
對于俄語新聞文本中時間的識別與確定,本研究嘗試建立一個規(guī)則庫,將表示時間的詞匯、短語等形式同意義(值)對應起來,同時嘗試加入運算,以確定所需的具體時間點。筆者參考《俄語語法(第2版)》與《俄語表義語法》后針對具體時間的識別已初步歸納出了近百條規(guī)則,針對模糊表述的規(guī)則也正在完善與細化。
初步的工作為列出時間詞詞表,并使用WordSmith5.0以及C++編寫的一些正則表達式匹配代碼驗證初步形式化后的規(guī)則。共使用100篇從互聯網上隨機抽取的語料參加測試,目前已總結的92條規(guī)則參與驗證。驗證結果顯示,70多條規(guī)則均可以實現識別。所有規(guī)則中有20條左右的規(guī)則未出現在當前語料中,這些規(guī)則多數是習慣用語。這個結果表明,新聞中的時間表達方法選擇存在一定的偏向,習慣用語在新聞報道中的使用機會相對較低。因此習慣用語盡管是一塊非常重要的內容,但是在新聞領域可以相對弱化。此外,測試中能夠明顯發(fā)現,單個詞與前后緊密相連的詞組的匹配效果要優(yōu)于匹配詞中間有距離的形式,對字母詞的識別效果優(yōu)于對數字-字母混合詞識別的效果。中間有間隔的搭配形式和數字-字母混合形式的匹配效果不理想。這說明這部分的規(guī)則需要重點修改,或考慮單獨編寫代碼實現這部分規(guī)則。驗證規(guī)則后,將逐步把所有規(guī)則都轉寫為C++代碼,并使用更大規(guī)模的俄語新聞語料測試規(guī)則。
讓計算機自動識別和分析文本中的時間表達能夠提高人處理海量信息的效率。這對于網絡輿情分析等工作來說非常重要。我們已經驗證了現有的規(guī)則,之后的工作是嘗試根據不同的語料來修改規(guī)則,并逐步代碼化。目前我們的規(guī)則以相對標準的新聞語料為基礎,在可預見的將來,我們將逐步擴充和完善這些規(guī)則,嘗試使其能夠分析論壇、微博等環(huán)境中的文本,并能夠在突發(fā)事件的分析與跟蹤方面發(fā)揮一定的作用。
[1]趙艷仿.俄語中時間表述[J].黑龍江科技信息.2010 (8)
[2]王燁姝,許適琳.現代俄語簡單句中時間關系表示法芻議[J].長春師范學院學報(人文社會科學版).2008 (7)
[3]宿俊巍.淺析俄語簡單句中時間關系表示法[J].雞西大學學報.2004 (1)
[4]張會森.俄語表義語法[M].北京:外語教學與研究出版社.2010
[5]張會森,信德麟,華劭 編.俄語語法(第2版)[M].北京:外語教學與研究出版社.2009