日本關(guān)西學院大學 于 康
【編者按】學會制作語料庫,可以隨時根據(jù)各種需要進行檢索,瞬時獲取大量的例句。這不僅有利于日語學習,也有助于教師備課和從事日語研究。日本關(guān)西學院大學博士生導師于康教授自制的“YUKANG語料庫”(1億3千萬字)早已為大家所熟知。從本期起,我們將連載于康教授親自執(zhí)筆的新專題“自制語料庫”,循序漸進地講解如何自制語料庫和使用語料庫,以滿足大家的迫切要求。
語料庫指的是儲存各種類型文章的大型文字倉庫。這個倉庫可以根據(jù)需要對倉庫里儲存的信息進行各種各樣的檢索。比如,只要在檢索欄內(nèi)輸入「走る」,并指定與「を」搭配,電腦就會自動從語料庫里把所有有關(guān)的例句全部調(diào)出來。
過去收集例句的時候,通常都是通過目視檢索的方法,從小說、報刊等文章中將例句抄錄下來。比如,收集2010年一年的『毎日新聞』中「走る」的全部例句,就需要一條一條地從報紙上摘錄下來,這不僅需要花費大量的時間,而且還往往容易出現(xiàn)遺漏。如果有了語料庫,就可以在數(shù)秒鐘或數(shù)分鐘之內(nèi)完成檢索和收集例句的工作,而且還不容易出現(xiàn)遺漏和錯誤。
盡管制作語料庫一直是日語專業(yè)的大學生、研究生和教師的一個迫切的愿望,但是,由于受經(jīng)費和技術(shù)要求的限制,制作語料庫一直只是少數(shù)一部分人的特權(quán)?,F(xiàn)在日本很多研究單位和學者免費提供制作語料庫的有關(guān)軟件,這些軟件大部分都可以從有關(guān)網(wǎng)站上下載下來,只要將這些軟件按照需要組合起來使用,并掌握一定的制作技術(shù),就可以自己動手制作語料庫了。
學會制作和使用語料庫,不僅有助于提高運用日語的能力,還有助于尋找畢業(yè)論文或研究論文的研究課題。只要按照每期介紹的制作步驟做下去,就可以逐步掌握語料庫的制作和使用方法。
制作語料庫對電腦的配置要求并不很高,只要滿足①裝有正版 Windows?XP 或 Windows?7、②CPU為Atom,或Celeron,或Core、③內(nèi)存為1GB以上這些基本條件即可。不過,中文版的Windows?XP或Windows?7偶爾會出現(xiàn)亂碼和少數(shù)不兼容的情況,有條件的最好安裝日文版正版的Windows?XP 或 Windows?7。如果電腦不是正版的Windows?XP或Windows?7,常常會在一些重要環(huán)節(jié)上出問題,影響正常操作。
制作語料庫還需要一個基礎軟件Java,一般市場銷售的電腦都會配有這個軟件。這可以點擊控制面板,進行確認。如果找不到Java,可以從網(wǎng)上直接下載,下載網(wǎng)站為:http://www.java.com/ja/download/。
制作語料庫有3個基本軟件,它們分別是:
①「秀丸(ひでまる)」、②「えだまめ」、③「ひまわり」。
「秀丸」是用來保存語料的軟件,這個軟件將各種渠道收集來的語料轉(zhuǎn)換為文本文件(.txt),是處理語料的第一道必不可少的程序。比如,要將「ボランティアのように現(xiàn)地に直接足を運ばなくても、普段の生活の中でできる支援策がある。被災した地域の産品を買うことだ。」這個語料放進語料庫中去,首先必須將這段語料用文本文件形式保存才行。這是因為制作語料庫的軟件只識別文本文件,而拒絕接受Word或其他形式保存的文件?!感阃琛篃o需任何特別的設置就可以自動保存為文本文件。
用「秀丸」保存的語料是不能直接放進語料庫中去的,還需要一道轉(zhuǎn)換手續(xù),即將文本文件的形式轉(zhuǎn)換為語料庫專用文件的形式。這道手續(xù)是語料進入語料庫的一個通行證,如果忽略了這道手續(xù),語料便會被拒絕在語料庫門外。獲得這個通行證的辦法是使用「えだまめ」來轉(zhuǎn)換文件的形式。
上述這兩道程序結(jié)束后,就可以制作語料庫了。制作語料庫的軟件叫做「ひまわり」,用這個軟件對「えだまめ」轉(zhuǎn)換過來的文件進行處理后,語料庫就算做成了。
①下載并安裝「秀丸」
在日文版的Yahoo JAPAN或Google的檢索框中輸入「秀丸」,并進行檢索,點擊檢索結(jié)果中的「秀まるおのホームページ(サイトー企畫)-秀丸エディタ」,進入「秀まるおのホームページ」,點擊「hm804_signed.exe(日本語版)」,下載「秀丸」。下載成功后,點擊保存在文檔中的「hm804_signed.exe」,安裝「秀丸」。安裝成功后,會在桌面上或“開始”中出現(xiàn)「秀丸」的標記,點擊「秀丸」標記,出現(xiàn)「秀丸」的界面,安裝成功。
②下載并安裝「えだまめ」
在日文版的Yahoo JAPAN或Google的檢索框中輸入「edamameコーパス」,并進行檢索,點擊檢索結(jié)果中的「『ひまわり』支援ツール/えだまめ/使い方/2-言語データベースと...」,進入網(wǎng)頁,點擊第二行中的「えだまめ」,出現(xiàn)「『ひまわり』支援ツール/えだまめ」的界面,下載「edamame_v21.zip」。下載成功后,先點擊保存在文檔中的「edamame_v21」,進行解壓縮,然后再點擊解壓縮后「edamame_v21」中的「edamame_v21.hta」,出現(xiàn)「えだまめ」的界面,安裝成功。
③下載并安裝「ひまわり」
在日文版的Yahoo JAPAN或Google的檢索框中輸入「ひまわり コーパス」,并進行檢索,點擊檢索結(jié)果中的「全文検索システム『ひまわり』-言語データベースとソフトウェア」,進入網(wǎng)頁,點擊「ver.1.3 β 05(2011-02-16)...開発版」,下載「ひまわり」。下載成功后,先點擊保存在文檔中的「himawari_1_3b05」,進行解壓縮,然后再點擊解壓縮后「himawari_1_3b05」中的有向日葵圖標的「himawari」,出現(xiàn)「全文検索システムひまわり-[『太陽コーパス』(サンプル)]」的界面,安裝成功。
制作語料庫,需要下載和安裝3個軟件:①「秀丸(ひでまる)」、②「えだまめ」、③「ひまわり」。如果安裝成功后打不開「えだまめ」或「ひまわり」,可能是因為電腦沒有安裝Java,或Java沒有下載成功,此時需要重新安裝Java。