[摘要]書寫方式的變革要以人為本,適當兼顧計算機信息處理。詞式書寫不具備理論研究價值,全面分詞連寫的必要性和可行性都比較低,需要深入的理論研究,實踐研究層面難以闖過起步關。我國大陸盲文實行全面分詞連寫,對盲文編校專業(yè)人員的難度非常大,普通盲人更是難以承受。如果對漢字文本僅在專有名詞和有歧義的關鍵節(jié)點進行分詞,分詞率控制在1%以內(nèi),對現(xiàn)有習慣沖擊小、可行性高、效益大。借鑒藏語的間隔號,比空格的接受度可能更高。關鍵節(jié)點分詞可以作為漢語書寫變革的目的地,也可以作為向全面分詞連寫前進的中途點。
[關鍵詞]關鍵節(jié)點;分詞;間隔號;盲文
[中圖分類號]H126.2 [文獻標志碼]A [文章編號]1005-0310(2020)01-0070-07
1 漢語書寫方式的演變
近代以來,漢字的書寫方式在不斷地發(fā)生演化和改進。從豎排改為橫排,符合了雙眼水平視野大于垂直視野的生理機制,充分利用雙眼視野迅速展開,使整行閱讀成為可能。豎排則需要雙眼過度聚焦,視覺容易疲勞。
標點符號的成功引入使?jié)h字的書面表達系統(tǒng)不斷完善,大大減輕了閱讀難度,給人們的學習生活帶來了方便。分詞連寫雖然和標點符號同時進人大眾視野,但并未受到同樣禮遇。嚴復率先將歐式書寫體式運用于中文,只借用了歐式標點符號而沒借用歐式分詞連寫。胡適等于1915年創(chuàng)辦的《科學》雜志,也是將分詞連寫方式棄置一邊,只對標點符號情有獨鐘[1]。
20世紀50年代初,周有光等曾經(jīng)仿效歐式分詞連寫格式排印兩個小冊子,印出來以后卻沒有得到公眾的認可。1952年,曹伯韓的《語法初步》嘗試采用分詞連寫格式,但出版后社會對此反應平淡,從此學界很長時間不再提此事[1]。
在文言文時代,漢語的文和言是一致的。白話進入老百姓語言生活后,漢語的文和言在很長一段時間內(nèi)嚴重脫節(jié)。白話文進入書面后,表面上漢語的文和言又一致了,但是,內(nèi)在的脫節(jié)被隱藏了。現(xiàn)代白話中漢語詞匯發(fā)生了前所未有的變化,雙音節(jié)詞在數(shù)量上占絕對優(yōu)勢,單音節(jié)詞、雙音節(jié)詞、多音節(jié)詞紛呈并存。在文言文中,表義單位和自然單位都是字?,F(xiàn)代漢語的表義單位是詞,但自然單位還是字,兩者很多時候不一致,甚至有歧義。從這個角度來看,漢語書寫方式的演變滯后了。
引進標點符號只能表示語法停頓,仍然無法表示邏輯停頓。是否可以這樣認為,當年引進標點符號時,漏了一個最常用的、零標記式的標點符號——空格。雖然漢字對空格的迫切性和拼音文字不在一個層級上,但是現(xiàn)在需要重新考慮把漏掉的空格補上,或者設計一個新的標點符號(也可以轉借已有的標點符號),表示邏輯停頓,或者區(qū)分歧義結構。新增一個標點符號的難度不是很大,很多未在國家標準正式公布范圍的標點符號,也有了實用地位,只是都沒有表示邏輯停頓的功能。
2 盲文書寫方式的演變
我國與世界上絕大多數(shù)國家一樣,都采用布萊爾6點符號體系作為盲文基礎代碼。盲文是記錄語言的觸覺符號,盲文的外形是國際通用的,沒有獨立于語言的國際通用盲文。在我國,盲文是漢語盲文的簡稱。由于布萊爾體系只有63個可用符號,依據(jù)觸覺特點又只能對其線性排列,無法直接表達漢字復雜的字形結構。最早的“康熙盲字”和后來的“心目克明”都是字字連寫,“福州盲字”嘗試過分詞連寫。
20世紀50年代,黃乃先生主持設計的現(xiàn)行盲文脫胎于注音字母和“北方話拉丁化新文字”,其核心為“一般不標調(diào)、分詞連寫”,都源于“北方話拉丁化新文字”?!耙话悴粯苏{(diào)”只能適應初級掃盲,妨礙盲人文化水平的提高。現(xiàn)行盲文不僅記錄每個漢字的字音,并且在較高層面上反映漢語的詞匯、語法關系,其表義功能大大超越了注音符號?,F(xiàn)行盲文擺脫了漢字的附庸地位,基本具備了獨立的文字品格[2]。分詞連寫使?jié)h語盲文的文字形態(tài)躍升了一個臺階。
瞿秋白在《中國拉丁化字母》中提出:“凡是意義上連成詞的字,都應當連寫起來?!盵3]但是,這種以意義為基礎進行連寫的思想在盲文分詞連寫規(guī)則中并沒有得到較好的體現(xiàn)。從“康熙盲字”到“心目克明”盲字,再到現(xiàn)行盲文,不僅書寫方式發(fā)生了由連到分的巨變,基本編碼也屢屢更迭,我國盲文在一百多年的歷史中產(chǎn)生了兩次文化斷層。
3 詞式書寫分析
“詞式書寫是以詞為單位的方式,使詞和詞之間在書寫上有明顯的距離,逼真地體現(xiàn)口語詞的界線?!盵4]漢語的詞本來就沒有一致的標準,口語詞就更沒有標準。
3.1 詞式書寫價值小
詞式書寫倡導者認為,詞式書寫節(jié)約閱讀時間,促進閱讀理解,最重要的是幫助大眾建立詞意識。但是漢語的詞是無法說清的,這樣建立詞意識不可能有效,也是不必要和無益的。假設這是詞式書寫的優(yōu)點,也是可以忽略的優(yōu)點。
規(guī)范一致的詞式書寫有利于計算機信息處理,但是追求技術方便,必須以不影響漢字文本閱讀習慣為前提。不能為了信息處理,本末倒置。盲文研究先驅黃乃先生為了捍衛(wèi)“的”連寫,發(fā)出過著名的“人不是機器的奴隸”的吶喊[2]。信息處理發(fā)展的方向應當是著力挖掘已經(jīng)自然存在的標注信息,像超鏈接、字體、顏色以及排版標識等可以用作分詞的啟發(fā)式信息[5],而不是費盡九牛二虎之力進行分詞,為計算機服務。況且,任意性極大的“反映口語”的詞式書寫,恐怕只會給計算機自然語言處理帶來紛亂和麻煩。
現(xiàn)在看不出漢語采用詞式書寫的益處,不能簡單草率地提倡詞式書寫。在諸多基本問題還沒搞清楚的情況下,詞式書寫不免破綻百出、問題叢生。如果把詞式書寫推廣開來,只會給漢語的書面書寫增加紛亂[6]。
如果對語言沒有科學、理性、客觀的認識,就極易被盲目激進的情緒支配。必須充分尊重漢語漢字的文化,切忌在誤讀漢語漢字的基礎上得出片面的結論,提出輕率的改革主張。任何一項語言文字的改革都將給人民、社會、文化和經(jīng)濟帶來巨大的影響[7]。
3.2 詞式書寫難度大
劉開瑛認為,分詞的主要困難源于漢語語言學研究中懸而未決的一些“經(jīng)典”問題,譬如“什么是詞”及“詞是什么”這兩個本體論的基本問題沒有解決,詞與語素及短語的邊界劃分就有不可逾越的困難[8]。語法學家彈精竭慮地制定出來的分詞標準,可能與普通民眾日常語言習慣并不吻合?!八{天”“白云”這些被大多數(shù)語法著作當作詞組的雙音節(jié)結構,絕大多數(shù)大學生受訪者傾向于將其看成是詞而不是詞組[9]。
為了區(qū)分偶爾遇到的詞界混淆,將整個文本進行詞式書寫,相當于手指扎刺,全身手術。僅僅一個“每X”就會卡住詞式書寫的命門,其說法無法自圓其說,更無法令人信服。倡導者將“每天”寫成一個詞,那么諸如“每架”“每張”“每筐”“每人次”“每平方公里”,等等,都可以處理成一個詞嗎?[6]
“左手”是詞典詞條,是一個詞。那么詞典沒有收的,例如“左腳”“左胳膊”“左肩膀頭”“左鼻孔眼”,是詞不是詞?關于“老虎”“小虎”“小老虎”,語言學家怎么確定?漢語拼音正詞法列出的“老”是單音節(jié)前附成分[10],通常的詞典僅收錄“老虎”為名詞。在盲文翻譯、盲文語料庫加工過程中,人們飽嘗了“什么是詞、什么不是詞”的苦頭。還有“鴨蛋”是詞,“雞蛋”不是詞,這是不可接受的,不論其中的理論多么高深,在實踐面前,任何復雜的理論都是蒼白無力的。語言是為廣大人民群眾生活服務的,不是制造麻煩的。
3.3 詞式書寫疑惑多
支持者提出的詞式書寫的意義與價值,理論基礎不完備,又沒有嚴謹?shù)膶嶒炛?,反對者對此提出了一些疑惑?/p>
讀者面對句式書寫的文本時,會感知自己作出的語義分割,面對詞式書寫的文本時,讀者就會按已經(jīng)間隔好的單位去感知。詞式書寫的閱讀線索零碎而混亂,眼睛不得不多次作不必要的跳動和停頓,給讀者制造大量的復視頻率。詞式書寫往往使讀者把注意力分散到每一個分隔開的詞上,幾乎導致點式閱讀成為必然,使得線式閱讀和面式閱讀沒有可能實現(xiàn)[7]。
詞式書寫增加了詞之間的間隙,等于把語句分割為一個個區(qū)塊,從心理上來說,不利于讀者心理狀態(tài)的穩(wěn)定;從生理上會導致閱讀者眼部神經(jīng)的緊張,延長人眼對文本的注視時間[7]。詞式書寫脫離語言實際,與閱讀效率、理解正確率之間的關系卻不明確[11]。
4 分詞連寫研究
4.1 分詞連寫的意義
分詞連寫基本上是以詞為單位書寫,將符合規(guī)定條件的詞組或者語法結構連寫。分詞連寫早期稱為詞兒連寫,這是轉借了漢語拼音的概念。從概念上看,分詞連寫與詞式書寫有本質(zhì)的不同。分詞連寫不稱每個書寫單位都是詞,更不是為了幫助大眾建立詞意識。
分詞連寫便于閱讀理解。在閱讀漢字文獻過程中,讀者需要對語句進行切分和邏輯停頓,絕大多數(shù)能夠在潛意識中完成,但也存在誤分影響語意理解的現(xiàn)象。對于初學者和學習漢語的外國人來說,尤其如此。分詞連寫能夠降低閱讀的難度,把精力留給理解深層的內(nèi)涵,而不是在表層就疲勞和緊張。
1995年,國家科委在開放測試條件下,分詞精度最高為89.4%,歧義切分字段處理的正確率最高為78%,地名最高為65%,人名最高為58%[12]??梢姡缌x字段和專有名詞是自然語言處理的瓶頸。20多年來,專有名詞切分的準確率未見實質(zhì)性提高。人名具有隨意性、可變性,獨立于上下文的內(nèi)在邏輯,是最難處理的部分。在分詞連寫文本中,上述問題將不復存在。建立在統(tǒng)一標準之上的分詞文本,對網(wǎng)絡搜索、機器翻譯等計算機自然語言處理將如虎添翼。
分詞連寫可以繞開“是詞不是詞”這個無解的問題,有時候不弄清“是詞不是詞”也能夠進行下去。例如“每X”,認為其是一個詞,直接寫;認為其不是一個詞,詞組連寫,結果是一致的。分詞連寫可以對一些習慣性分歧放寬標準[13],例如允許長度不大的詞組連寫,允許夾雜的文言詞單獨寫,不允許一般的不成詞語素單獨寫。
宋柔主張確定分詞單位的下界和上界,即確定哪些情況必須切開,哪些情況必須連寫,在保證語法完整性和沒有歧義切分錯誤的情況下,介于兩者之間的分詞單位可以有較大的靈活性。同時,配合下界整理出一個包含基本詞的詞表,收集內(nèi)部不可切分的詞[14]。分詞連寫有一定的自由度和靈活性,這正是分詞連寫的生命力所在。
漢字同音字非常多,詞的同音現(xiàn)象大幅度減少。分詞連寫對于拼音到漢字的轉換是很有益的。反過來,漢字到拼音的轉換主要需解決的是多音字問題。在詞的環(huán)境中,多音字的讀音一般是固定的,如“長遠”“生長”“銀行”“行李”“漂浮”“漂白”“漂亮”等。因此,分詞連寫對于漢字到拼音的轉換也是有益的[15]。
漢盲雙向翻譯正是漢字與拼音轉換及分詞連寫的過程。假如漢語能夠普遍實行分詞連寫,盲人和盲文使用者是非常歡迎的,盲文出版者更加歡迎,漢語分詞連寫將非常有利于盲文翻譯。更重要的是,分詞連寫縮小了明盲之間的鴻溝,也可以算作多數(shù)向少數(shù)的回歸,也是殘疾人與非殘疾人融合的一個進步。
4.2 分詞連寫困難重重
分詞連寫文本要有比較高的一致性,才能對閱讀理解和信息處理產(chǎn)生實際效益。然而,專家學者從系統(tǒng)性、科學性角度出發(fā)制定的詞語切分規(guī)范,與人們直覺并不一致。人們在日常語言生活中,往往把功能詞和實體詞看作一個單位,而不是根據(jù)國家規(guī)范標準來判斷。一個漢語結構,日常使用頻率越高就越容易被當成是詞;所代表的概念自身結合得越緊密,越有可能被當成一個詞[16],這與語言學家堅持的語法詞的切分標準并不一致。不同學者、不同學派的觀點看法及處理方式也不相同。人的語感不同,勢必會導致人工分詞的結果不一致。在對詞語切分的實際操作過程中,如果規(guī)范標準的可操作性不強,更易造成切分不一致。這樣,每個人按照自己理解分詞連寫的“詞”、語言學家總結的“詞”、用于信息處理詞庫中的“詞”,三者很難一致。
60多年來,盲文出版業(yè)存在分詞結果不一致的現(xiàn)象。例如,有的出版社將“分/鐘”分寫,盲文分詞連寫規(guī)則規(guī)定數(shù)詞與量詞、數(shù)詞與名詞連寫。作為規(guī)則本身沒有問題,為什么會出現(xiàn)這么奇怪的結果呢?原因在于時間名詞的認定,因為詞典沒有收錄“分鐘”,便不認定“分鐘”是時間名詞,產(chǎn)生了“十分/鐘”的寫法。這里將不能獨立使用的“鐘”分寫,完全背離了大眾語感。類似情況很多,例如剎那/間、偶然/間、國/內(nèi)外、之/所以、不得/不、越來/越、清燉/甲魚、毛遂/自薦、名/落/孫山、馬/不停/蹄、胸/有/成竹、膾炙/人口、漠/不關心、近朱者/赤、自/以為/是、前車/之/鑒、化險為夷。
如果漢字文本普遍實行分詞連寫,全國眾多的出版社、報紙雜志社的專業(yè)編校人員需要大量培訓,培訓后能否取得一致效果仍然是一個大問號。如果分詞連寫的一致性達不到可接受程度,后續(xù)的計算機語言處理比按照特定的詞庫資源直接處理還要復雜得多[16]。對已經(jīng)分詞連寫的內(nèi)部一致性較低的盲文出版物,中科院計算所對其進行深度學習的處理難度確實大于未分詞連寫的普通文本。實際的漢字分詞文本很可能與理想情況大相徑庭,對漢語信息化的意義和盲文翻譯的意義也同樣大打折扣。
孫茂松等指出,分詞規(guī)范直接影響到詞表和分詞語料庫的質(zhì)量[17]。然而,研制面向大眾的分詞規(guī)范卻是一件非常困難的事?!缎畔⑻幚碛矛F(xiàn)代漢語分詞規(guī)范》歷經(jīng)很多專家的深思熟慮,匯集當時學界主流觀點之大成,在實施過程中仍有很多困難。在開發(fā)語言知識庫的過程中,開發(fā)者們并不直接使用,而是自行制定各自所需的分詞規(guī)范,如北京大學、清華大學、臺北“中研院”等單位都在各自項目中加入了自己的分詞內(nèi)容[16]。
盲文分詞連寫規(guī)則歷經(jīng)60多年的實踐磨煉、多次修改,頒行了兩個版本的國家標準,執(zhí)行起來仍然困難重重,規(guī)則本身也存在矛盾沖突。普通盲人、盲校教師等盲文使用者,對于分詞連寫基本上是跟著感覺走,110多條細則是不可承受之重[18]。如果必須嚴格遵守那些分詞連寫細則,普通盲人就沒有書面語了。盲文出版專業(yè)工作者雖然兢兢業(yè)業(yè),努力遵守分詞連寫細則,但是兩個盲文出版社執(zhí)行的結果卻大相徑庭,奇奇怪怪的分詞現(xiàn)象林林總總,分詞亂象是盲文規(guī)范化的攔路虎。盲文分詞連寫實踐中遇到的問題,固然與其分詞連寫規(guī)則不夠完善及可操作性不強有關,但是其根本原因還是由分詞連寫本身決定的,漢語分詞連寫的難度比估計的要大得多。
4.3 習慣阻力難以克服
分詞連寫不像詞式書寫那樣出現(xiàn)很多奇怪的現(xiàn)象,大眾的接受度會高一點。但是,讓大眾改變現(xiàn)有習慣使用分詞連寫,可能比分詞連寫本身的技術難度還大。分詞連寫的本意是節(jié)約閱讀時間,促進閱讀。有人卻說,分詞連寫延長閱讀時間,妨礙閱讀的連貫性。為什么會事與愿違呢?這是由新舊習慣銜接中的慣性造成的。分詞連寫有利于消除一些歧義,但是,不習慣分詞連寫的人,會在空格中停留相對較長的時間,反而覺得浪費時間,時間的延長又會破壞快速閱讀的連貫性[19]。約定俗成是語言文字發(fā)展的第一要律,新舊銜接過渡歷來是語言文字的頭號問題。
由于沒有分詞連寫的大環(huán)境,讀者隔一段時間才能閱讀分詞連寫文本,每次都需要幾個小時的適應期,每次閱讀的成本都很高,讀者自然不愿意接受。要使讀者穩(wěn)定適應分詞連寫,需要大量的分詞連寫讀物。然而,分詞連寫讀物生存需要大量適應性讀者[20],這是一個無解的循環(huán)。在習慣勢力面前,技術的進步是微不足道的。雙拼盲文具有科學、準確、省方的特點,其推廣失敗的教訓,充分證明了這一點。
目前,贊成實行分詞連寫的人數(shù)不容樂觀,要想爭取中間派,說服反對派,進而贏得政府和社會大眾的支持,以直覺判斷為論據(jù)是遠遠不夠的[21]。盡管引入標點符號有過成功的先例,使得書面漢語的表義功能更強大,但是對漢語是否要實施分詞連寫,此舉能否提高文本閱讀速度,甚至對中文信息處理、盲文翻譯等其他應用是否有實質(zhì)性促進作用,還需要進一步研究。
另外,漢語也確實不需要機械的、千篇一律的分詞連寫,沒有歧義的地方可以大片的連寫。浪費紙張的問題暫不討論,關鍵是閱讀習慣。一個改變語言文字習慣的新事物,即便收獲遠遠大于付出,大眾也未必接受。盲文領域也存在分詞與不分詞之爭,漢字分詞連寫的爭辯可以打消盲文分詞連寫的質(zhì)疑。支持漢字分詞者首先支持拼音文字分詞,反對漢字分詞者把拼音文字才需要分詞作為反對的論據(jù)。
5 實施關鍵節(jié)點分詞的建議
在漢語文本閱讀過程中,歧義性邏輯停頓并非普遍存在,絕大多數(shù)集中在鉸鏈詞和專有名詞上,鉸鏈詞是交集型歧義字段(如“學生物”),專有名詞包括人名、地名、機構名等。本文將鉸鏈詞和專有名詞稱為關鍵節(jié)點,它們?nèi)菀仔纬扇俗x和機讀的歧義陷阱,是真正需要進行文本切分的關鍵節(jié)點。
5.1 關鍵節(jié)點分詞效益高
關鍵節(jié)點分詞僅對確有混淆的節(jié)點進行分詞,其余部分全部連寫。分詞的方式是加間隔號,間隔號的形式可以是空格,也可以是新設計標點符號,或者借用已有的標點符號。例如:要將“從前門口”的實際含義明確地表達出來,就需要采用一個間隔號。這個符號有時候是很必要的,是漢語標點符號走向完善的極其重要的一步[22]。
針對現(xiàn)有符號不能完全消除歧義,全面分詞又太費事的情況,香港學者胡百華提出,確有歧義的情況,才使用“隔詞號”?!案粼~號”可以備而不用,絕對不能多用[22]。這個主張比分詞連寫更理性,更具可行性,但是聲音卻比較弱。內(nèi)地學者也有相似觀點:“只在個別詞界易混的地方采用隔詞標志,比如在易混詞界間加一豎線。”[23]小學生遇到填空題“我國的煤都是()”,要防范把“都是”當作一個整體來認知,盡管“都是”并非一個詞,卻是陷阱。有的學生讀不出“煤都”,苦悶半天,不得已答成“黑的”。只需在“都”和“是”之間加一個間隔號,就可以為學生減去不應有的負擔。
關鍵節(jié)點分詞對人讀的幫助非常接近普遍分詞,對機器處理的幫助雖略小一些,但是突破了瓶頸。在閱讀過程中,讀者在無意識中完成了絕大多數(shù)的分詞,需要有意識分詞的非常少,有歧義難以分詞的少之又少。僅對這少之又少的關鍵節(jié)點進行分詞,局部問題局部解決,不對全局大動干戈,使每一個間隔號都有實實在在的價值。不像普遍分詞,絕大多數(shù)的空格僅有名義價值。
人名、地名復雜多變,無特定標記信息,是造成閱讀困難的主要根源。特別是專有名詞兩端的字與緊鄰字可組成常用詞時,非常難以區(qū)分,甚至無法確定是單字名還是雙字名。外國人名、地名誤讀的可能性也很大。使用間隔號是有效解決辦法之一,這時“間隔號”兼有“專名號”的作用,漢語曾經(jīng)用過下劃線(豎排時為左劃線)表示專有名詞,港臺地區(qū)目前還在使用。間隔號只告訴讀者,邊界兩側的字需要分開,至于如何將它們與其他字組合,一般不需要明示。句子中的間隔號不能太多,才能恰到好處,成為一種奇妙的表示比逗號更短的停頓的符號[24]。
除了專有名詞以外,間隔號出現(xiàn)率應控制在1%以下,好鋼用在刀刃上,要惜間隔號如金。關鍵節(jié)點分詞只花1%的精力做有用功,該分的才分,不該分的堅決不分。將工作準確投人到確實需要的關鍵節(jié)點,基本達到普遍分詞連寫的功效,只改變大眾1%的習慣。從投人產(chǎn)出比看,關鍵節(jié)點分詞效益非常大。先從關鍵節(jié)點分詞起步,作為過渡,循序漸進。如果大眾普遍接受關鍵節(jié)點分詞,進入實踐后逐漸成為習慣,學者再做輿論、理論和技術準備,將來也許全面分詞連寫能夠成為現(xiàn)實。如果大眾不接受關鍵節(jié)點分詞,學者就沒有必要研究全面分詞連寫的工作了。
5.2 關鍵節(jié)點分詞阻力小
僅在關鍵節(jié)點分詞,不必考慮一致性問題。目的不是為大眾建立普遍的詞意識,只在可能發(fā)生疑惑的地方提示讀者,該處兩個相鄰的字不要作為一個整體認知,其余地方全連寫。關鍵節(jié)點分詞不必有復雜的規(guī)則。例如:“為了安全,開好車?!辈挥藐P心“開好”“好車”是不是詞的問題,這里“開好車”的具體含義是什么,是閱讀難點,也是盲文翻譯的難點。關鍵節(jié)點分詞只追求表義清楚,不用等到語言學家辨明白什么是詞、什么不是詞。如果采用詞式書寫,“開好車”只能全分,而全分等于全連,并沒有消歧作用。關鍵節(jié)點分詞簡單易行,關鍵時候能更好地分辨歧義。
胡百華[22]等人系統(tǒng)論述了在發(fā)生歧義的結構中采用間隔號,這種應急的辦法把有歧義的地方有針對性地解決,沒有歧義的地方保持不變。把間隔號用作一個新的標點符號,作者和讀者都不需要特別的訓練。作者非常清楚其文中的地名、人名,將其區(qū)分開只是舉手之勞。當然,作者最好避開歧義性鉸鏈詞,不能避開時加間隔號,如果作者不易發(fā)現(xiàn)之處,應由編校人員添加。如果有漏網(wǎng)之魚,可在相當長的時間內(nèi)不算編校差錯。
關鍵節(jié)點分詞對文本呈現(xiàn)方式的改變微乎其微,對大眾的閱讀習慣幾乎沒有沖擊,大眾的接受度會比較高。但這只是推測,大眾是否會普遍接納,需要較大規(guī)模的、科學的試點才能知道。從國家通用盲文推廣的實踐看,雖然其效益僅在聲調(diào)上,卻非常受盲人的歡迎,其核心是盲人習慣的改變非常小,完全在盲人可接受范圍內(nèi)。
5.3發(fā)關鍵節(jié)點分詞方式舉例
本文結合實例列舉5種關鍵節(jié)點的分詞方式,以拋磚引玉。
1)空格(1/4~1/2字符),例如:“劉旭同志在四方”“菜市口紅蘋果宣傳畫”“需要一個半勞動力”。
2)下劃線(虛下劃線、雙下劃線),例如:“內(nèi)塔尼亞胡說”“芳草地區(qū)位優(yōu)勢明顯”“已經(jīng)獲得高級職稱的和尚未獲得高級職稱的教師”。
3)上分隔號(1或),例如:“李東和平時愛看書”“東四十條例行衛(wèi)生檢查”“這就是我省稅的秘密”“趙有利用空余時間思考技術革新”“蒲黃榆樹立垃圾分類典型”“第二機場高速建成通車”。
4)下分隔號(_或.),例如:“張光生.活動力足”“西單.位于繁華中心”“無線電法.國別研究”“請別開_關麗娜身邊的窗戶”“參與了_解體蘇聯(lián)的活動”。
5)變換字體(加粗),例如:“請別提高萬榮離婚的事”“熱烈祝賀南京市長江大橋管委會成立”“甜水園林業(yè)管理處”。
變換字體或者加粗,計算機內(nèi)碼相同,對人讀有利,機讀困難。實際上,加下劃線、加粗或者變換字體,編校者已經(jīng)有權這樣做,無須另行授權,只要編校者愿意去做即可。擴展下劃線的新用法,兼“專名號”“間隔號”功能,對下劃線的原有功能沖擊也不大。借鑒藏語的隔字號,效果可能稍好些,類似單引號,陌生感不那么強。有時候復雜的詞式書寫和普通分詞連寫都無法消除歧義,反而是簡單的關鍵節(jié)點分詞可以使經(jīng)典懸疑問題有解,如:“咬死了獵人的狗”“咬死了1獵人的狗”。
周有光先生倡導選詞,避免使用同音詞,可以使文章讀起來漂亮,聽起來也漂亮[25],對盲文非常有利。本文倡導選詞,避免使用鉸鏈詞,可以降低間隔號的使用率,不寫出有歧義的句子。例如:把“美國會”改成“美國國會”或者“美國可能”;當前面有“和”的時候,用“未”不用“尚未”,對盲文翻譯非常有利。
漢語有望實現(xiàn)關鍵節(jié)點分詞,盲文也應向這方面靠攏,盲文是拼音文字,表義能力差,需要再加上義群切分。這樣可以大幅度簡化目前的分詞連寫,實現(xiàn)黃乃先生詞團式分寫的夙愿。
[參考文獻]
[1]曹德和.中文分詞連寫的問題與對策[J].北華大學學報(社會科學版),2006(1):21-26.
[2]黃乃.建設有中國特色的漢語盲文[M].北京:中國社會出版社,1999:150,230-236.
[3]瞿秋白.瞿秋白文集:第3卷[M].北京:人民文學出版社,1989;46.
[4]彭澤潤,李葆嘉.語言理論[M].長沙:中南大學出版社,2002:242.
[5]孫茂松.基于互聯(lián)網(wǎng)自然標注資源的自然語言處理[J].中文信息學報,2011,25.(6):26-32.
[6]楊錫彭.漢語詞式書寫不可行[J].北華大學學報(社會科學版),20(x6(1):16-20.
[7]李彥苓.詞式書寫分析[J]、東岳論叢,2007(3):80-83:
[8]劉開瑛.中文文本自動分詞和標注[M].北京:商務印書館,2000:122.
[9]陳松岑.詞與非詞的界限:有關語法專家標準與群眾語感異同的社會調(diào)查和分析[C]//首屆社會語言學國際學術研討會論文.北京:北京語言大學,2002.
[10]教育部語言文字信息管理司.漢語拼音正詞法基本規(guī)則:GB/T 16159-2012[S].北京:中國標淮出版社,2012:3.
[11]袁子淵,朱力.詞邊界標記淺談[J].文學教育(上),2014(11):130-131.
[12]馮志偉.漢語書面語的分詞連寫[J].語文建設,2001(3):12-15.
[13]陸丙甫,謝天蔚.對外漢語教學中的文本多元化[J].世界漢語教學,2014,28(1):113-127.
[14]宋柔.關于分詞規(guī)范的探討[J].語言文字應用,1997(3):111-112.
[15]張小衡.也談漢語書面語的分詞向題:分詞連寫十大好處[J].中文信息學報,1998(3):57-63.
[16]熊文新.漢語真需要詞間空格嗎:對漢語分詞連寫獻疑[J].語言科學,2014,13(6):655-669.
[17]孫茂松,鄒嘉彥.漢語自動分詞研究評述[J].當代語言學,2001(1):22-32.
[18]全國殘疾人康復和專用設備標準化技術委員會.中國盲文:GB/T15720-2008[S].北京:中國標淮出版社,2008:14.
[19]彭澤潤,馬慶株.漢語漢字文本詞式書寫的心理障礙分析[J].北華大學學報(社會科學版),2007(3):54-59.
[20]彭澤潤,周純梅.漢語需從“字式書寫”到“詞式書寫”的改進:“漢字書寫系統(tǒng)改進學術研討會”綜述[J].北華大學學報(社會科學版),2004(6):50-51.
[21]王衛(wèi)兵,中文分詞連寫可行性考察[J].北華大學學報(社會科學版),2006(1):27-31.
[22]胡百華.漢文需要“隔詞號”[J].語文建設通訊,1998(10):52-57.
[23]林廉.漢字分詞連寫質(zhì)疑:與譏玉燭同志商榷[J].語文建設,1993(5):17.
[24]曹季南.再論按意群分割的詞義空格格式[J].語文建設,1999(5):30-32.
[25]周有光.漢字改革概論[M].北京:文字改革出版社,1961:295.
(責任編輯 白麗媛)
[收稿日期] 2019-09-04
[基金項目]國家社科基金重大項目“漢語盲文語料庫建設研究”13&ZD187)。
[作者簡介]鐘經(jīng)華(1962-),男,山東昌樂人,北京聯(lián)合大學特殊教育學院教授,主要研究方向為盲文。E-mail:zhongjinghua@buu.edu.cn