丁喜霞
摘 ?要:中國語言資源保護工程和采錄展示平臺在政府統(tǒng)籌規(guī)劃、規(guī)范標準設計、現(xiàn)代技術運用、資源保護利用、人才隊伍建設等方面取得了突出成效。同時,在調查點布局和點位數(shù)量、方言片區(qū)歸屬和語言屬性標注等方面,也存在一些有待完善之處。當前,語保工程和平臺建設應在政府統(tǒng)一規(guī)劃指導下,著力從補充完善前期成果、提高調查點的整體覆蓋率、科學標注語言屬性、壯大專業(yè)人才隊伍等方面,推動語言資源庫和采錄展示平臺的持續(xù)升級。
關鍵詞:中國語言資源保護工程;采錄展示平臺;中原官話;點位布局;屬性標注
中國語言資源保護工程(以下簡稱“語保工程”),是教育部和國家語委于2015年正式啟動的一項大型語言文化工程,是目前世界上規(guī)模最大的語言資源保護項目,主要包括中國語言資源調查匯聚、文化典藏、采錄展示平臺建設等內容[1]、[2]。一期工程已于2019年底完成,二期建設正有序推進。總的來看,語保工程在政府統(tǒng)籌規(guī)劃、規(guī)范標準設計、現(xiàn)代技術運用、語言資源保護利用、語保人才隊伍建設等方面,取得了許多成功經驗和突出成效。由于語保工程規(guī)模浩大,牽涉面廣,建設周期長,平臺建設專業(yè)性強,在具體實施過程中會遇到各種各樣的困難和挑戰(zhàn),也難免會存在一些有待完善之處。本文在概述語保工程和平臺建設已取得成效的基礎上,以專業(yè)平臺采錄展示的中原官話點的語料為例,客觀分析專業(yè)平臺建設的實績及存在問題,探討其產生原因和發(fā)展方向,希望能夠為推動語言資源庫和平臺建設的持續(xù)升級完善提供參考。
一、語保工程和平臺建設的顯著成效
語保工程建立了科學有效的管理體系,推行行之有效的“國家統(tǒng)一規(guī)劃、地方和專家共同實施、鼓勵社會參與”的工作模式。它在全國范圍內整合專家學者成立調查團隊,設立了專業(yè)機構、專家咨詢委員會和核心專家組,組織相關專家和技術人員,研制了系列工作規(guī)范和技術規(guī)范,對語保工程各方面、各環(huán)節(jié)的工作都做出了嚴格、明確的規(guī)定,保證了專業(yè)技術工作的科學性、規(guī)范性和一致性。制定了調查規(guī)范、語料整理規(guī)范、音像加工規(guī)范、屬性標注規(guī)范、資源編碼系統(tǒng),研發(fā)了語保工程專用錄音軟件、攝錄軟件、規(guī)范命名軟件、電子材料校驗軟件、語料標注軟件等相關技術軟件[3]、[4],針對工作規(guī)范、技術標準、軟硬件使用等進行專項培訓,明確并統(tǒng)一質量要求。2019年,已完成1712個點的語言資源調查采集任務,調查范圍涵蓋全國所有省份和123個語種及其主要方言[5],調查收集到原始語料數(shù)據(jù)1000多萬條,其中,音視頻數(shù)據(jù)各500多萬條,總容量達100TB。參與語保工程建設的高校和科研機構達350多家,組建專家團隊1000多個,投入專業(yè)技術人員4500多名,并且針對各項具體工作舉辦了57期專項培訓,培訓人次達4700余人次,在全國范圍內鍛煉、造就了一支優(yōu)秀的語保人才隊伍[6]。
中國語言資源保護工程采錄展示平臺(以下簡稱“語保平臺”),是語保工程的重要組成部分,主要任務是在漢語方言、少數(shù)民族語言、方言文化等資源調查保存的基礎上,利用前沿技術,開展語言資源的數(shù)字化、存儲管理、整理分析和應用展示等工作。通過科學整理加工,建成大規(guī)模、可持續(xù)增長的多媒體語言資源庫,推進深度開發(fā)應用,最終建成一個具有科學性和前瞻性的語言資源采錄展示平臺,全面、立體、直觀地呈現(xiàn)我國語言資源的實態(tài)面貌,并利用互聯(lián)網面向社會大眾采集語言資源,保護和促進語言多樣性。語保平臺是一個綜合性的、科學研究和社會化應用相結合的信息化建設項目,主要包括中國語言資源庫子系統(tǒng)、中國語言資源統(tǒng)一管理系統(tǒng)、中國語言資源采錄展示系統(tǒng)。其中,中國語言資源采錄展示系統(tǒng)是語保平臺的重點建設內容,按照用戶群體分為專業(yè)平臺和公眾平臺兩個子系統(tǒng)。專業(yè)平臺立足語言資源調查和科研需求,開發(fā)語言資源數(shù)據(jù)存儲、展示、檢索和分析應用,為語言學領域的專家學者提供數(shù)據(jù)分析、檢索等專業(yè)服務[7]。
語保平臺自2015年開始建設、2016年上線以來,研發(fā)和運行順利,成效顯著。2019年底,該平臺已匯集展示了32個省區(qū)、1396個調查點的語言資源數(shù)據(jù),其中,漢語方言調查點1079個,少數(shù)民族語言調查點317個,收錄音頻資源400多萬條,視頻資源300多萬條,總物理容量達46TB[7]。截至2020年9月底,語保平臺已匯聚了語保工程1613個調查點的語言資源數(shù)據(jù),其中,漢語方言調查點1284個,少數(shù)民族語言調查點329個,其他調查點的語言資源數(shù)據(jù)經過科學、規(guī)范地整理加工后,也將通過己有資源匯聚的方式陸續(xù)進入語保平臺,向社會各界開放使用[5]。
總體而言,語保工程頂層設計科學合理,管理機制嚴密規(guī)范,各環(huán)節(jié)都有嚴格的制度監(jiān)控,保證了工程質量,特別是在政府統(tǒng)籌規(guī)劃、規(guī)范標準設計以及現(xiàn)代化技術手段運用等方面,具有顯著的先進性和前瞻性[4]、[2]。同時,語言資源庫和語言資源管理系統(tǒng)在分布式存儲技術、流媒體技術、全文索引等關鍵技術的支持下,始終保持高效、高可用的服務狀態(tài),在方言保護、語言研究和傳統(tǒng)文化傳承方面的價值和效用也得到了有效體現(xiàn)[7]。
二、專業(yè)平臺所展示的中原官話點現(xiàn)狀
如前所述,語保工程和平臺建設已經取得了顯著的成效,不過,由于諸種原因,也難免會存在一些問題。鑒于中原官話在漢語方言發(fā)展史上的重要地位,我們以專業(yè)平臺所采錄展示的中原官話點的語料實態(tài)為例,著重從方言調查點的數(shù)量和區(qū)域分布、方言片區(qū)歸屬及其標注等方面,客觀分析語保工程和平臺建設在方言調查、采錄、展示方面取得的實績,以推動語保平臺建設的持續(xù)升級完善。
(一)調查點數(shù)量和區(qū)域分布
據(jù)《中國語言地圖集(第2版)》(以下簡稱《地圖集》)[8],中原官話的分布范圍,以中原地區(qū)黃河兩岸為核心,南北拓展,東西綿延,橫跨河南、河北、山東、江蘇、安徽、山西、陜西、甘肅、寧夏、青海、新疆、四川等12個省區(qū)、400個縣市,東西長約3000多公里,南北寬約600多公里,使用人口達1.86億左右[9]。中原官話在漢語發(fā)展史上具有重要地位,對現(xiàn)代漢語各大方言的形成和發(fā)展產生了重大影響,在不同區(qū)域與不同方言和少數(shù)民族語言呈現(xiàn)出各種層次的接觸與互動,如西北部與蘭銀官話、藏語、阿爾泰語以及其他少數(shù)民族語言,中部與晉語、西南官話等,東部與冀魯官話、膠遼官話、江淮官話等,對于語言演變研究和語言接觸研究具有重要價值[10]。
從語保專業(yè)平臺所展示的中原官話點的情況來看,至2022年3月底,共涉及11個省區(qū)、110個縣市和7個方言島。其中,有109個縣市點見于《地圖集》,另有1個方言點和7個方言島不見于《地圖集》,涉及江蘇、湖南、海南、江西、山西5個省區(qū)。具體如表1所示:
專業(yè)平臺展示的每個中原官話點,都明確標注調查點名稱及所在省份、調查點的方言片區(qū)歸屬、調查點負責人及所在單位、調查點簡介等內容。其中的簡介部分,對每個調查點的方言特征、區(qū)域分布和使用人口等情況作了簡明扼要的介紹,并配以方言分布地圖和1000個單字、1200條詞匯、50個例句以及地普、話語講述、話語對話和口頭文化等音頻、視頻材料,內容豐富翔實。同時,對發(fā)音人和講述人的相關情況也進行了詳細說明和音視頻記錄,保證了專業(yè)平臺采錄展示的方言材料的真實可靠,為學界利用相關資料進行中原官話研究及其與周邊方言的比較研究提供了極大便利。
值得注意的是,專業(yè)平臺還展示了不見于《地圖集》的1個中原官話點和7個中原官話方言島。1個中原官話點是江蘇省徐州市賈汪區(qū)(賈汪),簡介將其歸為中原官話洛徐片。7個中原官話方言島,分別是江蘇蘇州市吳江區(qū)菀平鎮(zhèn)河南話、江西吉安永豐河嘚佬話、湖南吉首市古丈縣死客話、郴州嘉禾城關土話、海南東方付馬話、海南陵水疍家話、山西長治沁源河南話。其中,前6個方言島平臺均標注為中原官話信蚌片,沁源河南話則標注為鄭曹片。具體如表2所示:
中原官話方言島的形成與歷史上的中原移民尤其是河南移民有關,隨著推普力度的加大和經濟的快速發(fā)展,島方言使用者的語言心理亦發(fā)生了變化;同時,受普通話和包圍方言的擠壓,其生存空間趨于萎縮,今多屬瀕危方言,急需進行搶救性的調查保護。專業(yè)平臺采錄展示的7個中原官話方言島的材料,體現(xiàn)了中原官話方言的復雜性,它不僅對于研究中原官話的歷史演變、中原官話內部的一致性與差異性、中原官話與周邊其他漢語方言或少數(shù)民族語言之間的歷史與現(xiàn)實關聯(lián),提供了更多的語言材料,而且對于保護漢語方言多樣性,促進方言地理學、歷史語言學、社會語言學、文化語言學等學科的研究,均具有獨特的學術價值。
專業(yè)平臺已經采錄展示了110個中原官話方言點和7個中原官話方言島的語料,為中原官話研究提供了大量真實可靠的資料,但與400個縣市點的中原官話分布范圍相比,平臺采錄展示的中原官話方言點的數(shù)量仍顯不足,區(qū)域分布也有待進一步完善。
從語保專業(yè)平臺展示的中原官話點的數(shù)量來看,方言點最多的省份是河南和陜西,均超過20個點;其次是甘肅和山西,均超過10個點;再次是山東、江蘇、安徽,不足10個點;寧夏、青海、新疆、河北等省區(qū)更少,不足5個點;四川則暫無數(shù)據(jù)。從中原官話點的省區(qū)分布來看,主要集中在中部的河南、山西和西北部的陜西、甘肅等省區(qū),東部的山東、江蘇、安徽和西北部的寧夏、青海、新疆等省區(qū)設點較少。
從各省區(qū)中原官話點的采錄完成度(表1百分比欄)來看,江蘇省的完成度最高,省內共有11個中原官話點,全部屬于徐淮片,平臺已展示9個點,完成度達82%。此外,平臺還展示有江蘇省不見于《地圖集》的一個中原官話點和一個方言島。其次是寧夏回族自治區(qū),區(qū)內有中原官話點6個,平臺已展示4個,完成度達67%。河北省只有2個中原官話點,平臺已展示1個,完成50%。山西、甘肅兩省的完成度較高,分別達到48%和38%。而中原官話的核心區(qū)河南省的完成度較低,只有25%,安徽也只有23%;西北部的青海省和新疆維吾爾自治區(qū)完成度僅有15%和2%,需要投入更多的人力、物力和精力。
我們對中原官話方言片區(qū)的點數(shù)分布進行了統(tǒng)計,具體如表3所示:
從中原官話方言片區(qū)的點位分布來看,在14個方言片區(qū)中,點數(shù)最多的是秦隴片63、南疆片56、關中片48,其次是兗菏片33、汾河片和南魯片29、信蚌片25、鄭開片24、商阜片23,再次是漯項片17、洛嵩片15、徐淮片和隴中片14、河州片10。專業(yè)平臺所展示的中原官話方言點,數(shù)量最多的是關中片19、秦隴片17、汾河片13,其次是徐淮片和兗菏片10,而中原官話的核心區(qū)河南省所在的6個片區(qū)(鄭開片、洛嵩片、南魯片、漯項片、商阜片、信蚌片),方言點數(shù)略顯不足,河州片僅有1個點(占10%),南疆片只有2個點(約占4%),相關數(shù)據(jù)有待增補。
(二)方言片區(qū)歸屬的標注
專業(yè)平臺所展示的中原官話方言點與方言島的方言片區(qū)歸屬和標注,絕大部分歸屬得當,標注準確,并且在調查點簡介中對該調查點的方言特征、區(qū)域分布和使用人口等情況作了具體說明,標注與簡介彼此對應,相互印證,為中原官話研究提供了可資利用的翔實可靠的語料依據(jù)。由于參與方言調查采錄和平臺展示的工作人員較多,并且非一時一地完成,在具體的操作過程中難免會出現(xiàn)一些疏漏,因此,專業(yè)平臺在中原官話的方言片區(qū)歸屬和標注方面也存在一些有待完善的地方。
第一,有些調查點的方言片區(qū)歸屬,專業(yè)平臺沒有標注,簡介也沒有相應說明。在平臺所展示的109個見于《地圖集》的中原官話點中,此類情況共有25個點,約占23%。如山東濟寧市曲阜市(曲阜),平臺沒有標注其方言片區(qū)歸屬,只在簡介中說明曲阜語言單一,正在向普通話靠攏,沒有說明其方言片區(qū)屬于中原官話兗菏片;安徽宿州市埇橋區(qū)(埇橋),簡介只說它是宿州方言,沒有標注和說明其方言片區(qū)應為中原官話商阜片;甘肅慶陽市寧縣(寧縣),簡介中提及寧縣方言有新寧話和早勝話兩種口音及其特點和分布,沒有標注說明其方言片區(qū)應為中原官話關中片;甘肅定西市隴西縣(隴西),簡介中提及隴西方言有四種口音及其特點和分布,沒有標注說明其方言片區(qū)應為中原官話秦隴片;江蘇連云港市贛榆區(qū)(贛榆),簡介中提及贛榆方言大致可分為五片及主要特點,沒有標注說明其方言片區(qū)應為中原官話徐淮片。
又如,安徽淮北市相山區(qū)(相山)、河南開封市蘭考縣(蘭考)、河南開封市鼓樓區(qū)(開封)、山東臨沂市蘭山區(qū)(蘭山)、甘肅隴南市武都區(qū)(武都)、甘肅天水市秦州區(qū)(天水)、江蘇徐州市豐縣(豐縣)、江蘇徐州市雎寧縣(雎寧)、江蘇徐州市新沂市(新沂)、江蘇徐州市云龍區(qū)(徐州)、江蘇徐州市沛縣(沛縣)、江蘇徐州市邳州市(邳州)、寧夏固原市原州區(qū)(固原)、山西運城市芮城縣(芮城)、山西運城市垣曲縣(垣曲)、山西臨汾市鄉(xiāng)寧縣(鄉(xiāng)寧)、山西臨汾市洪洞縣趙城鎮(zhèn)(趙城)、山西臨汾市堯都區(qū)(臨汾)、陜西安康市漢濱區(qū)(安康)、陜西漢中市城固縣(城固)等方言點,平臺均未標注其方言片區(qū)歸屬,簡介也未有相關說明。
有些調查點的方言片區(qū)歸屬,平臺雖然沒有標注,簡介卻有相關說明,可以起到一定的彌補作用,令人遺憾的是,簡介并未對其方言片區(qū)歸屬進行具體描述。在平臺展示的109個見于《地圖集》的中原官話點中,此類情況共有11個點,約占10%。如甘肅隴南市文縣(文縣),平臺沒有標注其方言片區(qū)歸屬,簡介說:“文縣地處中原官話和西南官話交界地帶,碧口鎮(zhèn)為西南官話,文縣其他地方為中原官話”,雖有說明文縣方言屬中原官話,卻未具體說明它屬于中原官話秦隴片。河北邯鄲市魏縣(魏縣),平臺沒有標注其方言片區(qū),簡介說:“魏縣漢語方言的種類是晉語和中原官話。魏縣的絕大部分是中原官話”,沒有具體說明它屬于中原官話鄭開片。江蘇宿遷市宿城區(qū)(宿遷),平臺沒有標注其方言片區(qū),簡介說:“宿遷市區(qū)方言從地域角度可以分為兩大片,東部……屬江淮官話;中部西部大部分鄉(xiāng)鎮(zhèn)均不保留入聲,屬中原官話”,沒有具體說明它屬于中原官話徐淮片。安徽阜陽市潁州區(qū)(阜陽)、甘肅臨夏回族自治州臨夏市(臨夏)、甘肅甘南藏族自治州臨潭縣(臨潭)、甘肅平涼市崆峒區(qū)(平涼)、陜西渭南市韓城市(韓城)、陜西渭南市富平縣(富平)、陜西渭南市合陽縣(合陽)、陜西寶雞市岐山縣(岐山)等方言點,也存在類似情況。
第二,個別調查點的方言片區(qū)歸屬,標注術語和標準不夠統(tǒng)一。中原官話的劃分標準、分布范圍、方言片區(qū)歸屬等問題,一直是方言學界比較關注的重要課題。隨著研究的不斷深入,雖然對一些方言點的具體歸屬仍有不同看法,如河南南部、湖北西北部、陜西南部的一些方言點,但在許多重要問題上已經達成了基本共識,這集中體現(xiàn)在2012年版的《地圖集》“漢語方言卷”中。從專業(yè)平臺標注中原官話方言片區(qū)歸屬的整體情況來看,它的分區(qū)標準和術語基本上是采用了《地圖集》的意見,同時,也有個別方言片區(qū)的歸屬和標注,使用的是較早時期不同體系的劃分標準和術語。
如河南平頂山市魯山縣(魯山),平臺標注為中原官話鄭汴片,鄭汴片是張啟煥等在《河南方言研究》中提出的中原官話方言片區(qū)[11];按照2012年版《地圖集》的劃分,魯山點屬于中原官話南魯片。江蘇徐州市賈汪區(qū)(賈汪),平臺標注為中原官話洛徐片,洛徐片是1987年版《地圖集》劃分的中原官話方言片區(qū)[12];在相關研究的基礎上,2012年版《地圖集》對中原官話方言片區(qū)進行了調整,將之前的洛徐片分為洛嵩片和徐淮片,賈汪點屬于徐淮片。山西長治沁源河南話,平臺標注為鄭曹片,鄭曹片是1987年版《地圖集》劃分的中原官話方言片區(qū);按照2012年版《地圖集》的調整和劃分,山西長治沁源河南話應屬于鄭開片。
第三,個別調查點的方言片區(qū)歸屬,標注與簡介不盡相符??傮w來看,專業(yè)平臺對中原官話方言片區(qū)歸屬的標注,與調查點簡介的內容能夠相互印證,但也有個別方言點的方言片區(qū)歸屬,標注與簡介內容不盡一致。如安徽淮南市田家庵區(qū)(淮南),平臺標注其方言片區(qū)屬江淮官話洪巢片,簡介說它屬中原官話信蚌片。根據(jù)該地方言特征,宜標注為中原官話信蚌片。甘肅酒泉市敦煌市(敦煌),平臺標注為中原官話南疆片,簡介描述該地方言特征則說敦煌方言內部有兩種口音:河東話和河西話。河東話屬中原官話,河西話則屬蘭銀官話。也就是說,屬于中原官話南疆片的是“敦煌河東話”而非整個“敦煌”。寧夏吳忠市同心縣(同心),平臺標注為蘭銀官話銀吳片同心小片;由簡介可知,同心境內屬于蘭銀官話和中原官話的過渡地帶,按口音大體分為南北兩片,北片屬蘭銀官話銀吳片,南片則屬中原官話秦隴片。因此,對于同心點的方言歸屬,標注為“同心縣(南片)”屬中原官話秦隴片,“同心縣(北片)”屬蘭銀官話銀吳片,可能更為合適。
此外,個別調查點還存在標注信息不全的情況。如陜西安康市白河縣(白河),平臺標注為“官話,中原官話,小片系屬不明”,沒有注明其方言片區(qū)屬于中原官話關中片;陜西咸陽市三原縣(三原)和陜西西安市戶縣(戶縣),平臺均標注為“關中片”,沒有明確其方言片區(qū)歸屬為中原官話關中片。
三、相關問題的產生原因
專業(yè)平臺所展示的中原官話點語料,在調查點布局和點位數(shù)量的充分性、方言片區(qū)歸屬標注的準確性等方面存在一些有待完善之處。究其原因,主要是受到了以下幾個方面因素的影響和制約:
第一,語保工程和采錄展示平臺是面向全國的、持續(xù)的分期建設項目。我國的語言資源十分豐富,按照學界比較通行的說法,目前有130多種語言,分屬漢藏、阿爾泰、南島、南亞和印歐五大語系;就漢語方言而言,有官話、晉方言、吳方言、閩方言、粵方言、客家話、贛方言、湘方言、徽方言、平話土話等十大方言;官話內部又可分為東北、北京、冀魯、膠遼、中原、蘭銀、江淮、西南八種方言,中原官話只是其中之一。語保工程要實現(xiàn)對全國范圍內的所有漢語方言和少數(shù)民族語言的實態(tài)語料進行全面調查、采錄、整理加工、保存、展示和開發(fā)應用的目標,實非短時間內所能完成,需要根據(jù)國家統(tǒng)一規(guī)劃、按照統(tǒng)一的調查方案和工作計劃分期實施。語言資源采錄展示平臺作為語保工程的重要組成部分,也不可能一蹴而就。在先期的平臺建設中,在展示某種方言語料的充分性和標注方言片區(qū)歸屬的準確性等方面,難免會存在一些不足,這在任何一種大規(guī)模的分期建設項目中都是正常的現(xiàn)象,發(fā)現(xiàn)存在的問題,經過后續(xù)不斷補充完善,才能最終實現(xiàn)建設目標。
第二,中原官話分布地域廣,需要調查的方言點位多。據(jù)賀巍的研究,中原官話在漢語八大官話區(qū)的方言中分布范圍最大[13]。2012年版《地圖集》顯示,中原官話分布于12個行政省區(qū),若以一個縣市作為一個調查點,共有400個縣市點。從各省區(qū)所占的方言點數(shù)和中原官話的歷史發(fā)展來看,中原官話的分布區(qū)域主要集中于中部的河南和西北部的陜西、新疆、甘肅等省區(qū),方言點數(shù)分別為105、73、55、50;其次是山東、山西和安徽,分別有31、27、26個方言點;青海、江蘇、寧夏、河北、四川等地的中原官話,則與歷史上的中原移民有關,是中原官話的邊緣地區(qū),方言點數(shù)較少,依次為13、11、6、2、1??梢姡瑓^(qū)域分布很不平衡。新疆、甘肅等省區(qū)的中原官話方言點分布比較分散,有些方言點地處偏遠,交通不便,進行實地的田野調查需要投入更多的時間和經費;有些省區(qū)的中原官話方言點數(shù)很少,如四川省內只有一個點。面對如此大范圍、多點位分布的中原官話方言,按照語保工程的統(tǒng)一規(guī)劃,初期只能完成部分相對集中的方言點的調查采錄和整理加工,專業(yè)平臺目前也只能展示部分中原官話調查點的語料。我們相信,隨著語保工程的持續(xù)開展,中原官話調查點的語料會得到不斷增補并陸續(xù)進入平臺展示。
第三,中原官話的分布區(qū)和部分方言點的歸屬仍有爭議?!爸性僭挕弊鳛閰^(qū)域方言概念,始見于李榮的《官話方言的分區(qū)》[14],繼而在1987年出版的《地圖集》中被正式命名并得到學界的普遍認同。但關于中原官話的分布區(qū)域和部分方言點的片區(qū)歸屬問題,學界目前仍有不同意見。如賀巍認為,中原官話的分布范圍跨11個省區(qū),387個縣市[13];熊正輝、張振興認為,中原官話的分布區(qū)共有397個縣市[9];段亞廣認為,中原官話的分布區(qū)共有394個縣市[15](P3);2012年版《地圖集》認為,中原官話的分布區(qū)跨12個省區(qū),共有400個縣市[8](P55)。關于中原官話與蘭銀官話的分合、中原官話關中片與汾河片的分合、河南南部/湖北西北部/陜西南部一些方言點的歸屬等,也仍有爭議。有些地區(qū)方言情況復雜,如陜西省安康市漢濱區(qū)的方言主要有中原官話、江淮官話、混合方言區(qū)、江南話、贛語方言島等,中原官話主要分布在城關、流水、恒口、大同、五里、建民、河西、關廟、張灘、大河、茨溝、棗陽等鄉(xiāng)鎮(zhèn)。如何標注陜西安康漢濱(安康)的方言片區(qū)歸屬,目前還沒有令人滿意的方案。隨著相關研究的深入開展,這些問題將會得到有效解決,專業(yè)平臺對于中原官話調查點的方言片區(qū)歸屬標注也將得到完善。
第四,專業(yè)人才數(shù)量不足,部分地區(qū)力量比較薄弱。從專業(yè)平臺展示的109個中原官話點的情況來看,目前從事中原官話點方言調查采錄的專業(yè)人才共有65名,來自37個單位,主要集中于中部核心區(qū)的河南和西北部的陜西、甘肅等省區(qū),東部的山東、安徽、江蘇和西北部的新疆、青海、寧夏等省區(qū),參與中原官話點方言調查的單位和專業(yè)人才較少。具體如表4所示:
整體而言,各省區(qū)參與調查的單位和專業(yè)人才數(shù)量與完成調查點的數(shù)量呈正比,參與調查的單位和專業(yè)人才越多,完成的調查點就越多;反之,參與者越少,完成的方言點數(shù)也越少。如河南省有5個單位15個人參與調查采錄,完成了26個點;陜西省有13個單位17個人參與調查采錄,完成了21個點;甘肅省有6個單位12個人參與調查采錄,完成了19個點。寧夏有2個單位2個人參與調查采錄,完成4個點;青海有1個單位2個人參與調查采錄,完成2個點;新疆和河北各有1個單位1個人參與調查采錄,各完成1個點。
參與中原官話調查采錄的單位和專業(yè)人才數(shù)量,不僅在省區(qū)之間存在地域分布的不均衡,即使是同一省區(qū)之內,不同單位參與調查的專業(yè)人才數(shù)量也存在差異。如河南省,河南大學參與6人,完成了16個點;河南師范大學參與1人,完成了1個點。陜西省投入了13個單位17人,其中,陜西師范大學參與5人,完成5個點;其他12個單位各參加1人,每個單位完成1—2個方言點。甘肅省,蘭州城市學院參與5人,完成了11個點;蘭州大學參與2人,各完成1個點。要完成中原官話全部400個縣市點的調查采錄工作,現(xiàn)有的專業(yè)人才數(shù)量明顯不夠,不同省區(qū)、不同單位之間專業(yè)人才的分布也不均衡,部分地區(qū)力量比較薄弱,有的需要進行大量培訓和鍛煉。
四、語保工程和平臺建設的發(fā)展方向
鑒于持續(xù)開展語保工程和采錄展示平臺建設的重大意義,針對目前專業(yè)平臺展示中原官話點語料中所存在的問題和產生原因,語保工程和采錄展示平臺建設的發(fā)展可以著力于以下幾個方面:
第一,在國家統(tǒng)一規(guī)劃的指導下,進一步擴大和完善語保工程成果,促進展示平臺建設的改造升級。我國語言資源豐富,但在城鎮(zhèn)化和現(xiàn)代化的進程中,許多漢語方言和少數(shù)民族語言迅速衰變,它們所承載的民族文化和地域文化快速流失。面對如此嚴峻的語保工作形勢,亟需在前期已取得的語言資源調查成果的基礎上,統(tǒng)籌規(guī)劃,點面結合,進一步擴大語言資源調查保護的覆蓋面,擴大語言資源庫的建設規(guī)模,為語言資源采錄展示平臺建設和今后的語言研究、語言資源的開發(fā)應用提供更多的基礎材料。與此同時,也需要對平臺展示的語言資源開展科學系統(tǒng)的數(shù)據(jù)維護,對前期展示的語料中存在的一些疏漏進行后續(xù)的補充完善,以提高語言數(shù)據(jù)的準確度,促進語保工程語言資源的深度加工與應用開發(fā),加快語言資源采錄展示平臺的改造升級,有效提升語言資源數(shù)字化和語言信息服務水平。
目前,語保工程二期建設正在有序推進,語保平臺展示的語言資源數(shù)據(jù)處于持續(xù)更新中,至2022年9月底,語保平臺已匯聚展示1718個調查點的語言資源數(shù)據(jù),比2019年底的1396個點增加了322個點。其中,漢語方言調查點新增210個,達1289個點;少數(shù)民族語言調查點新增112個,達429個點。2022年10月,語保工程采錄展示平臺也完成了一次升級改造,在技術層面和視覺效果層面進行了優(yōu)化和提升,新版語保工程采錄展示平臺也已上線[16]。需要指出的是,語言資源的調查保護和開發(fā)利用不是一次性的,語言資源采錄展示平臺的建設不會一勞永逸,語言資源后續(xù)的補充完善和平臺的升級改造仍有很大空間。
第二,統(tǒng)籌規(guī)劃,合理布局,提高中原官話調查點的整體覆蓋率。中原官話地域分布廣泛,消失速度較快,雖然語保專業(yè)平臺展示的中原官話方言點的數(shù)量,已由2019年底的102個點[10]增加到目前的110個點和7個方言島,但與400個縣市點的中原官話總量相比仍有較大缺口。同時,中原官話方言點的地域分布和片區(qū)分布也不平衡:河南、陜西、甘肅三省的點數(shù)相對較多,分別是26/105、21/73、19/50,新疆、青海等地則只有1/55、2/13;關中片、秦隴片、汾河片的點數(shù)較多,依次是19/48、17/63、13/29,洛嵩片、漯項片、南疆片則只有2/15、3/17、2/56,難以體現(xiàn)中原官話的整體語言面貌和內部各片區(qū)的方言差異。需要在已有語言資源調查成果的基礎上,根據(jù)中原官話的生存狀態(tài)和使用情況,在面向全國進行大規(guī)模方言調查的同時,統(tǒng)籌規(guī)劃,合理布局,進一步擴大中原官話的調查范圍:對尚未涉及的中原官話方言點,特別是非中心區(qū)方言點、與其他漢語方言或少數(shù)民族語言有接觸互動的方言點進行深度調查;對當前使用人口少、分布范圍小、語言活力弱的方言島進行搶救性調查。切實提高中原官話調查點的整體覆蓋率,進一步豐富和完善專業(yè)平臺采錄展示的中原官話語料,為系統(tǒng)推進專業(yè)平臺建設和中原官話的深入研究提供基礎語料。
第三,深度調查,核定爭議,科學標注方言片區(qū)歸屬。語保平臺作為語保工程的重要組成部分,肩負展示工程成果的重大使命,尤其是在大數(shù)據(jù)時代,語言資源的科學性也將在學術研究領域得到凸顯。正如范俊軍所指出的:“基礎的、核心部分的語料采集、加工必須精煉、準確、嚴密”,“表現(xiàn)在語言學的標注和描寫方面,所有基礎語料必須是完整的、系統(tǒng)的、完全標注且不留疑點的”[17]。鑒于目前平臺展示的中原官話點的方言片區(qū)歸屬還存在一些有待完善之處,今后的語保平臺建設應繼續(xù)在語保工程科學性定位的指導下,在前期研制的技術標準和相關軟件的基礎上,根據(jù)語保工程調查采錄的語言資源和已有的研究成果,對平臺展示的方言語料及片區(qū)歸屬標注進行補充完善。對某些存有爭議的中原官話方言點的片區(qū)歸屬,需要通過扎實的田野調查和先進的技術手段進行分析,以核實爭議,確定科學的描寫原則和統(tǒng)一的標注術語進行規(guī)范、準確的標注。有些地區(qū)方言情況復雜,需要在深入調查的基礎上,依據(jù)該調查點的方言特征,準確描寫該地的語言事實,科學標注其方言片區(qū)歸屬。
第四,加強培訓,進一步壯大專業(yè)人才隊伍。經過語保工程和語保平臺的前期建設,初步形成了一支比較成熟、業(yè)務能力過硬的專業(yè)人才隊伍,已投入專業(yè)人才4500多名。不過,與我國豐富的語言資源和語保工程的目標任務相比,現(xiàn)有專業(yè)人才總量仍顯不足,人才的地區(qū)分布也不均衡。以平臺所展示的中原官話點的情況來看,目前僅有37個單位的65名專業(yè)人才參與中原官話方言調查,共完成110個中原官話點和7個方言島語料的調查采錄。要想完成400個中原官話點的語言資源調查采錄和平臺展示工作,則需要有更多的科研院所和專業(yè)人才(包括語言調查、采錄與平臺建設、數(shù)據(jù)維護等專業(yè)人才)投身其中。這就要求在政府相關政策支持下,在已有專業(yè)人才隊伍的基礎上,投入更多的時間、精力和物力,增強專業(yè)培訓力度,進一步壯大專業(yè)人才隊伍。同時,促進語言科學與計算機科學的高度結合,提升專業(yè)技術人員的工作能力,培養(yǎng)更多高水平、高素質的語言資源保護、開發(fā)應用的專業(yè)人才和研究人才。并根據(jù)中原官話的區(qū)域性特點和方言使用情況,對調查團隊和專業(yè)人才進行合理布局,以期在較短時間內盡快完成對中原官話點的全面調查采錄和展示工作。
綜上所述,中國語言資源保護工程和語言資源采錄展示平臺建設是一個系統(tǒng)工程,在國家統(tǒng)一規(guī)劃的指導下,在語保工程提供的規(guī)范要求和模板基礎上,不斷補充完善方言調查語料。隨著新版語言資源采錄展示平臺的上線,專業(yè)平臺展示方言點數(shù)量不足和方言片區(qū)歸屬標注不規(guī)范的情況,已得到一定程度的改善。今后應通過擴大語言資源調查范圍和持續(xù)開放的語言數(shù)據(jù)匯聚,進一步深化和拓展語保工程成果,不斷研發(fā)語言資源應用工具和服務形式,持續(xù)開展語言資源采錄展示平臺的改造升級,從而順利實現(xiàn)語保工程建設目標,將語言資源采錄展示平臺建成世界上規(guī)模最大的語言資源庫和“準確權威、開放共享的語言資源公共服務平臺”[18],全面提升我國語言資源保護利用和語言文字工作的信息化水平。
(本文的撰寫得到辛永芬教授的指正,特此致謝?。?/p>
參考文獻:
[1]曹志耘.中國語言資源保護工程的定位、目標與任務[J].語言文字應用,2015,(4).
[2]丁石慶.中國語言資源保護工程語料資源的質量、價值和效用——以少數(shù)民族語言材料為例[J].暨南學報(哲學社會科學版),2018,(10).
[3]王莉寧.中國語言資源保護工程的實施策略與方法[J].語言文字應用,2015,(4).
[4]曹志耘.關于語保工程和語保工作的幾個問題[J].語言戰(zhàn)略研究,2017,(4).
[5]中華人民共和國教育部.中國語言資源采錄展示平臺上線試運行[EB/OL].(2020-09-30)[2023-08-18].http://www.moe.gov.cn/jyb_xwfb/gzdt_gzdt/s5987/202009/t20200930_492655.html.
[6]新華網.中國語言資源保護工程二期建設啟動實施[EB/OL].(2021-04-19)[2023-08-18].http://www.xinhuanet.com/2021-04/19/c_1127349143.html.
[7]林佳慶,李涓子,張鵬.中國語言資源采錄展示平臺的關鍵技術及其應用[J].語言文字應用,2019,(4).
[8]中國社會科學院語言研究所,中國社會科學院民族學與人類學研究所,香港城市大學語言資訊科學研究中心.中國語言地圖集(第2版)·漢語方言卷[M].北京:商務印書館,2012.
[9]熊正輝,張振興.漢語方言的分區(qū)[J].方言,2008,(2).
[10]辛永芬.中原官話學術史梳理與研究展望[J].河南大學學報(社會科學版),2022,(2).
[11]張啟煥,陳天福,程儀.河南方言研究[M].開封:河南大學出版社,1993.
[12]中國社會科學院,澳大利亞人文科學院合編.中國語言地圖集[M].香港:朗文出版有限公司,1987.
[13]賀巍.中原官話分區(qū)(稿)[J].方言,2005,(2).
[14]李榮.官話方言的分區(qū)[J].方言,1985,(1).
[15]段亞廣.中原官話音韻研究[M].北京:中國社會科學出版社,2012.
[16]語寶網.新版語保工程采錄展示平臺上線啦[EB/OL].(2022-10-03)[2023-08-18].http://www.china languages.cn/.
[17]范俊軍.語保工程的語料資源利用問題[J].西北民族大學學報(哲學社會科學版),2019,(3).
[18]田立新,易軍.中國語言資源保護工程的建設成效及深化發(fā)展[J].語言文字應用,2019,(4).
Some Reflection on the Project for Protecting Language Resources China and
the Collection and Service Platform
——Take Zhongyuan Mandarin Survey Point on the Professional Platform for Instance
Ding Xixia
(College of Chinese Language and Literature, Henan University, Kaifeng 475001, China)
Abstract:The Project for Protecting Language Resources China and the Collection and Service Platform have achieved outstanding results in the government overall planning, standard design, application of modern technology, protection and utilization of language resources and talent team construction. However, there are still some areas to be improved in terms of the sufficiency of the layout and number of survey points, the scientificity of regional attribution and language attribute annotation. At present, under the guidance of national unified planning, we should further supplement and improve the previous achievements, improve the overall coverage of the survey points, scientifically mark the language attributes, expand the team of professionals, promote the continuous upgrading and improvement of the construction of the language resource base and platform.
Key words:the Project for Protecting Language Resources China;China Language Resources Collection and Service Platform;Zhongyuan mandarin;survey point layout;attribute annotation