陳焯堅 廖鎮(zhèn)強 吳志純 何小玲 譚日明
摘? ?要:中文分詞任務,是自然語言處理中一項非常基本的任務。但由于統(tǒng)計中文分詞方法所需要的訓練樣本規(guī)模比較大,中文分詞任務存有比較差的領域適應性。針對此種問題,文章提出了一種中文分詞方法,可以聯(lián)合學習跨領域,此方法聯(lián)合學習用大量的源領域樣本幫助目標領域的分詞,在一定程度上提升了分詞的性能。有試驗研究表明,在目標領域標注樣本比較少的時候,文章提出的中文分詞性能方法在很大程度上高于傳統(tǒng)分詞方法的中文分詞性能。
關鍵詞:中文分詞;預警短信;審核
1? ? 中文分詞概述
中文分詞是中文信息處理中的一項基礎任務,它的準確性可以直接影響中文信息在處理任務中的性能。機器學習的方法能在中文分詞領域上發(fā)揮重大的作用,例如,條件隨機場(Conditional Random Field,CRF)模型、最大熵(Maximum Entropy,MaxEnt)模型以及長短期記憶(Long-Short Term Memory,LSTM)神經網絡。但是,傳統(tǒng)方法中需要大規(guī)模的分詞語料來訓練各方面性能優(yōu)異的分詞器,分詞語料的得取要依靠大量人工,可以看出,耗費的成本也會特別高。
近年來發(fā)生在中國的自然災害大多數(shù)是局部性和突發(fā)性的,因此,人們對氣象服務行業(yè)更加關注。傳統(tǒng)的氣象發(fā)布方式相對單一、效率也不高,氣象預警信息不能及時地發(fā)布,需要加強對氣象預警信息的建設。學者們利用數(shù)據(jù)庫、GIS等技術手段在預警信息的發(fā)布方面做了大量的研究,配合這些手段的運用,可以實現(xiàn)預警信息的發(fā)布,但是費用較高,而且使用起來也比較復雜。整個預警系統(tǒng)使用Windows對界面進行編輯,只要一些簡單的操控和同步信息的發(fā)送,就可以把信息發(fā)送給用戶。此系統(tǒng)有不同用戶的管理、安全的處理、統(tǒng)計的分析等功能。
移動短信服務通過手機短信的方式來發(fā)送和接收信息。利用計算機和短信服務平臺的結合,構建預警信號的服務平臺,準確及時地將災害情況發(fā)送到公眾,有效地加強了災害防御力度以及對財產的保護,有非常重大的意義。
從不同邏輯結構的角度進行劃分,主要有數(shù)據(jù)層、接口層、實際應用層、不同數(shù)據(jù)的支撐層等。其中,接口層的功能是實現(xiàn)電信商與用戶的對接;數(shù)據(jù)層對應的主要是預警平臺信息的核心內容;數(shù)據(jù)支撐層的功能主要是實現(xiàn)預警內容的發(fā)布;應用層具體指的是預警短信到達客戶終端后的一系列服務。
2? ? 基于中文分詞的預警短信審核平臺
考慮到中文分詞規(guī)范有一定的彈性,在評價分詞結果是否正確時需要采用以下準則。
首先,域內使用結合緊密或穩(wěn)定的二字詞,或者切分后意義是否發(fā)生變化,如果被切開,則認為分詞錯誤,例如“防火”“冷拔”“根系”“舉例”等。
其次,三字復合詞名詞的切分彈性相較于二字更大,若切分后意義沒有發(fā)生變化,則切分與不切分都可以認為正確,若切分后改變了意義,則切分被認為是錯誤的,其余三字復合詞遵守切分準則,例如“中標價”被切分為“中標/價”或不切分,都認為正確,若被切分為“中標價”,則切分錯誤。
考慮到專業(yè)領域分詞性能持續(xù)下降的問題,提出了如何深度認真學習中文分詞模型,與此同時,運用學習原理,與大規(guī)模通用領域分詞語料、小規(guī)模專業(yè)領域訓練語料以及領域詞典相結合,從而達到提高領域分詞性能的效果,實現(xiàn)領域自適應分詞的目的。以工程法律領域分詞任務的情況為例,提出了對領域專業(yè)術語的分詞準則,通過小規(guī)模的人工標注,同時設計分詞實驗,比較各分詞模型的性能,最后的結果表明,此文提出的分詞模型對跨領域分詞系統(tǒng)性能有所改善。但是本文所提出的方法還需要不斷改進。領域文本中經常出現(xiàn)較長的字母、數(shù)字以及符號的組合,領域術語中也會出現(xiàn)字母和漢字的組合,極大程度影響了分詞正確率,解決的方法是可以考慮做多層分詞?,F(xiàn)有的文本特征只是從詞語信息以及字和周圍字方面考慮,所以,在以后的工作中,可以把加入字的邊界特征考慮進去。
3? ? 相關運用分析
為了讓平臺可以提供更好的信息服務,在系統(tǒng)的硬件方面進行更新配置。依據(jù)預警平臺的層次,整個系統(tǒng)被分為數(shù)據(jù)支撐系統(tǒng)、接入電腦系統(tǒng)、界面管理系統(tǒng)。信息平臺也為用戶提供多種服務,如日志查詢、信息的訂購、訂閱信息等。操作人員會盡快依據(jù)客戶所反饋的問題進行處理,并對所發(fā)送的信息進行瀏覽以及改正。整個系統(tǒng)在任務管理方面主要包括當前的任務、暫停以及待發(fā)任務。當前的任務指信息的不定期發(fā)送,在相應的信息填寫完之后,選擇所需要的城市情況來發(fā)送相關內容。暫停和待發(fā)業(yè)務可以根據(jù)實際的情況來維護不同狀態(tài)的報告機制。系統(tǒng)也可以根據(jù)文章對各個模塊的設計要求,對各類不同業(yè)務的用戶進行統(tǒng)計分析,包括不同時期的發(fā)展對比、用戶統(tǒng)計等。
通過信息進行報錄和審核,在進行發(fā)布時還要求建立預報的網絡系統(tǒng)。以江西氣象信息發(fā)布為對象,氣象的預報一定要經過嚴格的考核才能正式發(fā)布。當信息確認無誤后,整個狀態(tài)即確定。當定制信息情況時,首先發(fā)布預報的錄入、審核以及信息,預警信息的錄入在平臺登錄,進入管理界面進行編輯。管理者也需要選擇不同的運營商和地區(qū)來提取自己想要得到的信息,完成上述要求后,點擊提交并完成錄入。
審核信息沒有錯誤后,可以進行預發(fā)布。預警的信息發(fā)送對時間也有要求,在特定時間點之前可以進行修改,其后不能再改。
后臺的處理也就是對數(shù)據(jù)的后臺處理,只要到達指定發(fā)布時間,模板信息的內容會馬上根據(jù)合成的內容發(fā)送信息。用戶接收到信息后,會及時采取措施。
[參考文獻]
[1]劉秀娟,陳華輝,王延通,等.基于移動短信的氣象預警信息綜合發(fā)布平臺設計與實現(xiàn)[J].現(xiàn)代電子技術,2016(21):29-31.
[2]范華.基于VSM技術的社區(qū)服務信息系統(tǒng)的設計與實現(xiàn)[D].上海:復旦大學,2013.
[3]廖桉樺.基于GIS的氣象預警短信自動發(fā)送系統(tǒng)[J].浙江農業(yè)科學,2011(6):1425-1427.