陳 群 吳鄭紅 許 哲 金薇婕
上海市電化教育館
教育公平是社會公平的基石。近年來,“擇校熱”引發(fā)的“學區(qū)房”問題越演越烈,滋生了入學難、天價房、權力尋租等一系列社會性問題[1]。義務教育階段免試就近入學是遏制擇校熱,保障適齡兒童、少年入學權益,促進義務教育公平,推動義務教育均衡發(fā)展的重要舉措?!吨腥A人民共和國義務教育法》第十二條規(guī)定,適齡兒童、少年免試入學。地方各級人民政府應當保障適齡兒童、少年在戶籍所在地學校就近入學。父母或者其他法定監(jiān)護人在非戶籍所在地工作或者居住的適齡兒童、少年,在其父母或者其他法定監(jiān)護人工作或者居住地接受義務教育的,當?shù)厝嗣裾畱敒槠涮峁┢降冉邮芰x務教育的條件?!吨泄仓醒?國務院關于深化教育教學改革 全面提高義務教育質(zhì)量的意見》提出要完善招生考試制度,要推進義務教育學校免試就近入學全覆蓋。
自1980年前后“就近入學”一詞誕生以來,如何在教育未實現(xiàn)優(yōu)質(zhì)均衡的背景下真正落實免試就近入學,一直是教育管理的重點和難點。一是就近入學分配工作的效率和準確率難以保證,二是通過人工分配易滋生尋租現(xiàn)象。隨著信息技術的發(fā)展,這一難題有望得到有效解決,教育管理部門可依托信息化手段從空間分布上著手落實免試就近入學政策。本文依托數(shù)據(jù)采集技術、中文分詞技術和貝葉斯概率模型,構建一套基于科學技術和方法的免試就近入學分配策略,盡量減少人為干預,既可以提高入學分配的效率和準確率,又能有效遏制尋租現(xiàn)象。
根據(jù)政策規(guī)定,免試就近入學是指適齡兒童、少年在戶籍所在地,或其父母或者其他法定監(jiān)護人工作或者居住地學校入學。戶籍所在地或其父母或者其他法定監(jiān)護人工作或者居住地所指范圍較廣,較大可指所在區(qū),最小可指所在室/戶。因此,在實踐中,根據(jù)教育資源緊缺程度,“就近”的執(zhí)行標準略有浮動,由所在室/戶向所在區(qū)逐步放大,學校根據(jù)對周邊適齡兒童、少年人口摸排情況劃分“就近”的范圍,也稱為“對口范圍”或“對口地段”。
當學生入學地址屬于某?!皩诜秶狈秶鷥?nèi),則被分配入該校就讀,稱為“對口入學”。因此,就近入學分配本質(zhì)上是中文地址的匹配,即將學生入學地址與學校的對口范圍地址進行匹配。中文地址匹配包含地址標準化、地址分詞和地址匹配環(huán)節(jié)。地址標準化和分詞的核心技術是中文分詞技術,地址匹配需要使用概率計算模型。
中文地址不同于英文地址,前者是一連串的字符,沒有明顯的詞的界限,后者有符號作為分隔。為便于機器進行匹配,需要將中文地址按照機器語言進行文本處理。中文分詞是文本處理的基礎任務,它屬于自然語言處理技術范疇,應用于快遞、打車、入學、水電煤等和基礎空間相關的行業(yè)或領域,可快速定位到服務對象[2]。中文分詞技術就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程,這個規(guī)范可以是人工建立的詞典庫、語義分析或統(tǒng)計算法。因此,中文分詞技術可分為基于詞典規(guī)則的分析算法、基于理解的分析方法、基于統(tǒng)計的機器學習算法。本文將用到第一種和第三種。
中文地址信息繁多,通常包含行政區(qū)劃、居民地、門牌、樓址、室號、社會場館、專門稱呼等多級多類,因而詞典庫的設計可分段開展,涵蓋以上類別。例如,北京市朝陽區(qū)XX弄XX 小區(qū)XX樓,其中市、區(qū)分別指市級和區(qū)級行政區(qū)劃,弄指門牌號,小區(qū)指居民地,樓指樓址。中文地址是由字組成的,當相鄰的字在語料庫中出現(xiàn)的次數(shù)越多,就越可能是一個詞,基于統(tǒng)計的機器學習算法,通過計算相鄰字出現(xiàn)的次數(shù)進行分詞處理[3]。
貝葉斯概率模型的基礎是貝葉斯定理,該定理用于描述兩個條件概率之間的關系。貝葉斯公式表示如下:
P(B | A)是根據(jù)A特征參數(shù)值判斷其屬于類別B的概率,稱為后驗概率,P(B)是直接判斷某個樣本屬于B的概率,稱為先驗概率,P(A | B)是在類別B中觀測到A的概率,P(A)是在數(shù)據(jù)庫中觀測到A的概率。
例如,當已知某個學生信息登記地址特征為A(省市、區(qū)縣、街道、居委、路號、小區(qū)名稱),判斷該學生是否對口某小學B(對口,不對口)。首先要有較大的數(shù)據(jù)樣本進行訓練,在訓練中觀察P(A)和P(B)的值,計算出P(A | B),最后得出P(B | A),P(B | A)最大被認為該學生對口某小學,反之則認為不對口某小學。
基于中文分詞技術與貝葉斯概率模型的就近入學分配策略需依托大數(shù)據(jù)實施。實施步驟分為兩步:第一步是準備階段,先要借助歷史入學數(shù)據(jù)建立義務教育入學地址庫,再要借助基于統(tǒng)計的機器學習算法中文分詞技術建立義務教育入學地址詞典庫。第二步是實施階段,先要獲取待匹配地址,并對待匹配地址進行數(shù)據(jù)預處理,再將待匹配地址與入學地址庫進行精準匹配,若能精準匹配則直接輸出結果,否則進入貝葉斯概率計算環(huán)節(jié)。就近入學分配地址匹配業(yè)務流程如圖1所示。
圖1 就近入學分配地址匹配業(yè)務流程圖
貝葉斯概率計算分為三個階段,分別為準備階段、訓練階段與應用階段。貝葉斯概率模型技術路線圖如圖2所示。本文中特征確定即地址要素確定,訓練樣本即對口范圍地址。
圖2 貝葉斯概率模型技術路線圖
1. 建立義務教育階段學生入學地址庫
入學地址庫是指以國家標準地名為依據(jù),按照一定規(guī)律分層、分級、分類形成的入學地址數(shù)據(jù)庫,它包含行政區(qū)劃、居民地、門牌、樓址、室號、社會場館、專門稱呼等。由于中文地址標準長期不統(tǒng)一,農(nóng)村與城鎮(zhèn)地址稱呼的差異等原因,不同區(qū)域地址格式各異??梢劳袣v史入學數(shù)據(jù)建立區(qū)域義務教育階段學生入學地址庫。
2. 建立義務教育階段學生入學地址詞典庫
中文地址是自然語言的字符串,屬于非結構化語言。為了進行匹配,需要將非結構化地址轉換成機器可以識別的結構化數(shù)據(jù),這就是地址標準化的過程。地址標準化需要先將地址要素分離出來,并明確各地址要素的含義。通過統(tǒng)計分詞方法對入學地址庫進行分詞處理,獲取區(qū)域義務教育階段學生入學地址詞典庫。
1. 獲取待匹配地址并進行預處理
學生使用戶籍地址或居住地址作為入學地址,該地址即為待匹配地址。對待匹配數(shù)據(jù)進行半角全角轉換、去除無意義符號等預處理。
2. 進行基于入學地址詞典庫的中文分詞
基于前期建立的入學地址詞典庫,對義務教育階段學生入學地址進行分詞,可分為省市、區(qū)縣、街道、居委、路、弄、支弄等若干級若干類。
3. 進行地址精準匹配
將分詞處理后的待匹配地址與入學地址庫進行精準匹配。若能精準匹配,則輸出結果為“對口入學”。否則,則進入下一環(huán)節(jié),即貝葉斯概率計算環(huán)節(jié)。
4. 對未能實現(xiàn)精準匹配的學生進行貝葉斯概率計算
未能實現(xiàn)精準匹配的學生進入貝葉斯概率計算環(huán)節(jié),根據(jù)P(B | A)的值,判斷該特征的地址屬于對口范圍的概率。
一名適齡兒童的入學地址為“上海市浦東新區(qū)花木街道牡丹四居委牡丹路×弄牡丹小區(qū)×號樓×室”,判斷該兒童的對口學校是否為花木×小學。
假設上海市已有義務教育階段學生入學地址庫與入學地址詞典庫,則,
第一階段:獲取待匹配地址。
上海市浦東新區(qū)花木街道牡丹四居委牡丹路×弄牡丹小區(qū)×號樓×室,該地址較規(guī)范,不需進行預處理。
第二階段:進行基于詞典庫的中文分詞。
該適齡兒童入學地址可分離出以下地址要素,如表1所示。
表1 地址要素表
第三階段:進行地址精準匹配。
結果地址未能精準匹配。
第四階段:進行貝葉斯概率計算。
B的集合為(對口,不對口),A的集合為(花木、牡丹四居委、牡丹路、×弄、牡丹小區(qū)、×號樓、×室),計算并比較P(匹配|花木、牡丹四居委、牡丹路、×弄、牡丹小區(qū)、×號樓、×室)與P(不匹配|花木、牡丹四居委、牡丹路、×弄、牡丹小區(qū)、×號樓、×室)的概率,概率大的即為結果,若P(匹配|花木、牡丹四居委、牡丹路、×弄、牡丹小區(qū)、×號樓、×室)概率大,該兒童對口學校為花木×小學,否則該兒童對口學校非花木×小學。
為驗證文本策略的有效性,筆者應用測試數(shù)據(jù)進行了就近入學分配,測試結果顯示中文分詞技術與貝葉斯概率計算方法的應用在較大程度上緩解了因填寫錯誤、不規(guī)范等原因造成的就近入學匹配工作效率低下和精準度不高的問題。另外,信息化技術的應用最大程度地規(guī)避了人為干擾,有效防止了權力尋租現(xiàn)象的發(fā)生。在實踐中,該策略或許可為落實義務教育階段學生免試就近入學政策提供一種思路。
當然,教育無小事,事事皆民生。應用到義務教育招生入學業(yè)務中的策略需要綜合考慮各種因素,盡量做到精準、有效、公平。文本中用到的樸素的貝葉斯概率計算還存在一定的局限性,需保證特征要素之間的獨立性,否則結果將受影響,而中文地址各層級之間存在相關性,當確定了上一級,下一級的概率即可計算出來,因此,計算結果精準度需進一步提高。后續(xù)筆者將繼續(xù)優(yōu)化模型,通過多種概率統(tǒng)計策略的疊加,進一步提高模型有效性。