申玫 徐寧 趙曉玲
(青島遠(yuǎn)洋船員職業(yè)學(xué)院 山東 青島 266071)
自然語言處理技術(shù)在中高職課程銜接中的應(yīng)用
申玫 徐寧 趙曉玲
(青島遠(yuǎn)洋船員職業(yè)學(xué)院 山東 青島 266071)
在中高職課程銜接的實際中,存在著中高職專業(yè)設(shè)置不對口、專業(yè)課程內(nèi)容重復(fù)等問題。為了選擇對口專業(yè)及查找重復(fù)課程,采用人工手段對教育教學(xué)文件進(jìn)行分析研究,效率低、精確性差。而使用計算機自然語言處理技術(shù)對中高職教學(xué)文件中的文本數(shù)據(jù)進(jìn)行分析,可以快速獲得中高職相關(guān)專業(yè)之間的相似度及專業(yè)課程內(nèi)容之間的重復(fù)度,為課程設(shè)置提供科學(xué)依據(jù)。將自然語言處理技術(shù)用于青島遠(yuǎn)洋船員職業(yè)學(xué)院“船舶工程技術(shù)”專業(yè)中高職課程銜接問題上,對相關(guān)文件進(jìn)行分析,得到合理的結(jié)論。
中高職銜接;自然語言處理技術(shù);課程設(shè)置
中高職教育課程銜接主要存在兩個方面的難題:其一,中高職教育沒有實行專業(yè)歸類對口招生報考制度,造成中高職專業(yè)設(shè)置的對應(yīng)關(guān)系不明確,各院校自行選擇對接專業(yè),造成很多中職專業(yè)在升高職時不對口。其二,中高職專業(yè)課程內(nèi)容重復(fù),使中職畢業(yè)生升入高職時重復(fù)學(xué)習(xí)相同的課程內(nèi)容。
在我國,中高職課程銜接仍然依賴于專家經(jīng)驗。對口專業(yè)的判斷及重復(fù)課程的篩選是通過對“人才培養(yǎng)方案”和“課程標(biāo)準(zhǔn)”等文本文件的內(nèi)容進(jìn)行人工分析。面對多個專業(yè),每個專業(yè)數(shù)十門課程,采用人工分析,工作效率低,專業(yè)的對口程度和課程重復(fù)程度難以精確的衡量。為了科學(xué)高效地進(jìn)行中高職課程銜接,不能僅僅依賴經(jīng)驗和人工分析,而應(yīng)該運用計算機技術(shù),對各院校多年積累的課程數(shù)據(jù)文件進(jìn)行深入分析研究,使中高職課程銜接方法具備精確性和實用性。如何讓計算機對“人才培養(yǎng)方案”和“課程標(biāo)準(zhǔn)”等文本文件進(jìn)行自動識別分析是科學(xué)高效進(jìn)行中高職課程銜接的關(guān)鍵。
自然語言處理(Natural Language Processing,簡稱NLP)就是用計算機來處理、理解以及運用人類語言(如中文、英文等),它屬于人工智能的一個分支,是計算機科學(xué)與語言學(xué)的交叉學(xué)科,又常被稱為計算語言學(xué),是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。 自然語言處理技術(shù)可以實現(xiàn)文本分類聚類、文本自動摘要、機器翻譯、檢索系統(tǒng)、問答系統(tǒng)、人機交互等諸多功能,其中重要的一項任務(wù)就是文本相似度分析。文本相似度分析最為著名的應(yīng)用案例之一是搜索引擎,如谷歌、百度等,人們能通過輸入文字來查找相關(guān)的新聞等網(wǎng)絡(luò)資源,另外,在檢測學(xué)術(shù)論文是否抄襲方面文本相似度也有其關(guān)鍵技術(shù)的應(yīng)用。所謂文本相似度計算是指利用計算機自動計算文本間的相似程度,文本相似度是表示兩個或多個文本之間相似程度的一個度量參數(shù),相似度大,說明文件相似程度高,反之文件相似程度就低。
本文運用自然語言處理中的文本相似度算法對中高職課程相關(guān)的文本數(shù)據(jù)進(jìn)行分析,能夠快速地找出中高職對口專業(yè),指導(dǎo)課程銜接方案的合理設(shè)置。
文本相似度度量任務(wù)就是衡量兩個文本之間語義相似的程度,是自然語言處理中一個非常重要的任務(wù)。常規(guī)的文本相似度度量方法是將文本轉(zhuǎn)化詞匯的集合,分析每個詞在單個文本中出現(xiàn)的次數(shù)以及在整個語料庫中出現(xiàn)的次數(shù),進(jìn)而利用每個文本的詞頻信息構(gòu)建為一個向量,并利用向量間的余弦相似度或Jaccard相似度等方法計算文本之間的相似度。圖1顯示了文本相似度算法的主要流程。
圖1 文本相似度算法流程圖
(一)預(yù)處理
計算機可以快速地計算出兩列數(shù)組之間的相似度,也可以分析出兩個矩陣之間的相似度,但對于兩篇文本來說,相似度的計算要相對復(fù)雜。因為,文本是非結(jié)構(gòu)化的數(shù)據(jù),數(shù)據(jù)挖掘的算法要應(yīng)用到文本對象之上,就必須對文本進(jìn)行預(yù)處理,使其結(jié)構(gòu)化,即將文本轉(zhuǎn)化為數(shù)組或向量。對于中文文本的預(yù)處理技術(shù)主要包括中文分詞和停用詞過濾兩個方面。
1.中文分詞技術(shù)
中文文本與英文文本不同,詞與詞之間沒有空格,讀者閱讀時要根據(jù)經(jīng)驗和語言知識來自行分詞。因而,計算機對于中文的處理相對于以英文為代表的西文處理存在更大的難度?,F(xiàn)有的分詞方法主要有:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。對于分析者來說,自行開發(fā)中文分詞算法難度較大,目前有很多開源的軟件和在線工具都可以完成分詞工作,如Jieba、SCWS、中科院張華平開發(fā)的ICTCLAS、武漢大學(xué)沈陽開發(fā)的ROSTCM等。
2.停用詞過濾
在文本處理中,有一些詞出現(xiàn)頻繁但意義不大,為了提高文本的分析速度和精度,須將這些詞忽略。比如,“的”、“在”、“是”等幾乎是中文文本中出現(xiàn)頻率最高的詞,這類詞對文本相似度的計算會產(chǎn)生不良的干擾。對于這類問題的解決,可以利用現(xiàn)有的“中文停用詞表”將這些詞進(jìn)行過濾刪除。但是較為精確的方法是計算文本中每個詞的TF-IDF值,將TF-IDF值為0的詞刪除。
TF-IDF是用來評估某一詞匯對于一個文件集或一個語料庫中的其中一份文件的重要程度的統(tǒng)計方法。詞匯的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。比如,“船體的認(rèn)識”被分詞后變成 “船體”、“的”、“認(rèn)識”,其中“的”是停用詞,而“船體”和“認(rèn)識”這兩個詞在計算文本相似度中的重要程度是不同的?!按w”這個詞較為專業(yè),“認(rèn)識”這個詞較為普通,在中高職院校的教學(xué)文件中幾乎每篇都會出現(xiàn) “認(rèn)識”這個詞。當(dāng)某個詞在所有文本中都會出現(xiàn),那么,它對文本相似性也就沒有貢獻(xiàn)了。
(二)基于余弦相似度的文本相似度算法
經(jīng)過預(yù)處理之后,兩篇文本被轉(zhuǎn)換為兩份詞匯表數(shù)據(jù),分別用向量D1(n)和D2(m)來表示,其中n和m表示兩表中詞匯的數(shù)目。文本相似度工作就是計算分析D1(n)和D2(m)的相似度。具體步驟如下:
(1)將兩份詞匯表中重復(fù)多次的詞合并,并將兩份詞匯表匯總成一個總詞匯表,用向量A(p)表示,其中p表示詞匯的數(shù)目,p≤m+n。
(2)計算A(p)中的詞在D1(n)和D2(m)中出現(xiàn)的次數(shù),分別用向量B1(p)和B2(p)表示。
近年來,中高職教育銜接是我國教育領(lǐng)域的研究熱點,各級教育部門頒發(fā)了一系列文件,如《教育部關(guān)于推進(jìn)中等和高等職業(yè)教育協(xié)調(diào)發(fā)展的指導(dǎo)意見》、《國家中長期教育改革和發(fā)展規(guī)劃綱要(2010—2020 年)》、《山東省中等職業(yè)學(xué)校教學(xué)指導(dǎo)方案》等。在進(jìn)行文本相似度分析時,要合理選擇相關(guān)文本進(jìn)行研究。本文所選的數(shù)據(jù)來源有以下兩個方面:
判斷對口專業(yè)的文本文件主要有:地方教育部門或行業(yè)指導(dǎo)委員會制定的各專業(yè)教育教學(xué)指導(dǎo)性文件,如《山東省中等職業(yè)學(xué)校教學(xué)指導(dǎo)方案》或各中高職院校制定的《人才培養(yǎng)方案》。中等職業(yè)學(xué)校專業(yè)教學(xué)指導(dǎo)方案是中等職業(yè)學(xué)校專業(yè)建設(shè)和專業(yè)教學(xué)的基本指導(dǎo)文件,內(nèi)容包括教學(xué)計劃和各門課程的課程標(biāo)準(zhǔn)。人才培養(yǎng)方案是人才培養(yǎng)的總體設(shè)計,反映著一個學(xué)院人才培養(yǎng)的指導(dǎo)思想和整體思路,關(guān)系著學(xué)院人才培養(yǎng)的內(nèi)容、途徑和質(zhì)量。
衡量專業(yè)課程內(nèi)容重復(fù)情況的文本文件主要有:地方教育部門、行業(yè)指導(dǎo)委員會或院校制定的人才培養(yǎng)方案和課程標(biāo)準(zhǔn)。其中課程標(biāo)準(zhǔn)是指規(guī)定某一學(xué)科的課程性質(zhì)、課程目標(biāo)、內(nèi)容目標(biāo)、實施建議的教學(xué)指導(dǎo)性文件,是衡量課程內(nèi)容重復(fù)度的主要依據(jù)。
青島遠(yuǎn)洋船員職業(yè)學(xué)院是一所高職院校,其船舶工程技術(shù)專業(yè),在面對機械制造技術(shù)、焊接技術(shù)應(yīng)用、電氣運行與控制等多個中職專業(yè)的畢業(yè)生時,如何能對口接收并進(jìn)行合理的課程設(shè)置,是學(xué)院開展中高職教育銜接的關(guān)鍵。
(一)選擇對口專業(yè)
根據(jù)教育部頒發(fā)的 《中等職業(yè)學(xué)校專業(yè)目錄》(2010年修訂),將山東省教育廳開發(fā)的6個中職專業(yè)(船舶建造與維修、焊接技術(shù)應(yīng)用、機械制造技術(shù)、機電技術(shù)應(yīng)用、電氣運行與控制、旅游服務(wù)與管理)的教學(xué)指導(dǎo)方案與青島遠(yuǎn)洋船員職業(yè)學(xué)院“船舶工程技術(shù)專業(yè)”人才培養(yǎng)方案進(jìn)行文本相似度分析,得到數(shù)據(jù)結(jié)果,如圖2所示。
圖2 中、高職培養(yǎng)方案文本余弦相似度對比圖
通過對人才培養(yǎng)方案進(jìn)行文本相似度分析,可以看出,高職“船舶工程技術(shù)”專業(yè)的三個方向“船體”、“輪機”和“電氣”,與6個中職專業(yè)的相似程度各不相同:與“船體方向”對口的中職專業(yè),按相似度依次為“船舶建造與維修”、“焊接技術(shù)應(yīng)用”、“機械制造技術(shù)”;與“輪機方向”對口的中職專業(yè),按相似度依次為“船舶建造與維修”、“機電技術(shù)應(yīng)用”、“機械制造技術(shù)”;與“電氣方向”對口的中職專業(yè),按相似度依次為 “船舶建造與維修”、“機電技術(shù)應(yīng)用”、“機械制造技術(shù)”、“電氣運行與控制”。
本文選擇“旅游服務(wù)與管理”作為與其他專業(yè)對比的參考專業(yè),與船舶工程技術(shù)三個方向均不對口,相似度極低,與生活常識相符合。
(二)判斷重復(fù)課程
中高職對口專業(yè)經(jīng)常會出現(xiàn)課程內(nèi)容重復(fù)的問題,專業(yè)對口程度越高,其課程重復(fù)的可能性就越大。通過分析課程標(biāo)準(zhǔn)的文本相似度,可能得到課程內(nèi)容的重復(fù)程度,從而指導(dǎo)課程安排和課時分配,避免中職學(xué)生升入高職后重復(fù)學(xué)習(xí)。
圖3以中職“船舶制造與修理”專業(yè)與高職“船舶工程技術(shù)”專業(yè)船體方向為例,將4門高職課程分別與9門中職課程進(jìn)行了文本相似度分析。為了直觀判斷出中職課程與高職課程之間的相關(guān)度,將高職的任一課程與所有中職課程對比繪制成折線圖,如圖2所示。將高職機械設(shè)計、電工基礎(chǔ)、結(jié)構(gòu)制圖、修造工藝這4門課與中職9門課程進(jìn)行比較,可以得出以下結(jié)論。
圖3 高職與中職專業(yè)課程相似度圖
第一,高職機械設(shè)計課程與中職各課程相似度均不高,說明課程內(nèi)容沒有重復(fù);第二,高職電工基礎(chǔ)課程與中職各課程相似度均不高,說明課程內(nèi)容沒有重復(fù);第三,高職結(jié)構(gòu)制圖課與中職船舶識圖課的相似度非常高,說明課程內(nèi)容重復(fù);第四,高職修造工藝課與中職船舶建造與修理課的相似度非常高,說明課程內(nèi)容重復(fù)。
通過對每門課程的“課程標(biāo)準(zhǔn)”的文本相似度進(jìn)行分析,可以準(zhǔn)確快速地得出各門課程重復(fù)程度,對與中職課程重復(fù)程度高的高職課程,如“結(jié)構(gòu)制圖”和“修造工藝”等應(yīng)考慮免修或適當(dāng)減免學(xué)時。
運用自然語言處理技術(shù),分析文本文檔、為課程設(shè)置提供可靠依據(jù),在中高職教育課程銜接領(lǐng)域是全新的嘗試。本文通過使用自然語言處理技術(shù),對中高職銜接相關(guān)教育教學(xué)文件進(jìn)行文本相似度分析。通過青島遠(yuǎn)洋船員職業(yè)學(xué)院的實驗驗證,這種方法可以定量地對中高職教育銜接時對口專業(yè)進(jìn)行篩選,以及對重復(fù)課程進(jìn)行判斷,取得了良好的分析效果,具有較強的科學(xué)性和應(yīng)用性。
將自然語言處理引入中高職教育銜接領(lǐng)域,可以充分利用現(xiàn)有的教學(xué)文件數(shù)據(jù),提高各項教育教學(xué)決策的速度和準(zhǔn)確性,促進(jìn)了職業(yè)教育水平的整體提高。隨著自然語言處理技術(shù)的不斷發(fā)展,通過計算機可以高速地對海量數(shù)據(jù)進(jìn)行分析,這些數(shù)據(jù)不僅包括院校原有的教育教學(xué)文檔,還包括行業(yè)發(fā)展趨勢、社會人才需求等文本數(shù)據(jù),并自動生成適應(yīng)社會發(fā)展情況的“人才培養(yǎng)方案”、“課程標(biāo)準(zhǔn)”等教育教學(xué)文檔,從而實現(xiàn)教育決策的“人工智能”。
[1]顧曰國.自然語言語義、語義自動化處理與知識本體——寫在“知識本體”專號前面的話[J].當(dāng)代語言學(xué), 2013(2):127-128.
[2]金希茜.基于語義相似度的中文文本相似度算法研究[D].杭州:浙江工業(yè)大學(xué),2009.
[3]沈斌.基于分詞的中文文本相似度計算研究[D].天津:天津財經(jīng)大學(xué),2006.
[4]張華平.語言淺層分析與句子級新信息檢測研究[D].北京:中國科學(xué)院研究生院,2005.
[5]黃承慧.一種結(jié)合詞項語義信息和TF-IDF方法的文本相似度量方法[J].計算機學(xué)報,2011,34(5):856-864.
[7]鄧澤民.《中等職業(yè)學(xué)校專業(yè)目錄2010年修訂》解讀[J].中國職業(yè)技術(shù)教育,2010(16):22-25.
(責(zé)任編輯:王璐)
Application of Natural Language Processing Technology in Cohesion Between Secondary and Higher Vocational Education Curriculum
SHEN Mei,XU Ning,ZHAO Xiao-ling
(Qingdao Ocean Shipping Mariners College,Qingdao Shandong 266071,China)
There are many problems in cohesion between secondary and higher vocational education,such as specialty mismatch and course content duplication.In order to solve these problems,manual work is adopted to analyze education documents,which has low efficiency and poor accuracy,while natural language processing technology is used to analyze the documents,similarities between specialties and repeat-ability between courses can be quickly obtained,which can provide a scientific basis for curriculum.In this paper, natural language processing technology is used to analyze education documents of Qingdao Ocean Shipping Mariners College,and the result shows that it is reasonable.
cohesion between secondary and higher vocational education;natural language processing;curriculum
G712
A
1672-5727(2015)11-0060-04
申玫(1984—),女,青島遠(yuǎn)洋船員職業(yè)學(xué)院船舶與海洋工程系講師,研究方向為船舶與海洋工程教學(xué)和研究。
2013年交通運輸職業(yè)教育教學(xué)指導(dǎo)委員會科研項目“船舶工程技術(shù)專業(yè)群中高職教育課程銜接研究”(項目編號:2013B40)