何苑,郝夢巖
(長治學(xué)院計算機系,山西長治046011)
?
基于自然語言處理的計算機專業(yè)數(shù)學(xué)課程教學(xué)研究
何苑,郝夢巖
(長治學(xué)院計算機系,山西長治046011)
針對計算機專業(yè)相關(guān)數(shù)學(xué)課程教學(xué)中存在的學(xué)生學(xué)習(xí)難度大、興趣不高的問題,從數(shù)學(xué)方法在自然語言處理方面的應(yīng)用入手,討論了將相關(guān)數(shù)學(xué)概念、方法與應(yīng)用相結(jié)合的教學(xué)方法。教學(xué)實踐表明,口述方法可激發(fā)學(xué)生學(xué)習(xí)興趣,改善教學(xué)效果。
計算機專業(yè);數(shù)學(xué)課程;自然語言處理;推薦系統(tǒng);教學(xué)研究
計算機科學(xué)與技術(shù)的相關(guān)專業(yè)基礎(chǔ)課程中有多門數(shù)學(xué)基礎(chǔ)課程,如高等數(shù)學(xué)Ⅰ、高等數(shù)學(xué)Ⅱ、線性代數(shù)、概率統(tǒng)計及離散數(shù)學(xué)等,學(xué)生在這些課程的學(xué)習(xí)過程中普遍存在學(xué)習(xí)難度大、興趣不高的問題。學(xué)生只有在進入研究生階段的學(xué)習(xí)或在工作當(dāng)中才逐漸體會到數(shù)學(xué)作為一種工具的作用。如何在有限的課時內(nèi),既做到數(shù)學(xué)抽象思維能力的培養(yǎng)又能和專業(yè)應(yīng)用較好地結(jié)合,引入難易復(fù)雜程度適中而且學(xué)生易于理解的應(yīng)用問題,一直是相關(guān)數(shù)學(xué)課程教學(xué)中的難點。而計算機科學(xué)是一門從實踐中發(fā)展提煉出來的學(xué)科,自然語言處理作為其中的研究方向之一,包含許多以這些數(shù)學(xué)概念和方法為基礎(chǔ)的相關(guān)內(nèi)容。
針對上述問題,文章從自然語言處理方面的相關(guān)研究入手,把這些課程中包含的如線性代數(shù)中的“向量計算”、概率論中的“條件概率”、離散數(shù)學(xué)中“圖論”、“布爾代數(shù)”等基本內(nèi)容與自然語言處理領(lǐng)域中的應(yīng)用聯(lián)系起來[1],加深學(xué)生概念理解的同時,培養(yǎng)其理論聯(lián)系實際的能力,激發(fā)其學(xué)習(xí)興趣。同時在地方性高校向應(yīng)用型大學(xué)轉(zhuǎn)型過程中,如何將應(yīng)用和理論的有機結(jié)合的課程教學(xué)改革探索,具有十分重要的現(xiàn)實意義[2]。
2.1推薦系統(tǒng)和向量計算
在線性代數(shù)課程中,通過向量概念和各種定理的學(xué)習(xí),要求學(xué)生掌握基于向量運算的線性方程組的求解方法,并在隨后的數(shù)值分析課程中學(xué)習(xí)了各種求解線性方程組的近似算法。學(xué)生在學(xué)習(xí)的過程中往往局限于對各種定義定理的記憶,并不能很好理解這些定義和定理在實際應(yīng)用中的意義。而在計算機應(yīng)用的研究中存在大量相關(guān)的應(yīng)用,例如圖形圖像處理中特征值和特征向量的運用、向量計算機的研制等,在自然語言處理領(lǐng)域,許多應(yīng)用問題都可以轉(zhuǎn)化成對向量的處理。
在移動互聯(lián)普及應(yīng)用的今天,推薦系統(tǒng)已經(jīng)融入了學(xué)生的生活當(dāng)中,作為一個成熟商業(yè)系統(tǒng)的標準配置之一,也是學(xué)生日常接觸較多非常容易理解的一個應(yīng)用[3]。通過推薦系統(tǒng),學(xué)生可以找到和自己興趣相同的人群,或者找到適合自己的書籍、音樂、電影等各種產(chǎn)品。
圖1 推薦系統(tǒng)通用模型
推薦系統(tǒng)的通用模型如圖1所示,各種推薦系統(tǒng)的基礎(chǔ)是各類對象的相似性,這種相似性既可以是指用戶已購買產(chǎn)品和其他未購買產(chǎn)品的相似性,也可以是與其他用戶興趣品味的相似性。在將對象進行向量化表示后,可以通過對向量距離的度量來進行計算?;谟脩粝嗨贫鹊乃惴ㄖ?,用戶的屬性可以用一個特征向量來表示,特征向量中元素的值可以用用戶對已購買商品的評分來表示,而未購買商品則可以表示為0。用戶相似度計算轉(zhuǎn)化為代表用戶屬性的特征向量相似性的計算。簡單的計算向量距離的方法有標準化歐式距離和表示兩個向量相似程度的余弦夾角[4]。
2.2圖論和網(wǎng)絡(luò)爬蟲
在離散數(shù)學(xué)課程中,要求學(xué)生理解許多圖論方面的相關(guān)定義和定理,掌握用各種矩陣表示圖的方法,并學(xué)習(xí)一些特殊圖如歐拉圖、漢密爾頓圖的判定定理。同時在數(shù)據(jù)結(jié)構(gòu)課程中對圖的實現(xiàn)和遍歷做了進一步的學(xué)習(xí)。在這些學(xué)習(xí)的過程中,學(xué)生往往側(cè)重于對定義定理的記憶,對于其在實際生活中的應(yīng)用并不是特別的清楚,因此影響了學(xué)習(xí)的效果。
圖2 反映頁面鏈接關(guān)系的圖
谷歌、百度等搜索引擎是學(xué)生在學(xué)習(xí)生活中使用最多的一種互聯(lián)網(wǎng)應(yīng)用,其中就可以看到圖論的應(yīng)用。要通過搜索引擎在龐大的互聯(lián)網(wǎng)上快速找到相關(guān)資源和內(nèi)容的鏈接和頁面,首要對所有網(wǎng)頁進行搜集。負責(zé)該基礎(chǔ)性工作的程序是網(wǎng)絡(luò)爬蟲,它是基于圖論中的基本原理進行工作。網(wǎng)絡(luò)爬蟲在上萬臺通過高速互聯(lián)網(wǎng)絡(luò)連接的集群服務(wù)器上運行,完成對互聯(lián)網(wǎng)頁面的采集工作。在對如圖2所示的由頁面鏈接關(guān)系構(gòu)成的圖進行遍歷時按其訪問順序的不同可分為寬度優(yōu)先遍歷和深度優(yōu)先遍歷兩種遍歷方法。
為了在有限的時間內(nèi)采集盡可能多的重要頁面,負責(zé)完成待下載網(wǎng)頁優(yōu)先級排序的調(diào)度系統(tǒng)就是基于這兩種方法的特點實現(xiàn)的[5]。首先從網(wǎng)站設(shè)計的特點來說,重要的網(wǎng)頁與首頁的距離較普通網(wǎng)頁更近一些,從這一點出發(fā)采用寬度優(yōu)先遍歷更容易抓取到重要頁面。在圖2中自頂向下頁面的重要性逐級下降,因此頁面采集的順序應(yīng)為1、2、3、4、5、6、7、8、9。但是從數(shù)萬臺機器組成的分布式的爬蟲結(jié)構(gòu),采用深度遍歷的方式能有效的能有效的降低網(wǎng)絡(luò)通信成本,一臺或幾臺服務(wù)器針對一個網(wǎng)站的進行專門下載。例如在圖2所示結(jié)構(gòu)中根據(jù)深度優(yōu)先遍歷由第1臺服務(wù)器負責(zé)2、5、8節(jié)點,第2臺服務(wù)器負責(zé)節(jié)點3、6、9,第3臺服務(wù)器負責(zé)節(jié)點4和7。上述遍歷策略通過不同的調(diào)度算法來實現(xiàn)。通過與一些實際問題的結(jié)合能使學(xué)生對于各種方法的特點及在實際應(yīng)用中的效果有更好的了解。
2.3文獻檢索和布爾代數(shù)
在布爾代數(shù)的學(xué)習(xí)中,定義了對0和1兩個元素的與、或和非三種運算,由于過于簡單使得學(xué)生對于其解決問題的有效性有很強的質(zhì)疑。但在實際應(yīng)用中,該簡單的理論卻非常有效的解決了許多應(yīng)用問題[6]。例如布爾代數(shù)將所有的數(shù)學(xué)運算通過轉(zhuǎn)換成二值的布爾運算,通過開關(guān)電路實現(xiàn),使得布爾代數(shù)成為數(shù)字電路的理論基礎(chǔ)。同時在文獻檢索領(lǐng)域基于索引的布爾運算可以實現(xiàn)高效的查詢。
在文獻檢索領(lǐng)域,可以通過判斷用戶輸入的關(guān)鍵詞是否在文獻中出現(xiàn),給予該文獻一個邏輯值0(不出現(xiàn))或1(出現(xiàn))。當(dāng)考慮多個關(guān)鍵詞時,查詢可以通過二值的布爾運算進行實現(xiàn)?;谒饕Y(jié)構(gòu)可以加快上述運算的速度,其中最簡單的索引結(jié)構(gòu)由關(guān)鍵字及其是否出現(xiàn)在某篇文檔中,出現(xiàn)記為1,未出現(xiàn)記為0。這樣索引就表示為一個超長的二進制串,串的長度由文檔的個數(shù)決定,而查詢就變成了兩個二進制串的布爾運算。
2.4網(wǎng)絡(luò)垃圾檢測和條件概率
在概率論與數(shù)理統(tǒng)計課程的教學(xué)中,學(xué)生往往停留在對概率、隨機變量、參數(shù)估計和假設(shè)檢驗等各種定義和定理學(xué)習(xí)中,雖然有舉例說明各種定義定理的使用,但由于專業(yè)相關(guān)性的缺乏,效果并不明顯。在自然語言處理領(lǐng)域,基于統(tǒng)計的方法得到了廣泛的應(yīng)用并取得了非常好的效果。其中基于條件概率的樸素貝葉斯方法,由于其簡潔性在分類問題中常作為一種基準方法被廣泛采用。網(wǎng)絡(luò)垃圾的檢測如垃圾郵件檢測、垃圾博客檢測[7]、垃圾網(wǎng)頁檢測等作為二分類問題是非常好的實際應(yīng)用。
樸素貝葉斯分類法[8]是基于條件概率的分類方法,使用樸素貝葉斯分類法進行按類別分類,其中二分類是最簡單的分類。假定要決定樣本X屬于類別C1還是C2,首先在訓(xùn)練集計算類別C1和C2的各種特征的先驗概率,在條件獨立性假設(shè)的條件下通過全概率公式計算最大后驗概率概率P(C1|X)、P (C2|X),即分別計算出X屬于不同類別的概率,如果P(C1|X)>P(C2|X),則樣本屬于類別C1,否則屬C2。圖3描述了垃圾博客檢測中樸素貝葉斯方法的訓(xùn)練和檢測過程。
文章從自然語言處理方向應(yīng)用的角度出發(fā),通過在相關(guān)課程中引入推薦系統(tǒng)、搜索引擎、文獻檢索和網(wǎng)絡(luò)垃圾檢測中數(shù)學(xué)知識的應(yīng)用,使學(xué)生對相關(guān)內(nèi)容有了更好的理解。通過讓學(xué)生在學(xué)習(xí)中體會數(shù)學(xué)作為一種工具在實際中的應(yīng)用,特別是在計算機領(lǐng)域中解決實際問題中的應(yīng)用,既可以提高學(xué)生理論與應(yīng)用結(jié)合的能力,又能提高學(xué)生的專業(yè)素養(yǎng),激發(fā)學(xué)生的學(xué)習(xí)興趣,從而改善學(xué)習(xí)的效果。
圖3 基于樸素貝葉斯分類方法的訓(xùn)練及檢測過程
[1]D.Manning,Hinrich Sch tze著.苑春法等譯.統(tǒng)計自然語言處理基礎(chǔ)[M].北京:電子工業(yè)出版社, 2007,(4):330-354.
[2]鐘秉林.中國大學(xué)改革與創(chuàng)新人才教育[M].北京:北京師范大學(xué)出版社,2008,(1):1-5.
[3]孟祥武,胡勛,王立才,張玉潔.移動推薦系統(tǒng)及其應(yīng)用[J].軟件學(xué)報,2013,24(1):91-108.
[4]Haralambos Marmanis,Dmitry Babenko著,陳剛譯, Algorithms of the Intelligent Web[M].北京:電子工業(yè)出版社,2011,(11):74-80.
[5]李曉明,閆宏飛,王繼民.搜索引擎—原理、技術(shù)與系統(tǒng)[M].北京:科學(xué)出版社,2008,(4):45-47.
[6]吳軍.數(shù)學(xué)之美[M].北京:人民郵電出版社,2012,(6):81-87.
[7]何苑,譚紅葉.基于多結(jié)構(gòu)特征的垃圾博客識別研究[J].計算機工程與設(shè)計.2010,(22):4932-4935.
[8]Jiawei Han,Kamber[M].范明,孟小峰,譯.數(shù)據(jù)挖掘:概念與技術(shù).北京:機械工業(yè)出版社, 2007,200-204.
(責(zé)任編輯張劍妹)
TP301
A
1673-2014(2016)02-0086-03
山西省高??萍奸_發(fā)項目(20121117);長治學(xué)院教學(xué)研究項目(2011205)。
2016—02—24
何苑(1981—),男,山西新絳人,講師,碩士,主要從事中文信息處理和數(shù)據(jù)挖掘研究。
郝夢巖(1979—),女,山西武鄉(xiāng)人,講師,碩士,主要從事網(wǎng)絡(luò)協(xié)議安全研究。