黃宇彤
(上海海關(guān)學(xué)院 海關(guān)法律系, 上海 201204)
大數(shù)據(jù)、云計算的出現(xiàn)引領(lǐng)人工智能進入了一個突飛猛進的發(fā)展階段,人工智能正在無線通信、氣象監(jiān)測、教育、醫(yī)療、金融和社會決策等領(lǐng)域加速滲透[1]。在高等教育領(lǐng)域,學(xué)校里存在大量的日常重復(fù)性教學(xué)與管理任務(wù),人工智能可以幫助自動化處理這些任務(wù)。當前,對人工智能在重塑高等教育生態(tài)、促進師生互動和個性化學(xué)習體驗、簡化管理流程、推動高等教育智能化發(fā)展等方面的作用和前景的研究比較豐富,但是大多在理論層面進行探討,缺少在具體教育教學(xué)場景中解決實際問題的人工智能系統(tǒng)建設(shè)方案。遠程教育已成為高等教育的熱點研究方向,然而在此方面的人工智能應(yīng)用文獻乏善可陳。
20世紀70年代中期,人工智能進入“知識期”,人們將大量邏輯與知識通過編程寫入計算機中,這種實現(xiàn)人工智能的方式被稱為專家系統(tǒng)。隨著應(yīng)用場景越來越復(fù)雜,人們發(fā)現(xiàn)專家系統(tǒng)面臨“知識工程瓶頸”,隨即產(chǎn)生了基于歷史數(shù)據(jù)推斷結(jié)果的機器學(xué)習,即計算機從數(shù)據(jù)中自動分析獲得規(guī)律,并利用規(guī)律進行推斷和決策,這是當前人工智能的主要研究方向[2]。本文將從專家系統(tǒng)和機器學(xué)習這2個方向?qū)θ斯ぶ悄茉诟叩冉逃械膱鼍皯?yīng)用進行技術(shù)分析。
用戶畫像是指根據(jù)用戶的屬性、用戶偏好、生活習慣、用戶行為等信息而抽象出來的標簽化用戶模型。標簽是通過對用戶信息分析而來的高度精煉的特征標識,并且可以方便計算機處理。用戶畫像目前最典型的應(yīng)用場景是精準營銷,即根據(jù)用戶的歷史消費數(shù)據(jù)將用戶標簽化,分析此標簽用戶群的主要需求、潛在需求等,進而精準推薦產(chǎn)品和服務(wù)。受此啟發(fā),本文將學(xué)生用戶畫像應(yīng)用在高等教育中實現(xiàn)精準教學(xué)。用戶畫像的形成可以通過專家系統(tǒng)的內(nèi)置算法或機器學(xué)習的分類算法來實現(xiàn)。機器學(xué)習內(nèi)部邏輯是通過訓(xùn)練數(shù)據(jù)形成的,屬于黑盒系統(tǒng),輸入和輸出之間的邏輯關(guān)系可解釋性相對較差。而專家系統(tǒng)中內(nèi)置了解釋器,用于解釋推理過程。在本文場景中,由于數(shù)據(jù)采集渠道的局限性,可能對最終用戶畫像產(chǎn)生影響,進而影響最終預(yù)測判斷。在此局限性下,一旦預(yù)測有偏差,學(xué)生需要看到基于用戶畫像的推理路徑,所以專家系統(tǒng)是更好的選擇。
專家系統(tǒng)按照應(yīng)用方向的分類有很多種,在本文的教育場景應(yīng)用中主要采用以下3種:1)預(yù)測專家系統(tǒng):通過對過去和現(xiàn)在的已知狀況分析預(yù)測未來的結(jié)果,本文基于此設(shè)計了就業(yè)輔導(dǎo)網(wǎng)站;2)規(guī)劃專家系統(tǒng):尋找出某個能夠達到給定目標的動作序列或?qū)ふ也襟E,本文基于此設(shè)計了選課網(wǎng)站;3)監(jiān)控專家系統(tǒng):對系統(tǒng)、對象或過程進行不斷觀察,并把觀察到的行為與其應(yīng)當有的行為進行比較,以發(fā)現(xiàn)異常情況并作出警報。本文基于此設(shè)計了教育辦公網(wǎng)。
1.1.1 總體設(shè)計
學(xué)生用戶畫像是基于學(xué)習能力、性格和消費習慣等方向上的多維向量。本文采用考試成績、平時成績、文體活動和消費數(shù)據(jù)等勾勒形成學(xué)生用戶畫像。
專家系統(tǒng)會通過用戶畫像與職業(yè)的映射關(guān)系預(yù)測哪一類職業(yè)更適合學(xué)生。例如大三學(xué)生修完課程后可以通過學(xué)生就業(yè)輔導(dǎo)網(wǎng)站查看職業(yè)預(yù)測,并通過解釋器查看推理過程,所以這是一個預(yù)測專家系統(tǒng)。并且專家系統(tǒng)會根據(jù)學(xué)生的目標職業(yè)(用戶主動選擇或者系統(tǒng)預(yù)測)的用戶畫像與當前用戶畫像進行比對,規(guī)劃出學(xué)生未來需要在哪些方向做出行動。例如法律系學(xué)生想要從事投行工作,可以通過選課網(wǎng)站查詢到未來幾年需要在哪些階段補充哪些課程,所以這也是一個規(guī)劃專家系統(tǒng)。當學(xué)生的用戶畫像發(fā)生突變,尤其是消極方向的突變時,系統(tǒng)會發(fā)出監(jiān)控預(yù)警到對應(yīng)輔導(dǎo)教師,并伴隨相關(guān)概要診斷信息,例如是群體異常還是個體異常,進而輔導(dǎo)教師可以登錄教育辦公網(wǎng)查看學(xué)生狀態(tài)異動詳情并對學(xué)生提供幫助,所以這是一個監(jiān)控專家系統(tǒng)。圖1給出了集預(yù)測、規(guī)劃、監(jiān)控為一體的專家系統(tǒng)總體設(shè)計。
圖1 預(yù)測規(guī)劃監(jiān)控三合一專家系統(tǒng)總體設(shè)計Fig.1 Three-in-one expert system for forecasting, monitoring and planning design
1.1.2 具體設(shè)計
1)各科考試成績?nèi)霂臁?/p>
學(xué)生的各科成績絕對值、相對空間位置、各科的偏離度等指標是預(yù)測職業(yè)發(fā)展的重要考量因素。各科考試成績也反映已修課程及掌握情況,為規(guī)劃專家系統(tǒng)提供數(shù)據(jù)支持。而考試成績的異常波動,是監(jiān)控專家系統(tǒng)的主要數(shù)據(jù)來源。
2)各科平時成績?nèi)霂臁?/p>
平時成績與考試成績的差異是反映學(xué)生心理素質(zhì)的一個重要參考,是預(yù)測專家系統(tǒng)的重要指標。同時,跟蹤平時成績可以讓輔導(dǎo)教師對學(xué)生狀態(tài)變化早發(fā)現(xiàn)、早介入,符合監(jiān)控專家系統(tǒng)的設(shè)計原則。
3)制定文化體育活動量化標準,并將考核成績?nèi)霂臁?/p>
藝術(shù)節(jié)、運動會等文化體育活動是反映學(xué)生性格的參考活動,是預(yù)測專家系統(tǒng)的重要指標。各項文體活動需要一套平衡的打分機制來量化考核學(xué)生的表現(xiàn)。與考試成績不同,文體活動中很多團體項目。例如某15人學(xué)生合唱團中包括主唱、和聲等若干角色,不同角色在分享活動打分時的權(quán)重應(yīng)有區(qū)分度。在此,需要制定一系列規(guī)則真實反映每個成員在團隊中的貢獻占比。
4)對校園內(nèi)消費場所進行分類,并將消費行為入庫。
消費習慣也是考量學(xué)生的重要因素,尤其當學(xué)生有意向投身于金融領(lǐng)域,要判斷學(xué)生的投資/消費類型屬于激進型或穩(wěn)健型等,是預(yù)測專家系統(tǒng)的重要指標。校園內(nèi)消費可以被定義為基礎(chǔ)類消費、改善型消費、享樂型消費和投資型消費等。但是存在數(shù)據(jù)采集局限性的問題:現(xiàn)金消費數(shù)據(jù)無法有效采集;在校園內(nèi)消費校園外的消費數(shù)據(jù)比例偏差大,而對校園外的消費數(shù)據(jù)采集是受限的;代人采購也會導(dǎo)致數(shù)據(jù)采集失準。所以這個特征維度的數(shù)據(jù)僅具有指導(dǎo)意見,并不權(quán)威。同時,解釋器需要對推理機推斷出的異常結(jié)論提供解釋。
5)綜合數(shù)據(jù)庫數(shù)據(jù)每日計算。
每日日終,各科考試數(shù)據(jù)庫、平時成績數(shù)據(jù)庫、文體活動數(shù)據(jù)庫和校園消費數(shù)據(jù)庫將數(shù)據(jù)同步到綜合數(shù)據(jù)庫。綜合數(shù)據(jù)庫需要對同步的數(shù)據(jù)進行二次加工,通過一系列聚合拆解操作,最終將用戶畫像數(shù)據(jù)落實到每個學(xué)生個體上。
6)專家知識錄入。
該環(huán)節(jié)也稱知識獲取。預(yù)測專家提供各種用戶畫像與職業(yè)發(fā)展預(yù)測的映射,規(guī)劃專家則提供用戶畫像與最終職業(yè)目標的補齊路徑,監(jiān)控專家提供用戶畫像變動告警的邏輯與閾值。在錄入過程中,首先需要對具體的知識做計算機抽象,將每個知識點抽象成可量化輸入的指標與計算公式。各領(lǐng)域的專家將知識錄入并沉淀到知識庫中。
隨著信息化發(fā)展,遠程教育的受歡迎程度越來越高。特別是2020年突發(fā)新冠疫情,更促進了一場全球范圍內(nèi)的信息技術(shù)支撐的教學(xué)方式革命,各高校網(wǎng)課逐漸成為一種主要的授課方式。
知識付費是當前互聯(lián)網(wǎng)領(lǐng)域的熱門話題,其本質(zhì)就是把知識變成產(chǎn)品或服務(wù)以實現(xiàn)商業(yè)價值。網(wǎng)課是一種典型的知識產(chǎn)品,可以通過視頻網(wǎng)站付費播放的方式實現(xiàn)盈利。但是網(wǎng)課的受眾面相比影視劇狹窄,宣傳體系不成熟。用戶在網(wǎng)課視頻網(wǎng)站上付費前只能通過宣傳頁看到每一門網(wǎng)課的授課學(xué)校、授課教師、教學(xué)目錄等靜態(tài)信息。而真正重要的信息如教師的表現(xiàn)力、授課節(jié)奏等動態(tài)信息很難獲得。一線城市的名校網(wǎng)課認可度較高,強者恒強。但是大量其他學(xué)校的優(yōu)秀網(wǎng)課作品由于缺乏有效的獲客手段而被湮沒。如何在大量同質(zhì)化網(wǎng)課產(chǎn)品中使優(yōu)秀的網(wǎng)課脫穎而出,快速獲得用戶認可并付費購買是亟需解決的問題。
受到近年來抖音、快手等自媒體短視頻網(wǎng)站驟火的啟發(fā),短視頻可以成為網(wǎng)課視頻的營銷手段。具體方式是:從完整網(wǎng)課視頻中截取1 min以內(nèi)短視頻,將短視頻設(shè)置為免費播放,并開放點贊、收藏、評論等功能。網(wǎng)課視頻網(wǎng)站根據(jù)短視頻的播放、點贊、收藏的累計數(shù)目和日增長率等指標,對短視頻綜合排序并推薦,通過數(shù)據(jù)讓用戶認可的網(wǎng)課脫穎而出。用戶在瀏覽了短視頻后如果覺得有興趣則可付費購買完整網(wǎng)課視頻。網(wǎng)課營銷人員需要做的是從完整視頻中截取合適的短視頻以達到最高的獲客率。如果采用人工截取,面對批量視頻時存在產(chǎn)量低,主觀性強的缺點;如果采用自動截取,首部截取、尾部截取或者隨機截取都不是最佳方案。本文設(shè)計了根據(jù)播放熱度來截取的方案,將完整視頻視為時間長度均等的片段序列,將完整網(wǎng)課視頻開放給測試用戶免費播放,收集用戶播放數(shù)據(jù),通過統(tǒng)計得到測試期每個片段的播放熱度。再通過營銷專家系統(tǒng),將播放熱度恰好合適的若干片段整合輸出成短視頻。
從營銷角度講,并不是最熱門的片段是最適合用于營銷展示。這里有心理博弈的考量,如果視頻最精華的片段已經(jīng)被免費播放,用戶未必有意愿購買完整視頻。本文選擇營銷專家系統(tǒng),由領(lǐng)域?qū)<遗渲煤侠淼臓I銷方案(知識庫)以提高免費用戶轉(zhuǎn)付費用戶的轉(zhuǎn)化率。
1.2.1 總體設(shè)計
網(wǎng)課營銷專家系統(tǒng)的整體架構(gòu)由前端頁面和后端服務(wù)器構(gòu)成。其中前端頁面內(nèi)置web視頻播放器,此播放器支持視頻埋點和彈幕,用以播放視頻和記錄用戶行為。前端頁面內(nèi)置的JavaScript代碼用于將播放器數(shù)據(jù)報送到服務(wù)端。服務(wù)端按照功能分為3大部分:數(shù)據(jù)收據(jù)收集服務(wù)器、視頻服務(wù)器和營銷專家系統(tǒng)。數(shù)據(jù)收集服務(wù)器用于提供面向公網(wǎng)的web服務(wù),對接前端的數(shù)據(jù)報送請求。視頻服務(wù)器用于存儲影音資源和面向網(wǎng)課HTML頁面提供流媒體服務(wù)。營銷專家系統(tǒng)通過在知識庫配置規(guī)則識別分析最佳短視頻并導(dǎo)出到視頻服務(wù)器。圖2給出了網(wǎng)課營銷專家系統(tǒng)總體設(shè)計。
圖2 網(wǎng)課營銷專家系統(tǒng)總體設(shè)計Fig.2 Online class marketing expert system design
1.2.2 詳細設(shè)計與關(guān)鍵技術(shù)論證
1)視頻埋點。
視頻埋點是整個設(shè)計中的關(guān)鍵技術(shù)環(huán)節(jié)。其設(shè)計思路為:對視頻按定長時間劃分片段,每個片段插入1個埋點,在視頻播放過程中伴隨進度條移動,埋點將被觸發(fā),視為對應(yīng)的視頻片段被播放。通過統(tǒng)計測試期間每個片段的埋點觸發(fā)次數(shù),可得到播放次數(shù)用于反映“播放熱度”。為實現(xiàn)此功能,需要視頻播放器、前端JavaScript與后端數(shù)據(jù)收集服務(wù)器三者協(xié)同完成。目前主流的互聯(lián)網(wǎng)播放器均支持視頻埋點。以阿里云播放器為例,其視頻埋點功能已實現(xiàn)商業(yè)化應(yīng)用,以便應(yīng)用開發(fā)者進行二次開發(fā)。此播放器的埋點密度是4個/s,即每播放0.25 s都會觸發(fā)一次JavaScript函數(shù)回調(diào)。本文在回調(diào)函數(shù)中向數(shù)據(jù)收集服務(wù)器報送數(shù)據(jù),通知此片段已被播放。由于在本場景中,視頻片段的長度設(shè)計為10 s,遠大于播放器默認埋點周期0.25 s,前端開發(fā)者可以在JavaScript回調(diào)函數(shù)中增加計數(shù)器來進行優(yōu)化,調(diào)整成每40次回調(diào)(相當于10 s)報送1次,以此降低用戶寬帶流量耗損和數(shù)據(jù)收集服務(wù)器的并發(fā)壓力。數(shù)據(jù)收集服務(wù)器的作用在于提供面向公網(wǎng)的web服務(wù),然后將收集到的數(shù)據(jù)同步到營銷專家系統(tǒng)的綜合數(shù)據(jù)庫。
2)開放彈幕。
與埋點的思想近似,彈幕也可以反映某一個視頻片段的“播放熱度”,每一條彈幕都具有時間屬性,或者說它屬于某個視頻片段。通過統(tǒng)計測試期間每個視頻片段上的彈幕數(shù)量來判斷播放熱度。彈幕的技術(shù)方案與埋點類似,互聯(lián)網(wǎng)播放器提供基礎(chǔ)接口服務(wù),網(wǎng)頁開發(fā)人員在此基礎(chǔ)上進行二次開發(fā),把彈幕數(shù)據(jù)報送到收據(jù)收集服務(wù)器,進而同步到營銷專家系統(tǒng)的綜合數(shù)據(jù)庫。
3)測試用戶。
測試用戶的選擇原則是盡可能接近真實用戶,只有這樣測試階段的播放次數(shù)與彈幕數(shù)量才具有參考價值。一種手段是通過征集志愿者做內(nèi)測,另一種手段是對真實用戶開放限時免費,直接將生產(chǎn)用戶當做測試用戶。前者對參與內(nèi)測的志愿者的篩選要求很高,要求年齡比例、性別比例、所在地比例、受教育程度比例等盡可能模仿真實用戶,后者則是犧牲部分付費周期換取真實用戶數(shù)據(jù)。在實踐中,本文選擇后者。在系統(tǒng)投產(chǎn)后,生產(chǎn)用戶的數(shù)據(jù)依然被收集,持續(xù)更新視頻片段播放熱度。
4)綜合數(shù)據(jù)庫。
最終每個視頻都會轉(zhuǎn)化成一張時間序列、播放次數(shù)、彈幕數(shù)量的數(shù)據(jù)表,存放在專家系統(tǒng)的綜合數(shù)據(jù)庫內(nèi)。數(shù)據(jù)表結(jié)構(gòu)設(shè)計與數(shù)據(jù)如表1所示。
表1 視頻片段表結(jié)構(gòu)Table 1 Video clip table structure
5)知識庫建設(shè)。
營銷專家配置營銷知識,即選出最佳視頻片段所需重要參數(shù)。例如:熱度排名第3位的視頻片段為最佳,或者熱度排名第1位視頻片段的時間前序片段為最佳,或者邏輯更加復(fù)雜的組合參數(shù)等。這些知識參數(shù)來自于過往營銷案例的統(tǒng)計,最終形成營銷知識庫。
6)專家系統(tǒng)工作流程。
通過運營網(wǎng)站頁面,網(wǎng)課運營人員選擇想要截轉(zhuǎn)的長視頻,并配置目標短視頻的時長參數(shù),按“開始”。推理機通過邏輯代碼讀取知識庫內(nèi)的營銷參數(shù),形成完整的數(shù)據(jù)庫查詢語句SQL,進而從綜合數(shù)據(jù)庫中尋找目標視頻的最合適時間片段,然后將對應(yīng)時間片段的短視頻截取并導(dǎo)出。
目前機器學(xué)習主要應(yīng)用在語音識別、語音合成、圖像識別、自然語言處理等基礎(chǔ)場景及其衍生場景。本文在語音識別、圖像識別方面結(jié)合教育場景做了探索。
語音識別目前已應(yīng)用在生活的各個方面,如手機端的聲紋解鎖技術(shù)、阿里的的天貓精靈智能音箱等。近年,語音識別理論研究取得了很多進展。計算機將一段語音聲波按幀切開,識別每一幀對應(yīng)的音素,將音素合成單詞,再將單詞組合成句子,就是一個完整的語音識別過程。識別每幀對應(yīng)的音素需要通過聲學(xué)特征提取和聲學(xué)模型這2個步驟。在聲學(xué)特征提取研究方向,線性預(yù)測倒譜系數(shù)(linear prediction cepstral coefficient,LPCC)和梅爾頻率倒譜系數(shù)(Mel-frequency cepstrum coefficient,MFCC)被廣泛應(yīng)用[3]。語音特征提取后,根據(jù)音頻特征判斷這幀語音對應(yīng)的音素。計算機實際計算得到的是這幀語音特征與各音素的匹配概率。這種通過語音特征找概率的模型稱為聲學(xué)模型。經(jīng)典有效的聲學(xué)模型為高斯混合模型(Gaussian mixture model,GMM)。神經(jīng)網(wǎng)絡(luò)和深度學(xué)習興起以后,循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)、長短期記憶(long short-term memory,LSTM)等基于深度學(xué)習的聲學(xué)模型被廣泛使用[4]。在發(fā)音字典和語言模型的幫助下,音素被組裝成單詞,進而組裝成句子。發(fā)音字典標明了計算機所能處理的單詞與音素的映射關(guān)系。語言模型利用語言中單詞之間的組合概率分布組裝句子。語言模型研究主要集中在N元模型(N-Gram)、馬爾可夫N元模型(MarkovN-gram)、指數(shù)模型(exponential models)、決策樹模型(decision tree models)等[5]。解碼搜索階段會對聲學(xué)模型得分和語言模型得分綜合評估,將得分最高的文本序列作為最后的識別結(jié)果輸出。
語音識別領(lǐng)域的相關(guān)研究工作可按層級拆分為基礎(chǔ)研究和應(yīng)用研究?;A(chǔ)研究開發(fā)者關(guān)心如何高效精準地完成不同語種及方言的語音識別,并為應(yīng)用研究開發(fā)者提供應(yīng)用程序接口(application programming interface,API)調(diào)用。應(yīng)用研究開發(fā)者基于API開發(fā),關(guān)心如何將基礎(chǔ)服務(wù)嵌入到具體業(yè)務(wù)場景中,進而實現(xiàn)技術(shù)為業(yè)務(wù)賦能。一般來說,訓(xùn)練過程也由基礎(chǔ)研究開發(fā)者完成,但也保留了二次訓(xùn)練的接口,供應(yīng)用研究開發(fā)者針對特定場景特別訓(xùn)練,進而提供定制化服務(wù)。
2.1.1 總體設(shè)計
在大學(xué)課堂中,每節(jié)課有大量的知識點需要記憶和理解,課后還需要應(yīng)用理論解決實際問題。目前學(xué)生聽課多用手記錄,老師講課節(jié)奏加快或者自己還在思考理解知識點時筆記容易遺漏。所以在教室里搭建基于語音識別的系統(tǒng),將課上老師的語音直接轉(zhuǎn)化為文字形成課堂筆記,可以大大提高學(xué)習效率,幫助學(xué)生高質(zhì)量聽課和課后復(fù)習鞏固。圖3給出了智能課程筆記系統(tǒng)的總體設(shè)計。
圖3 智能課堂筆記系統(tǒng)總體設(shè)計Fig.3 Smart note system design
1)錄音設(shè)備在上課時采集聲音(可自動或者手動模式)并將錄音文件傳輸至NAS服務(wù)器,標記錄音時間、錄音場所。
2)觸發(fā)語音識別服務(wù)對錄音文件進行分析,轉(zhuǎn)成文本信息并儲存在數(shù)據(jù)庫中。錄音時間、錄音場所也保存在數(shù)據(jù)庫中。
3)學(xué)生、教職工通過訪問筆記查詢網(wǎng)站,輸入課程名稱,服務(wù)器通過聯(lián)合查詢即可得到對應(yīng)的課堂筆記。
2.1.2 詳細設(shè)計與關(guān)鍵技術(shù)論證
1)在教室與會議室配置聲音采集設(shè)備。
2)搭建語音文件存儲服務(wù)器、文本存儲數(shù)據(jù)庫服務(wù)器。語音文件服務(wù)器用于存儲課堂錄音文件,用于語音轉(zhuǎn)寫并追溯。文本存儲數(shù)據(jù)庫服務(wù)器用于保存識別完成的文本序列,并包含錄制時間、錄制場所、轉(zhuǎn)寫時間等信息。
3)搭建語音識別服務(wù)。語音識別服務(wù)是整個系統(tǒng)中最關(guān)鍵的技術(shù)環(huán)節(jié),建議采用商用語音識別基礎(chǔ)服務(wù)。目前比較成熟的語音識別廠商包括科大訊飛、百度等。以科大訊飛為例,其產(chǎn)品包括語音聽寫、語音轉(zhuǎn)寫等。除中文普通話和英文外,支持51個語種、24種方言和1個民族語言,實時返回結(jié)果,達到邊說邊返回的效果,可提供公有云接口及私有化部署方案。科大訊飛的語音聽寫自訓(xùn)練平臺支持用戶自行上傳語言文本數(shù)據(jù)集,對語音聽寫引擎模型進行深度定制。目前華為、字節(jié)跳動和美團等一線廠商都采用了科大訊飛的語音識別服務(wù)。
4)搭建教室、會議室使用記錄網(wǎng)站及數(shù)據(jù)庫,用于與筆記文本數(shù)據(jù)庫實現(xiàn)聯(lián)合查詢服務(wù)。這樣每份筆記都會關(guān)聯(lián)到若干個課程或者項目,用戶可以通過不同維度實現(xiàn)檢索。
5)搭建課堂筆記查詢服務(wù)網(wǎng)站,并設(shè)定登錄用戶的不同角色(教師、學(xué)生、管理員等)。不同角色具有網(wǎng)站的不同權(quán)限。學(xué)生僅可以查詢和評論課堂筆記,教師可以查詢、評論、修改,管理員可以給不同的登陸者配置不同的空間訪問權(quán)限。開發(fā)版本控制功能,當筆記被修改后可以追溯和回滾到歷史版本。開發(fā)分支管理功能,每個學(xué)生都可以基于主分支的某個時點快照創(chuàng)建個人分支,并在個人分支上修改筆記文本,各分支之間互不干擾。學(xué)生可以申請將個人分支的文本改動合并到主分支,教師審批通過則合并成功。
圖像識別是指利用計算機對圖像進行處理、分析和理解,以識別各種不同模式的目標和對象的技術(shù),是機器學(xué)習的一種應(yīng)用場景[6]。目前,圖像識別已被廣泛應(yīng)用于各領(lǐng)域,如高速公路的車牌識別、自動駕駛所用的交通標志識別、軍事領(lǐng)域的飛行物識別、地形勘察、消費電子領(lǐng)域的指紋識別、人臉識別等[7]。
圖像識別以圖像特征為基礎(chǔ),如輪廓特征等。圖像識別的第1步是要得到圖像的特征,這個步驟稱為特征提取。第2步通過分類算法將特征映射成圖像識別的對象結(jié)果。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)是一類已被證明在圖像識別領(lǐng)域非常有效的算法模型[8-9]。卷積神經(jīng)網(wǎng)絡(luò)包含2個主要步驟:特征提取與分類。
在CNN模型中,特征提取分為2個主要步驟:卷積和池化[10]。卷積操作是指計算機通過卷積核(也稱過濾器)對輸入圖像矩陣進行滑動窗口的卷積運算,得到輸出矩陣。卷積核通常為3×3或5×5的數(shù)字矩陣。輸出矩陣被稱為“特征圖”或“特征矩陣”。實際情況下會使用多個卷積核,卷積核數(shù)量越多,提取的特征矩陣就越多,在后續(xù)的分類步驟中更有效,但運算量也越大。卷積操作后,原圖像矩陣轉(zhuǎn)換成特征矩陣,盡管特征矩陣尺寸比原圖像矩陣小很多,但由于卷積核數(shù)目或訓(xùn)練集數(shù)目大,整體運算量還是過于龐大,需要通過池化操作降低后期運算量[11]。池化是將特征矩陣的尺寸減小,但保留特征的最重要信息。
特征提取后,根據(jù)圖像特征將圖像識別為目標物體,這個過程在數(shù)學(xué)中被稱為分類。分類是通過分類算法實現(xiàn)的,在CNN模型中較典型的分類算法是Softmax函數(shù)[12],此函數(shù)的輸出是每個類別的概率值,概率值最高且高出閾值的分類被視為識別結(jié)果輸出。
CNN模型僅是圖像識別的框架,未經(jīng)訓(xùn)練的CNN模型是無法對圖像作出判斷的。未訓(xùn)練模型中存在大量初始參數(shù),通過訓(xùn)練參數(shù)實現(xiàn)調(diào)優(yōu),模型才可以工作。
圖像識別領(lǐng)域的相關(guān)研究工作可分為基礎(chǔ)研究和應(yīng)用研究?;A(chǔ)研究開發(fā)者關(guān)心如何將圖像識別抽象成數(shù)學(xué)問題,并在數(shù)學(xué)模型的基礎(chǔ)上進行參數(shù)調(diào)優(yōu),以提高識別的精準度和效率。應(yīng)用研究開發(fā)者面向最終用戶開發(fā),關(guān)心如何通過對API合理編排,以滿足具體業(yè)務(wù)場景需求。
2.2.1 總體設(shè)計
在上課過程中,學(xué)生的出勤率(通過空座比例計算)、學(xué)生的面部表情(睜眼或閉眼)等,可以間接反映課堂教學(xué)質(zhì)量?!翱兆鵙S有人”、“睜眼VS閉眼”是典型的圖像識別二分類問題?!翱兆鵙S有人”可以通過通用圖像識別服務(wù)來獲取結(jié)果,“睜眼VS閉眼”可以通過人臉識別服務(wù)獲取結(jié)果。人臉識別屬于圖像識別子領(lǐng)域,除了檢測人臉外,還提供人臉關(guān)鍵點、五官狀態(tài)、年齡、性別、顏值評分、情緒識別等人臉屬性分析數(shù)據(jù)。圖像識別的結(jié)果并不能直接反映課程質(zhì)量,如空座比例要結(jié)合課程的實際報名人數(shù)來判斷出勤率;學(xué)生面部表情和身體姿態(tài)要結(jié)合課堂類型(普通講課、自由討論課、自習課、活動課等)來判斷聽課狀態(tài)。所以在核心圖像識別服務(wù)基礎(chǔ)上,還需要專家系統(tǒng)或者機器學(xué)習分類模型來輔助分析,實現(xiàn)評估課堂質(zhì)量的目的。圖4給出了圍繞圖像識別服務(wù)器與課堂教學(xué)質(zhì)量分析邏輯核心服務(wù)器搭建的課堂教學(xué)質(zhì)量動態(tài)評估系統(tǒng)的總體設(shè)計。
圖4 課堂教學(xué)質(zhì)量動態(tài)評估系統(tǒng)總體設(shè)計Fig.4 Class teaching quality dynamic assessment system design
1)在教室上課時間中,拍攝設(shè)備按固定頻率拍照獲得教室學(xué)生的整體圖像,并將圖像存入NAS服務(wù)器。
2)觸發(fā)圖像識別服務(wù),將教室空座比例、學(xué)生的眼睛狀態(tài)、頭部姿態(tài)、身體姿態(tài)等信息提取出來,存入識別結(jié)果數(shù)據(jù)庫。
3)在日終,課堂教學(xué)質(zhì)量分析服務(wù)器開始計算,得到每個課堂的教學(xué)質(zhì)量分數(shù)。通過查詢排課數(shù)據(jù)庫,服務(wù)器利用聚合算法,將課堂教學(xué)質(zhì)量評分通過課程維度、教師維度、班級維度匯總,并將結(jié)果輸出到評估結(jié)果數(shù)據(jù)庫。
4)高校行政人員通過訪問課堂質(zhì)量評估網(wǎng)站,查詢評估結(jié)果。
2.2.2 詳細設(shè)計與關(guān)鍵技術(shù)論證
1)在教室內(nèi)安裝高清拍攝設(shè)備,以獲得上課期間教室圖像。圖像的尺寸和分辨率取決于圖像識別服務(wù)器的技術(shù)要求。以曠視科技的人臉識別API為例,對圖像要求如下:整張教室圖像像素不能超過 4 096×4 096;人臉框近似為正方形,正方形邊長不得小于教室圖像短邊長度的1/48,同時像素不小于48。當場景為大階梯教室,學(xué)生人臉框邊長占比無法滿足要求時,可以采用分而治之的思路,架設(shè)多拍攝設(shè)備協(xié)同工作,然后歸集結(jié)果并去重。由于學(xué)生是非靜止狀態(tài),拍攝需要設(shè)置成動態(tài)模式,快門時間應(yīng)盡可能縮短以保證照片清晰度。實測當快門時間小于1/60 s時,拍攝的教室照片接近靜態(tài)照片,這對拍攝設(shè)備的光圈和感光度有一定要求。
2)搭建NAS服務(wù)器,用于存儲圖像文件。NAS服務(wù)器的容量取決于每張照片的大小、拍照頻率和存儲周期。
3)搭建圖像識別服務(wù)器,圖像識別服務(wù)是整個系統(tǒng)中最關(guān)鍵的技術(shù)環(huán)節(jié),建議采用商用圖像識別服務(wù)。目前比較成熟的圖像識別廠商包括依圖科技、商湯科技和曠視科技等,他們的圖像識別服務(wù)在東方證券等主流的金融類APP和上海交大附屬瑞金醫(yī)院相關(guān)診療設(shè)備上被采用。在本文中,課堂照片識別的技術(shù)難點在于單張圖像的多人臉識別。目前主流廠商已經(jīng)將多人臉識別商業(yè)化,并提供了開發(fā)者接口供二次開發(fā)。以曠視科技為例,目前免費版的API可以支持50張人臉,商業(yè)版API無限制,但是在實際使用中要考慮服務(wù)器性能與實際場景需要來合理評估。其人臉識別服務(wù)可支持的人臉特征有16個,其中與課堂質(zhì)量具有相關(guān)性的包括笑容檢測、情緒識別、眼睛狀態(tài)識別和頭部姿態(tài)檢測等。圖5給出了4人合影照片在曠視科技人臉識別API上的實際測試結(jié)果。實際在20 000張靜態(tài)人臉圖像的測試中,眼睛狀態(tài)識別正確的概率高達99.985%,在教室環(huán)境下的實際識別正確率會比靜態(tài)照片略低。
4)每節(jié)課將分類成場景,如正常講課、自由討論課、自習課、考試課、活動課等場景類型。這些類型將參與到后面的課堂質(zhì)量評估分類算法中。
5)為實現(xiàn)課堂教學(xué)質(zhì)量識別結(jié)果與課程掛鉤,每個教室的排課將電子化。教室排課與教師的映射關(guān)系,教室排課與科目的映射關(guān)系,都要在數(shù)據(jù)庫中落地,并提供查詢服務(wù)。如有教師串課,需要在排課網(wǎng)站更新數(shù)據(jù),將課堂質(zhì)量識別結(jié)果貢獻到正確的目標。
圖5 基于曠視科技API的多人臉識別測試Fig.5 Multi-face recognition demo based on Megvii API
6)搭建課堂教學(xué)質(zhì)量分析核心服務(wù)器,將圖像識別的結(jié)果結(jié)合課堂類型綜合判斷給出課堂教學(xué)質(zhì)量判斷。這里可以采用專家系統(tǒng)或機器學(xué)習分類模型來實現(xiàn),若采用機器學(xué)習,需要提前對模型進行訓(xùn)練。
1)針對高等教育內(nèi)學(xué)生職業(yè)發(fā)展預(yù)測、學(xué)生課程規(guī)劃、學(xué)生狀態(tài)監(jiān)控這3個場景,本文提出了基于用戶畫像的專家系統(tǒng)解決方案,預(yù)期可以為學(xué)生提供更精準、更及時的教育支持。
2)針對網(wǎng)課營銷場景,本文提出了基于視頻埋點和彈幕的專家系統(tǒng)解決方案,預(yù)期可以降低營銷的人工成本并解決人工參與的主觀性痛點。
3)針對課堂筆記記錄、教學(xué)質(zhì)量動態(tài)評估2個場景,本文提出了基于語音識別與圖像識別的解決方案,預(yù)期可為學(xué)生、教師節(jié)約大量時間成本,減少高校行政事務(wù)支出。
目前受制于給定場景下數(shù)據(jù)采集的局限性,專家系統(tǒng)綜合數(shù)據(jù)庫的數(shù)據(jù)收集或者機器學(xué)習的訓(xùn)練過程不夠完善,進而造成人工智能在一定程度上失準。但隨著數(shù)字化基礎(chǔ)設(shè)施的持續(xù)建設(shè),預(yù)期數(shù)據(jù)采集的渠道會更豐富,多維的數(shù)據(jù)將能更清晰地反映主體特征,人工智能將能提供更高質(zhì)量的服務(wù)。隨著教育大數(shù)據(jù)的積累,智能化新教育模式下高階需求的不斷產(chǎn)生,這些數(shù)據(jù)與需求結(jié)合將會衍生更多的場景,人工智能將在此獲得更多的表現(xiàn)機會。