項(xiàng)目背景:為幫助高校講述最新業(yè)界技術(shù)等,依靠高?,F(xiàn)有師資力量難以在短期內(nèi)開設(shè)的課程,微軟亞洲研究院的員工組成教學(xué)團(tuán)隊(duì),直接參與授課。微軟員工義務(wù)授課的課程,由雙方聯(lián)合制定教學(xué)計(jì)劃,微軟公司員工負(fù)責(zé)完成課件制作和講授,而學(xué)校相關(guān)教師作為教學(xué)協(xié)調(diào)人,全程跟蹤課程,參與課程設(shè)計(jì)和實(shí)驗(yàn)指導(dǎo)。
緣起
中國(guó)人民大學(xué)的計(jì)算機(jī)專業(yè)由于身處強(qiáng)勢(shì)的人文社科環(huán)境中,一直走的是小規(guī)模、有特色的發(fā)展道路。教員較少,而且主要力量集中在數(shù)據(jù)管理方向上。但是,在這樣的格局下,如何拓展學(xué)生的知識(shí)面,使得他們?cè)谥袊?guó)人民大學(xué)也能夠接受到一流的教育一直是我們面臨的問題。引進(jìn)外援,就成為必然的選擇。早在上個(gè)世紀(jì)八十年代,楊芙清院士、王陽(yáng)元院士等就給我院研究生上過(guò)課 。我在人大念書時(shí)的高級(jí)操作系統(tǒng)課程是由中國(guó)科學(xué)院的張尤臘、陸維明等大家上的,至今印象深刻。因此,邀請(qǐng)專家來(lái)學(xué)院開設(shè)課程在我們學(xué)院是有傳統(tǒng)的。
我們與微軟亞洲研究院馬維英副院長(zhǎng)、文繼榮主任研究員帶隊(duì)的互聯(lián)網(wǎng)搜索與挖掘組有過(guò)多次接觸。2006年底在FDM2006研討會(huì)上,馬維英、文繼榮、聶再清三位研究員作了三場(chǎng)學(xué)術(shù)報(bào)告,他們的工作代表了未來(lái)搜索技術(shù)的發(fā)展方向,也實(shí)實(shí)在在地讓我們看到了數(shù)據(jù)庫(kù)技術(shù)在其中的作用。為了加強(qiáng)與微軟亞洲研究院的合作,我們報(bào)經(jīng)學(xué)校同意,聘請(qǐng)文繼榮博士為中國(guó)人民大學(xué)兼職教授。2007年9月27日,我們和微軟亞洲研究院聯(lián)合舉辦了一次“互聯(lián)網(wǎng)數(shù)據(jù)管理主題學(xué)術(shù)報(bào)告”的活動(dòng),由文繼榮、劉鐵巖、聶再清三位博士作主題演講,同學(xué)們反映熱烈。就是在這次會(huì)上,文繼榮介紹了他們?cè)谇迦A大學(xué)等高校給學(xué)生們開設(shè)搜索技術(shù)課程的情況,于是我們萌生了將這門課程完整介紹到人大的想法。當(dāng)我將這個(gè)想法和繼榮商量,他也正有此意,于是我們一拍即合。
策劃
盡管將搜索課程引進(jìn)人大的意向已經(jīng)確定了,但是還有一些需要解決的事情。
首先是經(jīng)費(fèi),給授課人報(bào)酬是很正常的事情。我擔(dān)心按照人大官方的標(biāo)準(zhǔn)是否能承受得了有關(guān)費(fèi)用,當(dāng)我有些不安地詢問繼榮有關(guān)費(fèi)用的時(shí)候,他明確地告訴我,他們給大學(xué)上課并不收費(fèi)。不僅不收取任何費(fèi)用,去外地上課的飛機(jī)票還是他們自己掏的。聽到這樣的消息,我感到很吃驚。我想這也許就是微軟之所以強(qiáng)大的文化力量,也是他們盡管在市場(chǎng)上不斷受到挑戰(zhàn),但是始終得到人們尊敬的重要原因吧。
其次是課程設(shè)計(jì)。微軟的課程已經(jīng)在其他學(xué)校和各種場(chǎng)合實(shí)施過(guò)多次,自成體系。雖然整個(gè)課程是以講座的形式出現(xiàn),每個(gè)人有不同的授課內(nèi)容,但總的來(lái)說(shuō),還是比較系統(tǒng)和全面地涵蓋了IR(Information Retrieval)技術(shù)的各個(gè)重點(diǎn)和基本內(nèi)容。由于授課對(duì)象主要是碩士一年級(jí)的學(xué)生,對(duì)于信息檢索技術(shù)的一些基礎(chǔ)知識(shí)并不一定了解,作為一門課程,既要讓同學(xué)們了解最新的進(jìn)展,更重要的是要讓同學(xué)們掌握基礎(chǔ)概念和理論體系。另外,講座之間內(nèi)容的交叉和重復(fù)也是要極力避免的。所以我希望能夠合作開設(shè),由我根據(jù)人大的具體情況進(jìn)行內(nèi)容的選擇。對(duì)此,微軟表現(xiàn)出極大的誠(chéng)意,也很認(rèn)同。在高校關(guān)系部陳雯的協(xié)調(diào)下,作為課程設(shè)計(jì)所需要的材料,微軟方面都及時(shí)地提供給了我。最后確定了課程的教學(xué)方案,課程以我和文繼榮共同主持的方式確定下來(lái),相關(guān)課程信息得以及時(shí)在學(xué)校研究生院的網(wǎng)站上發(fā)布(見表1)。
第三是教學(xué)目的??紤]到這是一門兩個(gè)學(xué)分的選修課,經(jīng)過(guò)與繼榮的多次討論確定這門課的教學(xué)目標(biāo)是:掌握信息檢索的基礎(chǔ)知識(shí),通過(guò)對(duì)信息搜索技術(shù)的前瞻性課題的介紹,使學(xué)生能對(duì)信息搜索技術(shù)和應(yīng)用有一個(gè)初步的了解,激發(fā)學(xué)生進(jìn)一步探索的興趣。正如我在開班儀式上所說(shuō)的,希望通過(guò)這種合作開設(shè)課程的形式為信息學(xué)院的學(xué)生帶來(lái)國(guó)際領(lǐng)先的研究成果和研究理念,感受學(xué)者追求真理樂在其中的精神境界。
最后是教學(xué)過(guò)程。教學(xué)不僅僅是講課,除了課堂講解還有其他的教學(xué)環(huán)節(jié),還要求有固定的時(shí)間和場(chǎng)地。比如作業(yè)、練習(xí)、考試、課程報(bào)告等。考慮到這門課程的特殊性,最后確定要求同學(xué)們按照論文的方式完成課程報(bào)告,微軟的研究員們主動(dòng)提出來(lái)承擔(dān)批改部分課程報(bào)告的任務(wù)。
這樣,作為一門課程的基本要求就具備了,等新年一過(guò)就可以鳴鑼開課了。
實(shí)施
2008年2月15日,元宵節(jié)的晚上,由馬維英博士主講第一講“互聯(lián)網(wǎng)信息搜索:歷史與未來(lái)”。馬博士比規(guī)定的上課時(shí)間晚到了半小時(shí),原因是司機(jī)想當(dāng)然地以為馬博士是要去北大,等到了北大才發(fā)現(xiàn)錯(cuò)了,于是再掉頭往回趕。也許是這個(gè)原因,馬博士覺得對(duì)不起同學(xué)們,當(dāng)天的演講他特別賣勁,慷慨激昂。窗外連綿不斷的鞭炮聲,就像是掌聲,在為馬博士熱情的演講鼓掌,也像是慶祝的禮炮,預(yù)祝我們與微軟的合作成功。這樣的結(jié)果也讓我從開始有些郁悶的心情中高興起來(lái)。
后面的三講由我來(lái)講解。主要是分兩類模型來(lái)介紹。一是基于文本內(nèi)容的模型,包括經(jīng)典的布爾模型,向量空間模型和概率模型等,也包括統(tǒng)計(jì)語(yǔ)言模型,語(yǔ)義網(wǎng)絡(luò)模型等。另一類稱為與內(nèi)容無(wú)關(guān)的模型,包括協(xié)同推薦模型、Page Ranking模型、Link Analysis模型等。
第五講,宋睿華博士介紹一種在信息檢索中被廣泛應(yīng)用的評(píng)價(jià)方法Cranfield范式,以及其他一些常用的評(píng)價(jià)方法,如MAP和NDCGweb等。她還介紹了檢索所面對(duì)的新挑戰(zhàn),通過(guò)SIGIR'07的一篇論文展示了如何在信息檢索評(píng)價(jià)領(lǐng)域開展研究。
第六講,李航博士介紹了互聯(lián)網(wǎng)信息檢索基礎(chǔ)和主要課題,包括相關(guān)性排序、重要性排序、網(wǎng)頁(yè)理解、查詢理解、抓取、索引、反垃圾、搜索結(jié)果展現(xiàn)以及搜索日志數(shù)據(jù)挖掘等。
第七講,張磊博士介紹互聯(lián)網(wǎng)圖像搜索。在回顧了圖像搜索的歷史后,介紹了傳統(tǒng)的基于內(nèi)容的圖像檢索的一些基本技術(shù),包括特征抽取,相關(guān)回饋以及圖像標(biāo)注,討論了Web圖像檢索的主要挑戰(zhàn),包括如何改善搜索結(jié)果相關(guān)度、質(zhì)量以及結(jié)果的組織形式,同時(shí)介紹了微軟亞洲研究院在該領(lǐng)域的幾項(xiàng)相關(guān)工作。
第八講,劉鐵巖博士主講鏈接分析技術(shù)和網(wǎng)頁(yè)排名欺詐,主要討論超鏈如何影響搜索引擎中的網(wǎng)頁(yè)排名。介紹了鏈接分析的一些最新的工作如Topical Page Rank,基于層次的鏈接分析,同時(shí)介紹了Web垃圾制造者是如何欺詐這些算法以提升他們網(wǎng)站的排名,典型的欺詐技術(shù)包括鏈接交換,鏈接場(chǎng)等。最后對(duì)檢測(cè)和清除鏈接垃圾的算法,如Trust Rank和Temporal Spam Detector進(jìn)行了講解和評(píng)述。
第九講,劉鐵巖博士提出了將排序作為機(jī)器學(xué)習(xí)問題的新思路。在評(píng)價(jià)了信息檢索中的一些傳統(tǒng)模型(如布爾模型、Okapi模型以及語(yǔ)言模型等)后,介紹了應(yīng)用機(jī)器學(xué)習(xí)技術(shù)來(lái)訓(xùn)練模型以及將排序轉(zhuǎn)換為分類和回歸而提出的方法,如Ranking SVM,RankBoost和 RankNet。介紹了近年來(lái)基于對(duì)排序和信息檢索問題的深入理解而提出的一些新算法,如ListNet,AdaRank,SoftRank, SVM-MAP等,并討論了該領(lǐng)域的未來(lái)研究方向。
第十講,由史樹明博士介紹信息檢索領(lǐng)域近年出現(xiàn)的一些特殊的模型,包括邏輯模型、基于引力的模型等。
第十一講,聶再清博士介紹對(duì)象級(jí)別的互聯(lián)網(wǎng)搜索。他首先介紹了對(duì)象級(jí)別搜索引擎所要解決的問題,包括大規(guī)模的Web分類,對(duì)象級(jí)別信息抽取,對(duì)象識(shí)別與集成,以及對(duì)象關(guān)聯(lián)挖掘與排序。然后演示了三個(gè)已經(jīng)實(shí)現(xiàn)并實(shí)際運(yùn)行的系統(tǒng)實(shí)例:Libra 學(xué)術(shù)搜索、Windows Live產(chǎn)品搜索, 以及Renlifang社會(huì)關(guān)系搜索,并概要介紹了這些系統(tǒng)中所用到的一些核心技術(shù)。
第十二講,文繼榮博士主講搜索引擎綜述:系統(tǒng)、算法和挑戰(zhàn)。概述了當(dāng)前的Web搜索引擎技術(shù),包括搜索引擎的架構(gòu),主要的組件和算法,對(duì)搜索引擎的一些錯(cuò)誤認(rèn)識(shí)進(jìn)行了分析并討論了未來(lái)主要的研究挑戰(zhàn)。
第十三講,謝幸博士帶給我們的是關(guān)于移動(dòng)搜索與基于位置的搜索。他介紹了移動(dòng)搜索領(lǐng)域的研究近況,其中包括微軟亞洲研究院研發(fā)的一些用來(lái)改善移動(dòng)搜索和瀏覽體驗(yàn)的新技術(shù)。
第十四講,李航博士再次來(lái)到人大,介紹信息抽取技術(shù)。首先介紹了信息抽取的一些方法,包括隱馬爾科夫模型、最大熵模型,以及條件隨機(jī)場(chǎng);然后給出了一個(gè)實(shí)例說(shuō)明了如何在Web搜索中應(yīng)用信息抽取技術(shù)。
細(xì)心的讀者也許已經(jīng)發(fā)現(xiàn)了實(shí)施的內(nèi)容和計(jì)劃有一些出入。微軟研究院的研究員們畢竟是在工作之余在大學(xué)授課,難免受到一些工作臨時(shí)安排的影響,所以,不可避免會(huì)有些變動(dòng),好在我們?cè)谡n程設(shè)計(jì)的時(shí)候就有所準(zhǔn)備,并不影響整體的教學(xué)效果。由于上課時(shí)間的關(guān)系,研究員們每次都是提前半小時(shí)到達(dá)教室,空著肚子來(lái)上課的。教師需要的正是對(duì)學(xué)生的這份感情。
反饋
同學(xué)們對(duì)這門課的評(píng)價(jià)如何呢,我們來(lái)聽聽同學(xué)們的聲音。
一位四年級(jí)的同學(xué)這樣寫道:“作為一個(gè)大四本科生,我全程旁聽了‘智能信息檢索’這門課程。這個(gè)課程好就好在不同知識(shí)層次的人都能從課程中學(xué)到知識(shí),無(wú)論你是博士、碩士,還是本科生。這門課有對(duì)基礎(chǔ)問題的超強(qiáng)歸納與總結(jié),也有對(duì)熱點(diǎn)問題的全新解讀與展望,內(nèi)容深入淺出,論述詳實(shí)透徹。授課風(fēng)格或風(fēng)趣幽默,或樸實(shí)深刻,每一堂都令人流連忘返,不舍歸去?!悄苄畔z索’課程中還能聽到極其新奇的理論,類似萬(wàn)有引力的信息檢索模型令在座的每一個(gè)人咋舌,原來(lái)信息檢索還可以這么玩……”
一位碩士生則在他的課程報(bào)告中總結(jié)到:“這個(gè)課程最大的收獲,是開拓了我的視野,讓我對(duì)很多搜索方面的課題看得更加清晰。這門課程也許會(huì)為我未來(lái)的職業(yè)發(fā)展帶來(lái)無(wú)窮的益處。”
一位同學(xué)這樣評(píng)價(jià):“微軟的研究員們個(gè)個(gè)身懷絕技,上課風(fēng)格各異。令人印象最深刻的是他們樂觀向上的科研態(tài)度,真正讓人體會(huì)到了知識(shí)探索是一件多么令人愉快的事情。從第一次馬維英院長(zhǎng)的精彩演講,到文繼榮博士、劉鐵巖博士的深邃嚴(yán)謹(jǐn),還有宋睿華研究員的敬業(yè),李航博士的幽默等都給我們留下了難忘的回憶。”如果這門課能讓研究生們深信對(duì)知識(shí)的探索是一件令人愉快的事情,我想,這比知識(shí)傳遞本身要有價(jià)值的多。
結(jié)語(yǔ)
一個(gè)學(xué)期的課程結(jié)束了,但是我們與微軟的合作才剛剛開始。中國(guó)人民大學(xué)在剛剛結(jié)束的院長(zhǎng)工作會(huì)議上,提出了“全面提升國(guó)際性”的行動(dòng)計(jì)劃,在制度和政策上將會(huì)進(jìn)一步創(chuàng)造有利于國(guó)際交流的環(huán)境,這是“天時(shí)”。微軟亞洲研究院位于知春路上,地理位置與人大校園是近鄰,這是“地利”。一個(gè)學(xué)期的課程合作使我們之間建立了相互信任,特別是文繼榮博士就是我院優(yōu)秀的畢業(yè)生,對(duì)母校深懷感情,這是“人和”。有這“天時(shí)、地利、人和”,我深信我們與微軟亞洲研究院的合作將會(huì)走向一個(gè)新的高度。
2008年7月,受微軟亞洲研究院的邀請(qǐng),我有幸參加了MSR 2008 Faculty Summit,會(huì)議安排了豐富的學(xué)術(shù)活動(dòng),來(lái)自全球近百所大學(xué)的400多位教授參加了這一盛會(huì),讓我進(jìn)一步了解了微軟在計(jì)算機(jī)基礎(chǔ)研究以及教育方面的巨大貢獻(xiàn)和熱心投入。我想這不是作秀,而是與微軟研究院的使命緊密相連的。
致謝
感謝微軟亞洲研究院的研究員們:馬維英、文繼榮、劉鐵巖、李航、聶再清、宋睿華、張磊、謝幸、史樹明等。感謝高校關(guān)系合作部的陳雯小姐,從她身上你知道了什么是熱情、周到。每次上課她都要陪講師提前半小時(shí)到教室,深怕遲到耽誤了上課。教師需要的正是對(duì)學(xué)生的這份感情。感謝重點(diǎn)實(shí)驗(yàn)室的易謙,他完成了全部課程的錄像工作。感謝我的博士生劉廣強(qiáng),他負(fù)責(zé)將全部的課件放在網(wǎng)站http://iir.ruc.edu.cn/courses/iir.html. 感謝參與本課程學(xué)習(xí)同學(xué)的認(rèn)真反饋。