王凱++孫濟(jì)慶++李楠
〔摘要〕學(xué)術(shù)文獻(xiàn)中包含的大量有價(jià)值的知識(shí)往往無法在摘要中體現(xiàn)出來。本文提出一種基于位置加權(quán)的核心知識(shí)挖掘方法,旨在以句為知識(shí)處理粒度,抽取正文中的核心句子作為獨(dú)立的知識(shí)單元。該方法通過量化句子間的關(guān)聯(lián),將正文表示成一個(gè)以句子為節(jié)點(diǎn),句子間關(guān)聯(lián)為邊的文本關(guān)系網(wǎng)絡(luò),提出基于章節(jié)的位置加權(quán)算法,結(jié)合社會(huì)網(wǎng)絡(luò)分析方法,挖掘出文本中核心知識(shí)單元部分的句子。實(shí)驗(yàn)結(jié)果表明,該方法可以實(shí)現(xiàn)對(duì)文章核心章節(jié)中重要句子的抽取,達(dá)到初步預(yù)期效果。
〔關(guān)鍵詞〕學(xué)術(shù)文獻(xiàn);知識(shí)挖掘;方法;位置加權(quán);知識(shí)抽取;文本網(wǎng)絡(luò);社會(huì)網(wǎng)絡(luò)分析
DOI:10.3969/j.issn.1008-0821.2017.05.009
〔中圖分類號(hào)〕G203〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2017)05-0047-05
Research on Method of Knowledge Minning in Academic DocumentsWang KaiSun JiqingLi Nan
(Institute of Science and Technology Information,East China University of
Science and Technology,Shanghai 200237,China)
〔Abstract〕There is abundant valuable knowledge inside academic documents that is not revealed in abstracts.This paper promoted a method of core knowledge discovery based on position weights,aiming to extract the core sentences as separated knowledge units in the main text with the processing size of sentence.By measuring the connection between sentences,the paper transformed main text into a text network that considers sentences as dots and connection between sentences as sides.An algorithm to compute position weights based on chapters was promoted in this paper.With the help of social network analysis,the paper could find sentences that revealed the core knowledge of the text.The result of the experiment showed that this method could realize the extraction of key sentences in the core chapter from the text,which is primarily expected.
〔Key words〕academic documents;knowledge minning;method;position weight;knowledge extraction;text network;social network analysis
互聯(lián)網(wǎng)技術(shù)的發(fā)展使得信息,尤其是文本信息呈爆炸式的發(fā)展,在海量的文本信息面前,人們希望可以從中抽取出最關(guān)鍵最有價(jià)值的信息,并轉(zhuǎn)化成知識(shí)進(jìn)行存儲(chǔ)應(yīng)用。學(xué)術(shù)文獻(xiàn)中包含大量有學(xué)術(shù)價(jià)值的知識(shí),特別是期刊論文,凝聚著科學(xué)家的研究成果與智慧,論文中知識(shí)點(diǎn)非常豐富,而且比較新穎,實(shí)現(xiàn)自動(dòng)對(duì)學(xué)術(shù)文獻(xiàn)中的關(guān)鍵知識(shí)進(jìn)行提取并利用是一個(gè)研究趨向。學(xué)術(shù)文獻(xiàn)與其他類型的文獻(xiàn),如新聞、博客、網(wǎng)頁等文獻(xiàn)不同,學(xué)術(shù)文獻(xiàn)具有獨(dú)特的結(jié)構(gòu)化特性,其基本形式為標(biāo)題、摘要、關(guān)鍵詞、正文、參考文獻(xiàn)組成;而正文又通常包括引言、相關(guān)研究、方法、實(shí)驗(yàn)、結(jié)論幾大部分。早期的研究主要是針對(duì)學(xué)術(shù)文獻(xiàn)的題錄信息來研究學(xué)術(shù)文獻(xiàn)中所包含的主題內(nèi)容,利用標(biāo)題、關(guān)鍵詞、參考文獻(xiàn)以及摘要作為研究對(duì)象。摘要和關(guān)鍵詞雖然可以對(duì)文獻(xiàn)的內(nèi)容進(jìn)行高度概括和總結(jié),但是卻往往沒有體現(xiàn)文獻(xiàn)中的核心知識(shí),這些核心知識(shí)往往包含在正文之中。為更好地挖掘文獻(xiàn)中內(nèi)涵的知識(shí),本文提出一種位置加權(quán)的方法,以句子為粒度,將學(xué)術(shù)文獻(xiàn)正文表達(dá)成一個(gè)句子為節(jié)點(diǎn)的文本網(wǎng)絡(luò),通過句間關(guān)系來抽取出學(xué)術(shù)文獻(xiàn)中的核心知識(shí)。
1相關(guān)研究
知識(shí)抽?。↘nowledge Extraction)是對(duì)蘊(yùn)含于文獻(xiàn)中的知識(shí)經(jīng)識(shí)別、理解、篩選、格式化,從而把文獻(xiàn)中的各個(gè)知識(shí)點(diǎn)抽取出來,是信息抽取的升華和深化[1]。溫有奎,朱曉蕓,文孝庭等人在國(guó)內(nèi)較早提出了知識(shí)元的概念,表示知識(shí)單元是文章中可以表達(dá)知識(shí)且可以獨(dú)立使用的最小單位,并對(duì)其的抽取規(guī)則進(jìn)行了描述[2-5]。知識(shí)抽取的方法可以分為3大類:基于模式匹配的抽取方法、基于本體的抽取方法以及基于語義的抽取方法。
1)基于模式匹配的抽取方法主要用于實(shí)體和屬性的抽取,適用于有一定規(guī)則可循的抽取對(duì)象。Chunxia Zhang和Peng Jiang研究了如何對(duì)漢語語料進(jìn)行定義抽取。他們通過設(shè)定句子模式,然后利用模式的匹配進(jìn)行抽??;溫有奎等利用學(xué)術(shù)文獻(xiàn)中創(chuàng)新點(diǎn)表述的句子結(jié)構(gòu)特點(diǎn)對(duì)創(chuàng)新點(diǎn)進(jìn)行抽取[6-7]。這種方法要求所抽取的知識(shí)表述具有一定的規(guī)則和模式,對(duì)于那些大量無規(guī)則的非結(jié)構(gòu)化文本無法很好地完成抽取工作。
2)基于本體的抽取方法是通過建立本體描述概念與概念之間的關(guān)系,再基于建立好的本體在文檔中抽取相匹配的知識(shí)內(nèi)容。車海燕等提出基于本體主題的屬性識(shí)別方法和基于本體屬性約束的三元組元素識(shí)別方法,抽取出非結(jié)構(gòu)化文本中隱含的知識(shí)元素,并找出元素間的屬性關(guān)系[8]。本體是一個(gè)理想的可以表達(dá)領(lǐng)域內(nèi)所有語義及語義關(guān)系的一種語料庫,基于本體的抽取方法的效果好壞完全取決于本體建立的完善程度?;谡Z義的抽取方法是結(jié)合自然語言處理技術(shù)(Nature Language Processing,NLP)、語義Web、文本挖掘、機(jī)器學(xué)習(xí)、句法分析以及圖論等理論與技術(shù),深入到組成文檔的詞句和語法結(jié)構(gòu)來理解文本所包含的語義。Dingding Wang等人指出常用的給句子打分的方法只把句子當(dāng)作獨(dú)立的對(duì)象研究而忽略了上下文中隱含的主題,而且打分的方法缺少清晰嚴(yán)格的概率解釋,并提出一種使用貝葉斯算法的基于句子的主題模型進(jìn)行多文檔的自動(dòng)摘要研究[13]。Rada Mihalcea結(jié)合基于圖論的網(wǎng)頁信息組織的3種常用算法:HITS、Positional Power Function和谷歌的PageRank算法,提出了以句子為節(jié)點(diǎn)、句子之間的關(guān)聯(lián)為邊的文本關(guān)系圖方法,不僅考慮到句子內(nèi)容的特征還考慮了句子之間的相互影響[14]。Dingding Wang等人提出了一種自動(dòng)文檔摘要方法,以詞共現(xiàn)計(jì)算句子間的相似度,構(gòu)建相似矩陣,再基于對(duì)稱矩陣因式分解法對(duì)文本的句子進(jìn)行聚類并從每類中抽取出目標(biāo)句子組成摘要[15]。
3)基于語義的抽取方法研究著重關(guān)注文本的語義,試圖讓計(jì)算機(jī)能夠像人類一樣理解文本,但是目前尚且沒有一個(gè)可行且效果理想的抽取方法,但是對(duì)于文獻(xiàn)中基于句子粒度的抽取方法從只考慮句子本身,慢慢發(fā)展到從文獻(xiàn)整體研究句子與句子之間的聯(lián)系來考量句子的重要程度。本文所采用的研究方法正是將正文看作是由句子構(gòu)成的一個(gè)復(fù)雜文本網(wǎng)絡(luò),通過句子之間的聯(lián)系去尋找文獻(xiàn)中的核心模塊。
2核心知識(shí)抽取方法
每一篇學(xué)術(shù)文獻(xiàn)都有其核心的知識(shí)點(diǎn),是其文章的學(xué)術(shù)價(jià)值所在,而這些核心知識(shí)往往沒有在摘要中全面體現(xiàn)出來,僅從摘要無法反映文獻(xiàn)的內(nèi)含的所有知識(shí)。為能充分挖掘文獻(xiàn)中包含的各知識(shí)點(diǎn),本文提出了一種以句子為粒度的基于章節(jié)位置加權(quán)的核心知識(shí)抽取方法,抽取出學(xué)術(shù)文獻(xiàn)中能反映文章核心知識(shí)的核心句子。
21基礎(chǔ)知識(shí)抽取
211構(gòu)建復(fù)雜句子網(wǎng)絡(luò)
以文獻(xiàn)中的句子為粒度是本方法研究的核心。構(gòu)建復(fù)雜句子網(wǎng)絡(luò)是以句子為網(wǎng)絡(luò)中的節(jié)點(diǎn),以句子之間的關(guān)聯(lián)度為節(jié)點(diǎn)間的邊,連接構(gòu)成一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)。因此,計(jì)算句子之間的關(guān)聯(lián)度是構(gòu)建復(fù)雜句子網(wǎng)絡(luò)的關(guān)鍵,句子關(guān)聯(lián)度的計(jì)算效果如何直接決定了構(gòu)成的句子網(wǎng)絡(luò)所能反映的文本內(nèi)容的質(zhì)量。
句子是學(xué)術(shù)文本中表達(dá)一個(gè)完整語義內(nèi)容的最小單位,而句子從形式上是由詞和語法結(jié)構(gòu)組成。通過句子與句子之間復(fù)雜的關(guān)聯(lián)關(guān)系可以反映出整個(gè)文本網(wǎng)絡(luò)的關(guān)聯(lián)情況,并且找出網(wǎng)絡(luò)中核心的區(qū)塊。本文采用在統(tǒng)計(jì)自然語言處理中被廣泛接受和采用的方法,以詞耦合數(shù)來計(jì)算兩個(gè)句子之間的簡(jiǎn)單關(guān)聯(lián)度。這種方法中,在對(duì)句子Si進(jìn)行分詞、過濾停用詞等操作之后,每個(gè)句子Si被處理成由若干實(shí)義詞組成的詞集Si(W1,W2,…,Wn),若兩個(gè)句子Sj和Sk的詞集中都出現(xiàn)了相同的詞W,那么這兩個(gè)句子之間就出現(xiàn)了一個(gè)詞耦合對(duì),只要兩個(gè)句子之間出現(xiàn)了至少一個(gè)詞耦合對(duì),就在Sj和Sk兩個(gè)句子節(jié)點(diǎn)之間形成一條邊。將文章中的句子兩兩進(jìn)行如此處理計(jì)算,最終可以形成一個(gè)以句子為節(jié)點(diǎn)、句子相似度為邊的句子網(wǎng)絡(luò)。但是,這樣方法形成的句子網(wǎng)絡(luò)中每條邊的價(jià)值都是相等,句子之間要么相似要么不相似,而在實(shí)際應(yīng)用中,文本中句子間的相似度是有很大差異的。因此,在計(jì)算句子間相似度的時(shí)候,使用兩個(gè)句子之間出現(xiàn)的詞耦合對(duì)的次數(shù)作為句子間的相似度,若句子Sj和Sk之間有n個(gè)詞耦合對(duì),則Sj和Sk之間的相似度為n,由此形成的句子網(wǎng)絡(luò)是帶有權(quán)重的復(fù)雜句子網(wǎng)絡(luò)[18]。
句子之間的關(guān)聯(lián)度除了用詞關(guān)系進(jìn)行描述,句子的語法結(jié)構(gòu)也起著很大的作用。在學(xué)術(shù)文本中,兩個(gè)句子之間的語義關(guān)聯(lián)絕不僅僅由詞來表現(xiàn),句子內(nèi)部以及句子之間還有語法結(jié)構(gòu)來表現(xiàn)句子的語義。如“雖然…但是…”、“如果…就…”等復(fù)句結(jié)構(gòu),同樣的詞出現(xiàn)在從句和主句從能反映句子內(nèi)容的程度并不一樣。而句子之間往往會(huì)有類似“基于該理論,…”、“因此……”、“…該方法…”等代詞和連詞來表現(xiàn)句子之間緊密的聯(lián)系,而這樣的關(guān)聯(lián)通過詞耦合對(duì)的方法是很容易被削弱或忽略。
212社會(huì)網(wǎng)絡(luò)分析
通過上述方法構(gòu)成的復(fù)雜句子網(wǎng)絡(luò)類似于一個(gè)社會(huì)網(wǎng)絡(luò),可以使用社會(huì)網(wǎng)絡(luò)分析中對(duì)節(jié)點(diǎn)重要性的評(píng)價(jià)方法來尋找句子網(wǎng)絡(luò)中的核心句子。常用的社會(huì)網(wǎng)絡(luò)分析方法被稱為度分析方法,以計(jì)算節(jié)點(diǎn)的中心度來評(píng)價(jià)節(jié)點(diǎn)的重要性,常用的中心度計(jì)算方法有點(diǎn)度中心度、中介中心度和接近中心度[20]。點(diǎn)度中心度用網(wǎng)絡(luò)中與某節(jié)點(diǎn)有聯(lián)系的節(jié)點(diǎn)的數(shù)量來衡量該節(jié)點(diǎn)在網(wǎng)絡(luò)中的中心地位,如果一個(gè)節(jié)點(diǎn)與其他節(jié)點(diǎn)之間有直接的聯(lián)系,則該節(jié)點(diǎn)就居于中心位置,有較大的“權(quán)力”;中介中心度通過某節(jié)點(diǎn)出現(xiàn)在其他兩點(diǎn)之間的路徑上的數(shù)目來衡量該節(jié)點(diǎn)的控制能力,如果一個(gè)節(jié)點(diǎn)出現(xiàn)在其他兩個(gè)節(jié)點(diǎn)的路徑上,則認(rèn)為該節(jié)點(diǎn)處在網(wǎng)絡(luò)中的重要地位;接近中心度通過某節(jié)點(diǎn)與其他節(jié)點(diǎn)的最短路徑來反映該節(jié)點(diǎn)不受控制的能力[21-23]。
學(xué)術(shù)文本中的核心句子是文章的敘述核心知識(shí),應(yīng)該處在網(wǎng)絡(luò)關(guān)聯(lián)的中心,其他句子通過核心句子相互產(chǎn)生關(guān)聯(lián)。因此,本文使用中介中心度來尋找學(xué)術(shù)正文中的核心句子。
22位置加權(quán)
學(xué)術(shù)文獻(xiàn)是結(jié)構(gòu)性比較強(qiáng)的文獻(xiàn)類型,作者在撰寫的時(shí)候通常會(huì)按照章節(jié)把文章的內(nèi)容分為幾個(gè)部分。常見的學(xué)術(shù)文獻(xiàn)的結(jié)構(gòu)有引言、相關(guān)研究、方法、實(shí)驗(yàn)以及結(jié)論,但是不同學(xué)科不同類型的學(xué)術(shù)文獻(xiàn)所包含的結(jié)構(gòu)并不相同,理論性研究或綜述一般沒有方法和實(shí)驗(yàn)部分。
本文基于復(fù)雜句子網(wǎng)絡(luò)提出了一種基于章節(jié)網(wǎng)絡(luò)位置加權(quán)方法。學(xué)術(shù)文獻(xiàn)正文按照一級(jí)章節(jié)劃分為N個(gè)部分,在構(gòu)建正文的復(fù)雜句子網(wǎng)絡(luò)時(shí),對(duì)每個(gè)句子進(jìn)行章節(jié)區(qū)分,比如第一部分的第10個(gè)句子序號(hào)為1010。最終在形成復(fù)雜句子網(wǎng)絡(luò)的同時(shí),也形成了以章節(jié)為節(jié)點(diǎn)的網(wǎng)絡(luò),章節(jié)之間也以詞耦合對(duì)的形式聯(lián)系著,章節(jié)之間聯(lián)系的程度由詞耦合對(duì)的數(shù)目決定。但是由于章節(jié)有長(zhǎng)度的區(qū)別,篇幅越大,出現(xiàn)重復(fù)詞耦合對(duì)的可能性越大,為了消除篇幅的影響,去掉章節(jié)之間的重復(fù)詞耦合對(duì)。由于章節(jié)的網(wǎng)絡(luò)只有4~5個(gè)節(jié)點(diǎn),且各個(gè)章節(jié)之間都會(huì)有不同程度的聯(lián)系,因此不適用社會(huì)網(wǎng)絡(luò)分析方法計(jì)算中心度,本文提出一種計(jì)算章節(jié)重要性的方法來確定正文第i章節(jié)的權(quán)重wi:
wi=∑j=iNiN-1·Lij∑i,jLij(1)
其中,wi代表文章第i部分應(yīng)賦予的權(quán)重,N為一級(jí)章節(jié)的數(shù)目,Ni為與第i部分直接連接的一級(jí)章節(jié)數(shù),Lij為章節(jié)i與章節(jié)j間出現(xiàn)的詞耦合對(duì)數(shù)。計(jì)算出各個(gè)一級(jí)章節(jié)的權(quán)重之后再對(duì)相應(yīng)章節(jié)的句子的中介中心度進(jìn)行加權(quán),得到位置加權(quán)后的中介中心度WCij:
WCij=wi×Cij (2)
其中,WCij為位置加權(quán)后的第i部分的第j個(gè)句子的中介中心度,wi是第i部分的權(quán)重,Cij是未加權(quán)的第i部分第j個(gè)句子的中介中心度。根據(jù)加權(quán)后的中心度后由高到低進(jìn)行排序,得到文章的關(guān)鍵句子。
3實(shí)驗(yàn)及分析
31數(shù)據(jù)準(zhǔn)備
本文的實(shí)驗(yàn)數(shù)據(jù)選取10篇情報(bào)學(xué)領(lǐng)域的學(xué)術(shù)文獻(xiàn),所選的文獻(xiàn)類型各有不同但均來自同一期刊,且為了方便對(duì)比權(quán)值計(jì)算的效果,所選文獻(xiàn)都包含5個(gè)章節(jié)。
32實(shí)驗(yàn)過程
321建立句子網(wǎng)絡(luò)
以一篇“基于商品屬性與用戶聚類的個(gè)性化服裝推薦研究”的文章[26]為例進(jìn)行說明。首先要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,將每篇學(xué)術(shù)文獻(xiàn)以一級(jí)章節(jié)標(biāo)題分隔,再對(duì)具體的每句話以句號(hào)為分隔符進(jìn)行分隔,對(duì)文章正文的每句話進(jìn)行標(biāo)識(shí)。標(biāo)識(shí)的方法按照“章節(jié)序號(hào)+句子序號(hào)”進(jìn)行,例如,第一章節(jié)中的第三個(gè)句子編號(hào)為1003,第三章節(jié)中的第48個(gè)句子的編號(hào)為3048,以此類推。第二步對(duì)正文進(jìn)行分詞處理,篩除停用詞,把每個(gè)句子轉(zhuǎn)換成了一個(gè)詞袋。第三步通過計(jì)算句子與句子之間的詞耦合對(duì)來表示句子間的相似度,最終形成了一個(gè)句子相似矩陣,矩陣中的每一個(gè)值都代表著兩個(gè)句子之間的聯(lián)系,從而形成了一個(gè)句子網(wǎng)絡(luò),利用UCINET可視化出每篇文獻(xiàn)正文的句子網(wǎng)絡(luò),如圖1所示。利用UCINET可以直接計(jì)算出每個(gè)句子的中介中心度。
322基于章節(jié)的位置權(quán)重
類似于句子間的相似度,現(xiàn)在將范圍擴(kuò)大到章節(jié),把正文分為以章節(jié)為單位,而每個(gè)章節(jié)又都可以表示成一個(gè)大詞袋,為了消減章節(jié)長(zhǎng)度的影響,每個(gè)詞袋中1個(gè)詞只出現(xiàn)1次。類似地,計(jì)算章節(jié)與章節(jié)之間的詞耦合對(duì),形成一個(gè)相似矩陣,如表1所示,矩陣中的每個(gè)值表示兩個(gè)章節(jié)之間的詞耦合對(duì)數(shù)。
3結(jié)果及分析
對(duì)比這篇文章的加權(quán)前后的中介中心度句子抽取結(jié)果,各取排序前10的句子,如表3所示。
從表中可以看出,總體上,加權(quán)后的抽取結(jié)果可以提升文章核心部分的內(nèi)容的排序,從而把文獻(xiàn)中核心的知識(shí)塊抽取出來,所抽取出的句子相對(duì)于未加權(quán)的抽取結(jié)果更加詳細(xì)與具體符合初步預(yù)期。但是也可以看出,由于本
表3加權(quán)前后排名前十的句子對(duì)比
對(duì)比序號(hào)句子內(nèi)容加權(quán)前3001鑒于上述對(duì)推薦算法的研究分析,針對(duì)服裝商品,本文提出基于商品屬性內(nèi)容與用戶聚類的混合推薦模式。2030溫廷新、唐小龍等提出基于商品內(nèi)容與基于用戶協(xié)同過濾的混合模式網(wǎng)絡(luò)超市商品推薦(2013)[12],其中商品的內(nèi)容特征提取太過寬泛,只有商品的外在屬性值如價(jià)格、重量、銷售量等。4001本文的研究對(duì)象為特定用戶推薦個(gè)性化的服裝商品,目前淘寶網(wǎng)也有類似的功能推薦,如“看了又看”、“掌柜推薦”等,個(gè)性化不夠明顯,只是根據(jù)關(guān)鍵詞的簡(jiǎn)單關(guān)聯(lián)推薦,推薦結(jié)果不夠精確。3005實(shí)現(xiàn)混合推薦模式的過程如下圖:1)對(duì)于任何一個(gè)進(jìn)入店鋪的用戶,根據(jù)用戶瀏覽的商品,基于商品屬性利用KNN函數(shù)找到最相近的TOP-N推薦候選集;1012針對(duì)商品的個(gè)性化推薦問題,很多學(xué)者進(jìn)行了研究,基于客戶聚類的商品推薦[3],根據(jù)客戶的瀏覽、點(diǎn)擊、收藏行為進(jìn)行聚類,實(shí)現(xiàn)推薦;或是根據(jù)用戶對(duì)商品的評(píng)分矩陣,進(jìn)行協(xié)同過濾推薦[4]。4034432評(píng)估絕大數(shù)的推薦系統(tǒng)都利用準(zhǔn)確度評(píng)價(jià)推薦算法的好壞,假設(shè)用戶可以對(duì)商品反饋喜歡或是不喜歡,那么準(zhǔn)確度可以定義為推薦算法中預(yù)測(cè)的商品,用戶喜歡的商品數(shù)所占比例。4021通過分析服裝消費(fèi)者在選購服裝時(shí)注重的服裝屬性特征,我們從評(píng)價(jià)中提取用戶所購買商品的尺寸顏色信息,以及店鋪中用戶對(duì)商品的評(píng)價(jià)信息,包括評(píng)價(jià)等級(jí)、評(píng)價(jià)內(nèi)容,如寶貝有無色差、是否合身等。5001采用基于商品內(nèi)容與用戶聚類的混合推薦,能夠很好地解決推薦中的冷啟動(dòng)問題。30073)求出該用戶與類中其他用戶之間的相似度,將相似度作為權(quán)重值賦給用戶對(duì)商品的評(píng)分,綜合用戶的評(píng)分與權(quán)重值,對(duì)推薦候選集商品,進(jìn)行喜好排序,得到最終的推薦列表;2008根據(jù)用戶過去選擇過的商品,從推薦商品中選擇屬性值相近的商品作為推薦結(jié)果。表3(續(xù))
對(duì)比序號(hào)句子內(nèi)容加權(quán)后4001本文的研究對(duì)象為特定用戶推薦個(gè)性化的服裝商品,目前淘寶網(wǎng)也有類似的功能推薦,如“看了又看”、“掌柜推薦”等,個(gè)性化不夠明顯,只是根據(jù)關(guān)鍵詞的簡(jiǎn)單關(guān)聯(lián)推薦,推薦結(jié)果不夠精確。4034432評(píng)估絕大數(shù)的推薦系統(tǒng)都利用準(zhǔn)確度評(píng)價(jià)推薦算法的好壞,假設(shè)用戶可以對(duì)商品反饋喜歡或是不喜歡,那么準(zhǔn)確度可以定義為推薦算法中預(yù)測(cè)的商品,用戶喜歡的商品數(shù)所占比例。4021通過分析服裝消費(fèi)者在選購服裝時(shí)注重的服裝屬性特征,我們從評(píng)價(jià)中提取用戶所購買商品的尺寸顏色信息,以及店鋪中用戶對(duì)商品的評(píng)價(jià)信息,包括評(píng)價(jià)等級(jí)、評(píng)價(jià)內(nèi)容,如寶貝有無色差、是否合身等。4038準(zhǔn)確率是指在系統(tǒng)的推薦列表中,用戶喜歡的商品數(shù)所占的比率;而召回率是指推薦列表中用戶喜歡的商品數(shù)占用戶所有喜歡的商品數(shù)量的比率。4004針對(duì)服裝這一特定推薦對(duì)象,查找服裝行業(yè)相關(guān)的類目信息,不同類目下的服裝商品屬性特征具有一定的差別。2030溫廷新、唐小龍等提出基于商品內(nèi)容與基于用戶協(xié)同過濾的混合模式網(wǎng)絡(luò)超市商品推薦(2013)[12],其中商品的內(nèi)容特征提取太過寬泛,只有商品的外在屬性值如價(jià)格、重量、銷售量等。4025根據(jù),前面提取的商品、用戶特征屬性,進(jìn)行數(shù)據(jù)處理,可以將數(shù)據(jù)存儲(chǔ)為三張數(shù)據(jù)表:商品信息表、用戶信息表和用戶評(píng)分表。4028取K=10,輸出10件與該商品最相近的商品,也就是初始的推薦列表。4031用戶對(duì)商品會(huì)有一個(gè)評(píng)分,將用戶相似度作為權(quán)重值賦給商品評(píng)分,計(jì)算得到加權(quán)后的商品評(píng)分。3001鑒于上述對(duì)推薦算法的研究分析,針對(duì)服裝商品,本文提出基于商品屬性內(nèi)容與用戶聚類的混合推薦模式。
文計(jì)算句子間的關(guān)聯(lián)度使用的是簡(jiǎn)單的詞耦合數(shù)方法,導(dǎo)致句子間的關(guān)聯(lián)無法更完整地表達(dá),大大影響了句子抽取結(jié)果的準(zhǔn)確率。
為了對(duì)比權(quán)值計(jì)算方法的效果,本文將10篇學(xué)術(shù)文獻(xiàn)所計(jì)算出的各章節(jié)權(quán)值進(jìn)行對(duì)比,綜合各章節(jié)所包含的詞量來探討權(quán)值與章節(jié)長(zhǎng)度之間的關(guān)系,從表4中可以看出,權(quán)值最高的章節(jié)大多分布在第三和第四章節(jié),符合常理認(rèn)識(shí),不同類型的文獻(xiàn)各個(gè)章節(jié)之間權(quán)值的分配也各不相同,初步符合本文的預(yù)期目標(biāo)。但是不難發(fā)現(xiàn),盡管權(quán)值大小與章節(jié)詞量并不是完全正相關(guān),但不可否認(rèn),章節(jié)的詞量在一定程度上影響了權(quán)值的大小,這是使用詞統(tǒng)計(jì)方法時(shí)很難避免的問題。
4總結(jié)與展望
本文針對(duì)學(xué)術(shù)文獻(xiàn)中摘要與正文所反映的核心知識(shí)不對(duì)等的現(xiàn)象,提出了一種基于位置加權(quán)的核心知識(shí)抽取方法,將學(xué)術(shù)文獻(xiàn)正文看作是一個(gè)以句子為節(jié)點(diǎn),句子間的關(guān)聯(lián)度為邊的文本網(wǎng)絡(luò),并對(duì)基于章節(jié)的位置權(quán)重的賦值進(jìn)行了探討。從實(shí)驗(yàn)結(jié)果來看,該方法可以提高核心章節(jié)句子的重要程度,并且權(quán)值的分配也較為合理,達(dá)到了初步的預(yù)期效果。但是本文中所使用的方法也有其局限性,基于詞統(tǒng)計(jì)的方法來量化句子之間的關(guān)聯(lián)度無法表達(dá)句子之間復(fù)雜的語義關(guān)聯(lián),且所計(jì)算得出的權(quán)值一定程度上受到詞數(shù)量的影響。因此下一步研究將著重關(guān)注句子與句子之間更為深入復(fù)雜的語義關(guān)聯(lián),嘗試構(gòu)建更為完整的文本語義網(wǎng)絡(luò)。
參考文獻(xiàn)
[1]化柏林.國(guó)內(nèi)外知識(shí)抽取研究進(jìn)展綜述[J].情報(bào)雜志,2008,27(2):60-62.
[2]文庭孝.知識(shí)單元的演變及其評(píng)價(jià)研究[J].圖書情報(bào)工作,2007,51(10):72-76.
[3]溫有奎,徐國(guó)華.知識(shí)元鏈接理論[J].情報(bào)學(xué)報(bào),2003,22(6):665-670.
[4]朱曉蕓,陳奇,楊棖,等.決策支持系統(tǒng)中的廣義知識(shí)元及模型庫[C]∥1993中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集,1993.
[5]溫有奎,溫浩,徐端頤,等.基于知識(shí)元的文本知識(shí)標(biāo)引[J].情報(bào)學(xué)報(bào),2006,25(3):282-288.
[6]Zhang C,Jiang P.Automatic extraction of definitions[C]∥Computer Science and Information Technology,International Conference on.IEEE,2009:364-368.
[7]溫有奎,溫浩,徐端頤,等.基于創(chuàng)新點(diǎn)的知識(shí)元挖掘[J].情報(bào)學(xué)報(bào),2005,24(6):663-668.
[8]車海燕,馮鐵,張家晨,等.面向中文自然語言文檔的自動(dòng)知識(shí)抽取方法[J].計(jì)算機(jī)研究與發(fā)展,2013,50(4):834-842.
[9]Luhn H P.The Automatic Creation of Literature Abstracts[J].Ibm Journal of Research & Development,1958,2(2):159-165.
[10]王洋洋.基于海量學(xué)術(shù)資源的知識(shí)元抽取研究[D].寧波:寧波大學(xué),2014.
[11]Sekine S,Nobata C.Sentence Extraction with Information Extraction technique[C]∥2002.
[12]Shen D,Sun J T,Li H,et al.Document Summarization Using Conditional Random Fields[C]∥IJCAI 2007,Proceedings of the,International Joint Conference on Artificial Intelligence,Hyderabad,India,January.DBLP,2007:2862-2867.
[13]Wang D,Zhu S,Li T,et al.Multi-document summarization using sentence-based topic models[C]∥Acl-Ijcnlp 2009 Conference Short Papers.Association for Computational Linguistics,2009:297-300.
[14]Mihalcea,Rada.Graph-based ranking algorithms for sentence extraction,applied to text summarization[J].Unt Scholarly Works,2004:170-173.
[15]Wang D,Li T,Zhu S,et al.Multi-document summarization via sentence-level semantic analysis and symmetric matrix factorization[C]∥International ACM SIGIR Conference on Research and Development in Information Retrieval,SIGIR 2008,Singapore,July.DBLP,2008:307-314.
[16]Li X,Zhu S,Xie H,et al.Document Summarization via Self-Present Sentence Relevance Model[M]∥Database Systems for Advanced Applications.Springer Berlin Heidelberg,2013:309-323.
[17]陶余會(huì),周水庚,關(guān)佶紅.一種基于文本單元關(guān)聯(lián)網(wǎng)絡(luò)的自動(dòng)文摘方法[J].模式識(shí)別與人工智能,2009,22(3):440-444.
[18]劉紅紅,安海忠,高湘昀.基于文本復(fù)雜網(wǎng)絡(luò)的內(nèi)容結(jié)構(gòu)特征分析[J].現(xiàn)代圖書情報(bào)技術(shù),2011,27(1):69-73.
[19]Su G C,Kim S B.Summarization of Documents by Finding Key Sentences Based on Social Network Analysis[M]∥Current Approaches in Applied Artificial Intelligence,2015:285-292.
[20]張瑞.基于復(fù)雜網(wǎng)絡(luò)技術(shù)的社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)分析[D].濟(jì)南:濟(jì)南大學(xué),2015.
[21]朱慶華,李亮.社會(huì)網(wǎng)絡(luò)分析法及其在情報(bào)學(xué)中的應(yīng)用[J].情報(bào)理論與實(shí)踐,2008,31(2):179-183.
[22]Freeman L C.Centrality in Social Networks:IConceptual Clarification[J].Social Networks,1979,1(3):215-239.
[23]Wasserman S,F(xiàn)aust K.Social network analysis:Methods and applications[J].Contemporary Sociology,1994,91(435):219-220.
[24]陸偉,黃永,程齊凱.學(xué)術(shù)文本的結(jié)構(gòu)功能識(shí)別——功能框架及基于章節(jié)標(biāo)題的識(shí)別[J].情報(bào)學(xué)報(bào),2014,(9):979-985.
[25]黃永,陸偉,程齊凱.學(xué)術(shù)文本的結(jié)構(gòu)功能識(shí)別——基于章節(jié)內(nèi)容的識(shí)別[J].情報(bào)學(xué)報(bào),2016,35(3):293-300.
[26]艾黎.基于商品屬性與用戶聚類的個(gè)性化服裝推薦研究[J].現(xiàn)代情報(bào),2015,35(9):165-170.
(本文責(zé)任編輯:郭沫含)