任成森,楊易揚(yáng),郝志峰,2
(1.廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣州510006;2.佛山科學(xué)技術(shù)學(xué)院,佛山528225)
近年來,隨著移動(dòng)智能終端的普及,用戶的注意力從固定設(shè)備轉(zhuǎn)移到掌上移動(dòng)設(shè)備,并隨著3G、4G 網(wǎng)絡(luò)的普及,眾多移動(dòng)應(yīng)用開始推出可以記錄用戶位置的地理位置、興趣點(diǎn)推薦的應(yīng)用,例如美團(tuán)、餓了么、支付寶口碑。為了給用戶推薦更合適的興趣點(diǎn),進(jìn)而帶動(dòng)該地點(diǎn)的消費(fèi),眾多企業(yè)和研究團(tuán)隊(duì)都花費(fèi)了大量的精力研究基于地理位置的各種應(yīng)用。其中,興趣點(diǎn)分類是眾多下游應(yīng)用的基礎(chǔ)。大公司能夠利用雄厚的財(cái)力來推廣并獲取海量的用戶評(píng)論信息,能夠簡(jiǎn)單地在大數(shù)據(jù)的基礎(chǔ)上將興趣點(diǎn)分類轉(zhuǎn)化為文本分類,再加上足夠的興趣點(diǎn)標(biāo)注預(yù)算,使得普通的文本分類模型也能進(jìn)行精準(zhǔn)分類。但這些數(shù)據(jù)和模型都是閉源的,新公司、新研究團(tuán)隊(duì)無法在有限的條件下快速實(shí)現(xiàn)能夠適合生產(chǎn)的興趣點(diǎn)分類模型。在這個(gè)背景下,如何在已有數(shù)據(jù)和有限標(biāo)注成本的情況下,提高興趣點(diǎn)的分類成為了研究重點(diǎn)。為了達(dá)到這個(gè)目的,我們需要解決以下問題:如何充分利用興趣點(diǎn)的已有信息?
圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Networks,GCNs)[1]作為一個(gè)半監(jiān)督學(xué)習(xí)框架,在不規(guī)則場(chǎng)景獲得了大量的關(guān)注。在眾多的領(lǐng)域獲得了大量的應(yīng)用[2],如自然語言處理[3]、計(jì)算機(jī)視覺[4]、網(wǎng)絡(luò)分析[5]等等。對(duì)于深度神經(jīng)網(wǎng)絡(luò)來說,復(fù)雜的結(jié)構(gòu)往往能夠帶來準(zhǔn)確率上的提升。而復(fù)雜結(jié)構(gòu)的GCN 卻會(huì)引入新的問題:領(lǐng)域指數(shù)增加[6]。也就是說,假設(shè)要計(jì)算第L 層的一個(gè)節(jié)點(diǎn)的損失值,則需要獲得第L-1 層的k 個(gè)節(jié)點(diǎn)(k 為鄰接節(jié)點(diǎn)的數(shù)量,且每個(gè)節(jié)點(diǎn)的k 值都不固定),如此類推到更多的網(wǎng)絡(luò)層上,這就意味著隨著GCNs 的迭代網(wǎng)絡(luò)層的增加,計(jì)算量也會(huì)成倍地增加,但模型預(yù)測(cè)效果反而降低。特別是在興趣點(diǎn)這一類包含大量節(jié)點(diǎn)的任務(wù)中,深層的GCNs 網(wǎng)絡(luò)并不適用,但GCNs 能夠利用興趣點(diǎn)之間的關(guān)聯(lián)信息,是一種很強(qiáng)大的特征融合/傳播工具。
除了網(wǎng)絡(luò)層的深度,有不少研究在圖結(jié)構(gòu)上對(duì)GCNs 進(jìn)行了進(jìn)一步擴(kuò)展。文本圖卷積網(wǎng)絡(luò)(Text Graph Convolutional Networks,TextGCN)[7]就是從節(jié)點(diǎn)類型來擴(kuò)展GCNs 的模型,它把文本和單詞分別視為不同類型的節(jié)點(diǎn),從而有兩種類型的邊:文本-單詞,單詞-單詞。前者的權(quán)重是通過詞頻-逆文本頻率指數(shù)(Term Frequency-Inverse Document Frequency,TF-IDF)來計(jì)算,后者則是通過點(diǎn)互信息(Pointwise Mutual Infor?mation,PMI)給出。不同類型的兩種節(jié)點(diǎn)和邊整合到一個(gè)圖上,從而融合了異構(gòu)信息,這就考慮了,進(jìn)而使用GCNs 來處理。這種擴(kuò)展了信息融合的維度,同時(shí)考慮了單詞節(jié)點(diǎn)之間的共現(xiàn)信息和文本-單詞之間類主題信息。本文模型借鑒了TextGCN 的文本-單詞結(jié)構(gòu),構(gòu)建出興趣點(diǎn)-單詞(來自評(píng)論文本)的異構(gòu)網(wǎng)絡(luò)。但原始的TextGCN 并直接應(yīng)用在興趣點(diǎn)上并不合適,而且會(huì)導(dǎo)致性能上的損失。
所以本文所提出的模型基于GCNs,并通過構(gòu)建興趣點(diǎn)-興趣點(diǎn)、興趣點(diǎn)-評(píng)論單詞之間的連接,得到一個(gè)高魯棒性的圖網(wǎng)路結(jié)構(gòu),即保證了特征的高效融合/傳播,也保證了與基準(zhǔn)模型相近的準(zhǔn)確率,甚至在Macro-F1 評(píng)價(jià)標(biāo)準(zhǔn)上超出了基準(zhǔn)模型。本文的主要貢獻(xiàn)如下:
(1)將興趣點(diǎn)分類任務(wù)轉(zhuǎn)化為節(jié)點(diǎn)分類任務(wù),利用興趣點(diǎn)和評(píng)論文本之間的單詞關(guān)系,構(gòu)建興趣點(diǎn)-單詞異構(gòu)網(wǎng)絡(luò),并通過實(shí)驗(yàn)證明TextGCN 在興趣點(diǎn)分類任務(wù)上的性能差異,使得原本只適用于文檔分類的模型改造成適合興趣點(diǎn)分類的模型。
(2)利用興趣點(diǎn)的名稱,構(gòu)建興趣點(diǎn)之間的相似性,使得模型在保證其準(zhǔn)確率不下降的情況下,大幅降低其訓(xùn)練速度。
(3)在現(xiàn)實(shí)世界的真實(shí)數(shù)據(jù)上的兩個(gè)城市進(jìn)行測(cè)試,并在不同的參數(shù)下測(cè)試了其魯棒性,證明了本文算法的有效性。
本節(jié)將給出具體的算法實(shí)現(xiàn)步驟,分別為異構(gòu)圖網(wǎng)絡(luò)的構(gòu)建和模型的構(gòu)建。
給定n 個(gè)興趣點(diǎn),每個(gè)興趣點(diǎn)有諾干篇評(píng)論。通過匯總評(píng)論進(jìn)行清理和切割,獲得m 個(gè)單詞。把這n興趣點(diǎn)和m 個(gè)單詞視為異構(gòu)圖網(wǎng)絡(luò)中兩種節(jié)點(diǎn),其中該圖網(wǎng)絡(luò)的總節(jié)點(diǎn)數(shù)為|V|=n+m,其節(jié)點(diǎn)特征為單位矩陣。也就是說單個(gè)節(jié)點(diǎn)時(shí),其特征只考慮自身,所以其對(duì)應(yīng)的特征向量設(shè)置為獨(dú)熱編碼。本文的任務(wù)就是要將這n 個(gè)興趣點(diǎn)分成c 類。
其中興趣點(diǎn)和單詞之間的邊的權(quán)重由使用TFIDF 算法來計(jì)算,這部分和TextGCN 類似。我們?cè)趯?shí)驗(yàn)中發(fā)現(xiàn),TextGCN 中的單詞-單詞之間的邊,在新聞、疾病文摘這一類中等長(zhǎng)度的文本語料上會(huì)幫助Text?GCN 提高效果,但是其在短文本和超長(zhǎng)文本上,則效果式微。表2 中的對(duì)比實(shí)驗(yàn)也展示了其在興趣點(diǎn)分類上的效果,在不考慮單詞-單詞之間的邊的情況下,準(zhǔn)確率、Macro-F1 下降幅度有限,但大幅降低了訓(xùn)練時(shí)間。所以本文不考慮傳統(tǒng)的單詞-單詞結(jié)構(gòu)連接。
雖然在單詞-單詞之間的邊帶來的提升效果有限,但去除了卻會(huì)導(dǎo)致模型略微的降低。本文考慮了興趣點(diǎn)信息的多樣性,利用興趣點(diǎn)名稱作為信息來源之一來考慮。雖然興趣點(diǎn)名稱廣義上也屬于文本數(shù)據(jù),但其來源不同、結(jié)構(gòu)各異,所以并不能上面處理評(píng)論數(shù)據(jù)的方法來處理興趣點(diǎn)名稱。
本文先統(tǒng)計(jì)興趣點(diǎn)名稱中的單詞詞頻,把少于2次出現(xiàn)的單詞去除,同時(shí)也把單詞長(zhǎng)度少于2 個(gè)字符的單詞也刪除。這主要是因?yàn)橹怀霈F(xiàn)過一次的單詞,對(duì)興趣點(diǎn)之間的相似性并沒有積極作用,反而會(huì)加大單詞列表提高計(jì)算成本。構(gòu)建了興趣點(diǎn)名稱單詞列表后,將把每個(gè)興趣點(diǎn)構(gòu)建其名稱的獨(dú)熱編碼。有了名稱獨(dú)熱編碼,通過計(jì)算兩兩興趣點(diǎn)的名稱獨(dú)熱編碼的余弦相似性,構(gòu)建興趣點(diǎn)和興趣點(diǎn)之間邊,其核心思想在于興趣點(diǎn)名稱中有相似單詞的,會(huì)認(rèn)為具有一定的業(yè)務(wù)相似性,也就是其類別有可能是相似的。其構(gòu)建公式如下:
其中,cos(ij)表示興趣點(diǎn)i 和興趣點(diǎn)j 的名稱獨(dú)熱編碼的余弦相似度。TF-IDFij表示興趣點(diǎn)i 和單詞j的TF-IDF 值。則是為了和GCNs 保持一致,對(duì)角線元素設(shè)置為1,即i=j 的情況,表示節(jié)點(diǎn)的自環(huán)。其他情況則設(shè)為0。用鄰接矩陣構(gòu)建了興趣點(diǎn)-興趣點(diǎn)、興趣點(diǎn)-單詞之間的關(guān)系后,需要進(jìn)一步正則化,正則后的鄰接矩陣表達(dá)為:
其中,Dii=∑j Ai j。
本文模型的構(gòu)建和TextGCN 一樣,也是使用了標(biāo)準(zhǔn)的GCNs 模型。一旦興趣點(diǎn)異構(gòu)圖構(gòu)建好,就可以輸入到一個(gè)簡(jiǎn)單的兩層GCNs 模型。第二層節(jié)點(diǎn)的模型輸出緯度等于興趣點(diǎn)的類別數(shù)c。
其中ReLU(?)=max(0,?)是激活函數(shù),σ是softmax算子,θ(1)和θ(2)分別是第一層網(wǎng)絡(luò)和第二層網(wǎng)絡(luò)的權(quán)重矩陣。模型的損失函數(shù)定義已標(biāo)注興趣點(diǎn)上的交叉熵?fù)p失,其具體定義如下:
其中y 是已經(jīng)有標(biāo)簽的興趣點(diǎn),F(xiàn) 是模型輸出特征的維度。
本文在Yelp 2019 數(shù)據(jù)集①https://www.yelp.com/dataset上進(jìn)行了對(duì)比實(shí)驗(yàn),評(píng)估了本文的模型和基準(zhǔn)模型TextGCN 之間的性能差異。使用分類任務(wù)中常用的評(píng)價(jià)標(biāo)準(zhǔn)準(zhǔn)確率和Macro-F1 來評(píng)價(jià)模型的表現(xiàn),其中也給出了訓(xùn)練時(shí)間(用秒來計(jì)算),來評(píng)價(jià)各模型的訓(xùn)練效率。
本文采用的Yelp 數(shù)據(jù)集,來自美國(guó)Yelp 公司提供的開源真實(shí)興趣點(diǎn)數(shù)據(jù),包含了美國(guó)2019 年截止的興趣點(diǎn)數(shù)據(jù)。因?yàn)閷?shí)驗(yàn)環(huán)境所限,本文抽取了其中兩個(gè)具有代表性的城市:夏洛特(用Char 來替代)和鳳凰城(用Ph 來替代)。其中Char 包含5842 個(gè)興趣點(diǎn),平均每個(gè)興趣點(diǎn)的評(píng)論長(zhǎng)度為1754 個(gè)單詞;而Ph 包含11125 個(gè)興趣點(diǎn),平均每個(gè)興趣點(diǎn)的評(píng)論長(zhǎng)度為2146個(gè)單詞。實(shí)驗(yàn)的城市包含了大城市和小城市,已確保實(shí)驗(yàn)上的有效性。
表1 Yelp 2019 數(shù)據(jù)集下兩個(gè)城市的數(shù)據(jù)情況
對(duì)于評(píng)論數(shù)據(jù)的處理,將按照TextCNN[8]的文本處理方法,以保證其公平性。先去除在NLTK 定義的停留詞,詞頻低于5 次的單詞。對(duì)于興趣點(diǎn)名稱數(shù)據(jù),因?yàn)榕d趣點(diǎn)名稱的單詞數(shù)過于簡(jiǎn)短,一般為2 到5 個(gè)單詞,所以本文先對(duì)興趣點(diǎn)名稱進(jìn)行按單詞切割,統(tǒng)計(jì)其單詞頻率,把只出現(xiàn)過一次的單詞和單詞長(zhǎng)度少于3個(gè)字符的單詞去除。從而留下的單詞作為詞表,為每個(gè)興趣點(diǎn)構(gòu)建其獨(dú)熱編碼(one hot)。
本文使用PyTorch 框架來實(shí)現(xiàn)。所有的都在相同的硬件配置下進(jìn)行:64 位Ubuntu 18.04.2 系統(tǒng),Intel Core i7-6850K CPU(6 核3.60GHz),32GB 內(nèi)存,和NVIDIA GeForce RTX 1080Ti 顯卡(11GB 顯存)。中間隱含層的維度均設(shè)置為200 維,所有模型的學(xué)習(xí)率均設(shè)置為0.02,Dropout Rate 為0.5,最大迭代次數(shù)為200次,使用Adam 優(yōu)化器進(jìn)行優(yōu)化,如果模型在驗(yàn)證集上的損失值不再下降(10 次迭代內(nèi)),則提前停止訓(xùn)練。本文的數(shù)據(jù)集劃分,遵循7:3 比例,即70%的興趣點(diǎn)作為訓(xùn)練集、30%的興趣點(diǎn)作為測(cè)試集。其中,為了調(diào)整超參數(shù),從訓(xùn)練集中隨機(jī)抽出了10%的興趣點(diǎn)作為驗(yàn)證集。
本章在Yelp 2019 數(shù)據(jù)集上的兩個(gè)城市進(jìn)行了對(duì)比實(shí)驗(yàn),評(píng)估了本算法的有效性,并結(jié)合實(shí)驗(yàn)結(jié)果分析了本文分類算法的優(yōu)勢(shì)。
TextGCN 則是原論文的模型,而TextGCN-WW 則是保留文檔-單詞圖,去掉單詞-單詞共現(xiàn)圖下的模型。從表2 可以看出,在準(zhǔn)確率上,三種模型的準(zhǔn)確率都差不多,證明了單詞-單詞的共現(xiàn)信息在超長(zhǎng)文本上的作用較小,而且大幅度增加了其訓(xùn)練時(shí)間,增加了大約6~7 倍的訓(xùn)練時(shí)間。隨著單詞列表增加,這個(gè)訓(xùn)練時(shí)間還會(huì)進(jìn)一步提高。而本文的模型在保證其準(zhǔn)確率上,依然獲得了更高的訓(xùn)練效率,可以看到本文模型的有效性。
在Macro-F1 方面,這是一個(gè)在準(zhǔn)確率的基礎(chǔ)上衡量預(yù)測(cè)標(biāo)簽多樣性的指標(biāo),我們可以看到,在小城市上,即興趣點(diǎn)和評(píng)論數(shù)都少的情況下,本文模型的效果反而有所提升。這就說明了使用興趣點(diǎn)所構(gòu)建的興趣點(diǎn)-興趣點(diǎn)網(wǎng)絡(luò)具備一定的信息傳遞能力,彌補(bǔ)了部分特征單詞缺失的興趣點(diǎn)的缺陷。
表2 本文模型與基準(zhǔn)模型TextGCN、TextGCN-WW 的對(duì)比實(shí)驗(yàn)
本文即一步探討其超參數(shù)的相關(guān)性,以評(píng)價(jià)本文模型的魯棒性。因?yàn)榕d趣點(diǎn)評(píng)論文本具有較大的不確定性,而且Yelp 數(shù)據(jù)集所面向的用戶有著各種語言習(xí)慣、語言分割、語言種類。探索詞的種類有利于衡量模型的魯棒性,使得模型應(yīng)用更廣泛。
本文分別調(diào)整低頻詞和高頻詞來調(diào)節(jié)單詞的種類,從而從詞頻的角度來控制單詞的種類,如表3 所示。可以看到,低頻詞對(duì)于分類的多樣性非常重要,大量的詞雖然只在不到一百篇文章里出現(xiàn)過,但其對(duì)分類的多樣性非常重要,可以看到刪除詞頻低于50 到100 的單詞,基線模型會(huì)出現(xiàn)了2%的準(zhǔn)確率下降,Macro-F1 更是下降了0.06 個(gè)點(diǎn)。本文模型則體現(xiàn)出了其魯棒性,雖然也有相同趨勢(shì)的下降,但整體效果還是超過了基線模型,這證明了利用興趣點(diǎn)名稱構(gòu)建興趣點(diǎn)網(wǎng)絡(luò)的有效性。
表3 低頻詞保留情況及模型的相應(yīng)表現(xiàn)
與低頻詞不一樣的是,高頻詞在數(shù)據(jù)中的占比非常少,即使減少到1%,也只是減少了大約1 千個(gè)單詞。在這里,可以看到兩個(gè)趨勢(shì):
(1)雖然單詞數(shù)量減少有限,但其能降低其訓(xùn)練時(shí)間;
(2)當(dāng)高頻詞限制在2%以內(nèi)時(shí),基準(zhǔn)模型的性能則開始下滑。
單詞越高頻,在圖網(wǎng)絡(luò)中,意味著該單詞節(jié)點(diǎn)連接的興趣點(diǎn)節(jié)點(diǎn)就越多;在信息融合角度上,意味著該單詞節(jié)點(diǎn)融合的信息就越多,但從特征傳播的角度,信息融合得越多,其特征顯著性就越低,傳播的效率就越低,而且連接的節(jié)點(diǎn)越多,其傳播的影響力就越小,因?yàn)槠溥厵?quán)重會(huì)正則化使得每一條邊的權(quán)重占比更低;在卷積的角度,會(huì)增加其卷積的范圍,模型在正向/反向傳播時(shí),則需要更多的計(jì)算資源。這三個(gè)角度解釋了為什么減少的節(jié)點(diǎn)的數(shù)量有限,訓(xùn)練速度的提高卻如此明顯;而且效果卻不怎么下降。
表4 高頻詞限制下本文模型的表現(xiàn)
圖卷積神經(jīng)網(wǎng)絡(luò)作為卷積神經(jīng)網(wǎng)絡(luò)在不規(guī)則圖形上的擴(kuò)展,近年來獲得了大量的關(guān)注和應(yīng)用。TextGCN把文本和單詞視為節(jié)點(diǎn)來構(gòu)建異構(gòu)圖,使用標(biāo)準(zhǔn)的GCNs 來進(jìn)行文本分類。但TextGCN 并不能充分利用文本信息,例如忽略了文本之間的語序信息。同時(shí),TextGCN 為了提升效果,引入了單詞-單詞共現(xiàn)圖,但這也導(dǎo)致TextGCN 所需的計(jì)算資源快速上漲。同時(shí)結(jié)合原論文的實(shí)驗(yàn)和我們的實(shí)驗(yàn),TextGCN 并不適合短文本分類和超長(zhǎng)文本分類。這是因?yàn)槎涛谋痉诸惖膯卧~數(shù)量較少,且比較注重語序結(jié)構(gòu);而超長(zhǎng)文本,例如本文的評(píng)論文本,眾多的詞匯信息,使得超長(zhǎng)文本僅憑單詞信息就能獲得足夠的分類特征,從而無需額外的單詞共現(xiàn)信息來彌補(bǔ)單詞信息不足的缺陷,這也是本文模型在去除單詞共現(xiàn)矩陣后依然有不錯(cuò)的效果的原因。除了語料的處理,TensorGCN[9]則是增加網(wǎng)絡(luò)的多樣性來彌補(bǔ)TextGCN 的不足,包括使用LSTM[10]來保留語序信息、使用CoreNLP 來抽取單詞的關(guān)系樹。但這種做法的問題在于增加了計(jì)算復(fù)雜度;計(jì)算量是Text?GCN 的幾倍,而準(zhǔn)確率則是略有提高。圖網(wǎng)絡(luò)的復(fù)雜結(jié)構(gòu)同時(shí)也決定了這樣的神經(jīng)網(wǎng)絡(luò)難以訓(xùn)練和調(diào)試。
興趣點(diǎn)分類的工作則是比較少,因?yàn)檫@一類工作往往轉(zhuǎn)化成文本分類來實(shí)現(xiàn)。通過評(píng)論文本的分類來實(shí)現(xiàn)對(duì)興趣點(diǎn)的分類。但這也的做法也是存在缺陷的,一是沒有考慮興趣點(diǎn)信息的多樣性,例如同樣是文本信息,興趣點(diǎn)名稱和興趣點(diǎn)評(píng)論則有著不同的來源渠道和語言特征。而Yelp 數(shù)據(jù)集大多數(shù)是用來進(jìn)行評(píng)論情感分類和興趣點(diǎn)推薦。POIC-ELM 模型則是對(duì)POI 進(jìn)行另一種分類[11]:每日簽到POI,每周簽到POI,每月簽入POI 和年度簽入POI。使得模型能夠預(yù)測(cè)推薦的興趣點(diǎn)是否與用戶形成某種生活上的關(guān)系,這是從用戶和推薦的角度來進(jìn)行興趣點(diǎn)分類。
綜合以上實(shí)驗(yàn),本文提出的模型的確能增強(qiáng)圖卷積神經(jīng)網(wǎng)絡(luò)在興趣點(diǎn)分類上的魯棒性,充分利用了興趣點(diǎn)上的異構(gòu)信息。因?yàn)閅elp 數(shù)據(jù)集是來自現(xiàn)實(shí)世界真實(shí)數(shù)據(jù),其評(píng)論均來自于真實(shí)用戶,所以該數(shù)據(jù)集上的噪音更大,所以在該數(shù)據(jù)集上解決興趣點(diǎn)相關(guān)的任務(wù)更具有挑戰(zhàn)性。但是本文的模型算法在這個(gè)數(shù)據(jù)集上,而且是在減少大量邊信息的情況下,依然有效而且提高了訓(xùn)練效率。興趣點(diǎn)分類是一項(xiàng)基礎(chǔ)研究任務(wù),精準(zhǔn)地為興趣點(diǎn)進(jìn)行分類,有利于下游任務(wù),例如興趣點(diǎn)推薦、社區(qū)劃分,等等。而興趣點(diǎn)分類不同于文本分類,其評(píng)論數(shù)量是動(dòng)態(tài)增加的、不確定性的,而文本分類的樣本是固定的,沒有時(shí)間維度。這就造成了興趣點(diǎn)分類更容易受新加入的評(píng)論影響而使得模型準(zhǔn)確性無法保證。
針對(duì)以上問題,本文利用圖卷積神經(jīng)網(wǎng)絡(luò),針對(duì)興趣點(diǎn)的數(shù)據(jù)特點(diǎn),把興趣點(diǎn)名稱作為新的信息補(bǔ)充,通過打通興趣點(diǎn)之間的信息流通和減少了非關(guān)鍵節(jié)點(diǎn)之間的信息流通,大大提高了模型的穩(wěn)定性和運(yùn)行效率。充分利用了興趣點(diǎn)中存在的異構(gòu)數(shù)據(jù)。本文設(shè)計(jì)的實(shí)驗(yàn)也進(jìn)一步證明了本算法的有效性,并在同等條件下獲得準(zhǔn)確率和訓(xùn)練效率上的提高。雖然本文針對(duì)的是興趣點(diǎn)分類任務(wù),但可以本文的算法適用其他有著異構(gòu)數(shù)據(jù)的任務(wù)。
目前利用評(píng)論和興趣點(diǎn)名稱獲得不錯(cuò)的效果,但興趣點(diǎn)的還包含著地理信息、用戶信息和時(shí)間信息,但這部分信息更難處理且包含更多的噪音。所以這是一個(gè)有待解決的挑戰(zhàn)。本文接下來的工作將進(jìn)一步深入挖掘興趣點(diǎn)的其他信息。