馮倪
(陜西師范大學(xué)計算機科學(xué)學(xué)院,陜西 西安 710000)
現(xiàn)如今是一個信息爆炸的時代,我國的網(wǎng)絡(luò)信息技術(shù)得到了比較快速的發(fā)展,在社會的各行各業(yè)中數(shù)據(jù)量也在不斷地增長。針對這樣的環(huán)境,如何處理好大量的數(shù)據(jù),并提高數(shù)據(jù)的使用效率是每一家互聯(lián)網(wǎng)公司需要做的工作。在大數(shù)據(jù)應(yīng)用技術(shù)中,個性化的推薦系統(tǒng)是一項得到廣泛應(yīng)用的技術(shù),其主要的作用就是對用戶的數(shù)據(jù)做更加智能的處理,通過設(shè)計好的數(shù)據(jù)模型以及算法將用戶感興趣的信息推送給用戶,以進一步提升用戶的實際上網(wǎng)體驗。現(xiàn)階段,一些個性化推薦系統(tǒng)被廣泛應(yīng)用于人們生活的各個領(lǐng)域,比如說音樂、電商、購票等社交平臺上,可以滿足不同用戶的多樣化需求。因此,和推薦系統(tǒng)有關(guān)的研究依舊在如火如荼的進行中。
大數(shù)據(jù)一般被認(rèn)為是規(guī)模非常大,也沒有辦法使用常規(guī)的軟件進行儲存和處理的數(shù)據(jù),是一種在處理之后才具備較高價值的數(shù)據(jù)。隨著信息時代的發(fā)展,對大數(shù)據(jù)進行處理,并合理地使用個性化的推薦系統(tǒng)是非常重要的一個工作。個性化推薦系統(tǒng)使用的大數(shù)據(jù)一般具備以下的特點:
大數(shù)據(jù)具備的一個特性就是多樣性,多樣性體現(xiàn)在大數(shù)據(jù)的種類以及相關(guān)的來源上。按照數(shù)據(jù)的結(jié)構(gòu),可以將數(shù)據(jù)主要分為三種不同的類型。在這三種類型中,非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)正在慢慢地成為數(shù)據(jù)的主要成分。非結(jié)構(gòu)化的數(shù)據(jù)是指結(jié)構(gòu)不完整或者說結(jié)構(gòu)不規(guī)則的數(shù)據(jù),是不能使用數(shù)據(jù)庫二維表來表現(xiàn)出來的,包括圖片、音頻、文本以及其他的信息等。這種非結(jié)構(gòu)化數(shù)據(jù)的占比是非常高的,且正在不斷的增長中。結(jié)構(gòu)化數(shù)據(jù)指的是可以使用二維表結(jié)構(gòu)進行表達的數(shù)據(jù),其有著一定的數(shù)據(jù)格式,可以使用關(guān)系型的數(shù)據(jù)庫進行儲存。介于這兩者之間的是一種稱之為半結(jié)構(gòu)化的數(shù)據(jù),這種數(shù)據(jù)既具備一定的規(guī)則性也具備一定的結(jié)構(gòu)性,但是并不符合關(guān)系型數(shù)據(jù)庫的模型結(jié)構(gòu)[1]。
大數(shù)據(jù)具有非常強的時效性。隨著時間的流逝,如果大數(shù)據(jù)得不到合理的處理,其價值就會下降。處理大量的數(shù)據(jù)是需要時間的,因此,就需要結(jié)合實際情況利用新型的數(shù)據(jù)處理方法對數(shù)據(jù)進行有效率的處理。在信息時代,云計算應(yīng)運而生,合理地使用云計算功能能進一步地提升信息處理的能力,在一定程度上減少運算過程中需要的時間。現(xiàn)如今,計算的速度達到了每秒可處理PB級(1PB=220GB)的數(shù)據(jù)[2]。
在信息時代,大數(shù)據(jù)有著非常高的利用價值,但是,需要注意的是,大數(shù)據(jù)的規(guī)模是比較大的,需要經(jīng)過科學(xué)的處理才能得到有效的信息,這樣才能使得推薦系統(tǒng)更加符合不同受眾的喜好。針對這樣的情況,基于信息技術(shù)和大數(shù)據(jù)的推薦系統(tǒng)就沒有必要考慮精準(zhǔn)度,這是因為,大數(shù)據(jù)本身就不會遺漏掉任何一個數(shù)據(jù),從另一個角度來說,推薦系統(tǒng)也正朝著“是什么”轉(zhuǎn)變著。
現(xiàn)階段,在大數(shù)據(jù)的背景下,推薦系統(tǒng)也順應(yīng)時代潮流誕生了。在對相關(guān)的網(wǎng)絡(luò)用戶數(shù)據(jù)進行收集之后,利用建模計算的模式對大數(shù)據(jù)進行處理,可以得出網(wǎng)絡(luò)用戶的行為、愛好、習(xí)慣等相關(guān)的信息,并在之后,為網(wǎng)絡(luò)用戶提供個性化的推薦,這樣能幫助用戶接收到自己想要的信息,從而提升用戶的網(wǎng)絡(luò)使用感[3]。
個性化推薦系統(tǒng)在實際應(yīng)用中,可以實現(xiàn)對數(shù)據(jù)的可靠處理,主要包括數(shù)據(jù)處理與收集等。也就是說,該系統(tǒng)提供的服務(wù)主要是通過數(shù)據(jù)采集、推薦算法及人機交互等不同模塊實現(xiàn)的。
網(wǎng)絡(luò)公司的數(shù)據(jù)來源存在很大差異,一部分網(wǎng)絡(luò)公司的數(shù)據(jù)來源從內(nèi)部產(chǎn)生,自身就可以為數(shù)據(jù)來源提供支持。但是就實際情況來看,很多網(wǎng)絡(luò)公司并沒有這種實力,數(shù)據(jù)一般來自于不同的數(shù)據(jù)庫,在選擇時需符合自身需求。數(shù)據(jù)庫中存儲著多樣化的數(shù)據(jù),比較常見的有交易數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)等。在傳感器中,也會產(chǎn)生比較多的半結(jié)構(gòu)化數(shù)據(jù)等。在互聯(lián)網(wǎng)上充斥著形式各異的非結(jié)構(gòu)化數(shù)據(jù),比較常見的數(shù)據(jù)庫有SQL Server、Oracle以及 Access等。眾所周知,數(shù)據(jù)的來源途徑是非常多樣的, 用戶在網(wǎng)絡(luò)平臺的實際操作過程中,有著用戶自身的屬性和特點。但是,需要格外注意的是,這些數(shù)據(jù)都要有規(guī)范的格式,對數(shù)據(jù)進行科學(xué)合理的選擇,并對數(shù)據(jù)進行篩選[4]。
在數(shù)據(jù)的采集過程中,還需要將數(shù)據(jù)進行分類,數(shù)據(jù)是有著不同類型的,也有著不同的價值。針對這樣的實際情況,就需要做好數(shù)據(jù)的采集工作。因此,數(shù)據(jù)買方在對數(shù)據(jù)進行采集時,需要充分了解自身所需要的數(shù)據(jù)類型、價格、規(guī)模和其他的信息,結(jié)合實際情況做好數(shù)據(jù)端口的對接工作,這樣才能讓數(shù)據(jù)的收集更加準(zhǔn)確。
在完成了數(shù)據(jù)傳輸?shù)南嚓P(guān)工作之后,就需要對購買來的數(shù)據(jù)做進一步的清洗,這樣可以有效提升數(shù)據(jù)的質(zhì)量,并糾正在數(shù)據(jù)中存在的各種錯誤,避免出現(xiàn)數(shù)據(jù)錯誤以及丟失的情況。比較常規(guī)的數(shù)據(jù)清洗手段是糾正錯誤、數(shù)據(jù)壓縮以及修正邏輯等,在做完了一系列的數(shù)據(jù)清洗工作之后,就能進行接下來的數(shù)據(jù)建模工作了[5]。
數(shù)據(jù)建模是非常重要的一個環(huán)節(jié),也是考驗設(shè)計者統(tǒng)籌規(guī)劃能力的一項工作。相關(guān)的設(shè)計者需要結(jié)合實際情況建立起一個完善的數(shù)據(jù)庫,將不同類型的數(shù)據(jù)根據(jù)相關(guān)的規(guī)則進行合理的分析和整理,并通過合理的方式表示出數(shù)據(jù)之間的關(guān)系,這樣的數(shù)據(jù)才是科學(xué)、合理的,便于后期的加工處理。在相關(guān)的數(shù)據(jù)建模完成了之后,平臺設(shè)計者可以結(jié)合用戶的興趣來創(chuàng)建算法。通過構(gòu)建模型,用戶的短期興趣以及長期興趣都被比較規(guī)則地展現(xiàn)了出來,用戶的網(wǎng)絡(luò)體驗感得到了提升。個性化的推薦算法是計算推測出用戶可能會喜歡某樣?xùn)|西的一種計算機算法[6]。
在構(gòu)建了處理數(shù)據(jù)的模型以及分析了數(shù)據(jù)之后,就能結(jié)合用戶的興趣進行個性化的推薦。計算機會結(jié)合用戶的興趣模型進行進一步的計算,這樣可以為網(wǎng)絡(luò)用戶推薦其感興趣的內(nèi)容。接下來,網(wǎng)絡(luò)用戶的這一次選擇又會被再一次作為數(shù)據(jù)儲存在數(shù)據(jù)庫中,成為了下一次被繼續(xù)利用的新數(shù)據(jù)。以上的這些內(nèi)容,就是一個比較完整的推薦過程。
個性化推薦系統(tǒng)的發(fā)展是非常迅速的,可應(yīng)用到各個行業(yè)領(lǐng)域,比如社交網(wǎng)絡(luò)、電子商務(wù)、視頻網(wǎng)站等這些能夠和普通用戶產(chǎn)生關(guān)聯(lián)的網(wǎng)絡(luò)平臺,相關(guān)的網(wǎng)絡(luò)企業(yè)就能針對這樣的情況做更進一步的研究。
在一些比較熟悉的電商平臺上,用戶在進行購物時,后臺可以結(jié)合用戶的喜好來推薦相關(guān)的商品,這樣可以在一定程度上提升用戶的購買率,企業(yè)就能獲得更多的盈利。最近這些年,個性化推薦已經(jīng)得到了比較快速的發(fā)展,比如“日推”“私人FM”就是在這一時代背景下所產(chǎn)生的熱詞。在未來,用戶在使用手機或者是網(wǎng)絡(luò)平臺時,就能體會到更加個性化的服務(wù)。
2017年,我國第一家大數(shù)據(jù)交易中心,也就是貴陽大數(shù)據(jù)交易開始運營,這也標(biāo)志著我國大數(shù)據(jù)交易是非常成功的。大數(shù)據(jù)交易的商品一般分為了以下幾個種類:第一類,是經(jīng)過了網(wǎng)站工作人員仔細(xì)處理之后的數(shù)據(jù);第二類是結(jié)合用戶喜好所設(shè)計的模型算法;第三類是和網(wǎng)絡(luò)信息技術(shù)有著直接相關(guān)性的應(yīng)用工具,比如說云計算等等。擁有海量數(shù)據(jù)的騰訊大數(shù)據(jù)為開發(fā)者提供著一批可依賴的大數(shù)據(jù)產(chǎn)品,隨著個性化推薦系統(tǒng)的進一步進化,這些產(chǎn)品將為行業(yè)帶來了更多的活力。
綜上所述,最近這些年來,隨著大數(shù)據(jù)價值的不斷提升,一些和數(shù)據(jù)泄露相關(guān)的案例層出不窮,人們也更加關(guān)注數(shù)據(jù)安全的問題。在大數(shù)據(jù)背景下,大數(shù)據(jù)技術(shù)可以更加便利地對這些數(shù)據(jù)進行利用,能極大地保護好用戶的隱私。所以,網(wǎng)絡(luò)企業(yè)在未來的發(fā)展過程中需要做好個性化推薦,對相關(guān)的數(shù)據(jù)進行合理的利用,這樣才能提升用戶的網(wǎng)絡(luò)使用感,為企業(yè)創(chuàng)造更多的經(jīng)濟利益。