趙偉華
大數(shù)據(jù)(Big Data),也就是海量數(shù)據(jù),是傳統(tǒng)數(shù)據(jù)處理應(yīng)用軟件不足以處理的復(fù)雜數(shù)據(jù)集,這些數(shù)據(jù)集的數(shù)據(jù)規(guī)模通常在PB 級以上,需要特殊的數(shù)據(jù)處理技術(shù)進行存儲和處理。紛繁復(fù)雜的大數(shù)據(jù)并不能直接被我們利用,只有通過特定的算法挖掘出數(shù)據(jù)之間的內(nèi)在關(guān)聯(lián)關(guān)系,才能夠利用這些數(shù)據(jù)呈現(xiàn)出來的規(guī)律,進行分析和預(yù)測。因此,大數(shù)據(jù)分析挖掘技術(shù)逐漸成為了熱點,聚類、分類、回歸分析、異常挖掘和趨勢分析、關(guān)聯(lián)規(guī)則、依賴規(guī)則、序列模式等大數(shù)據(jù)分析算法被應(yīng)用到各類場景中,大數(shù)據(jù)技術(shù)與人工智能技術(shù)互動頻繁、相互交織,促進了大數(shù)據(jù)處理技術(shù)進一步發(fā)展。
在“大數(shù)據(jù)時代”的背景下,推薦系統(tǒng)能通過分析提取出用戶的歷史偏好數(shù)據(jù),并結(jié)合用戶之間的偏好關(guān)系以及項目與項目的相似程度,推測出目標(biāo)用戶可能喜歡的物品并將其推薦給用戶。
圖1 展示的是推薦平臺的基本構(gòu)成,整個系統(tǒng)主要分為四個部分,即數(shù)據(jù)層、業(yè)務(wù)層、基礎(chǔ)設(shè)施層、推薦終端等,具體如下:
圖1 推薦平臺的基本構(gòu)成
協(xié)同過濾(collaborative filtering)算法就是其中一種經(jīng)典且常用的推薦算法,它基于對用戶歷史行為數(shù)據(jù)的挖掘,發(fā)現(xiàn)用戶的喜好偏向,并預(yù)測用戶可能喜好的產(chǎn)品進行推薦。目前應(yīng)用比較廣泛的協(xié)同過濾算法包括基于用戶的協(xié)同過濾算法(即,給用戶推薦和他興趣相似的其他用戶喜歡的產(chǎn)品)和基于物品的協(xié)同過濾算法(即,給用戶推薦和他之前喜歡的物品相似的物品)。
協(xié)同過濾推薦算法產(chǎn)生時間較早,在發(fā)展中技術(shù)趨于成熟,具有很強的適用性,因此被廣泛用于搜索領(lǐng)域,并且取得了顯著成效。協(xié)同過濾算法的具體應(yīng)用有智能推薦、商品推薦、新聞推薦、搜索引擎智能推薦等。顯然,協(xié)同過濾算法是底層大數(shù)據(jù)到個人化推薦應(yīng)用過程中的中間產(chǎn)物。
本文通過梳理協(xié)同過濾領(lǐng)域的發(fā)明專利申請和保護現(xiàn)狀,依托實際案例,對比他局審查方式,來解析審查政策調(diào)整對專利申請和產(chǎn)業(yè)發(fā)展的影響,明晰大數(shù)據(jù)、人工智能領(lǐng)域相關(guān)發(fā)明專利申請的客體審查標(biāo)準(zhǔn),并為引導(dǎo)大數(shù)據(jù)、人工智能領(lǐng)域的技術(shù)創(chuàng)新提供助推。
本文檢索數(shù)據(jù)來源于HimmPat 數(shù)據(jù)庫,對2021年12 月31 日前的全球?qū)@M行檢索分析,對標(biāo)題、摘要或權(quán)利要求包含“推薦”、“建議”、“興趣”、“偏好”、“喜好”等關(guān)鍵詞及其英文表達(dá),以及說明書中包含“協(xié)同過濾”或“協(xié)調(diào)過濾”等關(guān)鍵詞及其英文表達(dá)的專利文獻進行檢索,獲得全球?qū)@?,356 件。由于專利語言不同,以及公司存在分公司和子公司的情況,使得一個公司存在多種名稱,本文在做數(shù)據(jù)統(tǒng)計時,將存在上述情況的申請人進行合并,并在下文中使用了常見的中文名稱進行表示。
1.全球?qū)@暾堏厔?/p>
協(xié)同過濾領(lǐng)域?qū)@暾埩堪l(fā)展趨勢如圖2 所示。
圖2 協(xié)同過濾領(lǐng)域?qū)@暾埩堪l(fā)展趨勢(單位:件)
結(jié)合圖中數(shù)據(jù)可以看出,該領(lǐng)域?qū)@拿妊科陂_始于2011 年,當(dāng)年的全球申請量不足兩百件,這與當(dāng)時的AI 技術(shù)處于起步階段、推薦系統(tǒng)初步成型等原因密不可分,經(jīng)過緩慢的發(fā)展,尤其隨著計算機技術(shù)和通信技術(shù)的快速發(fā)展和更新,協(xié)同過濾領(lǐng)域?qū)@暾埩坑瓉砹说谝淮物w躍,體現(xiàn)在2016 年到2019年實現(xiàn)了全球申請量翻一番,于2019 年突破了四百件的申請量。
這次飛躍與AI 技術(shù)快速發(fā)展、計算機視覺、語音識別技術(shù)突飛猛進,尤其國內(nèi)形勢此時受國家政策大力支持,市場規(guī)模不斷擴大,產(chǎn)業(yè)鏈趨于完善等原因息息相關(guān)。雖然這個增長趨勢在2019-2020 年有短暫的減緩,推測可能與全球爆發(fā)新型冠狀病毒疫情相關(guān),但很快又于2021 年再次大幅度上升,并呈現(xiàn)繼續(xù)攀升的趨勢,這樣的向好趨勢充分說明該領(lǐng)域無論在產(chǎn)業(yè)發(fā)展還是專利申請方面目前都處于新的爆發(fā)期。
從協(xié)同過濾的產(chǎn)生背景來看圖2 的數(shù)據(jù),可以得到,大數(shù)據(jù)、人工智能早期形成的基礎(chǔ)算法并不能直接用來分析現(xiàn)在的海量數(shù)據(jù),也無法直接在任何具體應(yīng)用場景中使用,需要根據(jù)應(yīng)用層的不同適用場景進行優(yōu)化、調(diào)參,甚至重新構(gòu)建新的算法來服務(wù)于大數(shù)據(jù)、人工智能產(chǎn)業(yè)落地。而協(xié)同過濾算法解決方案能夠改進硬件與算法之間的適配、優(yōu)化技術(shù)層算法在自然語言處理、計算機視覺、語音識別、預(yù)測分析、知識表示和推理等方面的處理效果。
通過上述分析可以得到如下結(jié)論,協(xié)同過濾領(lǐng)域?qū)@暾埐粌H與技術(shù)儲備、社會熱點有著較大的關(guān)系,并且與政策支持、政府導(dǎo)向也有著密切關(guān)聯(lián)。隨著社會發(fā)展、公眾需要,以及行業(yè)完善、技術(shù)迭代,預(yù)計未來很長一段時間該領(lǐng)域的專利申請量會保持快速增長的趨勢。
2.主要技術(shù)熱點分布
圖3 是協(xié)同過濾領(lǐng)域的主要技術(shù)熱點分布圖,在同時包括協(xié)同過濾相關(guān)的算法應(yīng)用及基礎(chǔ)算法的專利申請中,基礎(chǔ)算法的研究相關(guān)的專利申請量占到了較大比重,具體表現(xiàn)為,主要集中在數(shù)據(jù)結(jié)構(gòu)及存儲結(jié)構(gòu)方面的改進、對數(shù)據(jù)結(jié)構(gòu)的各種分析處理方面的改進等方面;而針對協(xié)同過濾算法應(yīng)用的研究,其主要集中在協(xié)同過濾在各類特定商業(yè)領(lǐng)域的應(yīng)用、在電子商務(wù)過程中的應(yīng)用、以及在管理過程中的應(yīng)用等方面。除此之外,熱點技術(shù)還涉及到了協(xié)同過濾算法與其它技術(shù)的融合(例如神經(jīng)網(wǎng)絡(luò)算法、遺傳算法等),以及協(xié)同過濾過程中的數(shù)據(jù)傳輸?shù)认嚓P(guān)技術(shù)。
圖3 協(xié)同過濾領(lǐng)域主要技術(shù)熱點分布圖(單位:項)
形成這種現(xiàn)象的原因是,協(xié)同算法的改進動機是為了讓人工智能更廣泛地應(yīng)用于多個領(lǐng)域,因此,形成專利申請時,申請人不愿意將數(shù)據(jù)處理僅限定到少數(shù)應(yīng)用場景中,認(rèn)為會限制其方案在后續(xù)的應(yīng)用,導(dǎo)致請求保護的方案與具體應(yīng)用場景并不屬于“緊耦合”的情形,進而被認(rèn)為不屬于專利保護的客體。例如,對神經(jīng)網(wǎng)絡(luò)的壓縮或量化,申請人不愿意將其限定為處理圖像或語音的神經(jīng)網(wǎng)絡(luò),也難以在每個處理步驟中體現(xiàn)出與其應(yīng)用場景相關(guān)的改進。
因此,在協(xié)同過濾技術(shù)當(dāng)前發(fā)展階段,創(chuàng)新主體將研發(fā)焦點主要聚焦在協(xié)同過濾基礎(chǔ)算法的改進上,希望這樣的改進型技術(shù)能夠適用于更多場合,能夠?qū)崿F(xiàn)更廣泛的應(yīng)用,預(yù)計在未來一段時間,這樣的熱點分布特點仍會持續(xù),協(xié)同過濾領(lǐng)域?qū)⒂瓉矶喾矫纨R頭并進的發(fā)展態(tài)勢。
3.全球重點申請人
從圖4 呈現(xiàn)的協(xié)同過濾領(lǐng)域的全球排名前十的申請人及其專利申請量來看,該領(lǐng)域主要申請人的專利申請量總體都不高,并且數(shù)量上呈現(xiàn)比較平均的現(xiàn)象。從國內(nèi)外申請人分布來看,國內(nèi)申請人占據(jù)了主要地位,該領(lǐng)域的全球十大申請人中,國內(nèi)申請人占到了一半以上,說明該領(lǐng)域的專利權(quán)目前主要被國內(nèi)申請人掌握。從國內(nèi)申請人分布看,國內(nèi)各大高校占據(jù)的比重較大,說明高校在協(xié)同過濾領(lǐng)域投入的研發(fā)較多,研發(fā)的專利產(chǎn)出較多,但目前各大高校及技術(shù)公司在該領(lǐng)域的專利申請量總體分布均勻,還未形成明顯的技術(shù)壟斷。
圖4 協(xié)同過濾領(lǐng)域全球重點申請人
同時,上圖也說明了當(dāng)前我國的高校和互聯(lián)網(wǎng)頭部企業(yè)已經(jīng)具備了一定的“領(lǐng)跑”能力,對于具體應(yīng)用場景中的特定算法開發(fā)已經(jīng)較為成熟,業(yè)界開始謀求從更高層次上改進算法效率。很多高校和企業(yè)已經(jīng)開發(fā)出多模態(tài)神經(jīng)網(wǎng)絡(luò)模型,也就是說,一個神經(jīng)網(wǎng)絡(luò)模型可以集成各種分類器來識別不同模態(tài)的數(shù)據(jù)(文本、圖像、音視頻、時序數(shù)據(jù))等,并經(jīng)由一定變換和優(yōu)化即可適用于各種場景;也有一些企業(yè)重點研發(fā)通用模型的優(yōu)化(如減枝、量化)以及模型的自動調(diào)優(yōu)等。
可以體會到,隨著高校和企業(yè)在大數(shù)據(jù)、人工智能領(lǐng)域的研發(fā)不斷深入,對通用模型的改進越來越多,場景應(yīng)用中通用性要求也越來越高,協(xié)同過濾算法的改進必將越來越多,發(fā)揮的作用也必將越來越大。
4.五局申請量對比
按申請局統(tǒng)計協(xié)同過濾領(lǐng)域的專利申請(如圖5所示),可以看到,中國在該領(lǐng)域的申請量遙遙領(lǐng)先,超過美、韓、日、歐四局的申請量總和,充分說明中國在該領(lǐng)域的專利市場占據(jù)主要地位,目前已經(jīng)形成了一定的專利儲備。
圖5 協(xié)同過濾領(lǐng)域五局申請量對比圖
形成上述數(shù)據(jù)呈現(xiàn)的主要原因可能是,我國近十年來非常重視和鼓勵電子商務(wù)、大數(shù)據(jù)、人工智能等技術(shù)的發(fā)展、應(yīng)用以及與其它領(lǐng)域和行業(yè)的深度融合,采取了多項多種鼓勵政策及支持手段,并且多次強調(diào)加強相關(guān)技術(shù)的知識產(chǎn)權(quán)保護,而美局近年來對客體判斷標(biāo)準(zhǔn)處于較為震蕩的狀態(tài),歐局近年來在大數(shù)據(jù)、人工智能領(lǐng)域缺少政策扶持,從而在一定程度上影響了各創(chuàng)新主體在本領(lǐng)域的專利布局。
5.國內(nèi)審查結(jié)論統(tǒng)計分析
從圖6 協(xié)同過濾領(lǐng)域的國內(nèi)審查結(jié)論統(tǒng)計分析可以看出,涉及協(xié)同過濾技術(shù)的相關(guān)申請在國內(nèi)復(fù)審程序的法律適用中,一半為創(chuàng)造性條款,另一半為涉及專利保護客體的條款,說明該領(lǐng)域中相當(dāng)數(shù)量的申請是因為主題涉及專利保護客體問題而不能得到專利權(quán)。
圖6 協(xié)同過濾領(lǐng)域國內(nèi)審查結(jié)論統(tǒng)計圖
綜上所述,通過對協(xié)同過濾領(lǐng)域的全球?qū)@麛?shù)據(jù)統(tǒng)計分析可以發(fā)現(xiàn),該領(lǐng)域在近五年的發(fā)展非常迅速,專利申請量逐年攀升,而這些專利申請中,中國申請量是美日歐的總和,且國內(nèi)申請人占據(jù)主導(dǎo)地位。但協(xié)同過濾和數(shù)據(jù)清洗領(lǐng)域的專利授權(quán)率不高,明顯低于其他人工智能熱點領(lǐng)域,可見,中國對該領(lǐng)域的審查尺度偏嚴(yán)。
造成這種現(xiàn)象的主要原因可能是,由于中間層算法的解決方案,不像基礎(chǔ)層那樣,算法改進與硬件結(jié)合的較為緊密,也不像應(yīng)用層那樣,算法特征與具體應(yīng)用場景緊耦合,因此,大量涉及中間層算法的專利申請被拒之客體高墻之外。
在2021 年8 月公布的《專利審查指南修改草案(征求意見)》第二部分第九章第6.1.2 中新增的涉及人工智能、大數(shù)據(jù)領(lǐng)域的客體審查規(guī)定為:
如果權(quán)利要求的解決方案涉及深度學(xué)習(xí)、分類、聚類等人工智能、大數(shù)據(jù)算法的改進,該算法與計算機系統(tǒng)的內(nèi)部結(jié)構(gòu)存在特定技術(shù)關(guān)聯(lián),能夠解決如何提升硬件運算效率或執(zhí)行效果的技術(shù)問題,包括減少數(shù)據(jù)存儲量、減少數(shù)據(jù)傳輸量、提高硬件處理速度等,從而獲得了符合自然規(guī)律的計算機系統(tǒng)內(nèi)部性能改進的技術(shù)效果,則該權(quán)利要求限定的解決方案屬于專利法第二條第二款所述的技術(shù)方案。
如果權(quán)利要求的解決方案處理的是具體應(yīng)用領(lǐng)域的大數(shù)據(jù),利用分類、聚類、回歸分析、神經(jīng)網(wǎng)絡(luò)等挖掘數(shù)據(jù)中符合自然規(guī)律的內(nèi)在關(guān)聯(lián)關(guān)系,據(jù)此解決如何提升具體應(yīng)用大數(shù)據(jù)分析可靠性或精確性的技術(shù)問題,并獲得相應(yīng)的技術(shù)效果,則該權(quán)利要求限定的解決方案屬于專利法第二條第二款所述的技術(shù)方案。
從上述規(guī)定可以看出,涉及分類、聚類、回歸分析等數(shù)據(jù)挖掘算法,作為方案的實現(xiàn)手段,其本身并不構(gòu)成技術(shù)手段,只有通過這些算法挖掘大數(shù)據(jù)中符合自然規(guī)律的內(nèi)在關(guān)聯(lián)關(guān)系,據(jù)此解決技術(shù)問題并獲得相應(yīng)的技術(shù)效果時,這些挖掘算法才有可能構(gòu)成技術(shù)手段。
因此,雖然上述規(guī)定中記載了提升大數(shù)據(jù)分析可靠性或精確性有可能構(gòu)成技術(shù)問題,但是,需要結(jié)合權(quán)利要求記載的方案,具體判斷上述可靠性或精確性的提升是算法本身優(yōu)化帶來的,還是利用這些算法挖掘大數(shù)據(jù)中符合自然規(guī)律的內(nèi)在關(guān)聯(lián)關(guān)系而產(chǎn)生的。
下面通過兩個典型案例來進一步解析如何適用上述審查規(guī)則。
1.案例一:動態(tài)離群值偏倚減少系統(tǒng)和方法
【案情概述】
該申請涉及對數(shù)據(jù)的分析,其中離群元素被從分析開發(fā)中去除(或過濾掉)。分析可能與簡單統(tǒng)計量的計算或者在其開發(fā)中涉及使用數(shù)據(jù)的數(shù)學(xué)模型的更復(fù)雜操作有關(guān)。離群數(shù)據(jù)過濾的目的可以是執(zhí)行數(shù)據(jù)質(zhì)量和數(shù)據(jù)驗證操作,或者計算能夠應(yīng)用于后續(xù)分析、回歸分析、時間序列分析中的代表性標(biāo)準(zhǔn)、統(tǒng)計量、數(shù)據(jù)群組或者用于數(shù)學(xué)模型開發(fā)的合格數(shù)據(jù)。
【權(quán)利要求】
1.一種計算機實現(xiàn)的方法,包括以下步驟:
由被專門編程的計算系統(tǒng)以電子方式接收至少一個誤差閾值標(biāo)準(zhǔn)以及數(shù)據(jù)集合;
由所述被專門編程的計算系統(tǒng)使用包括至少一個系數(shù)的模型執(zhí)行離群值偏倚減少的第一迭代,其中執(zhí)行離群值偏倚減少的第一迭代包括以下步驟:
通過將所述模型應(yīng)用于所述數(shù)據(jù)集合,確定預(yù)測值的集合;
比較所述預(yù)測值的集合與所述數(shù)據(jù)集合,以產(chǎn)生至少一個誤差值的集合;
從所述數(shù)據(jù)集合中去除作為數(shù)據(jù)離群值的一個或多個數(shù)據(jù)值以形成離群值過濾數(shù)據(jù)集合,其中該數(shù)據(jù)離群值是根據(jù)所述至少一個誤差值的集合以及所述至少一個誤差閾值標(biāo)準(zhǔn)確定的;以及
使用所述離群值過濾數(shù)據(jù)集合構(gòu)建包括至少一個經(jīng)更新的系數(shù)的經(jīng)更新的模型;以及
當(dāng)至少一個終止標(biāo)準(zhǔn)未得到滿足時,由所述被專門編程的計算系統(tǒng)執(zhí)行離群值偏倚減少的第二迭代,其中執(zhí)行離群值偏倚減少的第二迭代包括通過將所述經(jīng)更新的模型應(yīng)用于所述數(shù)據(jù)集合來確定第二預(yù)測值的集合。
【各局審查意見對比】
歐洲專利局(以下簡稱歐局)審查意見認(rèn)為:該申請未限定“其中所述目標(biāo)標(biāo)量是用于工業(yè)設(shè)施的度量,所述度量與所述工業(yè)設(shè)施的生產(chǎn)、金融性能或排放有關(guān)”,權(quán)利要求1 的方法針對減少離群偏差,是統(tǒng)計領(lǐng)域的抽象數(shù)學(xué)問題,在計算機上指定的非技術(shù)方法的實現(xiàn),該方法是被認(rèn)為是顯而易見的,從而不具備創(chuàng)造性。
美國專利局(以下簡稱美局)審查意見認(rèn)為:該申請未限定“其中所述目標(biāo)標(biāo)量是用于工業(yè)設(shè)施的度量,所述度量與所述工業(yè)設(shè)施的生產(chǎn)、金融性能或排放有關(guān)”,減少離群偏差的方法是抽象思想,“收集信息,分析信息并顯示某些信息”的計算機功能不會對抽象概念增加有意義的限制。
日本特許廳(以下簡稱日局)審查意見認(rèn)為:具備創(chuàng)造性,并授予了專利權(quán)。
可以看到,歐局和日局并沒有質(zhì)疑該申請存在專利保護客體問題,直接進行了創(chuàng)造性的審查,而美局則是針對本申請不屬于保護客體提出了審查意見,并作出了駁回結(jié)論。
中國國家知識產(chǎn)權(quán)局審查意見認(rèn)為:從該申請權(quán)利要求1 的解決方案來看,是一種依據(jù)自定義的模型來對數(shù)據(jù)集合中的數(shù)據(jù)進行迭代處理的方法,其要解決的問題是如何提高數(shù)據(jù)集合的數(shù)據(jù)質(zhì)量,以及如何進行數(shù)據(jù)驗證操作。但是該申請的方案并沒有具體到某個應(yīng)用領(lǐng)域,其所限定的步驟/執(zhí)行步驟依然只是對數(shù)據(jù)進行分析處理,并獲得相應(yīng)的結(jié)果;上述分析處理方式實質(zhì)上是一個沒有具體應(yīng)用領(lǐng)域的抽象的數(shù)學(xué)處理過程,所針對的數(shù)據(jù)也是無具體領(lǐng)域、無特定物理含義的抽象數(shù)據(jù)。從當(dāng)前采用的手段(基于模型進行的抽象的數(shù)據(jù)處理)與以上要解決的問題(提高數(shù)據(jù)質(zhì)量、進行數(shù)據(jù)驗證操作)的關(guān)聯(lián)性來看,不受自然規(guī)律約束,由此也不會獲得符合自然規(guī)律的技術(shù)效果。
盡管申請人在權(quán)利要求1 中限定了目標(biāo)變量是用于工業(yè)設(shè)施的度量,所述度量與所述工業(yè)設(shè)施的生產(chǎn)、金融性能或排放有關(guān),但這個限定仍然不能使“目標(biāo)變量”成為具有具體物理含義的、構(gòu)成技術(shù)領(lǐng)域中具有確切技術(shù)含義的數(shù)據(jù)。綜上,當(dāng)前權(quán)利要求不屬于專利法第二條第二款所述的技術(shù)方案,不屬于專利保護的客體。
2.案例二:基于隨機森林修正的大數(shù)據(jù)下改進協(xié)同過濾推薦方法
【案情概述】
該申請涉及數(shù)據(jù)挖掘領(lǐng)域,主要涉及電子商務(wù)中個性化推薦,具體是一種基于隨機森林修正的大數(shù)據(jù)下改進協(xié)同過濾推薦方法,例如:商品推薦、音樂電影產(chǎn)品推薦等領(lǐng)域,可用于網(wǎng)上商城等電子商務(wù)領(lǐng)域。
目前的協(xié)同過濾算法存在很多缺點:如,數(shù)據(jù)稀疏推薦精確度會受到很大影響,用戶活躍度、熱門物品對推薦質(zhì)量存在負(fù)面影響,造成精確度不高、多樣性不強等,特別是在大數(shù)據(jù)的情況下,數(shù)據(jù)的稀疏度會極大地放大這些缺陷。為此,該申請?zhí)峁┝艘环N基于隨機森林修正的大數(shù)據(jù)下改進協(xié)同過濾推薦方法,通過用戶對每個物品的評分,提取用戶評分信息,根據(jù)用戶評分信息構(gòu)建用戶偏好隨機森林分類模型,根據(jù)分類結(jié)果,結(jié)合改進協(xié)同過濾推薦得到的用戶的初步推薦列表,對評分進行對應(yīng)的修正調(diào)整,對列表中的物品按評分降序進行重新排序,形成最終的推薦列表,完成全部用戶的推薦。
【權(quán)利要求】
1.一種基于隨機森林修正的大數(shù)據(jù)下改進協(xié)同過濾推薦方法,其特征在于,包括有如下步驟:
步驟1 數(shù)據(jù)錄入及參數(shù)設(shè)定:根據(jù)電子商務(wù)網(wǎng)站的記錄,提取用戶對每個物品的評分,設(shè)定用戶為ua,其中a 為當(dāng)前待推薦用戶標(biāo)記,協(xié)同過濾參數(shù)近鄰數(shù)k,k 為常數(shù),取值區(qū)間為2-20,隨機森林可調(diào)參數(shù)δ,δ 為固定常數(shù),提取用戶評分信息,評分信息標(biāo)記為ratings;
步驟2 建立當(dāng)前用戶特征向量集合:根據(jù)評分信息標(biāo)記ratings,得到當(dāng)前用戶ua 的特征向量集合Ti ={(xi,yi)},i ∈N+,特征向量Xi={Xi1,Xi2...Xim},yi ∈{0,1}是類標(biāo)簽;Xim 是用戶m 對物品i 的評分,i 為用戶ua 評分過的物品標(biāo)記,N+為物品總數(shù)量,m 為用戶總數(shù)量;
步驟3 構(gòu)建隨機森林分類模型:利用特征向量集合,為用戶ua 構(gòu)造用戶喜好隨機森林分類模型,得到用戶ua 喜好隨機森林分類模型;
步驟4 計算用戶間相似度并尋找用戶的k 個最近鄰居:對于用戶ua ∈U 且a ≠b,其中U 為用戶集合,b 為非當(dāng)前待推薦用戶的任一用戶標(biāo)簽,根據(jù)改進后的相似度公式計算用戶間相似度sim(a,b),找到與用戶ua 相似度最高的k 個最近鄰居;
步驟5 計算改進協(xié)同過濾算法預(yù)測評分:利用用戶間相似度及相似度最高的k 個最近鄰居,根據(jù)改進協(xié)同過濾預(yù)測評分公式計算用戶ua 對于所有未評分物品p 的初步預(yù)測評分roq;
步驟6 得到初步推薦列表:找到所有預(yù)測評分中最高的Nitem 個項目,Nitem 為需要推薦商品的個數(shù),通常取常數(shù)10,依照評分進行降序排序,構(gòu)成對用戶ua 的推薦列表l;
步驟7 使用隨機森林分類模型對初步推薦列表分類:使用隨機森林分類模型對得到的推薦列表l 中的物品進行分類;
步驟8 結(jié)合兩種方法進行修正得到最終推薦列表:根據(jù)分類結(jié)果,結(jié)合改進協(xié)同過濾推薦得到的用戶ua 的初步推薦列表l,對評分進行對應(yīng)的修正調(diào)整,對列表l 中的物品按評分降序進行重排序,形成最終的推薦列表l′;
步驟9 進行最終推薦:取最終推薦列表l′中的前Nitem 個,對用戶ua 進行推薦;
步驟10 判斷是否結(jié)束:檢測是否是最后一個用戶,即a 是否等于m;若不是,返回步驟2,對下一個用戶進行推薦;若是,則完成全部用戶的推薦,推薦結(jié)束。
【疑惑與分歧】
對于該案是否構(gòu)成專利保護客體存在兩種截然不同的觀點:
觀點1:該申請只提到了獲取電子商務(wù)網(wǎng)站的記錄,沒有明確體現(xiàn)出和具體的應(yīng)用領(lǐng)域的緊密結(jié)合,其考慮的是協(xié)同過濾推薦算法本身存在的問題,僅僅是停留在人的思維層面的對某個算法問題的認(rèn)識。評分?jǐn)?shù)據(jù)為用戶的主觀數(shù)據(jù),通過評分?jǐn)?shù)據(jù)信息推薦物品,實質(zhì)上是對物品推送準(zhǔn)則進行了人為限定,根據(jù)人為制定的特定推送規(guī)則進行推送,其并未采用遵循自然規(guī)律的技術(shù)手段。即,該觀點認(rèn)為該案不屬于專利保護的客體。
觀點2:某一用戶的評分值為主觀數(shù)據(jù),但多個用戶的評分值即為客觀數(shù)據(jù),且項目推薦本身即為一個領(lǐng)域,不需要進行更具體的限定,由于用戶的特征向量集合由其他用戶對該用戶打過分的物品的評分值構(gòu)成,利用上述多個用戶的評分值進行計算從而協(xié)同推薦,是采用客觀規(guī)律,給定條件得到既定結(jié)果,采用了符合自然規(guī)律的技術(shù)手段。即,該觀點認(rèn)為該案屬于專利保護的客體。
【案例分析】
該申請請求保護一種基于隨機森林修正的大數(shù)據(jù)下改進協(xié)同過濾推薦方法,利用隨機森林算法來改進協(xié)同過濾算法。
如前所述,如果一項解決方案僅僅是利用某個算法來優(yōu)化另一個算法,沒有應(yīng)用到具體領(lǐng)域以解決技術(shù)問題,那么這樣的解決方案仍屬于抽象算法本身,并非專利保護的客體。但是,該申請在利用隨機森林方法改進協(xié)同過濾算法的過程中,要解決的問題是改進數(shù)據(jù)稀疏度對推薦精確度的不良影響。
為解決上述問題,該申請權(quán)利要求記載的方案中,從電子商務(wù)網(wǎng)站的記錄提取用戶對每個物品的評分,根據(jù)評分信息獲取用戶特征向量,根據(jù)用戶特征構(gòu)建用戶喜好隨機森林模型,結(jié)合改進協(xié)同過濾推薦得到的用戶初步推薦列表,對評分進行對應(yīng)的修正調(diào)整,對列表中的物品按評分進行降序重排序形成最終的推薦列表??梢?,該申請的解決方案體現(xiàn)了隨機森林算法和協(xié)同過濾算法在購物網(wǎng)站通過用戶評分提取用戶偏好以進行產(chǎn)品推薦的具體應(yīng)用場景,通過對評分進行修正并通過對推薦重新排序,解決了數(shù)據(jù)稀疏影響推薦精度的技術(shù)問題,采用了遵循自然規(guī)律的技術(shù)手段,并獲得了相應(yīng)的技術(shù)效果。因此,該申請符合專利法第二條第二款的規(guī)定,屬于專利保護的客體。
該申請中,用戶個體的評分標(biāo)準(zhǔn)雖然是主觀評定的,但從電子商務(wù)網(wǎng)站的記錄中提取出的用戶評分是基于大數(shù)據(jù)規(guī)模下的群體行為數(shù)據(jù)。對大規(guī)模數(shù)據(jù)進行采集,并挖掘出其中符合自然規(guī)律的內(nèi)在關(guān)聯(lián)關(guān)系,從而利用大數(shù)據(jù)反映出的用戶行為規(guī)律進行個性化推薦,并非是對物品推送準(zhǔn)則進行的人為限定。
但是,仍需注意的是,個性化推薦并非是技術(shù)領(lǐng)域,同時,并非方案中處理的數(shù)據(jù)對象是客觀數(shù)據(jù)就可以使方案構(gòu)成技術(shù)方案,同理,處理客觀數(shù)據(jù)的手段并非就構(gòu)成技術(shù)手段。在判斷涉及協(xié)同過濾算法的相關(guān)發(fā)明專利申請是否構(gòu)成技術(shù)方案時,應(yīng)把判斷的重點放在利用該協(xié)同過濾算法對某領(lǐng)域的大數(shù)據(jù)進行分類時,是否挖掘出數(shù)據(jù)之間符合自然規(guī)律的內(nèi)在關(guān)聯(lián)關(guān)系。
從協(xié)同過濾領(lǐng)域的專利申請數(shù)據(jù)統(tǒng)計分析可以發(fā)現(xiàn),該領(lǐng)域在近五年的發(fā)展非常迅速,專利申請量大幅度攀升,這些專利申請中,國內(nèi)申請人占據(jù)主導(dǎo)地位,申請覆蓋的領(lǐng)域主要集中在特別適用于特定功能的數(shù)字計算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法、信息檢索,數(shù)據(jù)庫結(jié)構(gòu)或文件系統(tǒng)結(jié)構(gòu)的算法相關(guān)的領(lǐng)域以及新商業(yè)模式相關(guān)的應(yīng)用領(lǐng)域。
目前,對于改進僅在于協(xié)同過濾算法本身的發(fā)明專利申請,由于其不涉及具體應(yīng)用領(lǐng)域,或者與改進計算機系統(tǒng)內(nèi)部性能無關(guān),因而有可能被排除在專利保護客體的范疇外。但是,協(xié)同過濾算法與一般大數(shù)據(jù)、人工智能的基礎(chǔ)算法不同,它是為了更好地利用大數(shù)據(jù)進行推薦而產(chǎn)生并不斷改進的,所處理的數(shù)據(jù)是海量的,必須利用相應(yīng)的AI 算法才能完成數(shù)據(jù)清洗、相似度計算、評分估計、推薦排序、推薦效果評估等過程,并且,對這些算法的改進能夠提高大數(shù)據(jù)分析的效率和精度。在此基礎(chǔ)上,筆者認(rèn)為,協(xié)同過濾算法的改進方案解決了在用戶/物品推薦過程中推薦精度或效率不高的問題,該算法基于對興趣類似的用戶群體的行為分析找到用戶本身屬性和被推薦物品之間的匹配程度,能夠反映用戶行為和商品屬性之間固有的關(guān)聯(lián)關(guān)系,能夠達(dá)到提高推薦準(zhǔn)確性的效果。
有鑒于此,筆者建議,可以嘗試以定向放開的方式,將大數(shù)據(jù)、人工智能涉及的中間層算法改進的解決方案納入客體保護范疇,例如,進一步明確:對于大數(shù)據(jù)、人工智能算法改進的解決方案,如果該算法與海量數(shù)據(jù)的固有特征存在特定技術(shù)關(guān)聯(lián),通過構(gòu)建知識圖譜、劃分社區(qū)、協(xié)同過濾,能夠解決提升大數(shù)據(jù)清洗效率和利用效果的技術(shù)問題,例如包括提升數(shù)據(jù)特征的抽取能力、提高數(shù)據(jù)標(biāo)引的準(zhǔn)確性、提升特定數(shù)據(jù)結(jié)構(gòu)組織構(gòu)建的效率、提升數(shù)據(jù)模型仿真和評估效果、保證數(shù)據(jù)隱私和數(shù)據(jù)安全等,從而獲得相應(yīng)的技術(shù)效果,則該解決方案屬于專利法第二條第二款所述的技術(shù)方案,屬于專利保護的客體。
專家點評
個性化推薦目前是大數(shù)據(jù)的主要應(yīng)用場景之一。本文圍繞協(xié)同過濾推薦算法,通過梳理專利申請態(tài)勢,對比各局審查結(jié)論的異同,結(jié)合該領(lǐng)域的典型案例,對協(xié)同過濾等人工智能、大數(shù)據(jù)熱點算法的創(chuàng)新成果如何能夠成為專利保護的客體,給出了當(dāng)前審查規(guī)則適用方式。此外,本文還結(jié)合大數(shù)據(jù)、人工智能領(lǐng)域中間層算法產(chǎn)生的原因、改進的目的及特點,給出了進一步放開涉及協(xié)同過濾等中間層算法的客體保護的審查政策建議,有獨到見解。