核心期刊咨詢網
您當前的位置:首頁 > 學術論文 > 電子信息論文 > 面向高維數據環境的個性化推薦質量控制模型研究

面向高維數據環境的個性化推薦質量控制模型研究

來源:核心期刊咨詢網位置:電子信息論文時間:2019-11-02 11:1612

  摘 要:[目的/意義]在高維數據環境下,推薦的精準度和實時性存在相互制約的現象。如何在精準度與實時性之間取得平衡,實現對推薦質量的有效控制是值得研究的問題。[方法/過程]本文首先分析了高維數據環境的成因及其對推薦質量的影響,在此基礎上構建了一種個性化推薦質量控制模型,該模型先評估推薦質量在精準度和實時性兩個方面的損失,再結合應用環境,得到相應的質量控制策略。[結果/結論]實驗分析的結果證明該模型可以在高維數據環境下實現對推薦質量的有效控制,讓推薦系統可以更好地適應不同的應用環境。

  關鍵詞:高維數據環境;大數據;個性化推薦;推薦質量;控制;模型;應用環境

情報探索


  《情報探索》(月刊)1987年創刊,是科技情報(信息)工作指導性刊物,辦刊宗旨是積極探討和交流情報學理論和信息工作的實踐經驗。

  個性化推薦技術在電子商務、社交、廣告和新聞領域都取得了商業上的成功,受到眾多學者的關注。精準度和實時性是個性化推薦質量的兩個核心指標,推薦的精準度越高、實時性越強,就表示推薦質量越好。大數據時代的來臨,高維數據環境對推薦系統來說已經成為常態。在高維數據環境下,個性化推薦的精準度和實時性存在相互制約的現象,即:在追求更高精準度的同時,其推薦實時性往往會下降,反之如果想實現更高實時性則精準度也會受到影響。因此,當應用環境變化需要調節推薦的精準度或者實時性時,就必須在它們兩者之間取得一個平衡,不能為了提升一個推薦質量指標,而導致另一個推薦質量指標的大幅下降,這樣系統的推薦質量是無法保證的。由此,本文提出一種面向高維數據環境的個性化推薦質量控制模型,該模型通過對比推薦質量在精準度和實時性兩個方面的損失,來尋找有效的推薦質量控制策略,讓推薦系統可以更好地應對不同的應用環境。本研究不僅豐富了個性化推薦的理論體系,也為實際應用提供借鑒。

  1 相關研究

  個性化推薦是通過一定的技術手段來挖掘數據中的用戶興趣,再根據用戶興趣挖掘的結果來篩選待推薦的項目,最后生成推薦集合推送給目標用戶。目前有關個性化推薦的研究中,比較有代表性的有:

  1)根據內容相似性來實現推薦。安悅等[1]提出一種基于內容的熱門微話題個性化推薦算法,該算法通過對比內容的相似性為用戶尋找感興趣的微話題,實驗結果表明該算法可以在一定程度上解決微博數據過載的問題,實現較好的推薦效果。王嫣然等[2]提出一種基于內容過濾的科技文獻個性化推薦算法,該算法將訪問時間權重和文獻重要度兩種概念與內容過濾相結合,實現了推薦精準度的提升。王潔等[3]先根據歷史瀏覽記錄對有相同興趣的用戶進行聚類,再通過內容相似性挖掘尋找推薦項目,實驗證明該個性化推薦方法可以有效提升推薦的精準度。

  2)根據社交網絡中的用戶關系實現推薦。陳婷等[4]提出一種融合社交信息的個性化推薦方法,該方法將用戶評分相似度與社交網絡中的信任關系兩者相結合來尋找最近鄰,結合用戶自身偏好和最近鄰的影響實現評分預測,實驗結果證明該算法可以提升推薦的精準度。李鑫等[5]提出了一種基于興趣圈中社會關系挖掘的個性化推薦算法,該算法將興趣圈中的社會關系與矩陣分解模型相結合,實現矩陣分解的優化,實驗證明該方法在解決推薦冷啟動方面有較好的效果。Ma H等[6]將信任網絡與用戶評分結合,通過概率矩陣分解來優化推薦。景楠等[7]提出了一種基于用戶社會關系的好友個性化推薦算法,該算法將用戶在社會網絡中的影響力和社會關系相結合實現推薦算法的改進。

  3)利用標簽信息來改進推薦效果。陳梅梅等[8]提出了基于標簽簇的信任張量模型,再通過計算簇內和簇間的信任強度,實現對傳統相似性計算的補充,從而改進個性化推薦的準確性。孔欣欣等[9]提出一種基于標簽權重評分的個性化推薦模型,并結合該模型對多類傳統推薦算法進行改進,實驗證明了該模型的有效性。李瑞敏等[10]通過分析用戶、標簽和項目之間的關系建立圖模型,在此基礎上將初步推薦列表與間接關聯集合進行綜合,實現對推薦算法的改進。

  4)融合情境的個性化推薦。劉海鷗等[11]提出了一種對多種情境進行興趣建模的方法,該方法可以提升推薦的精準度。周明建等[12]用多維度建模法構建了知識情境模型,通過計算知識情境的相似性來尋找關聯知識并實現推薦,實驗表明該方法提升了個性化推薦的精準度。

  5)基于協同過濾的個性化推薦。杜永萍等[13]將用戶間的信任關系與評分相似性相結合來尋找最近鄰,實現對傳統協同過濾推薦算法的改進。董立巖等[14]提出一種基于時間衰減的協同過濾個性化推薦算法,該算法將遺忘曲線和記憶周期融入協同過濾推薦中,以興趣衰減函數來優化評分相似性的判斷,實驗證明該算法可提高推薦的精準度。郭蘭杰等[15]提出一種融合社交網絡的協同過濾個性化推薦算法,該算法利用社交網絡中的朋友關系來進行評分矩陣的填充,可有效緩解數據稀疏性問題,實現算法的改進。郭弘毅等[16]提出一種融合社區結構和興趣聚類的協同過濾改進算法,該算法先識別社交網絡中的社區結構,再與用戶興趣聚類信息進行融合來共同優化矩陣分解模型,實驗證明該算法提升了推薦的精準度。

  總體來看,目前針對個性化推薦的研究中,無論是優化相似性的度量方法,還是改進最近鄰的查找流程,或是優化矩陣降維的方法等等,其改進的思路都是通過對推薦算法的不同環節進行優化改進來提升推薦質量。大數據時代,推薦系統經常面對高維的數據環境,高維數據環境下推薦精準度和推薦實時性相互制約的現象,會嚴重影響推薦質量的穩定,讓推薦系統無法適應應用環境的變化,而目前恰恰缺少對該問題解決方法的研究。由此,本文提出一種面向高維數據環境的個性化推薦質量控制模型,為解決該問題提供參考。

  2 推薦系統高維數據環境的形成原因

  大數據時代用戶數據極大豐富,個性化推薦系統為了更好地感知用戶的興趣偏好,會通過不同渠道收集用戶的各類數據,并將它們集中存儲起來作為推薦算法的數據源。如果這些數據源中的數據具有很高的維度,那么推薦系統就處在高維數據環境當中。推薦系統高維數據環境的形成原因主要有以下兩點:

  第一,用戶數和項目數的快速增長,導致推薦系統主數據源的維度大幅增加。個性化推薦系統是通過分析用戶已有消費或評分記錄,來判斷用戶的興趣,再在用戶未消費過的項目中匹配合適的推薦項目。因此,用戶消費或者評分的歷史記錄就是推薦系統的主數據源。隨著用戶數和項目數的快速增長,用戶歷史消費記錄矩陣或用戶對項目的評分矩陣都會大幅擴容,形成高維數據環境。

  第二,由于數據之間存在關聯關系,附屬數據源的維度也會快速增長。上文提到推薦系統會收集各類用戶數據作為興趣感知源。本文將歷史消費信息與評分信息以外的數據統稱為附屬數據源。這些附屬數據雖然來源很多,數據類型和數據格式也很復雜,但它們都有一個共同特點,就是可以根據用戶的行為軌跡進行關聯。這樣一來不同類型的用戶數據不再是相互孤立的,而是通過這種關聯關系緊密地聯系起來。因此,當主數據源的維度增加時,附屬數據也必須進行相應擴容。比如將用戶背景信息、社交網絡、標簽等與歷史購買記錄或用戶評分進行融合來實現推薦時,當購買記錄矩陣或評分矩陣的維度增加時,與之對應的用戶背景信息、社交網絡信息或者標簽信息的數據維度也在增長,這些附屬數據維度的增長速度甚至快于主數據源本身,由此進一步促使了推薦系統高維數據環境的形成。

  3 高維數據環境對個性化推薦質量的影響

  精準度與實時性是個性化推薦質量的兩個核心指標,以下將分別介紹高維數據環境對推薦精準度和推薦實時性的影響,最后分析了精準度與實時性在高維數據環境下相互制約的原因。

  3.1 高維數據環境對推薦精準度的影響

  個性化推薦是通過分析用戶行為數據或用戶背景數據等信息來判斷用戶的興趣偏好。用戶的興趣是多方面,每個方向上都可能有潛在的興趣點,要想感知這些興趣,就需要有相應的用戶數據。總的來說,用戶興趣感知源越多,就越能從多個側面來推斷用戶的偏好。當推薦系統處于高維數據環境時,主數據源和附屬數據源都涵蓋了大量的有用信息,推薦系統可以利用不同的算法模型來挖掘用戶的興趣。從這個角度來說,高維數據環境對提升推薦精準度有正面的作用。比如推薦系統可以利用用戶背景數據與消費評價數據進行融合,在多個用戶背景維度上對其興趣進行細分,這樣預測出的用戶興趣的精準度會大大提高,同樣的結合項目本身的屬性或者社交網絡、信任關系等也可以提升推薦的精準度。總的來說,高維數據環境為推薦系統提供了豐富的興趣感知源,為推薦精準度的提升奠定了數據基礎。

  3.2 高維數據環境對推薦實時性的影響

  推薦實時性也是推薦質量的重要指標,當用戶訪問網站時,推薦系統必須快速地識別用戶的潛在意圖,并及時給予推薦,這樣用戶根據系統推薦進行進一步的選擇。如果推薦集合的計算時間太長,無法保證推薦的實時性,用戶可能跳轉到另外一個頁面,其興趣可能已經發生轉化,或者在新的頁面下已經沒有了推薦欄的設置,無法實現推薦。這樣系統的推薦質量會大大下降,用戶體驗也會降低。因此,保證推薦實時性對推薦系統來說非常重要。在高維數據環境下,用戶興趣感知源的增加,對推薦精準度來說是利好,但是對于推薦實時性來說,會使得興趣挖掘的計算復雜度大幅提升,從而導致系統開銷過大,直接影響推薦系統的響應。特別是將附屬數據源與主數據源進行融合挖掘時,計算復雜度的數量級會大大增加。此外,當大量用戶同時訪問時,系統的負擔會進一步加重,系統響應時間也會延長。總的來說,高維數據環境會降低推薦的實時性。

  3.3 高維數據環境下精準度和實時性相互制約的原因 在高維數據環境下,系統要想改善推薦的精準度,就希望從不同角度來深入挖掘用戶的興趣偏好,這時需要調用的用戶數據會大幅增加。而調用數據的增加會使得興趣挖掘的計算量大幅提升,推薦實時性就無法保證。如果只調用很少的數據來挖掘用戶的興趣,雖然減少了計算量但無法深入感知用戶的興趣偏好,推薦精準度就很難保證,這就是造成推薦精準度和推薦實時性相互制約的原因。

  推薦系統可以使用不同的算法來實現推薦,也可以通過多類型算法相互補充實現更高的精準度。因此,需要重點說明的是精準度與實時性的相互制約是針對整個推薦系統來說的。部分推薦算法通過模型的改進,可以在提高精準度的同時也提升實時性,但這只是局限在算法的層面,改進算法相對于原來的算法,在調用數據不變的情況下可以實現精準度與實時性的同時改進。但是,當推薦系統使用這種改進算法進行實際推薦時,其調用數據的越來越多,推薦實時性必然會下降。此外,還需要強調的是推薦精準度的提升不是無限的,達到局部的峰值以后會下降。

  綜上,為實現高維數據環境下對推薦質量的有效控制,本文提出一種個性化推薦質量控制模型,下文將詳細介紹該模型的設計,并通過實驗分析驗證模型的有效性。

  4 面向高維數據環境的個性化推薦質量控制模型4.1 模型的詳細設計

  本文提出的面向高維數據環境的個性化推薦質量控制模型,包含6個主要步驟,具體如下:

  4.1.1 對推薦系統的狀態進行標記

  在高維數據環境下,推薦系統通過挖掘歷史數據中的用戶興趣來產生推薦,挖掘越深越耗時,但精準度會提升。放棄精準度的提升,降低挖掘深度就會節省時間,提升推薦的實時性。推薦系統通過調整挖掘深度來控制精準度與實時性的高低。設F={ft,0,1,2,3,…,k}為推薦系統處于不同挖掘深度時的狀態集合(非空集合),ft為F中的任意一個系統狀態,ft記錄了系統調用的推薦算法的相關信息以及調用數據的范圍。設wft表示推薦系統處于狀態ft時的推薦精準度,設dft表示推薦系統處于狀態ft時的推薦實時性。F中的每一個的系統狀態分別對應一組精準度與實時性的值。

  4.1.2 計算推薦實時性

  推薦實時性可以用推薦時間來反映,推薦時間越短實時性越好。然而使用推薦時間來直接表示推薦實時性不能反映算法挖掘的細節。由此,本文在衡量推薦實時性時采用算法計算量來替代推薦時間。所謂算法計算量,為推薦算法在所調用的數據中需要比對的用戶數或者項目數。在個性化推薦中,推薦時間與算法計算量成正比,即:算法計算量越大,推薦時間越長,其對應的推薦實時性越低。反之,算法計算量越小,其推薦時間越短,相應的推薦實時性越高。計算F中每個系統狀態下的推薦實時性,再將F中的系統狀態按照其對應的推薦實時性從高到低順序排列,形成一個系統狀態列表L。設系統狀態為ft時的算法計算量為Qft,即推薦實時性dft就等于Qft的值。

  4.1.3 確定推薦實時性的臨界值

  在個性化推薦中,系統會根據應用環境和用戶反饋,設置推薦實時性的臨界值。該臨界值就是推薦系統能夠接受的最長推薦時間,超過這個臨界值,則被認定無法實現即時的推薦,精準度的高低就失去了意義。由于本文采用算法計算量替代推薦時間來評價推薦實時性,所以推薦實時性的臨界值,就是算法計算量的上限值,設該上限值為B。將系統狀態列表L中推薦實時性超過臨界值B的系統狀態刪除,形成新的列表L1。

  4.1.4 計算推薦精準度

  計算h′ ft是為了測量其它系統狀態相對于基準狀態的實時性損失程度。因此,必須以Qf0為基準減去Qft,這種順序安排對應了質量損失的意義。先計算不同系統狀態下算法計算量的差值的絕對值,再判斷推薦實時性的方向系數,是為了分別展示推薦實時性的變化幅度和變化方向。

  當推薦實時性損失h′ ft為正數時,表示與基準狀態相比推薦實時性下降了。當h′ ft為負數時,表示與基準狀態相比推薦實時性提高了。

  根據上述公式,計算列表L2中除基準狀態f0以外的其它系統狀態的推薦精準度損失和推薦實時性損失。

  4.1.6 建立推薦質量控制節點

  將推薦精準度損失與推薦實時性損失的結果,按照列表L2中系統狀態的順序依次排列,可以對比不同系統狀態下精準度與實時性的損失程度,由此可建立推薦質量控制節點,推薦質量控制節點的格式如表1所示:

  在個性化推薦中,系統都會盡量提升推薦的精準度,由于基準狀態的精準度最高,所以可以讓系統先以基準狀態進行推薦。當系統的應用環境發生變化,需要改變推薦精準度或推薦實時性時,為保證推薦質量的穩定,避免單一推薦質量指標的大幅下降,可以先設置質量控制的目標。根據質量控制目標的要求,找到相應的推薦質量控制節點。再通過推薦質量控制節點中系統狀態的信息,設置算法的挖掘深度和數據調用的范圍,由此可以實現有效的推薦質量控制。

電子信息論文發表流程

電子信息論文發表流程-核心期刊咨詢網
城市管理論文發表咨詢電話:400-7890619

相關論文閱讀

期刊論文問答區

電子信息優質期刊

省級期刊、國家級期刊、核心級期刊快速發表,電子信息論文發表就找核心期刊咨詢網

最新期刊更新

精品推薦