
科研進展
重慶研究院在推薦系統(tǒng)信息核方面取得研究進展
時間:2016-10-24編輯:信息所大數據挖掘及應用中心
近日,重慶研究院大數據挖掘及應用中心團隊在挖掘推薦系統(tǒng)的信息核方面取得進展,該研究成果在保證推薦功能的前提下對推薦網絡進行結構壓縮,為推薦算法處理大規(guī)模數據集提供了新思路。
個性化推薦技術,在理論層面和應用層面都具有十分重要的意義。一方面,個性化推薦可以看作是稀疏矩陣的完備問題,另一方面,個性化推薦已經成為在線網站的核心技術,取得了巨大的經濟和社會效益,切實改善了人們的工作和生活。
在線系統(tǒng)中,推薦系統(tǒng)要做的就是分析用戶的上網行為,主動為用戶推薦可能感興趣的對象,比如新聞、商品、好友、音樂等。到目前為止,大多數的工作主要研究如何提高推薦算法的性能,例如推薦系統(tǒng)的準確性、多樣性和效率等,只有極少量的工作試圖研究推薦系統(tǒng)的工作原理,以及推薦算法有效的原因。
一般地,推薦系統(tǒng)可以簡化為一個用戶—商品的二部分圖。近年來,蓬勃發(fā)展的復雜網絡研究為推薦系統(tǒng)研究提供了新的理論和方法,基于網絡的推薦系統(tǒng)逐漸成為一個重要的分支,在理論和應用中都取得了很好的成果。另一方面,復雜網絡的發(fā)展也為研究人員更深刻地理解推薦系統(tǒng)提供了有力的工具。其中,對給定數據集,如何在眾多推薦算法中找到合適的推薦算法是一個相當重要而又非常困難的問題。針對上述問題,中科院重慶研究院大數據中心尚明生研究員及其研究團隊提出并研究了推薦算法和數據集的特征關聯問題,提出一種使得通過事先分析數據集的特征就能找到適合該數據集的推薦算法[1]。
同時,該研究團隊進一步提出并研究了推薦系統(tǒng)的數據壓縮問題,通過提取用戶—商品二部分網絡的信息核[2]或者信息骨架[3],大幅提升推薦算法的計算效率。信息核定義為推薦系統(tǒng)中小部分核心用戶,這些用戶攜帶了大量的信息。研究表明,當推薦算法只考慮信息核的信息時,算法有時候比用所有信息得到的推薦精確度還要高;最差的情況下,也能達到91.4%的精確性。但該算法只考慮了一些簡單的網絡結構,比如網絡中的四邊形。
為了彌補現有方法的不足,該研究團隊提出基于用戶和商品鄰居節(jié)點的信息,提取用戶—商品二部分網絡的信息骨架[4]。測試結果表明,該方法要明顯好于現有的信息骨架提取方法。進一步深入分析所提取的信息骨架的結構特征,發(fā)現該方法提取的信息骨架具有較高的聚集系數,這從一定程度上揭示了該算法優(yōu)于現有算法的原因。以上研究已獲得國家自然科學基金項目支持。
相關成果均已發(fā)表:
[1] Shang M-S, Lü L, Zhang Y-C, Zhou T, Empirical analysis of web-based user-object bipartite networks, EPL, 2010, 90: 48006
[2] Zhang Q-M, Zeng A, Shang M-S, Extracting the information backbone in online system,2013, PLoS ONE 8: e62624
[3] Zeng W, Zeng A, Liu H, Shang M-S, T Zhou, Uncovering the information core in recommender systems, Scientific Report 2014, 4: 6140
[4] Zeng W, Fang M, Shao J, Shang M-S. Uncovering the essential links in online commercial networks. Scientific Report, 2016, 6: 34292.
[5] 曾偉,尚明生. 一種基于關鍵用戶的個性化推薦方法和系統(tǒng).發(fā)明專利申請?zhí)枺?/span>201510157504.9
論文鏈接:
1http://iopscience.iop.org/article/10.1209/0295-5075/90/48006/meta
2http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0062624
3http://www.nature.com/articles/srep06140?WT.ec_id=SREP-639-20140826
中國科學院重慶綠色智能技術研究院 版權所有京ICP備05002857號渝公網安備50010943035號