
科研進(jìn)展
重慶研究院在稀疏大數(shù)據(jù)分析方法研究中取得進(jìn)展
時(shí)間:2016-11-22編輯:信息所大數(shù)據(jù)中心
近日,重慶研究院大數(shù)據(jù)挖掘及應(yīng)用中心團(tuán)隊(duì)在稀疏大數(shù)據(jù)分析方法研究中取得進(jìn)展,率先提出“恒定非負(fù)的高維稀疏矩陣隱特征分析方法”[1, 2]。該方法能對(duì)高維稀疏矩陣這種典型大數(shù)據(jù)結(jié)構(gòu)進(jìn)行高效、恒定滿足非負(fù)條件的隱特征分析,進(jìn)而完成集簇探測(cè)、缺失值預(yù)測(cè)、趨勢(shì)分析等知識(shí)發(fā)現(xiàn)任務(wù)。相關(guān)研究成果發(fā)表于《IEEE Access》[1],并以長(zhǎng)文形式[2]被數(shù)據(jù)挖掘領(lǐng)域頂級(jí)會(huì)議“IEEE International Conference on Data Mining 2016(IEEE ICDM 2016)*”錄用。
高維稀疏矩陣是大數(shù)據(jù)應(yīng)用系統(tǒng)產(chǎn)生的典型數(shù)據(jù)結(jié)構(gòu),出現(xiàn)場(chǎng)景包括電子商務(wù)、社交網(wǎng)絡(luò)、云服務(wù)優(yōu)選、網(wǎng)絡(luò)媒體、公共交通、運(yùn)營(yíng)商服務(wù)等。其頻繁出現(xiàn)的主要原因是隨著應(yīng)用系統(tǒng)的規(guī)模不斷擴(kuò)大,其所涉及的實(shí)體數(shù)量不斷膨脹,導(dǎo)致1)實(shí)體關(guān)系的維度不斷提高;2)每個(gè)實(shí)體所能交互的實(shí)體子集在實(shí)體全集中占據(jù)的比例不斷下降。因此,描述實(shí)體間關(guān)系的數(shù)據(jù)結(jié)構(gòu)一般具備高維、稀疏的特點(diǎn),如高維稀疏矩陣(涉及兩個(gè)實(shí)體集合)、高維稀疏張量(涉及三個(gè)實(shí)體集合)以及高維稀疏超張量(涉及四個(gè)及以上的實(shí)體集合)。其中,高維稀疏矩陣是最常出現(xiàn)的數(shù)據(jù)結(jié)構(gòu)。如何對(duì)其進(jìn)行高效的隱特征分析,從而發(fā)現(xiàn)有效的模式,進(jìn)而獲取有用的知識(shí),是大數(shù)據(jù)挖掘與應(yīng)用領(lǐng)域的熱點(diǎn)研究問(wèn)題[3]。
一般情況下,工業(yè)應(yīng)用產(chǎn)生的數(shù)據(jù)具備非負(fù)性,進(jìn)行隱特征建模時(shí),需要加入非負(fù)約束,使所得模型能更好地表征目標(biāo)數(shù)據(jù)[4]。但非負(fù)約束會(huì)使隱特征分析過(guò)程進(jìn)一步復(fù)雜化,這就提高了對(duì)優(yōu)化求解方法的要求[4]。針對(duì)該問(wèn)題,重慶研究院大數(shù)據(jù)挖掘及應(yīng)用中心羅辛研究員及其研究團(tuán)隊(duì)提出了一種恒定非負(fù)的高維稀疏矩陣隱特征分析方法。其主要思想是:1)將隱特征分析通過(guò)單特征依賴的建模形式,從目標(biāo)高維稀疏矩陣轉(zhuǎn)移到其已知數(shù)據(jù)集合上,降低隱特征模型的空間和時(shí)間復(fù)雜度;2)引入單特征依賴、恒定非負(fù)的非線性函數(shù),對(duì)非負(fù)約束的優(yōu)化過(guò)程進(jìn)行松弛,將優(yōu)化決策過(guò)程與輸出隱特征分離,使優(yōu)化決策參數(shù)不再受非負(fù)約束,從而輸出隱特征恒定非負(fù);3)參數(shù)優(yōu)化過(guò)程與通用優(yōu)化方法兼容。實(shí)驗(yàn)結(jié)果表明,應(yīng)用該方法構(gòu)造的隱特征模型能恒定輸出非負(fù)的隱特征,對(duì)比現(xiàn)有非負(fù)預(yù)測(cè)模型,算法實(shí)現(xiàn)難度明顯降低,且能高效處理如社區(qū)發(fā)現(xiàn)和缺失值預(yù)測(cè)等知識(shí)發(fā)現(xiàn)任務(wù)[1, 2]。
相關(guān)研究成果均已發(fā)表:
[1] Xin Luo, Mengchu Zhou, Mingsheng Shang, Shuai Li, and Yunni Xia. A Novel Approach to Extracting Non-negative Latent Factors from Big Sparse Matrices [J]. IEEE Access, 2016, 4: 2649-2655.
[2] Xin Luo, Mingsheng Shang, and Shuai Li. Efficient Extraction of Non-negative Latent Factors from High-dimensional and Sparse Matrices in Industrial Applications [C]. IEEE International Conference on Data Mining 2016, Accepted.
[3] XinLuo, Mengchu Zhou, Yunni Xia, and Qingsheng Zhu. An Incremental-and-Static-Combined Scheme for Matrix-Factorization-Based Collaborative Filtering[J]. IEEE Trans. on Automation Science and Engineering, 2016, 13(1):333-343.
[4] Xin Luo, Mengchu Zhou, Shuai Li, Zhuhong You, Yunni Xia, and Qingsheng Zhu. A Non-negative Latent Factor Model for Large-scale Sparse Matrices in Recommender Systems via Alternating Direction Method[J]. IEEE Transactions on Neural Networks and Learning Systems, 2016, 27(3):524-537.
論文鏈接:
http://ieeexplore.ieee.org/document/7457202/?arnumber=7457202
http://ieeexplore.ieee.org/document/6883239/
http://ieeexplore.ieee.org/document/7112169/