
科研進(jìn)展
重慶研究院在半監(jiān)督分類(lèi)學(xué)習(xí)技術(shù)研究中取得系列進(jìn)展
時(shí)間:2017-09-15編輯:信息所大數(shù)據(jù)挖掘及應(yīng)用中心
近日,重慶研究院大數(shù)據(jù)挖掘及應(yīng)用中心團(tuán)隊(duì)在對(duì)半監(jiān)督分類(lèi)學(xué)習(xí)及其應(yīng)用開(kāi)展的研究中,取得系列進(jìn)展。 相關(guān)研究成果發(fā)表在IEEE Transactions on Industrial Informatic、Neurocomputing和Ecological Indicators等期刊上,研究獲得國(guó)家科技重大專(zhuān)項(xiàng)“水體污染防治與治理”項(xiàng)目支持。
監(jiān)督學(xué)習(xí),是兩種基本的機(jī)器學(xué)習(xí)方式之一,其基本原理是通過(guò)分析大量已標(biāo)記的數(shù)據(jù)信息,根據(jù)某些假設(shè)挖掘出數(shù)據(jù)信息的內(nèi)部規(guī)律,建立相應(yīng)學(xué)習(xí)系統(tǒng),從而對(duì)未見(jiàn)樣本信息進(jìn)行估計(jì)與預(yù)測(cè)。然而,在現(xiàn)實(shí)生產(chǎn)生活中想要獲取足夠多的標(biāo)記數(shù)據(jù)非常困難,因?yàn)檫@需要耗費(fèi)大量的人力物力來(lái)實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的預(yù)先標(biāo)記。在大數(shù)據(jù)時(shí)代,更多情況則是海量未標(biāo)記數(shù)據(jù)與少量標(biāo)記數(shù)據(jù)同時(shí)存在,如何通過(guò)僅有的少量標(biāo)記數(shù)據(jù)和海量的未標(biāo)記數(shù)據(jù)來(lái)學(xué)習(xí)實(shí)現(xiàn)優(yōu)秀分類(lèi)系統(tǒng)顯得尤為重要。半監(jiān)督分類(lèi)學(xué)習(xí),研究如何利用大量未標(biāo)記數(shù)據(jù)輔助少量標(biāo)記數(shù)據(jù)進(jìn)行學(xué)習(xí)以改進(jìn)分類(lèi)學(xué)習(xí)系統(tǒng)性能,近年來(lái)成為機(jī)器學(xué)習(xí)領(lǐng)域研究熱點(diǎn),并被廣泛應(yīng)用于工業(yè)、農(nóng)業(yè)和交通等領(lǐng)域。
首先,研究團(tuán)隊(duì)針對(duì)現(xiàn)有傳統(tǒng)自標(biāo)記半監(jiān)督分類(lèi)模型的局部最優(yōu)解、僅適用球狀數(shù)據(jù)問(wèn)題,提出了一種基于數(shù)據(jù)密度峰值的自標(biāo)記半監(jiān)督分類(lèi)模型。該模型通過(guò)無(wú)監(jiān)督的計(jì)算數(shù)據(jù)密度峰值,發(fā)現(xiàn)數(shù)據(jù)內(nèi)部聚類(lèi)知識(shí)空間結(jié)構(gòu)特征,進(jìn)一步將此聚類(lèi)知識(shí)空間結(jié)構(gòu)特征引入自標(biāo)記半監(jiān)督分類(lèi)學(xué)習(xí)訓(xùn)練過(guò)程,可實(shí)現(xiàn)高質(zhì)量的半監(jiān)督分類(lèi)計(jì)算。其次,研究團(tuán)隊(duì)針對(duì)傳統(tǒng)自標(biāo)記半監(jiān)督分類(lèi)模型在自訓(xùn)練迭代過(guò)程中的錯(cuò)誤標(biāo)記問(wèn)題,提出了一種適應(yīng)于所有自標(biāo)記半監(jiān)督分類(lèi)模型的優(yōu)化框架。該優(yōu)化框架通過(guò)將差分進(jìn)化算法引入自標(biāo)記半監(jiān)督分類(lèi)模型的自訓(xùn)練迭代過(guò)程,實(shí)現(xiàn)對(duì)所有標(biāo)記數(shù)據(jù)點(diǎn)的監(jiān)督優(yōu)化,可最大程度避免錯(cuò)誤標(biāo)記問(wèn)題在自訓(xùn)練迭代過(guò)程中的出現(xiàn),從而提升分類(lèi)學(xué)習(xí)系統(tǒng)性能。最后,研究團(tuán)隊(duì)針對(duì)水體富營(yíng)養(yǎng)化這一全球性水環(huán)境問(wèn)題,提出了一種基于自標(biāo)記半監(jiān)督分類(lèi)算法的水體富營(yíng)養(yǎng)化評(píng)價(jià)模型。該評(píng)價(jià)模型通過(guò)將上述半監(jiān)督分類(lèi)學(xué)習(xí)應(yīng)用于水體富營(yíng)養(yǎng)化評(píng)價(jià),解決了傳統(tǒng)富營(yíng)養(yǎng)化評(píng)價(jià)方法與模型面臨的所需指標(biāo)獲取代價(jià)太高和實(shí)時(shí)監(jiān)測(cè)大數(shù)據(jù)處理能力不足的問(wèn)題,其研究成果將有助于在大數(shù)據(jù)時(shí)代下對(duì)水庫(kù)富營(yíng)養(yǎng)化問(wèn)題實(shí)現(xiàn)科學(xué)認(rèn)知與評(píng)價(jià)。
論文鏈接:
2.http://www.sciencedirect.com/science/article/pii/S0925231217309608?via%3Dihub
基于數(shù)據(jù)密度峰值的自標(biāo)記半監(jiān)督分類(lèi)模型流程圖
自標(biāo)記半監(jiān)督分類(lèi)模型優(yōu)化框架示意圖