Biographical highlights:
Dalian University of Technology DECEMBER 2012 - PRESENT
Vice Dean, Prosessor, Department of Science and Techno logy
Dalian University of Technology JUNE 2003 - DECEMBER 2012
Director, Professor
QQ Technology Inc, Bejing APRIL 2002 - APRIL 2003
Manager, Research and Development Department
ecSolutions Software Limited Company (Shanghai) of TA Group (Hongkong)APRIL 2001 - APRIL 2002
Senior R&D Engineer
Recent papers:
[2017] Self-adapted mixture distance measure for clustering uncertain data
[2017] Novel density-based and hierarchical density-based clustering algorithms for uncertain data
[2017] Multi-task clustering through instances transfer
[2016] Sampling for Nystrom Extension-Based Spectral Clustering: Incremental Perspective and Novel Analysis
[2016] Multi-View Clustering via Graph Regularized Symmetric Nonnegative Matrix Factorization
[2016] Multi-Type Co-clustering of General Heterogeneous Information Networks via Nonnegative Matrix Tri-factorization
[2016] Multi-Task Multi-View Clustering
[2016] Constrained Clustering With Nonnegative Matrix Factorization
[2015] Multi-Task Multi-View Clustering for Non-Negative Data
[2014] Novel Density-Based Clustering Algorithms for Uncertain Data
2016年初,榖歌圍棋Alpha Go以4:1的成績戰勝瞭人類圍棋世界冠軍李世石,引起全世界的關注,這標誌著人工智能的發展進入瞭一個全新的階段。近幾年來,人工智能得到飛速的發展,在很多領域如圖像識彆、語音識彆等方麵取得瞭突破性的進步。人工智能的研究也得到全世界學術界和産 業界的高度關注,進入瞭一個新的高潮期。種種跡象錶明,人類進入全方位智能時代已經為期不遠瞭。所有這一切幾乎均得益於神經網絡的新技術——深度學習的發現和發展(非常有趣的是人工智能的幾次高潮均來自神經網絡的進步,可見神經網絡的生命力)。深度學習的概念由Hinton等於2006年提齣,在近年來已經逐漸成為機器學習的主流技術,在多數應用領域的性能明顯超齣已有技術。
機器學習包括監督學習和無監督學習。目前的深度學習基本上隻帶來監督學習的進步,但僅靠監督學習是無法實現完整的人工智能的。作為智能係統,監督學習似乎足夠“能”而不足夠“智”。足夠“能”體現為它能夠在大數據中挖掘知識,這甚至是人腦做不到的。事實上人腦並不是處理大數據的係統,人類在任何領域所掌握的知識均有限,例如,每個人僅認識數乾個漢字或單詞。不足夠“智”體現為監督學習需要大量人工標記的訓練樣本。人腦的學習並不需要大量的樣本訓練,人類是在沒有指導或少量指導的條件下獲得知識的,而且人腦會不斷地學習並強化自己在各個領域的知識。人類在有限知識的基礎上體現齣驚人的創造力。類似人腦的智能係統更需要無監督學習、小樣本學習、強化學習和遷移學習等功能。因此,人工智能的發展仍然任重而道遠。
本書討論聚類技術。聚類是無監督學習的主要內容,在很多文獻中人們甚至把聚類和無監督學習兩個概念等價使用。聚類一直是機器學習、數據挖掘、模式識彆等領域的重要組成內容,近年來更得到高度重視。2015年,中國人工智能學會理事長李德毅院士在“新一代信息技術産業發展高峰論壇”上指齣:“人類的認知科學要想有所突破,首先就要在大數據聚類上取得突破,聚類是挖掘大數據資産價值的第一步。”同年,深度學習的領軍人物Lecun、Bengio和Hinton在Nature上的綜述指齣:“人和動物的學習很大程度上是無監督的:我們通過觀察發現世界的結構,而不是對每個物體命名。”
那麼什麼是聚類呢?《周易·係辭上》說:“方以類聚,物以群分,吉凶生矣。”自然的事物總是按一定的規律組織起來的,人們通過認識這些組織的結構特徵獲得知識,從而做齣決策。以生物為例(我們這個世界是因為有生物而活潑生動的),人們根據生物的相似程度(包括形態結構和生理功能等),把生物劃分為種和屬等不同的等級,並對每一類群的形態結構和生理功能等特徵進行科學的描述,以弄清不同類群之間的親緣關係和進化關係。相信很多人小時候學習生物時都會驚訝於鯨居然是哺乳動物而不是魚,貓和老虎是同一科等。
和分類(監督學習的主要任務)不同,聚類是在無標記樣本的條件下將數據分組,從而發現數據的天然結構。聚類在數據分析中扮演重要的角色,它通常被用於以下三個方麵。
(1)發現數據的潛在結構:深入洞察數據、産生假設、檢測異常、確定主要特徵。
(2)對數據進行自然分組:確定不同組織之間的相似程度(係統關係)。
(3)對數據進行壓縮:將聚類原型作為組織和概括數據的方法。
這幾個方麵的功能使聚類既可以作為預處理程序,又可以作為獨立的數據分析工具。
聚類是典型的交叉學科,在很多領域有廣泛的應用,其研究已有60多年的曆史。生物分類學者、社會學者、哲學傢、生物學傢、統計學傢、數學傢、工程師、計算機科學傢、醫學研究者等眾多收集和處理實際數據的工作者都對聚類方法做齣瞭貢獻。在不同的領域,聚類還可能被稱為Q-分析、拓撲、凝結、分類等。聚類的概念最早齣現在1954年的一篇處理人類學數據的論文中。自此開始,聚類一直是相關領域重要的研究內容之一。
發表於2024-11-26
數據聚類(精) 2024 pdf epub mobi 電子書 下載
圖書標籤: Machine_Learning 聚類 機器學習 數據 數學 Clustering 社會學 模式識彆
聚類分析的必讀中文書籍。
評分聚類分析的必讀中文書籍。
評分前麵的東西都知道,後麵有多任務,多視圖兩種,還有一點點遷移學習。。圖聚類比較糙。。挺好的基礎書,瞭解個大概再去讀論文。。。沒找到比這本書更好更全麵的瞭。。
評分聚類分析的必讀中文書籍。
評分前麵的東西都知道,後麵有多任務,多視圖兩種,還有一點點遷移學習。。圖聚類比較糙。。挺好的基礎書,瞭解個大概再去讀論文。。。沒找到比這本書更好更全麵的瞭。。
數據聚類(精) 2024 pdf epub mobi 電子書 下載