第七章 无监督学习
1. 7.1无监督学习简介
ppt page 1: 大家好,接下来给大家讲解第7章第1节,主要讲解无监督学习简介
ppt page 2: 本节目标是理解无监督学习、聚类模型和自编码网络模型的概念
ppt page 3: 在前面介绍的机器学习方法中,训练数据都是有标签的。但在现实世界中,想要提供具有标签的数据并不容易,对于大量的训练数据,我们没有精力去进行标识,甚至是无法标识的,我们希望能够实现一种犹如人脑的模型,只需少量的标签便可理解这个多彩的世界。对于这种仅有数据本身而没有标签的训练数据的学习,就是无监督学习。 对于无监督学习而言,由于输入数据没有标签,因此在学习训练时无法获取正确的标签信息。无监督学习在模型构建、正确率等方面与监督学习都是不一样的 有监督学习和无监督学习的区别: 有监督训练过程 ----训练样本集中每个样本的类别已经被标记 无监督训练过程 ----使用未被标记的训练样本
ppt page 4: 无监督学习方法好处: 1.收集并标记大型样本集非常费时费力,无监督学习节省了时间成本 -例如:语音信息的记录 2.逆向解决问题:用大量未标记样本集训练,将未标记的样本数据分组,再人工标记数据分组 --例如:数据挖掘的应用 3.对于待分类模式性质会随时间变化的情况,使用无监督方法可以大幅提升分类器性能 --例如:自动食品分类器中食品随季节而改变 4.用无监督方法提取一些对进一步分类很有用的基本特征 --独立于数据的“灵巧预处理”,“灵巧特征提取" 5.揭示观测数据的一些内部结构和规律 --就能更有效设计有针对性的分类器
ppt page 5: 对于无监督学习而言,由于输入数据没有标签,所以在学习训练时无法获取正确的标签信息,在模型构建、正确率等方面和监督学习都是不一样的,主要的模型为: Ø 聚类模型 Ø 自编码网络模型 目前在无监督学习中研究最多、应用最广的就是最聚类模型。那么,接下来简单了解一下聚类模型和自编码网络模型
ppt page 6: 聚类的概念 一、聚类就是将集合划分成由类(相)似的对象组成的多个类的过程。 二、聚类分析是研究(样品或指标)分类问题的一种统计分析方法。 三、聚类所要求划分的类是未知的,一般把它理解为无监督学习。而分类算法是有训练样本的,属于监督学习。 如右图所未,我们可以将某个点划分到某个类别中,至于划分的算法是什么,那就是我们后面要介绍的内容了。
ppt page 7: 聚类的典型应用 1、聚类可以帮助市场分析人员从客户基本信息库中发现不同的客户群; 2、在生物学上,聚类可以根据生物基因结构,推导出植物和动物的物种分类,从而获得对生物种群固有结构的认识; 3、聚类还能从地球观测数据库中找到地形、地貌等地理特征相似的区域,提供生物物种或病虫害预警信息; 4、根据房屋的类型、价值和地理位置等信息对城市房屋进行聚类分组,为客户提供房屋资产评估服务
ppt page 8: 聚类的思想:对于未指定明确的分类的数据,通过其本身呈现出的集群的结构,使用若干个通常是不相交的子集对样本数据进行划分,每个子集称之为“簇”(Cluster)。通过这样的划分,每个簇可能对应着一些潜在的类别。这些通过聚类模型划分的类别在训练前是未知的,只是在训练过程中自动形成的簇结构,对于这种自然划分形成的簇,在实际使用前还需要使用者再次进行评估 基于不同的学习策略,人们设计出了多种类型的聚类算法,主要包括原型聚类、密度聚类和层次聚类。 Ø 原型聚类算法:假设数据的聚类结构能通过一组原型进行刻画,然后对原型进行不断的迭代更新而获取到数据的聚集、分类。主要的原型聚类算法包括了k均值算法(k-means)、学习向量量化(LVQ)以及高斯混合聚类。 Ø 密度聚类算法:假设数据的聚类结构能通过样本分布的紧密程度确定。通常情况下,密度聚类从样本密度的角度出来,来考查样本之间的可连接性,并基于可连接样本不断扩展聚类簇,以获得最终的聚类结果。最著名的的密度聚类算法就是dbscan算法。 Ø 层次聚类算法:假设数据的聚类结构能够通过数据的分层来进行确定。试图在不同层次对数据集进行划分,从而形成树形的聚类结构。数据集的划分可采用"自底向上"的聚合策略,也可以采用"自顶向下"的分拆策略。层次聚类算法的优势在于,可以通过绘制树状图(dendrogram),帮助我们使用可视化的方式来解释聚类结果。层次聚类的另一个优点就是,它不需要事先指定簇的数量。最著名的层次聚类算法就是agnes算法。
ppt page 9: 自编码网络模型 在无监督学习中,还有一种重要的训练方法是自编码网络。 自编码网络是一种神经网络,利用信息论中对信息进行“编码-解码”原理。通过对信息进行“编码-解码”,可以对原始信息进行恢复重建,而且编码后的信息虽然在形式上与原信息不同,但有效地保留了原始信息的内容。 在自编码网络模型中,一般都通过构建多层神经网络来实现。将原信息作为神经网络模型的输入,通过神经网络中间层的处理对原信息进行“编码-解码”过程,形成神经网络的输出。对神经网络的输出与原始信息之间的误差进行比较,以误差最小化作为损失函数进行整体网络的迭代和调整 在此基础上还可以进一步改造,比如对输入添加噪声后进行训练,可以使编码信息具有一定的抗噪能力等。 接下来将使用最常用的k均值聚类和自编码网络来讲解监督学习
ppt page 10: 本节小结:本节主要讲解无监督学习、聚类模型和自编码网络模型的概念,本节讲解到这里,谢谢大家 |