第七章 无监督学习

1. 7.1无监督学习简介

ppt page 1:

大家好,接下来给大家讲解第7章第1节,主要讲解无监督学习简介

 

ppt page 2:

本节目标是理解无监督学习、聚类模型和自编码网络模型的概念

 

ppt page 3:

在前面介绍的机器学习方法中,训练数据都是有标签的。但在现实世界中,想要提供具有标签的数据并不容易,对于大量的训练数据,我们没有精力去进行标识,甚至是无法标识的,我们希望能够实现一种犹如人脑的模型,只需少量的标签便可理解这个多彩的世界。对于这种仅有数据本身而没有标签的训练数据的学习,就是无监督学习。

对于无监督学习而言,由于输入数据没有标签,因此在学习训练时无法获取正确的标签信息。无监督学习在模型构建、正确率等方面与监督学习都是不一样的

有监督学习和无监督学习的区别:

有监督训练过程

          ----训练样本集中每个样本的类别已经被标记

无监督训练过程

          ----使用未被标记的训练样本

 

ppt page 4:

无监督学习方法好处:

1.收集并标记大型样本集非常费时费力,无监督学习节省了时间成本

 -例如:语音信息的记录

2.逆向解决问题:用大量未标记样本集训练,将未标记的样本数据分组,再人工标记数据分组

 --例如:数据挖掘的应用

3.对于待分类模式性质会随时间变化的情况,使用无监督方法可以大幅提升分类器性能

  --例如:自动食品分类器中食品随季节而改变

4.用无监督方法提取一些对进一步分类很有用的基本特征

  --独立于数据的“灵巧预处理”,“灵巧特征提取"

5.揭示观测数据的一些内部结构和规律

  --就能更有效设计有针对性的分类器

 

ppt page 5:

对于无监督学习而言,由于输入数据没有标签,所以在学习训练时无法获取正确的标签信息,在模型构建、正确率等方面和监督学习都是不一样的,主要的模型为:

Ø 聚类模型

Ø 自编码网络模型

目前在无监督学习中研究最多、应用最广的就是最聚类模型。那么,接下来简单了解一下聚类模型和自编码网络模型

 

ppt page 6:

聚类的概念

一、聚类就是将集合划分成由类(相)似的对象组成的多个类的过程。

二、聚类分析是研究(样品或指标)分类问题的一种统计分析方法。

三、聚类所要求划分的类是未知的,一般把它理解为无监督学习。而分类算法是有训练样本的,属于监督学习。

如右图所未,我们可以将某个点划分到某个类别中,至于划分的算法是什么,那就是我们后面要介绍的内容了。

 

 

ppt page 7:

聚类的典型应用

1、聚类可以帮助市场分析人员从客户基本信息库中发现不同的客户群;

2、在生物学上,聚类可以根据生物基因结构,推导出植物和动物的物种分类,从而获得对生物种群固有结构的认识;

3、聚类还能从地球观测数据库中找到地形、地貌等地理特征相似的区域,提供生物物种或病虫害预警信息;

4、根据房屋的类型、价值和地理位置等信息对城市房屋进行聚类分组,为客户提供房屋资产评估服务

 

ppt page 8:

聚类的思想:对于未指定明确的分类的数据,通过其本身呈现出的集群的结构,使用若干个通常是不相交的子集对样本数据进行划分,每个子集称之为“簇”(Cluster)。通过这样的划分,每个簇可能对应着一些潜在的类别。这些通过聚类模型划分的类别在训练前是未知的,只是在训练过程中自动形成的簇结构,对于这种自然划分形成的簇,在实际使用前还需要使用者再次进行评估

基于不同的学习策略,人们设计出了多种类型的聚类算法,主要包括原型聚类、密度聚类和层次聚类。

Ø 原型聚类算法:假设数据的聚类结构能通过一组原型进行刻画,然后对原型进行不断的迭代更新而获取到数据的聚集、分类。主要的原型聚类算法包括了k均值算法(k-means)、学习向量量化(LVQ)以及高斯混合聚类。

Ø 密度聚类算法:假设数据的聚类结构能通过样本分布的紧密程度确定。通常情况下,密度聚类从样本密度的角度出来,来考查样本之间的可连接性,并基于可连接样本不断扩展聚类簇,以获得最终的聚类结果。最著名的的密度聚类算法就是dbscan算法。

Ø 层次聚类算法:假设数据的聚类结构能够通过数据的分层来进行确定。试图在不同层次对数据集进行划分,从而形成树形的聚类结构。数据集的划分可采用"自底向上"的聚合策略,也可以采用"自顶向下"的分拆策略。层次聚类算法的优势在于,可以通过绘制树状图(dendrogram),帮助我们使用可视化的方式来解释聚类结果。层次聚类的另一个优点就是,它不需要事先指定簇的数量。最著名的层次聚类算法就是agnes算法。

 

ppt page 9:

自编码网络模型

在无监督学习中,还有一种重要的训练方法是自编码网络。

自编码网络是一种神经网络,利用信息论中对信息进行“编码-解码”原理。通过对信息进行“编码-解码”,可以对原始信息进行恢复重建,而且编码后的信息虽然在形式上与原信息不同,但有效地保留了原始信息的内容。

在自编码网络模型中,一般都通过构建多层神经网络来实现。将原信息作为神经网络模型的输入,通过神经网络中间层的处理对原信息进行“编码-解码”过程,形成神经网络的输出。对神经网络的输出与原始信息之间的误差进行比较,以误差最小化作为损失函数进行整体网络的迭代和调整

在此基础上还可以进一步改造,比如对输入添加噪声后进行训练,可以使编码信息具有一定的抗噪能力等。

接下来将使用最常用的k均值聚类和自编码网络来讲解监督学习

 

ppt page 10:

本节小结:本节主要讲解无监督学习、聚类模型和自编码网络模型的概念,本节讲解到这里,谢谢大家