第七章无监督学习: 7.1无监督学习简介

第七章无监督学习

1. 7.1无监督学习简介

ppt page 1:

大家好，接下来给大家讲解第7章第1节，主要讲解无监督学习简介

ppt page 2:

本节目标是理解无监督学习、聚类模型和自编码网络模型的概念

ppt page 3:

在前面介绍的机器学习方法中，训练数据都是有标签的。但在现实世界中，想要提供具有标签的数据并不容易，对于大量的训练数据，我们没有精力去进行标识，甚至是无法标识的，我们希望能够实现一种犹如人脑的模型，只需少量的标签便可理解这个多彩的世界。对于这种仅有数据本身而没有标签的训练数据的学习，就是无监督学习。

对于无监督学习而言，由于输入数据没有标签，因此在学习训练时无法获取正确的标签信息。无监督学习在模型构建、正确率等方面与监督学习都是不一样的

有监督学习和无监督学习的区别：

有监督训练过程

----训练样本集中每个样本的类别已经被标记

无监督训练过程

----使用未被标记的训练样本

ppt page 4:

无监督学习方法好处：

1.收集并标记大型样本集非常费时费力，无监督学习节省了时间成本

-例如：语音信息的记录

2.逆向解决问题：用大量未标记样本集训练，将未标记的样本数据分组，再人工标记数据分组

--例如：数据挖掘的应用

3.对于待分类模式性质会随时间变化的情况，使用无监督方法可以大幅提升分类器性能

--例如：自动食品分类器中食品随季节而改变

4.用无监督方法提取一些对进一步分类很有用的基本特征

--独立于数据的“灵巧预处理”，“灵巧特征提取"

5.揭示观测数据的一些内部结构和规律

--就能更有效设计有针对性的分类器

ppt page 5:

对于无监督学习而言，由于输入数据没有标签，所以在学习训练时无法获取正确的标签信息，在模型构建、正确率等方面和监督学习都是不一样的，主要的模型为：

Ø 聚类模型

Ø 自编码网络模型

目前在无监督学习中研究最多、应用最广的就是最聚类模型。那么，接下来简单了解一下聚类模型和自编码网络模型

ppt page 6:

聚类的概念

一、聚类就是将集合划分成由类（相）似的对象组成的多个类的过程。

二、聚类分析是研究（样品或指标）分类问题的一种统计分析方法。

三、聚类所要求划分的类是未知的，一般把它理解为无监督学习。而分类算法是有训练样本的，属于监督学习。

如右图所未，我们可以将某个点划分到某个类别中，至于划分的算法是什么，那就是我们后面要介绍的内容了。

ppt page 7:

聚类的典型应用

1、聚类可以帮助市场分析人员从客户基本信息库中发现不同的客户群；

2、在生物学上，聚类可以根据生物基因结构，推导出植物和动物的物种分类，从而获得对生物种群固有结构的认识；

3、聚类还能从地球观测数据库中找到地形、地貌等地理特征相似的区域，提供生物物种或病虫害预警信息；

4、根据房屋的类型、价值和地理位置等信息对城市房屋进行聚类分组，为客户提供房屋资产评估服务

ppt page 8:

聚类的思想：对于未指定明确的分类的数据，通过其本身呈现出的集群的结构，使用若干个通常是不相交的子集对样本数据进行划分，每个子集称之为“簇”（Cluster）。通过这样的划分，每个簇可能对应着一些潜在的类别。这些通过聚类模型划分的类别在训练前是未知的，只是在训练过程中自动形成的簇结构，对于这种自然划分形成的簇，在实际使用前还需要使用者再次进行评估

基于不同的学习策略，人们设计出了多种类型的聚类算法，主要包括原型聚类、密度聚类和层次聚类。

Ø 原型聚类算法：假设数据的聚类结构能通过一组原型进行刻画，然后对原型进行不断的迭代更新而获取到数据的聚集、分类。主要的原型聚类算法包括了k均值算法（k-means）、学习向量量化（LVQ）以及高斯混合聚类。

Ø 密度聚类算法：假设数据的聚类结构能通过样本分布的紧密程度确定。通常情况下，密度聚类从样本密度的角度出来，来考查样本之间的可连接性，并基于可连接样本不断扩展聚类簇，以获得最终的聚类结果。最著名的的密度聚类算法就是dbscan算法。

Ø 层次聚类算法：假设数据的聚类结构能够通过数据的分层来进行确定。试图在不同层次对数据集进行划分，从而形成树形的聚类结构。数据集的划分可采用"自底向上"的聚合策略，也可以采用"自顶向下"的分拆策略。层次聚类算法的优势在于，可以通过绘制树状图（dendrogram），帮助我们使用可视化的方式来解释聚类结果。层次聚类的另一个优点就是，它不需要事先指定簇的数量。最著名的层次聚类算法就是agnes算法。

ppt page 9:

自编码网络模型

在无监督学习中，还有一种重要的训练方法是自编码网络。

自编码网络是一种神经网络，利用信息论中对信息进行“编码-解码”原理。通过对信息进行“编码-解码”，可以对原始信息进行恢复重建，而且编码后的信息虽然在形式上与原信息不同，但有效地保留了原始信息的内容。

在自编码网络模型中，一般都通过构建多层神经网络来实现。将原信息作为神经网络模型的输入，通过神经网络中间层的处理对原信息进行“编码-解码”过程，形成神经网络的输出。对神经网络的输出与原始信息之间的误差进行比较，以误差最小化作为损失函数进行整体网络的迭代和调整

在此基础上还可以进一步改造，比如对输入添加噪声后进行训练，可以使编码信息具有一定的抗噪能力等。

接下来将使用最常用的k均值聚类和自编码网络来讲解监督学习

ppt page 10:

本节小结：本节主要讲解无监督学习、聚类模型和自编码网络模型的概念，本节讲解到这里，谢谢大家

人工智能（共享）

第七章 无监督学习

1. 7.1无监督学习简介

第七章无监督学习