机器学习算法 - 一文搞懂SL（监督学习）

本文将从监督学习的本质、监督学习的原理、监督学习的案例三个方面，带您一文搞懂监督学习Supervised Learning | SL。

一、监督学习的本质

基本思路：利用已知输入和输出数据（即带有标签的数据）进行训练，使模型能够对新数据做出预测。在这个过程中，“监督”的含义是指我们为模型提供了每个输入对应的正确输出，以此来“教导”模型如何进行学习。

提供标签数据：在监督学习中，训练数据集由输入数据和相应的输出标签组成。这些标签是已知的，并且在训练过程中被用作指导信号。例如，在图像分类任务中，输入数据可能是图像的像素值，而输出标签则是图像所属的类别（如猫、狗等）。
学习过程监督：监督学习的核心在于利用这些带有标签的数据来训练模型。模型通过调整其内部参数，以最小化预测输出与实际标签之间的差异。这个差异通常通过损失函数来衡量，如均方误差（MSE）用于回归问题，交叉熵损失用于分类问题。

监督学习 VS 无监督学习：监督学习依赖于带有标签的数据进行训练以做出预测，而无监督学习则从无标签数据中挖掘内在结构和模式。

1. 数据标注与利用
监督学习：依赖于带有标签的数据进行训练。这些标签为模型提供了明确的指导，告诉它对于给定的输入应该产生什么样的输出。标签通常是人工提供的，增加了数据准备的成本和时间。
无监督学习：不需要标签数据。它通过分析输入数据之间的相似性、差异或模式来工作。由于没有明确的指导，无监督学习算法必须自我发现数据中的结构。
2. 学习目标和任务
监督学习：主要目标是预测。模型被训练来最小化预测错误，通常通过比较模型的输出和真实标签之间的差异来衡量。常见的监督学习任务包括分类（预测类别标签）和回归（预测连续值）。
无监督学习：目标是探索和理解数据的内在结构。由于没有标签，算法侧重于发现数据中的模式、组群或异常值。常见的无监督学习任务包括聚类（将相似的数据点分组）和降维（简化数据的表示）。
3. 应用领域
监督学习：由于其预测能力，广泛应用于需要明确输出的情况。例如，图像识别、语音识别、自然语言处理（如情感分析）、推荐系统、金融市场预测等。
无监督学习：适用于数据探索、预处理或当标签成本过高时。例如，在社交媒体分析中识别用户群体、网络流量异常检测、基因序列分析中的模式发现等。

二、监督学习的原理

4个流程：利用带有标签的数据集训练模型，通过调整模型参数最小化预测误差，使其能够对未知数据做出准确预测，并通过评估来检验模型的性能。

数据集：在监督学习中，我们使用一个包含多个数据样本的数据集进行训练，每个数据样本都包含输入特征和对应的标签（即期望的输出）。
模型训练：模型通过学习输入特征和标签之间的关系来建立预测模型。这个过程通常涉及到参数优化，即通过调整模型内部的参数，使得模型在训练集上的预测误差最小化。
预测：一旦模型训练完成，它就可以用来对新的、未见过的数据进行预测。模型会分析新数据的输入特征，并基于在训练阶段学到的关系来生成预测结果。
评估：为了评估模型的性能，我们通常会将一部分数据保留作为测试集，不参与训练过程。模型在测试集上的表现可以帮助我们了解其泛化能力，即模型对未见数据的预测能力。

2个任务：回归、分类

一、回归（Regression）
任务：预测连续数值输出。
目标：根据输入特征估计一个连续值。
数据特点：处理的是连续型数据，这类数据可以在某个范围内取任意实数值，如温度、身高、体重、价格等。
应用例子：
- 房价预测：基于房屋面积、位置等特征预测房价。
- 股票价格预测：基于历史数据和市场趋势预测未来股价。
- 芝麻信用分数：基于用户的多种行为数据预测信用分数。
模型行为：学习输入与输出之间的连续关系，并为新数据预测输出值。
二、分类（Classification）
任务：预测离散的类别标签。
目标：将实例分配到两个或多个离散类别中。
数据特点：处理的是离散型数据，即不连续的数据，如性别、天气状况等。
应用例子：
- 图像识别：将图像分类为不同的对象类别，如猫、狗等。
- 邮件分类：将电子邮件分类为垃圾邮件或非垃圾邮件。
- 客户信用评级：基于客户的信用历史将其分类为不同的信用等级。
模型行为：学习如何区分不同类别，并为新数据分配类别标签。

三、监督学习的案例

回归案例：芝麻信用分是怎么来的？

一、构建问题与选择模型
确定目标：评估个人信用状况。
选择影响因素：经过逻辑判断，选择付款记录、账户总金额、信用记录跨度、新账户和信用类别作为影响信用的主要因素。
构建模型：建立一个模型f，这个模型将上述5个因素与个人信用分数关联起来。目标是找出模型f的具体形式。
二、收集已知数据
数据收集：收集大量包含上述5种因素和个人信用状态的数据。
数据划分：将收集到的数据分为训练集、验证集和测试集。
三、训练出理想模型
模型训练：使用训练集数据，通过机器学习算法“猜测”出5种因素与信用分数之间的关系，即模型f。
模型验证：使用验证集数据验证模型f的准确度。将验证集数据输入模型，计算出信用分，并与实际信用分进行比较，评估模型的性能。
模型优化：根据验证结果对模型进行调整和优化，以提高其准确度。
四、对新用户进行预测
数据收集：对于新用户，收集其上述5种因素的数据。
信用预测：将新用户的数据输入训练好的模型f中，计算出该用户的信用分数。

分类案例：如何预测离婚？

一、构建问题与选择模型
确定目标：预测夫妻是否会离婚。
特征选择：选择对话中的情绪关联作为预测离婚的主要特征。这些情绪关联可能包括争吵、欢笑、调侃和情感表露等。
选择模型：可以选择一种分类算法，如决策树、逻辑回归或支持向量机等。
二、收集已知数据
数据收集：邀请700对夫妻参与实验，记录他们的对话，并根据对话中的情绪关联给他们打分。
数据预处理：将收集到的对话数据转化为可以用于机器学习模型训练的格式。这可能包括文本处理、特征提取和标签编码等步骤。
三、训练出理想模型
模型训练：使用已知数据训练分类模型。在这个过程中，模型会学习如何根据对话中的情绪关联来预测夫妻是否会离婚。
模型评估：通过交叉验证等方法评估模型的性能，确保模型能够准确地预测离婚概率。
模型优化：根据评估结果对模型进行调整和优化，以提高其预测准确率。
四、对新用户进行预测
数据收集：对于新的夫妻，收集他们的对话数据，并提取相应的情绪关联特征。
离婚预测：将新夫妻的数据输入训练好的分类模型中，模型会输出这对夫妻的离婚概率。根据这个概率，我们可以判断这对夫妻是否会离婚。

文章转自微信公众号@架构师带你玩转AI

机器学习算法 - 一文搞懂SL（监督学习）

一、监督学习的本质

二、监督学习的原理

三、监督学习的案例

最新文章