所有文章
> 当前分类:AI驱动

统计检验——T检验分析样本间的显著性差异
2025/01/07
什么是T检验 T检验是一种常用的假设检验方法,通过对比样本数据的均值来判断不同组别之间是否存在显著差异,包括单样本t检验、独立样本t检验和配对样本t检验 检验步骤 建立假设:提出原假设( )和备择假...

统计检验——卡方检验分析分类变量间的显著性差异
【AI驱动】
什么是卡方检验 卡方检验是一种统计检验方法,用于判断观察到的数据与期望数据之间的差异是否具有统计显著性,它主要用于分类数据的分析,常见类型为:卡方独立性检验、卡方适合度检验 卡方独立性检验 实现步骤 提出假设原假设&...
2025/01/07

时间序列预测神器Prophet python实现
【AI驱动】
前言 "Prophet" 指的是由 Facebook 开发的一种用于时间序列分析和预测的工具。它设计用于处理每日观测数据,展示不同时间尺度上的模式。Prophet 特别受欢迎的原因之一是其易用性,以及能够建模季节性、假期和特殊事件。P...
2025/01/06

统计检验——方差检验(ANOVA)分析变量间的显著性差异
【AI驱动】
什么是方差检验(ANOVA) 方差检验是一种统计方法,用于比较三个或更多样本组之间的均值差异,以确定这些组是否来自同一个总体,它通过分析组内和组间的变异来评估不同组之间是否存在显著差异 基本概念 组间变异:衡量各组均值之...
2025/01/06

Python实现数据预处理:常见缺失值处理方法解析
【AI驱动】
缺失值处理方案 处理缺失值是数据预处理中的一个重要步骤,不同的处理方法可以显著影响后续数据分析和机器学习模型的效果,以下是一些常见的缺失值处理方案: 删除法: 删除含有缺失值的样本:适用于缺失值较少且缺失值分布无规律的情...
2025/01/06

实用机器学习技巧:使用ROC曲线进行多模型性能比较
【AI驱动】
什么是ROC曲线 ROC曲线是用于评估二分类模型性能的重要工具,它通过比较不同阈值下模型的真阳性率(TPR)和假阳性率(FPR)来衡量模型的预测能力 ROC曲线原理 真阳性率(TPR),也称为召回率(Recall),计算公...
2025/01/06

梯度提升集成:CatBoost与NGBoost模型的K折交叉验证及组合预测
【AI驱动】
背景 在机器学习和数据科学领域,模型的性能和稳定性是至关重要的,为了提高预测的准确性,通常采用集成学习的方法,将多个模型的预测结果进行组合,梯度提升是一种强大的集成学习方法,通过逐步减小模型的预测误差,提升整体模型的性能,在本文中,我...
2025/01/06

特征工程进阶:暴力特征字典的构建与应用 实现模型精度质的飞跃
【AI驱动】
传统的特征工程方法如缺失值填充、归一化、类别特征one-hot编码、降维等,对于提升模型性能尤其是像XGBoost和LightGBM这样强大的树模型,效果可能并不显著,这些模型在处理这些基本特征工程任务时已经非常高效,因此,需要更高级和创新...
2025/01/06

基于CatBoost回归预测模型的多种可解释性图表绘制
【AI驱动】
CatBoost是基于决策树的梯度提升算法,它通过组合多个弱学习器(通常是决策树)来提升模型的预测能力,并具有处理分类特征和减少过拟合的优势,在分类和回归任务中提供高效且易于解释的模型,接下来通过利用CatBoost回归模型,结合先进的解释...
2025/01/06

快速选择最佳模型:轻松上手LightGBM、XGBoost、CatBoost和NGBoost!
【AI驱动】
背景 选择合适的模型通常需要理解数据集的特性、任务的目标以及模型的特点。然而,对于初学者或希望快速确定模型的用户来说,深入理解这些复杂的内容可能过于困难。因此,我们可以通过一个简化的GUI界面来进行模型选择。这个界面包括LightGB...
2025/01/06

利用XGBoost模型进行多分类任务下的SHAP解释附代码讲解及GUI展示
【AI驱动】
目标 在这篇文章中,我们将介绍如何利用XGBoost模型进行多分类任务,并使用SHAP对模型进行解释,并生成SHAP解释图、依赖图、力图和热图,从而直观地理解模型的决策过程和特征的重要性 二分类模型和多分类模型在SHAP上的差异...
2025/01/06

优化XGBoost回归模型:网格搜索与K折交叉验证实现
【AI驱动】
背景 在机器学习和数据科学领域,模型的性能优化是至关重要的一步,而XGBoost作为一种高效的梯度提升树算法,因其卓越的性能和灵活性,广泛应用于各种回归和分类问题中,然而,如何最大化利用XGBoost的潜力并实现最佳模型性能,离不开参...
2025/01/06

优化XGBoost分类模型:网格搜索与K折交叉验证实现
【AI驱动】
背景 在机器学习中,XGBoost是一种极为流行且高效的梯度提升算法,以其卓越的性能和灵活性在各类预测任务中得到了广泛应用,继上篇文章中关于XGBoost在回归预测任务中的调参技巧后——优化XGBoost回归模型:网格搜索与K折交叉验...
2025/01/06

决策曲线分析 (DCA) 可视化:如何判断模型在实际应用中的表现
【AI驱动】
背景 决策曲线分析(DCA)是一种基于净收益(Net Benefit)的工具,用于评估在不同的决策阈值下使用预测模型是否能够带来实际的利益,通过数学公式,我们可以深入理解 DCA 的核心计算过程,以下是具体解释: 净收益的定义(...
2025/01/06

用SHAP可视化解读数据特征的重要性:蜂巢图与特征关系图结合展示
【AI驱动】
背景 当构建一个机器学习模型时,通常会面临一个难题:如何解释各个特征在模型中的作用?这是一个非常重要的问题,特别是在医学等领域,理解模型的决策过程至关重要。在这篇文章中,将为揭示如何通过SHAP值的可视化,结合蜂巢图与特征关系图,帮助...
2025/01/06

复现SCI文章 SHAP 依赖图可视化以增强机器学习模型的可解释性
【AI驱动】
背景 在机器学习领域,理解各个特征对模型输出的贡献至关重要,尤其是在像环境科学和生物学这样的重要领域中,SHAP是一种强大的解释工具,能够帮助直观地展示特征对模型预测结果的影响,一项研究《基于可解释机器学习模型的浮游植物生物量预测及关...
2025/01/06
搜索文章
热门话题