
实时航班追踪背后的技术:在线飞机追踪器的工作原理
XGBoost(eXtreme Gradient Boosting)是一种基于梯度提升树(Gradient Boosting Tree)的机器学习算法,适用于分类和回归问题。
下面讲一下如何在R中实现XGBoost
链接:https://pan.baidu.com/s/1v1zAfE95lIgaObak0trt4Q 提取码:o0r3
# 导入必要的包,没有安装的可以先安装一下
library(dplyr) #数据处理使用
library(data.table) #数据读取使用
library(xgboost) #模型使用
library(Matrix) #模型数据处理使用
library(caret) # 调参和计算模型评价参数使用
library(pROC) #绘图使用
library(ggplot2) #绘图使用
library(ggpubr) #绘图使用
library(ggprism) #绘图使用
# 读取数据
data <- fread("./XGBoost.txt",data.table = F) # 替换为你的数据文件名或路径
数据长这个样子,一共35727行,214列。每一行代表一个样本,第一列是样本标签malignant
或normal
,后面213列是213个特征。我们想根据213个特征,使用RF训练出一个能够对样本进行精准分类的模型。
构建XGBoost模型
# 将分类转换成0和1
data <- data %>% mutate(type = ifelse(type == "normal",1,0))
# 分割数据为训练集和测试集
set.seed(123) # 设置随机种子,保证结果可复现
split <- sample.split(data$type, SplitRatio = 0.8) # 将数据按照指定比例分割
train_data <- subset(data, split == TRUE) # 训练集
test_data <- subset(data, split == FALSE) # 测试集
# 定义训练集特征和目标变量
X_train <- train_data[, -1]
y_train <- train_data[, 1]
# 将特征和目标变量转换为DMatrix格式
dtrain <- xgb.DMatrix(data = as.matrix(X_train), label = y_train)
# 设置XGBoost参数
params <- list(objective = "binary:logistic", eval_metric = "logloss", eta = 0.1, max_depth = 3)
# 设置迭代轮数(树的数量)
nrounds <- 100
# 训练XGBoost模型
xgb_model <- xgboost(params = params, data = dtrain, nrounds = nrounds)
# 在训练集上进行预测
train_predictions <- predict(xgb_model, newdata = dtrain)
train_predictions <- ifelse(train_predictions > 0.5,1,0)
# 计算准确率
accuracy <- mean(train_predictions == y_train)
print(paste("训练集准确率:", accuracy))
# 在测试集上进行预测
X_test <- test_data[, -1]
y_test <- as.factor(test_data[, 1])
dtest <- xgb.DMatrix(data = as.matrix(X_test))
test_predictions <- predict(xgb_model, newdata = dtest)
test_predictions <- ifelse(test_predictions > 0.5,1,0)
# 计算准确率
accuracy <- mean(test_predictions == y_test)
print(paste("测试集准确率:", accuracy))
从accuracy来看,初始模型在训练集和测试集中表现的都挺好的。
caret包
中,XGBoost模型有七个参数可以进行调节。
##参数调整
# 将数据集转换为trainControl对象
ctrl <- trainControl(
method = "cv", # 交叉验证
number = 5, # 5折交叉验证
verboseIter = FALSE)
# 设置参数网格
param_grid <- expand.grid(
nrounds = c(100, 200), # 迭代轮数(nrounds)
max_depth = c(3, 6), # 最大树深度(max_depth)
eta = c(0.1), # 学习率(eta)
gamma = c(0, 0.1), # 树分裂所需的最小损失减少值
colsample_bytree = c(0.8), # 特征子采样比例(colsample_bytree)
min_child_weight = c(1, 3), # 叶子节点的最小权重和(min_child_weight)
subsample = c(0.8)) # 和样本子采样比例(subsample)
# 使用train()函数进行参数调优
xgb_model <- train(
x = X_train,
y = y_train,
method = "xgbTree",
trControl = ctrl,
tuneGrid = param_grid)
# 输出最佳参数配置
print(xgb_model$bestTune)
使用最佳参数训练模型
# 设置最佳XGBoost参数
params <- list(objective = "binary:logistic", eval_metric = "logloss",
eta = 0.1, max_depth = 3, gamma = 0.1,
colsample_bytree = 0.8,
min_child_weight = 1,
subsample = 0.8)
# 训练模型
xgb_model_final <- xgb.train(params = params, data = dtrain, nrounds = 200)
# 在训练集上进行预测
train_predictions <- predict(xgb_model_final, newdata = dtrain)
train_predictions <- ifelse(train_predictions > 0.5,1,0)
# 计算准确率
accuracy <- mean(train_predictions == y_train)
print(paste("训练集准确率:", accuracy))
# 在测试集上进行预测
X_test <- test_data[, -1]
y_test <- as.factor(test_data[, 1])
dtest <- xgb.DMatrix(data = as.matrix(X_test))
test_predictions <- predict(xgb_model_final, newdata = dtest)
test_predictions <- ifelse(test_predictions > 0.5,1,0)
# 计算准确率
accuracy <- mean(test_predictions == y_test)
print(paste("测试集准确率:", accuracy))
调参之后的模型比初始模型表现提升了一些。
本文章转载微信公众号@Bio小菜鸟