Scikit Learn 提升方法

在本章中，我们将了解 Sklearn 中的 boosting 方法，它可以构建集成模型。

Boosting 方法以增量方式构建集成模型，主要原理是通过依次训练每个基础模型估计器来逐步构建模型。

为了构建强大的集成，这些方法基本上结合了几个星期的学习者，这些学习者在训练数据的多次迭代中顺序训练。

sklearn.ensemble 模块有以下两种提升方法。

AdaBoost

它是最成功的 boosting 集成方法之一，其主要关键在于它们为数据集中的实例赋予权重的方式，这就是为什么算法在构建后续模型时需要较少关注实例的原因。

使用 AdaBoost 进行分类

为了创建 AdaBoost 分类器，Scikit-learn 模块提供sklearn.ensemble.AdaBoostClassifier。在构建这个分类器时，这个模块使用的主要参数是base_estimator。

这里，base_estimator是基础估计器的值，提升后的集合就是由它建立的。如果我们把这个参数的值选择为none，那么基础估计器就是DecisionTreeClassifier（max_depth=1）。

示例

在下面的例子中，我们通过使用sklearn.ensemble.AdaBoostClassifier建立一个AdaBoost分类器，同时预测并检查其得分。

from sklearn.ensemble import AdaBoostClassifier
from sklearn.datasets import make_classification
X, y = make_classification(n_samples = 1000, n_features = 10,n_informative = 2, n_redundant = 0,random_state = 0, shuffle = False)
ADBclf = AdaBoostClassifier(n_estimators = 100, random_state = 0)
ADBclf.fit(X, y)

AdaBoostClassifier(algorithm = 'SAMME.R', base_estimator = None,
learning_rate = 1.0, n_estimators = 100, random_state = 0)

拟合后，我们可以预测新值如下：

print(ADBclf.predict([[0, 2, 3, 0, 1, 1, 1, 1, 2, 2]]))

[1]

现在我们可以查看分数如下：

ADBclf.score(X, y)

0.995

我们还可以使用 sklearn 数据集使用 Extra-Tree 方法构建分类器。例如，在下面给出的示例中，我们使用的是 Pima-Indian 数据集。

from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import AdaBoostClassifier
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names = headernames)
array = data.values
X = array[:,0:8]
Y = array[:,8]
seed = 5
kfold = KFold(n_splits = 10, random_state = seed)
num_trees = 100
max_features = 5
ADBclf = AdaBoostClassifier(n_estimators = num_trees, max_features = max_features)
results = cross_val_score(ADBclf, X, Y, cv = kfold)
print(results.mean())

0.7851435406698566

使用 AdaBoost 进行回归

为了用Ada Boost方法创建一个回归器，Scikit-learn库提供了sklearn.ensemble.AdaBoostRegressor。在建立回归器时，它将使用与sklearn.ensemble.AdaBoostClassifier相同的参数。

示例

在下面的例子中，我们通过使用sklearn.ensemble.AdaBoostregressor建立一个AdaBoost回归器，并通过使用predict()方法对新值进行预测。

from sklearn.ensemble import AdaBoostRegressor
from sklearn.datasets import make_regression
X, y = make_regression(n_features = 10, n_informative = 2,random_state = 0, shuffle = False)
ADBregr = RandomForestRegressor(random_state = 0,n_estimators = 100)
ADBregr.fit(X, y)

AdaBoostRegressor(base_estimator = None, learning_rate = 1.0, loss = 'linear',
n_estimators = 100, random_state = 0)

一旦拟合，我们可以从回归模型预测如下：

print(ADBregr.predict([[0, 2, 3, 0, 1, 1, 1, 1, 2, 2]]))

[85.50955817]

梯度树提升

它也被称为梯度提升回归树（GRBT），它基本上是对任意可分损失函数的提升的概括，它以一周预测模型集合的形式产生一个预测模型，它可以用于回归和分类问题，它们的主要优势在于它们能自然地处理混合类型的数据。

使用梯度树提升进行分类

为了创建一个梯度树提升分类器，Scikit-learn模块提供了sklearn.ensemble.GradientBoostingClassifier。在建立这个分类器时，该模块使用的主要参数是 "损失"。这里，'损失'是要优化的损失函数的值。如果我们选择损失=偏差，它指的是带有概率输出的分类的偏差。

另一方面，如果我们把这个参数的值选择为指数，那么它就恢复了AdaBoost算法，参数n_estimators将控制周学习者的数量，一个名为learning_rate的超参数（范围为(0.0, 1.0]）将通过收缩来控制过拟合。

示例

在下面的例子中，我们通过使用sklearn.ensemble.GradientBoostingClassifier建立一个梯度提升分类器，我们正在用50个星期的学习者来拟合这个分类器：

from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier
X, y = make_hastie_10_2(random_state = 0)
X_train, X_test = X[:5000], X[5000:]
y_train, y_test = y[:5000], y[5000:]

GDBclf = GradientBoostingClassifier(n_estimators = 50, learning_rate = 1.0,max_depth = 1, random_state = 0).fit(X_train, y_train)
GDBclf.score(X_test, y_test)

0.8724285714285714

我们还可以使用 sklearn 数据集使用 Gradient Boosting Classifier 构建分类器。如下例所示，我们使用的是 Pima-Indian 数据集。

from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import GradientBoostingClassifier
path = r"C:\pima-indians-diabetes.csv"
headernames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(path, names = headernames)
array = data.values
X = array[:,0:8]
Y = array[:,8]
seed = 5
kfold = KFold(n_splits = 10, random_state = seed)
num_trees = 100
max_features = 5
ADBclf = GradientBoostingClassifier(n_estimators = num_trees, max_features = max_features)
results = cross_val_score(ADBclf, X, Y, cv = kfold)
print(results.mean())

0.7946582356674234

梯度树提升的回归

为了使用梯度树增强方法创建回归器，Scikit-learn 库提供了sklearn.ensemble.GradientBoostingRegressor，它可以通过参数名称 loss 指定回归的损失函数。损失的默认值是“ls”。

示例

在下面的例子中，我们通过使用sklearn.ensemble.GradientBoostingregressor来构建一个梯度提升回归器，同时通过mean_squared_error()方法来寻找平均平方误差：

import numpy as np
from sklearn.metrics import mean_squared_error
from sklearn.datasets import make_friedman1
from sklearn.ensemble import GradientBoostingRegressor
X, y = make_friedman1(n_samples = 2000, random_state = 0, noise = 1.0)
X_train, X_test = X[:1000], X[1000:]
y_train, y_test = y[:1000], y[1000:]
GDBreg = GradientBoostingRegressor(n_estimators = 80, learning_rate=0.1,
max_depth = 1, random_state = 0, loss = 'ls').fit(X_train, y_train)

拟合后，我们可以找到均方误差如下：

mean_squared_error(y_test, GDBreg.predict(X_test))

5.391246106657164

< 上一篇（Scikit Learn 随机决策树）

下一篇（Scikit Learn 聚类方法） >

Scikit Learn 教程