Python逻辑回归准备数据

为了创建分类器，我们必须以分类器构建模块要求的格式准备数据。我们通过以下方式准备数据 一种热编码 .

编码数据

我们将很快讨论编码数据的含义。首先，让我们运行代码。在代码窗口中运行以下命令。

In [10]: # creating one hot encoding of the categorical columns.
data = pd.get_dummies(df, columns =['job', 'marital', 'default', 'housing', 'loan', 'poutcome'])

正如评论所说，上述语句将创建数据的一种热编码。让我们看看它创造了什么？检查创建的数据称为 “data” 通过打印数据库中的头部记录。

In [11]: data.head()

你将看到以下输出：

为了理解上述数据，我们将通过运行列出列名 数据列 命令如下图：

In [12]: data.columns
Out[12]: Index(['y', 'job_admin.', 'job_blue-collar', 'job_entrepreneur',
'job_housemaid', 'job_management', 'job_retired', 'job_self-employed', 
'job_services', 'job_student', 'job_technician', 'job_unemployed',
'job_unknown', 'marital_divorced', 'marital_married', 'marital_single', 
'marital_unknown', 'default_no', 'default_unknown', 'default_yes', 
'housing_no', 'housing_unknown', 'housing_yes', 'loan_no',
'loan_unknown', 'loan_yes', 'poutcome_failure', 'poutcome_nonexistent', 
'poutcome_success'], dtype='object')

现在，我们将解释一个热编码是如何由 get_dummies 命令。新生成的数据库中的第一列是“y”字段，表示该客户端是否订阅了 TD。现在，让我们看看被编码的列。第一个编码列是 “job” .在数据库中，你会发现“job”列有很多可能的值，比如“admin”、“blue-collar”、“entrepreneur”等等。对于每个可能的值，我们在数据库中创建了一个新列，列名作为前缀附加。

因此，我们有名为“job_admin”、“job_blue-collar”等的列。对于我们原始数据库中的每个编码字段，你会发现在创建的数据库中添加的列列表，其中包含该列在原始数据库中采用的所有可能值。仔细检查列列表以了解数据如何映射到新数据库。

了解数据映射

为了理解生成的数据，让我们使用 data 命令打印出整个数据。运行命令后的部分输出如下所示。

In [13]: data

上面的屏幕显示了前十二行。如果进一步向下滚动，你会看到所有行的映射都已完成。

此处显示了数据库下方的部分屏幕输出，供你快速参考。

为了理解映射的数据，让我们检查第一行。

它表示该客户尚未订阅 TD，如“y”字段中的值所示。这也表明该客户是“蓝领”客户。水平向下滚动，它会告诉你他有“房子”，没有借过“贷款”。

在这一热编码之后，我们需要更多的数据处理才能开始构建我们的模型。

丢弃“未知”

如果我们检查映射数据库中的列，你会发现存在少数以“未知”结尾的列。例如，使用屏幕截图中显示的以下命令检查索引 12 处的列：

In [14]: data.columns[12]
Out[14]: 'job_unknown'

这表明指定客户的工作是未知的。显然，在我们的分析和模型构建中包含这些列是没有意义的。因此，应删除所有具有“未知”值的列。这是通过以下命令完成的：

In [15]: data.drop(data.columns[[12, 16, 18, 21, 24]], axis=1, inplace=True)

确保指定正确的列号。如有疑问，你可以随时通过在 columns 命令中指定其索引来检查列名，如前所述。

删除不需要的列后，你可以检查最终的列列表，如下面的输出所示：

In [16]: data.columns
Out[16]: Index(['y', 'job_admin.', 'job_blue-collar', 'job_entrepreneur', 
'job_housemaid', 'job_management', 'job_retired', 'job_self-employed', 
'job_services', 'job_student', 'job_technician', 'job_unemployed',
'marital_divorced', 'marital_married', 'marital_single', 'default_no', 
'default_yes', 'housing_no', 'housing_yes', 'loan_no', 'loan_yes',
'poutcome_failure', 'poutcome_nonexistent', 'poutcome_success'], 
dtype='object')

此时，我们的数据已准备好进行模型构建。

< 上一篇（Python逻辑回归重构数据）

下一篇（Python逻辑回归拆分数据） >

Python逻辑回归 教程

Python逻辑回归 准备数据

编码数据

了解数据映射

丢弃“未知”

Python逻辑回归教程

Python逻辑回归准备数据