Python逻辑回归 获取数据


本章详细讨论了在 Python 中获取数据以执行逻辑回归所涉及的步骤。

下载数据集


如果你尚未下载前面提到的 UCI 数据集,请立即从 here .单击数据文件夹。你将看到以下屏幕:

Machine Learning Databases

单击给定的链接下载 bank.zip 文件。 zip文件包含以下文件:

Bank

我们将使用 bank.csv 文件进行模型开发。 bank-names.txt 文件包含你稍后将需要的数据库的描述。 bank-full.csv 包含一个更大的数据集,你可以将其用于更高级的开发。

在这里,我们在可下载的源 zip 中包含了 bank.csv 文件。此文件包含逗号分隔的字段。我们还对文件进行了一些修改。建议你使用项目源 zip 中包含的文件进行学习。

加载数据中


要从你刚才复制的 csv 文件中加载数据,请键入以下语句并运行代码。

In [2]: df = pd.read_csv('bank.csv', header=0)

你还可以通过运行以下代码语句来检查加载的数据:

IN [3]: df.head()

运行命令后,你将看到以下输出:

Loaded Data

基本上,它打印了加载数据的前五行。检查存在的 21 列。我们将仅使用其中的几列进行模型开发。

接下来,我们需要清理数据。数据可能包含一些行 NaN .要消除此类行,请使用以下命令:

IN [4]: df = df.dropna()

幸运的是,bank.csv 不包含任何带有 NaN 的行,因此在我们的例子中,这一步并不是真正需要的。但是,通常很难在庞大的数据库中发现这样的行。所以运行上面的语句来清理数据总是比较安全的。

注意 : 使用以下语句可以方便地查看任意时间点的数据大小:

IN [5]: print (df.shape)
(41188, 21)

如上面第二行所示,将在输出中打印行数和列数。

接下来要做的是检查每一列是否适合我们正在尝试构建的模型。