使用 Python 生态系统进行机器学习


Python是一种流行的面向对象的编程语言,具有高级编程语言的能力。它易于学习的语法和可移植性使其如今很受欢迎。以下事实为我们介绍了 Python:

  • Python 由荷兰 Stichting Mathematisch Centrum 的 Guido van Rossum 开发。

  • 它是作为名为“ABC”的编程语言的继承者编写的。

  • 它的第一个版本于 1991 年发布。

  • Python 这个名字是由 Guido van Rossum 从名为 Monty Python's Flying Circus 的电视节目中选择的。

  • 它是一种开源编程语言,这意味着我们可以免费下载并使用它来开发程序。它可以从下载 www.python.org .

  • Python 编程语言同时具有 Java 和 C 的特性。它拥有优雅的“C”代码,另一方面,它拥有用于面向对象编程的类和对象,如 Java。

  • 它是一种解释型语言,这意味着 Python 程序的源代码将首先转换为字节码,然后由 Python 虚拟机执行。

Python的优点和缺点


每种编程语言都有一些优点和缺点,Python 也是如此。

优势

根据研究和调查,Python 是第五大最重要的语言,也是机器学习和数据科学最流行的语言。正是因为 Python 具有以下优势:

易于学习和理解 : Python的语法更简单;因此,即使对于初学者来说,学习和理解语言也相对容易。

多用途语言 : Python是一门多用途的编程语言,因为它支持结构化编程、面向对象编程以及函数式编程。

大量的模块 : Python 拥有庞大的模块,涵盖了编程的方方面面。这些模块很容易使用,因此使 Python 成为一种可扩展的语言。

开源社区的支持 : 作为开源编程语言,Python 得到了非常大的开发者社区的支持。因此,Python 社区很容易修复这些错误。这个特性使 Python 非常健壮和自适应。

可扩展性 : Python 是一种可扩展的编程语言,因为它为支持大型程序提供了比 shell-scripts 更好的结构。

Weakness

虽然 Python 是一种流行且功能强大的编程语言,但它也有自己的弱点,即执行速度慢。

与编译语言相比,Python 的执行速度较慢,因为 Python 是一种解释型语言。这可能是 Python 社区的主要改进领域。

安装 Python


为了在 Python 中工作,我们必须首先安装它。你可以通过以下两种方式之一进行 Python 的安装:

  • 单独安装 Python

  • 使用预打包的 Python 发行版: Anaconda

让我们详细讨论这些。

单独安装 Python

如果你想在你的计算机上安装 Python,那么你只需下载适用于你的平台的二进制代码。 Python 发行版可用于 Windows、Linux 和 Mac 平台。

以下是在上述平台上安装 Python 的快速概览:

在 Unix 和 Linux 平台上

借助以下步骤,我们可以在 Unix 和 Linux 平台上安装 Python:

  • 首先,前往 www.python.org/downloads/ .

  • 接下来,单击链接下载可用于 Unix/Linux 的压缩源代码。

  • 现在,下载并解压文件。

  • 接下来,如果我们想自定义一些选项,我们可以编辑 Modules/Setup 文件。

    • 接下来,编写命令 运行 ./configure 脚本

    • make

    • 进行安装

在 Windows 平台上

借助以下步骤,我们可以在 Windows 平台上安装 Python:

  • 首先,前往 www.python.org/downloads/ .

  • 接下来,单击 Windows 安装程序 python-XYZ.msi 文件的链接。这里 XYZ 是我们要安装的版本。

  • 现在,我们必须运行下载的文件。它将带我们进入易于使用的 Python 安装向导。现在,接受默认设置并等待安装完成。

在 Macintosh 平台上

对于 Mac OS X 和 Homebrew,推荐使用一个很棒且易于使用的包安装程序来安装 Python 3。如果你没有 Homebrew,可以使用以下命令进行安装:

$ ruby -e "$(curl -fsSL
https:// raw.githubusercontent.com/Homebrew/install/master/install)"

可以使用以下命令进行更新:

$ brew update

现在,要在你的系统上安装 Python3,我们需要运行以下命令:

$ brew install python3

使用预打包的 Python 发行版:Anaconda

Anaconda 是 Python 的打包编译,其中包含数据科学中广泛使用的所有库。我们可以按照以下步骤使用 Anaconda 设置 Python 环境:

  • 步骤 1 : 首先,我们需要从 Anaconda 发行版中下载所需的安装包。相同的链接是 www.anaconda.com/distribution/ .你可以根据需要从 Windows、Mac 和 Linux 操作系统中进行选择。

  • 步骤 2 :接下来,选择你要在你的机器上安装的Python版本。最新的 Python 版本是 3.7。在那里,你将获得 64 位和 32 位图形安装程序的选项。

  • 步骤 3 :选择操作系统和Python版本后,会在你的电脑上下载Anaconda安装程序。现在,双击该文件,安装程序将安装 Anaconda 包。

  • 步骤 4 :查看是否安装,打开命令提示符,输入Python如下:

Python Distribution

你也可以在详细的视频讲座中查看这一点 www.newbiego.com/python_essentials_online_training/getting_started_with_anaconda.asp .

为什么选择 Python 用于数据科学?


Python 是第五大最重要的语言,也是机器学习和数据科学最流行的语言。以下是 Python 使其成为数据科学首选语言的特点:

丰富的软件包集

Python 有一套广泛而强大的软件包,可以在各种领域中使用。它也有像 numpy,scipy,熊猫,scikit-learn 等等,这是机器学习和数据科学所必需的。

简单的原型制作

Python 使其成为数据科学语言选择的另一个重要特性是简单快速的原型设计。此功能对于开发新算法很有用。

协作功能

数据科学领域基本上需要良好的协作,而 Python 提供了许多有用的工具,使这非常重要。

一种语言适用于多个领域

一个典型的数据科学项目包括各种领域,如数据提取、数据操作、数据分析、特征提取、建模、评估、部署和更新解决方案。由于 Python 是一种多用途语言,它允许数据科学家从一个通用平台处理所有这些领域。

Python ML 生态系统的组成部分


在本节中,让我们讨论一些构成 Python 机器学习生态系统组件的核心数据科学库。这些有用的组件使 Python 成为数据科学的重要语言。虽然有很多这样的组件,但让我们在这里讨论一些 Python 生态系统的重要组件:

Jupyter 笔记本


Jupyter notebooks 基本上为开发基于 Python 的数据科学应用程序提供了一个交互式计算环境。它们以前称为 ipython 笔记本。以下是 Jupyter notebook 的一些特性,使其成为 Python ML 生态系统的最佳组件之一:

  • Jupyter notebooks 可以通过逐步排列代码、图像、文本、输出等内容来逐步说明分析过程。

  • 它可以帮助数据科学家在开发分析过程时记录思维过程。

  • 也可以将结果捕获为笔记本的一部分。

  • 在 jupyter notebook 的帮助下,我们也可以与同行分享我们的工作。

安装和执行

如果你使用的是 Anaconda 发行版,则无需单独安装 jupyter notebook,因为它已经安装了它。你只需要进入 Anaconda Prompt 并输入以下命令:

C:\>jupyter notebook

按下回车后,它将在你计算机的 localhost:8888 启动一个笔记本服务器。如下图所示:

Jupyter 注意book

现在,单击“新建”选项卡后,你将获得一个选项列表。选择 Python 3,它将带你到新笔记本开始使用它。你将在以下截图中一瞥:

Python Table

Search Bar

另一方面,如果你使用标准 Python 发行版,则可以使用流行的 Python 包安装程序 pip 安装 jupyter notebook。

pip install jupyter

Jupyter 注意book 中的单元格类型


以下是jupyter notebook中的三种cell:

代码单元 :顾名思义,我们可以使用这些单元格来编写代码。编写代码/内容后,它将发送到与笔记本关联的内核。

降价单元格 : 我们可以用这些单元格来标注计算过程。它们可以包含文本、图像、Latex 方程、HTML 标签等内容。

原始细胞 : 写在里面的文字原样显示。这些单元格基本上是用来添加我们不希望被 jupyter notebook 的自动转换机制转换的文本。

jupyter notebook更详细的学习,可以去链接 www.newbiego.com/jupyter/index.htm .

NumPy

它是另一个有用的组件,使 Python 成为数据科学最喜欢的语言之一。它基本上代表 Numerical Python,由多维数组对象组成。通过使用 NumPy,我们可以执行以下重要操作:

  • 对数组的数学和逻辑运算。

  • 傅里叶变换

  • 与线性代数相关的运算。

我们还可以将 NumPy 视为 MatLab 的替代品,因为 NumPy 主要与 Scipy(科学 Python)和 Mat-plotlib(绘图库)一起使用。

安装和执行

如果你使用的是 Anaconda 发行版,则无需单独安装 NumPy,因为它已经安装了它。你只需在以下帮助下将包导入你的 Python 脚本:

import numpy as np

另一方面,如果你使用的是标准 Python 发行版,则可以使用流行的 Python 包安装程序 pip 安装 NumPy。

pip install NumPy

NumPy更详细的学习,可以去链接 www.newbiego.com/numpy/index.htm .

Pandas

它是另一个有用的 Python 库,使 Python 成为数据科学最喜欢的语言之一。 Pandas 主要用于数据处理、整理和分析。它由 Wes McKinney 于 2008 年开发。在 Pandas 的帮助下,在数据处理中我们可以完成以下五个步骤:

  • Load
  • Prepare
  • 操纵
  • Model
  • Analyze

Pandas 中的数据表示

Pandas 中数据的整个表示是借助以下三种数据结构完成的:

Series :它基本上是一个带有轴标签的一维ndarray,这意味着它就像一个具有同质数据的简单数组。例如,下面的系列是整数 1,5,10,15,24,25... 的集合

1 5 10 15 24 25 28 36 40 89

数据框 : 它是最有用的数据结构,用于pandas中几乎所有类型的数据表示和操作。它基本上是一个可以包含异构数据的二维数据结构。通常,表格数据使用数据框来表示。例如,下表显示了学生的姓名和卷号、年龄和性别的数据:

Name 卷号 Age Gender
Aarav 1 15 Male
Harshit 2 14 Male
Kanika 3 16 Female
Mayank 4 15 Male

Panel :它是一个包含异构数据的3维数据结构。用图形表示面板非常困难,但可以将其表示为 DataFrame 的容器。

下表给出了 Pandas 中使用的上述数据结构的维度和描述:

数据结构 方面 描述
Series 1-D 大小不可变的一维同质数据
数据帧 2-D 表格形式的大小可变、异构数据
Panel 3-D 大小可变数组,DataFrame 的容器。

我们可以将这些数据结构理解为高维数据结构是低维数据结构的容器。

安装和执行

如果你使用的是 Anaconda 发行版,则无需单独安装 Pandas,因为它已经安装了它。你只需在以下帮助下将包导入你的 Python 脚本:

import pandas as pd

另一方面,如果你使用标准 Python 发行版,则可以使用流行的 Python 包安装程序 pip 安装 Pandas。

pip install Pandas

安装 Pandas 后,你可以像上面一样将其导入 Python 脚本。

例子

以下是使用 Pandas 从 ndarray 创建系列的示例:

In [1]: import pandas as pd

In [2]: import numpy as np

In [3]: data = np.array(['g','a','u','r','a','v'])

In [4]: s = pd.Series(data)

In [5]: print (s)

0 g
1 a
2 u
3 r
4 a
5 v

dtype: object

有关 Pandas 的更详细研究,你可以访问链接 www.newbiego.com/python_pandas/index.htm .

Scikit-学习

另一个在 Python 中用于数据科学和机器学习的有用且最重要的 Python 库是 Scikit-learn。以下是 Scikit-learn 非常有用的一些特性:

  • 它建立在 NumPy、SciPy 和 Matplotlib 之上。

  • 它是开源的,可以在 BSD 许可下重复使用。

  • 每个人都可以访问它,并且可以在各种情况下重复使用。

  • 可以在它的帮助下实现涵盖 ML 主要领域的广泛机器学习算法,如分类、聚类、回归、降维、模型选择等。

安装和执行

如果你使用的是 Anaconda 发行版,则无需单独安装 Scikit-learn,因为它已经随它一起安装了。你只需要在你的 Python 脚本中使用这个包。例如,使用以下脚本行,我们从 Scikit-学习

from sklearn.datasets import load_breast_cancer

另一方面,如果你使用标准 Python 发行版并拥有 NumPy 和 SciPy,则可以使用流行的 Python 包安装程序 pip 安装 Scikit-learn。

pip install -U scikit-learn

安装 Scikit-learn 后,你可以像上面所做的那样在 Python 脚本中使用它。