BeautifulSoup 教程

在本教程中，我们将向你展示如何使用 Beautiful Soup 4 在 Python 中执行网页抓取，以从 HTML、XML 和其他标记语言中获取数据。在此，我们将尝试从各种不同的网站(包括 IMDB)中抓取网页。我们将介绍BeautifulSoup 4，python 基本工具，用于高效、清晰地导航、搜索和解析 HTML 网页。在本教程中，我们试图涵盖 Beautiful Soup 4 的几乎所有功能。你可以将本教程中介绍的多种功能组合到一个更大的程序中，以将来自网站的多个有意义的数据作为输入捕获到其他子程序中。

适用人群

本教程基本上旨在指导你浏览网页。所有这一切的基本要求是从大量无组织的数据中获取有意义的数据。本教程的目标受众可以是以下任何人：

任何想知道的人——如何使用 BeautifulSoup 4 在 python 中报废网页。
任何数据科学开发人员/爱好者或任何人，都希望如何将这些抓取的(有意义的)数据用于不同的 Python 数据科学库以做出更好的决策。

学习前提

尽管本教程没有强制性要求。但是，如果你对以下提到的任何技术有任何或全部(过冷)先验知识，那将是一个额外的优势：

任何网络相关技术(HTML/CSS/文档对象模型等)的知识。
Python 语言(因为它是 python 包)。
对任何语言的抓取有任何先验知识的开发人员。
基本了解 HTML 树结构。

下一篇（BeautifulSoup 概述） >