Pandas 数据结构简介


Pandas 处理以下三种数据结构:

  • Series

  • DataFrame

  • Panel

这些数据结构建立在 Numpy 数组之上,这意味着它们速度很快。

大小和描述


考虑这些数据结构的最佳方式是,高维数据结构是其低维数据结构的容器。比如DataFrame是Series的容器,Panel是DataFrame的容器。

数据结构维度描述
Series1一维标记齐次数组,大小不可变。

DataFrame

2具有潜在异构类型的通用二维标记、大小可变的表格结构 columns.
Panel3一般 3D 标记的大小可变数组。

构建和处理二维或更多维数组是一项繁琐的任务,用户在编写函数时要考虑数据集的方向。但是使用 Pandas 数据结构,减少了用户的脑力劳动。

例如,对于表格数据 (DataFrame),在语义上考虑index(行)和columns而不是轴 0 和轴 1。

可变性

除了 Series,所有 Pandas 数据结构的值都是可变的(可以修改)。

注意: DataFrame 应用广泛,是最重要的数据结构之一,Panel 的使用要少得多。

Series


系列是具有同构数据的一维数组状结构。

例如,以下系列是整数 10、23、56、……的集合。

10235617526173902672

特点

  • 同类数据

  • 大小不可变

  • 数据可变的值

DataFrame


DataFrame 是一个具有异构数据的二维数组,例如,

名字年龄性别评分
Steve32Male3.45
Lia28Female4.6
Vin45Male3.9
Katie38Female2.78

该表代表了一个组织的销售团队的数据及其整体绩效评级,数据以行和列表示,每列代表一个属性,每行代表一个人。

Columns


四列的数据类型如下:

字段类型
NameString
AgeInteger
GenderString
RatingFloat

特点

  • 异构数据

  • 大小可变

  • 数据可变

Panel


面板是一种具有异构数据的三维数据结构,很难用图形表示来表示面板,但是面板可以被描述为 DataFrame 的容器。

特点

  • 异构数据

  • 大小可变

  • 数据可变