Python Pandas 数据结构

Pandas 处理以下三种数据结构:

  • Series
  • DataFrame
  • Panel

这些数据结构建立在 Numpy 数组之上,这也意味着它们速度很快。

维度

了解这些数据结构的最佳方式是,可以这样认为,高维数据结构是其低维数据结构的容器。比如 DataFrameSeries 的容器,Panel 是 DataFrame 的容器。

数据结构 维度 描述
Series 1 一维标记齐次数组,大小不可变。
DataFrame 2 具有潜在异构类型列的通用 2D 标记、大小可变的表格结构。
Panel 3 一般 3D 标记的大小可变数组。

构建和处理二维或更多维数组是一个比较麻烦的任务,用户在编写函数时要考虑数据集的方向。但是使用 Pandas 数据结构可以减少用户的脑力劳动。

例如,对于表格数据 (DataFrame),考虑行和列的索引比考虑轴 0 和轴 1在语义上更有帮助。

可变性

所有 Pandas 数据结构都是值可变的(可以更改),除了 Series 之外数据结构大小也是可变的。Series 数据结构大小不可变。

注意- DataFrame 的使用是最广泛的并且是最重要的数据结构之一。Panel 的使用要少得多。


Series

Series 是具有同构数据的一维数组状结构。例如,以下 Series 是整数 10、23、56、……的集合。

10 23 56 17 52 61 73 90 26 72

关键点

  • 值都是同一种数据类型
  • 数据结构大小不可变
  • 数据值可变

DataFrame

DataFrame 是一个具有异构数据的二维数组。例如,

姓名 年龄 性别 评分
Steve 32 Male 3.45
Lia 28 Female 4.6
Vin 45 Male 3.9
Katie 38 Female 2.78

每列的数据类型

类型
姓名 String
年龄 Integer
性别 String
评分 Float

关键点

  • 异构数据
  • 大小可变
  • 数据可变

Panel

面板是一种具有异构数据的三维数据结构。很难用图形表来表示面板。但是面板可以被描述为 DataFrame 的容器。

关键点

  • 异构数据
  • 大小可变
  • 数据可变

查看笔记

扫码一下
查看教程更方便