第3章 Pandas入门

Pandas是一个流行的开源Python程序库,其名称取panel data(面板数据,一个计量经济学的术语)与Python data analysis(Python数据分析)之意。本章将向读者介绍pandas的基本功能,其中包括Pandas的数据结构与运算。

Pandas的官方文档强调,Pandas项目名称中的字母应该全部采用小写形式,同时还约定导入这个程序库时使用的语句为import pandas as pd。

本书中,我们将尽可能地遵循这些惯例。

在本章中,我们首先安装并概要介绍Pandas,然后开始探索Pandas的两个最重要的数据结构:DataFrame和Series。最后,我们将学习如何对存储在这些数据结构中的数据进行类似SQL这样的运算,还举例说明包括时间序列例程在内的统计学工具。本章涉及的主题如下。

  • Pandas的安装与概览
  • Pandas的数据结构:DataFrame
  • Pandas的数据结构:Series
  • 利用Pandas查询数据
  • 利用Pandas的DataFrames进行统计计算
  • 利用Pandas的DataFrames聚合数据
  • DataFrames的连接(joining)与附加(appending)操作
  • DataFrames的串联(concatenating)操作
  • 处理缺失数据问题
  • 处理日期数据
  • 数据透视表

对于Pandas来说,最小的依赖项集合如下。

  • NumPy:这是一个处理数值数组的基础软件包,我们已经在前面的章节介绍过它的安装方法和简单用法。
  • python-dateutil:这是一个专门用来处理日期数据的程序库。
  • pytz:这是一个处理时区问题的程序库。

上面列出的是最低限度的依赖项,如果想更加全面地了解可选依赖项,请访问http://pandas. ...

Get Python数据分析(第2版) now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.