第3章 Pandas入门
Pandas是一个流行的开源Python程序库,其名称取panel data(面板数据,一个计量经济学的术语)与Python data analysis(Python数据分析)之意。本章将向读者介绍pandas的基本功能,其中包括Pandas的数据结构与运算。
Pandas的官方文档强调,Pandas项目名称中的字母应该全部采用小写形式,同时还约定导入这个程序库时使用的语句为import pandas as pd。
本书中,我们将尽可能地遵循这些惯例。
在本章中,我们首先安装并概要介绍Pandas,然后开始探索Pandas的两个最重要的数据结构:DataFrame和Series。最后,我们将学习如何对存储在这些数据结构中的数据进行类似SQL这样的运算,还举例说明包括时间序列例程在内的统计学工具。本章涉及的主题如下。
- Pandas的安装与概览
- Pandas的数据结构:DataFrame
- Pandas的数据结构:Series
- 利用Pandas查询数据
- 利用Pandas的DataFrames进行统计计算
- 利用Pandas的DataFrames聚合数据
- DataFrames的连接(joining)与附加(appending)操作
- DataFrames的串联(concatenating)操作
- 处理缺失数据问题
- 处理日期数据
- 数据透视表
3.1 Pandas的安装与概览
对于Pandas来说,最小的依赖项集合如下。
- NumPy:这是一个处理数值数组的基础软件包,我们已经在前面的章节介绍过它的安装方法和简单用法。
- python-dateutil:这是一个专门用来处理日期数据的程序库。
- pytz:这是一个处理时区问题的程序库。
上面列出的是最低限度的依赖项,如果想更加全面地了解可选依赖项,请访问http://pandas. ...
Get Python数据分析(第2版) now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.