21章ピボットテーブル
groupby
による抽象化が、データセット内の関係をどのように深掘りできるかを見てきました。ピボットテーブルは、表計算ソフトや表形式のデータを扱うその他のプログラムなどでよく行われる操作です。ピボットテーブルは、単純な列形式のデータを入力として受け取り、その入力を2次元の表にグループ化して、多次元的な要約を行います。ピボットテーブルとgroupby
の違いに混乱するかもしれません。ピボットテーブルは、本質的にgroupby
集約の多次元版と考えると良いでしょう。分割-適用-結合の操作であることに違いはありませんが、分割と結合の両方が2次元のグリッド全体で行われます。
21.1 ピボットテーブルの必要性
この章では、seabornライブラリ(「36章 seabornによる可視化」を参照してください)として入手できるタイタニック号の乗客データセットを使用します。
In [1]: import numpy as np import pandas as pd import seaborn as sns titanic = sns.load_dataset('titanic') In [2]: titanic.head() Out[2]: survived pclass sex age sibsp parch fare embarked class \ 0 0 3 male 22.0 1 0 7.2500 S Third 1 1 1 female 38.0 1 0 71.2833 C First 2 1 3 female 26.0 0 0 7.9250 S Third 3 1 1 female 35.0 1 0 53.1000 S First 4 0 3 male 35.0 ...
Get Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.