48章詳細:混合ガウスモデル

前章で説明したk平均法クラスタリングモデルは単純かつ比較的理解しやすいものですが、そのシンプルさ故に実際的な問題をもたらします。特にk平均法の非確率的な性質と、クラスタメンバーを割り当てるために用いる単純なクラスタ中心からの距離の仕組みは、多くの現実的な状況において高いパフォーマンスが望めません。この章では、k平均法の背後にあるアイデアの拡張とみなせる混合ガウスモデル(GMM:Gaussian Mixture Models)を学びますが、単純なクラスタリング以上に、推定のための強力なツールにもなります。

まず標準的なモジュールをインポートします。

In [1]: %matplotlib inline
        import matplotlib.pyplot as plt
        plt.style.use('seaborn-whitegrid')
        import numpy as np

48.1 混合ガウスモデルの必要性:k平均法の弱点

k平均法の弱点を見た上で、クラスタモデルをどのように改善できるかを考えてみましょう。前の章で見たように、単純でわかりやすいデータがあれば、k平均法は適切なクラスタリング結果を見つけられます。

例えば、単純な集団を形成しているデータに対して、k平均法アルゴリズムは見た目で行うのと同じような方法で、クラスタに素早くラベルを付けられます(図48-1を参照)。

In [2]: # データの生成 from sklearn.datasets import make_blobs X, y_true = make_blobs(n_samples=400, centers=4, cluster_std=0.60, random_state=0) ...

Get Pythonデータサイエンスハンドブック 第2版 ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.