1章はじめに
機械学習とは、データから知識を引き出すことである。統計学、人工知能、計算機科学が交差する研究領域で、予測解析、統計学習とも呼ばれる。今日、機械学習のアプリケーションはどこにでもある。どの映画を見たらよいか、何を食べたらよいか、何を買ったらよいかを教えてくれる自動レコメンデーションシステムから、オンラインラジオのパーソナライズや写真に写った友達の顔の認識まで、近代的なWebサイトやデバイスの多くは何らかの機械学習アルゴリズムを中心に構成されている。Facebook、Amazon、Netflixなどの複雑なWebサイトを見てみると、サイトのすべての部分に複数の機械学習モデルが使われている。
商用アプリケーション以外にも、機械学習は、今日のデータ駆動研究のあり方に多大な影響を与えている。本書で紹介するツールは、さまざまな科学的問題に適用されてきた。例えば、恒星の理解、遠方の惑星の発見、新たな素粒子の発見、DNAシーケンスの解析、個人ごとに調整された癌の治療などである。
しかし、機械学習によるメリットを享受できるのは、上に挙げたような大規模で世界を変えるようなアプリケーションだけではない。本章では、なぜ機械学習がこれほど流行しているのかを説明し、どのような問題が機械学習で解決できるのかを述べる。さらに、最初の機械学習モデルを構築し、その過程でいくつかの重要な概念を紹介する。
1.1 なぜ機械学習なのか?
初期の「知的」アプリケーションでは、多くのシステムで人間が記述した「もし〜なら」「でなければ」というようなルールを用いてデータを処理し、ユーザの入力に適応していた。例えばSPAMフィルタを考えてみよう。SPAMフィルタの仕事は、受け取ったメールのメッセージがSPAMであればSPAMフォルダに移すことである。例えば、単語のブラックリストを作り、その単語が出てきたらSPAMだと判断することができるだろう。これは、エキスパートが設計したルールシステムを用いた「知的」アプリケーションの一例だと言える。一部のアプリケーション、すなわち人間がモデルをよく理解できている場合には、人間が決定ルールを記述することができる。しかし、この方法には大きく分けて2つの問題点がある。 ...
Get Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.