2章エンドツーエンドの機械学習プロジェクト
この章では、最近、不動産会社に採用されたデータサイエンティストになったつもりで、プロジェクト†1を最初から最後まで体験していただく。主要なステップは次に示す通りだ。
[†1] プロジェクト例は、まったくのフィクションである。目標は機械学習プロジェクトの主要なステップを具体的に説明することで、不動産取引の実際について学ぶことではない。
- 全体像をつかむ。
- データを手に入れる。
- データを研究、可視化して理解を深める。
- 機械学習アルゴリズムが処理しやすいようにデータを準備する。
- モデルを選択して訓練する。
- モデルを微調整する。
- ソリューションをプレゼンテーションする。
- システムを本番稼働、モニタリング、メンテナンスする。
2.1 実際のデータの操作
機械学習を学ぶときには、人工的なデータセットではなく、実世界のデータで実際に実験してみるとよい。幸い、素材としては、あらゆる分野の無数のオープンデータセットがある。データが得られる場所としては、次のようなものがある。
- 人気のあるオープンデータリポジトリ
- カリフォルニア大学アーバイン校MLリポジトリ(https://archive.ics.uci.edu/ml/)
- Kaggleデータセット(https://www.kaggle.com/datasets)
- AmazonのAWSデータセット(https://registry.opendata.aws/)
- メタポータル(オープンデータリポジトリのリスト)
- 人気のあるオープンデータリポジトリのリストが含まれているその他のページ ...
Get scikit-learn、Keras、TensorFlowによる実践機械学習 第2版 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.