データサイエンス講義

Book description

コロンビア大学のデータサイエンス入門講義をベースとした本書では、データサイエンスを行う上で、どのようなプロセスが必要か、データサイエンティストとしてはどのようなスキルセットが必要で、どのような思考方法を選択する必要があるのかを実例とともに紹介します。Google、Microsoft、Facebookをはじめとした有名企業で使われているアルゴリズムや分析手法の紹介など、興味深い話題や事例を豊富に収録。幅広い解説で、データサイエンティストの参考になるトピックが満載の一冊です。

Table of contents

  1.  大扉
  2.  原書大扉
  3.  クレジット
  4.   
  5.  訳者まえがき
  6.  まえがき
  7.   モチベーション
  8.   講義の背景
  9.   この本の背景
  10.   この本から何が得られるか
  11.   この本の構成
  12.   この本の読み方
  13.   この本でのコードの使い方
  14.   この本の対象読者
  15.   前提としている知識
  16.   参考文献
  17.   この本への貢献者の方々について
  18.   本書の表記法
  19.   コード例の使用
  20.   ご意見とご質問
  21.   謝辞
  22.  第1章 はじめに:データサイエンスとは
  23.   1.1 ビッグデータとデータサイエンスの過剰喧伝
  24.   1.2 過剰喧伝を克服する
  25.   1.3 なぜいまなのか
  26.    1.3.1 データ化
  27.   1.4 現状(および多少の歴史)
  28.    1.4.1 データサイエンスの仕事
  29.   1.5 データサイエンスプロフィール
  30.   1.6 思考実験:メタ定義
  31.   1.7 データサイエンティストとは本当は何か
  32.    1.7.1 学術界
  33.    1.7.2 産業界
  34.  第2章 統計的推論、探索的データ分析、データサイエンスのプロセス
  35.   2.1 ビッグデータ時代の統計的思考
  36.    2.1.1 統計的推論
  37.    2.1.2 母集団と標本
  38.    2.1.3 ビッグデータの母集団と標本
  39.    2.1.4 ビッグデータの大きな仮定
  40.    2.1.5 モデル
  41.   2.2 探索的データ分析
  42.    2.2.1 探索的データ分析の理念
  43.    2.2.2 演習問題:EDA
  44.   2.3 データサイエンスのプロセス
  45.    2.3.1 データサイエンスのプロセスにおけるデータサイエンティストの役割
  46.   2.4 思考実験:混沌(カオス)をどのようにシミュレートするか?
  47.   2.5 ケーススタディ:RealDirect
  48.    2.5.1 RealDirectはどのように収益を得ているか
  49.    2.5.2 演習問題:RealDirectのデータ戦略
  50.  第3章 アルゴリズム
  51.   3.1 機械学習アルゴリズム
  52.   3.2 3つの基本アルゴリズム
  53.    3.2.1 線形回帰
  54.    3.2.2 k近傍法
  55.    3.2.3 k平均法
  56.   3.3 演習問題:基本的な機械学習アルゴリズム
  57.    3.3.1 解答例
  58.   3.4 まとめ
  59.   3.5 思考実験:自動統計学者
  60.  第4章 スパムフィルタ、単純ベイズ、データラングリング
  61.   4.1 思考実験:スパムフィルタの例から学ぶ
  62.    4.1.1 なぜ線形回帰でスパムフィルタを構築できないのか
  63.    4.1.2 k近傍法でスパムフィルタを構築できるか
  64.   4.2 単純ベイズ
  65.    4.2.1 ベイズの法則
  66.    4.2.2 1つの単語に対するスパムフィルタ
  67.    4.2.3 複数の単語を組み合わせたスパムフィルタ:単純ベイズ
  68.   4.3 ラプラススムージング
  69.   4.4 単純ベイズとk近傍法の比較
  70.   4.5 bashによるサンプルコード
  71.   4.6 ウェブスクレイピング:APIとその他のツール
  72.   4.7 ジェイクによる演習問題:単純ベイズによる記事の分類
  73.    4.7.1 ニューヨークタイムズAPIを使ったRのサンプルコード
  74.  第5章 ロジスティック回帰
  75.   5.1 思考実験
  76.   5.2 分類器
  77.    5.2.1 実行時間
  78.    5.2.2 自分自身
  79.    5.2.3 解釈のしやすさ
  80.    5.2.4 スケーラビリティ
  81.   5.3 M6Dにおけるロジスティック回帰の事例研究
  82.    5.3.1 クリックのモデル
  83.    5.3.2 基礎となる数学
  84.    5.3.3 αとβの推定
  85.    5.3.4 ニュートン法
  86.    5.3.5 確率的勾配降下法
  87.    5.3.6 実装
  88.    5.3.7 評価
  89.   5.4 M6Dの演習問題
  90.    5.4.1 Rのサンプルコード
  91.  第6章 タイムスタンプと金融モデリング
  92.   6.1 カイル・テーグとGetGlue
  93.   6.2 タイムスタンプ
  94.    6.2.1 探索的データ分析
  95.    6.2.2 指標と新しい変数や特徴
  96.    6.2.3 次にすべきこと
  97.   6.3 キャシー・オニール
  98.   6.4 思考実験
  99.   6.5 金融モデリング
  100.    6.5.1 サンプル内、サンプル外と因果関係
  101.    6.5.2 金融データの前処理
  102.    6.5.3 対数収益率
  103.    6.5.4 例:S&P株式指数
  104.    6.5.5 ボラティリティ(不安定さ)を測定する
  105.    6.5.6 指数関数的な重みの減少
  106.    6.5.7 金融モデリングのフィードバックループ
  107.    6.5.8 なぜ回帰なのか
  108.    6.5.9 事前値に加算する
  109.    6.5.10 生まれたてのモデル
  110.   6.6 演習問題:GetGlueとタイムスタンプ付きイベントデータ
  111.    6.6.1 演習問題:金融データ
  112.  第7章 データから意味を抽出する
  113.   7.1 ウィリアム・キュキエスキ
  114.    7.1.1 背景:データサイエンスのコンペティション
  115.    7.1.2 背景:クラウドソーシング
  116.   7.2 Kaggleのモデル
  117.    7.2.1 Kaggleでの競技者
  118.    7.2.2 Kaggleの顧客
  119.   7.3 思考実験:ロボット評価者が示す道徳上の意味
  120.   7.4 特徴選択
  121.    7.4.1 例:ユーザの定着率
  122.    7.4.2 フィルタ
  123.    7.4.3 ラッパー
  124.    7.4.4 組み込み:決定木
  125.    7.4.5 エントロピー
  126.    7.4.6 決定木のアルゴリズム
  127.    7.4.7 決定木における連続値変数の扱い
  128.    7.4.8 ランダムフォレスト
  129.    7.4.9 ユーザの定着率:理解しやすさvs.予測力
  130.   7.5 ディビッド・ハファッカー:ソーシャル研究へのGoogleのハイブリッドなアプローチ
  131.    7.5.1 記述的から予測的へ
  132.    7.5.2 Googleにおけるソーシャル
  133.    7.5.3 プライバシー
  134.    7.5.4 思考実験:懸念点を減らし理解とコントロールを増やすための最良の方法とは?
  135.  第8章 レコメンデーションエンジン:ユーザが直接触れる大規模データ製品を構築する
  136.   8.1 現実世界でのレコメンデーションエンジン
  137.    8.1.1 最近傍法を振り返る
  138.    8.1.2 最近傍法の問題点
  139.    8.1.3 最近傍法を越えて:機械学習による分類
  140.    8.1.4 次元の問題
  141.    8.1.5 特異値分解
  142.    8.1.6 SVDの重要な特徴
  143.    8.1.7 主成分分析
  144.    8.1.8 最小二乗法の代替
  145.    8.1.9 Vを固定してUを更新する
  146.    8.1.10 3つのアルゴリズムについての最後の考察
  147.   8.2 思考実験:バブルを検出する
  148.   8.3 演習問題:レコメンデーションシステムの構築
  149.    8.3.1 Pythonのサンプルコード
  150.  第9章 データ可視化と不正検出
  151.   9.1 データ可視化の歴史
  152.    9.1.1 ガブリエル・タルド
  153.    9.1.2 マークの思考実験
  154.   9.2 データサイエンスとは何か、再び
  155.    9.2.1 Processing
  156.    9.2.2 フランコ・モレッティ
  157.   9.3 データ可視化プロジェクトの例
  158.   9.4 マークのデータ可視化プロジェクト
  159.    9.4.1 ニューヨークタイムズのロビー:Moveable Type
  160.    9.4.2 プロジェクトCascade:画面上でのライブ
  161.    9.4.3 クロンカイトプラザ
  162.    9.4.4 eBay取引と書籍
  163.    9.4.5 パブリックシアターのシェイクスピアマシン
  164.    9.4.6 これらの展示の目的
  165.   9.5 データサイエンスとリスク
  166.    9.5.1 Square社について
  167.    9.5.2 リスクに対する取り組み
  168.    9.5.3 性能推定における問題点
  169.    9.5.4 モデル構築のヒント
  170.   9.6 Square社でのデータ可視化
  171.   9.7 イアンの思考実験
  172.   9.8 その他の人々にとってのデータ可視化
  173.    9.8.1 データ可視化の演習問題
  174.  第10章 ソーシャルネットワークとデータジャーナリズム
  175.   10.1 Morningside Analyticsでのソーシャルネットワーク分析
  176.    10.1.1 ケース属性データvs.ソーシャルネットワークデータ
  177.   10.2 ソーシャルネットワーク分析
  178.   10.3 ソーシャルネットワーク由来の専門用語
  179.    10.3.1 中心性の尺度
  180.    10.3.2 中心性の業界
  181.   10.4 思考実験
  182.   10.5 Morningside Analytics
  183.    10.5.1 可視化によって魚の群れを特定する方法
  184.   10.6 統計学的視点から見たソーシャルネットワーク分析の深い背景
  185.    10.6.1 ネットワークの表現と固有ベクトル中心性
  186.    10.6.2 ランダムグラフの1つ目の例:Erdos-Renyiモデル
  187.    10.6.3 ランダムグラフの2つ目の例:指数ランダムグラフ
  188.   10.7 データジャーナリズム
  189.    10.7.1 データジャーナリズムの歴史
  190.    10.7.2 技術ジャーナリズムの執筆:専門家からのアドバイス
  191.  第11章 因果関係
  192.   11.1 相関関係は因果関係を含意しない
  193.    11.1.1 因果関係に関する問い
  194.    11.1.2 交絡因子:出会い系サイトの例
  195.   11.2 OkCupidの試み
  196.   11.3 ゴールドスタンダード:無作為化臨床試験
  197.   11.4 A/B テスト
  198.   11.5 次善策:観察研究
  199.    11.5.1 シンプソンのパラドックス
  200.    11.5.2 ルービンの因果モデル
  201.    11.5.3 因果関係の可視化
  202.    11.5.4 因果効果の定義
  203.   11.6 3つのアドバイス
  204.  第12章 疫学
  205.   12.1 マディガンの経歴
  206.   12.2 思考実験
  207.   12.3 現在の学術的な統計
  208.   12.4 医療文献と観察研究
  209.   12.5 層別化は交絡問題を解決しない
  210.    12.5.1 実際に交絡因子に関して行われていること
  211.   12.6 よい方法は存在するのか
  212.   12.7 調査実験(医薬の影響効果の組合せ観察)
  213.   12.8 思考実験の終了
  214.  第13章 データ分析のコンペティションから得られた教訓:データのリークとモデルの評価
  215.   13.1 データサイエンティストクラウディアのプロフィール
  216.    13.1.1 チーフデータサイエンティストの生涯
  217.    13.1.2 女性のデータサイエンティストであるということ
  218.   13.2 データマイニングコンペティション
  219.   13.3 よいモデル作成者になる方法
  220.   13.4 データのリーク
  221.    13.4.1 市場予測
  222.    13.4.2 Amazonの事例:高額購入者の予測
  223.    13.4.3 宝石購入者のサンプリングに関する問題
  224.    13.4.4 IBMの顧客ターゲティング
  225.    13.4.5 乳がんの検出
  226.    13.4.6 肺炎患者の予測
  227.   13.5 データのリークを回避する方法
  228.   13.6 モデルの評価
  229.    13.6.1 正確度:退屈な話
  230.    13.6.2 それは確率の問題であり、0と1ではない
  231.   13.7 アルゴリズムの選択
  232.   13.8 最後の例
  233.   13.9 最後に
  234.  第14章 データエンジニアリング:MapReduce、Pregel、Hadoop
  235.   14.1 ディビッド・クローショーについて
  236.   14.2 思考実験
  237.   14.3 MapReduce
  238.   14.4 単語頻度の問題
  239.    14.4.1 MapReduceの導入
  240.   14.5 MapReduceを使う他の例
  241.    14.5.1 MapReduceでできないこと
  242.   14.6 Pregel
  243.   14.7 ジョシュ・ウィルズについて
  244.   14.8 思考実験
  245.   14.9 データサイエンティストであること
  246.    14.9.1 データの豊富さをとるか、価値のある希少なデータだけを残すか
  247.    14.9.2 モデルの設計
  248.   14.10 経済面での落としどころ:Hadoop
  249.    14.10.1 Hadoopの簡単な紹介
  250.    14.10.2 Cloudera
  251.   14.11 ジョシュのワークフロー
  252.   14.12 Hadoopを使い始めるには
  253.  第15章 生徒たちの声
  254.   15.1 プロセスに関する思考
  255.   15.2 もはや単純(Naive)ではない
  256.   15.3 救いの手
  257.   15.4 道のりは変化する
  258.   15.5 橋渡しされたトンネル
  259.   15.6 成果物の一例
  260.  第16章 次世代のデータサイエンティスト、データに対する過信と倫理
  261.   16.1 今まさに起きていること
  262.   16.2 データサイエンスの定義について再考する
  263.   16.3 次世代のデータサイエンティストとは
  264.    16.3.1 問題を解決する人物であること
  265.    16.3.2 精神的な性質を磨くこと
  266.    16.3.3 疑問を持つ人になる
  267.   16.4 倫理的なデータサイエンティストであること
  268.   16.5 キャリアに対するアドバイス
  269.  著者紹介
  270.  奥付

Product information

  • Title: データサイエンス講義
  • Author(s): Rachel Schutt, Cathy O'Neil, 瀬戸山 雅人, 石井 弓美子, 河内 崇, 河内 真理子, 古畠 敦, 木下 哲也, 竹田 正和, 佐藤 正士, 望月 啓充
  • Release date: October 2014
  • Publisher(s): O'Reilly Japan, Inc.
  • ISBN: 9784873117010

You might also like

book

仕事ではじめる機械学習 第2版

by 有賀 康顕, 中山 心太, 西林 孝

2018年の発行以来、多くの読者に支持された書籍を全面改訂! 不確実性の高い機械学習プロジェクトについて、「仕事で使う」という観点から整理するコンセプトはそのままに、初版の発行後に登場した概念や課題を取り上げます。「機械学習でいい感じにしてくれ」と突然上司に言われたとき、本書で学んだことが読者の力になるはずです。本書で得た知識は読者が「いま」困っている問題を解決する助けとなるでしょう。 第2版では、機械学習システムの開発と運用の統合する「ML Ops」、機械学習モデルを解釈し、その妥当性や根拠を明らかにする「機械学習モデルの検証」、ユーザーの行動を学習しながら予測を進める「バンディットアルゴリズム」、意思決定における予測システムの役割や意思決定のデザインを扱う「オンライン広告での機械学習」といった新章を追加しています。

book

初めてのGraphQL ―Webサービスを作って学ぶ新世代API

by Eve Porcello, Alex Banks, 尾崎 沙耶, あんどうやすし

今日では多くのWebサービスがRESTアーキテクチャスタイルで実装されています。RESTは2000年にフィールディングの論文で提唱された後に爆発的に普及し洗練されてきました。一方で、本書で紹介するGraphQLは2015年にFacebookによって公開されたRESTとは異なるアプローチのアーキテクチャです。GraphQLの最大の特徴はクエリ言語を用いてデータを操作する点です。クエリ言語の表現力の高さによりクライアントは本当に必要なリクエストを送ることができます。本書ではGraphQLの概要とGraphQLを用いたWebサービスの開発方法を実装例に沿って紹介します。認証やファイルアップロードといった実践的なトピックまで踏み込んだGraphQLの実用的な入門書です。

book

データベースリライアビリティエンジニアリング ―回復力のあるデータベースシステムの設計と運用

by Laine Campbell, Charity Majors, 八木 和生

テクノロジーの進化に合わせて、データベースもまた進化しています。従来のパフォーマンス、スケーラビリティが重要なことはもちろん、今日ではセキュリティ、インフラのコード化、CI/CD、クラウド活用といったタスクにも取り組んでいかなければなりません。 データベースの本質は、長期的に安定していること。つまりリライアビリティ(信頼性)です。時代とともにアーキテクチャやツールが変わってもこの原則は変わりません。本書はデータベースのリライアビリティを実現するための考え方を「データベースリライアビリティエンジニアリング」と定義して、その具体的な手法を紹介します。サービスのリライアビリティに関わるすべてのエンジニア必読の一冊です。

book

プログラミング文体練習 ―Pythonで学ぶ40のプログラミングスタイル

by Cristina Videira Lopes, 菊池 彰

レーモン・クノーの『文体練習』から着想を得て執筆された本書は、1つの課題を異なるプログラミングスタイルで実装し、さまざまなスタイルの特性やスタイルが生まれた歴史的経緯などを解説します。本家の『文体練習』は、「バスの中で起きた諍いと、その張本人を後で目撃した」という内容を、公的文書風、宣伝風、業界用語風など、99の異なる文体で表現したものですが、本書は、「単語の出現頻度をカウントして多いものから出力する」という課題を、40のスタイルで実装しています。リソース制約が大きかった時代の方法から、オブジェクト指向、純粋関数型、リフレクション、並行処理、ニューラルネットワークまで幅広いスタイルを扱い、マルチパラダイム言語Pythonの威力と魅力を感じられる構成となっています。