Book description
從事資料科學方面的工作時,活用各種相關函式庫、軟體框架、模組、工具包是很好的做法,但如果原本完全不懂資料科學,從頭開始也是一種不錯的做法。本書將採取土法煉鋼從頭學起的方式,帶領讀者認識與資料科學相關的許多工具與演算法。
你只要具備基本的數學能力,以及程式設計的基礎,本書就可以幫你在遇到相關的數學與統計知識時,不至於感到害怕,而且還能讓你學會一個資料科學家所需具備的相關駭客技術。如今到處充斥著各種雜亂的數據資料,其中包含許多問題的解答,但也有很多微妙之處,甚至連問題本身都還沒被提出來過。如果你真心想要挖掘問題的解答,本書將可以提供你一些相關的知識。
.首先來一堂Python速成班
.學習線性代數、統計、機率的基礎知識——並學會何時、如何在資料科學領域中靈活運用這些知識
.搜集、探索、清理、轉換、處理各種數據資料
.深入理解機器學習的基礎
.靈活運用像是k最近鄰、單純貝氏、線性與邏輯迴歸、決策樹、神經網路、集群等種種模型
.探討推薦系統、自然語言處理、網路分析、MapReduce與資料庫的相關知識
「Joel帶領我們領略探索資料科學,讓我們從一般的好奇心,進入到更深入的理解,並學會所有資料科學家都應該知道的各種實用演算法。」
——Rohit Sivaprasad, Soylent公司資料科學家
v「推薦本書給想要跨入機器學習領域的工程師,這是一本幫你奠定基礎的最佳選擇」。
——Tom Marthaler, 工程師
「將資料科學的概念轉化為程式非常困難。這本書把它變簡單了。」
——William Cox, Grubhub機器學習工程師
Table of contents
- 封面
- 書名頁
- 授權聲明頁
- 目錄 (1/2)
- 目錄 (2/2)
- 前言
- 第一章 簡介
- 數據的威力
- 資料科學是什麼?
- 情境假設:DataSciencester
- 找出關鍵聯繫者
- 你可以去認識的資料科學家
- 薪水和年資
- 付款帳號
- 感興趣的主題
- 繼續前進
- 第二章 Python 速成班
- 基礎概念
- 取得Python
- Python 的禪意
- 空白格式
- 模組
- 數學運算
- 函式
- 字串
- 例外狀況
- 列表
- 元組
- 字典
- 集合
- 控制流程
- 真與假
- 進階概念
- 排序
- 解析式列表
- 生成器與迭代操作
- 隨機性
- 正規表達式
- 物件導向程式設計
- 函式工具
- enumerate 列舉
- zip 壓合與參數拆分
- args 與kwargs
- 歡迎來到DataSciencester
- 進一步探索
- 第三章 數據視覺化
- matplotlib
- 長條圖
- 折線圖
- 散點圖
- 進一步探索
- 第四章 線性代數
- 向量
- 矩陣
- 進一步探索
- 第五章 統計學
- 描述單一組數據資料
- 中央趨勢
- 離散程度
- 相關
- 辛普森悖論
- 相關係數注意事項
- 相關與因果你可能聽人說過:「有
- 進一步探索
- 第六章 機率
- 相依與獨立
- 條件機率
- 貝氏定理
- 隨機變數
- 連續分布
- 常態分布
- 中央極限定理
- 進一步探索
- 第七章 假設與推論
- 統計假設檢定
- 範例:擲硬幣
- 信賴區間
- P-hacking
- 範例:執行A/B 測試
- 貝氏推論
- 進一步探索
- 第八章 梯度遞減
- 梯度遞減背後的概念
- 梯度的估算
- 梯度的運用
- 選擇正確的跨步間隔
- 全部整合起來
- 隨機梯度遞減
- 進一步探索
- 第九章 取得數據資料
- 標準輸入(stdin)與標準輸出(stdout)
- 讀取檔案
- 文字檔案的基礎概念
- 切分檔案內容
- 從Web 網路截取數據資料
- HTML 格式和相應語法解析
- 範例:歐萊禮出版的數據相關書籍
- API 的使用
- JSON(以及XML)
- 不需身分認證的API
- 尋找API
- 範例:使用Twitter 的API
- 取得憑證
- 進一步探索
- 第十章 處理數據資料
- 瀏覽你的數據資料
- 一維數據資料
- 二維
- 多維
- 清理與轉換
- 處理數據資料
- 改變尺度
- 降減維度
- 進一步探索
- 第十一章 機器學習
- 模型化
- 機器學習是什麼?
- 「過度套入」與「套入不足」
- 所謂的「正確性」
- 「偏差」與「變異」的取捨
- 特徵萃取與選擇
- 進一步探索
- 第十二章 k 最近鄰
- 模型
- 範例:最偏愛的語言
- 維度的詛咒
- 進一步探索
- 第十三章 單純貝氏
- 一個極其簡單的垃圾郵件篩選器
- 一個比較精巧的垃圾郵件篩選器
- 實作
- 測試我們的模型
- 進一步探索
- 第十四章 簡單線性迴歸
- 模型
- 使用梯度遞減
- 最大可能性估計法
- 進一步探索
- 第十五章 多元迴歸
- 模型
- 關於最小平方模型的進一步假設
- 模型套入
- 模型解釋
- 套入優度
- 離題一下:談談Bootstrap(重複取樣)
- 迴歸係數的標準差
- 正則化
- 進一步探索
- 第十六章 邏輯迴歸
- 問題
- 邏輯函數
- 模型應用
- 套入優度
- 支撐向量機
- 進一步研究
- 第十七章 決策樹
- 決策樹是什麼?
- 亂度
- 切分亂度
- 建立決策樹
- 全部整合起來
- 隨機樹林
- 進一步探索
- 第十八章 神經網路
- 感知機器
- 正向饋送神經網路
- 反向傳播
- 範例:破解CAPTCHA
- 進一步探索
- 第十九章 集群
- 概念
- 模型
- 範例:聚會
- k 的選擇
- 範例:對顏色進行集群分析
- 由下而上階層式分群法
- 進一步探索
- 第二十章 自然語言處理
- 單詞雲
- n-gram 模型
- 文法
- 離題一下:Gibbs 取樣
- 主題模型化
- 進一步探索
- 第二十一章 網路分析
- 居間中心度
- 特徵向量中心度
- 矩陣乘法
- 中心度
- 有向圖與頁面級別
- 進一步探索
- 第二十二章 推薦系統
- 土法煉鋼的做法
- 推薦最流行的就對了
- 以使用者為基礎的協同篩選
- 以項目為基礎的協同篩選
- 進一步探索
- 第二十三章 資料庫與SQL
- 資料表的創建(CREATE)與新增(INSERT)
- 更新(UPDATE)
- 刪除(DELETE)
- 選擇(SELECT)
- 分組根據(GROUP BY)
- 排序根據(ORDER BY)
- 聯結(JOIN)
- 子查詢
- 索引
- 查詢最佳化
- NoSQL
- 進一步探索
- 第二十四章 MapReduce
- 範例:計算單詞數量
- 為什麼要用MapReduce?
- 更通用化的MapReduce
- 範例:分析動態更新
- 範例:矩陣乘法
- 離題一下:結合器
- 進一步探索
- 第二十五章 勇往直前,資料科學做就對了
- IPython
- 數學
- 不打算從頭學起的話
- NumPy
- pandas
- scikit-learn
- 視覺化
- R
- 尋找數據資料
- 從事資料科學工作
- 駭客新聞
- 消防車
- T 恤
- 你打算怎麼做呢?
- 索引 (1/2)
- 索引 (2/2)
- 關於作者
- 出版記事
Product information
- Title: Data Science from Scratch中文版|用Python學資料科學
- Author(s):
- Release date: October 2016
- Publisher(s): GoTop Information, Inc.
- ISBN: 9789864761982
You might also like
book
利用 Python 进行数据分析(原书第2版)
阅读本书可以获得关于在Python下操作、处理、清洗、规整数据集的完整说明。本书第2版针对Python 3.6进行了更新,并增加了实际案例向你展示如何高效地解决一系列数据分析问题。你将在阅读过程中学习到较新版本的pandas、NumPy、IPython和Jupyter。 本书作者Wes McKinney是Python pandas项目的创始人。本书是对Python数据科学工具的实操化、现代化的介绍,非常适合刚学Python的数据分析师或刚学数据科学以及科学计算的Python编程者。数据文件和相关的材料可以在GitHub上找到。 使用IPython shell和Jupyter notebook进行探索性计算 学习NumPy(Numerical Python)的基础和高级特性 入门pandas库中的数据分析工具 使用灵活工具对数据进行载入、清洗、变换、合并和重塑 使用matplotlib创建富含信息的可视化 将pandas的groupby功能应用于对数据集的切片、切块和汇总 分析并操作规则和不规则的时间序列数据 利用完整的、详细的示例学习如何解决现实中的数据分析问题
book
網頁應用程式設計--使用 Node 和 Express
活用 JavaScript 堆疊 “編寫同時具備吸引力與詳實的書籍並不容易,但 Ethan Brown 做到了。在這個主題中,《網頁應用程式設計—使用 Node 和 Express》是我所見過的最佳技術簡介書籍之一。令人印象深刻的是,它的範圍包含所有必備知識,讓你可以使用 Node.js 與 Express 框架以建構可上線的 Web 應用程式。” …
book
打造可維護軟體|編寫可維護程式碼的10項法則 (C#版)
「這些指導方針正確無誤,以簡單明瞭、切實可行的方式,闡述高效開發者如何一貫地撰寫及交付高品質的程式碼。」 — George Marinos, 應用程式架構師, 希臘國家銀行 你可曾在修改他人程式碼時深感挫折與沮喪?今日,難以維護的程式碼已經成為軟體開發的大麻煩,導致代價不斐的時程延宕與程式缺陷。本書從實務出發,以解決方案的角度,提供10條切實可行的指導方針,幫助你成功交付容易維護及修改的絕妙軟體,事實上,這些原則可是淬煉自數百個實務系統的分析結果。 本書出自於Software Improvement Group(SIG)的眾顧問之手,不僅針對這個主題提供清晰且明確的解釋,更說明了如何將理論應用到實務的絕佳建議。雖然本書範例均以C#寫成,但這些原則也適用於使用其他語言的開發者。 ‧撰寫簡短的程式碼單元:限制方法與建構式的長度 ‧撰寫單純的程式碼單元:限制每個方法當中的分支點數量 ‧相同的程式碼只撰寫一次,避開複製程式碼臭蟲的風險 ‧透過將參數提取到物件中,保持單元介面簡短 ‧分離關注點,避免建構龐大的類別 ‧保持架構元件鬆散耦合 …
book
深入淺出 Ruby
採用適合大腦的學習方法 學會製作自己的類別和物件 使用區塊來切割資料 使用mixin替你的類別加料 對外提供你的web app 『《深入淺出Ruby》以符合語言核心精神的風格來教導Ruby:直接、幽默以及適度的奇想。本書的視覺化方式非常適合那些厭倦了枯燥、無聊技術書籍的讀者。』 —Peter Cooper 《Beginning Ruby》作者 『本書為Ruby提供有趣、平易近人的學習途徑,讓開發人員輕鬆就能獲得對工作有幫助的技術知識。在這學習Ruby的道路上,Jay McGavren是一位親切的嚮導,他不僅會告訴我們怎麼做,還會在問題有多個解決方案可以選擇時,把他的經驗告訴我們。』 —Avdi Grimm Ruby …