Data Science from Scratch中文版|用Python學資料科學

Book description

從事資料科學方面的工作時,活用各種相關函式庫、軟體框架、模組、工具包是很好的做法,但如果原本完全不懂資料科學,從頭開始也是一種不錯的做法。本書將採取土法煉鋼從頭學起的方式,帶領讀者認識與資料科學相關的許多工具與演算法。

你只要具備基本的數學能力,以及程式設計的基礎,本書就可以幫你在遇到相關的數學與統計知識時,不至於感到害怕,而且還能讓你學會一個資料科學家所需具備的相關駭客技術。如今到處充斥著各種雜亂的數據資料,其中包含許多問題的解答,但也有很多微妙之處,甚至連問題本身都還沒被提出來過。如果你真心想要挖掘問題的解答,本書將可以提供你一些相關的知識。
.首先來一堂Python速成班
.學習線性代數、統計、機率的基礎知識——並學會何時、如何在資料科學領域中靈活運用這些知識
.搜集、探索、清理、轉換、處理各種數據資料
.深入理解機器學習的基礎
.靈活運用像是k最近鄰、單純貝氏、線性與邏輯迴歸、決策樹、神經網路、集群等種種模型
.探討推薦系統、自然語言處理、網路分析、MapReduce與資料庫的相關知識

「Joel帶領我們領略探索資料科學,讓我們從一般的好奇心,進入到更深入的理解,並學會所有資料科學家都應該知道的各種實用演算法。」
——Rohit Sivaprasad, Soylent公司資料科學家

v「推薦本書給想要跨入機器學習領域的工程師,這是一本幫你奠定基礎的最佳選擇」。
——Tom Marthaler, 工程師

「將資料科學的概念轉化為程式非常困難。這本書把它變簡單了。」
——William Cox, Grubhub機器學習工程師

Table of contents

  1. 封面
  2. 書名頁
  3. 授權聲明頁
  4. 目錄 (1/2)
  5. 目錄 (2/2)
  6. 前言
  7. 第一章 簡介
  8. 數據的威力
  9. 資料科學是什麼?
  10. 情境假設:DataSciencester
  11. 找出關鍵聯繫者
  12. 你可以去認識的資料科學家
  13. 薪水和年資
  14. 付款帳號
  15. 感興趣的主題
  16. 繼續前進
  17. 第二章 Python 速成班
  18. 基礎概念
  19. 取得Python
  20. Python 的禪意
  21. 空白格式
  22. 模組
  23. 數學運算
  24. 函式
  25. 字串
  26. 例外狀況
  27. 列表
  28. 元組
  29. 字典
  30. 集合
  31. 控制流程
  32. 真與假
  33. 進階概念
  34. 排序
  35. 解析式列表
  36. 生成器與迭代操作
  37. 隨機性
  38. 正規表達式
  39. 物件導向程式設計
  40. 函式工具
  41. enumerate 列舉
  42. zip 壓合與參數拆分
  43. args 與kwargs
  44. 歡迎來到DataSciencester
  45. 進一步探索
  46. 第三章 數據視覺化
  47. matplotlib
  48. 長條圖
  49. 折線圖
  50. 散點圖
  51. 進一步探索
  52. 第四章 線性代數
  53. 向量
  54. 矩陣
  55. 進一步探索
  56. 第五章 統計學
  57. 描述單一組數據資料
  58. 中央趨勢
  59. 離散程度
  60. 相關
  61. 辛普森悖論
  62. 相關係數注意事項
  63. 相關與因果你可能聽人說過:「有
  64. 進一步探索
  65. 第六章 機率
  66. 相依與獨立
  67. 條件機率
  68. 貝氏定理
  69. 隨機變數
  70. 連續分布
  71. 常態分布
  72. 中央極限定理
  73. 進一步探索
  74. 第七章 假設與推論
  75. 統計假設檢定
  76. 範例:擲硬幣
  77. 信賴區間
  78. P-hacking
  79. 範例:執行A/B 測試
  80. 貝氏推論
  81. 進一步探索
  82. 第八章 梯度遞減
  83. 梯度遞減背後的概念
  84. 梯度的估算
  85. 梯度的運用
  86. 選擇正確的跨步間隔
  87. 全部整合起來
  88. 隨機梯度遞減
  89. 進一步探索
  90. 第九章 取得數據資料
  91. 標準輸入(stdin)與標準輸出(stdout)
  92. 讀取檔案
  93. 文字檔案的基礎概念
  94. 切分檔案內容
  95. 從Web 網路截取數據資料
  96. HTML 格式和相應語法解析
  97. 範例:歐萊禮出版的數據相關書籍
  98. API 的使用
  99. JSON(以及XML)
  100. 不需身分認證的API
  101. 尋找API
  102. 範例:使用Twitter 的API
  103. 取得憑證
  104. 進一步探索
  105. 第十章 處理數據資料
  106. 瀏覽你的數據資料
  107. 一維數據資料
  108. 二維
  109. 多維
  110. 清理與轉換
  111. 處理數據資料
  112. 改變尺度
  113. 降減維度
  114. 進一步探索
  115. 第十一章 機器學習
  116. 模型化
  117. 機器學習是什麼?
  118. 「過度套入」與「套入不足」
  119. 所謂的「正確性」
  120. 「偏差」與「變異」的取捨
  121. 特徵萃取與選擇
  122. 進一步探索
  123. 第十二章 k 最近鄰
  124. 模型
  125. 範例:最偏愛的語言
  126. 維度的詛咒
  127. 進一步探索
  128. 第十三章 單純貝氏
  129. 一個極其簡單的垃圾郵件篩選器
  130. 一個比較精巧的垃圾郵件篩選器
  131. 實作
  132. 測試我們的模型
  133. 進一步探索
  134. 第十四章 簡單線性迴歸
  135. 模型
  136. 使用梯度遞減
  137. 最大可能性估計法
  138. 進一步探索
  139. 第十五章 多元迴歸
  140. 模型
  141. 關於最小平方模型的進一步假設
  142. 模型套入
  143. 模型解釋
  144. 套入優度
  145. 離題一下:談談Bootstrap(重複取樣)
  146. 迴歸係數的標準差
  147. 正則化
  148. 進一步探索
  149. 第十六章 邏輯迴歸
  150. 問題
  151. 邏輯函數
  152. 模型應用
  153. 套入優度
  154. 支撐向量機
  155. 進一步研究
  156. 第十七章 決策樹
  157. 決策樹是什麼?
  158. 亂度
  159. 切分亂度
  160. 建立決策樹
  161. 全部整合起來
  162. 隨機樹林
  163. 進一步探索
  164. 第十八章 神經網路
  165. 感知機器
  166. 正向饋送神經網路
  167. 反向傳播
  168. 範例:破解CAPTCHA
  169. 進一步探索
  170. 第十九章 集群
  171. 概念
  172. 模型
  173. 範例:聚會
  174. k 的選擇
  175. 範例:對顏色進行集群分析
  176. 由下而上階層式分群法
  177. 進一步探索
  178. 第二十章 自然語言處理
  179. 單詞雲
  180. n-gram 模型
  181. 文法
  182. 離題一下:Gibbs 取樣
  183. 主題模型化
  184. 進一步探索
  185. 第二十一章 網路分析
  186. 居間中心度
  187. 特徵向量中心度
  188. 矩陣乘法
  189. 中心度
  190. 有向圖與頁面級別
  191. 進一步探索
  192. 第二十二章 推薦系統
  193. 土法煉鋼的做法
  194. 推薦最流行的就對了
  195. 以使用者為基礎的協同篩選
  196. 以項目為基礎的協同篩選
  197. 進一步探索
  198. 第二十三章 資料庫與SQL
  199. 資料表的創建(CREATE)與新增(INSERT)
  200. 更新(UPDATE)
  201. 刪除(DELETE)
  202. 選擇(SELECT)
  203. 分組根據(GROUP BY)
  204. 排序根據(ORDER BY)
  205. 聯結(JOIN)
  206. 子查詢
  207. 索引
  208. 查詢最佳化
  209. NoSQL
  210. 進一步探索
  211. 第二十四章 MapReduce
  212. 範例:計算單詞數量
  213. 為什麼要用MapReduce?
  214. 更通用化的MapReduce
  215. 範例:分析動態更新
  216. 範例:矩陣乘法
  217. 離題一下:結合器
  218. 進一步探索
  219. 第二十五章 勇往直前,資料科學做就對了
  220. IPython
  221. 數學
  222. 不打算從頭學起的話
  223. NumPy
  224. pandas
  225. scikit-learn
  226. 視覺化
  227. R
  228. 尋找數據資料
  229. 從事資料科學工作
  230. 駭客新聞
  231. 消防車
  232. T 恤
  233. 你打算怎麼做呢?
  234. 索引 (1/2)
  235. 索引 (2/2)
  236. 關於作者
  237. 出版記事

Product information

  • Title: Data Science from Scratch中文版|用Python學資料科學
  • Author(s): Joel Grus
  • Release date: October 2016
  • Publisher(s): GoTop Information, Inc.
  • ISBN: 9789864761982

You might also like

book

利用 Python 进行数据分析(原书第2版)

by Wes McKinney

阅读本书可以获得关于在Python下操作、处理、清洗、规整数据集的完整说明。本书第2版针对Python 3.6进行了更新,并增加了实际案例向你展示如何高效地解决一系列数据分析问题。你将在阅读过程中学习到较新版本的pandas、NumPy、IPython和Jupyter。 本书作者Wes McKinney是Python pandas项目的创始人。本书是对Python数据科学工具的实操化、现代化的介绍,非常适合刚学Python的数据分析师或刚学数据科学以及科学计算的Python编程者。数据文件和相关的材料可以在GitHub上找到。 使用IPython shell和Jupyter notebook进行探索性计算 学习NumPy(Numerical Python)的基础和高级特性 入门pandas库中的数据分析工具 使用灵活工具对数据进行载入、清洗、变换、合并和重塑 使用matplotlib创建富含信息的可视化 将pandas的groupby功能应用于对数据集的切片、切块和汇总 分析并操作规则和不规则的时间序列数据 利用完整的、详细的示例学习如何解决现实中的数据分析问题

book

網頁應用程式設計--使用 Node 和 Express

by Ethan Brown

活用 JavaScript 堆疊 “編寫同時具備吸引力與詳實的書籍並不容易,但 Ethan Brown 做到了。在這個主題中,《網頁應用程式設計—使用 Node 和 Express》是我所見過的最佳技術簡介書籍之一。令人印象深刻的是,它的範圍包含所有必備知識,讓你可以使用 Node.js 與 Express 框架以建構可上線的 Web 應用程式。” …

book

打造可維護軟體|編寫可維護程式碼的10項法則 (C#版)

by Joost Visser

「這些指導方針正確無誤,以簡單明瞭、切實可行的方式,闡述高效開發者如何一貫地撰寫及交付高品質的程式碼。」 — George Marinos, 應用程式架構師, 希臘國家銀行 你可曾在修改他人程式碼時深感挫折與沮喪?今日,難以維護的程式碼已經成為軟體開發的大麻煩,導致代價不斐的時程延宕與程式缺陷。本書從實務出發,以解決方案的角度,提供10條切實可行的指導方針,幫助你成功交付容易維護及修改的絕妙軟體,事實上,這些原則可是淬煉自數百個實務系統的分析結果。 本書出自於Software Improvement Group(SIG)的眾顧問之手,不僅針對這個主題提供清晰且明確的解釋,更說明了如何將理論應用到實務的絕佳建議。雖然本書範例均以C#寫成,但這些原則也適用於使用其他語言的開發者。 ‧撰寫簡短的程式碼單元:限制方法與建構式的長度 ‧撰寫單純的程式碼單元:限制每個方法當中的分支點數量 ‧相同的程式碼只撰寫一次,避開複製程式碼臭蟲的風險 ‧透過將參數提取到物件中,保持單元介面簡短 ‧分離關注點,避免建構龐大的類別 ‧保持架構元件鬆散耦合 …

book

深入淺出 Ruby

by Jay McGavren

採用適合大腦的學習方法 學會製作自己的類別和物件 使用區塊來切割資料 使用mixin替你的類別加料 對外提供你的web app 『《深入淺出Ruby》以符合語言核心精神的風格來教導Ruby:直接、幽默以及適度的奇想。本書的視覺化方式非常適合那些厭倦了枯燥、無聊技術書籍的讀者。』 —Peter Cooper 《Beginning Ruby》作者 『本書為Ruby提供有趣、平易近人的學習途徑,讓開發人員輕鬆就能獲得對工作有幫助的技術知識。在這學習Ruby的道路上,Jay McGavren是一位親切的嚮導,他不僅會告訴我們怎麼做,還會在問題有多個解決方案可以選擇時,把他的經驗告訴我們。』 —Avdi Grimm Ruby …