網站擷取|使用Python

Book description

在現代網路蒐集資料

「本書涵蓋的工具與範例,讓我輕易把好幾個重複的工作自動化,騰出時間解決更多有趣的問題。這是本重視成果、內容從實務問題與解法出發,又能很快讀完的好書。」
— Eric VanWyk, 電子計算機工程師,麻州歐林工程學院

學會網頁搜刮(scraping)及爬行(crawling)技術,就能從任何網站來源取得任意格式的無限量資料。您可以從這本實務指南學到如何使用Python與web APIs,同時從上千,甚至上百萬的網頁之中獲取並處理資料。

本書適合會寫Python的程式設計者、網路安全工作者以及網站管理者閱讀。不僅會提到網頁搜刮的基本機制,還會提到一些進階主題,像是分析原始資料,或是利用搜刮工具進行網站前端測試。本書也將提供程式範例協助您從實務的角度理解觀念。

•學會如何解析複雜的HTML頁面
•走訪許多頁面與網站
•掌握APIs的概觀以及它們如何運作
•學會多種儲存搜刮來的資料的方式
•下載文件並讀取內容,從中擷取資料
•使用工具與技巧整理格式雜亂的原始資料
•讀寫自然語言
•爬過表單與登入頁
•瞭解如何搜刮JavaScript
•學會影像處理與文字識別

 

Table of contents

  1. 封面
  2. 書名頁
  3. 授權聲明頁
  4. 目錄
  5. 前言 (1/2)
  6. 前言 (2/2)
  7. 第一部分 建構Scraper
  8. 第一章 您的第一個Scraper
  9. 第二章 進階HTML 解析 (1/4)
  10. 第二章 進階HTML 解析 (2/4)
  11. 第二章 進階HTML 解析 (3/4)
  12. 第二章 進階HTML 解析 (4/4)
  13. 第三章 開始爬行 (1/4)
  14. 第三章 開始爬行 (2/4)
  15. 第三章 開始爬行 (3/4)
  16. 第三章 開始爬行 (4/4)
  17. 第四章 使用API (1/5)
  18. 第四章 使用API (2/5)
  19. 第四章 使用API (3/5)
  20. 第四章 使用API (4/5)
  21. 第四章 使用API (5/5)
  22. 第五章 儲存資料 (1/5)
  23. 第五章 儲存資料 (2/5)
  24. 第五章 儲存資料 (3/5)
  25. 第五章 儲存資料 (4/5)
  26. 第五章 儲存資料 (5/5)
  27. 第六章 讀取文件 (1/3)
  28. 第六章 讀取文件 (2/3)
  29. 第六章 讀取文件 (3/3)
  30. 第二部分 進階Scraping
  31. 第七章 清理您的髒資料 (1/2)
  32. 第七章 清理您的髒資料 (2/2)
  33. 第八章 讀寫自然語言 (1/4)
  34. 第八章 讀寫自然語言 (2/4)
  35. 第八章 讀寫自然語言 (3/4)
  36. 第八章 讀寫自然語言 (4/4)
  37. 第九章 爬過表單與登入頁 (1/2)
  38. 第九章 爬過表單與登入頁 (2/2)
  39. 第十章 搜刮JavaScript (1/3)
  40. 第十章 搜刮JavaScript (2/3)
  41. 第十章 搜刮JavaScript (3/3)
  42. 第十一章 影像處理與文字辨識 (1/4)
  43. 第十一章 影像處理與文字辨識 (2/4)
  44. 第十一章 影像處理與文字辨識 (3/4)
  45. 第十一章 影像處理與文字辨識 (4/4)
  46. 第十二章 避開Scraping 陷阱 (1/3)
  47. 第十二章 避開Scraping 陷阱 (2/3)
  48. 第十二章 避開Scraping 陷阱 (3/3)
  49. 第十三章 以Scrapers 測試您的網站 (1/2)
  50. 第十三章 以Scrapers 測試您的網站 (2/2)
  51. 第十四章 遠端Scraping (1/2)
  52. 第十四章 遠端Scraping (2/2)
  53. 附錄A Python 概覽
  54. 附錄B Internet 概覽
  55. 附錄C 擷取網頁時的法律與道德考量 (1/3)
  56. 附錄C 擷取網頁時的法律與道德考量 (2/3)
  57. 附錄C 擷取網頁時的法律與道德考量 (3/3)
  58. 索引 (1/2)
  59. 索引 (2/2)
  60. 關於作者
  61. 出版記事

Product information

  • Title: 網站擷取|使用Python
  • Author(s): Ryan Mitchell
  • Release date: September 2016
  • Publisher(s): GoTop Information, Inc.
  • ISBN: 9789864761753

You might also like

book

精通機器學習|使用Python

by Sarah Guido, Andreas C. Mueller

資料科學的學習指引 “對任何想要使用Python開始機器學習的人,這本書是很棒且超實用的資源。真希望當我開始使用scikit-learn時有這本書!” -Hanna Wallach, 微軟研究院資深研究員 機器學習已成為許多商業應用程式與研究專案的精華部分,但這個領域並不是大公司中規模龐大的研究團隊所獨有。就算是使用Python的初學者,這本書也能教會你實際的方法,來建立自己的機器學習解決方案。以現今可以取得的資料量來說,只要你能想到的,機器學習應用程式都能做到。 你將學習必要的步驟,使用Python和scikit-learn函式庫,來建立成功的機器學習應用程式。作者Andreas Müller和Sarah Guido聚焦於使用機器學習演算法的實務面向,而不是它們背後的數學。熟悉NumPy和matplotlib函式庫,將幫助你能從這本書獲益更多。 透過這本書,你將學到: ‧基本概念和機器學習應用程式 ‧廣泛應用機器學習演算法的優點和缺點 ‧使用機器學習如何重現資料,包含資料的重點面向 ‧模型評估的進階方法和參數調整 ‧對鏈結模型的pipeline概念和封裝工作流程 ‧運作文字資料的方法,包含特定文字的處理技術 …

book

優雅的SciPy|Python科學研究的美學

by Juan Nunez-Iglesias, Stéfan van der Walt, Harriet Dashnow

“本書滿足以下重要需求:引導學生優雅的實作訊號與影像、圖學和生物資訊學中的經典演算法” -Lav Varshney University of Illinois “雖然沒有一本書可以教完科學研究Python的所有工具,但是有這本書會讓你看到,它可以幫你節省時間、減少痛苦。” -Greg Wilson Curriculum Lead, DataCamp 歡迎來到科研界Python社群,如果你是一個寫Python的科學研究者,這本實用的指引書,不只教你SciPy和相關函式庫的重要基礎,而且能讓你看到美麗、易讀,同時能應用在實務上程式碼。你會學到如何寫出具備清楚、簡潔和高效的優雅程式碼。 閱讀本書,會看到許多科研界Python生態圈的範例程式碼,這些程式碼足以代表本書的精神。使用實際的科研資料,用SciPy、NumPy、Pandas、scikit-image和其它Python函式庫解決真實世界的問題。 ‧探索NumPy陣列,數值科學計算的底層結構 ‧使用百分位正規化使測量值貼和特定分布 …

book

初探深度學習|使用TensorFlow

by Reza Zadeh, Bharath Ramsundar

從線性迴歸到強化學習 “對想要進入深度學習這個令人興奮的領域的機器學習從業者來說,這是一本很棒的書。由於本書涵蓋廣泛的主題,當你想要進一步提升技術時,也會將它當成參考書來重新閱讀。” —Marvin Bertin Freenome機器學習研究工程師 TensorFlow是革命性的Google深度學習程式庫,本書將教你如何用它來解決具挑戰性的機器學習問題。只要你具備一些基本線性代數與微積分的背景知識,就可以在這本實用的書籍學到如何設計能夠檢查圖像物體、瞭解文字以及預測潛在藥物特性的系統,瞭解機器學習的基礎知識。 透過實際的案例傳授觀念,協助你從根本開始建立深厚的深度學習基礎知識。本書非常適合具備軟體系統設計經驗的實務開發者,或已熟悉腳本語言但不知道如何設計學習演算法的專家。 ‧學習TensorFlow的基本知識,包括如何執行基本的計算 ‧藉由建立簡單的學習系統瞭解相關數學基礎 ‧深入瞭解已被上千種app使用的全連結深度網路 ‧藉由超參數優化將原型轉換成高品質的模型 ‧用摺積神經網路處理圖像 ‧用遞迴神經網路處理神經語言資料集 ‧使用強化學習玩遊戲,例如井字遊戲 ‧用GPU與張量處理單元等硬體訓練深度網路

book

SQL经典实例(第2版)

by Anthony Molinaro, Robert de Graaf

你或许熟悉SQL基础知识,但能否充分发挥它的强大威力呢?本书从实战角度展示SQL在查询之外的能力。你将学会用SQL进行统计分析,像使用商业智能工具那样制作报表,进行文本数据匹配,以及执行复杂的日期数据分析。本书的写作方式独树一帜,以160余个真实场景为例,提供了让你耳目一新的解决方案。书中的实例短小精悍,涵盖5种主流的关系数据库:Oracle、MySQL、SQL Server、PostgreSQL和DB2。 数据分析师、数据科学家和数据库管理员可以通过本书练习解决SQL问题的能力,并开拓思路。对于其他需要在日常工作中与SQL打交道的读者,本书也是弥足珍贵的参考书,有助于快速查找解决方案。 本书第2版做了如下更新。 全面修订了原有实例,帮助你巩固基础知识并充分利用各个SQL实现引入的窗口函数 新增了一些实例,旨在帮助你采用可读性更强、更容易实现的通用表表达式(CTE) 为非数据库专家(如数据科学家)量身定制了一些实例 扩展了处理数字和字符串的解决方案 包含更多标准解决方案