Book description
Analiza danych z Hadoopem — i wszystko staje się prostsze!
Podstawy Hadoopa i model MapReduce
Praca z Hadoopem, budowa klastra i zarządzanie platformą
Dodatki zwiększające funkcjonalność Hadoopa
Platforma Apache Hadoop to jedno z zaawansowanych narzędzi informatycznych. Dzięki niej można przeprowadzać różne operacje na dużych ilościach danych i znacznie skrócić czas wykonywania tych działań. Wszędzie tam, gdzie potrzebne jest szybkie sortowanie, obliczanie i archiwizowanie danych — np. w dużych międzynarodowych sklepach internetowych, serwisach społecznościowych lub wyszukiwarkach, takich jak Amazon, Facebook, Yahoo!, Apache Hadoop sprawdza się znakomicie. Jeśli potrzebne Ci narzędzie do poważnej analizy dużych zbiorów danych, nie znajdziesz lepszego rozwiązania!
Tę książkę napisał wytrawny znawca i współtwórca Hadoopa. Przedstawia w niej wszystkie istotne mechanizmy działania platformy i pokazuje, jak efektywnie jej używać. Dowiesz się stąd, do czego służą model MapReduce oraz systemy HDFS i YARN. Nauczysz się budować aplikacje oraz klastry. Poznasz dwa formaty danych, a także wykorzystasz narzędzia do ich pobierania i transferu. Sprawdzisz, jak wysokopoziomowe narzędzia do przetwarzania danych współdziałają z Hadoopem. Zorientujesz się, jak działa rozproszona baza danych i jak zarządzać konfiguracją w środowisku rozproszonym. Przeczytasz również o nowinkach w Hadoopie 2 i prześledzisz studia przypadków ilustrujące rolę Hadoopa w systemach służby zdrowia i przy przetwarzaniu danych o genomie.
Hadoop i model MapReduce
Systemy HDFS i YARN
Operacje wejścia – wyjścia w platformie Hadoop
Typy, formaty, funkcje i budowa aplikacji w modelu MapReduce
Zarządzanie platformą Hadoop
Avro, Parquet, Flume i Sqoop — metody pracy z danymi
Pig, Hive, Crunch i Spark — wysokopoziomowe narzędzia do przetwarzania danych
HBase i ZooKeeper — praca w środowisku rozproszonym
Integrowanie danych w firmie Cerner
Nauka o danych biologicznych
Cascading
Hadoop — rozwiązanie na miarę wyzwań globalnych!
Table of contents
- Przedmowa
- Wprowadzenie
-
Część I Podstawy platformy Hadoop
- Rozdział 1. Poznaj platformę Hadoop
- Rozdział 2. Model MapReduce
-
Rozdział 3. System HDFS
- Projekt systemu HDFS
- Pojęcia związane z systemem HDFS
- Interfejs uruchamiany z wiersza poleceń
- Systemy plików w Hadoopie
- Interfejs w Javie
- Przepływ danych
- Równoległe kopiowanie za pomocą programu distcp
-
Rozdział 4. System YARN
- Struktura działania aplikacji w systemie YARN
- System YARN a implementacja MapReduce 1
- Szeregowanie w systemie YARN
- Dalsza lektura
-
Rozdział 5. Operacje wejścia-wyjścia w platformie Hadoop
- Integralność danych
- Kompresja
- Plikowe struktury danych
-
Część II Model MapReduce
-
Rozdział 6. Budowanie aplikacji w modelu MapReduce
- API do obsługi konfiguracji
- Pisanie testów jednostkowych za pomocą biblioteki MRUnit
- Uruchamianie kodu lokalnie na danych testowych
- Uruchamianie programów w klastrze
- Dostrajanie zadania
- Przepływ pracy w modelu MapReduce
- Rozdział 7. Jak działa model MapReduce?
- Rozdział 8. Typy i formaty z modelu MapReduce
- Rozdział 9. Funkcje modelu MapReduce
-
Rozdział 6. Budowanie aplikacji w modelu MapReduce
-
Część III Praca z platformą Hadoop
- Rozdział 10. Budowanie klastra opartego na platformie Hadoop
- Rozdział 11. Zarządzanie platformą Hadoop
-
Część IV Powiązane projekty
- Rozdział 12. Avro
- Rozdział 13. Parquet
- Rozdział 14. Flume
- Rozdział 15. Sqoop
- Rozdział 16. Pig
-
Rozdział 17. Hive
- Instalowanie platformy Hive
- Przykład
- Uruchamianie platformy Hive
- Porównanie z tradycyjnymi bazami danych
- HiveQL
- Tabele
- Pobieranie danych
- Funkcje zdefiniowane przez użytkowników
- Dalsza lektura
- Rozdział 18. Crunch
- Rozdział 19. Spark
- Rozdział 20. HBase
-
Rozdział 21. ZooKeeper
- Instalowanie i uruchamianie systemu ZooKeeper
- Przykład
- Usługa ZooKeeper
- Budowanie aplikacji z wykorzystaniem ZooKeepera
- ZooKeeper w środowisku produkcyjnym
- Dalsza lektura
-
Część V Studia przypadków
- Rozdział 22. Integrowanie danych w firmie Cerner
-
Rozdział 23. Nauka o danych biologicznych — ratowanie życia za pomocą oprogramowania
- Struktura DNA
- Kod genetyczny — przekształcanie liter DNA w białka
- Traktowanie kodu DNA jak kodu źródłowego
- Projekt poznania ludzkiego genomu i genomy referencyjne
- Sekwencjonowanie i wyrównywanie DNA
- ADAM — skalowalna platforma do analizy genomu
- Od spersonalizowanych reklam do spersonalizowanej medycyny
- Dołącz do projektu
- Rozdział 24. Cascading
- Dodatki
Product information
- Title: Hadoop -- Komplety przewodnik. Analiza i przechowywanie danych
- Author(s):
- Release date: March 2015
- Publisher(s): Helion
- ISBN: 9781098125301
You might also like
book
Zwinna analiza danych. Apache Hadoop dla każdego
Duże zbiory danych dla każdego! W dobie Big Data klasyczne podejście do analizy danych nie przynosi …
book
Przetwarzanie danych w dużej skali
Przetwarzanie i bezpieczne przechowywanie danych absorbuje uwagę inżynierów oprogramowania w coraz większym stopniu. W ostatnich latach …
book
Przetwarzanie danych w dużej skali
Przetwarzanie i bezpieczne przechowywanie danych absorbuje uwagę inżynierów oprogramowania w coraz większym stopniu. W ostatnich latach …
book
Analiza danych z wykorzystaniem SQL-a
Język SQL został stworzony jako narzędzie do przetwarzania danych. Mimo że zwykle jest używany do pracy …