Capítulo 5. Operaciones estructuradas básicas
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
En el Capítulo 4, hemos introducido en las abstracciones básicas de la API Estructurada. Este capítulo se aleja de los conceptos arquitectónicos y se acerca a las herramientas tácticas que utilizarás para manipular los DataFrames y los datos que contienen. Este capítulo se centra exclusivamente en las operaciones fundamentales de los DataFrame y evita las agregaciones, las funciones de ventana y las uniones. Éstas se tratan en capítulos posteriores.
Definitivamente, un Conjunto de datos consta de una serie de registros (como las filas de una tabla), que son del tipo Row
, y de una serie de columnas (como las columnas de una hoja de cálculo) que representan una expresión de cálculo que puede realizarse en cada registro individual del Conjunto de datos. Los esquemas definen tanto el nombre como el tipo de datos de cada columna. El particionamiento del Marco de datos define la disposición de la distribución física del Marco de datos o Conjunto de datos en el clúster. El esquema de particionamiento define cómo se asigna. Puedes configurarlo para que se base en los valores de una determinada columna o de forma no determinista.
Vamos a crear un DataFrame con el que podamos trabajar:
// in Scala
val
df
=
spark
.
read
.
format
(
"json"
)
.
load
(
"/data/flight-data/json/2015-summary.json"
)
# in Python
df
=
spark
.
read
.
format
(
"json"
)
.
load ...
Get Spark: La Guía Definitiva now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.