Capítulo 11. Conjuntos de datos
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
Los Conjuntos de Datos son el tipo fundamental de las API Estructuradas. Ya trabajamos con DataFrames, que son Datasets de tipo Row
, y están disponibles en los distintos lenguajes de Spark. Los Datasets son una característica estrictamente del lenguaje de la Máquina Virtual Java (JVM) que sólo funcionan con Scala y Java. Con los Conjuntos de datos, puedes definir el objeto en que consistirá cada fila de tu Conjunto de datos. En Scala, será un objeto de clase Case que esencialmente define un esquema que puedes utilizar, y en Java, definirás un Java Bean. Los usuarios experimentados suelen referirse a los Conjuntos de datos como el "conjunto tipado de APIs" de Spark. Para más información, consulta el Capítulo 4.
En el Capítulo 4, comentamos que Spark tiene tipos como StringType
, BigIntType
, StructType
, etc. Esos tipos específicos de Spark se mapean a tipos disponibles en cada uno de los lenguajes de Spark como String
, Integer
, y Double
. Cuando utilizas la API DataFrame, no creas cadenas o enteros, sino que Spark manipula los datos por ti manipulando el objeto Row
. De hecho, si utilizas Scala o Java, todos los "DataFrames" son en realidad Datasets del tipo Row
. Para soportar eficientemente objetos específicos del dominio, se requiere un concepto especial llamado "Codificador". El codificador mapea el tipo T específico del dominio al ...
Get Spark: La Guía Definitiva now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.