Capítulo 3. Representación del texto

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

En el tratamiento del lenguaje los vectores x se obtienen a partir de datos textuales, para reflejar diversas propiedades lingüísticas del texto.

Yoav Goldberg

Extracción de características es un paso importante para cualquier problema de aprendizaje automático. No importa lo bueno que sea el algoritmo de modelado que utilices, si introduces características deficientes, obtendrás resultados deficientes. En informática, esto se suele llamar "basura dentro, basura fuera". En los dos capítulos anteriores, vimos una visión general de la PNL, las diferentes tareas y retos que implica, y cómo es un proceso típico de PNL. En este capítulo, abordaremos la pregunta: ¿cómo hacemos ingeniería de características para los datos de texto? En otras palabras, ¿cómo transformamos un texto dado en forma numérica para que pueda introducirse en algoritmos de PLN y ML? En el lenguaje de la PNL, esta conversión del texto en bruto a una forma numérica adecuada se denomina representación del texto. En este capítulo veremos los distintos métodos de representación del texto, o representación del texto como vector numérico. Con respecto al panorama general de cualquier problema de PNL, el ámbito de este capítulo se representa mediante el recuadro de puntos de la Figura 3-1.

Figura 3-1. Ámbito de este capítulo dentro del proceso de PNL

La representación ...

Get Procesamiento práctico del lenguaje natural now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.