Capítulo 5. Extracción de información

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

¿Qué hay en un nombre? Una rosa con otro nombre olería igual de dulce.

William Shakespeare

Todos los días tratamos con mucho contenido textual, ya sean mensajes cortos por teléfono o correos electrónicos diarios, o textos más largos que leemos por diversión o en el trabajo, o para ponernos al día de la actualidad. Estos documentos textuales son para nosotros una rica fuente de información. Según el contexto, "información" puede significar múltiples cosas, como acontecimientos clave, personas o relaciones entre personas, lugares u organizaciones, etc. La extracción de información (EI) se refiere a la tarea de la PNL de extraer información relevante de documentos de texto. Un ejemplo de EI aplicada al mundo real son los breves fragmentos que vemos a la derecha cuando buscamos el nombre de un personaje popular en Google.

En comparación con las fuentes de información estructuradas, como las bases de datos o las tablas, o semiestructuradas, como las páginas web (que tienen algunas marcas), el texto es una forma de datos no estructurados. Por ejemplo, en una base de datos, sabemos dónde buscar algo en función de su esquema. Sin embargo, en gran medida, los documentos de texto suelen consistir en texto que fluye libremente sin un esquema establecido. Esto hace que la EI sea un problema difícil. Los textos pueden contener varios tipos ...

Get Procesamiento práctico del lenguaje natural now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.