Capítulo 22. Texto estructurado: HTML

Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com

La mayoría de los documentos de la web utilizan HTML, el Lenguaje de Marcado de Hipertexto. El marcado es la inserción de tokens especiales, conocidos como etiquetas, en un documento de texto, para estructurar el texto. HTML es, en teoría, una aplicación de la gran norma general conocida como SGML, el Standard Generalized Markup Language. En la práctica, muchos documentos de la web utilizan HTML de forma descuidada o incorrecta.

HTML se diseñó para presentar documentos en un navegador. A medida que el contenido web evolucionaba, los usuarios se dieron cuenta de que carecía de la capacidad de marcado semántico, en el que el marcado indica el significado del texto delineado y no simplemente su apariencia. La extracción completa y precisa de la información de un documento HTML resulta a menudo inviable. Una norma más rigurosa llamada XHTML intentó remediar estas deficiencias. XHTML es similar al HTML tradicional, pero está definido en términos de XML, el Lenguaje de Marcado eXtensible, y de forma más precisa que HTML. Puedes manejar XHTML bien formado con las herramientas tratadas en el Capítulo 23. Sin embargo, en el momento de escribir estas líneas, el XHTML no ha tenido un éxito abrumador, sino que ha sido arrollado por el más pragmático HTML5.

A pesar de las dificultades, a menudo es posible extraer al menos alguna información ...

Get Python en una cáscara de nuez, 4ª edición now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.