Kapitel 5. Merkmalstechnik und syntaktische Ähnlichkeit

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Wie wir in Kapitel 1 gesehen haben, unterscheidet sich Text deutlich von strukturierten Daten. Einer der auffälligsten Unterschiede ist, dass Text durch Wörter dargestellt wird, während strukturierte Daten (meistens) Zahlen verwenden. Aus wissenschaftlicher Sicht haben jahrhundertelange mathematische Forschungen zu einem extrem guten Verständnis von Zahlen und ausgefeilten Methoden geführt. Die Informationswissenschaft hat diese mathematische Forschung aufgegriffen, und viele kreative Algorithmen wurden darauf aufbauend erfunden. Die jüngsten Fortschritte im Bereich des maschinellen Lernens ( ) haben viele ehemals sehr spezifische Algorithmen verallgemeinert und sie für viele verschiedene Anwendungsfälle anwendbar gemacht. Diese Methoden "lernen" direkt aus den Daten und bieten eine unvoreingenommene Sichtweise.

Um diese Instrumente zu nutzen, müssen wir eine Zuordnung von Text zu Zahlen finden. Angesichts des Reichtums und der Komplexität von Texten ist es klar, dass eine einzelne Zahl nicht ausreicht, um die Bedeutung eines Dokuments darzustellen. Es wird etwas Komplexeres benötigt. Die natürliche Erweiterung der reellen Zahlen in der Mathematik ist ein Tupel aus reellen Zahlen, ein sogenannter Vektor. Fast alle Textdarstellungen in der Textanalyse und im maschinellen Lernen verwenden

Get Blaupausen für Textanalyse mit Python now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.