Kapitel 2. Aufbau eines eigenen Korpus

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Wie bei jeder Anwendung des maschinellen Lernens besteht die größte Herausforderung darin, herauszufinden, ob und wo sich das Signal im Rauschen versteckt. Dies geschieht durch den Prozess der Merkmalsanalyse - der Bestimmung, welche Merkmale, Eigenschaften oder Dimensionen unseres Textes seine Bedeutung und die zugrunde liegende Struktur am besten kodieren. Im vorigen Kapitel haben wir gesehen, dass es trotz der Komplexität und Flexibilität der natürlichen Sprache möglich ist, sie zu modellieren, wenn wir ihre strukturellen und kontextuellen Merkmale extrahieren können.

In den folgenden Kapiteln werden wir uns vor allem mit der "Merkmalsextraktion" und dem "Knowledge Engineering" beschäftigen - also mit der Identifizierung von eindeutigen Vokabeln, Synonymen, Zusammenhängen zwischen Entitäten und semantischen Kontexten. Wie wir im Laufe des Buches sehen werden, bestimmt die Darstellung der zugrunde liegenden linguistischen Struktur, die wir verwenden, weitgehend unseren Erfolg. Um eine Repräsentation festzulegen, müssen wir die Einheiten der Sprache definieren - die Dinge, die wir zählen, messen, analysieren oder aus denen wir lernen.

Bei der Textanalyse geht es darum, größere Texte in ihre Bestandteile zu zerlegen - einzigartige Vokabeln, gebräuchliche Phrasen, syntaktische Muster - und dann statistische ...

Get Angewandte Textanalyse mit Python now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.