Kapitel 6. Clustering für Textähnlichkeit
Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com
Was würdest du tun, wenn man dir einen Stapel Papiere gibt - Quittungen, E-Mails, Reisepläne, Sitzungsprotokolle - und dich bittet, deren Inhalt zusammenzufassen? Eine Strategie könnte sein, alle Dokumente durchzulesen, die wichtigsten Begriffe oder Sätze zu markieren und sie dann in Stapel zu sortieren. Wenn ein Stapel zu groß wird, kannst du ihn in zwei kleinere Stapel aufteilen. Wenn du alle Dokumente durchgesehen und gruppiert hast, kannst du jeden Stapel genauer untersuchen. Vielleicht würdest du die wichtigsten Sätze oder Wörter aus jedem Stapel verwenden, um die Zusammenfassungen zu schreiben und jedem Stapel einen eigenen Namen zu geben - das Thema des Stapels.
Das ist eine Aufgabe, die in vielen Disziplinen, von der Medizin bis zum Recht, durchgeführt wird. Im Kern beruht diese Sortieraufgabe auf unserer Fähigkeit, zwei Dokumente zu vergleichen und ihre Ähnlichkeit zu bestimmen. Dokumente, die einander ähnlich sind, werden in Gruppen zusammengefasst, und die daraus resultierenden Gruppen beschreiben im Großen und Ganzen die allgemeinen Themen und Muster innerhalb des Korpus. Diese Muster können eindeutig sein (z. B. wenn sich die Gruppen überhaupt nicht überschneiden) oder unscharf (z. B. wenn es eine große Ähnlichkeit gibt und die Dokumente schwer zu unterscheiden sind). In jedem Fall stellen die ...
Get Angewandte Textanalyse mit Python now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.