Kapitel 6. Themenmodellierung

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Beim Textmining haben wir oft Sammlungen von Dokumenten, wie z. B. Blogposts oder Nachrichtenartikel, die wir in natürliche Gruppen einteilen möchten, damit wir sie separat verstehen können. Die Themenmodellierung ist eine Methode zur unbeaufsichtigten Klassifizierung solcher Dokumente, ähnlich dem Clustering bei numerischen Daten, die natürliche Gruppen von Elementen findet, auch wenn wir nicht sicher sind, wonach wir suchen.

Die Latent-Dirichlet-Zuordnung (LDA) ist eine besonders beliebte Methode zur Anpassung eines Themenmodells. Dabei wird jedes Dokument als eine Mischung von Themen und jedes Thema als eine Mischung von Wörtern behandelt. Auf diese Weise können sich Dokumente inhaltlich "überlappen", anstatt in einzelne Gruppen unterteilt zu werden, was dem typischen Gebrauch der natürlichen Sprache entspricht.

Wie Abbildung 6-1 zeigt, können wir die Prinzipien von tidy text nutzen, um die Themenmodellierung mit denselben tidy-Werkzeugen anzugehen, die wir in diesem Buch verwendet haben. In diesem Kapitel werden wir lernen, mit LDA Objekten aus demtopicmodels-Paket zu arbeiten und insbesondere solche Modelle so aufzuräumen, dass sie mit ggplot2 und dplyr bearbeitet werden können. Außerdem werden wir ein Beispiel für das Clustering von Kapiteln aus mehreren Büchern untersuchen, bei dem wir sehen können, dass ein ...

Get Text Mining mit R now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.