Kapitel 12. Textanalyse und -generierung

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

An dieser Stelle haben wir die wichtigsten Datenstrukturen von Python - Listen, Wörterbücher und Tupel - und einige Algorithmen, die sie verwenden, kennengelernt. In diesem Kapitel werden wir sie nutzen, um Textanalyse und Markov-Generierung zu erforschen:

  • Bei der Textanalyse werden die statistischen Beziehungen zwischen den Wörtern in einem Dokument beschrieben, z. B. die Wahrscheinlichkeit, dass auf ein Wort ein anderes folgt.

  • Die Markov-Generierung ist eine Möglichkeit, einen neuen Text mit Wörtern und Sätzen zu erzeugen, die dem Originaltext ähneln.

Diese Algorithmen ähneln den Teilen eines großen Sprachmodells (LLM), das die Schlüsselkomponente eines Chatbots ist.

Wir beginnen damit, zu zählen, wie oft jedes Wort in einem Buch vorkommt. Dann schauen wir uns Wortpaare an und erstellen eine Liste mit den Wörtern, die auf jedes Wort folgen können. Wir werden eine einfache Version eines Markov-Generators erstellen, und als Übung kannst du eine allgemeinere Version erstellen.

Einzigartige Worte

Als ersten Schritt zur Textanalyse lesen wir unter ein Buch - TheStrange Case of Dr. Jekyll and Mr. Hyde von Robert Louis Stevenson - und zählen die Anzahl der einzelnen Wörter. Eine Anleitung zum Herunterladen des Buches findest du im Notizbuch zu diesem Kapitel:

filename = 'dr_jekyll.txt'
       

Wir verwenden eine ...

Get Think Python, 3. Auflage now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.