Kapitel 5. Details zum Strahlendesign

Diese Arbeit wurde mithilfe von KI übersetzt. Wir freuen uns über dein Feedback und deine Kommentare: translation-feedback@oreilly.com

Nachdem du nun Remote-Funktionen und -Akteure erstellt und mit ihnen gearbeitet hast, ist es an der Zeit zu erfahren, was hinter den Kulissen passiert. In diesem Kapitel lernst du wichtige Konzepte für verteilte Systeme kennen, z. B. Fehlertoleranz, die Ressourcenverwaltung von Ray und Möglichkeiten, deine Remote-Funktionen und -Akteure zu beschleunigen. Viele dieser Details sind besonders wichtig, wenn du Ray in einer verteilten Umgebung einsetzt, aber auch lokale Benutzer profitieren davon. Ein solides Verständnis der Funktionsweise von Ray wird dir helfen zu entscheiden, wie und wann dues einsetzen willst.

Fehlertoleranz

Fehlertoleranz bezieht sich auf die Art und Weise, wie ein System mit Fehlern umgeht - vom Benutzercode bis hin zum Framework selbst oder den Maschinen, auf denen es läuft. Ray hat für jedes System einen anderen Fehlertoleranzmechanismus. Wie viele andere Systeme kann sich Ray nicht davon erholen, dass der Hauptknoten fehlschlägt.1

Warnung

In Ray gibt es einige nicht wiederherstellbare Fehler, die du (derzeit) nicht wegkonfigurieren kannst. Wenn der Head Node, das GCS oder die Verbindung zwischen deiner Anwendung und dem Head Node fehlschlägt, schlägt deine Anwendung fehl und kann von Ray nicht wiederhergestellt werden. Wenn du in solchen Situationen Fehlertoleranz benötigst, musst du selbst ...

Get Python mit Ray skalieren now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.