Anhang C. Eine Unicode-Fibel

Dies ist keine vollständige oder umfassende Einführung in Unicode; sie reicht gerade aus, um die Teile von Unicode zu verstehen, die wir in diesem Buch vorstellen. Unicode ist nicht nur deshalb so kompliziert, weil es eine neue Art ist, über Zeichenketten zu denken, mit vielen angepassten Vokabeln, sondern auch, weil die Computersprachen im Allgemeinen es so schlecht implementiert haben. Jede Version seit Version 5.6 hat Perl näher an die vollständige Konformität gebracht. Perl hat aber wohl die beste Unicode-Unterstützung, die du finden kannst.

Unicode

Der Universal Character Set (UCS) ist eine abstrakte Zuordnung von Zeichen zu Codepunkten. Er hat nichts mit einer bestimmten Darstellung im Speicher zu tun, was bedeutet, dass wir uns auf mindestens eine Art und Weise einigen können, um über Zeichen zu sprechen, egal auf welcher Plattform wir uns befinden. Eine Kodierung wandelt die Codepunkte in eine bestimmte Darstellung im Speicher um, indem sie die abstrakte Zuordnung aufnimmt und sie physisch im Computer darstellt. Du denkst bei dieser Speicherung wahrscheinlich an Bytes, aber wenn wir über Unicode sprechen, verwenden wir den Begriff Oktette (siehe Abbildung C-1). Verschiedene Kodierungen speichern die Zeichen unterschiedlich. Umgekehrt interpretierst du die Oktette als Zeichen, indem du sie dekodierst. Du musst dich nicht allzu sehr darum kümmern, denn Perl kann die meisten Details für dich erledigen.

Wenn wir über einen Codepunkt sprechen, geben ...

Get Perl lernen, 8. Auflage now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.