KAPITEL 1

Hallo Transformer

Im Jahr 2017 veröffentlichten Forscher von Google einen Artikel, der eine neuartige neuronale Netzwerkarchitektur für die Modellierung von Sequenzen vorschlug.1 Diese als Transformer bezeichnete Architektur übertraf rekurrente neuronale Netze (engl. Recurrent Neural Networks, RNNs) bei maschinellen Übersetzungsaufgaben sowohl in Bezug auf die Übersetzungsqualität als auch auf die Trainingskosten.

Gleichzeitig wurde mit einem effektiven Transfer-Learning-Verfahren namens ULMFiT gezeigt, dass durch das Training von LSTM-Netzwerken (Long Short-Term Memory) auf einem sehr großen und vielfältigen Korpus hochmoderne Textklassifikatoren erstellt werden können, die nur wenige gelabelte Daten erfordern.2

Diese Fortschritte ...

Get Natural Language Processing mit Transformern now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.