1章入門 Transformers

2017年、Googleの研究者たちは、系列モデリングのための新しいニューラルネットワークアーキテクチャを提案する論文を発表しました†1Transformerと名付けられたこのアーキテクチャは、機械翻訳タスクにおいて、翻訳品質と学習コストの両面でリカレントニューラルネットワーク(RNN)を上回りました。

[†1] A. Vaswani et al., "Attention Is All You Need" (https://arxiv.org/abs/1706.03762), (2017)。このタイトルがあまりにもキャッチーだったので、後続の論文(https://oreil.ly/wT8Ih)でも50本以上がタイトルに「all you need」を入れているそうです。

これと並行して、ULMFiTと呼ばれる効果的な転移学習法により、非常に大規模かつ多様なコーパスでLSTMネットワークを学習すれば、少ないラベル付きデータで非常に性能の良いテキスト分類器を構築できることが示されました†2

[†2] J. Howard and S. Ruder, "Universal Language Model Fine-Tuning for Text Classification" (https://arxiv.org/abs/1801.06146), (2018).

これらの研究は、今日もっともよく知られている2つのTransformerであるGenerative Pretrained Transformer(GPT)†3とBidirectional Encoder Representations from Transformers(BERT)†4のきっかけとなりました。Transformerと教師なし学習を組み合わせることで、これらのモデルはタスク固有のアーキテクチャをゼロから学習する必要性をなくし、NLPのほぼすべてのベンチマークを大幅に更新しました。GPTとBERTのリリース以来、Transformerモデルが大量に提案されています。 ...

Get 機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.