2章テキスト分類
テキスト分類は自然言語処理においてもっとも一般的なタスクの1つです。顧客からのフィードバックをカテゴリに分類したり、サポートチケットを言語に応じて振り分けるなど、幅広い用途で利用できます。皆さんの使っているメールソフトのスパムフィルターも、テキスト分類を利用して、大量の迷惑メールから受信箱を守っていることでしょう。
もう1つの一般的なテキスト分類はセンチメント分析です。これは「1章 入門 Transformers」で見たように、与えられたテキストの極性を識別することを目的としています。たとえば、Teslaのような会社は、図2-1のようなTwitterの投稿を分析することで、人々が新しい車のルーフを好きかどうかを判断できます。
さて、皆さんがデータサイエンティストで、Twitter上で自社の製品について人々が表現する「怒り」や「喜び」といった感情の状態を自動的に識別するシステムを構築する必要があるとします。本章では、DistilBERT†1と呼ばれるBERTの派生モデルを使ってこのタスクに取り組みます。このモデルの主な利点は、BERTと同等の性能でありながら、サイズが大幅に小さく、より効率的であることです。これにより、分類器を数分で学習できます。より大きなBERTモデルを学習したい場合は、事前学習済みモデルのチェックポイントを変更するだけです。 ...
Get 機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発 now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.