14章畳み込みニューラルネットワークを使った深層コンピュータビジョン

IBMのDeep Blueスーパーコンピュータは、1996年という早い時期にチェスの世界チャンピオン、Garry Kasparovを破っているが、つい最近に至るまで、コンピュータは写真から子犬を見つけ出すとか、話し言葉を認識するといった一見簡単なことでも信頼できる形では実行できなかった。私たち人間は、これらのことをなぜやすやすと行うことができるのだろうか。答えは、私たちの意識の領野の外にある脳内の視覚、聴覚、その他の知覚モジュールのなかで認知が行われることにある。知覚情報には、私たちの意識に到達するまでに、すでに高水準の特徴量が付け加えられているのである。たとえば、かわいい子犬の写真を見たとき、子犬を見ないこと、そのかわいさに気付かないことを選択することはできない。かわいい子犬をどのようにして認識するのかを説明することもできない。ただ、自明なこととしてわかるのである。そのため、私たちは自分たちの主観的な経験を信頼することはできない。認知は決して単純なものではなく、認知を理解するためには、知覚モジュールがどのような仕組みで機能しているのかに注目しなければならない。

畳み込みニューラルネットワーク(CNN:convolutional neural network)は、脳の視覚野の研究から生まれたもので、1980年代から画像の認識で使われてきている。ここ数年は、計算能力の向上、利用できる訓練データの増加、11章で説明した深層ニューラルネットワーク訓練のトリックの発達のおかげで、CNNは、一部の複雑な視覚的タスクで人間を越える性能を達成できるようになっている。CNNは、画像検索サービス、自動運転車、自動動画分類システムなどの原動力となっている。しかも、CNNは視覚的な認識だけに制限されない。音声認識(voice ...

Get scikit-learn、Keras、TensorFlowによる実践機械学習 第2版 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.