4章物体検出と画像セグメンテーション

本書ではこれまで、さまざまな機械学習アーキテクチャを見てきましたが、それらは、1枚の画像全体を分類(または回帰)するという1つの問題を解決するために使用されていました。本章では、物体検出、インスタンスセグメンテーション、シーン全体のセマンティックセグメンテーションという3つの新たな問題について説明します(図4-1)。画像のカウンティング、姿勢推定、生成などのより高度な問題は、「11章 より高度な課題」と「12章 画像生成とテキスト生成」で取り上げます。

左から、物体検出、インスタンスセグメンテーション、シーン全体のセマンティックセグメンテーション。出典:Arthropods(<a href="https://oreil.ly/sRrvU" class="link">https://oreil.ly/sRrvU</a>)とCityscapes(<a href="https://oreil.ly/rs9zf" class="link">https://oreil.ly/rs9zf</a>)データセット

図4-1 左から、物体検出、インスタンスセグメンテーション、シーン全体のセマンティックセグメンテーション。出典:Arthropods(https://oreil.ly/sRrvU)とCityscapes(https://oreil.ly/rs9zf)データセット

[Tip]

本章のコードは、本書のGitHubリポジトリの04_detect_segmentフォルダにあります。コードサンプルやノートブックのファイル名は必要に応じて明記します。

4.1 物体検出

私たちにとって「見る」という行為はとても簡単なことです。そのため、蝶を見つけてその美しさに目を向けるとき、その裏では何百万もの視覚細胞やニューロンが働いていて、光をとらえ、その信号を解読し、さらに高い抽象度の処理をしていることなど考えもしません。 ...

Get コンピュータビジョンのための実践機械学習 ―モデルアーキテクチャからMLOpsまで now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.