17章公平公正なデータの生成法

この章では、アルゴリズムのユーザーが、公平なデータを生成することによって、アルゴリズミックバイアスの排除にいかに大きく貢献できるかを説明します。

17.1 データは新たなきん

「データは新たなきんである」は現代のモットーのひとつ、とも言えそうですが、真の輝きを放つのは混じりっ気なしの純金のみ。バイアスがかかっている場合、致命的な(したがって無価値な)汚染データである可能性もゼロではありません。

その好例を紹介しましょう。かつて私が税務当局から受けた依頼です。それは「密輸品が紛れ込んでいる可能性の高いコンテナを港湾の税関検査官に知らせるアルゴリズムを構築してほしい」というものでした。しかしこのプロジェクトは始動前に頓挫してしまいました。税務当局の手元にあってアルゴリズムの構築に使えるデータといえば、税関の検査官がその前年にこなした、ごく限られた件数の検査のデータだけだったからです。

問題は「どのコンテナを調べるかも、どう調べるかも、検査官の裁量に任せられている」という点でした。つまり、たとえばルイ・ヴィトンのバッグ「クロワゼ」なら、「Luis Vitton」のラベルの「s」と直前の「i」の間隔が通常より狭いものが怪しいということを知っている検査官が、検査の範囲を絞り、内容物が「クロワゼ」と記載されている積荷限定、その日最初に手にした箱限定で検査する、という方法をとっているかもしれません。あるいは、革の部分に押された「Luis Vitton」の刻印の「L」と「o」と「t」を見れば本物と偽物を見分けられるというコツを心得た検査官が、コンテナの中身を全部出し、2ダースのバッグひとつひとつについて、この3文字を厳重にチェックしているかもしれません。 ...

Get AIの心理学 ―アルゴリズミックバイアスとの闘い方を通して学ぶ ビジネスパーソンとエンジニアのための機械学習入門 now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.