画像処理のバイキュービック補間に潜むリスク
2021 年 11 月 18 日 Trevor Collins 著
最近話題になった裁判のニュースでは、画像の補間が関連していました。この記事では画像補間技術が与える影響について説明します。画像補間は今回のニュースだけでなく顔認識技術にも使用されており、当ブログでもこれについて度々取り上げてきました。
画像の補間とは、任意のピクセルを取り出して、リサイズしたときの色を計算して予測する技術です。多くの画像処理ライブラリでは顔のディテールを増幅するために「バイキュービック補間」が使われており、これは今回話題になったバイキュービック補間と同じものです。ただし、Rittenhouse 氏の罪状をめぐる今回の裁判において、陪審員に提出された証拠品にバイキュービック補間が使われていたかどうかは定かではありません。
バイキュービック補間を理解するため、まずは線形補間から説明します。例としてグラフ上で線形補間を行うとすると、2 つのデータポイント間のデータから推定することになります。しかし下図のようにデータポイントが離れすぎていると、誤差が生じることが分かります。
そこで直近のデータポイントだけでなく、その次に近いデータポイントを調べることで、三次補間を使ってこのグラフの誤差を補正できます。その場合、合計 4 つのデータポイントを使って求めたい数を決定します。
画像は一次元ではなく二次元なので、2 つの軸を考慮する必要があります。そこで登場するのがバイキュービック補間です。写真の解像度を上げるには、拡大したい部分に最も近い 16 ピクセル(4 ピクセル × 4 ピクセル)を取り、その真ん中に何色を置くかを決めます。
しかしあまり拡大しすぎると問題が生じます。補間の際には必ずアーチファクトが発生するためです。そこで、画像を拡大する範囲は限定されます。そのため、裁判における証拠として、画像にバイキュービック補間をかけて何が起こったかを判断するとなると、信頼性に欠けます。顔認識技術においても同様の問題は発生しますが、顔の複数の領域を検査することで回避できます。補間によって顔の一部分が破損しても、他の部分を照合することで顔が一致するかどうかを判断できるためです。これが有効なのは、1 箇所が正しく一致する確率は低くても、無数の部分のうち少なくとも 1 つが正しく一致する確率は高いためです。コインを投げて「1 回のトスで表が出る」と賭けた場合、その賭けに勝つ確率は 50% です。しかし「10 回投げるうち少なくとも 1 回表が出る」と賭けた場合、その賭けに勝つ確率は 1024 分の 1023 となります。
裁判のように重要な分野で使用する前に、使用する補間アルゴリズムについてよく理解する必要があります。裁判では、画像の補間によるたった 1 つのミスが大きな被害をもたらす可能性があります。また、顔認識ソフトを運用する際も、影響はそれほど大きくないにせよ、補間の性質についてはよく理解しておく必要があります。