2.5Dって何?
このエッセイのタイトルの「2.5D」ですが、写真(3D)とイラスト(2D)の中間というニュアンスで使っています。
単純に出力する画が「写真(3D)とイラスト(2D)の中間」という意味もあるのですが、実のところは「既存のものに似たものが出ない」ための工夫であり、著作権上の配慮です。
具体的に何をやっているか? というと、途中まで写真(3D)を生成したデータをもとにイラスト(2D)を生成し、(さらにそれを合成する)という方法を採っています。
つまり、文字通り2.5Dで、最終出力には直接的な元の画というものが存在しません。
イラストのほうのモデルにたとえ誰かの特徴的なデフォルメ手法と似たものが出力されたとしても、最終的にそれが写真と掛け合わされることによって打ち消され、「どんなモデルを使っても」似た生成結果(ただし元ネタが存在しないもの)が得られます。
前のお話の「A」と「B」を見ていただければ判る通り、どんなモデルを使ってもこの手法である限り最終的に似た結果(ただし元ネタとしては存在しないもの)が得られます。
写真をもとにしたイラストが、写真と合成されることによって特徴が打ち消されるため、イラスト側に複数のモデルを使って最終結果を比較することによって、プロンプトの潜在空間への影響を可視化しようという試みです。
このエッセイはタイトル通り「実験」で、プロンプトが潜在空間に与える影響を可視化することを目的としたエッセイです。
ちなみにこのエッセイで取りあげるデータはすべて生成AIが作ったデータで、著作物ではありません。すべて一貫して生成AIがおこなっています。
AIがやりました。