12/14

AIのバージョンの違いによる生成画像の差を探る

　今回は、AIのバージョンの違いによる生成画像の差を探ってみたいと思います。

　まずはじめに、コピペした同じモデル、同じエンコーダー、同じプロンプト、同じシード値、同じパラメーターを用意します。

　これにより、「AIのバージョンの差のみ」に限りなく近い状況を作り出し、新旧AIで同じものを作画して比較してみようと思ってます。

　・はじめに。背景と人物の位置関係について

・旧バージョンのAI

・新バージョンのAI

　結論を言うと、背景と人物の位置関係の傾向は変わりません。シード値やノイズ生成、ノイズの除去周りのプログラムの変更は非常に小さいか、無視できるものと考えられます。これは、シード値周りのアルゴリズムが変わると全体に大きな変化が及ぶためです。

　・細部の変化について

・旧バージョンのAI

・新バージョンのAI

　細部の変化は顕著です。例えば、旧版では雑に描かれていたロボットが新版では細かく描かれている点が大きく違います。また、人物の目の描写が旧版では写真寄り、新版ではアニメ寄りと画風が異なる点も目立った変化です。

　・プロンプトに対するAIの理解度の変化

・旧バージョンのAI

・新バージョンのAI

　AIのプロンプトに対する理解度も変化しています。こちらの画では、旧版では黒髪や唇を噛む描写が強く反映されていたのに対し、新版では目の色や怒りの表情がより正確に出力されています。具体的なプロンプトは、「angry disgust, (biting her lip:1.1), intense glare, (dark blown eyes:1.2), black hair」というものでした。

　・まとめと見解

　ノイズ周りの変更はおそらくなし

　変分エンコーダーの適用タイミングが異なる可能性がある

　トークナイザーとアテンション機構周りには大きな変更がある

　要はAIの読解力が異なっているんですよね。

　つまり、新旧バージョンで同じ画を出したいなら、重みの数値を調整してエンコーダーの適用タイミングを新旧で一致させる必要があります。新しいバージョンは使用メモリや作業時間が改善されていますので、ぼくの好みはさておき今後はそっちを使うのが合理的でしょうね。新しいものはいいものだ、ってことで。

　もっとも、次回このエッセイの更新があれば、のお話です。

　読まれないものを書いても仕方がないので。

　・LoRAの使用について

　今回の検証でわかったのは、LoRAは作者が生成した際のAIのバージョンを使わないと効果が発揮されにくいということです。

　AIのバージョンが違うと意図しないレベルの強調が起こってかえってない方がマシな状況になることも十分あり得ると考えられます。

　このお話がどなたかのお役に立てばいいなと思いつつ締めます。