なぜ同じプロンプトでもAI画像は違ってしまうのか
ChatGPTとGeminiの比較 同じプロンプトを入れても、出来上がる画像はまったく別物になることがある。今回比べてみたのはChatGPTとGemini。すると、それぞれの特徴や癖がはっきり見えてきた。 Geminiの特徴 ― 過剰な“日本風味” 「幕末の侍、写真風」と入力しただけなのに、髪型を勝手にちょんまげに変えたり、着物に家紋をやたらと増やしたりする。こちらはそんな指定をしていないのに、AIの中にある「日本=こうあるべき」という思い込みが出てしまうのだろう。その結果、リアルな歴史写真というより、どこか安っぽい模造品のような雰囲気になる。 ChatGPTの特徴 ― 全般的に“余計な足し算” 一方でChatGPTも無関係ではない。こちらもプロンプトに書いていない背景や小道具を勝手に追加することがあるし、「写実的に」と指定してもイラスト調に寄ることがある。Geminiのように日本文化に特化した偏りは少ないが、不要な補完が入る点では同じだ。 本当の問題はどこにあるのか ここで大事なのは、こうした違和感が画像生成モデルそのもののせいではないということ。実際には、ユーザーが書いた日本語のプロンプトを英語などに置き換えて渡す段階で、ChatGPTやGemini本体が勝手な憶測を混ぜてしまっている。生成モデルは与えられた指示を忠実に再現しているだけなのに、橋渡しの時点で余計な味付けが加わってしまうわけだ。 結論 ― どちらも“憶測”を前提に使うしかない つまり、 Geminiは日本文化絡みで過剰な補正が入りやすい ChatGPTは全般的に余計な要素を付け足す傾向がある どちらも「勝手に解釈する」という性質がある以上、完全に意図通りの画像を出すのは難しい。大事なのは、その癖を理解したうえで使い分けることだろう。AIは言葉をそのまま受け取るわけではなく、内部で翻訳し、解釈し、補完してから結果を返してくる。そこを踏まえて調整していくしかない。