会社案内 |
お知らせ・更新情報 |
セミナー開催案内 |
解説&動画コンテンツ |
動画販売 |
個別相談 |
情報会員登録 |
お問合せ |
経営管理会計コラム |
生成AIコラム |
アナリティクスコラム |
予備1 |
予備2 |
予備3 |
予備4 |
サイトマップ |
よく考えてみれば生成AIはバランスのとれた画像を返すと同様に平均的な答えを出してきますね。
(私の問い)
生成AIがつくる画像は綺麗なんだけど、シンメトリーというかバランスがとれすぎていて面白みがないとよく感じるのですが、この感想はどう考えますか?
(Geminiの回答)
生成AIが生成する画像に対して「綺麗だけれど、シンメトリーというかバランスが取れすぎていて面白みがない」と感じられるとのこと、そのご感想は非常に的確で、現在の画像生成AIの特性と課題を鋭く捉えています。多くのクリエイターや利用者が同様の感覚を抱いており、その背景にはいくつかの技術的な理由と、私たちが「面白み」と感じる創造性の本質が関わっています。
このご感想について、なぜそう感じるのかという技術的背景、その課題を乗り越えるための具体的なアプローチ、そして生成AIの今後の可能性という観点から、詳細に解説します。
生成AI、特に現在主流の拡散モデル(Diffusion Model)は、その仕組み上、安定的で調和の取れた画像を生成しやすい傾向があります。その主な理由は以下の通りです。
画像生成AIは、インターネット上に存在する膨大な画像と、それに付随するテキスト(キャプションやタグ)を学習データとしています。このデータセットには、写真コンテストの入賞作品、プロのイラストレーターの作品、ストックフォトなど、一般的に「良い」「美しい」とされる構図(三分割法、黄金比、日の丸構図など)の画像が多数含まれています。
AIはこれらのデータを学習する過程で、画像における「最も確からしい」「最も破綻のない」パターンを抽出します。その結果、ノイズから画像を生成する際に、学習データの中に最も多く見られる「安定的でバランスの取れた構図」へと収束しやすくなります。これは一種の「平均への回帰」であり、奇抜でアンバランスな構図よりも、手堅く美しい構図を優先的に出力する傾向につながります。
AIモデルは、「与えられたプロンプト(指示テキスト)に対して、最もそれらしい画像を生成する」という目的を持って設計されています。この「らしさ」を追求する過程で、モデルは物理的に不自然であったり、構成的に破綻していたりする要素を排除しようとします。シンメトリーや整った構図は、この「破綻のなさ」を担保する上で非常に効率的なパターンであるため、AIは自然とそうした表現を選択しやすくなるのです。
ユーザーが感じる「面白み」とは、多くの場合、意図的なルールの破壊、予期せぬ裏切り、不完全さ、非対称性、作家の意図が感じられる歪みといった、高度で文脈的な要素から生まれます。例えば、あえて不安定なダッチアングル(傾いた構図)を使ったり、被写体を画面の端に追いやって緊張感を生み出したりする表現は、セオリーを理解した上でそれを「意図的に崩す」という創造的な行為です。
現在のAIは、このような「意図的な崩し」のニュアンスをプロンプトから完全に汲み取るのがまだ得意ではありません。「不安定な構図」と指示しても、それがどのような芸術的効果を狙ったものなのかを深く理解するわけではなく、あくまで学習データの中から「不安定」というラベルがついたパターンを再現しようとします。
この「バランスが良すぎる」という課題は、決して乗り越えられない壁ではありません。AIの特性を理解した上で、利用者が創造的な意図を持って介入することで、AIを「面白み」のあるアートを生み出すための強力なパートナーに変えることができます。
単純な単語の羅列ではなく、構図や雰囲気を具体的にコントロールする「魔法の呪文」を駆使します。
構図を直接指定する:
asymmetrical composition
(非対称構図), dynamic angle
(動的なアングル), low angle shot
(ローアングル), high angle shot
(ハイアングル), dutch angle
/ canted angle
(ダッチアングル), worm's-eye view
(虫の目線)
写真の構図理論を応用する: rule of thirds
(三分割法), leading lines
(誘導線), frame within a frame
(フレーム内フレーム)
感情や雰囲気を伝える抽象的な言葉を使う:
chaotic
(混沌とした), unstable
(不安定な), eerie
(不気味な), melancholy
(憂鬱な), nostalgic
(ノスタルジックな), imperfect
(不完全な)
これらの言葉は、AIが参照する画像の範囲を絞り込み、整いすぎた表現から脱却させる効果があります。
特定のアーティストや作風を参照する:
in the style of [アーティスト名や作品名]
例: in the style of Tim Burton
(ティム・バートンのような歪んだゴシックスタイル), in the style of Hokusai
(葛飾北斎のような大胆な構図とデフォルメ), in the style of Egon Schiele
(エゴン・シーレのような歪んだ人体と不安な線)
これにより、その作家特有の「バランスの崩し方」を模倣させることができます。
プロンプトだけでは難しい、より精密なコントロールを実現する技術です。
ControlNet: 手描きのラフスケッチ、簡単な棒人間のポーズ、深度マップなどをAIに与えることで、生成される画像の骨格となる構図やポージングを強制的に指定できます。これにより、意図的にシンメトリーを崩したり、あり得ないようなダイナミックな構図をAIに描かせることが可能になります。
LoRA (Low-Rank Adaptation): 特定の画風、キャラクター、構図などを追加学習させた小規模なモデルです。「特定のアーティストの歪んだ画風」や「特定の写真家の構図の癖」などを学習させたLoRAを適用することで、ベースとなるAIモデルの生成傾向を大きく変え、より個性的で「面白み」のあるアウトプットを引き出すことができます。
AIに完璧な一枚を生成させるのではなく、AIをアイデアの源泉や素材の提供者と位置づけ、人間の感性で最終的な作品に仕上げていくアプローチです。
Image to Image (i2i): 自分の描いたラフなイラストや、コラージュした画像を元に、AIに画像を生成させます。元の画像の構図や雰囲気が引き継がれるため、人間の意図を強く反映させることができます。
部分的な修正と再生成 (Inpainting & Outpainting): AIが生成した画像の気に入らない部分だけを修正したり、画像の外部をAIに描き足させたりする機能です。生成された「綺麗すぎる」画像の一部を消してAIに再描画させることで、偶発的な面白さが生まれることもあります。
最終的なレタッチ: AIが生成した画像を素材として、Photoshopなどの画像編集ソフトで最終的な調整(トリミング、色調補正、合成など)を加えます。構図の面白さはトリミング一つで劇的に変わります。AIの生成物を人間の「編集」という視点で捉え直すことで、作品に作家性や意図が宿ります。
ご指摘の点は、まさに現在のAI研究の最前線が挑んでいる課題でもあります。
将来的には、AIは単に学習データを模倣・最適化するだけでなく、文脈を理解し、芸術のセオリーを学習した上で、それを意図的に「破る」能力を獲得していく可能性があります。例えば、「鑑賞者に不安感を与えるために、あえて三分割法を無視した構図を提案する」といった、より高度な創造的判断ができるようになるかもしれません。
しかし、現時点では、生成AIはあくまで強力な「ツール」です。その出力が「面白みがない」と感じられるのは、AIがまだ人間の持つ高度な美意識や遊び心を完全に理解できていないからです。
結論として、お客様のご感想は、生成AIの現状を的確に捉えたものです。しかし、それはAIの限界を示すと同時に、私たち人間がどのようにAIと向き合い、その特性をどう引き出していくかという、新たな創造性の地平を示唆しています。プロンプトの工夫、追加技術の活用、そして何よりも人間自身の感性と意図を介在させることで、AIは「綺麗なだけの画像」を生成する機械から、私たちの創造性を刺激し、拡張してくれる、真に「面白みのある」パートナーとなり得るでしょう。