Soraパワーのクリエイターたちが語るAI生成ビデオの強みと制限事項
2月にOpenAIのビデオ生成ツールSoraが登場して以来、AIコミュニティを驚かせた。このツールは競合他社よりも遥かに優れた流動的でリアルなビデオを提供しています。しかし、精巧に計画されたデビューは多くの詳細を省略しており、これらの詳細はSoraを使用して短編映画を作成する早い段階からアクセスを受けた映画作家によって補足されました。
トロントを拠点とするデジタル制作チームであるShy Kidsは、OpenAIによって選ばれた数少ないチームの1つとして、主にOpenAIのプロモーション目的として短編映画を制作するように選ばれました。ただし、彼らは「air head」を作成する際にかなりの創造的自由が与えられました。fxguideというビジュアルエフェクトニュースアウトレットのインタビューで、ポストプロダクションアーティストであるパトリック・シーダーバーグは、「実際にSoraを使用する」という作業の一部として説明しています。
ほとんどの人にとって最も重要なポイントは、OpenAIが短編映画を強調した投稿は、読者がSoraからほぼ完全な形で作成されたと考えることを許可している一方で、これらはプロの制作物であり、堅牢なストーリーボード、編集、カラーコレクション、そしてロトスコーピングやVFXのようなポストワークが完了しています。アップルが「iPhoneで撮影」と言ってもスタジオセットアップやプロの照明、事後のカラーワークなどは表示しないのと同様に、Soraの投稿は人々が何ができるかについてのみ話し、実際にどのようにそれを行ったかについては触れていません。
シーダーバーグのインタビューは興味深く、非常に技術的ではないため、興味がある場合はfxguideにアクセスして読んでみてください。しかし、Soraを使用することに関するいくつかの興味深い情報もあり、それはこのモデルが考えていたよりも進歩していると感じるかもしれません。
制御はまだ最も望ましいが、同時にこの段階では最も手に負えないものです。...我々ができる中で一番近くに来たのは、プロンプトで非常に詳細になることだった。キャラクターの衣装を説明すること、および風船の種類を説明することは、一貫性を確保するための我々の方法でした。ショットからショット、生成から生成にかけて、一貫性の完全な制御機能はまだ整っていません。
言い換えれば、伝統的な映画製作では簡単な要素であるキャラクターの衣装の色を選択することなど、生成システムでは複雑な回避策やチェックが必要とされます。なぜなら、各ショットは他のショットと独立して作成されるためです。これは明らかに変わる可能性がありますが、現時点でそれはかなり手間がかかる作業です。
Soraの出力には望ましくない要素が見られることもありました。シーダーバーグは、モデルが主要キャラクターの頭部にある風船に顔を生成したり、前方にふらついている紐を生成したりすることが常にあると説明しました。これらは除去する必要があったり、プロンプトから除外することができない場合には、別の時間を要するプロセスとなります。
キャラクターやカメラの正確なタイミングや動きを制御することは実際にはほとんど不可能です。「実際の生成でこれらの異なるアクションがどこで起こるかについて少しの時間的制御がありますが、正確ではなく…それは一種の無知な行為です」とシーダーバーグは述べています。
たとえば、手を振るようなジェスチャーのタイミングは、非常におおよその、提案に基づくプロセスであり、手作業のアニメーションとは異なります。また、キャラクターの体を上にパンするようなショットは、映画作家が望むかどうかにかかわらず反映することがありません。したがって、このチームはこの場合、縦向きで構成されたショットを生成し、切り取りパンを後処理で行いました。生成されたクリップは何ら特定の理由がない場合にはよくスローモーションでした。
実際、映画製作の日常言語を使用することは一般的に不一致であったとシーダーバーグは述べ、チームはかなり驚いたと述べました。
「研究者たちは、このツールで遊ぶためにアーティストにアプローチする前に、映画製作者のように考えていませんでした」と彼は述べています。
その結果、チームは数百の生成を行い、それぞれが10〜20秒であり、ほんの一握りしか使用しませんでした。シーダーバーグはその比率を300:1と推定していますが、もちろん普通の撮影の比率に驚くかもしれません。
チームは実際にランニング中に遭遇したいくつかの問題について説明した、その背後にあるビデオを作成しました。AIに関連するコンテンツは一般的に、最近批判されたAI支援広告ほどではありませんが、コメントはかなり批判的です。
最後に興味深い点は著作権に関するものです。Soraに「スター・ウォーズ」のクリップを提供するように依頼すると、拒否されます。そして、「レトロフューチャリスティックな宇宙船に乗っているローブの男」といった回避策でそれを試みると、同様に拒否されます。また、「アロノフスキー風のショット」や「ヒッチコックズーム」も拒否されます。
一方、それは完全に理にかなっていると言えます。しかし、このことから考えられるのは、Soraがこれらを認識する機構によって、そのコンテンツをトレーニングした可能性があるということです。OpenAIはトレーニングデータを厳重に秘密にしていますが、CTOのミラ・ムラトのジョアンナ・スターンとのインタビューのように、まったく話をする気はないでしょう。
Soraと映画製作での使用に関しては、その場所においては明らかに強力で役立つツールであり、あるがままに映画を作成する場所ではありません。まだ。「後にそれがくる」と別の悪役が一度有名に言ったように。