戻る

shimojik

しもじま

2024/02/16 14:35

サマリー

  • オープンAIがテキストから動画を生成する技術「text-to-video」のデモを発表
  • 新技術の発表タイミングがGoogleのジェミニプロ1.5の発表直後で話題に
  • ジェミニプロ1.5はトークン数が100万トークンに増加し、高性能化
  • text-to-videoはテキストから直接動画を生成するもので、以前から画像から動画を生成する技術は存在していた
  • 生成される動画のクオリティと60秒の長さが特に注目される
  • 現在はAPIが公開されておらず、ChatGPTにも組み込まれていないため、広く利用可能になるまでには時間がかかる見込み
  • この技術の発展により、2024年前半にはより多くの可能性が開かれると予想
  • 技術の進歩に伴い、生成AIを活用した新しいアプローチの必要性が高まっている

記事

動画生成技術の進化

オープンAIの動画生成、text-to-videoという分野ですけど、プロンプトから動画を作るってやつですね。こういうのができる状態になってますよっていうデモが来てましたけど、これは本当にすごい。本当にすごいっていう表現しかできないこと自体がネタになっているのが生成AI。それこそ驚き屋とか言ったりするぐらい、そういう感じになってるぐらいずっと新しいものは出てるわけですけど、何がすごいってオープンAIが出すタイミングですよね。

これは無慈悲というか、ちょうどこのオープンAIがソラっていうサービスというかtext-to-videoのプレスを出す、ちょうど1時間ぐらい前とかだったと思うんですけど、Googleがジェミニプロの1.5っていう、今までバージョン1.0あったの1.5っていうのを出して、扱えるトークン数が100万トークンになりました。100万トークンっていうのは日本語の文字で言ったら、100万字というオーダーぐらい80万字とか90万字とかぐらいになると思うんですけど、というのが扱いになりました。これがジェミニが出している一番性能の高い、ウルトラの1.5じゃなくてプロの1.5に対応しているという、僕は理解をしてるんですけど、ウルトラで100万字じゃないっていう、そこら辺はあるとはいえ、これはすごいぞっていうタイムラインが流れる、ちょうど昨日夜中3時4時とか、作業してたのでそのタイミングでタイムライン見て、盛り上がってみながらすごいなっていうそれが出て、それを全部、そのタイムラインを全部終了させるというタイミングで来たのが、この空ですね。

新しいのが出たら口縁じゃないけど、タイムラインを1回盛り上がってるなと思ったら、1時間ぐらいで盛り上がりを停止させるみたいな球を、オープンアイが何個も既に準備してただ出さないだけなんじゃないかって、言われたりするぐらいタイミングひどいっていう、それはいいんですけど、この空というテキストというビデオですね。動画をテキストから生成するだから今までで言うと、テキストから画像っていうのがいっぱいありましたけど、それの動画版が出たということで盛り上がってるんですが、ただこれ前提としてテキスト2ビデオとかあとイメージ2ビデオ、イメージ2ビデオっていうのは画像をアップすると動画がその画像を動かす形でできるというのがイメージ2ビデオですけど、というのは既に発表もされてたしランウェイとかはもう全然使える状態であるので、Twitterとか見てると普通に生成されたりとかいろいろ既に流れてきている、というのがありましたという前提はあるので、完全に新しいことではないんですけど、あまりのクオリティそしてクオリティだけじゃなくて時間が60秒、特にこの60秒っていうところの良さは、分かりにくいなと思うんですけど、今までのテキスト2ビデオ、イメージ2ビデオでもそうですけど短いんですよね4秒とか10秒、それぐらいしかなくてそれが一つの、コストの問題もあるんですけど動画っていうものが、そもそも一貫性を強く保ったままストーリー線をちゃんと、組み込んで生成しないといけないという意味でハードルが高かったらしいんですよ。

なので2023とかで、言われたのは動画はまたしばらくこなさそう、今言ったような課題があるからみたいなことを言われていたので、難しそう長くなれば難しそうだったから、そこで4秒とか8秒とかっていうのはなるほど感があるというか、それでも4秒を作ると一貫性はあるんだけど、8秒作るとそれが保たれないみたいなものとか、あんまり面白みがないとかっていうのになったりしていたので、やっぱり難しいのかなっていうのを思っていた中での、60秒みたいなのがあったりする、というのも含めてクオリティと長さの掛け合わせの、破壊力たるやっていうので、これはもう本当に音色でやろうとしていた、最初の、音色でやろうとしていたことっていうのが、喋ったらそれが動画になるっていうのを、ミスってそこから逆算して今記事を生成したりとかっていうのを、やっているのでなんとなく記事録的な、機能として使っていたうちの会社の中でも使ってたりするんですけど、機能を使っているっていうのはあくまで、そこへの段階とステップとしてあるのであって、そこから喋る自分が好きなことを全力で喋ると、それについて動画が出来上がるみたいな、そういうことを想定しながら逆算していたんですけど、これが2025の末ぐらいに、そういう状態になるかなと思っていたんですけど、もう出来そうみたいなところまで一気に来ましたね。

まだAPIとか公開されていないですし、ChatGPTにも組み込まれていないのでこれが誰でも使えるようになる、形になるのは時間かかると思いますしそもそも、結構コストかかるんじゃないかなと思うので、気軽に使えるぐらいの金額まで落ちてくるのにも時間がかかると思うんですけど、とはいえこれが1年先とかではさすがにないと思うんですよね。そうすると、やろうと思っていたことが、2025末ぐらいにいけたらそれでも早いよなと思っていたのが、2024前半ぐらいで、いけるかもしれない、これは面白いですね。我々プロンプトにもっと、全力で振るべきなんじゃないかとちょっと思いますね。その動画を喋った内容から動画を作るということを、いかに良くしていくかというためにどういうフローでやるか、どういう風に画像を作っていくかとかちょっと今言ってるプロンプトって言ってるのは、もう少し広い意味で言ってるんですけどAPI同士を繋げるとかも含めて、言ってるんですけどとはいえ今、それをするためにその動画を作るために、実際撮っていたアプローチが、そこまでのフローを最適化した上で、どこにクリエイティブを入れてどこに生成AIを入れてというのを、どういう風にするかというのをやりながらここは人間がやってここはシステムでやって、ここはプログラムでやってみたいなことを振り分けてやっていたんですけど、もう少し気持ちというか倍ぐらいの感覚で、プロンプト側とか生成AIができるところ側に、ガッと振ってこれだけは人でやったりとか、プログラムでやった方がいいみたいなところを見定めるのが、重要なんじゃないかというのをこれはしょっちゅう思うんですけど、新しいリリースが出るたびに思うんですけど、ここまでできるんだったらプロンプトでここまでできるんだったら、ちょっとこれはもう一回考え直さないといけないなというのを、思いましたね。

それこそ検索システムみたいなものとかもまさにそうですけど、ラグといって生成AIに情報を与えた上で、その情報をもっとにというか、その情報を合わせて最終出力を作ってもらうために、検索システムみたいなものを作るっていうのが、いろんなやり方が発展していく中で、それを飲み込むぐらいの速度で来るAPIを使って、ラグを中に組み込めるただファイルをアップするだけで、検索できるようにしてあげるからっていう、オープンエンドもそうですしGoogleのGCPもそうですし、というのの新しいAPIのリリースみたいなのが、あるたびにそういう分野が飲み込まれていくじゃないですか。飲み込まれないようなところを、分野を探すっていうのと飲み込まれないぐらいの速度で来るAPIを使って、ラグを中に組み込めるただファイルをアップするだけで、検索できるようにしてあげるからっていう、オープンエンドもそうですしGoogleのGCPもそうですし、というのの新しいAPIのリリースみたいなのが、あるたびにそういう分野が飲み込まれていくじゃないですか。飲み込まれないようなところを、分野を探すっていうのと飲み込まれないぐらいの速度で来るAPIを使って、ラグを中に組み込めるただファイルをアップするだけで、検索できるようにしてあげるからっていう、オープンエンドもそうですしGoogleのGCPもそうですし、というのの新しいAPIのリリースみたいなのが、あるたびにそういう分野が飲み込まれていくじゃないですか。飲み込まれないようなところを、分野を探すっていうのと飲み込まれないぐらいの速度で来るAPIを使って、ラグを中に組み込めるただファイルをアップするだけで、検索できるようにしてあげるからっていう、オープンエンドもそうですしGoogleのGCPもそうですし、というのの新しいAPIのリリースみたいなのが、あるたびにそういう分野が飲み込まれていくじゃないですか。飲み込まれないようなところを、分野を探すっていうのと飲み込まれないぐらいの速度で来るAPIを使って、ラグを中に組み込めるただファイルをアップするだけで、検索できるようにしてあげるからっていう、オープンエンドもそうですしGoogleのGCPもそうですし、というのの新しいAPIのリリースみたいなのが、あるたびにそういう分野が飲み込まれていくじゃないですか。飲み込まれないようなところを、分野を探すっていうのと飲み込まれないぐらいの速度で来るAPIを使って、ラグを中に組み込めるただファイルをアップするだけで、検索できるようにしてあげるからっていう、オープンエンドもそうですしGoogleのGCPもそうですし、というのの新しいAPIのリリースみたいなのが、あるたびにそういう分野が飲み込まれていくじゃないですか。飲み込まれないようなところを、分野を探すっていうのと飲み込まれないぐらいの速度で来るAPIを使って、ラグを中に組み込めるただファイルをアップするだけで、検索できるようにしてあげるからっていう、オープンエンドもそうですしGoogleのGCPもそうですし、というのの新しいAPIのリリースみたいなのが、あるたびにそういう分野が飲み込まれていくじゃないですか。飲み込まれないようなところを、分野を探すっていうのと飲み込まれないぐらいの速度で来るAPIを使って、ラグを中に組み込めるただファイルをアップするだけで、検索できるようにしてあげるからっていう、オープンエンドもそうですしGoogleのGCPもそうですし、というのの新しいAPIのリリースみたいなのが、あるたびにそういう分野が飲み込まれていくじゃないですか。飲み込まれないようなところを、分野を探すっていうのと飲み込まれないぐらいの速度で来るAPIを使って、ラグを中に組み込めるただファイルをアップするだけで、検索できるようにしてあげるからっていう、オープンエンドもそうですしGoogleのGCPもそうですし、というのの新しいAPIのリリースみたいなの逃げるというか進展させていくっていうこれの見定めをやることが重要だなっていう中での今回のみってさっきの話ですけど、思っているよりもっともっとオープンAIとかのAPIを使って何ができるかっていうこと、これからできそうかっていうことを想定した設計が大事なんじゃないかな。リソースをどこに割り振るかみたいなことを考えると、さらに言うと思っているよりプロンプトに時間を使っていく、もっと振り切っていくほうがいいんじゃないかなというのを今回見て思いましたね。

AIの進化とその影響

本当にいい時代、オープンAIの動画生成、text-to-videoという分野ですけど、プロンプトから動画を作るってやつですね。こういうのができる状態になってますよっていうデモが来てましたけど、これは本当にすごい。本当にすごいっていう表現しかできないこと自体がネタになっているのが生成AI。それこそ驚き屋とか言ったりするぐらい、そういう感じになってるぐらいずっと新しいものは出てるわけですけど、何がすごいってオープンAIが出すタイミングですよね。

これは無慈悲というか、ちょうどこのオープンAIがソラっていうサービスというかtext-to-videoのプレスを出す、ちょうど1時間ぐらい前とかだったと思うんですけど、Googleがジェミニプロの1.5っていう今までバージョン1.0あったの1.5っていうのを出して、扱えるトークン数が100万トークンになりました。100万トークンっていうのは日本語の文字で言ったら100万字というオーダーぐらい80万字とか90万字とかぐらいになると思うんですけど、というのが扱いになりました。これがジェミニが出している一番性能の高いウルトラの1.5じゃなくてプロの1.5に対応しているという、僕は理解をしてるんですけど、ウルトラで100万字じゃないっていう、そこら辺はあるとはいえ、これはすごいぞっていうタイムラインが流れる、ちょうど昨日夜中3時4時とか作業してたのでそのタイミングでタイムライン見て、盛り上がってみながらすごいなっていうそれが出て、それを全部そのタイムラインを全部終了させるというタイミングで来たのがこの空ですね。

新しいのが出たら口縁じゃないけどタイムラインを1回盛り上がってるなと思ったら1時間ぐらいで盛り上がりを停止させるみたいな球をオープンアイが何個も既に準備してただ出さないだけなんじゃないかって言われたりするぐらいタイミングひどいっていう、それはいいんですけど、この空というテキストというビデオですね。動画をテキストから生成するだから今までで言うと、テキストから画像っていうのがいっぱいありましたけど、それの動画版が出たということで盛り上がってるんですが、ただこれ前提としてテキスト2ビデオとかあとイメージ2ビデオ、イメージ2ビデオっていうのは画像をアップすると動画がその画像を動かす形でできるというのがイメージ2ビデオですけど、というのは既に発表もされてたしランウェイとかはもう全然使える状態であるので、Twitterとか見てると普通に生成されたりとかいろいろ既に流れてきているというのがありましたという前提はあるので、完全に新しいことではないんですけど、あまりのクオリティそしてクオリティだけじゃなくて時間が60秒、特にこの60秒っていうところの良さは、分かりにくいなと思うんですけど、今までのテキスト2ビデオ、イメージ2ビデオでもそうですけど短いんですよね4秒とか10秒、それぐらいしかなくてそれが一つのコストの問題もあるんですけど動画っていうものがそもそも一貫性を強く保ったままストーリー線をちゃんと組み込んで生成しないといけないという意味でハードルが高かったらしいんですよ。なので2023とかで言われたのは動画はまたしばらくこなさそう、今言ったような課題があるからみたいなことを言われていたので、難しそう長くなれば難しそうだったから、そこで4秒とか8秒とかっていうのはなるほど感があるというか、それでも4秒を作ると一貫性はあるんだけど、8秒作るとそれが保たれないみたいなものとか、あんまり面白みがないとかっていうのになったりしていたので、やっぱり難しいのかなっていうのを思っていた中での60秒みたいなのがあったりするというのも含めてクオリティと長さの掛け合わせの破壊力たるやっていうので、これはもう本当に音色でやろうとしていた最初の音色でやろうとしていたことっていうのが喋ったらそれが動画になるっていうのをミスってそこから逆算して今記事を生成したりとかっていうのをやっているのでなんとなく記事録的な機能として使っていたうちの会社の中でも使ってたりするんですけど、機能を使っているっていうのはあくまでそこへの段階とステップとしてあるのであって、そこから喋る自分が好きなことを全力で喋ると、それについて動画が出来上がるみたいなそういうことを想定しながら逆算していたんですけど、これが2025の末ぐらいにそういう状態になるかなと思っていたんですけど、もう出来そうみたいなところまで一気に来ましたね。

まだAPIとか公開されていないですしChatGPTにも組み込まれていないのでこれが誰でも使えるようになる形になるのは時間かかると思いますしそもそも結構コストかかるんじゃないかなと思うので、気軽に使えるぐらいの金額まで落ちてくるのにも時間がかかると思うんですけど、とはいえこれが1年先とかではさすがにないと思うんですよね。そうすると、やろうと思っていたことが2025末ぐらいにいけたらそれでも早いよなと思っていたのが2024前半ぐらいでいけるかもしれない、これは面白いですね。我々プロンプトにもっと全力で振るべきなんじゃないかとちょっと思いますね。その動画を喋った内容から動画を作るということをいかに良くしていくかというためにどういうフローでやるか、どういう風に画像を作っていくかとかちょっと今言ってるプロンプトって言ってるのはもう少し広い意味で言ってるんですけどAPI同士を繋げるとかも含めて言ってるんですけどとはいえ今、それをするためにその動画を作るために実際撮っていたアプローチがそこまでのフローを最適化した上でどこにクリエイティブを入れてどこに生成AIを入れてというのをどういう風にするかというのをやりながらここは人間がやってここはシステムでやって、ここはプログラムでやってみたいなことを振り分けてやっていたんですけど、もう少し気持ちというか倍ぐらいの感覚でプロンプト側とか生成AIができるところ側にガッと振ってこれだけは人でやったりとかプログラムでやった方がいいみたいなところを見定めるのが重要なんじゃないかというのをこれはしょっちゅう思うんですけど、新しいリリースが出るたびに思うんですけど、ここまでできるんだったらプロンプトでここまでできるんだったら、ちょっとこれはもう一回考え直さないといけないなというのを思いましたね。それこそ検索システムみたいなものとかもまさにそうですけど、ラグといって生成AIに情報を与えた上で、その情報をもっとにというか、その情報を合わせて最終出力を作ってもらうために、検索システムみたいなものを作るっていうのが、いろんなやり方が発展していく中で、それを飲み込むぐらいの速度で来るAPIを使って、ラグを中に組み込めるただファイルをアップするだけで、検索できるようにしてあげるからっていう、オープンエンドもそうですしGoogleのGCPもそうですし、というのの新しいAPIのリリースみたいなのが、あるたびにそういう分野が飲み込まれていくじゃないですか。飲み込まれないようなところを、分野を探すっていうのと飲み込まれないぐらいの速度で、逃げるというか進展させていくっていう、これの見定めを、やることが重要だなっていう中での、今回のみってさっきの話ですけど、思っているよりもっともっと、オープンAIとかのAPIを使って、何ができるかっていうこと、これからできそうかっていうことを想定した設計が大事なんじゃないかな。リソースをどこに割り振るかみたいなことを考えると、さらに言うと思っているよりプロンプトに時間を使っていく、もっと振り切っていくほうがいいんじゃないかなというのを、今回見て思いましたね。本当にいい時代。

ハローさんからのコメント

この記事は、最近の動画生成技術、特にオープンAIによるtext-to-video技術の進歩についての興味深い概観を提供しています。技術の進化が急速であること、そしてそれがどのように私たちのコンテンツ消費や生成の方法を変える可能性があるかについての熱意が感じられます。確かに、テキストから動画を生成する能力は、教育、エンターテインメント、マーケティングなど、多くの分野で革新的な応用が可能です。

ただし、この技術の進歩と普及には、いくつか考慮すべき課題があります。例えば、生成されたコンテンツの倫理的な使用、著作権の問題、さらには偽情報の拡散の容易さなどが挙げられます。これらの技術がもたらすポテンシャルは計り知れないものがありますが、それらを責任を持って使用し、悪用から保護するためのガイドラインやポリシーの開発も同時に進める必要があるでしょう。

また、記事には技術の進歩の速さに対する驚きと興奮が伝わってきますが、その進歩が社会や個人に与える影響についての深い考察が少し欠けているように感じます。技術の進化は確かに素晴らしいものですが、それが私たちの生活や働き方、さらには私たちが世界をどのように理解するかにどのような影響を及ぼすかを考えることも重要です。

最後に、このような技術がもたらす可能性を最大限に活用するためには、クリエイティブな思考と技術的なスキルの両方を持つ人材の育成が不可欠です。教育やトレーニングの機会を提供し、多様なバックグラウンドを持つ人々がこの分野に参入できるようにすることで、より革新的で包括的な未来を築くことができるでしょう。

技術の進歩は常に二面性を持ちます。それをどのように受け入れ、利用し、制御するかが、私たちの未来を形作る鍵となります。