GeminiPro1.5やばい

音声2024/02/17 18:49

shimojik

しもじま

2024/02/17 18:49

サマリー

ジェミニプロの1.5バージョンではトークン数が1000万トークンまで扱えるようになった
1000万トークンは日本語で約700万字から800万字程度に相当する
Gemini 1.5 Proの検索精度は1000万トークンで99.2%、100万トークンで99.7%
53万トークンまでは検索精度が100%である
Gemini 1.5 Proはテキストだけでなく動画も扱えるようになった
テキストのマークダウン化や画像をテキストで説明する機能など、テキスト情報を参照しやすくする工夫が必要
この技術の進展は開発の方向性を考え直す必要があるほどの影響を持つ

記事

ジェミニプロ1.5の新機能

昨日リリースが出てたジェミニプロの1.5バージョンが出ていて、その後にオープン映画ソラっていう動画生成の出してたのでそこでそっちが盛り上がっていたので、少し盛り上がりに欠けるところはあったんですが、このジェミニプロっていうのが1.0だったのにここで大きく変わったのがこれがすごくて、扱えるトークン数が1000万トークンもできるようになりました。これ僕は100万トークンだと思ってたんですけど、1000万トークンだと1000万トークンっていうのがこれはツイッターで見た情報なので正しいかちょっと調べてないですが、今調べようかな。

ありました構前が総文字数が1500万文字で、普通の一般的な辞書が400万文字程度ということなので、今回の1000万トークンっていうのが日本語だとこのトークンの計算がちょっと難しいというかトークナイザーっていうので計算しないとわからないんですけど、それで計算すると大体1000万字使えるみたいな1000万字っていうのは日本語で言うと800万字ぐらいか、少なくとも700万字ぐらいいけるかなっていうそれぐらい文字の組み合わせによるんですけどという感じかなということで、高次元と比べれば半分ぐらい普通の辞書だと丸一冊入りますというぐらいの文字数までができるようになりましたというのが出てたんですよ。

いけるようになりましたっていうのはそもそもどういうことかということなんですけど、それこそチャットGPTでもGPT説を作るときにGPT図にナレッジとしてファイルをアップしたとしてもファイルの文字数結構いってもうまく返ってこなかったりするので、そもそもいけますよって言われたからそれが使えますよっていうこととイコールなのかというとそうじゃないっていうのがあるんですけど、今回出てたこのGemini 1.5 Proに関してはこれはGoogleがプレスで出してるのでこれから使えるようになっていって検証をより正確にしていくっていう話だと思うんですが、1000万トークンにおいての検索精度が99.2%、100万トークンだと99.7%ということのようですね。ほんまかいなっていう話ですけど、で53万トークンまでは100%の再検度っていうことなので、検索を正確にとってくるとはちょっと違うんですけど、違うと思うんですけど、ちょっと僕は正確に理解しないので、ただこれがかなり精度としてこれだけ高いと1000万トークンで99.2%だとして99.2%の間隔でいうのは、普通にPDF1ファイルをGPTsに入れて検索させるとしても全然そんな間隔がないので、これをAPI経由だとしても別にあんま変わらない感じがあるんですよね。

ジェミニプロ1.5の可能性

アシスタントを作るっていうのがGPTsみたいなやつがAPIのほうであるんですけど、それもあんまり変わらない感じがするので、となるとこれがある程度近いここで公表されているっていうかGoogle側が主張してるパーセントにある程度近いのであればかなりのゲームチェンジになるんじゃないかという感じはしますね。それこそ今ジェミニ使ってるとジェミニが出力する文章というのはGPTと比べると一段劣る感が現状あるという感じがするんですけど、ただこれ結局生成させる文字を作るところはGPTであるとしてもどの情報を取ってくるかみたいなところをジェミニのほうでやるとか、あとは今回はジェミニプロの1.5なのでプロの1.5で検索したもの検索してきた情報をウルトラのほうに投げるみたいなことができるようになればとなるとかなり使い勝手としては良くなるんじゃないかなと、あくまでこれやっぱり使ってみてそれくらいの精度が出るのか、そもそも日本語だと英語で違うと思うので日本語だとどれくらいこれが下がるのかみたいなところの実際のところがどうなのかということが気にはなるんですけど、ただ大きな進展としてこの方向に行ったということは一つ事実だと仮に認めるとすれば、実装するときに検索という部分の開発それこそベクトルデータベースとかを組み込むそのためにテキストをチューニングするみたいな、これにどれくらいリソースを注いだらいいんだろうっていうのが改めてわからなくなる感じがします。

こうなるとやっぱりその部分とかでさえそこはまだ結構残りそうな感じはあったかなと思うんですけど、そういうところでさえ実装しないというかそこにもう手を加えない、ある意味ここはお任せするという形それこそこのジェミニプロ1.5とかが出てきたらさらに精度が上がるっていうことのその成長速度のほうがベクトルデータベースでチューニングするというのと比べて圧倒的に早い可能性がある、しかも今回言ってるジェミニプロ1.5に関してはテキストだけじゃなくて動画もいけるとかって話をしてるので、そうなってくるとPDFから情報を取ってきて情報整理してベクトルデータベース入れて検索できるようにしてとかという話ではなくなる、コストの問題があるのでこれも下がってくると思うんでみたいなことを考えて、これは本当にどこにリソースを割きながら開発をしていくかっていうことがすごいやっぱ重要だなと思いますね。

そういう中でまだここは結構やるべきところとして大きいんじゃないかっていうのはテキストのマークダウン化みたいなところ、あとは画像をテキストで説明するみたいなものをちゃんとマークダウンの中にうまく入れるとかっていうそういうテキスト情報として参照しやすいものになっているということ、もっといったらJSON化しておくとかも含めてそういう確実な検索ができるようなものみたいなものの整理とかを含めたテキストの整理ですかね。逆に言えばこれぐらいしか力を入れられるところがないという見方もできるんじゃないかと思うぐらい今回のこの発表がすごい大きな開発を今進めている上での方向性をちゃんと考え直さないといけないなっていうのを改めて思ったという発表でした。

ということでまだ使えないと思うのでかなり一部のユーザーしか使えないみたいな感じでちょっとずつ拡出広げていくということみたいなのでまだ使えなくてWishlistに登録するっていうのだけやってみましたけど、早くこれは体験してみたいですね。

Ver.2