戻る

shimojik

しもじま

2024/02/17 18:44

サマリー

  • ジェミニ プロの1.5バージョンがリリースされ、扱えるトークン数が1000万トークンに増加した。
  • 総文字数は1500万文字で、一般的な辞書が400万文字程度であることから、1000万トークンは日本語で約700万~800万文字に相当する。
  • Gemini 1.5 Proについては、検索精度が1000万トークンで99.2%、100万トークンで99.7%と報告されている。
  • この進展により、テキストや動画の情報をより精度高く取り扱えるようになる可能性がある。
  • テキストのマークダウン化や、画像をテキストで説明するなどの整理が重要になってくる。
  • まだ一部のユーザーのみが使用可能で、広く利用できるようになるには時間がかかる見込みである。

記事

ジェミニ プロ 1.5の新機能

昨日リリースが出てたジェミニ プロの1.5バージョンが出ていて、その後にオープン映画ソラっていう動画生成の出してたのでそこでそっちが盛り上がっていたので、少し盛り上がりに欠けるところはあったんですが、このジェミニ プロっていうのが1.0だったのにここで大きく変わったのがこれがすごくて、扱えるトークン数が1000万トークンもできるようになりました。これ僕は100万トークンだと思ってたんですけど、1000万トークンだと1000万トークンっていうのがこれはツイッターで見た情報なので正しいかちょっと調べてないですが、今調べようかな。

トークン数の意味とその影響

ありました構前が総文字数が1500万文字で、普通の一般的な辞書が400万文字程度ということなので、今回の1000万トークンっていうのが日本語だとこのトークンの計算がちょっと難しいというかトークナイザーっていうので計算しないとわからないんですけど、それで計算すると大体1000万字使えるみたいな1000万字っていうのは日本語で言うと800万字ぐらいか、少なくとも700万字ぐらいいけるかなっていうそれぐらい文字の組み合わせによるんですけどという感じかなということで、高次元と比べれば半分ぐらい普通の辞書だと丸一冊入りますというぐらいの文字数までができるようになりましたというのが出てたんですよ。

検索精度とその可能性

いけるようになりましたっていうのはそもそもどういうことかということなんですけど、それこそチャットGPTでもGPT説を作るときにGPT図にナレッジとしてファイルをアップしたとしてもファイルの文字数結構いってもうまく返ってこなかったりするので、そもそもいけますよって言われたからそれが使えますよっていうこととイコールなのかというとそうじゃないっていうのがあるんですけど、今回出てたこのGemini 1.5 Proに関してはこれはGoogleがプレスで出してるのでこれから使えるようになっていって検証をより正確にしていくっていう話だと思うんですが、1000万トークンにおいての検索精度が99.2%、100万トークンだと99.7%ということのようですね。ほんまかいなっていう話ですけど、で53万トークンまでは100%の再検度っていうことなので、検索を正確にとってくるとはちょっと違うんですけど、違うと思うんですけど、ちょっと僕は正確に理解しないのでただこれがかなり精度としてこれだけ高いと1000万トークンで99.2%だとして99.2%の間隔でいうのは、普通にPDF1ファイルをGPTsに入れて検索させるとしても全然そんな間隔がないので、これをAPI経由だとしても別にあんま変わらない感じがあるんですよね。

開発の方向性とリソース配分

アシスタントを作るっていうのがGPTsみたいなやつがAPIのほうであるんですけど、それもあんまり変わらない感じがするのでとなるとこれがある程度近いここで公表されているっていうかGoogle側が主張してるパーセントにある程度近いのであればかなりのゲームチェンジになるんじゃないかという感じはしますね。それこそ今ジェミニ使ってるとジェミニが出力する文章というのはGPTと比べると一段劣る感が現状あるという感じがするんですけど、ただこれ結局生成させる文字を作るところはGPTであるとしてもどの情報を取ってくるかみたいなところをジェミニのほうでやるとか、あとは今回はジェミニプロの1.5なのでプロの1.5で検索したもの検索してきた情報をウルトラのほうに投げるみたいなことができるようになればとなるとかなり使い勝手としては良くなるんじゃないかなと、あくまでこれやっぱり使ってみてそれくらいの精度が出るのか、そもそも日本語だと英語で違うと思うので日本語だとどれくらいこれが下がるのかみたいなところの実際のところがどうなのかということが気にはなるんですけど、ただ大きな進展としてこの方向に行ったということは一つ事実だと仮に認めるとすれば、実装するときに検索という部分の開発それこそベクトルデータベースとかを組み込むそのためにテキストをチューニングするみたいな、これにどれくらいリソースを注いだらいいんだろうっていうのが改めてわからなくなる感じがします。

テキストの整理とマークダウン化

こうなるとやっぱりその部分とかでさえそこはまだ結構残りそうな感じはあったかなと思うんですけど、そういうところでさえ実装しないというかそこにもう手を加えない、ある意味ここはお任せするという形それこそこのジェミニプロ1.5とかが出てきたらさらに精度が上がるっていうことのその成長速度のほうがベクトルデータベースでチューニングするというのと比べて圧倒的に早い可能性がある、しかも今回言ってるジェミニプロ1.5に関してはテキストだけじゃなくて動画もいけるとかって話をしてるのでそうなってくるとPDFから情報を取ってきて情報整理してベクトルデータベース入れて検索できるようにしてとかという話ではなくなる、コストの問題があるのでこれも下がってくると思うんでみたいなことを考えてこれは本当にどこにリソースを割きながら開発をしていくかっていうことがすごいやっぱ重要だなと思いますね。そういう中でまだここは結構やるべきところとして大きいんじゃないかっていうのはテキストのマークダウン化みたいなところ、あとは画像をテキストで説明するみたいなものをちゃんとマークダウンの中にうまく入れるとかっていうそういうテキスト情報として参照しやすいものになっているということもっといったらJSON化しておくとかも含めてそういう確実な検索ができるようなものみたいなものの整理とかを含めたテキストの整理ですかね。逆に言えばこれぐらいしか力を入れられるところがないという見方もできるんじゃないかと思うぐらい今回のこの発表がすごい大きな開発を今進めている上での方向性をちゃんと考え直さないといけないなっていうのを改めて思ったという発表でした。

ということでまだ使えないと思うのでかなり一部のユーザーしか使えないみたいな感じでちょっとずつ拡出広げていくということみたいなのでまだ使えなくてWishlistに登録するっていうのだけやってみましたけど、早くこれは体験してみたいですね。