「生成AIはできる子。今日はちょっと調子が悪いだけ。」と思いながら過ごす毎日（Geminiすごいかもしれない）

shimojik

しもじま

2023/12/07 21:38

サマリー

Googleの生成AIモデル「Gemini」が登場（名前がかっこいい）
Geminiには小さいモデル、標準的なモデル、大きいモデルの3種類があるが、現在は中間サイズのモデルのみGoogleのBardで利用可能。
来年には最大サイズのモデルがリリースされる可能性があり、有料になると予想。
Geminiの中間モデルは、GPT-4と比較しても高い精度を持っているが、日常的なテキストのやり取りではGPT-4の方がクオリティが高いと感じられる。
画像の読み取りに関してはGeminiが高いクオリティを示す。
Geminiを使うには、Chat GPTやGPT-4のAPIと同様にプロンプトの調整が必要。
慣れてないからかBardを使う際は、普通の検索に近い単純な質問をしてしまいがちで、意識して適切に使わなければならない。
過去にBardを使って期待通りの結果が得られなかった経験から、信頼が薄れているかもしれない。
Geminiの最大モデルがリリースされると、マルチモーダルな機能が実現し、テキスト、音声、画像のやり取りが可能になりそう。
特にデモ動画の画像を含むやり取りでは、リアルさや未来感を感じさせる。
Geminiのデモ動画では、指定した毛糸で作った人形など具体的な作品を提案する機能が紹介されている。
2024年には、AIを日常生活に取り入れることがさらに進展し、AIと共に進む姿勢が求められる。
現在からAIを活用し、できないことは今日だけの一時的な問題と捉え、日々の生活に取り入れていく所存。

記事

Googleの新AIモデル「Gemini」の登場

突如として現れたGoogleの生成AIのモデル「Gemini」、とにかく名前がかっこいいっていう。なんかこの生成AI界隈って名前が、それこそ「Q*」とか、名前が本当にかっこよくていいなって感じなんですが、急に来たっていう。このGeminiのモデルは、小さいものと標準的なのとでっかいのと、みたいな感じで3段階あるみたいなんですけど、今Googleのバードで使えるのが真ん中のモデルだけ。来年、これが多分有料になるんじゃないかと思いますけど、来年の早い時期に、このでっかい方の最強のやつ来るぜ、みたいな感じになるっぽいんですが。

Geminiの性能とChat GPTとの比較

今の時点でもプロっていう真ん中のモデルですね、っていうのも結構精度高いなっていう。Chat GPTと並べて結構使ってみたんですけど、ものによるのでベース、普通に日常的に使っている僕の普通にテキストでのやり取りみたいなのでいうと、GPTのほうがクオリティ高い感じはあるんですけど、とはいえ、ものによっては、それこそ画像の読み取りとかに関しては、だいぶこのGeminiのほうがクオリティ高いように感じました。

Geminiの利用体験とBirdのインターフェース

自分で使ってて面白いなと思ったのが、日常的にChat GPTに話しかけたりとか、GPT 4のAPIに話しかけたりとか、プロンプト調整したりとか、システムの中でもプロンプトいっぱい調整しているので、なんかそういう感じで、その延長でこのGeminiっていうかBardのほうも触るかなと思ったんですけど、実際には、意識しないと、なんとなくBirdのほうは普通の検索っぽいというか、ワンラリーで終わるような質問ばっかりしてしまって、急にコミュ障発揮するみたいな感じがある感じがしましたね。なんかインターフェースもほとんどChatだから同じかなと思ったんですけど、なんか気持ちちゃんと同じだよっていう、同じ風に使わないといけないよっていうのを意識しないといけないっていうのは新鮮な。

Geminiのマルチモーダル能力と未来感

Birdを前使って、あんまり自分の思った通りの出力してくれなかったので、信頼がないとかあるかもしれないですけど、そういうのいろいろ原因は分かんないですけど、違う。だからやっぱりそういう意味では、ちょっと違うだけでも全然体験も違う感じがするっていう延長として、その出力の質の高さ低さみたいなものとかも合わせて、自分の会話の仕方というかコミュニケーションの仕方が変わるというのは新しいなっていうのを思いました。とにかく現時点でこれだけ送って、これで何でしたっけ、ウルトラでしたっけ、この一番でっかい奴が出た暁には、デモで動画出てましたが、あれすごいですよね。本当に、本当にマルチモーダル感性に見えるというか、全部こっちがテキストで言うことも音もそうですし、画像のやりとりも、画像こっちから送って出力が画像で返ってくるとか。やっぱり一番すごいなと思ったのは、毛糸、毛糸の2種類ぐらいあって、どんなのが作れますか、この毛糸を使ったら何が作れますかっていうのに対して、こんなの作れますよっていう画像を毛糸で作った自分が送った色の毛糸を使った人形のその感性を出してくれるとか、みたいなところは、本当にやっぱり画像が含まれるとよりリアル感というか未来感があるなっていうのを思ったりとかいうのがあったので。

2024年への期待とAIとの共存

あのPVっていうか動画はすごかったですね。動画自体は早回ししたりとか、カット編集したりとかはガンガンやってると思うので、あれがまた時間がかかるとなると体感違うかもしれないですけど、でももうここまで来たぞみたいな感じさせる動画だったので、2024は本当にもうこれやもう形、これからどうなるかっていうよりは完成したと自分をごまかして使いつつ、あれ調子が今日は悪いのかなみたいな性性愛の見方をするぐらい、自分がちゃんとそいつらの横に並んでる気持ちでいないと、すと気を抜くと、そいつらが先行っちゃいますから。なのであくまで自分をだましだまし、もうできるけど今日だけちょっと体調悪いみたいな感じで扱うのがいいんじゃないかなっていうのを思うので、2024、まあもう2023 12月から、もう現時点からそうですけど、もう大丈夫、大丈夫って意味わかんないですけど、もう使え、やりたいことは全部できるというそういうマインドのもとできないことがあるのは今日だけという、だましだましな日々をしばらく送っていけば、いつの間にか、こういうのは体調悪い時と一緒で、体調悪い時は気になるけど、体調悪くなくなると、あれいつの間にか筋肉痛治ってるみたいな、そういう感じになるのと同じで、だましだましやってて、いつの間にか気がつかぬうち、気づかぬうちに、もう普通になってるみたいな感じになると思うので、そういうとこを意識しながら生活していきたいなと思いましたね、っていうぐらいもう来たんだなっていう感じですね。

Ver.1

「生成AIはできる子。今日はちょっと調子が悪いだけ。」と思いながら過ごす日々（Geminiすごいかもしれない）

shimojik

しもじま

2023/12/07 22:12

サマリー

Googleの生成AIモデル「Gemini」が登場（名前がかっこいい）
Geminiには小さいモデル、標準的なモデル、大きいモデルの3種類があるが、現在は中間サイズのモデルのみGoogleのBardで利用可能。
来年には最大サイズのモデルがリリースされる可能性があり、有料になると予想。
Geminiの中間モデルは、GPT-4と比較しても高い精度を持っているが、日常的なテキストのやり取りではGPT-4の方がクオリティが高いと感じられる。
画像の読み取りに関してはGeminiが高いクオリティを示す。
Geminiを使うには、Chat GPTやGPT-4のAPIと同様にプロンプトの調整が必要。
慣れてないからかBardを使う際は、普通の検索に近い単純な質問をしてしまいがちで、意識して適切に使わなければならない。
過去にBardを使って期待通りの結果が得られなかった経験から、信頼が薄れているかもしれない。
Geminiの最大モデルがリリースされると、マルチモーダルな機能が実現し、テキスト、音声、画像のやり取りが可能になりそう。
特にデモ動画の画像を含むやり取りでは、リアルさや未来感を感じさせる。
Geminiのデモ動画では、指定した毛糸で作った人形など具体的な作品を提案する機能が紹介されている。
2024年には、AIを日常生活に取り入れることがさらに進展し、AIと共に進む姿勢が求められる。
現在からAIを活用し、できないことは今日だけの一時的な問題と捉え、日々の生活に取り入れていく所存。