ログイン新規登録

それでも私は単純な推論をやってしまう

shimojik

しもじま

2024/02/17 18:55

サマリー

人間がAIと一緒に思考することは慣れないと一筋縄ではいかない
生成AIが得意とする推論を意識しながらコーディング作業を行っている
クラスメソッドを持つクラスの開発を経験し、その後ファイル操作の類似機能を開発
ドキュメントを見ずに推測でコーディングを進め、一発で動作したことに安堵
コードの自動補完機能により、考えていたことが一瞬で実現される経験をした
人間の推論がAIの能力によって補完されるが、完全には頼り切れないと感じる
自分で手を動かすことの満足感と、AIに頼ることのバランスを考えている
日々の開発作業で、自分の思考やAIのアシストの使い方に慣れてきているものの、難易度を感じている

記事

また過ちを犯してしまうという、これはやっぱりまだまだ慣れない人間がAIと一緒に思考するっていうのは一筋縄ではいかないなと思うんですけど、今日もですね、推論っていうのは基本的に生成AIが今得意だということが一番なわけですよ。それに追従する形で他のものもどんどん起きてるみたいな。でもその中でもやっぱり推論っていうのはとにかくやらせていけばいいということは常々意識してたつもりなんですけど、今日もいっぱいやったんですが、例えばですね、コードを書いてて、あるクラスのクラスメソッド、クラスのメソッドの、そこからソートしたりとかするクラスメソッドがあって、そこにパラメーターがあるみたいな、こういう構造を持ったクラスがあったわけで、メソッドを持ったクラスがあったわけですよ。

このクラスをずっと触って開発をしてて、その全体が終わったので、これがアシスタントについての部分だったので、じゃあこれのファイル版を操作する、同じようなものを作ろうと思って。もともとの今までやってたアシスタントのことを考えつつ、ファイルでやったらこういう感じかな、でもこの時に、アシスタントとファイルとの整合性が取れてるかということは、元のクラスのドキュメントをまだ見ずにやってたので、適当にやったわけですよ。

だからドキュメント見てからもちろん書くのが一番正しいのはそうなんですけど、まあまあ同じ構造してるだろうと思って、ファイルについて同じように、同じような方向性で、こうかなこうかなみたいな名前を推測しながらやっていくと、だから本当にステップバイステップの推論なわけですよ。推論ってほどでもないですけど、ということをやって、全部書き終わってエンターってやったら、一発で通ったんですよ。あ!思った通りの挙動してよかったと思って。

だから何のこともない、ただ推測して書いただけですよそれはもちろんなんですけどそれを書いて、あ!動いたと思って動いたのをコンソールでやってたので、それを行動、実際の行動の方に反映しようと思って、書くべきところにその関数の中の今から書こうと思ったところにカーソルを合わせた瞬間、合わせた瞬間じゃない合わせて、ファイルって打った瞬間に、後ろの分全部バンって一発で保管されるっていう、この30秒何だったんだ、30秒くらいで考えたことではあるんですけど、とはいえ30秒こうで、次こうでこうかな、あ!いけた!この気持ち分かりますか、自分で考えてこうやって、こんな感じかな推測した、やっぱ同じ構造ちゃんと分かってたなと思って、ファイルって打った瞬間に、全部同じものが一瞬で出てくる、この何て言うんですか、正しくはないんですよ、何だろうな、やるところ間違ったなっていうか、力の入れ方間違ってるなみたいなところですかね。

だからこういうのこそ、出ることは分かってるわけじゃないですか、でもなんかこう、8割9割くらい出るけど1割2割くらい出ない、みたいな感覚がどっかにあって、その1割2割を自分で補うぞっていう気持ちが常にあるんですけど、その1割2割の感覚っていうのはある意味正しいと思うんですよ、なんですけどやっぱりこれ調子乗って、人間もやれるぜってことで、3割4割にこれが増えちゃうわけですね、時に。

3割4割に増えて自分が手を動かすタイミングがなんとなく増えて、そうするとやっぱり気持ちもこう、自分でやってる感が出るわけですよ。それが嬉しいかどうかっていうよりは、自分で進めてるみたいなそういう感覚が生まれるっていうか増えるっていうか、最近性性愛にやってもらってるやつを確認しながらみたいなのが増えてくると、自分でそうやってやると、自分でやってるぜっていう感じがどっか乗るんだと思うんです。

そうやって調子に乗ったところで、バンって出されて、ちょっと調子乗りましたみたいなことがありましたね。構造書いてるとだいぶその形に慣れてきてるんじゃないかって思ったりするんですけど、やっぱりこういうのを一日に何回もやると、まだまだ自分の頭でスタートを肌から考えようとしてるみたいなことがあるなと思いますね。

自分で考えるっていうことが大事とかっていうのはもちろんあるんだと思うんですけど、ただ考えなくなるっていうのがそもそも難しいと思うので、考えなくなるのかな、ただ考えなくなることは難しいんじゃないかという前提にどんどん投げつつ、投げても考えちゃうみたいなところを平行で走らせていくと、一番いい形なんじゃないかなっていうバランスを取ろうとしてるんですが、難しいですね。

Ver.3

Teamsが急に使えなくなった（使っていたプランが対応しなくなっていたが急すぎて気づかなかった）

shimojik

しもじま

2024/02/17 18:54

サマリー

約1年前からミーティングをMicrosoft Teamsに集約し始めた
以前はZoomやGoogle Meetを使用していたが、Teamsに統合することに決めた
Microsoft 365 Apps for Businessプランを契約していたため、Teamsの有料化にも問題なかった
しかし、今年の1月末から2月初旬にかけて突然Teamsが使用できなくなった
ライセンスの購入と割り当てが別になっており、調査したが原因が分からなかった
使用していたプランのTeamsの利用可能チェックが外れていたことが判明
上位プランに変更することでTeamsを再び使用できるようになったが、わずかな値上げがあった
この間、Google Meetを使用して間に合わせたが、スイッチングコストが発生した
Microsoft製品を好んで使用しているが、このような体験は良くないと感じた
Teamsを選んだ理由は、社内ミーティングを録画し、OneDriveに自動保存する機能が便利だったため
コパイロットの統合など将来への期待もあったが、今回の経験でGoogleへの移行を検討している

記事

Teamsの使用経験とその変遷

1年くらい前から、ミーティングをTeamsにまとめるっていうのをやって、Teamsでミーティングをするようにしてるんですよ。それまでZoomを使ったりとか、Google Meetとか使ったりとかしてたんですけど、そっからTeamsに統合っていうか、いろいろ使っていたのをまとめようみたいなので選んだんです。なんでTeamsにしたのかって、本題じゃないので最後にちょろっと話したいんですけど。

ちょうど使い始めたあたりのところで、無料のプランなくなりますよみたいなのがあって、コロナがこの期間で増やして、有料化するのかなみたいなのを思ったりして、「まあいいか」と思って、有料プランなんだ、じゃあ有料化しますみたいな感じで契約してたんですけど。ただ、そもそももともとPowerPointを使いたいっていうことで、PowerPointも使えるプランにしていたので、Microsoft 365 Apps for Businessっていうプランにしてたので、その中に入っていたから問題なかったんですよ。「じゃあよかったわ」と思っていたんですが。

Teamsの突然の使用停止

なぜかこの今年の1月の末ぐらいだったか2月の頭ぐらいに、急にTeams使えなくなって。「なんでだ」と思っていろいろアカウント調べに調べてみたんですが、分からないと。Microsoftの365のやつって、ライセンスの購入と割り当てが別になってるんで、ある意味柔軟でいいんですけど、ある意味分かりにくいみたいな感じになっていて、そこを調べてもちゃんとTeams関連のもの、全部チェックボックスが入ってる。Teamsって調べて何個か出てくるんですけど、全部チェックボックス入れてもそれでも入れない。「なんでだこれ」と思って。支払いも全部OKなってるしみたいな、ずっと分からなくて、ずっとって2日ぐらい分からなくて。

解決策としてのプラン変更

調べて、もしかして料金プラン変わってるのかな、みたいなのを思って。僕がもともと入っているMicrosoft 365 Apps for Businessの、使えるアプリ一覧のところ見たら、Teamsにチェックが入ってないと。「今まで使えてたのになんで急に、ここ外れたんだろう」っていうのは、これは調べてないんですけど。急にだから外れて、急にログインできなくなって。結局、これの上位プランみたいなのに変えると、Teamsが使えるプランがあったので、上位プランって違うプランなんですけど、だから古いプランがなくなったっていうことなのかな。若干値上げすることに、結局トータルデメートになるので、新しいプランに移行してほしい、ということはあるんですけど。

一時的な代替手段としてのGoogle Meet

上手く情報が降りてこないまま、急に使えなくなって。その間Google Meetを使って、間しのぎつつもう一回復活させて、今Teams使えるようになった、みたいなことがあってですね。こういう体験はやっぱり、よくないなって思いましたね。

経験からの反省と考察

結論はそれだけなんですけど、この時間は何だったんだみたいな思いますよね。その間Google Meetを使うって言っても、日頃使ってないわけですから、そこからスイッチングコスト、かかるわけじゃないですか。なんか気持ち的にマイクロソフト、もっと使いたいっていうのが、すごくベースとしてあるんですけど、それをコパイロットとかも、ガンガン使っていきたいという、気持ちがある一方で、こういう体験が何だか分かんないですけど、ちょろちょろある。これはマイクロソフトをそういうふうに、見ようとしてる可能性もあるなって、いつも思うのは、マイクロソフトが好きな人からは、そういう経験があんまないとか、あとは逆にそれを、Apple製品に関して起こることがある、みたいなのがあったりするんで、見方もあるんだろうなと思うんですけど。でもこういう経験をすると、コパイロットもなんかあるかなって、やっぱりどっかに、結局使うと思うんですけど、どっかに発生するなみたいなのは、思ったという。

Teams選択の理由と今後の検討

そういうただの愚痴なんですけど、最初に言ってた、何でTeamsにしたかは、これシンプルに、基本的に社内のミーティングを、全部録画するっていう形にしたので、その録画したのをすぐに、全部ダウンロードして、文字起こししたりとかするっていう、フローとして。Teamsの場合だと、ミーティングがあると、全部共有のOneDriveの中に、保存されるみたいな。これもしかしたらGoogleのほうも、法人契約みたいなプランがあると思うんで、僕はそれ知らないんですけど、それを使うと、知らないというか、メールは使ってるのか、それの何かプランを使うと、同じ感じでできるかもしれないんですけど。Google Meetは録画した人のフォルダに、入ってしまうというのが、デフォルトだったのをチラッと見て、一回Teamsで見たら、感じで決めたっていう、それだけですね。

なので同じようなことは、ZoomもTeamsも、それからGoogle Meetも、全部できるっていうのは、さすがにできると思うんですけど、それだけの経緯、そういう経緯だったから。ちょっとだけ、ちょうどTeamsを使うか、どれを使うかって考えてる時に、コパイロットっていうのが出てきて、そうするとパートとかと統合されるのであれば、一番ここは良さそうだなみたいな、それもちょっとあったんですよ。未来への期待みたいなのもあったんですけど、今回こういうのがあって、同じことできるだろうし、Googleかな。Zoomに関しては、それだけのために、Zoomを使うみたいな感じが、若干ハードルが製品ラインナップ的にあるみたいな感じに、最近なってきている気がするんですけど、それを僕も感じているので、Zoomはあんまかなと思ってるんですけど、選択しないかなと思ってるんですけど。サービスとしてはすごくいいんです、なんですけど、Googleのほうにするかなっていうのを、ちょっと今検討してますね。

Ver.3

GeminiPro1.5が1000万トークンで99%以上の精度が出せる中でRAGにどれぐらい力を入れるのかの塩梅が難しい

shimojik

しもじま

2024/02/17 18:54

サマリー

ジェミニープロのバージョン1.5がリリースされ、トークン数が1000万トークンまで扱えるようになった。
1000万トークンは約700万字から800万字程度の日本語文字数に相当し、一般的な辞書一冊分の文字数に匹敵する。
トークン数の増加により、検索精度が1000万トークンで99.2%、100万トークンで99.7%となり、53万トークンまでは100%の再現度がある。
Gemini Pro 1.5はテキストだけでなく動画の扱いも可能で、検索や情報整理の精度が向上している。
この技術の進歩は開発方向性を再考させるほどの影響があり、テキストのマークダウン化やJSON化など、より効率的な検索が可能なテキスト整理が重要になる。
現時点では一部のユーザーのみが体験できる状態であり、広く利用可能になることが期待されている。

記事

ジェミニープロのアップデートとその影響

昨日リリースが出てたジェミニープロの1.5、バージョン1.5が出ていて、その後にオープン映画ソラっていう動画生成のを出してたので、そこでそっちが盛り上がっていたので、少し盛り上がりにかけるところはあったんですが、このジェミニープロっていうのが1.0だったのに1.5になりましたと。ここで大きく変わったのが、これがすごくて扱えるトークン数が1000万トークンもできるようになりましたと。これ僕100万トークンだと思ってたんですけど、1000万トークンだと。1000万トークンっていうのが、これはツイッターで見た情報なので正しいか調べてないんですが、今調べようかな。公示円が総文字数が1500万文字で、普通の一般的な辞書が400万文字程度ということなので、今回の1000万トークンっていうのが、日本語だとこのトークンの計算がちょっと難しいというか、トークナイザーっていうので計算しないとわからないんですけど、それで計算するとだいたい1000万字使えるみたいな、1000万字っていうのは日本語で言うと800万字ぐらいか、少なくとも700万字ぐらいいけるかなっていう、文字の組み合わせによるんですけど、という感じかなということで、公示円と比べれば半分ぐらい、普通の辞書だと丸一冊入りますというぐらいの文字数までが生きるようになりましたというのがデジタンですよ。

Gemini Pro 1.5の潜在的な影響

生きるようになりましたっていうのは、そもそもどういうことかということなんですけど、それこそチャットGPTでもGPT説を作るときに、そのGPTsにナレッジとしてファイルをアップしたとしても、ファイルの文字数結構いってもうまく返ってこなかったりするので、そもそもその、いけますよって言われたから、それが使えますよっていうこととイコールなのかっていうと、そうじゃないっていうのがあるんですけど、今回出てたこのGemini 1.5 Proに関しては、これはGoogleがプレスで出してるので、これから使えるようになっていって検証をより正確にしていくっていう話だと思うんですが、1000万トークンにおいての検索精度が99.2%、100万トークンだと99.7%ということのようですね。細かいなって話ですけど、53万トークンまでは100%の再現度っていうことなので、検索を正確にとってくるとはちょっと違うんですけど、違うんですけど、違うと思うんですけど、ちょっと僕は正確に理解しないので。ただ、これがかなり精度としてこれだけ高いと。1000万トークンで99.2%だとして、99.2%の感覚でいうのは、普通にPDF1ファイルをGPT図に入れて検索させるとしても全然そんな感覚がないので、これをAPI経由だとしても別にあんまり変わらない感じがあるんですよね。

開発の新たな方向性

アシスタントを作るっていうのがGPT図みたいなやつがAPIのほうであるんですけど、それもあんまり変わらない感じがするので、となるとこれがある程度近い、ここで公表されているっていうか、Google側が主張しているパーセントにある程度近いのであれば、かなりのゲームチェンジになるんじゃないかという感じはしますね。今、ジェミニ使っているとジェミニが出力する文章というのはGPTと比べると一段劣る感が現状あるという感じがするんですけど、ただこれ、結局その生成させる文字を作るところはGPTでやるとしても、どの情報を取ってくるかみたいなところをジェミニのほうでやるとか、また今回はプロの1.5なので、プロの1.5で検索してきた情報をウルトラのほうに投げるみたいなことができるようになれば、となるとかなり使い勝手としては良くなるんじゃないかなと。あくまでこれ使ってみてそれくらいの精度が出るのか。そもそも日本語だと英語で違うと思うので、日本語だとどれくらいこれが下がるのかみたいなところの実際のところがどうなのかということが気にはなるんですけど、ただ大きな進展としてこの方向に行ったということは一つ事実だと仮に認めるとすれば、我々は実装するときに検索という部分の開発、それこそベクトルデータベースとかを組み込む、そのためにテキストをチューニングするみたいな、これにどれくらいリソースを注いだらいいんだろうというのが改めてわからなくなる感じがします。こうなるとやっぱりその部分とかでさえ、そこはまだ結構残りそうな感じはあったかなと思うんですけど、そういうところでさえ実装しないというか、そこに手を加えない。ある意味ちょっとここはお任せするという形、それこそこのGemini Pro 1.5とかが出てきたらさらに精度が上がるということのその成長速度の方がベクトルデータベースでチューニングするというのと比べて圧倒的に早い、いい可能性がある。しかもこの今回言っているGemini Pro 1.5に関してはテキストだけじゃなくて動画もいけるとかって話をしているので、そうなってくるとPDFから情報を取ってきて、情報整理してベクトルデータベースを入れて検索できるようにしてとか、という話ではなくなる。コストの問題があるので、これも下がってくると思うんで、みたいなことを考えて、これは本当にどこにリソースを割きながら開発をしていくかということが重要だなと思いますね。

テキスト情報の整理と将来の展望

そういう中で、まだここは結構やるべきところとして大きいんじゃないかっていうのは、テキストのマークダウン化みたいなところ、あとは画像をテキストで説明するみたいなものをちゃんとマークダウンの中にうまく入れるとかっていう、そういうテキスト情報として参照しやすいものになっているということ。もっと言ったら、JSON化しておくとかも含めて、そういう確実な検索ができるようなものみたいなものの整理とかを含めたテキストの整理ですかね。逆に言えば、これぐらいしか力を入れられるところがないという見方もできるんじゃないかと思うぐらい、今回のこの発表がすごい大きな開発を今進めている上での方向性をちゃんと考え直さないといけないなっていうのを改めて思ったという発表でした。ということで、まだ使えないと思うので、かなり一部のユーザーしか使えないみたいな感じで、ちょっとずつ拡出、広げていくということみたいなので、まだ使えなくて、Wishlistに登録するっていうのだけやってみましたけど、早くこれは体験してみたいですね。

Ver.3

「チャット」という名称の呪縛から抜けられれば、生成AIは飛躍的に使いやすくなるのではないか

shimojik

しもじま

2024/02/16 20:18

サマリー

チャットのアクセシビリティは良いが、その印象に引っ張られすぎると進みにくさを感じることがある
企業専用のクローズなチャットGPTを開発している会社が多いが、その発想が正しいかは疑問
チャットとプログラミングは根本的に似ており、プロンプトエンジニアリングはその延長線上にある
チャットインターフェースはプログラミングと同じレイヤーにあると見ることができる
チャットで何かをすることのハードルは高く、専門家以外には使いにくい可能性がある
チャットではなく、生成AIを前提にした新しいインターフェースや体験の開発が重要
企業専用のチャットGPTの開発は良いスタートだが、それだけではなくさらなるイノベーションが求められる

記事

チャットGPTとプログラミングの関係性

このチャットっていうフレーズがあらゆる現況というか、やっぱり触れやすいということはすごくいいことだと思うんですけど、そこの印象にあまりに引っ張られてしまっているという現状が、いろんな、なんですかね、良くないとは言わないんですけど、進みの難しさみたいなものを加速させてるなっていう感じがすごい感じるんですけど、そこを最後に話そうと思ってるんですけど。それぞれの企業の中だけで使えるクローズなチャットGPT、その会社ごとのチャットGPTみたいなものを作っている会社がいっぱい、これまでももうすでにリリースして使っているところとか、役所とかでもいろいろ出てましたけど、プレスとか出てますけど、ソインとか今まさに作っているところがたくさんあると思うんですよ。やっぱりそのチャットGPT使えないから会社の中だけ土地で使うぞみたいな、そこもそもそもチャットGPT使えないから企業の中だけ使えるものを作るぞ、みたいな発想というか、考え方がそもそも正しいのかっていうところもちょっと疑問なんです。そこら辺ちょっと最後に話したいんですけど。

というのとかにもつながっているこのチャットっていう、やっぱチャットGPTっていうのが先頭というか前面に出てますから、そこが一つの現況だなと思うんですよね。ただこのチャットっていうこの言葉っていうのは、素朴なというか原理的な、今アプリでいうところのプログラミングみたいなものが、チャットとここ並ぶんじゃないかなっていうのが最近考えていることで、ここを今日は話しながら整理していきたいんですけど。結論としてはチャットというのは触れやすいというところを覗いて考えるとそれこそプロンプトエンジニアリングみたいなもの、マックス単位そうなんですけど、プロンプトエンジニアリングってなんかこう、チャットという言葉の延長にあるんで、触れやすいもののなんかちょっとした工夫テクニックみたいな、位置づけに今なっている気がするんですけど、これだけプロンプトに関する論文がまだ出る、まだ性能上がるんだみたいなのがいっぱい出てきている、ということを考えても、その印象とのギャップは結構あるんじゃないかなと思うんですね。

そう考えたときにチャットという言葉を、今でいうプログラミングと並べた場合、そうするとプロンプトエンジニアリングっていうのは、まさにそのプログラミングにおけるエンジニアリングにおける、チューニングにあってそれこそベータベースとかを使う、チューニングするとかあとはパフォーマンスをチューニングするとかっていう、もう一段そのレイヤーとしては具体のところにあるわけですね。というチャットはプログラミングに対応して、プロンプトエンジニアリングがパフォーマンスチューニングとか、データベースとかのそのレイヤーみたいな、そういう見方を仮にするとすれば、今の状況ってすごいすっきり整理できるんじゃないかなっていうのを最近考えててびっくりしたというか、思うんですよね。

これもちょっと後で話したいんですけど、ずっとこのチャットGPTへの入りにくさをどうやって表現したらいいか、これ入りにくさっていうのはそこで障壁を作って入ってくるなっていう意味ではもちろんなくて、入ってきやすいように見えるのに入りにくいギャップがあるから、なかなかいろんなものごとが前に進まないみたいなことがあると思っていて、そこのものごとを前に進めるためにはその難しさを正確に把握して、なぜ進みにくいのかっていうことを理解した上で進めるのがいいと思うんですよ。そのためにどうやったら正確な理解みたいなことができるのかなっていうのを考えていて、今さっき言ったようにその回想で考える、つまりチャットというのは素朴なものである、素朴っていうのはプログラムも素朴ですよねっていうのは、これはプログラムちょっと勉強し始めると、なんだそれだけのことかみたいな、もちろんそれを組み合わせるから複雑になるんですよ。ここら辺もだからほんと同じ匂いがするというか、プログラミング自体もテキストを表示する、変数に何かを入れる、ここら辺は理解最初しにくいこともあるかもしれないんですけど、慣れてしまえば代入するとか関数を作るとかクラスを作るとかっていう、基本的なところはそんなに難しいところはないはずというかないと思うんですね。その基本的にはシンプルであるものを組み合わせるものが、指数関数的にいろんなものが出てくるからそこが非常にややこしくなるだけであって、チャットというのとプログラミングというのは今言ったような、基本クラスを作るぐらいに対応するとすれば、ここの部分は少しだけ心理的なハードルが違うだけで、レイヤーとして同じと見れるんじゃないかと。

さらにさっき言ったクラスとかを作るっていうところから、実際にプログラムしていく何かシステムを作っていくみたいになると、ものすごく設計が急に複雑になっていく、やっぱり実運用になると複雑になるみたいな、この複雑性に対応するのが、プロンプトエンジニアリングと現状を呼ばれているような、プロンプトを組み合わせる、プロンプトを組み合わせるだけだと、今さっき言うクラス、メソッドを組み合わせるぐらいの、関数を組み合わせるぐらいの感じに対応すると思うんで、もうちょっと言うとラグとかの改善をどうするかみたいなので、今ラングチェーンとかで組み合わせてみたいな、そんな組み合わせる必要あるみたいな感じに、心理的になるのがまさに今で言うか、プログラミングで言うところのそういう設計に、ちょうど対応してるっていう。

こうやって並べてみるとすごいスッキリするんですよね。そうやって整理した上での、チャットという位置づけが、プログラミングに対応するわけじゃないですか。プロンプトエンジニアリングなんかは、さらにそこから実際の、プロンプトエンジニアリングにあたる、いい言葉があればいいんですけど、あえてハードル上げる感じで言うと、ラングチェーンみたいなものを考えること、ということですね。というこのラングチェーンに向き合うみたいな、ものの合わせでちょっと今、仮にプロンプトエンジニアリングと呼ぶとすれば、間違う、まあそうか、でもここが良くないのかな、まあでもちょっと今回それはテーマじゃないんで、そのプロンプトの組み合わせみたいなものとか、設計まで入ってくると、それはプロンプト自体の、エンジニアリングじゃないよねっていうのを、思ったんですけど、ちょっとそこは今回テーマじゃないんで、意図は伝わると思うんで、そういうふうに呼ぶとしますと。

した場合に、チャットで何かをしてもらうということは、うーん、Macを買えば、基本的にはRubyが、もともと昔から入っていて、最近は入ってないのか、ちょっとすり入れてないのか、その状態で最近触ってないのか、なんかなくなったはずなんですけど、入ってるとしても、普通にその、簡単な可能性を呼び出せるような状態を、すでにMacを買った状態になっていて、その状態で、こんな計算をするんだったら、プログラム走らせていいですよって、言われたとしても、やらないじゃないですか。うーん、なんか関数組めば、こういうことできますよって言われても、そういうアプリを探した方がいいんじゃないの、みたいな感じになるじゃないですか。入ってるとしても、普通にその、簡単な可能性を呼び出せるような状態を、すでにMacを買った状態になっていて、その状態で、こんな計算をするんだったら、プログラム走らせていいですよって、言われたとしても、やらないじゃないですか。うーん、なんか関数組めば、こういうことできますよって言われても、そういうアプリを探した方がいいんじゃないの、みたいな感じになるじゃないですか。それはなんかある意味、当たり前だと思うんですよ。というこの距離感と、チャットに、自分が考えているものを実現するために、言語を使って表現して、しかも、犬の絵を描いてとか、これって何?って調べるみたいなものだったら、まだいいんですけど、本格的にやっぱり、それじゃあ、仕事であんまり使えないから、使えないっていう結論に、今言ってるのが現在だと思うので、やっぱりそういう意味では、プログラミングもそうで、足し算みたいなものを、プログラムするのは簡単だけど、もう一歩先の、それはやらないよみたいな、そういう距離感と、対応している、とした時に、ちょっと結論まで長くする、結論を言うと、とした時に、プログラミングというものは、あくまでアプリケーションを、作るための手段、という位置づけであるのに対して、プログラミングをすること自体で、何かをするっていうのは、かなりニッチなわけですよ。データ分析をするために、プログラミングをするみたいな、直接触るみたいな、ものと同じように、チャットというインターフェースを、使って自らの手で何かをするというのは、プログラミングぐらい、距離がある状態、になるんじゃないかなと。つまり、チャットというものは、専門家以外が使う、専門家っていうと、壁が壁っていうか、そこで入れないようにしている、感じがあるんで、そういう意味ではなくて、誰しもが使うインターフェース、ではない、ということですね。なんじゃないかと、いうのが、すごく、しっくりくるな、と思うんですけど、しっくりどうですかね。こうやって、考えると、確かにそれこそ、ホームページを作るみたいなのも、ホームページなんかプログラミングを、するというのと違って、入りやすいっていうかサーバーの設定して、ホームページHTMLとCSSで書いてみたいなことを、すれば一応、ミニマムなサイトは作れますけど、HTML書きますかというと書かない、わけですよね。別に書かないことは悪いんじゃなくて、僕もHTMLそのものを、書きたいと思わないですし書かないですから、というものが基本です。さらにそこからサーバー、ちゃんとデータベースと、やり取りするようなシステムを組んでってなると、もう、それはそれをする人たちがやるし、自分でやるなら、そこに本腰入れてやるしみたいな、この距離感と、チャットというものが、同じ、なんじゃないかということですね。で、そう考えたときの、最初の話に戻るんですけど、なのにチャットという言葉が、入りやすく、しすぎていて、チャットでしょだからできるはずなんだけど、なんかできない感じがあって、いやでもできるはずだから、うーん、なんかがおかしいんだろうなんかってなんだろう、ちょっと一旦保留みたいな、なんとなくそういう状況が、続いているんじゃないかなっていうのが、この2020 3ヘテの、2024入る前後、っていうかなんじゃないかと。逆にでもそうやって、整理すると、やるべきなのは、チャットではない、というのがこれが明確な、答えなんじゃないか明確な答えというか、チャットではないということを、今の話に基づけば、僕はこの整理を、しっくりしているのでこれを前提に、最近いろいろ考えているんですけど、仮にですよ、これを前提とすれば、チャットで何かを、しようという発想は、あまりシステムを作る上で、いいんじゃないかと。それこそチャットGPTが出た時に、いやチャットなんていうのは人間にとって、いいインターフェースじゃないんだから、もっといいインターフェースを考えないとみたいなことは、もうすでに、一昨年の11月12月の段階で、シェラホのいろいろ言っている人はいたわけ、ですけど、それは確かにそうだな、だからシステム作らないといけないなみたいなことは、僕も、なんとなく大きなイメージとしては、あったんですけどとはいえ、もうちょっとできると思ってたんですよ。でも、ずっと言ってますが、2023年1年間かけて、人間がチャットと向き合えば、もう能力を何倍にも、できるみたいな状況と向き合って、いた、1年間を通じて、人間の力ってそんなに、拡大できないぞなんでだろう、みたいなことをやったわけじゃないですか。そこに、対する答えが、チャットじゃねえ、努力というか、経済的な、引力というか、売上げ上げられるぜって引力があっても、そんなに、使えないっていうぐらい、ハードルが高いものである、ぐらいに、そこまでではないかもしれないけど、それぐらいに一回整理したほうが、いいとすれば、チャットで何かをするというのが、そもそも間違っているという前提に、立つわけですよ。そうするとチャットじゃないなら、どうすればいいのか、これを活用するという前提に立つということは、大前提として重要だと思うので、活用はするでもチャットじゃないぞ、じゃあどうしたらいいんだ、こっからがスタートするんじゃないか、みたいなのを、結論として、これが一番分かりやすいスタートライン、なんじゃないかなっていうのを、思うんですね。チャット全般がダメっていうわけではなくて、使うのが適した職業とか、分野とか、そういうインターフェースのほうが、いいことっていうのもあると思う。それこそお問い合わせ窓口みたいなとか、は、電話の延長で、チャットでやりとりする、みたいなものが、今すでに習慣としてある程度、生まれつつあるみたいなとか、そういう分野つまりあっち側にもともと、人間がいたときに成立しているような、インターフェースは変わらないけど、裏側の部分が変わる、みたいなものは、チャットっていうものが適しているとか、あると思うんですよ。あとは検索みたいなものを、少し性能を上げるために、チャットっぽく対応する、これもチャットより検索がいいと思うんですけど、あとは、これに対する答えが欲しい、というのは猛烈にモチベーションとしてあって、例えば何かを勉強しているときに、それに対する解説が欲しい、みたいなものは、探すようなエネルギーがある状態においては、チャットで聞く方がいいとか、すごいニッチですよね。ニッチですもん。ニッチっていうのはまたあれなんですけど、ただ、今やろうとしている、チャットですべてができるようになるという、ようなすべてができる、あらゆるもののインターフェースが、チャットであるというのとは乖離しているというのが、ユースケースが限られるということから、イメージできると思うんですよね。なのでそこを、スタートラインに立って、本当にチャットでいいのか、とかいうと、またそのチャットの検討みたいなことをするので、一旦チャットは、違うっていうスタートラインで、だとしたらこれを活用するには、どうしたらいいかということを、考えていく、というのがいいよなと思う中での、冒頭に言ってたんですけど、なんか、企業専用、専用チャットGPT、みたいなものが、今どんどん作られる中で、それを企業として経由させてさらに、そこから強化していくという、そういう意味ではいいと思うんですけど、そこの、それにもう一段、何か、手を加えることで、爆発するみたいな、ものがある、ところに、何か、関わったりとか、僕自身が直接関わらなくてもいいんですけど、というのをすごく思う、取っ掛かりとしてそこをスタートして、やるっていう。取っ掛かりとしてそこをスタートして、やるっていうところになったら、その時点でもう準備がかなり進んでる、他の企業とかと比べても、かなり進める状態までいってるんですけど、そこをゴールにするんじゃなくて、そこにもう一段先の、チャットじゃねーぞっていうのは分かるんだけど、まずチャットから作ってシステム構成できて、ここできたらそのもう一歩、もう半歩先にすごい飛躍があるんじゃないか、みたいな設計ができてると、すごく、差別化できる、ような気がする。そこが一番面白いと思うので、生成AIを前提とした、インターフェース作りとか、体験作りみたいなものに、今フォーカスしてやってる、っていうのもあるんですけどね。それはいいんですけど、というので、チャットを前提としない、あとはもしチャットを前提として、一旦社内で作りたいとか、だとしたらそれこそGCPとか、で結構簡単に、作れる、クローズな環境で作れるみたいなのも、あるのでそっちを使えば、いいんじゃないかっていうのとそもそも、Azureの、上に作るのと、オープンAIのチームプランが、新しく出ましたから新しくってもう1ヶ月、以上前に出ましたから、チームプランでもうその中で、使えますよっていうのとの、比較をした時に、それでも作った方がいいのかっていうのも、あるので本当に、チャットでまず試したいというのであれば、そっちのほうがいい選択なんじゃないか、とか思ったりもしますが、ただトータルとして、自社向けのやつ自社内で、閉じたものを1回作るっていうことを、してるっていうのはインターフェースの部分を、もう1段考えれば爆発する、みたいなその状態まで来てるという意味で、僕はプラスだと思ってるんですけど、ただゴール自体がチャットですって、閉じるんだったらあくまでそういう話なんですけど、という、ことを、うーん、最近思って、これを前提とした時に、とにかく世の中の、あらゆるものが、2つですねチャットを前提として、解決しようとしているもの、と、生成AIを前提とせずに解決しようとしていたもの、この2つは、その先に、やり遂げたい、ゴールみたいなもの、解決したい課題があって、その解決したい課題のために、その手前があるわけですけど、これを生成AIネイティブに、する、ということがすごくこれから重要で、その重要であるという、大前提には、チャットというのは、あくまでプログラミングの位置付けに、あたりさらにプロンプトエンジニアリング、さらにその奥の、話である、ということをユーザーに、いかにさせないか、という、すごくざっくり言えば、テキストを、テキストによって、ユーザーの、達成したいことを、表現してもらうみたいなことを、前提としないということですね、ということができるかみたいな、作業なんじゃないかな、ということで、それを前提にしたときの体験作り、考えるの今めちゃくちゃ、面白いですね、あらゆるサービスが、もうアプリ全部並べて、これがどうあったら、もっといい体験になるかみたいなこと、考えられるわけじゃないですか今って、多分これが数年経ったら、全部そういう風になって、その各サービスがブラッシュアップして、レベルアップして、改善してそういうフェーズに入る、そういう状態になるか、もしくはそれぞれに対応する、新しいサービスが出るか、みたいなことにはなると思うんですけど、それを今、一個一個どんな体験だったらいいかな、みたいなことを考えて、それを、改善したり作っていったりできるみたいな、意味で、めちゃくちゃ面白いですよね、なので、今日の話としては、チャットインターフェースが、どのレイヤーにあるかっていう、整理が本題だったんですけど、そこを踏まえて、インターフェース作りみたいなことを、いろいろ、僕も関わっていきたいなと思って、実際いろいろ、関わってもらったりとか作ったり、しているんですけど、そういうのをいろいろ、交流もそうですし、サービス開発とか、いろんなところでできたらいいなと、最近思ったりしていますこのチャットっていうフレーズがあらゆる現況というか、やっぱり触れやすいということはすごくいいことだと思うんですけど、そこの印象にあまりに引っ張られてしまっているという現状が、いろんな、なんですかね、良くないとは言わないんですけど、進みの難しさみたいなものを加速させてるなっていう感じがすごい感じるんですけど、そこを最後に話そうと思ってるんですけど、それぞれの企業の中だけで使えるクローズなチャットGPT、その会社ごとのチャットGPTみたいなものを作っている会社がいっぱい、これまでももうすでにリリースして使っているところとか、役所とかでもいろいろ出てましたけど、プレスとか出てますけど、ソインとか今まさに作っているところがたくさんあると思うんですよ、やっぱりそのチャットGPT使えないから会社の中だけ土地で使うぞみたいな、そこもそもそもチャットGPT使えないから企業の中だけ使えるものを作るぞ、みたいな発想というか、考え方がそもそも正しいのかっていうところもちょっと疑問なんです、そこら辺ちょっと最後に話したいんですけど、というのとかにもつながっているこのチャットっていう、やっぱチャットGPTっていうのが先頭というか前面に出てますから、そこが一つの現況だなと思うんですよね、ただこのチャットっていうこの言葉っていうのは、素朴なというか原理的な、今アプリでいうところのプログラミングみたいなものが、チャットとここ並ぶんじゃないかなっていうのが最近考えていることで、ここを今日は話しながら整理していきたいんですけど、結論としてはチャットというのは触れやすいというところを、覗いて考えるとそれこそプロンプトエンジニアリングみたいなもの、マックス単位そうなんですけど、プロンプトエンジニアリングってなんかこう、チャットという言葉の延長にあるんで、触れやすいもののなんかちょっとした工夫テクニックみたいな、位置づけに今なっている気がするんですけど、これだけプロンプトに関する論文がまだ出る、まだ性能上がるんだみたいなのがいっぱい出てきている、ということを考えても、その印象とのギャップは結構あるんじゃないかなと思うんですね、そう考えたときにチャットという言葉を、今でいうプログラミングと並べた場合、そうするとプロンプトエンジニアリングっていうのは、まさにそのプログラミングにおけるエンジニアリングにおける、チューニングにあってそれこそベータベースとかを使う、チューニングするとかあとはパフォーマンスをチューニングするとかっていう、もう一段そのレイヤーとしては具体のところにあるわけですね、というチャットはプログラミングに対応して、プロンプトエンジニアリングがパフォーマンスチューニングとか、データベースとかのそのレイヤーみたいな、そういう見方を仮にするとすれば、今の状況ってすごいすっきり整理できるんじゃないかなっていうのを、最近考えててびっくりしたというか、思うんですよね、これもちょっと後で話したいんですけど、ずっとこのチャットGPTへの入りにくさをどうやって表現したらいいか、これ入りにくさっていうのはそこで障壁を作って入ってくるなっていう意味ではもちろんなくて、入ってきやすいように見えるのに入りにくいギャップがあるから、なかなかいろんなものごとが前に進まないみたいなことがあると思っていて、そこのものごとを前に進めるためにはその難しさを正確に把握して、なぜ進みにくいのかっていうことを理解した上で進めるのがいいと思うんですよ。そのためにどうやったら正確な理解みたいなことができるのかなっていうのを考えていて、今さっき言ったようにその回想で考える、つまりチャットというのは素朴なものである。素朴っていうのはプログラムも素朴ですよねっていうのは、これはプログラムちょっと勉強し始めると、なんだそれだけのことかみたいな。もちろんそれを組み合わせるから複雑になるんですよ。ここら辺もだからほんと同じ匂いがするというか、プログラミング自体もテキストを表示する、変数に何かを入れる、ここら辺は理解最初しにくいこともあるかもしれないんですけど、慣れてしまえば代入するとか関数を作るとかクラスを作るとかっていう基本的なところはそんなに難しいところはないはずというかないと思うんですね。その基本的にはシンプルであるものを組み合わせるものが指数関数的にいろんなものが出てくるからそこが非常にややこしくなるだけであって、チャットというのとプログラミングというのは今言ったような基本クラスを作るぐらいに対応するとすれば、ここの部分は少しだけ心理的なハードルが違うだけで、レイヤーとして同じと見れるんじゃないかと。さらにさっき言ったクラスとかを作るっていうところから、実際にプログラムしていく何かシステムを作っていくみたいになると、ものすごく設計が急に複雑になっていく、やっぱり実運用になると複雑になるみたいな。この複雑性に対応するのが、プロンプトエンジニアリングと現状を呼ばれているような、プロンプトを組み合わせる、プロンプトを組み合わせるだけだと、今さっき言うクラス、メソッドを組み合わせるぐらいの、関数を組み合わせるぐらいの感じに対応すると思うんで、もうちょっと言うとラグとかの改善をどうするかみたいなので、今ラングチェーンとかで組み合わせてみたいな、そんな組み合わせる必要あるみたいな感じに、心理的になるのがまさに今で言うか、プログラミングで言うところのそういう設計に、ちょうど対応してるっていう。こうやって並べてみるとすごいスッキリするんですよね。そうやって整理した上での、チャットという位置づけが、プログラミングに対応するわけじゃないですか。プロンプトエンジニアリングなんかは、さらにそこから実際の、プロンプトエンジニアリングにあたる、いい言葉があればいいんですけど、あえてハードル上げる感じで言うと、ラングチェーンみたいなものを考えること、ということですね。というこのラングチェーンに向き合うみたいな、ものの合わせでちょっと今、仮にプロンプトエンジニアリングと呼ぶとすれば、間違う、まあそうか、でもここが良くないのかな、まあでもちょっと今回それはテーマじゃないんで、そのプロンプトの組み合わせみたいなものとか、設計まで入ってくると、それはプロンプト自体の、エンジニアリングじゃないよねっていうのを、思ったんですけど、ちょっとそこは今回テーマじゃないんで、意図は伝わると思うんで、そういうふうに呼ぶとしますと、した場合に、チャットで何かをしてもらうということは、うーん、Macを買えば、基本的にはRubyが、もともと昔から入っていて、最近は入ってないのか、ちょっとすり入れてないのか、その状態で最近触ってないのか、なんかなくなったはずなんですけど、入ってるとしても、普通にその、簡単な可能性を呼び出せるような状態を、すでにMacを買った状態になっていて、その状態で、こんな計算をするんだったら、プログラム走らせていいですよって、言われたとしても、やらないじゃないですか。うーん、なんか関数組めば、こういうことできますよって言われても、そういうアプリを探した方がいいんじゃないの、みたいな感じになるじゃないですか。それはなんかある意味、当たり前だと思うんですよ。というこの距離感と、チャットに、自分が考えているものを実現するために、言語を使って表現して、しかも、犬の絵を描いてとか、これって何?って調べるみたいなものだったら、まだいいんですけど、本格的にやっぱり、それじゃあ、仕事であんまり使えないから、使えないっていう結論に、今言ってるのが現在だと思うので、やっぱりそういう意味では、プログラミングもそうで、足し算みたいなものを、プログラムするのは簡単だけど、もう一歩先の、それはやらないよみたいな、そういう距離感と、対応している、とした時に、ちょっと結論まで長くする、結論を言うと、とした時に、プログラミングというものは、あくまでアプリケーションを、作るための手段、という位置づけであるのに対して、プログラミングをすること自体で、何かをするっていうのは、かなりニッチなわけですよ。データ分析をするために、プログラミングをするみたいな、直接触るみたいな、ものと同じように、チャットというインターフェースを、使って、自らの手で何かをするというのは、プログラミングぐらい、距離がある状態、になるんじゃないかなと。つまり、チャットというものは、専門家以外が使う、専門家っていうと、壁が壁っていうか、そこで入れないようにしている、感じがあるんで、そういう意味ではなくて、誰しもが使うインターフェース、ではない、ということですね。なんじゃないかと、いうのが、すごく、しっくりくるな、と思うんですけど、しっくりどうですかね。こうやって、考えると、確かにそれこそ、ホームページを作るみたいなのも、ホームページなんかプログラミングを、するというのと違って、入りやすいっていうかサーバーの設定して、ホームページHTMLとCSSで書いてみたいなことを、すれば一応、ミニマムなサイトは作れますけど、HTML書きますかというと書かない、わけですよね。別に書かないことは悪いんじゃなくて、僕もHTMLそのものを、書きたいと思わないですし書かないですから、というものが基本です。さらにそこからサーバー、ちゃんとデータベースと、やり取りするようなシステムを組んでってなると、もう、それはそれをする人たちがやるし、自分でやるなら、そこに本腰入れてやるしみたいな、この距離感と、チャットというものが、同じ、なんじゃないかということですね。で、そう考えたときの、最初の話に戻るんですけど、なのにチャットという言葉が、入りやすく、しすぎていて、チャットでしょだからできるはずなんだけど、なんかできない感じがあって、いやでもできるはずだから、うーん、なんかがおかしいんだろうなんかってなんだろう、ちょっと一旦保留みたいな、なんとなくそういう状況が、続いているんじゃないかなっていうのが、この2023ヘテの、2024入る前後、っていうかなんじゃないかと。逆にでもそうやって、整理すると、やるべきなのは、チャットではない、というのがこれが明確な、答えなんじゃないか明確な答えというか、チャットではないということを、今の話に基づけば、僕はこの整理を、しっくりしているのでこれを前提に、最近いろいろ考えているんですけど、仮にですよ、これを前提とすれば、チャットで何かを、しよう。っていう発想はあまりシステムを作る上でいいんじゃないかと。それこそチャットGPTが出た時に、いやチャットなんていうのは人間にとっていいインターフェースじゃないんだから、もっといいインターフェースを考えないとみたいなことはもうすでに一昨年の11月12月の段階でシェラホのいろいろ言っている人はいたわけですけど、それは確かにそうだな、だからシステム作らないといけないなみたいなことは僕もなんとなく大きなイメージとしてはあったんですけどとはいえ、もうちょっとできると思ってたんですよ。でも、ずっと言ってますが、2023年1年間かけて人間がチャットと向き合えば、もう能力を何倍にもできるみたいな状況と向き合っていた1年間を通じて、人間の力ってそんなに拡大できないぞなんでだろうみたいなことをやったわけじゃないですか。そこに対する答えがチャットじゃねえ、努力というか経済的な引力というか売上げ上げられるぜって引力があっても、そんなに使えないっていうぐらいハードルが高いものであるぐらいに、そこまでではないかもしれないけど、それぐらいに一回整理したほうがいいとすれば、チャットで何かをするというのがそもそも間違っているという前提に立つわけですよ。そうするとチャットじゃないなら、どうすればいいのか、これを活用するという前提に立つということは大前提として重要だと思うので、活用はするでもチャットじゃないぞ、じゃあどうしたらいいんだ、こっからがスタートするんじゃないかみたいなのを結論として、これが一番分かりやすいスタートラインなんじゃないかなっていうのを思うんですね。チャット全般がダメっていうわけではなくて、使うのが適した職業とか分野とか、そういうインターフェースのほうがいいことっていうのもあると思う。それこそお問い合わせ窓口みたいなとかは、電話の延長でチャットでやりとりするみたいなものが今すでに習慣としてある程度生まれつつあるみたいなとか、そういう分野つまりあっち側にもともと人間がいたときに成立しているようなインターフェースは変わらないけど裏側の部分が変わるみたいなものは、チャットっていうものが適しているとかあると思うんですよ。あとは検索みたいなものを少し性能を上げるためにチャットっぽく対応する、これもチャットより検索がいいと思うんですけど、あとはこれに対する答えが欲しいというのは猛烈にモチベーションとしてあって、例えば何かを勉強しているときにそれに対する解説が欲しいみたいなものは、探すようなエネルギーがある状態においてはチャットで聞く方がいいとか、すごいニッチですよね。ニッチですもん。ニッチっていうのはまたあれなんですけど、ただ今やろうとしている、チャットですべてができるようになるというようなすべてができる、あらゆるもののインターフェースがチャットであるというのとは乖離しているというのが、ユースケースが限られるということからイメージできると思うんですよね。なのでそこをスタートラインに立って、本当にチャットでいいのか、とかいうと、またそのチャットの検討みたいなことをするので、一旦チャットは違うっていうスタートラインで、だとしたらこれを活用するにはどうしたらいいかということを考えていく、というのがいいよなと思う中での冒頭に言ってたんですけど、なんか企業専用専用チャットGPTみたいなものが今どんどん作られる中で、それを企業として経由させてさらにそこから強化していくという、そういう意味ではいいと思うんですけど、そこのそれにもう一段何か手を加えることで爆発するみたいなものがあるところに、何か関わったりとか僕自身が直接関わらなくてもいいんですけど、というのをすごく思う。取っ掛かりとしてそこをスタートしてやるっていうところになったら、その時点でもう準備がかなり進んでる他の企業とかと比べてもかなり進める状態までいってるんですけど、そこをゴールにするんじゃなくて、そこにもう一段先の、チャットじゃねーぞっていうのは分かるんだけど、まずチャットから作ってシステム構成できて、ここできたらそのもう一歩もう半歩先にすごい飛躍があるんじゃないかみたいな設計ができてると、すごく差別化できるような気がする。そこが一番面白いと思うので、生成AIを前提としたインターフェース作りとか体験作りみたいなものに今フォーカスしてやってるっていうのもあるんですけどね。それはいいんですけど、というので、チャットを前提としない、あとはもしチャットを前提として一旦社内で作りたいとか、だとしたらそれこそGCPとかで結構簡単に作れる、クローズな環境で作れるみたいなのもあるのでそっちを使えばいいんじゃないかっていうのとそもそもAzureの上に作るのと、オープンAIのチームプランが新しく出ましたから新しくってもう1ヶ月以上前に出ましたから、チームプランでもうその中で使えますよっていうのとの比較をした時に、それでも作った方がいいのかっていうのもあるので本当にチャットでまず試したいというのであれば、そっちのほうがいい選択なんじゃないかとか思ったりもしますが、ただトータルとして自社向けのやつ自社内で閉じたものを1回作るっていうことをしてるっていうのはインターフェースの部分をもう1段考えれば爆発するみたいなその状態まで来てるという意味で僕はプラスだと思ってるんですけど、ただゴール自体がチャットですって閉じるんだったらあくまでそういう話なんですけど、ということをうーん最近思って、これを前提とした時に、とにかく世の中のあらゆるものが2つですねチャットを前提として解決しようとしているものと、生成AIを前提とせずに解決しようとしていたもの、この2つはその先にやり遂げたいゴールみたいなもの、解決したい課題があって、その解決したい課題のためにその手前があるわけですけど、これを生成AIネイティブにするということがすごくこれから重要で、その重要であるという大前提には、チャットというのはあくまでプログラミングの位置付けにあたりさらにプロンプトエンジニアリングさらにその奥の話であるということをユーザーにいかにさせないか、というすごくざっくり言えば、テキストをテキストによってユーザーの達成したいことを表現してもらうみたいなことを前提としないということですね、ということができるかみたいな作業なんじゃないかな、ということで、それを前提にしたときの体験作り考えるの今めちゃくちゃ面白いですね。あらゆるサービスがもうアプリ全部並べて、これがどうあったらもっといい体験になるかみたいなこと考えられるわけじゃないですか今って。多分これが数年経ったら全部そういう風になって、その各サービスがブラッシュアップしてレベルアップして改善してそういうフェーズに入る、そういう状態になるかもしくはそれぞれに対応する新しいサービスが出るかみたいなことにはなると思うんです。## サービスの未来と開発の魅力

それを今、一個一個どんな体験だったらいいかな、みたいなことを考えて、それを改善したり作っていったりできるみたいな意味で、めちゃくちゃ面白いですよね。なので、今日の話としては、チャットインターフェースがどのレイヤーにあるかっていう整理が本題だったんですけど、そこを踏まえてインターフェース作りみたいなことをいろいろ僕も関わっていきたいなと思って。実際いろいろ関わってもらったりとか作ったりしているんですけど、そういうのをいろいろ交流もそうですし、サービス開発とかいろんなところでできたらいいなと最近思ったりしています。

Ver.5

OpenAIの動画生成Soreが出て、ネイロの2025年末までの計画が1年半前倒しに

shimojik

しもじま

2024/02/16 14:35

サマリー

オープンAIがテキストから動画を生成する技術「text-to-video」のデモを発表
新技術の発表タイミングがGoogleのジェミニプロ1.5の発表直後で話題に
ジェミニプロ1.5はトークン数が100万トークンに増加し、高性能化
text-to-videoはテキストから直接動画を生成するもので、以前から画像から動画を生成する技術は存在していた
生成される動画のクオリティと60秒の長さが特に注目される
現在はAPIが公開されておらず、ChatGPTにも組み込まれていないため、広く利用可能になるまでには時間がかかる見込み
この技術の発展により、2024年前半にはより多くの可能性が開かれると予想
技術の進歩に伴い、生成AIを活用した新しいアプローチの必要性が高まっている

記事

動画生成技術の進化

オープンAIの動画生成、text-to-videoという分野ですけど、プロンプトから動画を作るってやつですね。こういうのができる状態になってますよっていうデモが来てましたけど、これは本当にすごい。本当にすごいっていう表現しかできないこと自体がネタになっているのが生成AI。それこそ驚き屋とか言ったりするぐらい、そういう感じになってるぐらいずっと新しいものは出てるわけですけど、何がすごいってオープンAIが出すタイミングですよね。

これは無慈悲というか、ちょうどこのオープンAIがソラっていうサービスというかtext-to-videoのプレスを出す、ちょうど1時間ぐらい前とかだったと思うんですけど、Googleがジェミニプロの1.5っていう、今までバージョン1.0あったの1.5っていうのを出して、扱えるトークン数が100万トークンになりました。100万トークンっていうのは日本語の文字で言ったら、100万字というオーダーぐらい80万字とか90万字とかぐらいになると思うんですけど、というのが扱いになりました。これがジェミニが出している一番性能の高い、ウルトラの1.5じゃなくてプロの1.5に対応しているという、僕は理解をしてるんですけど、ウルトラで100万字じゃないっていう、そこら辺はあるとはいえ、これはすごいぞっていうタイムラインが流れる、ちょうど昨日夜中3時4時とか、作業してたのでそのタイミングでタイムライン見て、盛り上がってみながらすごいなっていうそれが出て、それを全部、そのタイムラインを全部終了させるというタイミングで来たのが、この空ですね。

新しいのが出たら口縁じゃないけど、タイムラインを1回盛り上がってるなと思ったら、1時間ぐらいで盛り上がりを停止させるみたいな球を、オープンアイが何個も既に準備してただ出さないだけなんじゃないかって、言われたりするぐらいタイミングひどいっていう、それはいいんですけど、この空というテキストというビデオですね。動画をテキストから生成するだから今までで言うと、テキストから画像っていうのがいっぱいありましたけど、それの動画版が出たということで盛り上がってるんですが、ただこれ前提としてテキスト2ビデオとかあとイメージ2ビデオ、イメージ2ビデオっていうのは画像をアップすると動画がその画像を動かす形でできるというのがイメージ2ビデオですけど、というのは既に発表もされてたしランウェイとかはもう全然使える状態であるので、Twitterとか見てると普通に生成されたりとかいろいろ既に流れてきている、というのがありましたという前提はあるので、完全に新しいことではないんですけど、あまりのクオリティそしてクオリティだけじゃなくて時間が60秒、特にこの60秒っていうところの良さは、分かりにくいなと思うんですけど、今までのテキスト2ビデオ、イメージ2ビデオでもそうですけど短いんですよね4秒とか10秒、それぐらいしかなくてそれが一つの、コストの問題もあるんですけど動画っていうものが、そもそも一貫性を強く保ったままストーリー線をちゃんと、組み込んで生成しないといけないという意味でハードルが高かったらしいんですよ。

なので2023とかで、言われたのは動画はまたしばらくこなさそう、今言ったような課題があるからみたいなことを言われていたので、難しそう長くなれば難しそうだったから、そこで4秒とか8秒とかっていうのはなるほど感があるというか、それでも4秒を作ると一貫性はあるんだけど、8秒作るとそれが保たれないみたいなものとか、あんまり面白みがないとかっていうのになったりしていたので、やっぱり難しいのかなっていうのを思っていた中での、60秒みたいなのがあったりする、というのも含めてクオリティと長さの掛け合わせの、破壊力たるやっていうので、これはもう本当に音色でやろうとしていた、最初の、音色でやろうとしていたことっていうのが、喋ったらそれが動画になるっていうのを、ミスってそこから逆算して今記事を生成したりとかっていうのを、やっているのでなんとなく記事録的な、機能として使っていたうちの会社の中でも使ってたりするんですけど、機能を使っているっていうのはあくまで、そこへの段階とステップとしてあるのであって、そこから喋る自分が好きなことを全力で喋ると、それについて動画が出来上がるみたいな、そういうことを想定しながら逆算していたんですけど、これが2025の末ぐらいに、そういう状態になるかなと思っていたんですけど、もう出来そうみたいなところまで一気に来ましたね。

まだAPIとか公開されていないですし、ChatGPTにも組み込まれていないのでこれが誰でも使えるようになる、形になるのは時間かかると思いますしそもそも、結構コストかかるんじゃないかなと思うので、気軽に使えるぐらいの金額まで落ちてくるのにも時間がかかると思うんですけど、とはいえこれが1年先とかではさすがにないと思うんですよね。そうすると、やろうと思っていたことが、2025末ぐらいにいけたらそれでも早いよなと思っていたのが、2024前半ぐらいで、いけるかもしれない、これは面白いですね。我々プロンプトにもっと、全力で振るべきなんじゃないかとちょっと思いますね。その動画を喋った内容から動画を作るということを、いかに良くしていくかというためにどういうフローでやるか、どういう風に画像を作っていくかとかちょっと今言ってるプロンプトって言ってるのは、もう少し広い意味で言ってるんですけどAPI同士を繋げるとかも含めて、言ってるんですけどとはいえ今、それをするためにその動画を作るために、実際撮っていたアプローチが、そこまでのフローを最適化した上で、どこにクリエイティブを入れてどこに生成AIを入れてというのを、どういう風にするかというのをやりながらここは人間がやってここはシステムでやって、ここはプログラムでやってみたいなことを振り分けてやっていたんですけど、もう少し気持ちというか倍ぐらいの感覚で、プロンプト側とか生成AIができるところ側に、ガッと振ってこれだけは人でやったりとか、プログラムでやった方がいいみたいなところを見定めるのが、重要なんじゃないかというのをこれはしょっちゅう思うんですけど、新しいリリースが出るたびに思うんですけど、ここまでできるんだったらプロンプトでここまでできるんだったら、ちょっとこれはもう一回考え直さないといけないなというのを、思いましたね。

それこそ検索システムみたいなものとかもまさにそうですけど、ラグといって生成AIに情報を与えた上で、その情報をもっとにというか、その情報を合わせて最終出力を作ってもらうために、検索システムみたいなものを作るっていうのが、いろんなやり方が発展していく中で、それを飲み込むぐらいの速度で来るAPIを使って、ラグを中に組み込めるただファイルをアップするだけで、検索できるようにしてあげるからっていう、オープンエンドもそうですしGoogleのGCPもそうですし、というのの新しいAPIのリリースみたいなのが、あるたびにそういう分野が飲み込まれていくじゃないですか。飲み込まれないようなところを、分野を探すっていうのと飲み込まれないぐらいの速度で来るAPIを使って、ラグを中に組み込めるただファイルをアップするだけで、検索できるようにしてあげるからっていう、オープンエンドもそうですしGoogleのGCPもそうですし、というのの新しいAPIのリリースみたいなのが、あるたびにそういう分野が飲み込まれていくじゃないですか。飲み込まれないようなところを、分野を探すっていうのと飲み込まれないぐらいの速度で来るAPIを使って、ラグを中に組み込めるただファイルをアップするだけで、検索できるようにしてあげるからっていう、オープンエンドもそうですしGoogleのGCPもそうですし、というのの新しいAPIのリリースみたいなのが、あるたびにそういう分野が飲み込まれていくじゃないですか。飲み込まれないようなところを、分野を探すっていうのと飲み込まれないぐらいの速度で来るAPIを使って、ラグを中に組み込めるただファイルをアップするだけで、検索できるようにしてあげるからっていう、オープンエンドもそうですしGoogleのGCPもそうですし、というのの新しいAPIのリリースみたいなのが、あるたびにそういう分野が飲み込まれていくじゃないですか。飲み込まれないようなところを、分野を探すっていうのと飲み込まれないぐらいの速度で来るAPIを使って、ラグを中に組み込めるただファイルをアップするだけで、検索できるようにしてあげるからっていう、オープンエンドもそうですしGoogleのGCPもそうですし、というのの新しいAPIのリリースみたいなのが、あるたびにそういう分野が飲み込まれていくじゃないですか。飲み込まれないようなところを、分野を探すっていうのと飲み込まれないぐらいの速度で来るAPIを使って、ラグを中に組み込めるただファイルをアップするだけで、検索できるようにしてあげるからっていう、オープンエンドもそうですしGoogleのGCPもそうですし、というのの新しいAPIのリリースみたいなのが、あるたびにそういう分野が飲み込まれていくじゃないですか。飲み込まれないようなところを、分野を探すっていうのと飲み込まれないぐらいの速度で来るAPIを使って、ラグを中に組み込めるただファイルをアップするだけで、検索できるようにしてあげるからっていう、オープンエンドもそうですしGoogleのGCPもそうですし、というのの新しいAPIのリリースみたいなのが、あるたびにそういう分野が飲み込まれていくじゃないですか。飲み込まれないようなところを、分野を探すっていうのと飲み込まれないぐらいの速度で来るAPIを使って、ラグを中に組み込めるただファイルをアップするだけで、検索できるようにしてあげるからっていう、オープンエンドもそうですしGoogleのGCPもそうですし、というのの新しいAPIのリリースみたいなのが、あるたびにそういう分野が飲み込まれていくじゃないですか。飲み込まれないようなところを、分野を探すっていうのと飲み込まれないぐらいの速度で来るAPIを使って、ラグを中に組み込めるただファイルをアップするだけで、検索できるようにしてあげるからっていう、オープンエンドもそうですしGoogleのGCPもそうですし、というのの新しいAPIのリリースみたいなの逃げるというか進展させていくっていうこれの見定めをやることが重要だなっていう中での今回のみってさっきの話ですけど、思っているよりもっともっとオープンAIとかのAPIを使って何ができるかっていうこと、これからできそうかっていうことを想定した設計が大事なんじゃないかな。リソースをどこに割り振るかみたいなことを考えると、さらに言うと思っているよりプロンプトに時間を使っていく、もっと振り切っていくほうがいいんじゃないかなというのを今回見て思いましたね。

AIの進化とその影響

本当にいい時代、オープンAIの動画生成、text-to-videoという分野ですけど、プロンプトから動画を作るってやつですね。こういうのができる状態になってますよっていうデモが来てましたけど、これは本当にすごい。本当にすごいっていう表現しかできないこと自体がネタになっているのが生成AI。それこそ驚き屋とか言ったりするぐらい、そういう感じになってるぐらいずっと新しいものは出てるわけですけど、何がすごいってオープンAIが出すタイミングですよね。

これは無慈悲というか、ちょうどこのオープンAIがソラっていうサービスというかtext-to-videoのプレスを出す、ちょうど1時間ぐらい前とかだったと思うんですけど、Googleがジェミニプロの1.5っていう今までバージョン1.0あったの1.5っていうのを出して、扱えるトークン数が100万トークンになりました。100万トークンっていうのは日本語の文字で言ったら100万字というオーダーぐらい80万字とか90万字とかぐらいになると思うんですけど、というのが扱いになりました。これがジェミニが出している一番性能の高いウルトラの1.5じゃなくてプロの1.5に対応しているという、僕は理解をしてるんですけど、ウルトラで100万字じゃないっていう、そこら辺はあるとはいえ、これはすごいぞっていうタイムラインが流れる、ちょうど昨日夜中3時4時とか作業してたのでそのタイミングでタイムライン見て、盛り上がってみながらすごいなっていうそれが出て、それを全部そのタイムラインを全部終了させるというタイミングで来たのがこの空ですね。

新しいのが出たら口縁じゃないけどタイムラインを1回盛り上がってるなと思ったら1時間ぐらいで盛り上がりを停止させるみたいな球をオープンアイが何個も既に準備してただ出さないだけなんじゃないかって言われたりするぐらいタイミングひどいっていう、それはいいんですけど、この空というテキストというビデオですね。動画をテキストから生成するだから今までで言うと、テキストから画像っていうのがいっぱいありましたけど、それの動画版が出たということで盛り上がってるんですが、ただこれ前提としてテキスト2ビデオとかあとイメージ2ビデオ、イメージ2ビデオっていうのは画像をアップすると動画がその画像を動かす形でできるというのがイメージ2ビデオですけど、というのは既に発表もされてたしランウェイとかはもう全然使える状態であるので、Twitterとか見てると普通に生成されたりとかいろいろ既に流れてきているというのがありましたという前提はあるので、完全に新しいことではないんですけど、あまりのクオリティそしてクオリティだけじゃなくて時間が60秒、特にこの60秒っていうところの良さは、分かりにくいなと思うんですけど、今までのテキスト2ビデオ、イメージ2ビデオでもそうですけど短いんですよね4秒とか10秒、それぐらいしかなくてそれが一つのコストの問題もあるんですけど動画っていうものがそもそも一貫性を強く保ったままストーリー線をちゃんと組み込んで生成しないといけないという意味でハードルが高かったらしいんですよ。なので2023とかで言われたのは動画はまたしばらくこなさそう、今言ったような課題があるからみたいなことを言われていたので、難しそう長くなれば難しそうだったから、そこで4秒とか8秒とかっていうのはなるほど感があるというか、それでも4秒を作ると一貫性はあるんだけど、8秒作るとそれが保たれないみたいなものとか、あんまり面白みがないとかっていうのになったりしていたので、やっぱり難しいのかなっていうのを思っていた中での60秒みたいなのがあったりするというのも含めてクオリティと長さの掛け合わせの破壊力たるやっていうので、これはもう本当に音色でやろうとしていた最初の音色でやろうとしていたことっていうのが喋ったらそれが動画になるっていうのをミスってそこから逆算して今記事を生成したりとかっていうのをやっているのでなんとなく記事録的な機能として使っていたうちの会社の中でも使ってたりするんですけど、機能を使っているっていうのはあくまでそこへの段階とステップとしてあるのであって、そこから喋る自分が好きなことを全力で喋ると、それについて動画が出来上がるみたいなそういうことを想定しながら逆算していたんですけど、これが2025の末ぐらいにそういう状態になるかなと思っていたんですけど、もう出来そうみたいなところまで一気に来ましたね。

まだAPIとか公開されていないですしChatGPTにも組み込まれていないのでこれが誰でも使えるようになる形になるのは時間かかると思いますしそもそも結構コストかかるんじゃないかなと思うので、気軽に使えるぐらいの金額まで落ちてくるのにも時間がかかると思うんですけど、とはいえこれが1年先とかではさすがにないと思うんですよね。そうすると、やろうと思っていたことが2025末ぐらいにいけたらそれでも早いよなと思っていたのが2024前半ぐらいでいけるかもしれない、これは面白いですね。我々プロンプトにもっと全力で振るべきなんじゃないかとちょっと思いますね。その動画を喋った内容から動画を作るということをいかに良くしていくかというためにどういうフローでやるか、どういう風に画像を作っていくかとかちょっと今言ってるプロンプトって言ってるのはもう少し広い意味で言ってるんですけどAPI同士を繋げるとかも含めて言ってるんですけどとはいえ今、それをするためにその動画を作るために実際撮っていたアプローチがそこまでのフローを最適化した上でどこにクリエイティブを入れてどこに生成AIを入れてというのをどういう風にするかというのをやりながらここは人間がやってここはシステムでやって、ここはプログラムでやってみたいなことを振り分けてやっていたんですけど、もう少し気持ちというか倍ぐらいの感覚でプロンプト側とか生成AIができるところ側にガッと振ってこれだけは人でやったりとかプログラムでやった方がいいみたいなところを見定めるのが重要なんじゃないかというのをこれはしょっちゅう思うんですけど、新しいリリースが出るたびに思うんですけど、ここまでできるんだったらプロンプトでここまでできるんだったら、ちょっとこれはもう一回考え直さないといけないなというのを思いましたね。それこそ検索システムみたいなものとかもまさにそうですけど、ラグといって生成AIに情報を与えた上で、その情報をもっとにというか、その情報を合わせて最終出力を作ってもらうために、検索システムみたいなものを作るっていうのが、いろんなやり方が発展していく中で、それを飲み込むぐらいの速度で来るAPIを使って、ラグを中に組み込めるただファイルをアップするだけで、検索できるようにしてあげるからっていう、オープンエンドもそうですしGoogleのGCPもそうですし、というのの新しいAPIのリリースみたいなのが、あるたびにそういう分野が飲み込まれていくじゃないですか。飲み込まれないようなところを、分野を探すっていうのと飲み込まれないぐらいの速度で、逃げるというか進展させていくっていう、これの見定めを、やることが重要だなっていう中での、今回のみってさっきの話ですけど、思っているよりもっともっと、オープンAIとかのAPIを使って、何ができるかっていうこと、これからできそうかっていうことを想定した設計が大事なんじゃないかな。リソースをどこに割り振るかみたいなことを考えると、さらに言うと思っているよりプロンプトに時間を使っていく、もっと振り切っていくほうがいいんじゃないかなというのを、今回見て思いましたね。本当にいい時代。

Ver.1

音声アウトプットを増やしたい

3kuni

みくに

2024/02/13 09:46

サマリー

音声コンテンツをたくさん作りたいと考えている
音声コンテンツのメリットは、制作にかけた時間がそのままコンテンツの消費時間になる点
音声は伝わりやすく、人の気配を感じられる魅力がある
目や手が塞がっている時間に音声コンテンツが有効
音声アウトプットの量を増やすために、日常的に録音する習慣をつけたい
現在はiPhoneのボイスメモを使用して録音しているが、もっと手軽に録れるデバイスを探している
Lark Maxという無線のマイクに興味がある
音声専用の小型デバイスがあれば便利だと考えている
iPhoneでの録音の面倒さを感じているが、まずはiPhoneでの録音の可能性を試したい

記事

音声コンテンツの魅力としては、かけた時間分コンテンツになるということです。極端な話でいうと、3分間喋れば3分間のコンテンツになるというような形で、それがある程度の喋るクオリティがある程度高いのであれば、3分喋ったものがそのまま3分のコンテンツになると受け手が3分かけて消費するコンテンツになるということです。それに対して、3分書いた文章で3分読ませるというのはまず不可能なわけで、おそらく3分で書いた文章というのは10秒で消費されるというくらいのものなので、どんなに頑張っても3分で書いて30秒くらいになってしまうわけなので、音声コンテンツとして出せるのであれば、それはかなり作る効率はいいのかなというふうに思います。

音声コンテンツの伝わりやすさ

伝わりやすさというか、雰囲気の伝わりやすさというか、人系がすると、人の気配がするというのも音声コンテンツの大きな魅力かなというふうに思っています。

音声コンテンツの利便性

あとは、これはいろいろな事情がありますけれども、目が塞がっている時間というのは非常に多くて、耳が塞がっていないけれども目が塞がっている、あるいは手が塞がっている時間というのが非常に多いと思うので、そこに食い込んでいけるというのが音声コンテンツの魅力かなと思っています。

というわけで、音声コンテンツをとにかく増やしていきたいなと思っているんですけれども、コンテンツを増やすということは、とにかく音声アウトプットの量を増やしていくと、気がついたら録音を開始しているというような形にまで持っていけたらいいなと思っています。何かあるごとに、ボイスメモで録音するであったり、考えが思いついたら録音するというような形で、どんどん音声の形で残していくというような習慣を今つけていきたいなと思っています。

録音デバイスについて

実際に今録音しているのはiPhoneのボイスメモなんですけれども、これももっと気楽に録れるような形のデバイスがあるのであれば、それもいいかなというふうに思っています。今見ているのは無線のマイクもなかなか良さそうかなと思っていて、Lark Maxというデバイスが気になっています。あとは録音するデバイスのサイズとか形も少し気になるので、スマホのサイズだとちょっと大きいかなという気がするのと、このスマホに感じている録音しづらいなという感覚があるのは何なのかなと思うんですけれども、まずスマホを開いてボイスメモを起動するというのが少し面倒かなという面倒ではないんですが若干そこに抵抗があるのかなと思っています。あとはスマホが音声専用の端末ではないのでそこも何か少しハードルになっているかなという気もしています。

なので、音声を録音するためだけのデバイスがあって、それが手のひらに収まるような小さいサイズだったらすごくいいんじゃないかなというふうに考えていて、今一番気になっているのはラークマックスというワイヤレスマイクです。こういったものを使いながら何か頭に浮かんだらすぐ音声で録音する、何か記録したいと思ったら音声で記録するというようなことができたらいいなと思っています。

ただそういったデバイスを買う前にまずはiPhoneでどれだけ録音ができるかということも試してみる必要があると思っているので、試してみるというのはiPhoneだとやっぱり面倒くさいなという感覚が出るところまで来て、初めて他のデバイスに手を出すというふうにしたいと思っているので、当面はこのiPhoneであったりMacのボイスメモを起動して、そこでたくさん録音していくというふうなことをやっていきたいと思います。

ということで、とにかく音声アウトプットの量を増やしていきたいというお話をしました。

Ver.1

Gemini Advancedに対する、違うそうじゃないという気持ちと何が"違う"のか

shimojik

しもじま

2024/02/10 13:08

サマリー

Googleが以前「Bard」として知られていたChatGPTを「Gemini」として改称し、モデルをアップグレードした。
新しい「Gemini Ultra」がリリースされたが、使用してみた感想は期待外れだった。
Googleの強みである地理情報の精度は高く、東京タワーの写真から撮影位置を正確に特定できた。
しかし、生成AIとしての言語モデルの性能には満足できず、期待値とのずれを感じた。
生成AIは情報を整理する強みがあるが、Geminiはその点で弱いと感じた。
Gemini AdvanceとGemini Ultraを含む新モデルは、要約や情報の整理において精度が低いと感じた。
一方で、情報をゼロから生成する能力にはある程度の強さを感じたが、それでも期待には応えられなかった。
Geminiは人間に近づきすぎており、自由に使える感じが以前のモデルとは異なると感じた。
現状は期待していたものとは異なり、残念な感じがある。
OpenAIも急いでGPT-4.5やGPT-5をリリースする必要はないと感じており、今後のアップグレードに期待。
2ヶ月の無料期間があるため、その間にGeminiの最適な使用方法を探求したいと考えている。

記事

Googleの新モデル「Gemini」の体験レビュー

Googleが出してたChatGPTが名前をBardからGeminiに変えて、モデルもレベルアップしましたみたいなのが出てましたけど、使ってみたんですよ。

...あんまりでしたね。

結構期待をしてて、それこそリリースの直前に、そろそろリリース出るんじゃないかって言われてるのに出ないと、なんでかって言うとこういうのは後から出した方がよく使われるというのはやっぱりってこともないんですけど、このしばらくの傾向であるから、後に出すっていうので。

ChatGPTの進化と期待

あとっていうのはChatGPTが次に出すと言われてるGPT4.5もしくはGPT5と、Geminiの今まで出てたものがGeminiプロですね。Nano Gemini Proでそこまで出てたんですかね。Gemini Ultraが今回出たということで、だからそのChatGPTが出て、1年以上経って、GPT3.5から4に上がって、4から見ると1年経ってないんですけど、そこからUltraが1年越しに来て、そこからのそれにまたGPT4.5、GPT5がまた来るみたいな、この戦いが白熱することに期待を抱いてたんですけど。

Gemini Ultraの実際の使用感

いざGemini Ultraがリリースされて、これが搭載されたGemini Advance、Gemini AdvanceかAdvance Advanceが出て、ついに来たと思って楽しみにしたんです。すぐ使ってみたんですけど、あまりの微妙さにちょっと残念でしたね。唯一良かったのが、場所を特定するという能力が高い。やっぱりGoogleマップとかのデータをいっぱい持ってるから、その分の地理的な情報はすごいみたいなのがあったんですけど。

地理情報の精度とプライバシーへの懸念

それこそ先日、あれどこだったかな、東京タワーが見える、東京タワーの近くじゃないところから撮った東京タワーみたいな写真があったので、それをアップしたら、その写真を撮った位置の特定をしてくれて、結構精度高く距離感も、歩いて3,4分くらいの距離の範囲内で特定していたみたいなのがあったりとかして。これはすげえなみたいなのを思ったんですけど、さすがにそれで精度高くてちょっと怖いじゃないですか。僕の持ってる写真が少しでも漏れたら、僕の地理情報って本当に一瞬で分かるんだなみたいなことがあったりとか。

言語モデルとしての期待と現実

とはいえメインはやっぱり、言語モデルというか言葉なわけですよ。今回ちょっと残念だったっていうのが、残念というか残念でもないんですけど、精度というか性能があんまり高くないなと感じた最大の理由っていうのが、生成AIに対して何を求めているかみたいなところが、そもそも僕の期待値とずれているっていうことなんですけど。僕のこの期待値っていうのは、そもそも生成AIがどこが強いかみたいなところの話なはずだと思うんですよ。

生成AIの強みと課題

生成AIっていうのはハルシュネーションってよく言われて、嘘をつくっていうのはとにかく言われるわけですけど、嘘をつくっていうのはあくまで情報に対してなわけですよね。今目の前に情報があるものを整理する上で嘘をつくみたいなことはなくて、自分が知らない情報も知ってるかのように返してくれるっていうところが、一番の問題なのでそこさえクリアしたときの、言語モデルっていうか言葉を使えるAIとしての強さみたいなものが、とにかく能力値として高いわけですよ。

生成AIの価値とは

なので情報みたいなものを生成AIに持たせないとか、価値としてそこに生成AIの価値としないという形を取ることが、一番重要であるというのが大前提なはずなんですよね。なので最近パープレックシティとか検索してきた情報を組み合わせてその内容を出してくれるという形になるわけですよ。というあくまで情報にあたる部分は外部から持ってきて、言葉としての整理をしてくれるもしくはユーザーに対してチューニングしてくれるというそこが価値なはずなのに、逆に言うとそこが価値でどこが価値じゃないかというと、ゼロから何かを作るっていうところにあんまり価値がないわけですね。

Gemini Ultraの要約と検索能力

例えば何でもいいですけどこれこれについての記事を書いてくれ、みたいなとか情報をまとめてくれみたいな、ゼロから何かをするというこの部分に少なくとも現状弱いし、価値だと思わないぐらいが現状バランスとしていいんじゃないかと結論づいていたのに、今回ジェミニアドバンスとか出て、その中にジェミニウルトラが入っていますという、このモデルに対しての要約とかまとめるとか、そういうもともと大量にあるものから何かをする、情報がある状態から何かをするということの精度の低さ、みたいなのがそれこそ要約してくださいとかも、そういう要約じゃないんだよなとかいうのがあって、むしろ逆にゼロから何かを聞いて検索の結果のように上手く情報を出してくれるゼロから何かを出してくれる、みたいなことのほうに上手さを感じるんですよねこのジェミニウルトラ。

検索結果としてのGeminiの位置付け

でもなのになったらパープレクシティみたいに、ちゃんと検索結果として出せばいいじゃないですか。検索結果で検索結果を組み合わせてハルシネーションを起こさないように出す、それはそれでわかるんですよ位置付けとして。今パープレクシティがあるんで同じような位置付けで、今Google検索をパープレクシティが食うのか食わないのか、みたいなことになってますからそういう方向で行くんだな、そうしたらそれはそれでわかるんですけど、その方向の上でハルシネーションをがっつり起こすっていうことは、それもできてないじゃんみたいな感じになっていて。

生成AIの分業制とその弱点

というちょっとまとめるとなので、生成AIの得意な生成AIっていうかこういうチャットGPTとかが得意なものっていうのは、外から持ってきた情報を踏まえて整理してもらったりとか、そこから何かをしてもらうっていうその分業制だったはずなのに、分業制外から何か持ってくるというのがまず弱いです。その上でその逆側の外から何か持ってくるとかも内側でやってくれるので、ゼロから何かしてくれるっていうパープレクシティみたいな強さがあるのかっていうとそれもありません。じゃあ何が強いんですかみたいな。

期待と現実のギャップ

めちゃくちゃ今文句言ってますけど、いや期待してたんですよ。それで一個思うのは今までチャットGPTで慣らされてきて、自分がそこに思考が1年かけてどんどんすり寄っていって、さらにパープレクシティみたいなものの使い方にも自分が慣れてきて、そういう中で第3のものが新しく出てきたのに、僕がそのマインドを過去の2つのものと合わせようとしてるから合わないのであって、そもそものそのマインドが違うんだよっていう、その可能性はあるなと思うので、それでまだちょっと頑張って使おうと思って、いろいろいつもと違う使い方みたいなことをしてるんですよね。

Geminiの人間に寄りすぎた感覚

という感じがあります。何ていうか人間にうまくすり寄りすぎてるんですよね、Geminiの方が。逆にチャットGPTとかもうちょっとプレーンなっていうか、何ていうかエディターを使ってプログラムを書いてるような、ブラウザ上で何かワードプレスみたいなのをいじってるというよりは、プログラムを触っているような感じに近いような、自由に使える感じであり、自分が思ったように持っていけるような大きな方向性みたいなのがあるのが、これまでの分野合いだったのに対して、Geminiの方がそういう感じというよりは、なんかよしなにやろうとしすぎて思ってるところとすり合わないみたいな感じがあるって感じです。

総括と今後の期待

だからフラットに喋るとすると、ハルシュネスとかも一旦無視すると、それはそれでいい会話になる可能性はあるなとは思ったりもするんですけど、なんかトータルとして、ちょっと思ってたのと違うな、残念な感じがしてるなっていうのが現状ですかね。だからここで期待しちゃいますね。こんな感じで出てきたので、OpenAIの方もそんな急いでGPT 4.5とか5とかを出さないといけないとかっていう感じじゃないなっていうので、もしかしたらそんなに早く出ないかもしれないんですけど、GPT 4.5、4.5なんじゃないかと思いますけど、これが楽しみですね。しばらくはもうちょっと、2ヶ月無料期間があるみたいなので、この2ヶ月の間でGeminiが思っている使い方、Geminiにとって一番いい使い方みたいなのが何かっていうのを、もう少し探っていきたいなとは思っています。

Ver.1

プロンプトについての整理

shimojik

しもじま

2024/02/08 15:54

サマリー

今年は生成AIの仕事が増えているが、プロンプトを書くようなシンプルな作業ではなくAPIを使ったシステム構築が主流になっている。
プロンプトエンジニアリングは一時期話題になるも、その後の発展によりプロンプトの複雑化が進み、プログラミング的思考が求められている。
一方で、プロンプトを書くことは誰でもできるため、その価値については軽視されがちである。
2023年に入り、精度が向上したGPTや他社からの新しいモデルの登場により、プロンプトエンジニアリングに対する関心が薄れつつある。
しかし、良いプロンプトを書くことは難しく、ビジネスにおいても適切なプロンプトで良い出力を得ることが重要である。
プロンプトの重要性を理解し、共有することが新しいプロジェクトを始める際の鍵である。
プロンプトを書くことの難しさはHTMLやCSSの設計に似ているが、見た目の簡単さからその難易度を過小評価しがちである。
人間はプロンプトを書くことに慣れておらず、AIの進化とともにプロンプトを書くことの面倒さが増している。
生成AIを使いこなすには、AIを扱える人に作業を依頼するなど、分担が必要になるかもしれない。
生成AIを組み込んだサービスの開発においては、インターフェースの設計が今後重要になってくる。

記事

生成AIの仕事の変化

今年は去年と比べてだいぶ生成AIの仕事が増えてきている感じがするなと思うんですけど、生成AIの仕事って言ってもそれこそプロンプトをこんな風に書けばいいですよねみたいなライトなものはあんまり伸びている印象がなくて、というよりはAPIを使ってシステムを組むみたいな話が増えてきているかなという感じが最近しているんですけど、そういう中でよく話題に昇るのがプロンプトの立ち位置みたいなところなんですよ。

プロンプトエンジニアリングの変遷

これは去年の1月2月ぐらいの段階でも結構揶揄されるみたいなのがあったりとかいうのがあったり、僕もそこに気持ちが追いついていないみたいなところもあるので同じ気持ちがあったりもするんですけど、これを最近気持ちの整理がついてきたので整理しておきたいなというのを思うんですが、何の話かというと生成AIを使うとなるとやっぱりプロンプトを書くというのが最初の入り口としてくるわけですけど、プロンプトを書くというのがTwitterとかでそういうポストをしているような人たちのブランディングにもよるんだと思うんですけど、すごいチープな位置付けで固まっている感じがあるんですよね。

これは去年の1月2月の段階でプロンプトエンジニアリングみたいな言葉がどんどん広がっていく中で、プロンプトエンジニアリング笑いみたいな感じの雰囲気もあり、そういう中でプロンプトエンジニアリング自体僕は面白いなと思っていたのでいろいろ追っていたんですが、その時点ではそうだったんですよ。2月とか3月とかでだんだんプロンプトが複雑化していきにプログラミングの思考みたいな、それこそオブジェクト思考とかみたいなものを取り入れたりとかっていうのをやったりとか、いろんな発展というかいろんな形がある中で、そのプロンプトをめちゃくちゃ書いている人たちの裏側でというか、一方でプロンプトって別に誰でも書けるから、プロンプトエンジニアリングとかって言うほどのものかなみたいなのだったりとか、あとはそれをできるようになる必要がなくてもっと絵が進化していくんじゃないかみたいなことがあったりとか、背景があってそれがまだ去年2023年の2月3月4月とかぐらいだと思うんですけど、そこからなんだかんだ精度がチャットGPTの精度が上がったりとか、他のGoogleが出したりいろいろ出てきたりとか、Facebookが出したモデルとかいろいろ、Facebookが出したモデルについてはあんまり一般的ではないので、ちょっと違うかもしれないですけど、そういうのがあったりとかする中で若干そういう系の話が薄れてきてはいたと思うんですよ。

プロンプトエンジニアリングの現状と課題

つまりプロンプトエンジニアリングみたいな感じの雰囲気がちょっとずつ減っていくと、特に人が興味を示さなくなるという期間が夏ぐらいから冬それこそ年末ぐらいまであったんじゃないですかねっていうのがあって、一方でその間もプロンプトについて発言してる人たちがいっぱいいて、冒頭にも言ったようにその人たちの僕は結構影響結構あるんじゃないか、やっぱその人目に触れる投稿をするっていうことが重要であるということと、人目に触れるためにチープな表現になってしまうっていうことがぐるぐる回ってるみたいな感じになってしまって、何回か僕が過去にこの中でも言ってるんですけど、一行目の引きの言葉みたいなものがこれを知らない人はもうダメです終わりですみたいな書き方から始まるとか、驚きました…みたいなところから始まるとか、そういう個人的にはすごく好きではないんですけど、そういう嫌な引き方から始まるものが増えていくと、ストレートな表現だけしかない世界線がもしあったとしたら、もうちょっと違った世界があったんじゃないかなと思っているんですけど、そうならなかったっていうのがあったわけですよ。

それがそういう期間ある意味停滞っていうかそんなに盛り上がってない期間も、逆に盛り上がってないからこそそういうものだけが出続けた結果、何となくそういう生成AI系のバシバシ使っていくぜみたいなアウトプットをしている、まさにTwitterとかで投稿しているような人たちが、その人たちが悪いというよりその人たち自体が僕は悪いと思っていなくて、その人たちの投稿の仕方が良くない人たちが結構いると思っていて、それによるプロンプトに対する軽視みたいなものがあって、それ自体はまあそれは流行り的なものもあるししょうがないかなと思いつつ、これが年明けてだんだん生成AI系の話がいろいろとある中で、最近感じているのがプロンプトって書くのむずいぞみたいな、書くのむずいぞっていうのは僕も書くのむずいぞって日頃から思ってるんですけど、思ってたよりむずいぞという前提に立つまでに時間がかかるということですね。

プロンプトの難易度とプロジェクトへの影響

つまりイメージとしてはそんなに難しくないという印象を持っていて、ビジネスに当たる時にその前提で取り組もうとするんだけど、あれプロンプトうまく出ないななんか書き方悪いんですかねみたいな感じで軽くなっちゃう。でもそこの良いプロンプトを書いて良い出力、プロンプトがどうっていうより良い出力を出してもらうために必要なことっていうのは、そのノードだと達することができないということを最初にある意味リセットして、そっちがちゃんとマインドリセットをするというマインドセットを変えて、向き合っていくみたいなフェーズが必要になっていて、時間がかかるなという感じが最近してるんですよね。

すいませんちょっと外工事してるんでガタガタ言ってますが、というのがあって、その第一印象との違いみたいなものを崩すのが一瞬で崩れたらいいんですけど、割と時間かかるかなという感じがするんですよね。というのを最近踏まえて、僕としては新しいプロジェクトを始めるにあたって、一緒にやる人たちがプロンプトを書くということはかなり深いやることいっぱいあって、そこを例えば2,3日ある程度プロンプト書いたからといって書けるようになるものではないということを、どうやって全員がまず同じマインドに立って、マインドを持ってプロジェクトに取り組むかということが、そのマインドをみんなが持っている状態にいかに早くするかということが、プロジェクトのスタートラインみたいなところで重要だと思うんですよね。

プロンプト作成の難易度と学習曲線

ここをどういうふうにすればいいかっていうのが本当に難しいなって思うぐらい、そこがギャップがでかいなというのを感じている。そう考えるときにやっぱり自然言語だから第一印象として書けるだろうみたいな、わかるだろうみたいな、そのテクニックがチープなものであるだろうみたいなところが、あるという印象みたいなのがなかったときの難易度ってどれぐらい難しいんだろうみたいな、最近それを考えてて、ちょうど近しいものこれなんじゃないかなって思ったのがHTMLとCSSだったんですよ。このHTML CSS、特にCSSなんか設計するのめちゃくちゃ難しかったりするので、大規模になればかなり設計難しいみたいなところがあるんですけど、ただ一定の基本的な部分を理解するのにかかる時間って、そんなに時間かかるものでもないし、その設計みたいなものもある意味テクニックっぽいものも結構あるかなと思うので、この入り札でさらにそこからいくらでも深くなるみたいなところの深さみたいな。大規模になればかなり設計難しいみたいなところがあるんですけど、ただ一定の基本的な部分を理解するのにかかる時間って、そんなに時間かかるものでもないし、その設計みたいなものもある意味テクニックっぽいものも結構あるかなと思うので、この入り札でさらにそこからいくらでも深くなるみたいなところの深さみたいなのは、それはLLMに関しても同じプロフト核についても同じだと思うので、ちょっと印象と難しさの感じが似てるなっていう感じがするんですよ。だけどやっぱりHTML CSSっていうのはちょっと見た目がいかついので、それとそのプロフトと比べると若干ハードル高いように見えて、通行に見えてしまう。見えてしまうってこともないんですけど、そういう違いがあるだけで結構似てるなみたいな。逆に言えばそれぐらい人間はHTMLとCSSって基本的に書かないじゃないですか。ワードプレスを使うわけですよとかノートを使うわけです。ワードプレスさえ設定しないわけですよみたいな。こういう世界線においてプロンプトみたいな難しいもの、HTML CSSぐらい難しい、難しいって言うと語弊があるんですけど、難しいと言うとするとそのHTMLプラスCSSぐらい難しいプロンプトを人間が書き続けるわけがないんじゃないかと、っていうのを最近思った時にそこからもう1回2023を振り返ってみると、2023の頭、まあ2020の末でもいいんですけど頭とかにあった、チャットGPTオンリーみたいな、しかも超シンプルにチャットだけするだけ、あの段階のめちゃくちゃプレーンなところから、1年以上経ってた今標準の機能として、有料機能とはいえ標準に使える機能として、ファンクションコーリングとか入っているわけですよ。ファンクションコーリングを普通に使う前提ってこともないかもしれないですけど、普通に使えるところに一般的なAPIモードじゃない方で、表示されている搭載しているぐらいに、その1年とか1年ちょっとの間に、主役的に進化してきたわけですよね。そこから1年遡ったあの時のあのシンプルさの時に、人間は1回やりとりするみたいな、シンプルな使い方をしたっていうので、ユーザー数が一気に伸びましたみたいな話題性はあったのは、もちろんその通りだと思うんですけど、それを継続的に使うほどのシンプルさがなかったと、複雑である難しいということを、1年前のあのシンプルな状態でも人間が使えなかった、なかなかということを認めて、さらにそこから猶予期間が丸1年あって、1年の間に徐々にある意味ゆっくり進化、その精度はすごい勢いで上がっているかもしれないですけど、機能としてはゆっくり進化しているわけですよね。ゆっくり進化しているこのゆっくりさよりも、圧倒的に人間が使う密度とか回数が少なかったわけですよ。ということを1年振り返って考えたときに、プロンプトを書くということが難しさと、事実人間が1年間かけてプロンプトっていうのは、原始的な状態でさえほぼ触れられなく、今となってはかなり進化してきちゃったみたいな、GPTをはじめとするそういうLMKのサービスがそうであるという、これをトータルで踏まえたときに、人間はプロンプトを書かないぞみたいな、プロンプトというかテキストを書かないぞみたいなのが、前提にありますよというのが、さっきの話に戻るんですけど、プロンプトを書くというのは難しいですよね、というのはどういうふうに認識共有をするといいか、みたいな話なんですけど、そのときに現状難しい、CSSとHTMLぐらい難しいということと、この1年振り返って使えませんでしたという、この2つを組み合わせると、割と納得感あるんじゃないかなということで、これで認識を揃えて、第一歩進められるみたいな感じがあるかもな、みたいなことを最近思いつつ、そういう話を最近することが多くなってきているんですけど、という感じがしてますね。だからこれが進化して、もっとプロンプトを書かなくても、人間が思う通りのものを出してくれるようになりますよ、みたいなことが来たとしても、今のこの状況は多分変わらなくて、まさに先行してそれに近いことが起きているのが、ミッドジャーニーで、ミッドジャーニーって、可愛い犬で写真っぽいやつぐらいの、雑なプロンプトを書くと、結構綺麗なやつが出てきてくれます。あとはそれをアップコンバートするツールとかにかければ、もう写真になりますみたいなところまで、現状来てますが、ただそれを使って、あなたが作りたいもの、あなたが書きたい、あなたが撮りたい写真に近づけることができますか、っていうと、それはまた別問題じゃないですか。なぜなら人間はもっとわがままなので、ちょっと何か違うんだよなみたいな、これは仕事をしていると、過去にもデザイナーが、人間との擦り合わせでも、無限に発生していたことだと思うんですね。優秀なデザイナーだっていう人に、発注してみたけど、いやかっこいいんだけど、なんちゅうからこみたいなのが、擦り合わせで発生するみたいな、人間はそれをお互いに組み取りながら、やるみたいなことをやって、ある意味しょうがないと思うわけですよ。自分の100点にいかないとしても、脳機みたいなのがあって、その手前で、ここで一旦切り上げようみたいなことが、発生したりとかっていうのがあるんですけど、AIもその近いことがあるかもしれないですけど、ただAIに対してやっぱり、見せてるみたいな概念が、早めに来るなと思っていて、つまり、なんかこっちなんだよな、やっぱりAIちょっとまだだみたいな、そういう切り捨て方を、一年間、多分人間がたくさんしてきたんじゃないか、ということがこれから先も、永遠に続くであろうと、となると、一方で、この一年間の中で、自分が実力したいものを、限りなく出力できるように、チューニングし続けた、それこそ同じ鉛筆を与えられても、自由自在に、動物の絵を描ける人と、僕がそうなんですけど、小学生が描くような動物の絵ぐらいしか、小学生全般がまた、絵が下手なわけじゃないと、典型的な小学生が描くような絵しか描けない、そこから成長してないみたいな、鉛筆一本でも違うみたいなことが、プロンプトというテキスト一個で、全然違うところまで来てるわけですよね、ということをずっと試行錯誤してきた、ずっとする人なんですけど、試行錯誤のフェーズまでいっていて、なかなか上手くいかない、そこの延長には、自分が作りたいものというのの、ゴールもあると思うんですけど、やっぱこう、きれいな犬の写真の、草原走っている、やつ、もっといいやつ、この感覚というのが、多分AIが進化すればするほどもっと強くなる、なぜなら人間がAIに対する期待も高まっていって、プロフトチューニングできる人たちが、すごくいいものを出してくると、それぐらいは自分でできると思うけど、出そうと思ったら出ない、じゃあもうちょっとAI進化するの待つかみたいな、さっきも言いましたけどそれを、人間は2023ずっと繰り返してきたわけですよ、っていうことが、絵の世界だと特に分かりやすい、ミッドジャーニーがとにかくV6とかで、すごいクオリティ上がってきてるんで、ということから、考えたときの、そのAIが進化すればするほど、より、パッと見のクオリティが、高いのに自分が思っているものと、違うというギャップの、吸い合わせの難しさみたいなものっていうのは、その内部構造に当たるような、プロンプトが、どうなっているのか、どう伝えたらよかったのかみたいな、そのある意味、2023頭とかもっと前の、原始的なプロンプトのところまで、立ち返らないといけないと、でもそんなことは原始的なものだけ与えられているときで難しかったのに、こんなに便利になったのに、もう一回原始的な、例えば電卓があるのに、大人で電卓があるのに、電卓でやるのは、もう一回基礎からやるかみたいなのを言ったら、「いや、それで電卓でやったらいいんじゃないの？」みたいな感じに。でもこれ、電卓と違うのは、その答えみたいなものは出るようで、出ないみたいなものがしたら、という後半ごちゃっとしたんですけど、ということがずっとこうあって、なんか、プロンプトっていうのは、僕もそうでしたけど、今も葛藤してるんですけど、思っているよりもとにかくめんどくさいものである。難しいというとちょっと違うんですけど、違う気がしてるんですけど、難しいというよりは、めんどくさいものであると、AIの進化に伴いめんどくささが上がってくる、みたいな、そういう感じになっていくと、そうなるとどういう世界になるかというと、そのAIを扱える人にAIを扱って何か出力してもらうということがいい、自分では扱えないから、みたいな、生成物のクオリティを求めれば求めるほど、そういう感じの分担みたいになってくるかな、と思うんですね。

サービス開発とAIの未来

と思うので、サービスを作るというときも、なんか、質問みたいなもの、QAみたいなものは、チャットと違うのでいいんですけど、チャットというよりは、ワンポチみたいなものの概念に近いかみたいな、インターフェースの作り込みみたいなことが、今後重要になっていくんじゃないかな、っていうのを、そういうの最近、生成AI、LMを組み込んだサービスの開発、みたいな色々増えていく中で、ここの今言ったようなところをモヤモヤ考えながら、今言って、こういう形で進めていくと良さそうだなみたいなことで、最近は考えてたりします。ここら辺は、もっともっとブラッシュアップさせたいな、と思っているので、この辺りの話、したいというか、興味ある人は、僕の今思っていることが全ての答えだともちろん思っていなくて、これを今思っていて、さらにブラッシュアップしていきたいな、っていうのを思っていますので、よかったら声かけていただけると嬉しいです。

Ver.1

AnkerのVR P10がスマホ音声入力イヤホンとしてベストだと思う

shimojik

しもじま

2024/02/05 18:05

サマリー

今日は新しいイヤホンAnker Soundcore VR-P10を購入したことを紹介
VR用と記載されているが、iPhoneでの音声入力用に購入
iPhoneの標準音声入力とChatGPTのウィスパー音声入力に対応
AirPods Pro2では音声入力に遅延や精度の問題を感じたため、代替品を探求
有線のイヤホンでは遅延がないが、無線に慣れたため不便に感じる
Amazonで見つけたAnkerのイヤホンは、専用のBluetooth送信機を使い遅延が少ない
似たような機能を持つロジッククールのゲーミングヘッドホンを使用していたが、イヤホンタイプは珍しい
ロジッククールGFITSはゲーミング用途であり、今回の用途には合わない
AnkerのイヤホンはUSBを挿せば遅延なく使え、iPhoneでの充電も可能
VRメタクエスト2のイヤホンとしても使えるが、音質にはやや不満
価格は約1万円で、音声入力には適しているが音楽鑑賞用としては他の製品が良いかもしれない
Ankerのイヤホンはニッチな用途を満たしてくれるが、音質に関してはさらに良い製品を探求中
音声入力を日常的に多用しており、ChatGPTを含むテキスト作成に役立っている

記事

イヤホン購入の動機と目的

今日ですね、新しいイヤホンを買ったのでその紹介をしたいんですけど、目的がちょっと特殊かもしれないので、これに合う人がいればバシッと当たるんじゃないかという使ってみて、まだ1時間くらいしか使ってないんですけど、1時間使ってみて結構用途には合ってるなという感じがしています。

購入したイヤホンの特徴

ということで買ったのがAnker Soundcore VR-P10というVRとあるのでVR目的っぽいんですけど、というかこのサイトを見てもVRを目的とした感じで結構書いてあるんですけど、VRの目的ではなくてiPhoneで使うように買いました。

音声入力のためのイヤホン選び

iPhoneで何のために使うかというと、ヘッドフォンいろいろ持っているので今更何に足すのかというと、音声入力のために買ったんですよね。音声入力もiPhoneの標準の音声入力とチャットGPTの中に入っているウィスパーの音声入力と2つあるんですけど、これ両方ともでうまく使えたらいいなと思って買いました。

音声入力における問題点と解決策

そもそも音声入力って普通にiPhoneでできるので、なんでイヤホンをわざわざ買わないといけないのかという問題点なんですけど、これAirPods Pro2を使っていても音声入力って若干遅延があったりあんまり精度が高くないんですよね。という問題を感じていて一番大きいのは精度はしゃべり始めるのと、あと声量を一定大きくすると問題ないかなという感じはあるんですけど、なんか引っかかる感じがあるっていうか、音声入力のボタンをポチッと押してしゃべり始めたら最初の数文字が飛んだりするみたいなことがあって、やっぱりそこはBluetoothのまだ限界というかそういうものかなという感じがしているんですよね。

有線イヤホンの利点と無線への移行

これは他のイヤホンに関してもそうで、全部音声入力できるんですけどそういうちょっとした遅延があると、最近自分が音声入力をする割合がかなり増えてきているので、音声入力すごい重要なんですけど、その頻度が高くなるだけ最初の数秒がすごいストレスになるんですよね。っていうのがあって、なんかでもいい方法ないかな、でもAirPods Proでこれくらい遅延するとか、他のイヤホンでそれ解決するかなと思ってたんですが、よく考えたら有線のAirPodsがあるわけですよ。AirPodsは有線だしもちろん有線だと遅延がないので、こいついいんじゃないかと思って使ってみたら、予想通りというか期待通り遅延なく使えたというので、音声入力としてはしばらくこいつが完璧だなと思っていたんですが、ただやっぱり無線になれた今の状態において、これ外に行く時とかも有線でずっとつなぎっぱなしにするっていうのはちょっとなんか、それこそ昨日おとといまで3日くらい京都に行ってたんですけど、京都の間有線で使ってみて、AirPodsを使ってみて、音声入力を頻繁にするのですごくいいなと思ったんですが、ただやっぱり移動しながら有線がちょっと気になるなと思ってて、やっぱりじゃあ無線かな、無線遅延するけどあれ無線かなと思ってたところに、Amazonは僕の真相真理を理解してくれますから、トップページに新しい、新しいって最近出たわけじゃないと思うんですけど、イヤホンのサジェスションが出てきてくれたのは今回買ったやつということでした。

イヤホンの選択基準と期待

グッドタイミングでしたけど、これを見て、これが何が今の2つ、AirPodsでも解決できない問題であり、無線なので線がつながっていることの問題は解決するなったとしても、なぜAirPodsの課題を解決してくれるのかというと、こいつが専用のBluetoothをiPhoneに挿すと、iPhoneに挿した送信機から直接イヤホンに飛ばしてくれるので、挿せばつながるという感じになってるんですよ。この企画によってすごいスムーズにつながるっていうロートがVRってついてたりゲームで使えますって書いてあるだけあって、ゲームで使えると、その遅延がとにかくレイテンションが少ないということが書いてあったので、それで期待して買ってみたっていう感じなんですよね。

ゲーム用イヤホンとの比較

ちなみにこのUSBを挿してつなげるっていうタイプは、ゲームのヘッドホンだとよくある企画で、それこそ僕はメインで使ってるゲームのゲーミングヘッドホンは、ロジッククールのやつなんですけど、これはライトスピードという企画を使っていて、これによってUSBを挿すと有線のような感じでも遅延なく使えると、かなり遅延は30ミリ秒とか書いてあるので、それぐらいでいけるということみたいなんですが、っていうのを使っているので珍しくはないんですけど、ヘッドホンじゃなくて普通のイヤホンみたいなタイプのものっていうのはかなり少なくて、これもロジッククールが似たようなの出してはいるんですけど、アンカーというぐらいしか僕は今のところ見つけられてないんですが、他にあったら確かめてみたいというか試してみたいなと思ってはいるんですけど、という2つの中でロジッククールの方は1回試したことがあったんですよ。ロジッククールの方の名前がロジッククールGFITSってやつですね。これはデバイスとして単体で見たら全然悪くないんですけど、僕の今回の用途に合ってなくてっていうのもパソコンで使う、あくまでゲーミング用というのがメインで作られているので、パソコンにつなぐようになっているわけですよ。そうすると充電もそこから充電できない、それ言ってないんですけど今回買ったやつの端子はめちゃくちゃ小さいかつ、そこにその端子を通じて充電できるので、iPhoneの充電をしながら使えるんですよ普通に。なんですけどロジッククールの方はそういう用途が全然違うので、充電しながら使うみたいなことができないというのと、あとは送信機自体もそこそこ大きいので、そういうのがあって普段使いには合わないなと思って持ってたんですけど、これではないなと思っていて新しく買ったというのが今回でした。

他のオプションの探求

という感じなのでこのライトスピードみたいなUSBで刺したら飛ばしてくれるという企画が、僕が今2個しか処理をしていらないんですけど、これ以外のものがあったら今僕がその用途として欲しいところにガッチリ当たるので、それ系をいろいろと使って比較してみたいなというのを今思っているところですね。と言っている間に今ちょうどそんな話をしていたら、ソニーも似たようなのを出しているみたいです。でもやっぱりこの送信機を刺しながらその送信機経由で充電できる、というこのスタイルなんですよね。ここがやっぱり今回買ったVRって付いているだけあって、VRメタクエスト2のイヤホンとして使えるようになっているんですよ。メタクエストを充電しながらやっぱり使いたいということで、そこの用途に合っているというのが今回の僕のiPhoneの用途にガッチしているという、これを満たすものが他にあったらいいなっていう、なんでお前は他のやつを未だに買ってよかったんですよ。よかったって最初言ったんですけど、バシッと当たったのになんで他のものを探しているかというと、用途には合っているんですけど、イヤホンの音質自体はそんなに良くないんですよ。価格帯も1万円くらいとかちょっと僕は安く売っているときにタイムセルみたいなの買ったので1万円くらいだったんですけど、1万4千円とか5千円くらいなのかなっていう、それくらいなのでちょっと音質が満足できないと、だから鑑賞用みたいな位置付けとしては効くんだったら他のがいい、でも普段使いはこっちみたいな感じになっちゃうので、これはもうちょい安倍のところが見つかったら、そっちの方がいいなっていうのは少し思っているんですが、ただ今回の用途を満たすこんなに、ある意味ニッチな充電しながらかつ支援なくiPhoneで使えるイヤホンみたいな、このバランスを満たしてくれる究極のイヤホンとして存在していたことがさすがAnkerと思っているので、これは感謝しかないんですけどね。

音声入力と日常使用におけるイヤホンの適合性

ということでイヤホンを買いましたが、音声入力に関してもかなりフィットしているので、音声入力を日頃バシバシ使って、それこそ僕が今本当によく使っているのは、ちょっと内容をまとめたいけどまだまとまってない時に、少し考えもみたいっていう時とかに、ChatGPTのGPTと自分で内容もむようなやつを作ってあるので、そいつらに話しかけるみたいな、さっきも5分くらい喋って聞いてみるとか、テスト的にやってみたんですけど、5分ダラダラ喋っていく、それを正確に読み取ってくれるっていうのを、どこでも歩いてる時とかでもできるようにしたいなっていう、ここのバランスを完璧に見させてくれるっていう、最近そういう用途を使っているんですけど、あとは普通にテキストを打つ時も、基本的には音声入力で、これは他のコンテンツでも話したんですけど、以前にも話したんですけど、音声入力をしてそれを送れるテキストの形に成形してくれるっていうのを、GPT自分専用の形、書き方っていろいろ人によって違うじゃないですか、それを僕の形に合わせてくれるようなやつを作ったので、それに入れてるとかっていうのをやったりしてるんですけど、そういうのとかができるようになってきている中での、この需要みたいなのを出せたっていう、本当にいいや本でしたね。ありがとうございました。

Ver.2

誰かくら寿司のおいしさを教えて欲しい（真顔）

shimojik

しもじま

2024/02/05 17:54

サマリー

究極のファーストフードとして寿司を推す
入店から退店までが10分以内で済むことが多い
寿司は食べ始めるまでが早く、無理なく食事ができる
寿司屋での効率的な注文方法を紹介
定番メニューを先に注文し、回転寿司で待ち時間に回っている寿司を食べる
回っていない場合は追加注文をしながら食べる
5皿6皿程度を目安に12口で食べられると説明
京都にある新しい寿司屋「蔵寿司」を訪れた経験を話す
蔵寿司の外装や入店時の体験が印象的だったと述べる
一人でカウンター席に座り、注文した寿司が美味しくなかったと感じる
寿司が美味しくないと思ったため、普段より多く食べてしまった
蔵寿司が好きな人と一緒に行き、美味しさを教えてもらいたいと望む
蔵寿司の美味しさを再評価する日を求めて再訪する意向を示す

記事

究極のファーストフード：寿司

究極のファーストフードって何だと思いますか? もうタイトルに書いてるんですけど、究極のファーストフードって寿司だと思うんですよ。最近は寿司に限らずですけど、入店と退店時刻ってレシートとかなんか色々書いてあるんでわかるじゃないですか。あれを見た時の、特に寿司とかだと入店が正確にわかるわけですけど、最近だとバーコード発行してから入るんで、寿司は10分切れるんですよ普通に無理なく。なんですけどスキヤとか吉野屋とかも早いんですけど、10分切ろうと思うと結構急いで食わないといけないんですよね。なので寿司がとにかく早い。食い始めるまでも早いし無理なく10分以内に出れる。

寿司の効率的な食べ方

そんなんで10分こだわってるかってのは別にこだわってるわけじゃないんですけど、急いで昼とかに特に出張とか、先日3日くらい京都に行ったんで、京都にいる間とか昼とかほぼ寿司なんですけど、っていうのにやってたりしてるんですよ。クラウド氏の話をしたいんですけど、どうやるか。最初多分10分と思ったけど別に15分とかかかるけどって思うと思うんですけど、これやり方コツがあって、絶対に頼むメニューってあるじゃないですか。それを1個か2個でいいんで最初に決めて入るんですよ。定番のやつです。僕の場合はサーモンとマグロあと納豆巻きぐらいの感じ。座った瞬間にまずそれを2皿3皿ぐらい頼みます。そうするとそれのオーダーが入るんで、それが来るまでの時間がここは2、3分あるじゃないですか。早いところは1分くらい来ますけど、でも2、3分あるじゃないですか。この2、3分の間に回ってる寿司を食べるんですよ。これ1巻か2巻か、1巻か2巻かで1皿か2皿。回ってない場合って最近増えてるんですけど、これちょっと困るんですよね。それはいいとして回ってたら1皿2皿食べるじゃないですか。食べつつもう1品ぐらい追加したいとか、もう2品追加したいみたいなのをその食べつつ追加するんですよ。っていう三重構造みたいにして、注文すると座って頼んで回ってるやつ取って、それを食べてる間に2、3皿来て、それを食べてる間に追加分の1皿2皿が来て、お買い切れって。

寿司の食べ応えと量

この感じだと寿司ってそんなに分量多くないんで、5皿6皿とかぐらいを食べようと思ったら、12口じゃないですか。1巻1口で食えるかってことですよ。なのでこれで10分切れると思います。ぜひって、ぜひじゃなくてもいいんですけど、それはいいんですけど、寿司を結構、特に回転寿司みたいなのよく食べてるんですけど。

京都の新しい寿司体験

この前京都市町だったので、京都の河原町のところに、新しくほんと最近とかではない、ここ1年半ぐらいか2年ぐらい前か、もうちょっと前に出た蔵寿司ができてたんですよ。僕蔵寿司に行った記憶がないので、蔵寿司できてると行ってみようかなと思って。走ったことあるのかな、でも記憶になくて。しかも外装すごいかっこいいんですよ。寿司のマグロみたいな、習字で書いたような、あるじゃないですか。そういう魚屋さんとかにあるような、あれが印刷なんですけど、壁にドラって書いてあって、なんか寿司ですっていう感じで、すげえかっこいいと思って。しかも映画館の隣にあったので、そういうのもあって、ちょっと生えてる感じで、これかっこいい、じゃあここにしようと思って。

蔵寿司の印象

入ってって、エスカレーターから階段が下がって、降りてって。最初ね、自動ドア開いたら、そこにもうすでにボタンがあって、ホテルなんかでよくある、入口にあるインターフォン的なやつあるじゃないですか。番号を押して、ああいう位置のところにも内側のところにあって、そこで発見ボタンをピッと押したら、もう部屋番号じゃなくて座席番号が出てくるみたいな、最高の体験なわけですよ。いやもう新しいところ、こんな体験作り込まれてんだと思って。でそれを受け取って、ズンズン中にその番号とか探しながら、入っていったら、僕がたぶん選んでなかっただけだと思うんですけど、一人ってやったからか、いやでもたぶん選んでなかったからだと思うんですけど、簡単お席になっちゃったんですよ。時間もそんなにお昼って感じじゃなくて、混んでなかったんで、テーブルが良かったんですけど、まあいいかい始めてたらしいと思って。その時点でちょっと、と思ってたんですけど、まあいいやと思ってカウンターに座ろうと思ったら、カウンターがまた狭いんですよね。なのですごい入り口、バーンとでかくシュッと入ってきて、かっこよくピッとやって入ってきたのに、奥自分の席に入った時に、うわなんか狭いと思って入ったという印象があったんですかね。

蔵寿司の味について

回ってないところだったので、全部注文。それこそマグロとサーモンと納豆巻きと、って頼んだんですけど、すぐ来てくれたんですけど、これが美味しくなかったんですよ。これあの、蔵寿司が好きっていう人いると思うんで、蔵寿司が好きの人と一回行きたい。美味しくないっていう、こうやって美味しさを教えてもらったら、あー確かにそういう感じかって分かると思うんですけど、少なくとも僕は一人で行って食べたから、あまりに美味しくなくて、いやこれはおかしいぞ、なんか米が美味しくないし針が、すごい、あの基本的に僕は、どんなものでも美味しいと思うぐらいなので、そこちょっとこう、許容範囲広いと思っていたんですけど、蔵寿司でダメだったらそんなこと言えなくなるじゃん、とかって思いながら。なので、いやそんなわけないぞって思いすぎた結果、だいたい僕、寿司買いたいんですよ、5皿6皿ぐらい。調子乗っても8皿ぐらいしか食べないんですけど、10皿超えて食べてしまったんですけど、なぜそこまで食べるかって言ったら、いやそんなわけないって思った、それぐらい美味しくなかったですね。これは蔵寿司がなのか、あそこがなのか、あそこのその日がだけなのか、ちょっとどうなんだろうと思いましたけど、あんまりこんな経験なかったので、どういうふうに解釈しようかな。でもこんなの蔵寿司まずいって検索しても、なんか似たような話が出てくるだけで終わるので、蔵寿司大好き、蔵寿司が寿司で一番美味いでしょっていう人、今の僕の感覚だといないんで、ぜひそういう人は声かけてもらって、全然おごりますので、蔵寿司のその代わり蔵寿司のに、蔵寿司がいかにいいかだけの話をしてほしいんですけど、ちょっと貴重なというか新しい体験をしましたね。また行きます。その旨さをいつかわかる日を求めていきます。

Ver.1