shimojik
しもじま
サマリー
- 最近AI組み込み系の設計について考え、究極の形として3階層の設計を考案
- コンテンツ、情報、インターフェースの3階層に分けることが重要と考えている
- コンテンツレイヤーは最も理解しやすく、テキスト、画像、音声、動画などが含まれる
- 情報レイヤーはコンテンツから抽出された情報(例えばサマリー)を整理・分類する層
- インターフェースレイヤーはコンテンツや情報にアクセスするための手段を提供
- コンテンツと情報は互いに行き来が可能で、例えば音声からサマリーを抽出し、それを基に再び音声を生成することができる
- コンテンツには個人の特性やスタイルが反映され、インターフェースを通じて個別のニーズに合わせて調整される
- YouTube動画をポッドキャスト形式に変換して利用するなど、インターフェースレイヤーの重要性が増している
- 人々はインターネット上でコンテンツを得る際に、この3階層を行き来することになると予測
- 3階層の設計は汎用性が高く、多くのサービスがこの設計に吸収されると考えられる
- 今後のインターフェースはボットやアバターのような形で進化する可能性がある
- 人々はコンテンツ、情報、インターフェース層を使い分け、それぞれの層に関わることになる
- この3階層設計が非常に有効であると感じ、今後の発展に期待している
記事
AI組み込み系の設計についての考察
最近AI組み込み系の設計みたいなことをいろいろ考えている中で、これが究極の形なんじゃないかなというゴールに至ったので、これを紹介したいと思うんですが、ゴールみたいな大事なものをなぜ共有するのかみたいなのは逆なんです。ゴールだからみんなこうなるだろうということで、既に定番的な位置付けとして説明をしておきたいというか、まとめておきたいというところなんですが、ただ課題としてちょっと名前、ここの部分のもっといい名前ないかなみたいなのを考えているところがあるので、そこはまだ名前探し中、募集中というのがあったりしますが、説明というかまとめていきたいなと思います。
コンテンツとインターフェースの3階層設計
コンテンツとインターフェースを3階層に分ける設計ということなんですが、まずこの3階層の中で一番分かりやすいコンテンツレイヤーのところから広げていって、コンテンツと情報レイヤーが分かれていた方がいいというのは、そりゃそうだねとなった上で、でもそれは今の時代、そういうコンテンツへの触れ方はされないので、もう一個インターフェースレイヤーが必要という、不可欠という、こういう感じで展開していこうと思うんですけど、まずコンテンツですね。コンテンツレイヤー一番分かりやすいのが普通のコンテンツですね。テキストというのはブログとかツイートとか何でもいいんですけど、画像は画像だし、音声は音声ポッドキャストとかラジオとかそうだし、動画は動画ですね。YouTube動画とかもそうですし、というのが今のベースですよね。
情報レイヤーの重要性
これに、この中から情報を抽出して、例えば記事だったら記事のサマリーとか、ブログだったらブログのサマリーとか、そのブログのその人の書き方とかという情報がいろいろあるわけですよね。ブログとか音声、まさに今音色で聞いていただいている方は分かりやすいと思うんですけど、音色で聞いていただいて、その再生ボタンの下あたりにサマリーとか記事というのがあると思うんですけど、音声から抽出した記事という部分は全部なんですけど、普通の文字起こしなんですけど、それの上にサマリーってあると思うんですけど、これが音声内容のサマリーですよね。そこにはないですけど、情報としてはそのスタイルがあったりとか、いろんな情報がそこに含まれているものを、情報が含まれているということの見方ではなく、含まれている情報を抽出して分類したり整理することができるというのがこの情報レイヤーですね。コンテンツにはその情報があるという感じなんですけど、というこの2つのレイヤーに分けることができて、今まで開発してきているものっていうのは結構この感覚で作ってきているんですが、それこそまさに音色がそうなんですけど、音色は音声で話したものからサマリーが抽出されるっていうさっき話した通りですけど、みたいなものだったりとか。
コンテンツと情報の相互作用
このコンテンツと情報っていうのは互いに行き来できるので、音声からサマリーを抽出して、そこからもう1回音声を作るっていうのはもちろんできるっていうか、今技術的にどこまでできるか、品質がどこまでかっていうのはありますけど、できるっていうのはもちろんのこと、まさに今度音色のレイヤーと下の方にある音声からサマリーだけじゃなくて、記事ってあると思うんですけど、記事にはうまい具合にタイトル分けして、セグメント分けしてあるんですけど、それが自動的にされるようになっているのは、コンテンツから情報にいってるだけじゃなくて、コンテンツからコンテンツが生まれるみたいな感じになってるじゃないですか。
コンテンツへのアクセスとインターフェースの調整
ということで、情報とコンテンツのレイヤーの行き来ができるっていうのが、この2階層という、最初の話点にここの部分は、あ、まあそうか、そうだなっていう感じがするっていうのでわかりやすいんですが、ただ、この見方で、この状態で触られるコンテンツっていうのは、よっぽどその人のことを知っているとか、その人の声で聞きたいとか、その人が、みたいなところが中心になるレイヤーだと思うんですよね。もう一つ重要なのは、そのコンテンツに触れるときに、自分の欲しいインターフェースにチューニングしてもらうということなんですよ。
インターフェース層の具体例
これ、最近僕がやっていることでわかりやすい例があるんですけど、YouTubeを見るときに、YouTubeの動画、毎日これ見たいな、後で見るリストみたいな、もうリストめちゃくちゃあるんで、最近作った2024リストみたいな、何でも入れるリストとかっていうのを入れて、後で見るとかももう5000、5000だったかな、上限いっちゃってもう入れられないみたいになってるんですけどとかっていうのがいっぱいあるじゃないですか、みんな。で、それを全部見るっていうのは、今日見たいやつとかがまたプラスで20個とか溜まっていくんで、無理なわけですよ。そこで、もう無理だなと思って。見たいリストに入れたけど、見れなかったものは、ポッドキャストにしちゃおうと思って、自分用の。これもちろん公開してないですよ、その人たちの動画ですから、勝手に公開はしないですけど、スクリプトっていうか文字起こしっていうのは、最近はもうすぐ出せますから、別に悪いことしなくても、普通に表示されてるダウンロードボタンとかプラグイン入れたらできますから、その見たかった動画のスクリプトをまとめるという、ポッドキャストの形式にまとめるということを、GPTのAPI使ってやるっていうのをやってるんですよ。で、まとまった音声コンテンツ、ポッドキャストコンテンツみたいな感じにしてもらうので、ポッドキャストコンテンツにしてもらったやつを、またそれをソフトで読んでもらうっていう。そういう流れにして、前の日に見たいと思ったけど見切れなかったものを、軌道中にサマリーだけ聞いて、あとで、あ、だったらやっぱりあれ見たいな、みたいに思ったやつは見ようっていう風にしてるんですよ。なので、ポッドキャストの中で聞けるものっていうのは、こういう動画の次はこの動画の紹介ですみたいなところから始まって、内容のサマリーとその中の見どころと、見てねみたいな感じになるようにして、自分を見るモチベーションを上げるみたいな感じのポッドキャストにしてるんですけど、っていう番組を前の日に、例えば10本見れなかったとしたら、その10本分の紹介のポッドキャストを15分くらいのやつを作るわけですよ。そしたら、その15分のポッドキャストを軌道中とかに聞けば、もう一段は理解が進むじゃないですか。さっきも言ったように、その中で聞いた上で、やっぱりあれみたいなと思ったやつとかは後で見たりするんですけど、っていうのにする。
3階層構造の設計とその根拠
っていうのにすると、見切れなかったものも一応中身の方向性は掴めるみたいな使い方を最近ちょっとだけやってみてて、これ結構いいなと思ってるんですよね。これが今の話のその動画というコンテンツではなく、インターフェースがポッドキャストであるというのが、これが僕がここで言ってるインターフェース層に当たるというのの一つの例です。一見これは、それって音声から記事ができるのと、一緒に動画からポッドキャストができてる音声コンテンツができてるだけじゃないかと思うかもしれないんですけど、これはおそらく分けた方が良さそうだなと思っていて、っていうのも、僕が聞いてるポッドキャストはその人たちが意図しないコンテンツなわけです。全くもって意図しないコンテンツ。なので、あくまでインターフェースとして僕はそういう風に受け取ってるんですけど、それはクリエイターと僕の間にもう一つ何かがあるわけですね。一方で音色における音声から記事が生成されるっていうのは、音色というものがそういうものなので、それは音声を配信した、音声をアップした人が認識してるので、これはコンテンツなんじゃないかと。これも修正もちろんできますから、僕もアップして、ゴジラ3とかないかなっていうのを記事が上がってきた後に見たりするんですけど、っていうこれを踏まえて、このステップを踏んでる時点で、これはコンテンツと言えるだろうということだと思うんですよ。一方で、それに対してそうではなくて、作った人とか思ってなかった、意図しない見方がされるっていうのが今後どんどん当たり前になっていくんじゃないかと。もっと言ったら、インターフェースがボットっていうかアバターとかになっていくわけですよ。そうすると、この動画何て言ってんの?みたいな。この動画こういう動画です。へーって言った時のこのインターフェースっていうのは、情報レイヤーのサマリンをもらってるとかとちょっと違って、コンテンツとか情報のレイヤーとは別のインターフェースレイヤーとのやり取りを人間がやってるみたいな。この層を作った上での3階層構造で設計していくっていうのがシンプルっていうのもあって、割とこっから派生するみたいな感じになるんじゃないかなというのを最近感じてます。根拠はこの3つ。根拠、なぜこの3つのレイヤーになると言えるのか。お前の感想だろうと思うかもしれませんが。それはそうなんですけど、1つすごく僕の感想の延長でしかないんですけど、1個ちょっと根拠になるかもって、なんでこれを一般的になると思ったかというと、僕がこれまで十何年いろんなサービスを作ってきて、いろいろ手法作業をしてきたんですけど、8割9割ぐらいがこの設計に吸われる感じがあるんですよ。だから今どんどん過去開発したやつをリニューアルしまくってて、リニューアルしてこの構成になるようにデータベースのスキーマを組み替えていってるみたいなことを最近してるんですけど、こいつもこの構成でいいじゃん、これもこれでいいじゃんみたいな、# ポッドキャストを活用したコンテンツ消化法
見どころと、見てねみたいな感じになるようにして、自分を見るモチベーションを上げるみたいな感じのポッドキャストにしてるんですけど、っていう番組を前の日に、例えば10本見れなかったとしたら、その10本分の紹介のポッドキャストを15分くらいのやつを作るわけですよ。そしたら、その15分のポッドキャストを軌道中とかに聞けば、もう一段は理解が進むじゃないですか。さっきも言ったように、その中で聞いた上で、やっぱりあれみたいなと思ったやつとかは後で見たりするんですけど、っていうのにする。
インターフェース層の重要性
っていうのにすると、見切れなかったものも一応中身の方向性は掴めるみたいな使い方を最近ちょっとだけやってみてて、これ結構いいなと思ってるんですよね。これが今の話のその動画というコンテンツではなく、インターフェースがポッドキャストであるというのが、これが僕がここで言ってるインターフェース層に当たるというのの一つの例です。一見これは、それって音声から記事ができるのと、一緒に動画からポッドキャストができてる音声コンテンツができてるだけじゃないかと思うかもしれないんですけど、これはおそらく分けた方が良さそうだなと思っていて、っていうのも、僕が聞いてるポッドキャストはその人たちが意図しないコンテンツなわけです。全くもって意図しないコンテンツ。なので、あくまでインターフェースとして僕はそういう風に受け取ってるんですけど、それはクリエイターと僕の間にもう一つ何かがあるわけですね。一方で音色における音声から記事が生成されるっていうのは、音色というものがそういうものなので、それは音声を配信した、音声をアップした人が認識してるので、これはコンテンツなんじゃないかと。これも修正もちろんできますから、僕もアップして、ゴジラ3とかないかなっていうのを記事が上がってきた後に見たりするんですけど、っていうこれを踏まえて、このステップを踏んでる時点で、これはコンテンツと言えるだろうということだと思うんですよ。
新しいインターフェースの展望
一方で、それに対してそうではなくて、作った人とか思ってなかった、意図しない見方がされるっていうのが今後どんどん当たり前になっていくんじゃないかと。もっと言ったら、インターフェースがボットっていうかアバターとかになっていくわけですよ。そうすると、この動画何て言ってんの?みたいな。この動画こういう動画です。へーって言った時のこのインターフェースっていうのは、情報レイヤーのサマリンをもらってるとかとちょっと違って、コンテンツとか情報のレイヤーとは別のインターフェースレイヤーとのやり取りを人間がやってるみたいな。この層を作った上での3階層構造で設計していくっていうのがシンプルっていうのもあって、割とこっから派生するみたいな感じになるんじゃないかなというのを最近感じてます。根拠はこの3つ。根拠、なぜこの3つのレイヤーになると言えるのか。お前の感想だろうと思うかもしれませんが。それはそうなんですけど、1つすごく僕の感想の延長でしかないんですけど、1個ちょっと根拠になるかもって、なんでこれを一般的になると思ったかというと、僕がこれまで十何年いろんなサービスを作ってきて、いろいろ手法作業をしてきたんですけど、8割9割ぐらいがこの設計に吸われる感じがあるんですよ。だから今どんどん過去開発したやつをリニューアルしまくってて、リニューアルしてこの構成になるようにデータベースのスキーマを組み替えていってるみたいなことを最近してるんですけど、こいつもこの構成でいいじゃん、これもこれでいいじゃんみたいな、そのサービスいろいろ並べていって全部ここに吸われていく感じがあるというのがあって、もしかしてこれ基本設計として汎用性高いし、ど真ん中なんじゃないのって思ったっていう、本当さっき言ったように感想の延長なんですけど、そういう延長でしかないですけどそういうふうに思いましたっていうところですね。
shimojik
しもじま
サマリー
- OpenAIがAPIをアップデートし、全体的な精度向上に注力している。
- 特に注目すべきは、チャットGPTにおける新機能で、簡単なインターフェースの変更が大きな影響をもたらす。
- ユーザーは「@」機能を使って、自分のカスタマイズしたGPTs(GPTのバリエーション)を簡単に呼び出せるようになった。
- 現在は一度に一つのGPTsを呼び出せるが、将来的には複数のGPTsを組み合わせて使える可能性がある。
- この新機能により、ユーザーは以前よりも効率的にGPTsを利用できるようになり、インターフェースの改善が体験を大きく変えることが示された。
- 作者はこれまでブックマークを通じてGPTsを呼び出していたが、新機能によりその手間が省けるようになった。
- 作者は特に、音声入力されたテキストを自分の書き言葉に変換するカスタマイズしたGPTを頻繁に使用しており、新機能が使い勝手を向上させたと述べている。
- 新機能の導入によって、インターフェースの小さな変更が大きな利便性の向上をもたらし、サービスやUX/UI設計の重要性が再認識された。
- 作者は新機能の発見により開発へのモチベーションが高まり、週末に開発作業に取り組む意欲を示している。
記事
オープンAIのAPIアップデートについて
昨日おとといですかね、オープンAIがAPIいろいろアップデートしましたっていうので出てましたけど、いやこれすごいなぁと思いつつも、今サービス開発しているものをしくしくとアップデートしていって、全体的な精度を上げるっていうことをしていこうかなっていうところなんですけど。
新機能のインパクト
そこじゃないんですよ。今回タイトルにも書きましたけど、いやこんなインターフェース、こんなちっちゃい機能でこんなに威力発揮するかっていうアップデートが来ましたね。このAPIのほうじゃなくてチャットGPTのほうなんですけど、あっとでGPTsが呼べるようになっていましたね。
使い勝手の向上
いやーこんなちっちゃなことで、だからこれはアップデートの種類としてはそんなに大きくないと思うんですけど、体験がこんなに変わるみたいなのがこんなちっちゃいアップデートで来るかっていう、なんていうか、こう、あ、その手があったかみたいな。GPTsを自分で作ったやつ全部ブックマークに入れて、そっから呼び出すっていうのをしてたので、左側のあそこから選んだりするの、結構めんどくさいじゃないですか。マイGPTsとかから選ぶのめんどくさいし、みたいなので、全部ブックマークのほうに入れて、そっからやってたんですけど、それをもうしなくてよくなったと。
新機能の可能性
チャットGPTのほうからあっとってやって、そのあっとの後ろに自分のGPTsの名前を一部入れたら、保管で出してくれるので、普通にGPTを、チャットGPTを立ち上げた状態で、自分のお気に入りGPTsを呼び出すことができるっていう。これ今は1個しか呼び出せないんですけど、おそらくですけど、これ複数呼び出したりとか、あとはTOTに組み込むような形で、複数のGPTsで会話させるみたいなことができるようになるんじゃないかなと思うんです。
体験の変化とインターフェースの重要性
普通にアットを飛ばしまくるみたいな1個のプロプトの中でっていうのができるようになったら、すごいですよねっていうことしか言えないんですけど。いやなんかここ半年とか性能が上がっていく中で、どんどん性能が上がってきていいなと思いつつも、どういう使い方をすると自分が使いやすいのかなっていう使用量みたいな、利用量みたいなものはずっと上がっていくんですけど、一方で繋ぎ目のところを作っていかないと、結局うまく使えないから、じゃあ開発するしかない。インターフェースちゃんとゼロから考えて、いいもの何か作るしかないみたいな感じで思ってたんですけど、これがアットでGPTsを呼び込めるっていう、これにもう集約されてしまった感じがあるんじゃないかなと思って。
アップデートの発見とその衝撃
さっき気づいたんですけど、これはリリースっていうか、このAPIのリリースがおととい来てから、どのタイミングでこのアットの機能が来たのか気づいてなかったんですけど、さっき開いたらアット使いになりましたよっていうのが出てて、アット押してみてびっくりしたっていうので、ちょっと衝撃だったので、すぐ今取っているんですけど。
音声入力の改善と日常への応用
いやーこれはすごい。最近僕が一番使ってるっていうか、頻度的に一番よく使っているのが、下地テキストスラックバージョンっていうのを作ったのを使っていて、これは僕の過去のスラックの返答を真似して、文体を整えてくれっていう、ただそれだけなんですけど。これどうやって使うかっていうと、音声入力をして、音声入力したものって基本的に、点丸、ビッグマークとかそういうの、全部ついてないので、その状態で音声入力をしたものを僕の書き言葉に変えてもらうっていう、僕基本的にビッグマークよく使うので、ビッグマークを入れてもらうみたいなことをしてもらうっていうだけなんですけど。ただこれによって普通に音声入力を適当にすれば、僕が書く形になるので、これで音声入力を結構使いやすくなったっていうのでよく使ってたんです。
新機能の日常への統合
たださっき言ったようにブックマークから呼び出してたので、開くときに使おうと思って、わざわざそっちに行くっていう、頭を切り替えないといけなかったんですよ。それがもう今日からですよ。今日、朝のスラックを送るタイミングから、これが使えるなっていうのが分かったので、普通にChat GPTを立ち上げて、普通にアットを押して、下地テキスト、スラックバージョンって打ちにくいんですけど、SLぐらいでスラックというので、もうそれ出てくるので、アットSLって打つと、そのモードになって、あとは音声入力するだけっていう。
インターフェースのポテンシャルと今後の展望
いやー、いいですね。このちっちゃい変化でこんなに便利性が変わるぐらいに、逆に言えばインターフェースを変えるだけで打ち上がるポテンシャルを持ってるという状態が既にあるのに、まだインターフェースが世の中作り込まれていないので、なんか沸騰しきれてないというか、という感じはあるなっていうのを改めて思いました。だからそういう意味で、やっぱりチャットのインターフェース、いいんですけど、それぞれのサービスをどういう作りたい体験からサービス設計、UX設計、UI設計落とし込んでいく、みたいなのがこれは重要だし、これによって爆上がりする、打ち上がるみたいな感じになるのかなっていう。
アップデートの感想と開発への意欲
いや、内容があんまない感じは喋り始めるときからしてたんですよ。そのアットをつけるだけだからっていう内容っていうか、でかくないじゃないですか。アップデートとしては、このエンベリングのモデルで文字数っていうかトークスのベクトルの次元数を決められるとかっていう方がすごい感はあるんですけど、体験としてのこの、うーわ、マジこれやられたみたいな、考えもしなかったんで、後で呼べたらよかったみたいな。いやー、いいですね。開発ちょっとモチベーション上がったんで、この土日、頑張って開発していこうかなと思います。
shimojik
しもじま
サマリー
- 出張時は通常、リュックにカメラ(α7S III)を入れているが、最近はレンズを追加で持っていかない。
- 今回は久々にカメラを持っていかず、代わりにメインマイクを持参した。
- カメラの代わりにOsmo Pocket 3を持ってきているが、メインカメラは持っていない。
- 使用しているメインマイクは3種類あり、ナレーション用のSphere L22とピンマイクは持参していない。
- 今回持ってきたのはKM185というノイマンのマイクで、これが使えるのはF3レコーダーのおかげ。
- F3はレコーダーとオーディオインターフェースの機能を兼ね備えており、ミーティングやレコーディングに使用可能。
- F3は在庫が少なく、正規価格の1.5倍から2倍になることもあり、購入が難しい時期があった。
- F3にKM185をXLRケーブルで接続し、電池駆動で使用している。
- このセットアップにより、オーディオコンテンツの作成が容易になり、音質の向上がシームレスにできる。
- 出張でこのセットアップを使用するのは初めてで、KM185をメインマイクとして使用する新しい体験をしている。
- F3の素晴らしさに感銘を受け、もう一台購入してリュックに常備することを検討している。
記事
出張の荷物とカメラ選択
いつも出張に出るときにはリュックにカメラを入れてα7SⅢを入れているんですけど、最近はレンズは追加で持ってくることはないので、基本的には出るときにレンズを決めてそれでおしまいというので入れてるんですけど、今回は久しぶりにもう何ヶ月ぶりだろう、本当に久しぶりにカメラを持ってきませんでした。その代わりに持ってきたのがメインマイクっていうことなんですけど、ちょっとこの形でしばらくやってみようかなっていうカメラに関してはその代わりOsmo Pocket 3、これ本当にもう何度も言ってますけど最高のカメラ、Vlogカメラというかラフに撮れるカメラとして最高なわけですけど、こいつは持ってきているので、完全にカメラゼロというわけではないんですけど、メインカメラは持ってこないという形なんですけど。
メインマイクとレコーディング環境
それは良いとして、このやっぱりメインマイクの環境、今メインマイクっていうのは僕は3種類あって、3種類の中のナレーションで使っているメインマイクはSphere L22というやつで、これは今回持ってきてないです。あとメインマイク2番目のピンマイクがあるんですけど、こいつも持ってきてないです。なのでこの2番目のメインマイクみたいな感じの位置付けのKM185というノイマンのマイクを今回持ってきているという感じなんですけど、やっぱりこれができるようになったのはF3のおかげですよね。F3が本当にいいレコーダーであり、オーディオインターフェースにもなるというこの2個を兼ね備えてるっていうのは大きくて、この2個を兼ね備えてるということはミーティングにもこのメインマイク使えると、家でミーティングするときはこのメインマイク使っているので、その環境を使えるっていうのが一つと、もう一つはこっちのほうがメインなんですけど、レコーディングするっていうメインの使い方ができるっていうことですね。これを1台しかもこんな小さい環境でできるっていうのが本当にすごいですね。
F3レコーダーの価値と体験
このF3はずっと言ってるように、在庫がそもそもしばらくなかったので、買おうと思ってもなかなか買えない、正規の値段よりは1.5倍、2倍近くぐらいになってるっていう期間が長かったので、買えなかった、買いにくい環境ではあったんですけど、とはいえ在庫あるときもどうしようかなと思ってるうちに在庫なくなるっていうことを繰り返してたので本当に買えなかったわけじゃなかったんですよ。なんですけどもそういう感じでずるずる買わずいたんですが、本当に早く買っておけばよかったと思う周辺機器で言ったら一番ぐらいなんじゃないかなっていう感じですかね。本当にこれは何度も言ってますけど、おすすめできるオーディオインターフェースかつレコーダー、レコーダーのほうがメインだと思うんですけどですね。今このF3にKM185をXLRケーブルでつないで、F3のほうは電池駆動みたいな形でやっているので、それで完結してるんですよ。このミニマルさがこれで完結するということのオーディオコンテンツの作りやすさと、もう一つはここから音色にアップすることへのシームレスにできる感じ、直接iPhoneから取るのと比べれば一手間やっぱり取り込むのに手間がかかりますし、僕は今ワークフローの中では一回音の調整をしてるので、前後切ったりもしますしっていうのはあるので本当にここからパッとできるわけじゃないんですけど、自分が求めている音質をこの今ぐらいのワークフローで実現できるという形になったのは長らくマイクマイクって言いながらマイク本体のほうはいろいろ試してきましたけど、こっちのレコーダー側でこんなに体験が変わるとはっていうのは思ってもみなかったので、本当にこれはお勧めしたいデバイスですね。
出張での新しい試みと感想
今回出張に持ってくるっていうのは初めてで、出張でこの環境で取るっていうKM185でちゃんと取るっていうのは初めてだったんですけど、ちなみに本当の初めてではないっていうので言うと、α7S Mark IIIにつけるっていう形でKM185昔使ったことあったんですけど、なんか装備とやりたいことが一致しないみたいなので、だったら他のUSB系のマイク使うかな、でもカメラに使うどうしよっかなみにそこら辺やってしっくりこなかったんでやらなくなったんですよ。すぐ一回やってなんですけど、今回これ初めてKM185をメインでこのマイクだけ取る、カメラにつけるわけではなくマイクだけ取るっていう環境を試してみて、この体験は今までに感じたことのないすごい体験、いい体験だなとUXがすごいいいなというのを感じています。あまりにいいんで、今しばらく接続して試したりとかっていうのをしてて、あまりにいいんでこのF3をリュックのポケットのところ、内ポケットのところに常に置いておくようにもう一台買おうかなって思ってるぐらいですね。そこに置けば、そこにXLRのケーブルパチッとさせば、いつでも取れるっていう環境になるじゃないですか。そこまでして取りたい、その即座に取りたいかっていうそんなことはカメラと違ってないんですけど、そういう環境を作りたいなと思うぐらい、内ポケットを忍ばせたいなと思うぐらい、すごくいい環境をセットアップできたんじゃないかなと思います。これは本当、ちょっと繰り返しつこいですけど、本当におすすめですね。
shimojik
しもじま
サマリー
- ロクログレターのコンテンツがコピー可能になったアップデートが行われた
- ロクログレターは新機能で、スピードが50に達すると届く
- ロクログレターはプレイ内容に合わせた内容が届き、その日のプレイ内容や関連単語が含まれる
- 届いたコンテンツはコピーしてカード追加で登録が可能になり、復習が容易になった
- コンテンツのコピーにより、プレイ内容の理解が深まり、モチベーションが向上する
- スピード50が基準となり、ロクログレターの到着がプレイヤーの目標となる
- 新しいサイクルが形成され、プレイヤーのレベルアップが促進される
- ロクログレターの魅力が向上し、楽しみながら目標達成を目指せるようになった
記事
ロクログレターの新機能紹介
こんにちは。ロクログニュースです。今回のアップデートで、ロクログレターからコンテンツがコピーできるようになりました。
ロクログレターとは
このロクログレターというのは、先日公開したばかりの新しい機能なんですが、これは、夜9時までにスピードが50、ロクログの中にあるスピードという数値が50に達すると届くコンテンツのことです。このロクログレターというのは、それぞれの一人一人のプレイ内容に合わせた内容が届くので、まさにその日プレイした内容、単語とか表現を使った例文とか、あとは関連するプレイした単語の関連単語とかが含まれているという、そういうのが毎日1回届くようになっています。
コンテンツの活用方法
その届いたコンテンツは、今まではただ見ることしかできないということで、僕も届いたらスクショを撮ったりとかして、後で見直せるようにするというのをやっていたんですが、このコンテンツがコピーというボタンを押すだけで簡単にコピーすることができるようになって、このまま後はカード追加のところに行けば、そのままこれを登録、貼り付けすれば登録することができると、作成することができるようになりました。
学習効果の向上
これによってその日プレイした内容からさらにもう一歩進んだ内容だったり、後はその日プレイした内容のさらなるレベルアップというか、より自分の中に定着させるということがスムーズにできるようになったので、やっぱり今やっていることと近いところからやっていくほうが関心も集中度もそうですし、意欲も上がっていくというのはありますので、そういったコンテンツにたくさん触れながら、どんどんレベルアップしていただけるような流れになるんじゃないかと思います。
モチベーションの向上
ということで、このロクログレターをリリースしてからスピード50に達しないと、逆に言うとこれが来ない、レターが来ないということなので、これが一つの基準、50が基準となってきていいなという感じがしているんですが、このロクログレターが届くということがより、このコンテンツ、コンテンツでこのロクログレターが魅力的になることで、このロクログレターが届くということが一つの楽しみになって、スピード50にちゃんと着々と達していくという、流れがいいサイクルができたらいいなと思っています。
お知らせと次回の予告
ということで、今回はロクログレターからコンテンツがコピーできるようになりましたというお知らせでした。それではまた次回。
shimojik
しもじま
サマリー
- ロクログレターにコンテンツをコピーできる機能が追加された
- 新しいリリースにより、プレイ内容に合わせたコンテンツが生成される
- プレイ内容に即した表現が出てくることが良いと感じている
- 毎日届くコンテンツを全て登録すると情報が溢れる問題がある
- コンテンツの取捨選択が必要で、届いたコンテンツを読むだけで良い場合もある
- スピード50を達成することを目的にするプレイスタイルを提案
- コンテンツを自動で生成する代わりに、一定の距離を保ち手動登録を促すバランスを取る
- プレイに関連するコンテンツをリストに追加する提案があるが、現状はバランスを考慮している
- 6.6でプレイするためのコンテンツ提供が目的で、新しいフォーマットを検討中
- コンテンツに埋もれるのではなく、学習の視点を広げることが目的
- 単語に偏らず文全体への引力を働かせるようなコンテンツを目指す
- 6.6レターを充実させる計画があり、ポッドキャストや動画の提供も検討中
- 連続プレイによる報酬としてコンテンツを提供するモチベーションサイクルを作りたい
- コピー機能は最初はなかったが、不便さから改善して手動コピーを可能にした
- アップデートを通じてユーザー体験の改善を図り、66レターコピーの使用を推奨している
記事
ロクログレターアップデートの紹介
こんにちは、しもじまです。ロクログレターのアップデートということで、コンテンツがコピーできるようになったというアップデートをしたんですが、ここら辺はすごく難しい。バランスが難しいなと思うのが、コンテンツ、ロクログレターというのが新しくリリースして、その日のプレイ内容に合わせたコンテンツが出てくると、これは自分でもロクログレターをスピード50に足した上で受け取ってということをやってみると、結構やっぱり肌触りが違うというか、いいなと思うんですよね。
コンテンツの選択とバランス
いいなというのは、今日やったものがそのまま使われた表現がいっぱい出てくると、これが自分にダイレクトに影響してくるなみたいな。レベル感は、今日やった単語の同じようなレベル感のものがいろいろと次のレベルの単語として出てくると、次はこれやりたいなって思うという感じがあるんですが、一方で、結局毎日1回届くので、これをバンバンコンテンツとして、コンテンツがカードにどんどん登録しちゃうと、溢れてしまうわけですよね。
なので、全部登録したくなるという気持ちと、実際には全部は登録せずに取捨選択するという、このバランス。なんなら届いたやつを1回読むだけでいいとか、もっと言うと、届くということが目的になることで、スピード50っていうのを必ず達成できるということができるようになるとか、そういうことがクリアできていくという方が、6.6でのプレイ全体を考えるといいというのもあって。
ユーザー体験の設計
なので、ポンと一タップで、コンテンツがどんどん作られていく、それはどうしようかなというので、バランスをとって、コンテンツ、その6.6レターのコンテンツのコピーをして、自分で登録をしにいかないといけないという、若干の距離感を作りました。ここはもしかしたら今後、もっとプレイをどんどん回していくということができるようになってくれば、提案してもらったものっていう6.6レターの内容っていうのをどんどん自分のプレイするリストの中に入れていくっていうことができてもいいのかなと思うんですけど、現状はそこまでだとバランス、肩のほうにいっちゃうなっていうことで、今の形を取ったっていう感じですね。
プレイのためのコンテンツ提供
そもそも本当に6.6でプレイするためのコンテンツを届けるっていう、これが目的であるなら、今のフォーマットのレターっていう形を取るんじゃなくて、普通にコンテンツを新しく作って、自動で作りましたっていうのをやる形がいいと思うんで、これはこれでまた別でやろうと思ってるんですよ。
コンテンツの多様性と学習視点
なんですけど、そういうふうにとにかくたくさんのコンテンツを浴びるというか、埋もれるような感覚みたいになってほしいわけではなくて、あくまで今日やった内容から新しく届いた別のコンテンツ、それに関連するコンテンツがきて、それもまた一つの学習という大きな意味での視点を広げるというか、そういうちょっと違う視点を入れるみたいな意味で。どうしても本当に6.6のプレイだけしてると、単語によりがち、全体的によりがちなので、これを文のほうにちょっとずつ引力を働かせていくみたいなものというのをできるようになったらな、みたいな。そういうやりたいことと今の形がちゃんと結びついている状態にしたいなと。
ユーザー体験の改善と今後の展望
安易にコンテンツバンバン作れるぜ、みたいな感じにはしたくないなという、そういうところで、今回のバランスでいきました。この6.6レターに関しては、本当にこれからどんどん充実させていきたいなと思っていて、6.6レターのリリースのときに少し話したんですが、ポッドキャストのリリースだったりとか、リリースというか、ポッドキャストを届けるだったりとか、あとは今後は動画を届けるだったりとか、ということもやっていきたいなと思っているんですよね。
なので、今50でレターが届くというシンプルな形になっていますが、この50を3日連続でやったら音声が届くとか、動画が届くとか、違うパターンの中でいろいろと報酬がコンテンツとして提供されるような形、提供をこちらがするような形というので、それを一つのモチベーションのサイクルというか、全体のプレーサイクルというような形にいきたいなと思っているという感じです。
ということで、バランスが本当に今回どれぐらいがいいか、そもそもコピーできないにしようっていうことから最初の最初は始まったんですけど、自分がしばらく使っていけば使っていくほど、コピーを結局自分の手作業でしてるっていう結果になっていたので、だったらなんか不便、ただ不便なだけなので、ちょっとそれは形として体験として違うのかなと思って改善をしましたという、そんな今回アップデートでした。また、ぜひこの66レターコピーのほうも使っていただけるとうれしいです。
shimojik
しもじま
サマリー
- LLMの原価が高く、サービス価格が数千円になることが問題
- チャットGPTなどのサービスが3000円から4500円程度で提供されている
- チューニング可能なAPIの原価計算が可能で、ユーザーにとっては高価
- 新機能「アシスタント」はリトリーバルで学習データを読み込ませる機能
- 学習データ収集は容量が数百メガになりやすく、コストがかかる
- ユーザーごとにパーソナライズされたサービスを提供するとさらにコストが増大
- 単一のやり取りで原価が1000円程度かかることがある
- 通常のAPI呼び出しでは、一回のやり取りで数百円の原価がかかる
- サービス提供にはユーザーあたり数千円の原価を考慮する必要がある
- 価格設定は少なくとも1000円から2000円では難しく、計算を繰り返す必要がある
- AIを利用したサービスは多くの人に楽しんでもらいたいが、コストが高い
- ヘビーユーザーになるとコストが数万円に跳ね上がる可能性がある
- APIベースのサービスは構造的にコストが高いため、価格を下げるのが難しい
- AIを活用した学習サービスは、人に教えてもらうような高価格帯になる可能性がある
- 安価なAIサービスは体験の質が低下するため、価格と体験のバランスが課題
- 動画教材と比較してもAI学習サービスは高価だが、有用性は高い
- 社会人や企業はコスト対効果を考えられるが、学生には高コストが問題
- 原価が高いことは変えられないため、サービス設計に影響する
記事
LLMの高コスト問題
いやぁ、LLMの原価が高いですね。これは本当に困ったというか、だからもう考え方を変えないといけないなと思うんですけど。いやぁ、その原価の時点で結構な金額にいってしまうので、そうするとサービス自体の値段を原価すれすれで設定したとしても、それなりにいってしまうという数千円。チャットGPTとかが3000円とか4000円、チームプランとか出て4500円とかぐらいとか4000円ぐらいとか超えてるわけじゃないですか。まぁ、それぐらいはいくよね。チューニングがちがちにできるチャットGPT側がそれぐらいの金額帯になるわけですから。
APIの原価計算とサービス価格
チューニングできるというか、そもそも原価計算、本当の原価計算ができるわけじゃないですか。っていうのからすると、APIの費用から計算する我々、ユーザー側っていうか、APIのユーザー側は、それよりどうやっても普通に使えるサービスにすると高くなるわけですよ。
新機能アシスタントとデータ収集のコスト
それこそ先日、先日というかもう2ヶ月ぐらい経ちましたけど、出たアシスタントっていう機能っていうかAPI出ましたけど、あれとかはそのアシスタントを作ってそこにリトリーバルで学習データを読み込ませておけるみたいな感じになってるんですけど。この学習データをちょっと用意しようと思って頑張って収集すると、すぐ数十メガ、数百メガとかいくわけですけど、数百メガぐらい、ギガとかいかなくても数百メガぐらいいって。そいつをポンと作って、じゃあちょっと自由にやり取りできるようにしようっていうサービス作るだけで、平気で1人のユーザーあたり、そんなにアクティブじゃなくても1000円ぐらいかかってくるみたいな感じの金額感で。
ユーザー毎のカスタマイズとコスト増加
これをユーザーごとにもっとそれぞれの過去のブログをみんな好きにアップして学習させて出力させるようにしようみたいなサービスを提供するとか、いろんなアイディアがあるじゃないですか。過去のミーティングの議事録から、そこから参照してとかって、そういうのを1個作るごとに1000円、1000円、1000円みたいな、やり取りするごとにまたかかっていくみたいな、そんな感覚。
原価とサービス価格のジレンマ
あくまで1000円っていうのは、やり取りも多少はしたぐらいの規模感ではあるんですけど、ただここでこの金額感としてわかりやすいのは、ちょっとした1個のそういうやり取りができるものを作った段階で、原価で1000円かかるっていうことなんですよ。いや、これは高いでしょう。さすがに原価ですから。さらにこれが、今アシスタントを使うっていう話をしてるので、アシスタントを使わずに普通のやり取りっていうか、普通にAPI呼んでやるという使い方をしたらどれぐらいになるかなと思って計算してみると、例えば4、5万字とか7万字とか8万字ぐらいとか今送れますから、それぐらい送っちゃうと。1回のやり取りで、なんと400円とか500円とかっていう世界が見えてくるわけですよ。出力させる量にもよるので、2、300円とかで済んだりします。でも1回のやり取りですからね。1回送って帰ってきたら数百円ってやばいじゃないですか、原価として。何回、これ俺計算間違ってるのかなと思って計算し直すみたいな、何回したことかっていう感じなんですけど、間違ってなさそうということで。
サービス価格設定の難しさ
まあ、悩ましいですね。これを使ってサービスを作ろうと思うと、原価で1ユーザーあたり数千円っていうことの可能性を考えたら、安全っていうか、赤字にならないスレスレとかで4、5千円ぐらいになってくる。1000円がそんなにアクティブじゃないかもしれないとか、いろんな可能性があるんですけど、ただ最初いくらぐらいの設定にしますかっていうと、少なくとも1000円、2000円じゃ無理になってくるわけですよ。という感じの計算を文字通り電卓を叩きながら、電卓って手計算とかもしながら、ただの足し算掛け算を何度もしてるわけですけど。
マインドセットの変更とサービス提供の方向性
いやあ、高い。だからもうちょっとマインド変えていかないといけないよなという感じはしますよね。やっぱりせっかくサービスを作るのであれば、特に2Cのサービスであれば、たくさんの人に使ってほしくて、たくさんの人が思う存分そこで楽しんでほしいみたいに思うわけですけど、たくさん思う存分楽しむ方ですね。とか思う存分楽しむと、いや、APIの原価も段階で6,000円、7,000円いっちゃうんですけどみたいな感じ。思っていたらもう本当のヘビーユーザーとかになると、すぐに数万円とかいくと思うんですよ。
サービス設計の課題
っていうサービス設計になってしまう。それはうまく作ったとしても、APIをベースにやっていたらどうやってもそうなる。かといって、じゃあデータベース作って、そこでうまくやり取りしたらどうかっていうと、結局そのAPIの中にあるファンクションコーリング使うのもそれなりに価格高いんですよね、あいつ。っていうので、だから構造的に安くできないみたいなのを本当にどういうふうにするかなっていうのを悩んでますね。悩んでるって悩んでもしょうがないんですけど、だからこれは一つ考え方を本当に変えないといけないかもなと思っているのが過渡期なのかな。
AIを活用した学習サービスの価値とコスト
だから、このAIを使って例えば学習しようという学習サービスで学習しよう。AIをふんだんに使った学習サービスで学習するっていうのは、おそらくこれからすごくいい体験ができるようになっていくと思うんですけど、そのときのその体験の際にも必要な金額っていうのは、どちらかというと今までのアプリとかSaaSとかっていうこの感覚よりは人に教えてもらうみたいな。とか、人に何かしてもらうというこっち側のようなイメージのほうが近いんじゃないかなと思うんですよね。それこそ学習サービスとかでいうと動画見放題2,000円とか1,000円とか3,000円、4,000円とかみたいなこういう世界が結構今ある中で、無料とかもある中でAIに教えてもらうというこの体験っていうのは、人より人間が教える場合、例えば塾とか予備校とかで授業を受け放題。3万円。それで授業してっていうので言うと3万円安くて3万円から10万円とかのレンジぐらいが結構あると思うんですけど、これで言うと3万円とか4万円ぐらい。3万円、4万円ぐらいあるとちゃんと学習に使えるぐらいの感じがあると思うんですよね。そうなると今までの本当に1,000円、2,000円で見放題みたいな感じにはならないという。ここがそういう理解がされる感じになるのか、いやだったら人からでいいんじゃないのかっていう方に行くのか。
コスト削減とサービス品質のトレードオフ
でも良くないかもなって思うのは、これが高いからじゃあ安い作り方をしようとして、安い作り方をしようと思ったら結局文字量によるのでトークン数ですから、元になるコンテンツとか元になる条件みたいなものとかを圧縮するというか省略。圧縮で省略ですよね。省略すればいいわけですよね。でも省略、そこを省略するっていうことは返答の質が下がるっていうことなので、これダイレクトにそういう意味に繋がるので、そうなるとそれでいいのかっていう感じはあると思いますね。なので結局そうなると、そういう安いAIを使ったサービスが一番体験として良くなくて、それよりは動画を見るほうが良くてっていうこの感じになると思います。動画との立ち位置が。
AIサービスの価値とコストのバランス
これが今言ったような2万円、3万円、4万円とかぐらいのレンジでAIからどんどん教えてもらえるような環境、個別家庭教師集団みたいな、何でも教えてくれますみたいな、そういう感覚になったときの3万、4万、5万とかそれぐらいまでいけばかなり、5万とかいくとかなり使いやすいと思うんですけど、そこまでのそのAIの力をふんだんに使った状態っていうのは、動画とか安いAIサービス、AI学習とかと比べるとはるかに良いみたいな感じにはなると思うんですね。この金額感を今僕はまだなんとなく受け入れられていないので、社会人とかだったらまだ良いんですけど、まだ良いっていうか会社がやるとかだったらまだ会社がそこから生産性上げてとかって話になるので、社会人の個人よりは会社の中でっていうことなんですけど、まだそれでもって感じはしますけど、まだこれから個人、特にその個人の中でも中学生、高校生とかになってくると、これどういうふうにしていくのがいいのかなというのはかなり悩ましいなという感じがしますよね。
コストの現実とサービス設計への影響
まあでも本当に変数ではなく定数の部分である、減価がここまで高いところまで来ちゃってるっていうのは、これは事実ですから、これを変えられないというところで悩んでもしょうがないよなというのも一つあると思うんですよね。ということで、今そこら辺をどういうふうに解釈するかっていうことがサービスの設計に結構ダイレクトに影響するところなので、これはむずいという感じがしてますね。
shimojik
しもじま
サマリー
- 本日、病院に用事があって行ったが、自身の病気ではなく付き添いだった
- 過去に風邪や骨折などで病院に行った経験があるが、今回の病院訪問で印象が変わった
- 病院の手術フロアやICUに触れ、医療スタッフの良い雰囲気を感じた
- 若い頃にこのような経験をしていたら、医者になりたいと思ったかもしれないと考えた
- 大人になってからは自分の仕事の分野しか知らないが、医者になりたいと少し思った
- 医師や看護師が専門性を持ち、人々の解決したい問題に直接取り組むことに魅力を感じた
- 目や脳、神経などの医療分野についての専門知識と治療に興味を持った
- 看護師同士が協力して荷物を運ぶ姿や、医師同士の日常的な会話を見て、医療現場の雰囲気が良いと感じた
- 現在の仕事を続けながらも、医学について学びたいと思うが、医者になりたいかは別の話だと考えている
- 病院での経験が新鮮で衝撃的だったと感じた
記事
病院訪問の経験とその影響
今日はちょっと用事があって病院に行っていたんですけど、僕の病時ではなくて、突き沿いでという感じで行っていたんですが、今まで自分が病院に行った経験を思い出してみると、内科とかもちろん普通に風邪を引いたりしますからあったりしますし、あとは骨折とか腎体とかっていうのはありますけど、それもその場で治療してもらって、骨とか戻してもらって、経過を1週間後、2週間後とかに見るとか、それで全てなんじゃないかなっていう感じがあるので、病院のイメージっていうのは内科、風邪、インフル、コロナみたいななんかそういう感じのイメージが僕の中で強かったんですけど、今回手術とかをするようなフロアで看板というか出てるところも、ICUみたいな感じで出てるようなところに初めて触れて、大前提として多分その病院がかなり良い病院、その良いっていうのは看護師さんたちとかお医者さんたちの雰囲気が非常に良い空気感だったっていうのが多分これ大前提としてあるんですけど、今まで思っていた病院、自分にとっての病院と全然印象が変わったんですよね。
医者になりたいという新しい発見
これを今日体験して、これ自分が小さい頃にこの体験をしてしまったら、小学生とか中学生とか高校生のどこかで、高校生ぐらいでも全然だと思うんですけど、この経験をしてしまった、この経験でこの景色を見たりとか、ここに自分がかかるという経験をしたら、自分は医者になりたいと思ったんじゃないかと思ったんですよね。これまで大人になって自分も仕事をして、もちろんたくさんの分野は知らないというか自分でやってる分野しか知らないので、いろいろ見たわけではないけど、小中学生とかと比べると、もっと魅力的な仕事いっぱいあるよみたいなのがあったりするわけじゃないですか。小中学生で、日本の場合特に、学校の先生と親と親戚ぐらいしか大人がいないので、働くというイメージがなかなかない中であってますから、そういう意味で言うと、それよりは少なくとも、仕事に対する視野が広まった自分が35歳の僕が言って、医者になりたいかもってちょっと思ったんですよね。本当になりたいか、今やってることよりもなりたいかとかってなってくる、ちょっと話が複雑になってくるので、そういうことを言いたいわけではもちろんない、それはそうなんですけど、自分がまだ職業選択をしてないとか、もしくは年齢はそこまでなんですけど、それこそ今のAIの生成AI関連でやってること楽しいとか、自分がやってるそもそものサービス作りが楽しいとか、いろんなことが絡んでくるのをさっぴいた時の、何が残るかって医者は結構なりたいかもっていうのを思ったんですよね。
医療の専門性と魅力
だからそうなのかっていう、これは新しいというか今までに本当に考えたことも予想もしたこともなくて、もちろん感じたこともなかったことだったので、そうなんだ、医者の魅力みたいなんて今まで全然わからなかったんですけど、何が良かったかって、さっきも言ったように大前提として、そこにいるお医者さんたちが、看護師さんもそうなんですけど、いろんな人が目の前を3時間ぐらいいたので通るのを見ながら、すごい雰囲気が良かったっていうのもあったっていうのが大前提なんですけど、人の命を救ってるというよりは、人が一番困ってるところを助けるとかに対してじゃないんですよね。解決する問題を解消するというか、そういうのが直接、その人たちしかできないわけじゃないですか。いろんな法律なんかもあったりとか、手に入らないものとかも自分でできるものではない、免許を取れば簡単にできることでもない、ちゃんとシステムに乗っからないといけない、でもそのシステムの中でちゃんと最後は国家資格に受かって、しかもその後検証員もやってみたいな人たちだけが残って、ちゃんとやった上でやってるというのは、もちろんいろんなお医者さんいるんだとは思うんですけど、その専門性、その人が一番解消してほしい、解決してほしいと思うところに、その人たちしか関与できない、解消できないみたいな感覚が面白そうだなって思いましたね。それこそいろんなパーツ、目とか脳とか神経とかいろんなタイプがあると思う、だから今言ってるのが手術の話をしてるので、外科という分野なんじゃないかと思うんですけど、そういう人たちの治療を見た時に、目の専門の人たちが目にめちゃくちゃ詳しいわけじゃないですか。眼科という見方をしてたらそんな感じは今までしなかったんですけど、目にめちゃくちゃ詳しいというのは、人間にとってこんな重要なものに対して解像度を上げるって、ものすごく楽しいんじゃないかとか、脳なんかもちろんそうですし、筋肉とか骨とか皮膚とかもそうですよね。人体を覆ってるとか、一番外側にあるこの皮膚というこれに対しての、最もスペシャライズしたというか、スペシャリストである、しかもそこにまだ今も向き合っているという、その感じがすごいなっていうのを思いましたね。
病院での人間関係と日常の光景
だから自分が本当にもうちょっと手前、だいぶ手前ぐらいとかでやってた時のことを考えると、ああこれは危険だった、泣いたくなったら嫌だったとは思わないですけど、多分それ一択になってただろうなっていう感じはするので、なれるかどうかは別の話ですけど、なりたいかどうかの話ですから。でも本当にさっき言ったように、病院が良かったなと思ったのが、看護師さん同士が荷物を2人で運ぶみたいな時も、大きい荷物と小さい荷物があって、大きい荷物は2人で持つ、小さい荷物はもう1人の人が持つっていう、2人いるからもう片方の人は小さい荷物持たないわけじゃないですか。なので1人の人は両手で大きい荷物を持つんだけど、もう1人の人は片方の手で小さい荷物を、片方の手で大きい荷物をっていう感じで、じゃあ持っていきましょうかって持つ時に、片手で行きますかっていう何のこともない、普通の日常的な会話をしてるんですけど、そういう荷物を運ぶということだけでも、そういう声かけを自然とするというか、そういう日常的な作業を共同でやることを日頃からやってると、行きましょうみたいな感じになりそうじゃないですか。別にそんな特殊な状況でもないですし、そういう細かいのとか普通に会話してるやり取りとか、医師のお医者さんの人たちが黙々と歩いてるとかではなくて、お医者さん同士が女性と男性のお医者さん同士が、エレベーター待ってる間に、次いつ休みですかみたいな会話とかを、そこら辺でやってるみたいな、人間の会話がちゃんと近くにあるみたいな、そういうのも全体的な空気としてそういうのがあったりとかしたっていうのも、さっきも言ったように大きいかもしれないですけどね。いやでも面白そうだなと思いました。
医者になることへの思い
今から本当にお医者さんになるか、なりたいと思うかっていうと、神経とか脳とかについて勉強したいとは思いますけど、なりたいとかがちょっと違うかなっていうのは、それはこういう位置づけではありますけどね。とにかく初めての感覚だったので衝撃的でしたね。
shimojik
しもじま
サマリー
- 今年は生成AIが特に面白くなりそうで、すでに多くの新しいプロダクトや機能が登場している。
- 自分たちの会社でも年末年始を含めて生成AIの組み込み開発を進めている。
- 生成AIを組み込む際にはUI/UXが重要であり、ユーザーインターフェースの設計に多くの時間を費やす。
- もう一つの重要な要素がプロンプトであり、どのようにプロンプトを設計し性能を引き出すかがキーとなる。
- プロンプトの重要性にもかかわらず、Twitterなどで見かけるプロンプト関連のアカウントにはある種のチープさがあると感じる。
- プロンプトが自然言語であるため、多くの人が関与しやすく、それがチープさに繋がっているのかもしれない。
- Twitterでのプロンプトに関する書き方が、情報詳細っぽく、アテンションを引くことに重きを置いているように見える。
- 生成AIとの対話に長い時間をかけることの期待値が高まっており、プロンプトを書く訓練が体力作りになる。
- プロンプトを書く行為はPowerpoint資料を作る行為に似ており、ライトな感じがするが、クオリティを上げるためには時間と労力が必要。
- 生成AIに対する体力をつけるためには、プロンプトと向き合う時間を増やすことが重要である。
- 生成AIとの向き合いを通じて、プロンプトエンジニアリングに集中していく予定である。
- 生成AIとプロンプトに取り組むことに抵抗はなく、これからも楽しんで取り組んでいきたいと考えている。
記事
2024年の始まりと生成AIの展望
2024年ももう10日っていうことで、1月の3分の1が終わったっていう、あっという間すぎるんですけど。連休っていうか休みも多かったのでよかったんですけど、やっぱり今年一番面白くなりそうだなって思うのが生成愛ですよね。もうまだ10日なのにいろんな新しいプロダクトが出てきて、機能が出てきてみたいな感じで、ニュースが新しいのも読んでるだけで楽しいという感じですけど、僕もというか、うちも会社としても、引き続き生成AIの組み込みを開発の中でガンガンやっていこうという感じで年末年始も含めて結構開発をしてたんですけど。
開発におけるUI/UXとプロンプトの重要性
その中で開発するときの全体像としては、生成AIを組み込むという組み込んでどう使うかというインターフェースの部分、いわゆるUI/UXといわれる部分が非常に重要で、そこと向き合う部分っていうのがかなりの割合占めるわけですけど、もう一つ大きな二つの柱と言っていいんですかね、というぐらいのもう一つっていうのがプロンプトなわけですよ。組み込むって言っても出来上がったものを組み込むわけではなくて、プロンプトを作ってプロンプトと合わせて組み込むので、いかにプロンプトで性能を引き出せるかっていうことがUI/UXのパフォーマンスをさらに上げていくかという意味で重要なわけですけど。
プロンプトの重要性とTwitter上の情報発信
ただ、このプロンプトって面白いなって思うのが、プロンプトってめちゃくちゃ重要で、めちゃくちゃ力の差が出るところなので、どうやって力上げるかみたいな感じで取り組んでいるんですけど、一方でTwitterとかで見るプロンプト周りのアカウントとかっていうのは、なんかチープさがある。それは、だから僕も別に、だからってことはないんですけど、僕も別に発信をプロンプトに関してしていかないっていうのは、何となく情報詳細っぽさがあるんですよね。ただ、これは何でかなって思ったときに、プロンプトが悪い最初思ってたのは、プロンプトが自然言語だから、どうしてもいろんな人が入ってきて、いろんな人がプロンプトについて発言をするし、その発言を見て、自分も別にそんなこと分かってるよっていう距離感みたいなものが生じて、それによってチープさが出てしまうのかなって最初は思ってたんですけど、何かそうじゃないかもしれないなっていうのを最近思ってて、これはTwitterの書き方、プロンプトについて書く人たち、生成AIについて書く何かを発言するTwitter上で発言する人たちの書き方が、かまりに情報詳細っぽいというか、人のアテンションを引くことだけをフォークに力を入れてるように見えるっていう、これなんじゃないかなって最近思ってきてます。
生成AIとの向き合い方とプロンプトの書き方
だから、いいんですけど、いろんな人たちがそうやって発言することは、活性化もされていくと思うんですけど、一方でそういう発言が多いことによって、距離を取ってしまう流れみたいなのもあるんじゃないかなっていう、それぞれのどのアカウントかってことではないんですけど。引きのある一言から入って、だから僕ミュートしてるテキストいっぱいあるんですよね、生成AI関連の。生成AI関連とかじゃないんです、だからそのアカウントがそれぞれのそのっていうか、それらのアカウントがっていうだけなんですけど。知りませんでしたかみたいな、これ僕は知ってますよ、もうこの今頭に浮かんでる何個かあるんですけど、それを言うと、それで検索して、この人って特定されちゃうんです、そのこの人とかじゃないんですよ、その書き方のジャンルとして、あなたが知らないのは残念ですみたいな、そういう書き方から始まって、この以下の内容を知ればみたいな、これって本当に情報詳細のアフィリエイトのときにいっぱい見たという記憶が呼び起こされるというか、そういう感じがするんですけど。
生成AIとの対話時間とプロンプトのクオリティ
本当にそういう発言が増えれば増えるほど、このプロンプトということとの距離が、心理的な距離が開く人たちが一定いると思うんですね。これが、この心理的な距離がそれによって開く人たちがいるっていうのは、結構もったいないなと思ってて。プロンプトの書き方みたいなものっていっぱい、プロンプト生成関連全般のニュースもそうなんですけど、それへの向き合いの中でやっぱり中心となるのは、プロンプトの書き方みたいな話だと思うんですけど。プロンプトの書き方みたいなものっていうのは、おそらくかなりすぐに短いうちにあんまり性能差が出なくなっていくというのは、それはそうだなと思う、そういうふうに言われてますし、僕もそうだなと思うんですけど。ただ、ここで結構重要だと思うのは、生成AIに対する体力とか、あとはかける時間の期待値みたいなものだと思うんですよ。かける時間の期待値っていうと、ちょっと表現難しくなっちゃうんですけど、どれだけ時間をかけられるかみたいな意味ですね。ここで言ってるのっていうのは、生成AIがやっぱりすごく優秀に見えるので、普通のGoogle検索をしてたときのようなものの延長ぐらいで2、3分ぐらいの対話の中で完結するような期待値、それぐらいの時間しかかけたくないというか、かけないと思っているみたいな感じというのを、いかにしてこれを30分とか1時間とか、1個の出力をさせるのに対して30分とか1時間とか2時間とかという時間をかけられるかみたいな、そういう意味の体力を伸ばしていくっていうのが、かなり重要だと思うんですよ。生成AIで何でもできるからこそ、生成AIとの戯れをガッと思いっきりできるみたいな、この体力をつけるために今できることって何かっていうと、プロンプトを書きまくるしかないと思うんですよ。プロンプトをたくさん書くっていうのも、今言ってる体力みたいな話でいうと、2時間、別に簡単なものをたくさんやるんじゃなくて、いかに深く自分が欲しいものを出してもらうために試行錯誤をするかみたいなことだと思うんですね。この基礎を踏まえて、基礎だし体力を踏まえて2時間かけて1個の出力をしてもらうっていうのをLLMに対してやるっていうことが、ある意味自然と思えるぐらいの体力がついた状態で、性能が上がっていくと、このパフォーマンスが出せると思うんですけど。
プロンプトとPowerpointの比較
一声で出てくるもの、3分、5分、ちょっと長くて15分くらいの中でしか出せないものっていうのは、やっぱり結局みんなと同じ出力になるので、これをいかに伸ばすかが本質っていうか、この差別化の上ですごく重要な要素だと思うんですけど。話戻し、だからその体力みたいなものをつける、今一番いい方法っていうのは、プロンプトと向き合うことだと思うので。そういう意味で描き合うまではいかないですけど、情報が広がるのにも加担してるっていうか、かなりプラスな要素もあるので、それ自体はいいことだなと思うんですけど、そこの距離感生んでるなみたいなことを思ったときに、これ気持ちがあるなと思ったのが、さっきの情報詳細じゃなくて、情報詳細っぽさが、だから本当によくないんですけど、この誰でもできるライトさみたいなのでいうと、Powerpointとか結構近いのかなって。プロンプトを作る、プロンプトを書くっていう行為とPowerpointを書くっていう行為、Powerpointなんか誰でも作れるし、資料作るってばっかりで、実際の動きがないみたいなので批判されたりもする位置づけだと思うんですよ。Powerpointを作る、資料を作るっていう仕事っていうのは、ただ、それはクオリティーが一定低い世界の話であって、ある程度のクオリティーを出していこうと思うと、まさに僕というか、うちが学習動画をずっと作ってるので、ずっとうまくいかないというか難しいなって言い続けてるのがまさにそこなんですけど、Powerpoint自体は使ってないので、それをフォトショーとかいられで作ってるんですけど、とはいえやってることは同じで、その資料っていうか動画で表示する資料みたいなものをシンプルに普通に作れるっていう簡単に作れそうだという直感に反して、作れば作るほどというか、作っても作ってもうまくいかないという感じがあるので、そういう意味でPowerpointの感じ、つまりそのライトさっていう意味での同じ感じ、プロンプトって言われるとすごいライトな感じがするし、Powerpointで資料作るっていうとすごくライトな感じがするっていう入り口のライトさと、それをクオリティを上げる上でやることは、プロンプトに関してもとにかくそこに向き合う時間、その1個の生成に対して2時間3時間しっかりかけて、そこのクオリティを上げられるかみたいな戦いをするのが重要という意味で、Powerpointのほうも簡単に資料作れると思いきや、ちゃんとレイアウト作って分かりやすくとか、構成考えると全然うまくいかない、構成までいくとかなり範囲が広がっちゃうので、Markmanでレイアウトだけにフォーカスするとしても、レイアウト作るのめちゃくちゃ難しいという、これを2時間とか3時間そのレイアウトの向き合うみたいなことをするっていう、この位置付け感っていうのがすごく似てて、生成AIとPowerpoint、どっちもそっから出てくる価値みたいなものは、割と最初思。### プロンプトの重要性とパフォーマンスの向上
いかに深く自分が欲しいものを出してもらうために試行錯誤をするか、ということが重要だと思います。この基礎を踏まえて、体力を養いながら、2時間かけて1個の出力をLLMに対して求めることが、ある意味自然と思えるほどの体力がついた状態で、性能が上がっていくと、このパフォーマンスが出せると思います。
プロンプトとPowerpointの類似性
一声で出てくるもの、3分、5分、ちょっと長くて15分くらいの中でしか出せないものは、結局みんなと同じ出力になります。これをいかに伸ばすかが、差別化の上で非常に重要な要素です。そのためには、プロンプトと向き合うことが今一番の方法です。情報が広がることはプラスな要素ですが、情報詳細っぽさがあると、それは本当に良くないです。誰でもできるライトさでいうと、Powerpointはプロンプト作成に近いかもしれません。Powerpointは誰でも作れますが、クオリティが一定低い世界の話で、高いクオリティを目指すとなると、学習動画を作る私たちのように、うまくいかないと感じることが多いです。Powerpoint自体は使っていませんが、フォトショップで作成しているものも、資料や動画で表示する資料をシンプルに作るのは直感に反して難しいです。Powerpointのライトさと同じ感じがプロンプトにもありますが、クオリティを上げるためには、1個の生成に対して2時間3時間しっかりかけることが重要です。Powerpointも、簡単に資料を作れると思いがちですが、レイアウトや構成を考えると全然うまくいかないことがあります。Markmanでレイアウトにフォーカスしても、レイアウト作成は非常に難しいです。この位置付け感が、生成AIとPowerpointで非常に似ていて、どちらもそこから出てくる価値は、最初に思っていたライトさと比べればかなり高いと思います。
生成AIとPowerpointの価値とチープさの認識
Powerpointと比べると、生成AIの出力する価値はかなり高いと思います。それはPowerpointの拡張版のような感じがあります。チープさというものを感じることがありますが、それは自分が取り組むのに抵抗があるということではありません。個人としても、会社全体としても、生成AIに向き合うこと、プロンプトエンジニアリングと向き合っていくことは、特にここ半年はかなり向き合っていこうと思っています。意識的に向き合うという意味では、この半年ぐらいはもうちょっとやっていこうと思っています。プロンプト体力作りをみんなでやっていけると面白いですよね。最近、ずっと思っていて、楽しんでいきたいと思っています。