戻る

shimojik

しもじま

2024/01/30 14:32
投稿の画像

サマリー

  • 最近AI組み込み系の設計について考え、究極の形として3階層の設計を考案
  • コンテンツ、情報、インターフェースの3階層に分けることが重要と考えている
  • コンテンツレイヤーは最も理解しやすく、テキスト、画像、音声、動画などが含まれる
  • 情報レイヤーはコンテンツから抽出された情報(例えばサマリー)を整理・分類する層
  • インターフェースレイヤーはコンテンツや情報にアクセスするための手段を提供
  • コンテンツと情報は互いに行き来が可能で、例えば音声からサマリーを抽出し、それを基に再び音声を生成することができる
  • コンテンツには個人の特性やスタイルが反映され、インターフェースを通じて個別のニーズに合わせて調整される
  • YouTube動画をポッドキャスト形式に変換して利用するなど、インターフェースレイヤーの重要性が増している
  • 人々はインターネット上でコンテンツを得る際に、この3階層を行き来することになると予測
  • 3階層の設計は汎用性が高く、多くのサービスがこの設計に吸収されると考えられる
  • 今後のインターフェースはボットやアバターのような形で進化する可能性がある
  • 人々はコンテンツ、情報、インターフェース層を使い分け、それぞれの層に関わることになる
  • この3階層設計が非常に有効であると感じ、今後の発展に期待している

記事

AI組み込み系の設計についての考察

最近AI組み込み系の設計みたいなことをいろいろ考えている中で、これが究極の形なんじゃないかなというゴールに至ったので、これを紹介したいと思うんですが、ゴールみたいな大事なものをなぜ共有するのかみたいなのは逆なんです。ゴールだからみんなこうなるだろうということで、既に定番的な位置付けとして説明をしておきたいというか、まとめておきたいというところなんですが、ただ課題としてちょっと名前、ここの部分のもっといい名前ないかなみたいなのを考えているところがあるので、そこはまだ名前探し中、募集中というのがあったりしますが、説明というかまとめていきたいなと思います。

コンテンツとインターフェースの3階層設計

コンテンツとインターフェースを3階層に分ける設計ということなんですが、まずこの3階層の中で一番分かりやすいコンテンツレイヤーのところから広げていって、コンテンツと情報レイヤーが分かれていた方がいいというのは、そりゃそうだねとなった上で、でもそれは今の時代、そういうコンテンツへの触れ方はされないので、もう一個インターフェースレイヤーが必要という、不可欠という、こういう感じで展開していこうと思うんですけど、まずコンテンツですね。コンテンツレイヤー一番分かりやすいのが普通のコンテンツですね。テキストというのはブログとかツイートとか何でもいいんですけど、画像は画像だし、音声は音声ポッドキャストとかラジオとかそうだし、動画は動画ですね。YouTube動画とかもそうですし、というのが今のベースですよね。

情報レイヤーの重要性

これに、この中から情報を抽出して、例えば記事だったら記事のサマリーとか、ブログだったらブログのサマリーとか、そのブログのその人の書き方とかという情報がいろいろあるわけですよね。ブログとか音声、まさに今音色で聞いていただいている方は分かりやすいと思うんですけど、音色で聞いていただいて、その再生ボタンの下あたりにサマリーとか記事というのがあると思うんですけど、音声から抽出した記事という部分は全部なんですけど、普通の文字起こしなんですけど、それの上にサマリーってあると思うんですけど、これが音声内容のサマリーですよね。そこにはないですけど、情報としてはそのスタイルがあったりとか、いろんな情報がそこに含まれているものを、情報が含まれているということの見方ではなく、含まれている情報を抽出して分類したり整理することができるというのがこの情報レイヤーですね。コンテンツにはその情報があるという感じなんですけど、というこの2つのレイヤーに分けることができて、今まで開発してきているものっていうのは結構この感覚で作ってきているんですが、それこそまさに音色がそうなんですけど、音色は音声で話したものからサマリーが抽出されるっていうさっき話した通りですけど、みたいなものだったりとか。

コンテンツと情報の相互作用

このコンテンツと情報っていうのは互いに行き来できるので、音声からサマリーを抽出して、そこからもう1回音声を作るっていうのはもちろんできるっていうか、今技術的にどこまでできるか、品質がどこまでかっていうのはありますけど、できるっていうのはもちろんのこと、まさに今度音色のレイヤーと下の方にある音声からサマリーだけじゃなくて、記事ってあると思うんですけど、記事にはうまい具合にタイトル分けして、セグメント分けしてあるんですけど、それが自動的にされるようになっているのは、コンテンツから情報にいってるだけじゃなくて、コンテンツからコンテンツが生まれるみたいな感じになってるじゃないですか。

コンテンツへのアクセスとインターフェースの調整

ということで、情報とコンテンツのレイヤーの行き来ができるっていうのが、この2階層という、最初の話点にここの部分は、あ、まあそうか、そうだなっていう感じがするっていうのでわかりやすいんですが、ただ、この見方で、この状態で触られるコンテンツっていうのは、よっぽどその人のことを知っているとか、その人の声で聞きたいとか、その人が、みたいなところが中心になるレイヤーだと思うんですよね。もう一つ重要なのは、そのコンテンツに触れるときに、自分の欲しいインターフェースにチューニングしてもらうということなんですよ。

インターフェース層の具体例

これ、最近僕がやっていることでわかりやすい例があるんですけど、YouTubeを見るときに、YouTubeの動画、毎日これ見たいな、後で見るリストみたいな、もうリストめちゃくちゃあるんで、最近作った2024リストみたいな、何でも入れるリストとかっていうのを入れて、後で見るとかももう5000、5000だったかな、上限いっちゃってもう入れられないみたいになってるんですけどとかっていうのがいっぱいあるじゃないですか、みんな。で、それを全部見るっていうのは、今日見たいやつとかがまたプラスで20個とか溜まっていくんで、無理なわけですよ。そこで、もう無理だなと思って。見たいリストに入れたけど、見れなかったものは、ポッドキャストにしちゃおうと思って、自分用の。これもちろん公開してないですよ、その人たちの動画ですから、勝手に公開はしないですけど、スクリプトっていうか文字起こしっていうのは、最近はもうすぐ出せますから、別に悪いことしなくても、普通に表示されてるダウンロードボタンとかプラグイン入れたらできますから、その見たかった動画のスクリプトをまとめるという、ポッドキャストの形式にまとめるということを、GPTのAPI使ってやるっていうのをやってるんですよ。で、まとまった音声コンテンツ、ポッドキャストコンテンツみたいな感じにしてもらうので、ポッドキャストコンテンツにしてもらったやつを、またそれをソフトで読んでもらうっていう。そういう流れにして、前の日に見たいと思ったけど見切れなかったものを、軌道中にサマリーだけ聞いて、あとで、あ、だったらやっぱりあれ見たいな、みたいに思ったやつは見ようっていう風にしてるんですよ。なので、ポッドキャストの中で聞けるものっていうのは、こういう動画の次はこの動画の紹介ですみたいなところから始まって、内容のサマリーとその中の見どころと、見てねみたいな感じになるようにして、自分を見るモチベーションを上げるみたいな感じのポッドキャストにしてるんですけど、っていう番組を前の日に、例えば10本見れなかったとしたら、その10本分の紹介のポッドキャストを15分くらいのやつを作るわけですよ。そしたら、その15分のポッドキャストを軌道中とかに聞けば、もう一段は理解が進むじゃないですか。さっきも言ったように、その中で聞いた上で、やっぱりあれみたいなと思ったやつとかは後で見たりするんですけど、っていうのにする。

3階層構造の設計とその根拠

っていうのにすると、見切れなかったものも一応中身の方向性は掴めるみたいな使い方を最近ちょっとだけやってみてて、これ結構いいなと思ってるんですよね。これが今の話のその動画というコンテンツではなく、インターフェースがポッドキャストであるというのが、これが僕がここで言ってるインターフェース層に当たるというのの一つの例です。一見これは、それって音声から記事ができるのと、一緒に動画からポッドキャストができてる音声コンテンツができてるだけじゃないかと思うかもしれないんですけど、これはおそらく分けた方が良さそうだなと思っていて、っていうのも、僕が聞いてるポッドキャストはその人たちが意図しないコンテンツなわけです。全くもって意図しないコンテンツ。なので、あくまでインターフェースとして僕はそういう風に受け取ってるんですけど、それはクリエイターと僕の間にもう一つ何かがあるわけですね。一方で音色における音声から記事が生成されるっていうのは、音色というものがそういうものなので、それは音声を配信した、音声をアップした人が認識してるので、これはコンテンツなんじゃないかと。これも修正もちろんできますから、僕もアップして、ゴジラ3とかないかなっていうのを記事が上がってきた後に見たりするんですけど、っていうこれを踏まえて、このステップを踏んでる時点で、これはコンテンツと言えるだろうということだと思うんですよ。一方で、それに対してそうではなくて、作った人とか思ってなかった、意図しない見方がされるっていうのが今後どんどん当たり前になっていくんじゃないかと。もっと言ったら、インターフェースがボットっていうかアバターとかになっていくわけですよ。そうすると、この動画何て言ってんの?みたいな。この動画こういう動画です。へーって言った時のこのインターフェースっていうのは、情報レイヤーのサマリンをもらってるとかとちょっと違って、コンテンツとか情報のレイヤーとは別のインターフェースレイヤーとのやり取りを人間がやってるみたいな。この層を作った上での3階層構造で設計していくっていうのがシンプルっていうのもあって、割とこっから派生するみたいな感じになるんじゃないかなというのを最近感じてます。根拠はこの3つ。根拠、なぜこの3つのレイヤーになると言えるのか。お前の感想だろうと思うかもしれませんが。それはそうなんですけど、1つすごく僕の感想の延長でしかないんですけど、1個ちょっと根拠になるかもって、なんでこれを一般的になると思ったかというと、僕がこれまで十何年いろんなサービスを作ってきて、いろいろ手法作業をしてきたんですけど、8割9割ぐらいがこの設計に吸われる感じがあるんですよ。だから今どんどん過去開発したやつをリニューアルしまくってて、リニューアルしてこの構成になるようにデータベースのスキーマを組み替えていってるみたいなことを最近してるんですけど、こいつもこの構成でいいじゃん、これもこれでいいじゃんみたいな、# ポッドキャストを活用したコンテンツ消化法

見どころと、見てねみたいな感じになるようにして、自分を見るモチベーションを上げるみたいな感じのポッドキャストにしてるんですけど、っていう番組を前の日に、例えば10本見れなかったとしたら、その10本分の紹介のポッドキャストを15分くらいのやつを作るわけですよ。そしたら、その15分のポッドキャストを軌道中とかに聞けば、もう一段は理解が進むじゃないですか。さっきも言ったように、その中で聞いた上で、やっぱりあれみたいなと思ったやつとかは後で見たりするんですけど、っていうのにする。

インターフェース層の重要性

っていうのにすると、見切れなかったものも一応中身の方向性は掴めるみたいな使い方を最近ちょっとだけやってみてて、これ結構いいなと思ってるんですよね。これが今の話のその動画というコンテンツではなく、インターフェースがポッドキャストであるというのが、これが僕がここで言ってるインターフェース層に当たるというのの一つの例です。一見これは、それって音声から記事ができるのと、一緒に動画からポッドキャストができてる音声コンテンツができてるだけじゃないかと思うかもしれないんですけど、これはおそらく分けた方が良さそうだなと思っていて、っていうのも、僕が聞いてるポッドキャストはその人たちが意図しないコンテンツなわけです。全くもって意図しないコンテンツ。なので、あくまでインターフェースとして僕はそういう風に受け取ってるんですけど、それはクリエイターと僕の間にもう一つ何かがあるわけですね。一方で音色における音声から記事が生成されるっていうのは、音色というものがそういうものなので、それは音声を配信した、音声をアップした人が認識してるので、これはコンテンツなんじゃないかと。これも修正もちろんできますから、僕もアップして、ゴジラ3とかないかなっていうのを記事が上がってきた後に見たりするんですけど、っていうこれを踏まえて、このステップを踏んでる時点で、これはコンテンツと言えるだろうということだと思うんですよ。

新しいインターフェースの展望

一方で、それに対してそうではなくて、作った人とか思ってなかった、意図しない見方がされるっていうのが今後どんどん当たり前になっていくんじゃないかと。もっと言ったら、インターフェースがボットっていうかアバターとかになっていくわけですよ。そうすると、この動画何て言ってんの?みたいな。この動画こういう動画です。へーって言った時のこのインターフェースっていうのは、情報レイヤーのサマリンをもらってるとかとちょっと違って、コンテンツとか情報のレイヤーとは別のインターフェースレイヤーとのやり取りを人間がやってるみたいな。この層を作った上での3階層構造で設計していくっていうのがシンプルっていうのもあって、割とこっから派生するみたいな感じになるんじゃないかなというのを最近感じてます。根拠はこの3つ。根拠、なぜこの3つのレイヤーになると言えるのか。お前の感想だろうと思うかもしれませんが。それはそうなんですけど、1つすごく僕の感想の延長でしかないんですけど、1個ちょっと根拠になるかもって、なんでこれを一般的になると思ったかというと、僕がこれまで十何年いろんなサービスを作ってきて、いろいろ手法作業をしてきたんですけど、8割9割ぐらいがこの設計に吸われる感じがあるんですよ。だから今どんどん過去開発したやつをリニューアルしまくってて、リニューアルしてこの構成になるようにデータベースのスキーマを組み替えていってるみたいなことを最近してるんですけど、こいつもこの構成でいいじゃん、これもこれでいいじゃんみたいな、そのサービスいろいろ並べていって全部ここに吸われていく感じがあるというのがあって、もしかしてこれ基本設計として汎用性高いし、ど真ん中なんじゃないのって思ったっていう、本当さっき言ったように感想の延長なんですけど、そういう延長でしかないですけどそういうふうに思いましたっていうところですね。