shimojik
しもじま
サマリー
- 最近はコンテンツとインターフェースを3階層に分ける設計に取り組んでいる
- この設計は生成AIを基にしており、コンテンツとUIの関係を整理している
- 3階層は「インターフェース」「コンテンツ」「情報」に分けられている
- インターフェースはユーザーが直接触れる部分であり、最も表面にある
- コンテンツはテキスト、画像、音声、動画などユーザーが見る情報を指す
- 情報はコンテンツから抽出されるサマリーやスタイルなどのメタ情報
- コンテンツと情報は相互に生成し合える関係にある
- 例えば、ブログからサマリーを抽出したり、サマリーからテキストを生成したりする
- インターフェースはユーザーにとって最適な形でコンテンツを表示する層
- サービスの特性はインターフェースのチューニングによって現れる
- コンテンツの品質とインターフェースのチューニングのバランスがサービスの印象を決定する
- サービス設計において、この3階層レイヤーのアプローチは一般化していく可能性がある
記事
3階層設計の概要
最近、コンテンツとインターフェースを3階層に分ける設計を行っています。これは、生成AIを元にしたコンテンツとそのUI、そのコンテンツを表示する部分との分担をどう設計するかを考えているものです。この3階層として整理していく形が、一般的な設計として落ち着いていくのではないかと感じています。
3階層の具体的な分類
3階層設計では、インターフェース、コンテンツ、情報の3つに分けています。まず、インターフェースはユーザーが直接触る部分で、表面にあります。しかし、ここは少し分かりにくいので、コンテンツから説明する方が分かりやすいでしょう。
コンテンツは、人が見るテキスト、画像、音声、動画などの普通のコンテンツです。このコンテンツの部分は、インターフェースに直接表示されないもので、インターフェースにおけるテキストとコンテンツにおけるテキストは別物です。
情報レイヤーとコンテンツの関係
コンテンツのさらに奥にあるのが情報レイヤーです。テキストに対するサマリーやスタイル、画像についてのテイストなど、様々な情報があります。これらの情報はコンテンツから抽出され、またその情報からコンテンツを生成することが可能です。この情報レイヤーは、コンテンツと相互に生成し合える状態になっています。
インターフェースレイヤーの役割
インターフェースレイヤーは、ユーザーがメインで触れていく部分です。ここでは、コンテンツレイヤーから生み出される情報をユーザーごとにチューニングされたテキスト、画像、音声、動画などに翻訳し、表示されます。ユーザーにとって最適な形で表現されることがインターフェースの目的です。
サービス特性と3階層レイヤーのバランス
サービス特性は、インターフェースレイヤーのチューニングによって現れますが、3階層レイヤーで出来上がる部分は基本となります。サービスごとにコンテンツの作成者や情報の抽出方法が異なり、これらはサービスの品質に関わってきます。インターフェースとコンテンツ、情報の優先度や表示されるものの濃さをどうバランスさせるかが、サービス設計の重要な方針となります。# サービス設計におけるバランスの重要性
適であるということは尊重しつつも、どこまでコンテンツとか情報の部分との優先度、表示されるものの濃さみたいなものをどっちを優先するかみたいなところは、差し掛けによって結構変わってくるかなと思います。つまり、もともとのコンテンツを9割、チューニングを1割としたものをインターフェースに表示するのか、コンテンツの部分をあくまで情報として扱ってしまって、それをコンテンツのほうは1割、ユーザーに合わせる、ユーザーに向けてチューニングするというのを9割として表示するのか、生成するのかというこのバランスによって、本当にだいぶサービス自体の印象も変わってくると思うんですよね。
サービス特性の表出と設計方針
というのをどうするかっていうことが、今後、チューニングとしてはすごくサービス特性が現れるところなのかなと思います。逆に言えば、そこにサービス特性が現れはするものの、この3階層レイヤーで出来上がっていくようなところというのは基本となるのかなという感じかなというのが、最近サービス設計をして思うところです。
コンテンツの重要性と情報の取り扱い
あとはサービスごとに、「ここは違うよね」というので言うと、一番大事なコンテンツのところは、そこに誰がコンテンツを作るのかということがベースになりますから、ここの部分が重要で、かつさらに、その先の情報の部分に関しては、コンテンツからどういう情報を取っていくのか、抽出していくのかというのは、これもサービスによって違うところはあると思うんですけど、ここはある意味、品質の部分で、ユーザー側から見ると、もちろん品質重要なんですけど、サービスを使ってて、サービスによって全然違うなというところで言うと、やっぱりもうちょっと上のインターフェースレイヤーのところになってくるのかなという感じがするので、その品質部分でクオリティを上げるという部分と、インターフェースの部分でのチューニングみたいな部分のこの2つ、どっちが重要ってことはなくて、優先的にはあくまでクオリティなので、奥であればあるほど、これは一般的なっていうか普通のサービスもそうですけど、普通のっていうか、この生成や組み込まないようなサービスでもそうですけど、そういう優先度みたいなものはある程度ありつつも、全体のバランスとしては今言ってるような形になるのかなというのが、最近の設計の方針としてやっていて、結構これは一般化していくんじゃないかなというのを最近感じています。
shimojik
しもじま
サマリー
- 最近AI組み込み系の設計について考え、究極の形として3階層の設計を考案
- コンテンツ、情報、インターフェースの3階層に分けることが重要と考えている
- コンテンツレイヤーは最も理解しやすく、テキスト、画像、音声、動画などが含まれる
- 情報レイヤーはコンテンツから抽出された情報(例えばサマリー)を整理・分類する層
- インターフェースレイヤーはコンテンツや情報にアクセスするための手段を提供
- コンテンツと情報は互いに行き来が可能で、例えば音声からサマリーを抽出し、それを基に再び音声を生成することができる
- コンテンツには個人の特性やスタイルが反映され、インターフェースを通じて個別のニーズに合わせて調整される
- YouTube動画をポッドキャスト形式に変換して利用するなど、インターフェースレイヤーの重要性が増している
- 人々はインターネット上でコンテンツを得る際に、この3階層を行き来することになると予測
- 3階層の設計は汎用性が高く、多くのサービスがこの設計に吸収されると考えられる
- 今後のインターフェースはボットやアバターのような形で進化する可能性がある
- 人々はコンテンツ、情報、インターフェース層を使い分け、それぞれの層に関わることになる
- この3階層設計が非常に有効であると感じ、今後の発展に期待している
記事
AI組み込み系の設計についての考察
最近AI組み込み系の設計みたいなことをいろいろ考えている中で、これが究極の形なんじゃないかなというゴールに至ったので、これを紹介したいと思うんですが、ゴールみたいな大事なものをなぜ共有するのかみたいなのは逆なんです。ゴールだからみんなこうなるだろうということで、既に定番的な位置付けとして説明をしておきたいというか、まとめておきたいというところなんですが、ただ課題としてちょっと名前、ここの部分のもっといい名前ないかなみたいなのを考えているところがあるので、そこはまだ名前探し中、募集中というのがあったりしますが、説明というかまとめていきたいなと思います。
コンテンツとインターフェースの3階層設計
コンテンツとインターフェースを3階層に分ける設計ということなんですが、まずこの3階層の中で一番分かりやすいコンテンツレイヤーのところから広げていって、コンテンツと情報レイヤーが分かれていた方がいいというのは、そりゃそうだねとなった上で、でもそれは今の時代、そういうコンテンツへの触れ方はされないので、もう一個インターフェースレイヤーが必要という、不可欠という、こういう感じで展開していこうと思うんですけど、まずコンテンツですね。コンテンツレイヤー一番分かりやすいのが普通のコンテンツですね。テキストというのはブログとかツイートとか何でもいいんですけど、画像は画像だし、音声は音声ポッドキャストとかラジオとかそうだし、動画は動画ですね。YouTube動画とかもそうですし、というのが今のベースですよね。
情報レイヤーの重要性
これに、この中から情報を抽出して、例えば記事だったら記事のサマリーとか、ブログだったらブログのサマリーとか、そのブログのその人の書き方とかという情報がいろいろあるわけですよね。ブログとか音声、まさに今音色で聞いていただいている方は分かりやすいと思うんですけど、音色で聞いていただいて、その再生ボタンの下あたりにサマリーとか記事というのがあると思うんですけど、音声から抽出した記事という部分は全部なんですけど、普通の文字起こしなんですけど、それの上にサマリーってあると思うんですけど、これが音声内容のサマリーですよね。そこにはないですけど、情報としてはそのスタイルがあったりとか、いろんな情報がそこに含まれているものを、情報が含まれているということの見方ではなく、含まれている情報を抽出して分類したり整理することができるというのがこの情報レイヤーですね。コンテンツにはその情報があるという感じなんですけど、というこの2つのレイヤーに分けることができて、今まで開発してきているものっていうのは結構この感覚で作ってきているんですが、それこそまさに音色がそうなんですけど、音色は音声で話したものからサマリーが抽出されるっていうさっき話した通りですけど、みたいなものだったりとか。
コンテンツと情報の相互作用
このコンテンツと情報っていうのは互いに行き来できるので、音声からサマリーを抽出して、そこからもう1回音声を作るっていうのはもちろんできるっていうか、今技術的にどこまでできるか、品質がどこまでかっていうのはありますけど、できるっていうのはもちろんのこと、まさに今度音色のレイヤーと下の方にある音声からサマリーだけじゃなくて、記事ってあると思うんですけど、記事にはうまい具合にタイトル分けして、セグメント分けしてあるんですけど、それが自動的にされるようになっているのは、コンテンツから情報にいってるだけじゃなくて、コンテンツからコンテンツが生まれるみたいな感じになってるじゃないですか。
コンテンツへのアクセスとインターフェースの調整
ということで、情報とコンテンツのレイヤーの行き来ができるっていうのが、この2階層という、最初の話点にここの部分は、あ、まあそうか、そうだなっていう感じがするっていうのでわかりやすいんですが、ただ、この見方で、この状態で触られるコンテンツっていうのは、よっぽどその人のことを知っているとか、その人の声で聞きたいとか、その人が、みたいなところが中心になるレイヤーだと思うんですよね。もう一つ重要なのは、そのコンテンツに触れるときに、自分の欲しいインターフェースにチューニングしてもらうということなんですよ。
インターフェース層の具体例
これ、最近僕がやっていることでわかりやすい例があるんですけど、YouTubeを見るときに、YouTubeの動画、毎日これ見たいな、後で見るリストみたいな、もうリストめちゃくちゃあるんで、最近作った2024リストみたいな、何でも入れるリストとかっていうのを入れて、後で見るとかももう5000、5000だったかな、上限いっちゃってもう入れられないみたいになってるんですけどとかっていうのがいっぱいあるじゃないですか、みんな。で、それを全部見るっていうのは、今日見たいやつとかがまたプラスで20個とか溜まっていくんで、無理なわけですよ。そこで、もう無理だなと思って。見たいリストに入れたけど、見れなかったものは、ポッドキャストにしちゃおうと思って、自分用の。これもちろん公開してないですよ、その人たちの動画ですから、勝手に公開はしないですけど、スクリプトっていうか文字起こしっていうのは、最近はもうすぐ出せますから、別に悪いことしなくても、普通に表示されてるダウンロードボタンとかプラグイン入れたらできますから、その見たかった動画のスクリプトをまとめるという、ポッドキャストの形式にまとめるということを、GPTのAPI使ってやるっていうのをやってるんですよ。で、まとまった音声コンテンツ、ポッドキャストコンテンツみたいな感じにしてもらうので、ポッドキャストコンテンツにしてもらったやつを、またそれをソフトで読んでもらうっていう。そういう流れにして、前の日に見たいと思ったけど見切れなかったものを、軌道中にサマリーだけ聞いて、あとで、あ、だったらやっぱりあれ見たいな、みたいに思ったやつは見ようっていう風にしてるんですよ。なので、ポッドキャストの中で聞けるものっていうのは、こういう動画の次はこの動画の紹介ですみたいなところから始まって、内容のサマリーとその中の見どころと、見てねみたいな感じになるようにして、自分を見るモチベーションを上げるみたいな感じのポッドキャストにしてるんですけど、っていう番組を前の日に、例えば10本見れなかったとしたら、その10本分の紹介のポッドキャストを15分くらいのやつを作るわけですよ。そしたら、その15分のポッドキャストを軌道中とかに聞けば、もう一段は理解が進むじゃないですか。さっきも言ったように、その中で聞いた上で、やっぱりあれみたいなと思ったやつとかは後で見たりするんですけど、っていうのにする。
3階層構造の設計とその根拠
っていうのにすると、見切れなかったものも一応中身の方向性は掴めるみたいな使い方を最近ちょっとだけやってみてて、これ結構いいなと思ってるんですよね。これが今の話のその動画というコンテンツではなく、インターフェースがポッドキャストであるというのが、これが僕がここで言ってるインターフェース層に当たるというのの一つの例です。一見これは、それって音声から記事ができるのと、一緒に動画からポッドキャストができてる音声コンテンツができてるだけじゃないかと思うかもしれないんですけど、これはおそらく分けた方が良さそうだなと思っていて、っていうのも、僕が聞いてるポッドキャストはその人たちが意図しないコンテンツなわけです。全くもって意図しないコンテンツ。なので、あくまでインターフェースとして僕はそういう風に受け取ってるんですけど、それはクリエイターと僕の間にもう一つ何かがあるわけですね。一方で音色における音声から記事が生成されるっていうのは、音色というものがそういうものなので、それは音声を配信した、音声をアップした人が認識してるので、これはコンテンツなんじゃないかと。これも修正もちろんできますから、僕もアップして、ゴジラ3とかないかなっていうのを記事が上がってきた後に見たりするんですけど、っていうこれを踏まえて、このステップを踏んでる時点で、これはコンテンツと言えるだろうということだと思うんですよ。一方で、それに対してそうではなくて、作った人とか思ってなかった、意図しない見方がされるっていうのが今後どんどん当たり前になっていくんじゃないかと。もっと言ったら、インターフェースがボットっていうかアバターとかになっていくわけですよ。そうすると、この動画何て言ってんの?みたいな。この動画こういう動画です。へーって言った時のこのインターフェースっていうのは、情報レイヤーのサマリンをもらってるとかとちょっと違って、コンテンツとか情報のレイヤーとは別のインターフェースレイヤーとのやり取りを人間がやってるみたいな。この層を作った上での3階層構造で設計していくっていうのがシンプルっていうのもあって、割とこっから派生するみたいな感じになるんじゃないかなというのを最近感じてます。根拠はこの3つ。根拠、なぜこの3つのレイヤーになると言えるのか。お前の感想だろうと思うかもしれませんが。それはそうなんですけど、1つすごく僕の感想の延長でしかないんですけど、1個ちょっと根拠になるかもって、なんでこれを一般的になると思ったかというと、僕がこれまで十何年いろんなサービスを作ってきて、いろいろ手法作業をしてきたんですけど、8割9割ぐらいがこの設計に吸われる感じがあるんですよ。だから今どんどん過去開発したやつをリニューアルしまくってて、リニューアルしてこの構成になるようにデータベースのスキーマを組み替えていってるみたいなことを最近してるんですけど、こいつもこの構成でいいじゃん、これもこれでいいじゃんみたいな、# ポッドキャストを活用したコンテンツ消化法
見どころと、見てねみたいな感じになるようにして、自分を見るモチベーションを上げるみたいな感じのポッドキャストにしてるんですけど、っていう番組を前の日に、例えば10本見れなかったとしたら、その10本分の紹介のポッドキャストを15分くらいのやつを作るわけですよ。そしたら、その15分のポッドキャストを軌道中とかに聞けば、もう一段は理解が進むじゃないですか。さっきも言ったように、その中で聞いた上で、やっぱりあれみたいなと思ったやつとかは後で見たりするんですけど、っていうのにする。
インターフェース層の重要性
っていうのにすると、見切れなかったものも一応中身の方向性は掴めるみたいな使い方を最近ちょっとだけやってみてて、これ結構いいなと思ってるんですよね。これが今の話のその動画というコンテンツではなく、インターフェースがポッドキャストであるというのが、これが僕がここで言ってるインターフェース層に当たるというのの一つの例です。一見これは、それって音声から記事ができるのと、一緒に動画からポッドキャストができてる音声コンテンツができてるだけじゃないかと思うかもしれないんですけど、これはおそらく分けた方が良さそうだなと思っていて、っていうのも、僕が聞いてるポッドキャストはその人たちが意図しないコンテンツなわけです。全くもって意図しないコンテンツ。なので、あくまでインターフェースとして僕はそういう風に受け取ってるんですけど、それはクリエイターと僕の間にもう一つ何かがあるわけですね。一方で音色における音声から記事が生成されるっていうのは、音色というものがそういうものなので、それは音声を配信した、音声をアップした人が認識してるので、これはコンテンツなんじゃないかと。これも修正もちろんできますから、僕もアップして、ゴジラ3とかないかなっていうのを記事が上がってきた後に見たりするんですけど、っていうこれを踏まえて、このステップを踏んでる時点で、これはコンテンツと言えるだろうということだと思うんですよ。
新しいインターフェースの展望
一方で、それに対してそうではなくて、作った人とか思ってなかった、意図しない見方がされるっていうのが今後どんどん当たり前になっていくんじゃないかと。もっと言ったら、インターフェースがボットっていうかアバターとかになっていくわけですよ。そうすると、この動画何て言ってんの?みたいな。この動画こういう動画です。へーって言った時のこのインターフェースっていうのは、情報レイヤーのサマリンをもらってるとかとちょっと違って、コンテンツとか情報のレイヤーとは別のインターフェースレイヤーとのやり取りを人間がやってるみたいな。この層を作った上での3階層構造で設計していくっていうのがシンプルっていうのもあって、割とこっから派生するみたいな感じになるんじゃないかなというのを最近感じてます。根拠はこの3つ。根拠、なぜこの3つのレイヤーになると言えるのか。お前の感想だろうと思うかもしれませんが。それはそうなんですけど、1つすごく僕の感想の延長でしかないんですけど、1個ちょっと根拠になるかもって、なんでこれを一般的になると思ったかというと、僕がこれまで十何年いろんなサービスを作ってきて、いろいろ手法作業をしてきたんですけど、8割9割ぐらいがこの設計に吸われる感じがあるんですよ。だから今どんどん過去開発したやつをリニューアルしまくってて、リニューアルしてこの構成になるようにデータベースのスキーマを組み替えていってるみたいなことを最近してるんですけど、こいつもこの構成でいいじゃん、これもこれでいいじゃんみたいな、そのサービスいろいろ並べていって全部ここに吸われていく感じがあるというのがあって、もしかしてこれ基本設計として汎用性高いし、ど真ん中なんじゃないのって思ったっていう、本当さっき言ったように感想の延長なんですけど、そういう延長でしかないですけどそういうふうに思いましたっていうところですね。