shimojik
しもじま
サマリー
- 著者はこれまで何度か音声入力を試みてきたが、今年こそ本格的に実践したいと考えている。
- 音声入力はiPhoneやブラウザからも可能だが、短い文では手で書くことが多く、本格運用が難しいと感じている。
- 著者は音声入力が手書きよりも早く楽だと認識しているが、習慣のために手で打つことが多い。
- 音声入力が難しいのは、修正や特定の記号の使用、文字起こしの精度が関係していると考えている。
- 著者は自分の文体を再現できるGPTsを作成し、Slackでの使用を試みた。
- iPhone内のWhisperの文字起こし機能の精度が高いため、これを利用している。
- GPTsは送られた文章に対して、著者のスタイルに合わせた記号の追加や誤変換の修正、数字のフォーマット変更を行い、Markdownのコードブロックで返す。
- この新しいフローにより、音声入力の実用性が向上し、著者は音声入力が可能になると感じている。
- Macでも音声入力を可能にするために、Mac Whisperとループデックを使用し、ボタン操作で録音とテキスト変換を行うセットアップを作成した。
- 音声入力からテキスト変換までのフローが日常業務に適しており、著者は音声入力の時代が来たと感じている。
記事
音声入力への意欲と過去の挑戦
結構過去にもまあ今年こそはと思って何回かトライしてるんですけど、今年こそはっていうことで音声入力をまたちゃんとやっていきたいなと思っています。まあ、ちゃんと音声入力をやるっていうのはなんかすごい、なんていうんですか、中身のない感じがするんですけど、中身はないんですけど、音声入力をやっていこうということで。まあ音声入力ってiPhoneからもできますし、ブラウザからもありますし、色々と音声入力できるのはあるんですけど、もう一歩みたいなのが結局残るので、だったら自分で書くよみたいな感じになる。特に短い文であればあるほどそういう感じになるっていうのがあって、なかなか本格運用できないと。
音声入力の速さと継続の難しさ
でも音声入力って早いよねみたいな、これを言ったり来たりしてるわけですけど、過去に音声入力しばらく続けられたっていう時期を思い返してみると、どうやったら続けられるのかなというのがわかるなと思うのが、やっぱり手で書いちゃダメなんですよね。この音声入力中にその思いっきり寄せていかないといけないんで、今回はみたいなことやっていくといつの間にかやっぱり手で書いちゃうみたいな感じになってしまうと。それぐらい日常の音力ってこんだけ音声入力したら圧倒的に早いし楽だっていうことが分かってる。これもちろん人によると思うので書くほうがいいよっていう人はいると思うんですけど、僕の場合はもう全然圧倒的に音声入力のほうが楽だし早いんですけど、なのに打ってしまうと。なんでですかって言うとやっぱこれは習慣なんだと思うんですよね。もちろん喋りにくいところとかで手で打つ必要があるとか、外で手で入力するというのが普通ですから、音声入力できないので。そういう場所もあるじゃないですか、電車の中とかっていうのはあるんですけど、そういうときだけは手で入力するのはいいとしても、基本は音声入力でいいはずなのに、すごくハードルが高いとか習慣ができないと。
GPTsの活用と音声入力の改善
という中で今年こそはと思って、昨日自分の文体をできるだけ再現できるような、文体っていうかそのなんていうんですかね、とんまなっていうかビックリマークとか丸とか点とかの使い方をできるだけ再現できるようなGPTsを一つ作って、四文字スラック四文字テキストスラックバージョンみたいな感じで、スラック用のやつをとりあえず作ったんですけど、作ってみました。だから何がしたいかというと音声入力でダメなところっていうのは、ゴジラ辻の修正とビックリマークとか丸とかの使い方の違い、日常自分が手で打つならこう書くけど、音声入力だとそうならないみたいなやつなので、ここさえうまくいけばいいわけですよ。あともう一個は音声入力というか文字起こしの精度、この三つですかね。この三つをクリアできそうなのがGPTsをスマホから使った場合かなと思ったので、GPTsを実際作ってみてやってみるというのをやってみました。結構これは良くて、まずそもそもGPTsの前に文字起こしのその精度が高くないと使い物にならないわけですけど、iPhoneのChat GPTのアプリの中に入っているWhisperの文字起こしの精度がかなり高いんですよ。これ多分モデルはLarge V2なのでV3じゃないと思うんですけど、V2でも結構入力精度高いので、これをまず使いますと。なのでiPhoneについてる文字起こしというか、そのディクセーション機能を使ってはいないです。その上でその文字起こししたやつをそのまま、自分の文体を学んでもらったGPTsにそのまま送ると、そのGPTsが僕が送った点マルがついていないただの文字起こしの文章に対して、点マルビックリマークとかを入れて、あとはよくあるゴジラ辻とか、よく出てくる人物名とか先に入れてあるので、そこら辺の変換ミスみたいなものを修正して、あとは僕は全格の数字を使わないので、半格の数字に全格の数字を置き換えるとか、そういうのを全部やって返してくれる。それをそのままマークダウンのコードブロックで返してくれるので、コピペでSlackとかに貼れるみたいな、こういう運用にしてみたんですけど、これがめちゃくちゃハマって、今度こそ音声入力できそうな気がします。ここまでくればできるでしょ、音声入力。さすがにやめないんじゃないかと思うんですけど、わからないですけどね。今までそう言ってやめてきてるんで。でもそれがめちゃくちゃ便利なので、iPhoneで基本的に音声入力してるんですけど、Macでも音声入力できるようにしようということで、MacはMac Whisperっていう、これもWhisperのモデルがLarge V3のやつが入ってますので、それをループデックっていうボタンを押すとサービスが立ち上がるっていうのが配置できるコントローラーみたいなものを持っているので、それを久しぶりに引っ張り出して、それに割り当てて、1個のボタンポチって押すと録音が開始して、もう1個のボタンポチって押すと録音が停止して、もう1個のボタンポチって押すと、さっき僕が作ったGPTの下地テキストスラックバージョンが立ち上がって、そこに貼り付けるという、なんかこう、正々堪え使えば使うほど、コピペをいっぱい繋いでいきながら、その間のチェックをひたすらするみたいな感じになっている。これは日常業務ともある意味、すごくもともと近いので、どんどんそういう風になっていくのかなという感じはするんですけど、とにかくそういう感じのフローで、音声入力から文字にするっていうのが、割と確率1日でも3時間くらい?そんなにかかってないかな、2時間くらいかけて、なんかうまくいった気がするみたいな感じに今なっているので、いよいよ音声入力の時代きたかもしれないです。