'では今回のお題は最近は第のステーブルディフィュー上に並んでというか続きてというかで話題のビスパーさんのお話の技術解析を同じく広火線セカラお願いしますはいよろしくお願いしますそうですねちょうどステーブルディフィーションという早かったそのシューとか次のシューとかにまたオープンAIから今度音声ですね、音声、処理ですごい制度で反化性もかなり高いっていうマビスパーモデルがオープンAIから公開したらいたらでもこちらもはいオロンブンによんで、少しどんなアルゴリスムでどんな特徴があるのか今回是非を話しできればと思いますよろしくお願いしますお願いしますでも早速概要なんですけれどもはい、こちらオープンAIが発表したビスパーっていうモデルというかアルゴリスムとかまされた生活ですねで、特徴として、こちら68万時間分の音声でいた大人が英語以外にも日本語とか、一言とか、いろんな68万時間分の大部分は多分英語なんですけど太陽な音声でたく学習することで一人引いてきすれせいでおせいでおプラス、ロバストせい、いろんな環境の映画のお手足りそして、そういったいろんな環境のでもロバストな音声に好きが可能になりましたってモデルでしたまあプラスですね、このフォーフって太陽なデータセット、音気にフォーカスするためにモデル開けてくて、こちらはマシンプルなトランソーマンコードでコードアーキテクチャっていうのを使っておりますまあプラス、メインなとはりと英語で音声聞いてこの英語の書きを越しっているのがメインなんですけど、学習にはですねこの英語音声から、テリスト英語テキスト書きを越しのほかに入力音声の言語の特定だったりまあ他の英語以外にも日本語音声聞いて日本語にテキスト書きを越しとかも含めてまいろんなマルチタスク、ってかつまるちな言語の学習を行っておりますで、結果としてですね英語を福む919種類の言語に対して高いセードが安定性で音声の書き越しや日本語のクラスですね日本語の音声とかを加えて英語の役をのテキストをしているくするみたいなもらう可能になっているそうですえーいやー、これはマジでお客が求めていたものの最終形態がついに来てくれましたねいやそうですねなんか僕もYouTubeとかって結構地道地巻みたいのあると思うんですけどわりとなんか的とというかそれまあこれが今の限界かなみたいに思うときあるんですけど結構このミスパーブエブでブラウザレつかえるでもとかも公開されてなんか僕も試しにポットキャストを収録してますみたいなことを話したときにほとんど完璧に文字を越してくれておなるほどっていう感じでしたねいやー、マジすごいなちょっと自分はポットキャストのようなんでいやーこれじゃあポットキャストも全部文字を越しできて検索は可能になって類事とかも取れるようになってポットキャスト確面に来たじゃんって思っただけどでもスタッシュかにそれよりYouTubeの字幕付けるっていうその資料の方がでっかいですよね確かにやっぱり風火やってほしいですねおかなりYouTubeわー見ているので確かに確かにじゃあ中身に行きますかどうやって彼らは文字を越しているのかそうですねはいなんですけどその前ですねまあ音声認識上でこれまでドイタ研究があったかっていうところでロングんで少し触れられていたのでもこちらも少し話せればと思いますアイントローラクションですねはいおかな音声認識まあロングんだとオートマティックスピーチュレクブにションそうですねエゴだとそういう風に言われるんですけどこういうするこれはおこのアプロチテもオンオシのウィスパー以前も取り決まれていました今例えば最近のですねGoogleの出した生活ビックー S.S.Lっていうのが生活とおくちゃですねオンウィスパーが68万時間分のに対してこのGoogleの最近の研究だと100万時間分のラベルなし音声でいたおつかって消失が苦しなしが苦ししてその上でお記憶の所望のデータに5人中に寄せてよなアプロチも提案されていましたこちらのGoogleの方がデータリオンですねそうですね僕もウィスパー68万時間でおすげえってましたんですけどちょうどそうですねこの気をしなしの方で100万時間使って学習したってもアルって風に書いてありますね手間ただファイン中に寝るアプロチで目標でたの評価で対してはスーパーヒーマー人間語エレベルの制度が出ましたよっていうのは報告はあるんですけど一方でそれ以外のデータセットに適用するとちょっとあんまりスーパーヒーマーって言ってたわれには他のデータに適用すると良いかないっていうようなことも報告されているっていうのは言われておりますとなるほどなのでマクロウィスパーの時点で目標としてはできるだけその多いお先のデータセットにいい存性しないで毎週に復用で反化するモデルを拡取したいよねっていうふうに言われていますとでこちらですね今の100万時間っていうのは気をしなし音声だけ音音を出けで学習してもう気を出たにファイン中にくせるってアプロチラッターんですけど毎歩ですね今気を質気の音声でエレベルはセットっていうのはまた一旦が理用が書きられていますとでマロン分で話されていたのはマキレイな気を質気でタセットラッと合戦時間くらいでもうちょっとゆるいノイジーな100%気を質気でタセットでも毎月万時間とか3万時間くらいのもしかないんですよねっていうふうに言われていましたウィスパではこういった気を質気でタセットともうボードになさらに戻りがデータセットのキャップをめるって目的で若気を質気音声でった乗りをどんもっとスケーラップして結果的に68万時間のタゲンゴのデータセットを作って気をしやり学習を行いましたでこれによって最終的には特定のデータセットエロファイン中に行っての行わずにマスイロン可能となっていて結果的にすぐれた映画性のっていうの格特しましたよってふうなながら作りかざられていましたえあそうだったんだちなみに音声でいう教師つきっていうのは本当にその音声でだと実際に何に喋られたかっていうテキストがついてるっていうことなんですよねそうだとはい思いますねまたはさらにこの回答この音声の何秒から何秒ないだにこのテキストでみたいなもん気持っていてるともっとましょう最で学習しやすかったりするのかなと思いますねんそうかでながらテッキリ680万時間っていうから教師なしなんだろうなって勝手に思ってたんですけど教師あり教師ありというか着教師つき音声でえたって何なんですかねはいじゃあ618万時間618じゃあ学教師つきっていうのはもうもうちのち説明するんですけどとでも基本的には音声に対してテキストがひもずいているっていう状態ですねあ、そうもとけばいいんだなるほどまあ基本的にそのペアでエビスパーも学習していくテージを対するねすごいなデュタセット集めてきたんだ作ったのか集めたのか分かんないけどそうですねじゃあはいさっそくその辺のバイスパーのなんか文字って一つ説明してイケレバーと思いますイスパーの中身ってことでデータセットとモデルのアーキテクチャと学習法法ってミッツオーマカに説明してイケレバーと思いますまずデータセットですね今回の他の画像とかでもよくあると思うんですけどまあボードアイナデータセットっていうのかっこするためにインターネットからかっきよくしアテキスタのかっきよく使用された音声っていうのを収集していますこの方法設定のはいろんな環境だったりマロクーン設定だったりマワシャーまたが音なだったりもう回来たらったり男性状設定いことかなって思いますねあとは英語以外にもいろんな言語を加わせるように収集していますでまあ単純に何も考えずに収集するってだけではなくてプラスですね毎日分のかっきよくしアネットネットから収集できるかっきよく知っているのはまあ基準のテキスとかっきよくサービスが増やしたものと収集されましたなのででそれに対して人でのそういった影を越しと負き替えが自動的に好きだ負きを越しまあラベル強視ですねが今材スルットマガクシューンちょっと悪影響があるっていうふうに言われていくので毎日可能ヒューリスティックスビックリマークとか果てなまわけだったりまあカンマのオムだったりすべて面接べて個人みたいなそういう悪性ですかね寝ってあちとこれは機械によるテキスとズケっぽいでものフィルタリングして回る程度ご品質なデータセットっていうの集めているとのことでしたおおーなるほど機械活かつくてたものを抜いてあってるんだそうですねでまあこのデータセットですねまあ目にタイプ文が英語を押せよくテキスとなんですけどそれに加えて他言語を押せとその言語のテキスとの部屋も収集していますとそれに加えて他の言語例えば日本語ってそれに対して英語のテキスとが増やされているテープやにかぎ日本語に他の言語フラス英語のテキスとっていう英語に話しては英語英語の書きを越しが作収用のデータとしてまた確保していてこれによって他言語を活うまるチタスクの各収用のデータセットそうして作成したってふいになってビールトのことです英語が作収用には元々として結構時間色々バラスキャルトも学習用に最終的に30秒後の本生のクリップに分かってして学習に使ったということですこれって実際日本語も結構制度いいっていう話が出てくると思うんですけど日本語の教師アリのデータセットってどっから持ってきたわですかねああーくりたい的にはアピンディックスとか見ればあるかもしれないですけどちょっとパッと見はくりたい的に日本語はここからは使わなかったですねなんかこれ4分に書いてあったわけじゃないんですけど結構このロメスパのロンブン日本でるときに歌のサイトとかって歌ってる内容とかしが気持つ気られたりするんで相手の面しかしたら使えるのかなとちょっと思ったりしましたねなるほどそれをするりですね立って出たセットはこういった内容ですねそれに踏まえてモデルのアーキテクチャと学習方法に撃りましたこのイスパーではですねまさきほど用意した方法が出たセットとはまるチーゲンゴまるち助かの学習っていうのに放かすためにこのモデルのアーキテクチャに彼は本性から的質の書きを越しマシークエンス通行スークエンスーのマスイロンが実行できてデータルをに対してスケールするアーキテクチャとしてマシンプルなエンコードで交互ダベースのトランスフォーマを採用しているっていうふうになって取りますあれっかかわりとまさかまで不刻ではないですねエンコードの方ではですねままともと思うんで発見ですのでこれをログメルステクトログラム時間かけれ週発の表現ですねに変換した上で毎日次限のコンボリューション1Dとゲルっていうまかせが完成を通した上でこのトランスをまでも一番に使われるポジショナルエンコードインク通してトランスをまんごうだに入力しましたこの辺スイッキエンス通行スってところでまずあおまかにはアテキストの本役のようなゲストアザックリアに入れているかなと思いますねその上でテクオーブーだですねこちらはテキストのかき起こしオジンジを居らなくするんですけれどもこうが何なのかアイゴラったのかに本語だったのかだったり発悪より機能タイムスタンプの予測自切った後から試した人たちがあげてたんですけどこの本語だよってお正義やってたのに普通に日本語として強くちゃんとしてくれているみたいなつはそのそのモデルが学習しているの中にこのここの今学習で見せられているものが日本語であるっていうことも吹き来るめて学習してるってことなんですねあそしねはいその通りですねすごいなこれととかあれか学習の時にそのインプットは音のデータですけど実際にモデルが学習しているのはメルスペクトログラムだからあのよく音声系の人たちが画像出してるあの納み歌、模様模様模様みたいな画像を見せてこの画像のこういう枝だったらこの発音をしてるよっていうテキストを予想するっていう画像からテキストを予想するってことをやってるんですねまずアクリエースは相同になりますねはいそしてなんでこの辺の全部まとめてその現後の特定とかタイムスタンプとかも全部投稅として消えずして消えずとして投稅して正系してトランスを回のスイープにしてスイープにして学習して作成しちゃうっていうのがうまいところでありトランスを回の結構十年で優しなところなのかなっていうのがあいよんでて思ったところですね多分ですよね全部引くルメテも学習してってやってるってことですねなんでモデルのアーキテクチャット学習方法もざっくりとんどこれで以上で形ですねでも元々でたお68万時間あってたようなので学習するんでた学長とかもまるむではしていないっていうふうに書いてありましたあとはもうほとんど実験結果とディスカッションですね基本的にはかなり正度はいいっていうなんかお前からないようなんですけどまあやり方としたですね学習で68万時間学習しています元々も気をとしてファイン中に言うなどにおらない反化性の見るっていうのはも気をらったんでもきぞんの学表会を出たセット出たセットの表化セットを直接吸いろいしてそれで表化を行っているやつかよりしています表化しようはですね相談的な音声認識の秀であるワードエラレート速した単語系列が正解とちゃんと街しているかっていうのは仕様を使っています全部の実験結果はちょっと活躍するんですけどわかりゃすいところとおまず英語の音声認識ですね英語の音声認識だとリブリスピーチっていうデータセットが一般的なようですでこのリブリスピーチだけを見るとですねかならしもミスパッティルは基準のリブリスピーチで教師アリで学習したモデルのセールには親んでいませんでもスケドもマイッポーでそれを踏まえて他のデータセットも含めた平均的な反抗性のを見ていましょうチャンネル登録をお願いしますけどイスターで全部評価してしてみるっていうのはと負き存の教師アリモデルでリブリスピーチで学習したモデルをかなり色んなデータセットでも評価してみましょうそれによってあの若いデータセットまたかった厳的な反抗性の見てみましょうっていうやつかいだと非常にすぐれた人生のでなっていて人の認識性度このロングの中でかれていたのはチャシャの一人のアレクラードフォードさんっていまかが有名な方の認識性度もに一的しているっていうふうにかかれていますこれは小さの人が同じデータセットを聞いて三歩ききな、パンスカに意識できたかって有性度も取ってるってことなんですよね多分そうですねうん、それはいなるほどなんでそうですねやっぱり既存のモデル的はシャリとかハイン中にングベースなプローチだとその中にングしたデータセットラッツイーパヒューマンというのはデベルで言われていても若いので絶対セットも含めたなんか性の定点だといま一人やっぱりなりをねっていうふうに言われていますじゃあその英語の次にタギン語の音声に意識ですねで、それでもやっぱりするれた人生の学校にされましたで、面白いのがですねこの学習データ618万時間あってその中にで、各言語のデータリをバラつきがあってまやっぱり英語が一番多くて、甘いなの言語がとけっこう少ないで、ものがあるんですけどまあ、そのそうか学習データの量と各言語の学習データの量とその言語とのエラーのそうかんっていうのを見てみるとまっすかいかなりエキレイにそうかんが取れましたまあ、量対数グラフですがかなりまっすぐなそうかんがあって上っぱりデータを増やすほどちゃんとエラレーとあんどのせいどもそうスキエルしていくよねっていうのが分かって分かったっていうふうに方向くされていますもうデータ量が正義みたいな世界のですねそうですねこんなのか、エキレイにそうかんでるんだっていうふうに思いましたね確かにただシテイエバーそうですねエッドまあインドとかヨーロピアン系から離れた言語あとちょっとせいどデータを増やしてもジャックアンせいどが分かり捕くてこの辺は回復用のやちありでよねみたいなふうにあん言われていますねこれって実際にその68万時間のうちの英語は何時間分でとかってうちわけも出てるんですかともあったと思いまして半分以上が確かえごであそんなにえっとまあプロットビルと日本語が1万時間くらいで少ないのだと中時間くらいひっか中時間一時間しかないしかないようなのもあるっていうふうになっていますね今日本語は1万時間なんだなんかすごい制度いい言いって言うけど68万時間のうちの1時万時間分しかデータはなかったですねそうですねそんなもんだまあそんなもんって言っても全然多いんだろうけど地満時間分の日本語の音声のしかも教示ありってなるとでも他にもまあ色々実験してるんですけどマサラット説明していくと今回入力音声にの意味が持ってしまっても機関も出るよりロバストですっていうのが結果も入りましただとまあ機関の研究性化以外に少量の音声書きをこういうサービスとかと比べてもその職内性でもですよねっていうのも要告されていますとそれとはですねまあプロ人の人間のプロのかき要告しとも比べてみたときにそれにも必ず引きしてますねっていうのは結果も要告されていましたはいでまあほまで実験結果ですねあのノイズにも強いっていうのは確かにえっとデベロッパーズ愛用でブログがかかれていてそれなんかわざーザーそのオンライン回偉の音声のこのにえーとセンプー器の音を寂せて5セステーそれでなんかベースモデルとえーとミリアムトラージのモデルでなんかノイズにドルグライ検柄なのかみたいな実験とかされてましたね確か結果はあのベースだとセンプー器の音入れたらちょっと探っちゃうけどあとだだからミリアムトカラージはなんかもうほとんど影響なかったっていうブライを相当の人で発表してるみたいな感じで面白い結果でしたねはいはいはいなんかエンジニアだとちょっとそういう公開されてるものに意味われしたくなるちょっと分かるなに思いますねはいなので結構いろんな実験結果でかなり制度高くかつ分かないようバスとっていうのは報告されていましたまあ一方でマリミテーションとかフィューチャーワークっていうのもいくつか語られていますと今回さっきこのデータセットの準備っていってこれ少し取れたんですけどお楽しめた基本30秒ことで描く消してマスタテーマウィスターがじゃあそれ長い音勢を処理する時にアドアしているかっていうとあさっきわれだとこれはナイブに30秒後にスライドしながら処理するってことをやっていますおーまあその時にアピーブサーチとかヒューディスティックスおクスをいくつかも知ってるんですけどまあここはまだまだまあ自然につないで長い音勢を影響できるように改善の家がありますよね手に変われていますでもいくわですねまだ監督じゃないんだなってように思ったというのかして中特に長い音勢だと人間ならやらないような間違い影響しのテキストがループしたり長さえ一緒とか最後の内容をむししていたりそんざい明らかに存在しないような単語ができたり現れるっていうのことを報告されていてまあこの辺はより過ごれたデコーディングが必要ですよねってふんに報告されていましたでまああとは細かいところだとモデルアーキテクチャ今回かなりシンプルなエンコードデコードアトランスソーマーデスってところだったりまあデータ各地をもしてないですってところだったりあるのでまあその辺の改善だったりまた基準の地図気はしやり学習とかと組み合わせるっていうのもあのおよそきとしてはありですよねってふんに変われていましたなるほどこれってそういえばOSSだからコードと的てまあセマスけどとCPUとかでもベースモデルだったらマールみたいな結構軽いんですよね確かなかそんな話だった気がするそうですねなんかそれぞれメモリの大きさかいてあって一番好きなのでまだ中々がとかだった気がするのである分にははいまあもちろん処理やちょっとそくなっちゃうかなと思いますけどマール分にはマールの可能の思いますねうんGPU持ってきたらもっと早く回るってことですよねそしてそうしねはいこちらのその発打と思いますなるほどななんかTwitterであとみたいのはM1Macであのリビルド宮川さんM1Macでと3時間ぐらいの音声を文字を越ししようとしたら結構なんか丸一日かかったみたいなおースイートされた気がしますねそれがでもちょっとお気持ってるだったのかなラジじゃなくてミリアムカベースみたいな話だと思いますけど長い音源になったらそのCPUとかだった全然時間かかるんだらっていうっぽいですねなるほどなるほどそうですねはいありがとうございますでは以上含めてまとめに連れますと早速にハースとりまウィスターホーフナータギンゴのデータセットでマシンプルなエンコーがデーコーだベースのトランソーマモデルでマールチタスクの学習を行いましたね結果的に人間に来するせーだとロバスト性の音声に好きなりを拡大できましたっていうふうに報告されていますでまた中徒中もちょっと一番好きだ私の感想としてはマホーフナデータセット要素つそれだけじゃなくてシャントできるだけっていう品質のデータっていうのは長いして痛りするところあなたたりマイエゴの価計コーシーが今タギンゴの価計をこしだったり現後の特定などまいろんなタスクっていうのシンプルなCQNススイークンスのマクグミに今年今でマスケーラブルなモデルを角度して言って点がわかんなりでこう検討して大きいのかなってふうに感想として思いましたってところですねこれって特に何がすごかったかっていう意味で言うとゴミっぽいデータはちゃんと配上した上でかなり棒大な教師ありの音声データを使ったからっていう公権が結構サブントしてでっかいんですかね従来研究とはそうですねそれ大きいと思いますねアタそれでマスのマルチタスかの学習をうまくシンプルな形に落とし込んでシンプルな変更なデーコーだトランス総魔で学習しているっていうのが聞こを緊じゃないかなと思い合わすなんかモデルはそんなに対したことない風に聞こえたんですけどいやモデルもちゃんとマルチタスクのっていうところですごい奴なんだよっていうことなんですかねそうですねまああったのかなモデルのアーキテクチャーちょっとだけでいいわ割とっていこう簡単に実装できるんじゃないかなと思いましてねそうマルチタスクのデータをうまく学校を正系するところが割と難しそうかなっていうふうに思いましたねあとあのなんか初めの方の話なんですけど気になったのはググルの100万時間の方データしたビックイセーセールでしたっけあればせいどもなんか有法でよくなかったって話だったんですけどそっちのビックイセーセールの方はそしたらデータルはちゃんとあったのにモデルがなんかあんまり生けてなかったってことになるですかねもうもっといろいろ違いわると思うんですけどそうですねまたぶんやっぱり気をしなしだとちょっと限界があるのかなっていうのと結局そのファイン中にイングさきにオーバーフィットしちゃうっていうのがファクラウイスパートのサーブンとしてはかなりオーヒーじゃないからってフィリー思いますねまたね制度もそんなに悪い程度でないと思うんですけど反応な4なシーンのデータに今観かしてスイロンできるってみなとまあ不気をしやりでお題のデータでデータを用意して学習したフィスパーに軍売が上がっているのかなと思いまですねそんな感じなんですねまあこれまたベースとミディアムとラーズにとって結構使いやすい形で労働かるマシンでもマーセル形で提供してるくれてるからまたそこもなんかこんな気は大に下がれたっていうのは効果にしてるんですかねスティブルディフィーズンと一緒でシセンの人たちもマーセアスイッキーを見るケーキュストスのピックSACするこのまま今回されたとしてもまあその気をしなしなしの状態で効果されたとしても自分で使わないやファイン中にくしなきゃできないですしファイン中にくされたもんだとファイン中にさきなデータにオーバーフィットするってやっぱらちになってるので感染にスグクロンして使えるウィスパーもかなり注目されているのかなと思いますねなるほどや、ありがとうございますちょっとこれこの16までに白金フェーム試しにやってみあの模様子してみてすごいっていう話をここにそうやられたらいいと思ったがマニアーズなんでちょっと追加の力でやっとこうと思いますそうなんですよねちなみに今まで白金フェームは通行する時にあの模様子でしたワードクラウドをついとにくつけてたんですけどあれはずっとずっとというか一応公開されてる模様子のあのアジュールとAWSとGCPの模様子の APIを使って比較して一番AWSのやつが使いやすかったので電話模様子の品質もまぁ結構どんぐりの成クラべ的な感じであるんですけどマシだったからそれ使ってたんですけど今回からはウィスパーでテンブーマーしたいなと思いませんそんなに違うんだったらということでめっちゃ楽しみそうですねちょっとそれはぜひ見てみたいですねそうですねやっとなんか今までのクラウドサービスネスでアップしクラウドにデータウクのでその車内の秘密の海はとかはやっぱり簡単にあげても情報しようみたいなできなかったですけど今回これもローカルで混ぜまわせるから社内容のなんかを持ち集る作ってそこに通行したらみんな技術を積もしできるようみたいなまあラジューモデルで結構思いけどみたいなも含めてできるからこれなってんですかなんかこれみんなが求めてたやつですごい業務効率みたいなのにももっと使えると思ってもとはないになると思ったんですけどなんか微妙にちょっと下々になってきたけどまた一棟リアがりした後にそうですねこれの理活用事例みたいなのめっちゃ楽しみにしてますねタイムラインにいっぱい出てくるのかなりそうして多いようなやつは開発さをなきゃしますねあとこれちょっと関係ないんですけど結構二体をのタイミングでフェイスブックの研究開発部所がアランドディーの所が作ったなんていうものだろうでもかすブイスリーかなちょっと読み方間違えてる気がしますけどそれその音源分離ができるっていうやつが出ててかなり綺麗にパンドの音とボーカルの音切り分けたりとかできてたんですけどなんかそんなこともかなり綺麗にできて文字おこしもちゃんとできるんだったら音声系のデータ基本的にもせい発したと言っても加込んではないのではって思ったりするんですけど海外の人たち是気にはどうなんですかねいや、どうなんですね一部クマッショー時期音声はほとんど触れてなかったのでわからないとこれはあれんですけどあれもトワイエ結構そして例えばウィスパーだとそんなかって諦めに話されてない単語が出てくるとかなんかループしてしまうと気持ちですねかなりねネズ会問題そうなのでこの辺まで海外の人たちがまだまだあるのかな思いますねそうですねでこうだが会電されてもうちょっと長く学習とスイローを行うような感じになってきたらまたあっという間にいうやつが出るんでしょうねそうしてはいかなり期待できると思いますやりが当然ましたちょっとぜひ早めに試してこんなにはのAWSとかのAPIと違うっていうの比較したいですね自分もそうですねはい楽しみですねじゃあ結構作っとおっちゃいましたがこんなところですかーねーではでは今回はこれで終わりたいと思いますありがとうございました'