496
岸政彦 @sociologbook
こないだ龍大のゼミ生と話してて、卒論のための生活史調査の文字起こしをえらい丁寧にしてきたから、どうやってやったのって聞いたら、「インタビューの音声をiPhoneで再生してイヤホンで聞きながら、iPadのメモを音声入力にして、マイクに向かって自分で同じセリフを喋り続けた」だった→
岸政彦 @sociologbook
→最近みんなこれ。InterviewWiterももはや時代遅れか(笑)。漢字変換の精度もかなりいいんだって。タイピングが遅い学生たちに無理やりキーボードで文字起こしさせるよりも、こっちのやり方をすすめていったほうが、これから院生指導するときでも、ええかもしれんね。→
岸政彦 @sociologbook
→「いまでもタイピングしてるぞ!」という、そんな貴方に。文字起こし専用アプリを無料配布してます。Mac専用。「ひとつのアプリで音声の再生と文字の入力ができる」「再生して一時停止するとちょっと戻って止まる」という超便利なアプリです。sociologbook.net/?page_id=651
岸政彦 @sociologbook
補足。方言も混じった自然な会話をそのまま文字化するのは、非常に難しいみたいですね。Siriに登録した自分の声で、ゆっくり丁寧に発音していくとうまくいくらしいです。
岸政彦 @sociologbook
ただ、この方法だと、人がいるカフェや電車とかでできない(笑)ノマドには不向き(笑)
岸政彦 @sociologbook
うーん、いまいろいろやってるんだけど、問題があって、ひとつのMacで「音声を聞く」のと「音声入力をする」のができないみたい。さっきからやってるんだけど、あるアプリを音声入力の状態にして、別のアプリで録音データを再生しようとすると、もとのアプリの音声入力が終了しちゃう。
岸政彦 @sociologbook
やっぱり音声の再生と入力は別々の2台のハードになるのかな。どなたか、一台のMac(あるいはWindowsのパソコン)でこれをやる方法わかりませんか?
ヤギ頭(めぐり合わせが人生だ) @wordblow
@sociologbook 懸賞金つけて学生の宿題にされたらどうですか。先生よりもいいアイデアが見つかりそうな気がします。もうしわけないですがw。
藤田侊一郎 @annotasku
【メモ】こんど文字起こしが必要になったらやってみよう。iPad は音声入力ができるのか。便利になっていくなあ。 twitter.com/sociologbook/s…
コムロゲンキ(コルク) @corkomgen
こないだ、macで音声再生して、iphoneをスピーカーに近づけて音声認識させようと思ったら挫折したんだけども、自分で喋り続けるのは試してなかったわ〜〜やってみよう twitter.com/sociologbook/s…
横浜の雀荘従業員 @resoku80
昔、競馬関係者のコメントなどをテキスト化、レースに関連付けてデータベースにするという作業をしていたが、当時はスキャナーでは認識率が低すぎて結局手入力するという力技に。 今はどんなものでカンタンにデジタル化できて便利になったと思う twitter.com/sociologbook/s…
山中俊治 Shunji Yamanaka @Yam_eye
なるほど。録音された音声の曖昧さや不要な言葉をその場で取り除くこともできるし、すでにAIが学習した音声に一旦変換するので音声認識の効率も向上する。見事な「人間+AI協調処理システム」である。 twitter.com/sociologbook/s…
くさたけ🌱 @d_ske104
元の録音音声がクリアであれば、ステレオミキサーを使って内部音声を外部音声としてマイクに取り込むことで録音音声を再生するだけで完全自動文字起こしすら可能であると思われます twitter.com/sociologbook/s…
こばやし 'にらたま' けんいち @Niratama
インタビュー音声そのまま音声認識だとダメなんかな?たしかそんなツールあったはずだけど 改めて音声認識を意識して喋ると認識率は良くなりそうなのでそういう意味かもだけど twitter.com/sociologbook/s…
芦塚あきひろ @ioi8association
これだ! エチュードを文字起こしするのにこの方法を採用したい。 この間は、文字起こしにめっちゃ時間かかってたもんなー。 龍大のゼミ生の方、ありがとう! twitter.com/sociologbook/s…

コメント

もりのあさ @forenoonM 2017年10月6日
音声とテキストの相互変換はそろそろ自動化したいよね。 まとめとは逆だけど、テキストから音声をVOICEROIDとかでおこせれば色々効率的になりそう。
永遠の初見さん @Eternal_NewMan 2017年10月6日
大半は便利だけども、稀に例外があり「アフガン航空相撲」とか「アルゼンちんこ臭い」とかが起こるので過信は禁物、英語だと基本そんなことはないのがうらやましい
ヘルヴォルト @hervort 2017年10月6日
「インタビューの音声をiPhoneで再生してイヤホンで聞きながら、iPadのメモを音声入力にして、マイクに向かって自分で同じセリフを喋り続けた」 というのが微妙にマヌケに見える そこまでするならインタビューの音声から直接文字に起こすとかできないんだろうか
zero2x @zero2xzero 2017年10月6日
iphoneの部分はICレコーダーで置き換えればマヌケには見えなくなると思います。まあ汎用性があるからiphoneなんでしょうけどね。
zero2x @zero2xzero 2017年10月6日
Eternal_NewMan 人間が意図した通りに機械が変換したか確認するために人間の手が必要なんですよね。
moxid @moxidoxide 2017年10月6日
生データにどうしても出てくるデータともノイズとも判別付かないアレを、そういうのをフィーリングで処理できる人間が担当して、残りのルーチンワークを疲労しないAIが担当するという、理想的なWinWin関係。こういう方向ならバンバカ進歩してくれて一向に構わんのである。
ささみくん @3_3_me 2017年10月6日
記事書くのにsiri使うと脳みそ疲れなくて楽だぞ
青の666号 @mikata666 2017年10月6日
音声変換は便利だけど、現状は人間各々の持つ声の周波数やらの問題で聖徳太子のように複数の声を同時に認識(変換)することはまだ実現出来てなかったんじゃなかったっけ。インタビューやら会議で複数人の声が入ったデータはまだ難しいんではないかと
栗原景(くりはらかげり) @kuriharakageri 2017年10月6日
ライターもやってます。ただ、精度は96%くらいまで高まってるけど、まだ残りの4%の修正が大変。
チョコケーキ🔞 @Meow25Meow 2017年10月6日
あまり関係ないけど聞きながらタッチタイピングで発言を同時進行で文章化できる記者の能力には個人的に憧れる
@mouth0717 2017年10月6日
hervort 『方言も混じった自然な会話をそのまま文字化するのは、非常に難しいみたいですね。Siriに登録した自分の声で、ゆっくり丁寧に発音していくとうまくいくらしいです。』ということなのでそこをクリアするのがいまの性能だと難しいんでしょうね。訛った音源をそのまま突っ込んで誤変換だらけの出力を一つ一つ修正していくとかえって時間がかかってしまうことも多いだろうし。
trueよりも浅い場所 @ibaranika 2017年10月6日
二度手間じゃね?と一瞬思ったけど、インタビューだと相手がつっかえつっかえ話したり、早口すぎたりするから、適度に調整するためにも喋り直した方が修正の手間が省けるのか
エリ・エリ・レマ・サンバディトゥナイ @mtoaki 2017年10月6日
ibaranika 周囲の雑音とか入ってるし声質も違うから、人間が聞き取るには問題なくても機械処理するにはあまり向かないので口述筆記する方が確実。
犬連結マン @nekokoala1 2017年10月6日
殺し屋に二倍払ってすべてを無かったことにしていた時代がつい最近に感じる
ヘルヴォルト @hervort 2017年10月6日
mouth0717 なるほど人間が訛り修正システムとして仲介していると 最近リアルタイム翻訳マシーンが話題になってたし、そこらへんの技術のクリアも近いんじゃないかと思う
ヘルヴォルト @hervort 2017年10月6日
安易に真似しようとして自分の発音を上手く変換してくれなくて瓦割りを体得するまで見えた
kiryu @kiryuair 2017年10月6日
取材しに行ってテープ起こしが1番の苦痛なので試したい
ziggy @zigizagu 2017年10月6日
はぇ^~すっご。 自分の音声で調整してあるから精度高いんですね。
佐渡災炎 @sadscient 2017年10月6日
Eternal_NewMan そんな事はないよ。Uranus(天王星)がyour anus(お前のケツ)になるような事故はたびたびある。
PYU(4/21Youに夢中 A-22) @PYU224 2017年10月6日
一般的によく使う言葉に対してはとても有効だけど特有の固有名詞に対してはほぼ間違いなく誤変換を決めてくれるのが玉に瑕だったりする。
kumonopanya @kumonopanya 2017年10月6日
まだまだ人間の能力には遠く及ばないが、人間の力とそれらを組み合わせることによって人間の力だけの場合に比べて労力が非常に軽くなると。
佐吉 @sakichi01 2017年10月6日
録音した音声データから文字起こし出来る様になりつつあるから、いずれボイスレコーダ+アプリ+メールで9割が済むようになるよ。https://cloud.google.com/speech/?hl=ja
凪乃司 @tukasa_n 2017年10月6日
一見マヌケなようで人間という曖昧に強い部品の強みを活かした構造になってるのね  面白い
fopton @fopton 2017年10月6日
googleのリアルタイム翻訳するガジェットなら、言語の認識はもうできているはずなのだから、テキストにも出力すればいいのに
カマガサキナウ @kamagasakinow 2017年10月6日
暴力集団しばき隊の裏方で指南役の岸政彦さんじゃないですか!李信恵さんの応援頑張って下さいね! https://twitter.com/nekokumicho/status/799476198992556033
憑かれた大学隠棲:再稼働リプレイスに一俵 @lm700j 2017年10月6日
市販の音声認識ソフトでもインカムがセットになってるパッケージがあって、同じような手法を提案してましたわ
むら @Ashinodai1 2017年10月6日
いいね 無駄がなくなってる
わかめ @wakamemorimori 2017年10月6日
便利だけど専門用語とかは全然変換してくれない…
shiroi @68Shiroi 2017年10月6日
精度が向上するまではこれが結果的に楽なんだろうね 専門用語はWeb翻訳でも駄目だけど、これは新しい造語が増えるからしょうがない
ヘルヴォルト @hervort 2017年10月6日
今気付いたけど携帯電話の音声合成システムの理屈を応用したものが音声入力ってこと? だから固有名詞の誤変換率が高いってことだよね?
tamama @tamama666 2017年10月6日
wakamemorimori ですよね 会議の議事録でやって見たけど全然まともに変換してくれなくて手打ちになりました 専門用語もそうだし略語もダメ 車検の書類の保安基準適合証のことを保適とが、略すんですがこういうの無理ですね うーん
倉瀬美都 @clausemitz 2017年10月6日
Eternal_NewMan YouTubeの字幕機能を使うと、そうでもない例がポロポリあります。有名なのでは two と too の区別がつかないとか。
くろまめ @blackbeans_96 2017年10月6日
少し前のスマステで、会議音声を同時文字起こししながらトピックごとに頭出し再生できるように録音できるアプリが紹介されてたなぁ。どこかの大学生が自分用にひとりで作ったとか。 そのうち「書記」という役割全てが機械化されていくんだろうなぁ。
Susurro @Susurronis 2017年10月6日
自分の手で紙に書き起こすことでこそ記憶に定着する。安易に新技術に飛びつくのはバカの一つ覚え。
ぼんじゅ〜る・Fカップ @France_syoin 2017年10月6日
そして自分の声でテキスト読み上げている時に母の自分を呼ぶ声が入り邪魔され大げんかに。しかし何年か後になるとその母の声が入った録音データが大切な宝物に……w
小判@忘れないあの日の歌と空 @asami_konno 2017年10月6日
なんで録音と再生が一つのデバイスでできないかっていうと、iOSにはAudioSession管理というくっそめんどくさい仕様があってじゃな、…
Mill=O=Wisp @millowisp 2017年10月6日
数ある仕事のうち、文字起こしはかなりだるい単純作業に区分されるので、可能な限り早く音声データから高精度での自動化をして欲しいと思うよ
男山 @otokoyama_rx 2017年10月6日
ヤンが犬の鳴き声まで文字にするって言ってた
いかおとこ @mororeve 2017年10月6日
Susurronis 今時手書きで文字起こししてる人いんの?
yuki🌾4さい⚔ @yuki_obana 2017年10月6日
iPhoneの音声認識の課題は大半が辞書不足なこと。そしてデータセットを入れるのも大変(´・ω・`)
下山嘉彦/渋谷区 @yshimoyama 2017年10月6日
なるほどなぁ。機械と人間で得手を分業するわけか。
mmmmmtttt37 @mmmmmtttt37 2017年10月6日
肉声で話すのに幾分不自由しているので、手入力が手放せません。
ポッカ @pokka80 2017年10月6日
ネットに制限ないならいいね。 それしかできないと、通信機器持ち込めないのに議事録書かないといけない時は大変だろうな
h.toku @htokusa 2017年10月6日
自分で復唱するのなら、結構、記憶に残るような気がする。あたしゃ、手書き文字起こしやってた時代の人だけどね。
フローライト @FluoRiteTW 2017年10月6日
書き起こしはただの素材作りであって本題ではない。そこの労力を減らしてより多くのリソースをやるべきことに傾ける。うん、道具の正しい使い方だね。
sahama @sahama 2017年10月6日
誤字脱字の修正とかどうすんの?
じぇみに @jeminilog 2017年10月6日
Susurronis だがやらなきゃ前に進まんのも確かだ
Susurro @Susurronis 2017年10月6日
やればいい、できればいい…小保方予備軍の若者がこんなにも。
@maguna_purpura 2017年10月6日
スピーカーから流れる音をラジカセに…って話を思い出したが校正も同時にやるから手間はそこまで変わらないのかな
ねねっとテックダイナー ぶり姫配信中! @nenet_techdiner 2017年10月6日
コピーライターやってたとき一字一句全部文字起こししなきゃならないっていう流派の先輩がいて色々難儀だった。いまならコレをやるね。新宿御苑とかでぼけーっと草むらに寝転びながら文字起こしができる!素敵なじだいになったもんだ!
秋春制推進派⚽️ @akiharuseisuish 2017年10月6日
同じPCのヘッドフォン端子とマイク端子をオーディオケーブルで直につなぐ。それだけ。音声ファイルを再生し、Googleドキュメント等で音声入力にすれば、勝手に文字起こししてくれます。タイピングも喋りも不要。自分はこの方法で、動画やラジオの文字起こしをよくやります。
秋春制推進派⚽️ @akiharuseisuish 2017年10月6日
ただ「ヘッドフォン端子とマイク端子を直につなぐのは良くない」という話もあるので、そこは自己責任で。自分のPCではとくに問題ありませんでしたが。
Live Stream sports @sportsplay3 2017年10月6日
For PC, iPad, iPhone, Mac, Android Watch Green Bay Packers vs Dallas Cowboys live streaming game free online Football 2017 NFL Regular Season Week 5 – http://bit.ly/2y70Qnv
kawonasi @kawonasi4989 2017年10月6日
otokoyama_rx あの作家は今でも頑なにワープロ使ってないのですかね?
tejinasi引田 @tejinasi 2017年10月6日
学生時代の手書き論文を、テキスト化するときに使ってみたら、かなり便利だった。
陽平@雑記ブログ&投資 @matome_pro 2017年10月7日
タイピングが苦手な人は意外とこれをやってる。 パソコン操作が苦手な高齢者でネットビジネスやってる人は大抵このパターン。
FIN @rightsandduties 2017年10月7日
音声認識は予め使用される言語を限定して特定の専門分野向けにシステムを特化した場合は現状でも高い変換率を実現してるみたいだが、こういう汎用的なものの場合はまだまだ発展途上だな
想 詩拓@文芸サークル『文机』 @sou_sitaku 2017年10月7日
音声入力はなんとなく恥ずかしくて間抜けに思えるのと、正確さがダメそうなので避けてたんだけど、そこまで実用的に使えるツールになってきてるのか......。
想 詩拓@文芸サークル『文机』 @sou_sitaku 2017年10月7日
ちなみに、iPhoneが再生した音声で音声入力したらどうなるんだろう? 声が重なったところとかが検出不能になって一気に精度が落ちたりするんだろうか。
tamama @tamama666 2017年10月7日
kawonasi4989 今はわかりませんが5年前に薬師寺涼子シリーズの9巻の原稿は手書きでした 10巻は残念ながら他社で出されたので原稿はみてないのでわかりません
undo(長寿と繁栄) @tolucky774 2017年10月7日
60杉の作家が手書きなのは別にいいじゃん。手書きでも一日30枚書ける大沢在昌だっているし。今手書きで仕事もらえてるなら需要はあるんだよ
ゴマすりクソバード@たつき監督を返せ! @animefigure3d 2017年10月7日
なかなかいいアイディア。インタビューの音声って音声認識に使えるほど明瞭に録音できてないので、人間というデバイスで音声認識しやすい音声に変換しているあたりが目からウロコだわ。
BUNTEN @bunten 2017年10月7日
akiharuseisuish 気になるなら抵抗入りケーブルを試すと良いかも。
いかおとこ @mororeve 2017年10月7日
老害通り越して化石がいる。文化財レベル。
ヘ夕レ @heyuure 2017年10月7日
Susurronis 神聖な御仕事様でExcelのマクロを使用するとズルしていると怒るのですね。
nekosencho @Neko_Sencho 2017年10月7日
文字起こしは、別に記憶に残らなくてもいいからなあ。 可能であれば機械に全部お任せが理想だよ
r1h3 @r1h33 2017年10月7日
ノマドには向かない?そんなときはヒトカラよ、ドリンクバー付のカラオケボックスでやれば……まぁ隣の部屋の声が丸聞こえの低料金安普請人気カラオケボックスでは無理か
zero2x @zero2xzero 2017年10月7日
博物館に展示できるレベルの化石がいるぞ
でかつ(お盟主様)@5/5 豊平川マラソン @deka2 2017年10月7日
こういうソフトウェアにビッグデータを放り込んで完成度を高めていくと完全自動化が近づくんやろなぁ。全国の方言を確実に聞き取るソフトとかアツいわ。
Masa(まぁさ) @masa0121 2017年10月7日
ラジオの文字起こしにもいいかもね、これ
Narniancat @narniancat 2017年10月7日
他人の声を再生するより自分の声で読み上げるほうがiPhone/iPad の音声認識の精度はあがるんだろうなあ。たぶん。
an_shida @an_shida 2017年10月7日
過渡期的なものではあるが自分もこれ。音声入力だけは有料ソフト使用、コメントにもあるように専門用語、学習などはまだまだ。学習精度高いのは現時点では有料ソフト。会議録アプリは詳しくないが、確かマイクに喋るようなものだったと思う。いずれにしても今まさにアップデート中。
toq-mitz @toqmitz 2017年10月7日
知人の編集者さんに勧められて、夏コミ本から俺もはじめた(録音したのを自分で聞く→読むでGoogle docsにいれていく)。 「絵を描く」なのに、「絵を書く」になってしまったりと、修正するところは結構あるけど、今までの文字起こしより体力は削られないのでオススメ。
予ノ川 @yonogawa 2017年10月7日
最近の技術ってすげーなと思う反面、結局1つのデバイスじゃできないのが不便だなぁと思ってしまう
ペッコ科 @QuruPecco 2017年10月7日
どんどん便利になって行きますな エロ小説を書くのには向かなそうだ
marumushi @marumushi2 2017年10月7日
ポイントは自分で読み上げ直すというところだな。手間はかかるだろうけど、認識率は上がるし、内容も頭に入りやすいだろう
@onpu_original 2017年10月7日
二度手間のように見えてすごく上手い道具の使い方だった。すばら!
きょうもえ @jizou 2017年10月7日
テキスト起こしするだけなら耳で聞いてキーボードで入力するほうが普通に早い。音声入力最高キーボード入力は時代遅れみたいに言ってる連中見ると普段どんな速度で入力してるのか気になる。遅れてるのはお前の指の動きだろ。
パナマ某 @panamabou 2017年10月7日
あーこれ、タッチパネルと同じで多分向き不向きがあるんだよなあ←因みにタッチパネルで誤認識起こしまくる人 精度の問題だとは思うんだけれど、滑舌が悪かったり癖のある喋り方をする人の声をきちんと認識できるのかは興味があるところで あとは、地域によって異なるイントネーションやアクセントの違いとかかな
藤ポン酢 @bussan1_2 2017年10月7日
もう手打ちで起こし作業は必要ないのかもな。
kn @darks508 2017年10月7日
電子化の見込みのないテキスト本をできれば電子化したくて、でもそれをするには仕事以外の時間の多くを入力と腱鞘炎に費やさなければいけなくて諦めてた。音声入力なら腱鞘炎悪化をいくらか抑えながら入力できるかもしれない。試してみよう
Susurro @Susurronis 2017年10月7日
heyuure そんな主張はしていない。精神科を受診されたらよろしい。
フローライト @FluoRiteTW 2017年10月7日
Susurronis 俺の経験的にもその通り。キーボードではいくら苦労して打ち込んでも記憶にはあんまり……やっぱり手書きは身に染み込む。  というわけで、どうせ意味が無いのならタイピングは新技術でザックリ省力化した方がいい。こんなところで時間浪費するわけにはいかないのだ。次の修正工程と、書き起こし資料を使ったレポート作成という”本番”が控えている。
atlan @atlan1701 2017年10月7日
mikata666 今やってるCEATECでもどっかがデモやってるけど複数話者の同時発話の分離するシステムは何社もやってます東芝 http://www.itmedia.co.jp/news/articles/1610/25/news102.html 三菱 http://eetimes.jp/ee/articles/1705/29/news084.html NII http://www.nii.ac.jp/news/release/2016/0929.html
コンタミお化け @MIZ_Icarus 2017年10月7日
フィールドワークならいい方法だけど、普通の会議、インタビュー等なら全員にインカムつけて直接文字に起こせないかなとも思ったけど、違うな。 重要なのは音声認識させやすい発声法を知ってる人が再度読み上げる点か。
hiya @hiya4861 2017年10月7日
逆に大学生でもあまり役に立たないのは、日々書籍と格闘してる人とか、実験結果を最小二乗法でグラフ化して式書きまくってる人とか、コーディングの日々とか……って、あれ?こっちが多数派かも。
自棄酒村の工作員 北海道コミティア10当落待ち @Braunite 2017年10月7日
sahama テキストに成ったのを、自分で誤字修正でしょう。
Sleeping Dead @holychickenhead 2017年10月9日
この方法でTRPGリプレイを楽に作れたりするかな?
須恵村芽久実(PN) @sue_meg1968 2017年10月9日
これで事足りる方はどんどん効率化すればいい。でも暴言覚悟で言えば「文字起こしをなめんな」とは思う。カジュアルでとっちらかった話し方が逐語的に起こされたものは使いものにならない。卒論用ヒアリングみたいな個人的にとりあえず必要なものと、商品としての反訳成果物をごっちゃにされ、報酬を著しく下げられる可能性があるのだけがひたすら迷惑。
のりしあん @noricyan2 2017年10月9日
仕事として受ける文字起こしと、個人が行う文字起こしをごっちゃにしてる人がいる。
須恵村芽久実(PN) @sue_meg1968 2017年10月9日
noricyan2 発注者にもごっちゃにして考える人がいるのが迷惑だというお話です。
鹿 @a_hind 2017年10月9日
こういうの、学生もそうだけど企業で会議の議事録とるのにも使えたらいいね。 必死にメモとって後でタイピングで文章起こすとか、これで育った学生さんには拷問に等しいんじゃないかな。
冶金 @yakeen4510 2017年10月10日
KB611が現役だからな俺は…(この文章もそう)。
ナスカ-U-KWS-90 @Chiether 2017年10月10日
一方。Adobe先生はスピーチ分析エンジンの搭載を品質不足を理由にやめた。 https://helpx.adobe.com/jp/premiere-pro/using/speech-analysis.html
くまむし@丸の内にゃんにゃんOL @kumamushi_sop 2017年10月10日
人の話聞きながら、パソコンで議事録打っていたマンなので、二度手間に思ってしまうけれど・・・実際やってみたら便利なのかしら。
ちーかま @chiikama_06 2017年10月11日
手書きで入力してたのが悔やまれる…
kazoonx(かずーえぬえっくす) @kazoonrx 2017年10月11日
数年前、バーナンキかドラキの会見中継でiPADでメモを取ってる記者がいたけど、iPhoneで直接会見の音声読み込みさせれば、記者はかなり楽できそう。
広瀬みつこ @hiroya0626 2017年10月11日
私みたいに滑舌悪い人間には不向きかもかも知れないけど、悪くは無いと思うわ。
しもべ @14Silicon 2017年10月12日
自分の手で紙に書き起こすことでこそ記憶に定着する。安易に新技術に飛びつくのはバカの一つ覚え。そうだが多分自分の口で話すことである程度定着するし別に定着目当てじゃないからどうでもいいんじゃないだろうか
しもべ @14Silicon 2017年10月12日
口頭入力はやったことがるが喉がつかれるからあまり長い時間は難しい印象
nekosencho @Neko_Sencho 2017年10月12日
「えらい丁寧にしてきたから、どうやってやったのって聞いたら」って書いてるのが読めない人がいるらしい。この手法でそこの学生さんは見事な文字起こしを実行できたわけで、安易に飛びついたというわけでもないし、むしろ高品質な結果が得られている。
ナスカ-U-KWS-90 @Chiether 2017年10月12日
Neko_Sencho と同時に「タイピングが遅い学生たちに無理やりキーボードで文字起こしさせるよりも」とある部分も見逃してはいけない。 別に品質だとか見事だとか関係ないよこの話題は。 そこまで話すような内容でもない。
ナスカ-U-KWS-90 @Chiether 2017年10月12日
それでもまあコメント残す程度に話題を作ろうとすると話者解析とかの話になるんだろうねぇ(もうこの時点で本題からずれるんだけど)。 既に例にでている東芝RECAIUSはマイクとの位置関係を明確にしなきゃいけないし。三菱ディープクラスタリングは学習させていかなきゃならんし。おそらくみんなが求めているのはNIIブラインド音源分離なんだろうけど。デモは男女とか明確な差があるやつでどこまで分離できるのかってのは、今後も楽しみなところだよね。
ナスカ-U-KWS-90 @Chiether 2017年10月12日
ところで。オンラインでカンファレンストークのできるアプリでさ。 録音者が話者(話者に紐付いてるデータ)ごとに録音データ作れる機能をもってるやつ。誰か知りませんかね? それがあるだけで私が必要としている文字起こしの範囲においては、ぐっと楽なんですが…。
さなぎ @CherrySnow005 2017年10月12日
blackbeans_96 そのアプリをさっそく入れてインタビューしたけれど、文字起こしに関してはダメでした。プレゼンとか講演なら大丈夫かも。 このアプリだけではなくて、ナラティブ的なものを音声入力するのは、、固有名詞の多さとか、抑揚や滑舌の良し悪しの絡みがあって難しい。誤変換を直すっていうレベルではなかった(結論:涙)
貴菜萌士@悠久ガチってる @t7m4_ 2017年10月13日
つまりは「人間と機械の通訳」か……なんだか夢があるな。どんな夢かはわからんけど。
まさご叔父さん @masago53 2017年10月16日
まぁそれのが楽ならそれでいいんでないの。僕はまぁ普通に話すくらいの速さで打てるから修正の手間考えるとタイピングのが楽だけど
ログインして広告を非表示にする
ログインして広告を非表示にする