情報処理学会第232回自然言語処理研究会招待講演「大規模発話ログデータを活用した音声対話処理」 鍜治伸裕(ヤフー株式会社)

近年、SiriやAmazon Echoといった音声対話サービス(機器)が次々と現れるなど、音声対話技術は実用化のフェーズに入りつつある。そのため研究開発の現場においては、大勢のユーザを持つ音声対話サービスを運用しながら発話ログの収集を行い、その発話ログデータの分析によって音声対話技術を高度化させ、その結果として更に多くのユーザの獲得につなげる、という好循環が回り始めている。本講演では、ヤフー株式会社におけるそうした取り組みとして、対話型エージェントアプリ「Yahoo! 音声アシスト」の大規模発話ログデータを用いた音声対話処理の研究事例を紹介する。
0
生研 @Rigeru12345

音声アシスト×AI(人工知能)―革命的新機能実装の舞台裏―(第2回革命前夜編) promo-search.yahoo.co.jp/news/service/2…

2017-04-12 16:48:34
生研 @Rigeru12345

ヤフーの音声アシストにもDNNベースの雑談対話機能が最近入ったので対話興味ある人は使ってみてほしいな…

2017-04-12 16:49:56
生研 @Rigeru12345

イイネ /「Yahoo! JAPANは、研究所とエンジニアが混ざって行う論文読み会や最新の研究内容を共有するセミナーがあって、エンジニアでも研究を続けられる環境があるんです。海外のトップカンファレンスなどでも、仕事に生かせる場合はどんどん参加を推奨する方針です。」

2017-04-17 14:48:32
Nobuhiro Kaji @nobuhirokaji

ACL2017の原稿をarXivに置きました。arxiv.org/abs/1705.00746 インターンの @Rigeru12345 さんが頑張ってくれました。まだM1だったのにすごい!

2017-05-03 10:03:06
Nobuhiro Kaji @nobuhirokaji

研究者ではなく裏の仕組みを知らない一般ユーザであれば、それなりに話してもらえるのかなと思う。実際、社内の発話ログデータを眺めてみると、システムと雑談しているユーザさんは一定数いらっしゃる。しかも本当に色々なことを話している。おそらく大方の予想をはるかに超えている。 twitter.com/garicchi/statu…

2017-05-06 23:32:29
Nobuhiro Kaji @nobuhirokaji

(続き) 個人的にはシステムにセクハラ発言をするのは信じられへん。システムの中の人を見せてあげたい。

2017-05-06 23:33:30
Nobuhiro Kaji @nobuhirokaji

いきなり知らない中国人学生からメールが来て「お前のそのデータ一足先にこっそり使わせてくれない?絶対内緒にしておくから」と言われてもさすがに厳しい。大学名も書いてないし。現在、法務相談中なのでしばしお待ち頂きたい。

2017-05-09 08:28:32
Nobuhiro Kaji @nobuhirokaji

データは公開する・・・・・・!公開するが・・・・・・今回まだその時と場所の指定までは(以下略)

2017-05-09 08:29:22
Nobuhiro Kaji @nobuhirokaji

来週のNL研でACLの内容を一足先に発表します。従来のタスク指向型対話システムや非タスク指向型対話システムではなく、タスクも雑談(非タスク)も両方こなすような対話システムの実現に向けた、新しい取り組みとなっています。nl-ipsj.or.jp/2017/04/26/nl2…

2017-05-13 10:32:21
Nobuhiro Kaji @nobuhirokaji

対話データはシミュレーションではなく、弊社で実際に運用しているサービスの大規模な発話ログを使っています。他の論文ではなかなか見ることができないガチリアルな対話データです!なお、登壇するのは僕ではなく研究所インターンの学生さんです。

2017-05-13 10:32:32
Nobuhiro Kaji @nobuhirokaji

Our paper “Incremental Skip-gram Model with Negative Sampling” got accepted at #emnlp2017! The draft is here: arxiv.org/abs/1704.03956

2017-07-01 14:21:15
Nobuhiro Kaji @nobuhirokaji

今月20日にNL研で招待講演をさせて頂くことになりました。最近の研究成果(ACL16、ACL17、SIGdial17)を紹介しつつ、実際に大規模な対話システムを運用しているからこそ可能になる対話研究について話をしたいと思います。nl-ipsj.or.jp/2017/07/03/nl2…

2017-07-03 21:02:50
Nobuhiro Kaji @nobuhirokaji

Here is our SIGDIAL paper on inferring why users reformulated their queries to intelligent assistants: arxiv.org/abs/1707.03968 #SIGDIAL2017

2017-07-14 11:05:53
Nobuhiro Kaji @nobuhirokaji

今週なのでリツイート。ちなみに社内規定を調べるのが面倒だったんで謝金はなんとなく辞退してしまった。後悔はしている。 twitter.com/nobuhirokaji/s…

2017-07-17 19:01:41
Mamoru B Komachi @mamoruk

NL 研2日目の配信アドレスは以下です。#signl live.nicovideo.jp/watch/lv303013… プログラムはこちら。nl-ipsj.or.jp/2017/07/03/nl2… これから始まります〜

2017-07-20 10:23:24
Mamoru B Komachi @mamoruk

@nobuhirokaji さんの 「 大規模発話ログデータを活用した音声対話処理」の招待講演中です。ACL 等のトップカンファレンスでの発表成果も含め、ヤフーの音声対話処理に関する取り組みを話してくださいます。signl

2017-07-20 13:39:18
Mamoru B Komachi @mamoruk

独話データに比べて対話データは少ない。これに対するヤフーの回答は、アプリを公開してデータを収集する、というアプローチ。世界的にも稀有な対話データ収集基盤を構築。発話ログデータ収集と研究開発の好循環を生み出す。」#signl

2017-07-20 13:41:06
Mamoru B Komachi @mamoruk

ACL 2016 で発表した研究成果。将来的に対話システムを使い続けてもらえるかどうか(と離脱するかどうか)を予測。マルチドメインなタスク型対話で、雑談やゲームなども行う。2週間我慢して使ってくれるかどうかが予測にきいてそう、というのが大規模サービスの運用で分かる#signl

2017-07-20 13:50:36
Yo Ehara @yo_ehara

2016年のACLで、SVMとSVRでペーパーが通る、ような問題設定の切り出し方と論文の書き方、見習いたい。

2017-07-20 13:52:18
Mamoru B Komachi @mamoruk

SIGDIAL 2017 の発表。ユーザの修正発話に着目。修正発話の原因となるエラーを自動検出するというタスク。ログから類似発話の繰り返しを抽出してエラー原因をタグ付け。音声認識、言語理解、言語生成エラー。言語理解は人間にも機械にも難しい。生成のエラー検出が課題#signl

2017-07-20 13:59:51
Katsuhito Sudoh (ja) @katsuhitosudoh

. @mamoruk 先生のメモを見ているだけでY社パネェ感というか @nobuhirokaji さんパネェ感が伝わる

2017-07-20 14:01:34
Mamoru B Komachi @mamoruk

「今年のACLで発表する内容。雑談発話の検出タスク。アシスタント型システムの出現でタスク型と雑談型のシステムの区別が曖昧に。タグ付けしてみると雑談:非雑談=1:2くらい。リプライ付きツイート(雑談型)やウェブ検索クエリログ(タスク型)が極端に短いまたは長い発話に有効#signl

2017-07-20 14:10:34
Mamoru B Komachi @mamoruk

「まとめ。IoT の時代で必要な技術は音声対話。大規模なサービスを運用することは、音声対話研究のデータ収集のために極めて有効な手段。対話は構文解析と違い、(ものすごくたくさんの)相手が必要。リアルな発話ログデータはおもしろいし、新しい研究課題がどんどん見えてくる」#signl

2017-07-20 14:14:25
Mamoru B Komachi @mamoruk

データサイエンティストは新卒、通年ともに通年募集中。ちなみに、ACL 2017 は研究所インターンの成果。おもしろいデータを触って仕事をしたい人はぜひご応募を。インターンは直接 @nobuhirokaji さんにコンタクト!」#signl

2017-07-20 14:15:55