情報処理学会第232回自然言語処理研究会招待講演「大規模発話ログデータを活用した音声対話処理」 鍜治伸裕(ヤフー株式会社)
音声アシスト×AI(人工知能)―革命的新機能実装の舞台裏―(第2回革命前夜編) promo-search.yahoo.co.jp/news/service/2…
2017-04-12 16:48:34イイネ /「Yahoo! JAPANは、研究所とエンジニアが混ざって行う論文読み会や最新の研究内容を共有するセミナーがあって、エンジニアでも研究を続けられる環境があるんです。海外のトップカンファレンスなどでも、仕事に生かせる場合はどんどん参加を推奨する方針です。」
2017-04-17 14:48:32ACL2017の原稿をarXivに置きました。arxiv.org/abs/1705.00746 インターンの @Rigeru12345 さんが頑張ってくれました。まだM1だったのにすごい!
2017-05-03 10:03:06研究者ではなく裏の仕組みを知らない一般ユーザであれば、それなりに話してもらえるのかなと思う。実際、社内の発話ログデータを眺めてみると、システムと雑談しているユーザさんは一定数いらっしゃる。しかも本当に色々なことを話している。おそらく大方の予想をはるかに超えている。 twitter.com/garicchi/statu…
2017-05-06 23:32:29いきなり知らない中国人学生からメールが来て「お前のそのデータ一足先にこっそり使わせてくれない?絶対内緒にしておくから」と言われてもさすがに厳しい。大学名も書いてないし。現在、法務相談中なのでしばしお待ち頂きたい。
2017-05-09 08:28:32来週のNL研でACLの内容を一足先に発表します。従来のタスク指向型対話システムや非タスク指向型対話システムではなく、タスクも雑談(非タスク)も両方こなすような対話システムの実現に向けた、新しい取り組みとなっています。nl-ipsj.or.jp/2017/04/26/nl2…
2017-05-13 10:32:21対話データはシミュレーションではなく、弊社で実際に運用しているサービスの大規模な発話ログを使っています。他の論文ではなかなか見ることができないガチリアルな対話データです!なお、登壇するのは僕ではなく研究所インターンの学生さんです。
2017-05-13 10:32:32Our paper “Incremental Skip-gram Model with Negative Sampling” got accepted at #emnlp2017! The draft is here: arxiv.org/abs/1704.03956
2017-07-01 14:21:15今月20日にNL研で招待講演をさせて頂くことになりました。最近の研究成果(ACL16、ACL17、SIGdial17)を紹介しつつ、実際に大規模な対話システムを運用しているからこそ可能になる対話研究について話をしたいと思います。nl-ipsj.or.jp/2017/07/03/nl2…
2017-07-03 21:02:50Here is our SIGDIAL paper on inferring why users reformulated their queries to intelligent assistants: arxiv.org/abs/1707.03968 #SIGDIAL2017
2017-07-14 11:05:53今週なのでリツイート。ちなみに社内規定を調べるのが面倒だったんで謝金はなんとなく辞退してしまった。後悔はしている。 twitter.com/nobuhirokaji/s…
2017-07-17 19:01:41NL 研2日目の配信アドレスは以下です。#signl live.nicovideo.jp/watch/lv303013… プログラムはこちら。nl-ipsj.or.jp/2017/07/03/nl2… これから始まります〜
2017-07-20 10:23:24@nobuhirokaji さんの 「 大規模発話ログデータを活用した音声対話処理」の招待講演中です。ACL 等のトップカンファレンスでの発表成果も含め、ヤフーの音声対話処理に関する取り組みを話してくださいます。signl
2017-07-20 13:39:18「独話データに比べて対話データは少ない。これに対するヤフーの回答は、アプリを公開してデータを収集する、というアプローチ。世界的にも稀有な対話データ収集基盤を構築。発話ログデータ収集と研究開発の好循環を生み出す。」#signl
2017-07-20 13:41:06「ACL 2016 で発表した研究成果。将来的に対話システムを使い続けてもらえるかどうか(と離脱するかどうか)を予測。マルチドメインなタスク型対話で、雑談やゲームなども行う。2週間我慢して使ってくれるかどうかが予測にきいてそう、というのが大規模サービスの運用で分かる」#signl
2017-07-20 13:50:36「SIGDIAL 2017 の発表。ユーザの修正発話に着目。修正発話の原因となるエラーを自動検出するというタスク。ログから類似発話の繰り返しを抽出してエラー原因をタグ付け。音声認識、言語理解、言語生成エラー。言語理解は人間にも機械にも難しい。生成のエラー検出が課題」#signl
2017-07-20 13:59:51. @mamoruk 先生のメモを見ているだけでY社パネェ感というか @nobuhirokaji さんパネェ感が伝わる
2017-07-20 14:01:34「今年のACLで発表する内容。雑談発話の検出タスク。アシスタント型システムの出現でタスク型と雑談型のシステムの区別が曖昧に。タグ付けしてみると雑談:非雑談=1:2くらい。リプライ付きツイート(雑談型)やウェブ検索クエリログ(タスク型)が極端に短いまたは長い発話に有効」#signl
2017-07-20 14:10:34「まとめ。IoT の時代で必要な技術は音声対話。大規模なサービスを運用することは、音声対話研究のデータ収集のために極めて有効な手段。対話は構文解析と違い、(ものすごくたくさんの)相手が必要。リアルな発話ログデータはおもしろいし、新しい研究課題がどんどん見えてくる」#signl
2017-07-20 14:14:25「データサイエンティストは新卒、通年ともに通年募集中。ちなみに、ACL 2017 は研究所インターンの成果。おもしろいデータを触って仕事をしたい人はぜひご応募を。インターンは直接 @nobuhirokaji さんにコンタクト!」#signl
2017-07-20 14:15:55