「WebDB Forum 2014 第7回 Webとデータベースに関するフォーラム」まとめ
「ウェブ上の言語資源を用いた単語のベクトル表現の翻訳」を聴いている。分布類似度でベクトル表現を作るが、日本語で作ったベクトルと英語で作ったベクトル同士は比較できない、という問題に挑戦。対訳辞書は使うが対訳コーパスは不要だそう。おもしろい。#webdbf #webdbf2014
2014-11-19 15:49:06先行研究は Mikokov の 2013年の研究。翻訳元の単語ベクトルを入れると翻訳先の単語ベクトルを出す重み行列を学習。本研究のアイデアはウェブ上の対訳辞書による精度向上。対訳関係にある共起語の重みを増やせばいいんじゃないか、という仮説。#webdbf #webdbf2014
2014-11-19 15:53:42本日の #WebDBf2014 での発表スライドです。巻きすぎてしまったので、復習用に是非どうぞ。 #riakjp speakerdeck.com/kuenishi/riak-…
2014-11-19 16:50:14ハッカソンやアイデアソンばかりでなく、 ビジュアライズソンなんて言葉もあるのか。そしたら辞書やコーパスを作るアノテーソンがあってもいいんじゃなかろうか。#webdbf #webdbf2014
2014-11-19 17:04:45住所表現の自由度はヤバイ。総務省(統計局)と国土交通省の住所データをマッピングしても8割程度しか照合できなかった。あと、市町村コード以下のコード(丁目レベル)を統一的に管理できる ID もないですね。 #webdbf #webdbf2014
2014-11-19 17:06:17ホームページの費用の話で思い出したけど早稲田大学の新しいホームページとかすごいお金かかってそう #webdbf2014
2014-11-19 17:06:46にしても #webdbf2014 の Wifi 遅すぎやしませんかねぇ・・・ pic.twitter.com/bgmqI8P08V
2014-11-19 17:08:51コア語彙:どの分野でも利用される普遍的な語彙 ドメイン共通語彙:分野固有の語彙の内、他の分野でも参照する主要な語彙 ドメイン固有語彙各:分野での利用に特化した語彙 #WebDB2014
2014-11-19 17:10:15#webdb オープンデータのセッション。思い出したのは、2013/10の予算が決まらなかったとかでアメリカdata.govが停止したトラウマ (大げさ)
2014-11-19 17:25:58スキーマを決めるのは大事だけれど、共通仕様を作るのには時間が必要そう。データを集める部分が簡単にならないとオープンデータ計画は時間がかかりすぎて頓挫しそうな気がする #webdbf2014
2014-11-19 17:42:29ツイートの位置情報推定はチャレンジングで楽しいですね! #webdbf #webdbf2014 データ収集の協力ができるかもしれないので、興味のある方はお気軽にご連絡くださいませ。 twitter.com/ceekz/status/5…
2014-11-19 17:46:37世界中の位置情報付きツイートは2014年7月25日から収集を始め、圧縮済み JSON ファイルで 486GB ですな。解凍すると 4TB くらいになりそう。日本国内は2011年5月20日から収集を始めて 127GB なり。
2014-11-18 23:03:00「アカデミアはデータを必要としている」うーん。データが無いところでサイエンスしてる方が幸せな人も多いと思うけど #webdbf2014
2014-11-19 17:55:45ポスターレセプション、ビールとか寿司あって豪華すぎる #webdbf2014 pic.twitter.com/Frx6KstCRm
2014-11-19 18:19:08