- virtual2real299
- 153976
- 1966
- 505
- 1236
自然言語処理における転移学習で高い性能を記録した、BERTのモデルが公開。Colabで使えるサンプルも提供されている。Out of Memoryが出る場合の対策についてもIssueで取り上げられている。 twitter.com/Thom_Wolf/stat…
2018-11-01 14:22:39So apparently Google has released the TensorFlow code for BERT with the pre-trained weights: github.com/google-researc…
2018-11-01 00:26:20BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Google) arxiv.org/abs/1810.04805 ELMo(双方向RNNの結合)やOpenAI GPT(単方向Transformer)と異なり,双方向Transformer言語モデルを大規模に事前学習. BERTに出力層を1層追加するだけで様々なタスクでSOTA. pic.twitter.com/MC97LleFVB
2018-10-13 16:21:55BERTの事前学習の特徴は(1) マスク単語予測と(2) 次文判定.(1) 全体の15%の単語をマスク.さらにその15%のうち,10%はマスクでなく他単語にランダム置換.10%は変更しない.このマスク予測が双方向学習を可能にする.(2) 文を2つ繋げた入力構造にして2文の連続性を判定.負例は50%をランダムに作成. pic.twitter.com/aM4T3OGqtC
2018-10-13 16:34:25入力はトークン,位置,セグメントの3種の埋込の合計.トークンはWordPiece(30000種).位置は学習で決定.2文の連結構造で,例えば読解では質問と段落を[SEP]で繋げる.先頭に[CLS]を入れ,これが2文の全体表現となる(分類タスクで利用&次文予測の事前学習効果).タスク適用は出力層のみでOK. pic.twitter.com/DcQLXJpRVI
2018-10-13 16:46:50性能の良いLARGEモデルは24層,1024次元,16ヘッド,パラメータ数340M.16 Cloud TPUs (64 TPU chips total)で事前学習に4日.12層ぐらいから性能が大幅に上がっている.コードやモデルはここに公開予定とのこと.github.com/google-researc… pic.twitter.com/sx0huHDp71
2018-10-13 16:53:49事前学習のepoch数は40,各タスクのfine-tuningのepoch数は3,4程度.ELMoなどのfeature-basedなモデルに比べて,BERTではモデル全体のfine-tuningが必要になるのが学習リソースが十分で無い場合の課題になりそうだが,featureとして使ってもCoNLL 2013 NERでは良い性能がでる模様. pic.twitter.com/wDWy18m5op
2018-10-13 17:04:10細かいメモ:BERTの事前学習は連結した2文が512tokens(wordpiece)以下に制限(GPTは1文512tokens).gelu activation, learned positional embeddingを使うのはGPTと同じ.[sep][cls]トークンを事前学習の段階で使う点も新規.Redditの議論 reddit.com/r/MachineLearn…
2018-10-14 11:08:50BERTのTensorFlowコードとpre-trainedモデルがgoogleから公開。CPU/GPU/TPU対応だけど、multi-GPUsでの学習は不可。fine-tuningに関しては、BERT-Largeは64GBのTPU1枚でOK、12-16GBのGPU1枚だとNG。BERT-baseならGPU1枚でOK。 将来的に他言語BERTもリリース予定とのこと。github.com/google-researc…
2018-11-01 10:02:42ついに BERT のトレーニングコードが公開になりました!自然言語処理のディープラーニング技術に興味がある人は必見ですね。しかも独立したパッケージになっているから再利用しやすいみたい。後で読む!! github.com/google-researc…
2018-11-01 08:23:07BERTに関する論文は10月11日に @arxiv(査読前の論文を登録)に掲載(arxiv.org/abs/1810.04805)され誰でも読めます。arXiv に投稿されてる論文数は月1万件を軽く超えている。 多読チャレンジ(👉choimirai.page.link/tadoku)にはこれらの情報を活用したいからが理由で参加されてる方も多いです。 pic.twitter.com/VnjlwWzV6j
2018-11-04 21:30:29BERT はグーグルの Colab Notebook から実装することも出来ます。Cloud TPU 上で実行するので、結果を確認するためには、Google Compute Engine のアカウントと Google Cloud Storage の bucket が必要です。 🌿詳細:colab.research.google.com/github/tensorf… pic.twitter.com/1Dk61NTcXW
2018-11-04 18:12:28@odashi_t 突然すいません。新井教授が今年の中頃に、「どれぐらい東ロボに英文を覚えさせたのか。150億文も覚えさせました。これ以上、まともな英文を覚えさせる余地はないので、一生無理ってことです」と言ってました。私も転移学習の考察が抜けてると思ったのですが、BERTは関係なさそうですか?
2018-11-05 11:00:28東ロボくん、実際プロジェクトの終了機関までまだ何年もあったのに、新井教授の思惑のために強制終了させた感しかなかったのよね当時から。実際あのまま続けてても最新技術のピックアップは容易ではなかったろうが、「できない」と結論付けてAIへの偏見を助長させていくのは害でしかない
2018-11-04 21:27:03東ロボの件,内容の是非はともかく,断念時にまるでAI研究全体の敗北みたいな幕引きになってしまったのは問題かなと 世界的に研究者が大量にいる超レッドオーシャンな分野なので,日本の一研究者グループが敗れ去っても,世界的な視点から見ればそれこそ「フフフ…奴は四天王の中でも」案件なわけで
2018-11-04 21:22:39東ロボは断念するなら評価データセットを公開して欲しかったという思いがある。 機械学習の分野で「無理」と思われたことができるようになった事例は山ほどあるが、現状ではその技術が出ても東ロボの実験に適用したらどうなるか試せない。先の技術に道を託さず閉じてしまった感がある。
2018-05-08 19:32:43これは負の遺産として結構大きいと思う。深層学習勃興以前だったから今は違う、と言いやすいのが救いではあるが。 twitter.com/kazoo04/status…
2018-11-04 19:49:39東ロボくん、いろいろあったけど個人的に残念なのは「今の技術で東大に合格できるプログラムを作るのは無理!もうやめよう」みたいな空気ができてしまったことなんだよな
2018-10-29 20:51:55プロジェクト自体は僕ちゃんは批判しないけど、新井紀子の発言は専門家の発言と捉えるには、「余りに雑で、適当で、まるで物を知らないかのようで、扇動的である」し、東ロボくんとそれ関連のデータが全然開示されてないし、あの人にいい印象を持てと言われても無理あると思うですよね… twitter.com/jaguring1/stat…
2018-11-04 19:18:56