データ節約で実現するサーバレス AWS APIGateway + Python Lambda + NEologdで作る日本語形態素解析API #pyconjp #pyconjp_202

AWS APIGateway + Python Lambda + NEologdで作るサーバレス日本語形態素解析API Satoru Kadowaki @satoru_kadowaki PythonとMeCab+NEologdを使用した日本語形態素解析環境は様々な場面で広く利用されていますが,容量などサイズも比較的大きくなりがちで,サーバレス環境のような気軽な環境で動作させることは容易ではありません.本トークではAWSのサーバレスサービスであるLambdaを使用して日本語形態素解析環境をPython + MeCab/NEologd + AWS Lambdaで作成する際に有効なTipsを中心に紹介します.
0

npub1hqmrddql4em63chfs02x8cx86alrdss9m4kxevpjzwwgc @ryu22e

ラストはサーバレス日本語形態素解析のセッション #pyconjp_202 #pyconjp

2017-09-09 16:13:05
Typhon(テポ)/ShunYoshie✡0302jawsdays @Typhon666_death

らすとー プレゼンテーション:AWS APIGateway + Python Lambda + NEologdで作るサーバレス日本語形態素解析API | PyCon JP 2017 in TOKYO pycon.jp/2017/ja/schedu… #pyconjp_202

2017-09-09 16:14:18
matoba @mtb_beta

#pyconjp_202 次は、サーバーレス日本語形態素解析の話

2017-09-09 16:15:56
Typhon(テポ)/ShunYoshie✡0302jawsdays @Typhon666_death

MeCabをサーバーレスで。比較的低コストでAPIで利用できればな。 #pyconjp_202

2017-09-09 16:17:12
Typhon(テポ)/ShunYoshie✡0302jawsdays @Typhon666_death

AWS LambdaのためにEC2が必須。このAMIでMeCabをコンパイルするため。 LambdaでMeCabを動かす記事はクラメソにもある。 NOologd辞書のビルドはUbuntuで。 #pyconjp_202

2017-09-09 16:19:08
kAZUYA tAKEI @attakei

Lambdaで動かすものにコンパイルが必要なの、やっぱり一手間かかるのね #pyconjp #pyconjp_202

2017-09-09 16:20:42
Typhon(テポ)/ShunYoshie✡0302jawsdays @Typhon666_death

NEologd辞書は900MBで、Lambda実行環境では厳しい。 →最小構成で辞書を作成すると400MB #pyconjp_202

2017-09-09 16:22:21
小泉ひやかし🌻無職 @nnsnodnb

すごい、すごーい、すごーーーーーい #pyconjp

2017-09-09 16:22:39
npub1hqmrddql4em63chfs02x8cx86alrdss9m4kxevpjzwwgc @ryu22e

NEologd生成時に--eliminate-redundant-entryオプションを付けてAWS Lambdaのメモリ量でも動くサイズに収める #pyconjp_202 #pyconjp

2017-09-09 16:22:48
ぷろぷろ @ProletariatPro

#pyconjp_202 表現の揺らぎ「amazon、 AMAZON」などはハンカクコモジに寄せる

2017-09-09 16:23:24
Masashi Terui @marcy_terui

辞書をLambdaのテンポラリストレージに収めるための取り組みが凄い #pyconjp #pyconjp_202

2017-09-09 16:24:20
Typhon(テポ)/ShunYoshie✡0302jawsdays @Typhon666_death

日本語のサニタイズ: 長音符号をまとめる、句読点をまとめる、文字列の間のスペースは句点を埋める、レイアウトのための連続するスペースを削除 #pyconjp_202

2017-09-09 16:27:05
ぷろぷろ @ProletariatPro

#pyconjp_202 サニタイズ 装飾的のための文字列を修正する「ごーーーーーーる」などを「ゴール」にする

2017-09-09 16:27:09
K J @cookieices

すごーい! が すごい! になってしまうのだろうか。 サーバルちゃん…。 #pyconjp_202 #pyconjp

2017-09-09 16:27:21
matoba @mtb_beta

#pyconjp_202 サニタイズ。一般的な文字列に合わせる処理をやってます。同点ゴーーーーール!を同点ゴール!にするとか。スペースを句点で埋める、連続するスペースを削除するとか。

2017-09-09 16:27:24
ぷろぷろ @ProletariatPro

#pyconjp_202 合名詞 NHKマイルなどの新語を新しい単語として登録する

2017-09-09 16:28:32
xKxAxKx @xKxAxKx

合名詞。「ストーリー・メイキング」を「ストーリーメイキング」にして一つの単語として扱う #pyconjp #pyconjp_202

2017-09-09 16:28:46
Typhon(テポ)/ShunYoshie✡0302jawsdays @Typhon666_death

合名詞: 辞書にはない連続する名詞を君合わせて一つの単語としてあつかう。 NHKマイルチャンピオンシップ →NHKマイルを一語 ストーリー・メイキング →ストーリー、・、メイキングでわかれたものを一語 #pyconjp_202

2017-09-09 16:29:03
matoba @mtb_beta

#pyconjp_202 合名詞。「NHKマイル」→「NHK」と「マイル」に分割されないようにする。

2017-09-09 16:29:24