編集部が選ぶ「みんなに見てほしい」イチオシまとめはこちら

データ節約で実現するサーバレス AWS APIGateway + Python Lambda + NEologdで作る日本語形態素解析API #pyconjp #pyconjp_202

AWS APIGateway + Python Lambda + NEologdで作るサーバレス日本語形態素解析API Satoru Kadowaki @satoru_kadowaki PythonとMeCab+NEologdを使用した日本語形態素解析環境は様々な場面で広く利用されていますが,容量などサイズも比較的大きくなりがちで,サーバレス環境のような気軽な環境で動作させることは容易ではありません.本トークではAWSのサーバレスサービスであるLambdaを使用して日本語形態素解析環境をPython + MeCab/NEologd + AWS Lambdaで作成する際に有効なTipsを中心に紹介します.
プログラミング 言語
968view 0コメント
このまとめをお気に入りにして応援しよう!
0

Ryuji Tsutsui @ryu22e
ラストはサーバレス日本語形態素解析のセッション #pyconjp_202 #pyconjp
麻木浅葱bot @asagi_00a3af
#pyconjp #pyconjp_202 わーい形態素解析!あさぎ形態素解析大好き! pic.twitter.com/R7ARuvcIhg
 拡大
Typhon✡DarkFintech @Typhon666_death
らすとー プレゼンテーション:AWS APIGateway + Python Lambda + NEologdで作るサーバレス日本語形態素解析API | PyCon JP 2017 in TOKYO pycon.jp/2017/ja/schedu… #pyconjp_202
matoba@充電中 @mtb_beta
#pyconjp_202 次は、サーバーレス日本語形態素解析の話
Typhon✡DarkFintech @Typhon666_death
MeCabをサーバーレスで。比較的低コストでAPIで利用できればな。 #pyconjp_202
Typhon✡DarkFintech @Typhon666_death
AWS LambdaのためにEC2が必須。このAMIでMeCabをコンパイルするため。 LambdaでMeCabを動かす記事はクラメソにもある。 NOologd辞書のビルドはUbuntuで。 #pyconjp_202
kAZUYA tAKEI @attakei
Lambdaで動かすものにコンパイルが必要なの、やっぱり一手間かかるのね #pyconjp #pyconjp_202
Typhon✡DarkFintech @Typhon666_death
NEologd辞書は900MBで、Lambda実行環境では厳しい。 →最小構成で辞書を作成すると400MB #pyconjp_202
Ryuji Tsutsui @ryu22e
NEologd生成時に--eliminate-redundant-entryオプションを付けてAWS Lambdaのメモリ量でも動くサイズに収める #pyconjp_202 #pyconjp
プログレッシブ・プロレタリアート @pro_proletariat
#pyconjp_202 表現の揺らぎ「amazon、 AMAZON」などはハンカクコモジに寄せる
Masashi Terui @marcy_terui
辞書をLambdaのテンポラリストレージに収めるための取り組みが凄い #pyconjp #pyconjp_202
Typhon✡DarkFintech @Typhon666_death
日本語のサニタイズ: 長音符号をまとめる、句読点をまとめる、文字列の間のスペースは句点を埋める、レイアウトのための連続するスペースを削除 #pyconjp_202
プログレッシブ・プロレタリアート @pro_proletariat
#pyconjp_202 サニタイズ 装飾的のための文字列を修正する「ごーーーーーーる」などを「ゴール」にする
KJ/やがて君になるを観ろ @cookieices
すごーい! が すごい! になってしまうのだろうか。 サーバルちゃん…。 #pyconjp_202 #pyconjp
matoba@充電中 @mtb_beta
#pyconjp_202 サニタイズ。一般的な文字列に合わせる処理をやってます。同点ゴーーーーール!を同点ゴール!にするとか。スペースを句点で埋める、連続するスペースを削除するとか。
プログレッシブ・プロレタリアート @pro_proletariat
#pyconjp_202 合名詞 NHKマイルなどの新語を新しい単語として登録する
xKxAxKx @xKxAxKx
合名詞。「ストーリー・メイキング」を「ストーリーメイキング」にして一つの単語として扱う #pyconjp #pyconjp_202
Typhon✡DarkFintech @Typhon666_death
合名詞: 辞書にはない連続する名詞を君合わせて一つの単語としてあつかう。 NHKマイルチャンピオンシップ →NHKマイルを一語 ストーリー・メイキング →ストーリー、・、メイキングでわかれたものを一語 #pyconjp_202
matoba@充電中 @mtb_beta
#pyconjp_202 合名詞。「NHKマイル」→「NHK」と「マイル」に分割されないようにする。
残りを読む(25)
ログインして広告を非表示にする
ログインして広告を非表示にする