データ節約で実現するサーバレス AWS APIGateway + Python Lambda + NEologdで作る日本語形態素解析API #pyconjp #pyconjp_202
BakFoo, Inc.
ラストはサーバレス日本語形態素解析のセッション #pyconjp_202 #pyconjp
2017-09-09 16:13:05#pyconjp #pyconjp_202 わーい形態素解析!あさぎ形態素解析大好き! pic.twitter.com/R7ARuvcIhg
2017-09-09 16:13:45らすとー プレゼンテーション:AWS APIGateway + Python Lambda + NEologdで作るサーバレス日本語形態素解析API | PyCon JP 2017 in TOKYO pycon.jp/2017/ja/schedu… #pyconjp_202
2017-09-09 16:14:18MeCabをサーバーレスで。比較的低コストでAPIで利用できればな。 #pyconjp_202
2017-09-09 16:17:12AWS LambdaのためにEC2が必須。このAMIでMeCabをコンパイルするため。 LambdaでMeCabを動かす記事はクラメソにもある。 NOologd辞書のビルドはUbuntuで。 #pyconjp_202
2017-09-09 16:19:08Lambdaで動かすものにコンパイルが必要なの、やっぱり一手間かかるのね #pyconjp #pyconjp_202
2017-09-09 16:20:42NEologd辞書は900MBで、Lambda実行環境では厳しい。 →最小構成で辞書を作成すると400MB #pyconjp_202
2017-09-09 16:22:21NEologd生成時に--eliminate-redundant-entryオプションを付けてAWS Lambdaのメモリ量でも動くサイズに収める #pyconjp_202 #pyconjp
2017-09-09 16:22:48辞書をLambdaのテンポラリストレージに収めるための取り組みが凄い #pyconjp #pyconjp_202
2017-09-09 16:24:20日本語のサニタイズ: 長音符号をまとめる、句読点をまとめる、文字列の間のスペースは句点を埋める、レイアウトのための連続するスペースを削除 #pyconjp_202
2017-09-09 16:27:05#pyconjp_202 サニタイズ。一般的な文字列に合わせる処理をやってます。同点ゴーーーーール!を同点ゴール!にするとか。スペースを句点で埋める、連続するスペースを削除するとか。
2017-09-09 16:27:24合名詞。「ストーリー・メイキング」を「ストーリーメイキング」にして一つの単語として扱う #pyconjp #pyconjp_202
2017-09-09 16:28:46合名詞: 辞書にはない連続する名詞を君合わせて一つの単語としてあつかう。 NHKマイルチャンピオンシップ →NHKマイルを一語 ストーリー・メイキング →ストーリー、・、メイキングでわかれたものを一語 #pyconjp_202
2017-09-09 16:29:03