Corpus Linguistics in the Southワークショップのまとめ

今日はCorpus Linguistics in the Southという団体が開催するワークショップへ。Adam Kilgarriff氏によるSketch Engine上級編や、CHILDES、Unixコマンドの話など。 http://t.co/InWuXqnO

2012-11-10 13:17:51

Akira Murakami @mrkm_a

しかし会場のPortsmouthは遠い。往復で8時間は日帰りの距離じゃない・・。ちなみにワークショップ本体も8時間程度。そのため午前3時半起床。。。

2012-11-10 13:20:15

Akira Murakami @mrkm_a

まずはJohn Williams氏（暗示的学習じゃない方）による「Unix for Corpus Users」。元々Collinsにいて、そこでUnixを学んだ。コーパスを使い始めた時にはGUIのソフトはなかった。 #CLinS

2012-11-10 18:47:35

Akira Murakami @mrkm_a

pwd（現在のディレクトリを表示）、echo "Hello, world"、name="John"、echo "Hello, $name"、ls（ディレクトリの内容を表示）、mkdir MyNewDir（ディレクトリを作成） #CLinS

2012-11-10 18:53:53

Akira Murakami @mrkm_a

cd MyNewDir; pwd（ディレクトリを変更して現在のディレクトリを表示）、rmdir MyNewDir（ディレクトリを削除）、man mkdir（コマンドのマニュアルを表示） #CLinS

2012-11-10 18:57:38

Akira Murakami @mrkm_a

mkdir MyNewDir/MySubDirはエラーになる。階層を持つ新しいディレクトリを作る場合はmkdir -p MyNewDir/MySubDirとpオプションを足す。 #CLinS

2012-11-10 18:59:44

Akira Murakami @mrkm_a

ls -f （隠しファイルも表示）、echo -e "Monday\nTuesday\nWednesday"のように、echoコマンドにeオプションを付けると\nが改行と解釈される。 #CLinS

2012-11-10 19:12:08

Akira Murakami @mrkm_a

パイプ（|）はその前の結果を後のコマンドのインプットとして用いる。echo -e "Monday\nTuesday\nWednesday\nThursday\nFriday" | sort。 #CLinS

2012-11-10 19:14:27

Akira Murakami @mrkm_a

echo -e "Monday\nTuesday\nWednesday\nThursday\nFriday" > days.txt（ファイルに出力）、cat days.txt | sort（ファイルから読んだものをソート） #CLinS

2012-11-10 19:17:45

Akira Murakami @mrkm_a

sort < days.txt（これもファイルから読んだものをソート）、echo "lundi" >> days.txt（>>は既存ファイルに足す）。 cat $(ls)（現在のディレクトリのファイルを全てつなげて出力） #CLinS

2012-11-10 20:00:59

Akira Murakami @mrkm_a

cat $(ls) | 's/[[:punct:]]/ /g（句読点を除去）、sed 's/[[:space:]]/\n/g'（句読点を除去し、一行一語にする・・はずが動かないのは何かこちらがミスしているのか）、tr "[A-Z]" "[a-z]"（小文字に置換） #CLinS

2012-11-10 20:02:58

Akira Murakami @mrkm_a

uniq（ユニークな語のみを出力）、uniq -c（頻度カウント）、sort -n（頻度順にソート）、sort -nr（高頻度→低頻度順にソート） #CLinS

2012-11-10 20:04:27

Akira Murakami @mrkm_a

2012-11-10 20:06:55

Akira Murakami @mrkm_a

句読点を除去し、一行一語にし、空行を取り除き、全て小文字にし、頻度順にソートする。 #CLinS

2012-11-10 20:07:03

Akira Murakami @mrkm_a

次はDaniel Jettka氏による「EXMARaLDA (Extensible Markup Language for Discourse Annotation)」話し言葉データを書き起こし、annotateするためのツール。 #CLinS

2012-11-10 20:15:25

Akira Murakami @mrkm_a

EXMARaLDAはこちらからDLできる。 http://t.co/xclRHqJY　 #CLinS

2012-11-10 20:55:12

Akira Murakami @mrkm_a

Partitur Editorで書き起こし、音声ファイルと対応付け、COMAでコーパスを管理し、EXAKTでコンコーダンスラインなどを出す。 #CLinS

2012-11-10 21:34:11

Akira Murakami @mrkm_a

午後の部。まずはKevin McManus氏による「Learner Corpora and Language Acquisition Research: AnIntroduction to CHILDES」 #CLinS

2012-11-11 00:06:33

Akira Murakami @mrkm_a

L1かと思いきやSLA研究にCHILDESを用いるという話。学習者データをCHILDESにアップしましょう。データシェアリング。昨年のEUROSLAとLCRでF. Myles氏も挙げていたFLLOC・SPLLOCプロジェクトを例に挙げている。 #CLinS

2012-11-11 00:08:42

Akira Murakami @mrkm_a

CHILDESはTreeBank、CHAT (Codes for the Human Analysis of Transcripts)、 CLAN (Computerised Language Analysis)から成る。 #CLinS

2012-11-11 00:10:32

Akira Murakami @mrkm_a

CLANにVOCD（語彙の多様性を測定）、COMBO（特定の文字列を検索）、MLU（MLUを測定）などの分析ツールがある。 #CLinS

2012-11-11 00:25:12

Akira Murakami @mrkm_a

実はCLANを初めて触ったが、こんなんなのか。何かで必要に迫られない限りは触らないだろうなあ・・。

2012-11-11 00:55:16

Akira Murakami @mrkm_a

あとインストラクターがCHILDESを「ちゃいるです」と言っていた。確かにその方がスペルに正確な気がする。

2012-11-11 00:56:24

Akira Murakami @mrkm_a

CLANのダウンロード→http://t.co/O5TA06ON、CLANのマニュアル→http://t.co/WajaLNcl、CHATのマニュアル→http://t.co/IdUUN5ru #CLinS

2012-11-11 00:58:45

Akira Murakami @mrkm_a

最後はAdam Kilgarriff氏による「Sketch Engine: Advanced workshop」 #CLinS

2012-11-11 01:01:55

いま話題のタグ