Corpus Linguistics in the Southワークショップのまとめ

2012年11月10日にポーツマス大学で行われたCorpus Linguistics in the Southのワークショップのまとめです。次回は3月にSussexで行われるとのことです。
3
Akira Murakami @mrkm_a

今日はCorpus Linguistics in the Southという団体が開催するワークショップへ。Adam Kilgarriff氏によるSketch Engine上級編や、CHILDES、Unixコマンドの話など。 http://t.co/InWuXqnO

2012-11-10 13:17:51
Akira Murakami @mrkm_a

しかし会場のPortsmouthは遠い。往復で8時間は日帰りの距離じゃない・・。ちなみにワークショップ本体も8時間程度。そのため午前3時半起床。。。

2012-11-10 13:20:15
Akira Murakami @mrkm_a

まずはJohn Williams氏(暗示的学習じゃない方)による「Unix for Corpus Users」。元々Collinsにいて、そこでUnixを学んだ。コーパスを使い始めた時にはGUIのソフトはなかった。 #CLinS

2012-11-10 18:47:35
Akira Murakami @mrkm_a

pwd(現在のディレクトリを表示)、echo "Hello, world"、name="John"、echo "Hello, $name"、ls(ディレクトリの内容を表示)、mkdir MyNewDir(ディレクトリを作成) #CLinS

2012-11-10 18:53:53
Akira Murakami @mrkm_a

cd MyNewDir; pwd(ディレクトリを変更して現在のディレクトリを表示)、rmdir MyNewDir(ディレクトリを削除)、man mkdir(コマンドのマニュアルを表示) #CLinS

2012-11-10 18:57:38
Akira Murakami @mrkm_a

mkdir MyNewDir/MySubDirはエラーになる。階層を持つ新しいディレクトリを作る場合はmkdir -p MyNewDir/MySubDirとpオプションを足す。 #CLinS

2012-11-10 18:59:44
Akira Murakami @mrkm_a

ls -f (隠しファイルも表示)、echo -e "Monday\nTuesday\nWednesday"のように、echoコマンドにeオプションを付けると\nが改行と解釈される。 #CLinS

2012-11-10 19:12:08
Akira Murakami @mrkm_a

パイプ(|)はその前の結果を後のコマンドのインプットとして用いる。echo -e "Monday\nTuesday\nWednesday\nThursday\nFriday" | sort。 #CLinS

2012-11-10 19:14:27
Akira Murakami @mrkm_a

echo -e "Monday\nTuesday\nWednesday\nThursday\nFriday" > days.txt(ファイルに出力)、cat days.txt | sort(ファイルから読んだものをソート) #CLinS

2012-11-10 19:17:45
Akira Murakami @mrkm_a

sort < days.txt(これもファイルから読んだものをソート)、echo "lundi" >> days.txt(>>は既存ファイルに足す)。 cat $(ls)(現在のディレクトリのファイルを全てつなげて出力) #CLinS

2012-11-10 20:00:59
Akira Murakami @mrkm_a

cat $(ls) | 's/[[:punct:]]/ /g(句読点を除去)、sed 's/[[:space:]]/\n/g'(句読点を除去し、一行一語にする・・はずが動かないのは何かこちらがミスしているのか)、tr "[A-Z]" "[a-z]"(小文字に置換) #CLinS

2012-11-10 20:02:58
Akira Murakami @mrkm_a

uniq(ユニークな語のみを出力)、uniq -c(頻度カウント)、sort -n(頻度順にソート)、sort -nr(高頻度→低頻度順にソート) #CLinS

2012-11-10 20:04:27
Akira Murakami @mrkm_a

cat $(ls) | sed 's/[[:punct:]]/ /g' | sed 's/[[:space:]]/\n/g' | grep '^[A-Za-z]' | tr "[A-Z]" "[a-z]" | sort | uniq -c | sort -nr #CLinS

2012-11-10 20:06:55
Akira Murakami @mrkm_a

句読点を除去し、一行一語にし、空行を取り除き、全て小文字にし、頻度順にソートする。 #CLinS

2012-11-10 20:07:03
Akira Murakami @mrkm_a

次はDaniel Jettka氏による「EXMARaLDA (Extensible Markup Language for Discourse Annotation)」話し言葉データを書き起こし、annotateするためのツール。 #CLinS

2012-11-10 20:15:25
Akira Murakami @mrkm_a

Partitur Editorで書き起こし、音声ファイルと対応付け、COMAでコーパスを管理し、EXAKTでコンコーダンスラインなどを出す。 #CLinS

2012-11-10 21:34:11
Akira Murakami @mrkm_a

午後の部。まずはKevin McManus氏による「Learner Corpora and Language Acquisition Research: AnIntroduction to CHILDES」 #CLinS

2012-11-11 00:06:33
Akira Murakami @mrkm_a

L1かと思いきやSLA研究にCHILDESを用いるという話。学習者データをCHILDESにアップしましょう。データシェアリング。昨年のEUROSLAとLCRでF. Myles氏も挙げていたFLLOC・SPLLOCプロジェクトを例に挙げている。 #CLinS

2012-11-11 00:08:42
Akira Murakami @mrkm_a

CHILDESはTreeBank、CHAT (Codes for the Human Analysis of Transcripts)、 CLAN (Computerised Language Analysis)から成る。 #CLinS

2012-11-11 00:10:32
Akira Murakami @mrkm_a

CLANにVOCD(語彙の多様性を測定)、COMBO(特定の文字列を検索)、MLU(MLUを測定)などの分析ツールがある。 #CLinS

2012-11-11 00:25:12
Akira Murakami @mrkm_a

実はCLANを初めて触ったが、こんなんなのか。何かで必要に迫られない限りは触らないだろうなあ・・。

2012-11-11 00:55:16
Akira Murakami @mrkm_a

あとインストラクターがCHILDESを「ちゃいるです」と言っていた。確かにその方がスペルに正確な気がする。

2012-11-11 00:56:24
Akira Murakami @mrkm_a

CLANのダウンロード→http://t.co/O5TA06ON、CLANのマニュアル→http://t.co/WajaLNcl、CHATのマニュアル→http://t.co/IdUUN5ru #CLinS

2012-11-11 00:58:45
Akira Murakami @mrkm_a

最後はAdam Kilgarriff氏による「Sketch Engine: Advanced workshop」 #CLinS

2012-11-11 01:01:55