Corpus Linguistics in the Southワークショップのまとめ
今日はCorpus Linguistics in the Southという団体が開催するワークショップへ。Adam Kilgarriff氏によるSketch Engine上級編や、CHILDES、Unixコマンドの話など。 http://t.co/InWuXqnO
2012-11-10 13:17:51しかし会場のPortsmouthは遠い。往復で8時間は日帰りの距離じゃない・・。ちなみにワークショップ本体も8時間程度。そのため午前3時半起床。。。
2012-11-10 13:20:15まずはJohn Williams氏(暗示的学習じゃない方)による「Unix for Corpus Users」。元々Collinsにいて、そこでUnixを学んだ。コーパスを使い始めた時にはGUIのソフトはなかった。 #CLinS
2012-11-10 18:47:35pwd(現在のディレクトリを表示)、echo "Hello, world"、name="John"、echo "Hello, $name"、ls(ディレクトリの内容を表示)、mkdir MyNewDir(ディレクトリを作成) #CLinS
2012-11-10 18:53:53cd MyNewDir; pwd(ディレクトリを変更して現在のディレクトリを表示)、rmdir MyNewDir(ディレクトリを削除)、man mkdir(コマンドのマニュアルを表示) #CLinS
2012-11-10 18:57:38mkdir MyNewDir/MySubDirはエラーになる。階層を持つ新しいディレクトリを作る場合はmkdir -p MyNewDir/MySubDirとpオプションを足す。 #CLinS
2012-11-10 18:59:44ls -f (隠しファイルも表示)、echo -e "Monday\nTuesday\nWednesday"のように、echoコマンドにeオプションを付けると\nが改行と解釈される。 #CLinS
2012-11-10 19:12:08パイプ(|)はその前の結果を後のコマンドのインプットとして用いる。echo -e "Monday\nTuesday\nWednesday\nThursday\nFriday" | sort。 #CLinS
2012-11-10 19:14:27echo -e "Monday\nTuesday\nWednesday\nThursday\nFriday" > days.txt(ファイルに出力)、cat days.txt | sort(ファイルから読んだものをソート) #CLinS
2012-11-10 19:17:45sort < days.txt(これもファイルから読んだものをソート)、echo "lundi" >> days.txt(>>は既存ファイルに足す)。 cat $(ls)(現在のディレクトリのファイルを全てつなげて出力) #CLinS
2012-11-10 20:00:59cat $(ls) | 's/[[:punct:]]/ /g(句読点を除去)、sed 's/[[:space:]]/\n/g'(句読点を除去し、一行一語にする・・はずが動かないのは何かこちらがミスしているのか)、tr "[A-Z]" "[a-z]"(小文字に置換) #CLinS
2012-11-10 20:02:58uniq(ユニークな語のみを出力)、uniq -c(頻度カウント)、sort -n(頻度順にソート)、sort -nr(高頻度→低頻度順にソート) #CLinS
2012-11-10 20:04:27cat $(ls) | sed 's/[[:punct:]]/ /g' | sed 's/[[:space:]]/\n/g' | grep '^[A-Za-z]' | tr "[A-Z]" "[a-z]" | sort | uniq -c | sort -nr #CLinS
2012-11-10 20:06:55次はDaniel Jettka氏による「EXMARaLDA (Extensible Markup Language for Discourse Annotation)」話し言葉データを書き起こし、annotateするためのツール。 #CLinS
2012-11-10 20:15:25Partitur Editorで書き起こし、音声ファイルと対応付け、COMAでコーパスを管理し、EXAKTでコンコーダンスラインなどを出す。 #CLinS
2012-11-10 21:34:11午後の部。まずはKevin McManus氏による「Learner Corpora and Language Acquisition Research: AnIntroduction to CHILDES」 #CLinS
2012-11-11 00:06:33L1かと思いきやSLA研究にCHILDESを用いるという話。学習者データをCHILDESにアップしましょう。データシェアリング。昨年のEUROSLAとLCRでF. Myles氏も挙げていたFLLOC・SPLLOCプロジェクトを例に挙げている。 #CLinS
2012-11-11 00:08:42CHILDESはTreeBank、CHAT (Codes for the Human Analysis of Transcripts)、 CLAN (Computerised Language Analysis)から成る。 #CLinS
2012-11-11 00:10:32CLANにVOCD(語彙の多様性を測定)、COMBO(特定の文字列を検索)、MLU(MLUを測定)などの分析ツールがある。 #CLinS
2012-11-11 00:25:12CLANのダウンロード→http://t.co/O5TA06ON、CLANのマニュアル→http://t.co/WajaLNcl、CHATのマニュアル→http://t.co/IdUUN5ru #CLinS
2012-11-11 00:58:45最後はAdam Kilgarriff氏による「Sketch Engine: Advanced workshop」 #CLinS
2012-11-11 01:01:55