「言語記述形式標準化会議」向けの資料

yuhr さん主催で行われる「言語記述形式標準化会議」で使われる(と思われる)資料を纏めています。 (人工)言語勢でこういったことしたいよねなどの案をまとめてくれるとありがたいです。
6
前へ 1 ・・ 5 6 次へ
すきえんてぃあ@書け @cicada3301_kig

ちゃちゃっと書いたこの糞コードで言語ごとの特徴量を調べて、一覧表を作ってRにぶちこんで主成分分析すればよさげ 大文字と小文字はまとめるのでtetuteは人工言語らしさを過大評価されそうだけど pic.twitter.com/unkRo6V9ip

2017-08-25 01:02:30
拡大
拡大
すきえんてぃあ@書け @cicada3301_kig

私が以前から主張しているように、やはりアルカの見た目は「不自然」ではないかと。この分析方法によれば、リパライン、テトゥテは、単語の長さと使用頻度という観点において、かなり自然な設計のようです。もう少し色々な特徴を含めたいところ(母音と子音の区別が必要なので面倒になるけど) pic.twitter.com/Yabw94ysvI

2017-08-25 02:27:46
拡大
拡大
すきえんてぃあ@書け @cicada3301_kig

私が以前から主張しているように、やはりアルカの見た目は「不自然」ではないかと。この分析方法によれば、リパライン、テトゥテは、単語の長さと使用頻度という観点において、かなり自然な設計のようです。もう少し色々な特徴を含めたいところ(母音と子音の区別が必要なので面倒になるけど) pic.twitter.com/Yabw94ysvI

2017-08-25 02:27:46
拡大
拡大
すきえんてぃあ@書け @cicada3301_kig

この結果は、アルカ、トキポナ、ロジバンという3つの人工言語が1群として、文章で使用される単語長の①平均②分散という極めて少ない情報によって、他のラテン文字表記の言語群から機械で区別できる可能性を示している。これら3言語は、それほどに見た目が「奇妙」なのだ。

2017-08-25 02:36:46
すきえんてぃあ@書け @cicada3301_kig

この結果は、アルカ、トキポナ、ロジバンという3つの人工言語が1群として、文章で使用される単語長の①平均②分散という極めて少ない情報によって、他のラテン文字表記の言語群から機械で区別できる可能性を示している。これら3言語は、それほどに見た目が「奇妙」なのだ。

2017-08-25 02:36:46
すきえんてぃあ@書け @cicada3301_kig

【analang.py】 分析ツールができました #analang 初心者の糞コードですが皆さんご活用ください drive.google.com/open?id=0B3yMT… pic.twitter.com/WfUCHQBIWa

2017-08-25 22:23:14
拡大
すきえんてぃあ@書け @cicada3301_kig

【analang.py】 分析ツールができました #analang 初心者の糞コードですが皆さんご活用ください drive.google.com/open?id=0B3yMT… pic.twitter.com/WfUCHQBIWa

2017-08-25 22:23:14
拡大
すきえんてぃあ@書け @cicada3301_kig

言語サンプル集です 文の内容に意味はありません 著作権上の要望があれば削除します drive.google.com/file/d/0B3yMTW…

2017-08-26 00:21:58
すきえんてぃあ@書け @cicada3301_kig

ロジバンを忘れていました 改行ミスもあったのでこちらを アメリカ先住民言語も追加 drive.google.com/file/d/0B3yMTW…

2017-08-26 00:43:53
すきえんてぃあ@書け @cicada3301_kig

@Calonaqua 自分には最初から、リパライン語がいかにも人工言語に見えるのですが、その直感や印象が何から来ているのかを論理的に説明できません(おそらく子音クラスタが問題 アルカ、ロジバン、トキポナは同じくらい空白が目立ちますが、ハワイ語もなかなかです

2017-08-26 00:46:52
すきえんてぃあ@書け @cicada3301_kig

次元増やしすぎて逆に判別能力が下がって草 ゲルマン系だけ単子音より子音が2連続する頻度が多いことだけわかって草 pic.twitter.com/T44hyzBeGb

2017-08-26 02:24:30
拡大
拡大
拡大
拡大
すきえんてぃあ@書け @cicada3301_kig

【analang.py】#Python #人工言語 できた。やはり機械は「人工言語の違和感」を判別できそうだ。エスペラントとインターリングアは、自然言語、それもロマンス諸語の近傍に埋もれるが、リパライン、アルカ、ヒュムノス、ロジバンは非リアルだ。ただしトクピシンのみトキポナ近傍。 pic.twitter.com/tv0q037N7t

2017-08-26 02:43:34
拡大
拡大
拡大
カルノス・クノーツ・アクア @Qunoxts

@cicada3301_kig どういう判定をしているのですか?そこが気になります!

2017-08-26 02:48:03
すきえんてぃあ@書け @cicada3301_kig

@Calonaqua この図が示しているのは、「人工言語の違和感」の最大の原因は「単語が短い割に、語中の子音が多すぎる」ということで、予想に反して閉音節の多さ、子音クラスタの多さはあまり関係ないようです。 要するに「母音を増やせ」 リパラインやロジバンやアルカが発音しにくいのは、端的に子音多すぎ。

2017-08-26 02:57:06
カルノス・クノーツ・アクア @Qunoxts

@cicada3301_kig 母音の数をどのくらい増やしたら自然に聞こえるかの境界で言語の自然っぽさを算出できそうですね。

2017-08-26 02:58:06
すきえんてぃあ@書け @cicada3301_kig

@Calonaqua 図の下方向ほど単語が長く、かつ母音が豊かな言語です。人工言語はその対極、つまり子音過多で単語が短い。 また、左右方向は、語頭の子音クラスタ、語末短子音、いずれもが人工言語くさい違和感を悪化させることを示しています。 私の直感的予想通りです。 どうやら私は妄言の徒ではないようで。

2017-08-26 03:08:58
すきえんてぃあ@書け @cicada3301_kig

@Calonaqua なので4つの簡便なファクター 実際の文章における ①子音字割合 ②単語長平均 ③語頭子音クラスタの出現率 ④語末単子音の出現率 を元にしてロジスティック回帰分析を行えば、ディープラーニングに頼る必要もなく、簡単な式で人工言語の創作センスを数値化できます。

2017-08-26 03:39:21
すきえんてぃあ@書け @cicada3301_kig

@Calonaqua 再変更 ④は「閉音節の単語出現率」 その方が簡便ですし、判別性能も悪くない ③はそのままのほうが性能が良いし簡便

2017-08-26 03:49:10
すきえんてぃあ@書け @cicada3301_kig

@Calonaqua ロジスティック回帰分析完了 いずれ気が向いたら、文章をコピペすると一瞬で人工言語の自然さを判定してくれるマシンを作って公開します pic.twitter.com/mbPZKYfBvA

2017-08-26 04:38:57
拡大
カルノス・クノーツ・アクア @Qunoxts

#人工言語 一文づつ自然度を出して。出した結果から平均自然度を出す方法があれば言語の全体的な自然度を出す事が出来るんじゃないだろうか? またこうすると、自然度の高い純ランキングのようなものを創る事が出来てどの語を変えればいいのかが分かりやすくなると考えるのだがどうだろうか?

2017-08-27 00:25:32
カルノス・クノーツ・アクア @Qunoxts

@cicada3301_kig #人工言語 一文づつ自然度を出して。出した結果から平均自然度を出す方法があれば言語の全体的な自然度を出す事が出来るんじゃないだろうか? またこうすると、自然度の高いランキングのようなものを創る事が出来てどの語を変えれば自然に聞こえるようになるのかが分かりやすくなると考えた。

2017-08-27 02:05:52
すきえんてぃあ@書け @cicada3301_kig

@Wartemeinnicht ですが単語が短くても母音が豊かなハワイ語はがっつり自然言語判定されるのです

2017-08-28 23:42:57
スライムさん @slaimsan

@cicada3301_kig @Wartemeinnicht ロジバンの機能語は連結して書いても問題ないから、できる限り連結した場合どうなるかは気になる

2017-08-28 23:45:39
すきえんてぃあ@書け @cicada3301_kig

@slaimsan 皆さん例文送っていただければコピペするだけで答えは出ます

2017-08-28 23:46:49
カルノス・クノーツ・アクア @Qunoxts

@cicada3301_kig @slaimsan 自分のも例文をかき集めましたがこのぐらいで足りますか? リンク先の「検査用」というファイルです。 dropbox.com/sh/pic9qafx614…

2017-08-29 01:53:59
前へ 1 ・・ 5 6 次へ