変化形をもとに、辞書形としてあり得る形を機械的に導く方法の思案

7
Xirdim /ひるでぃむ/ @低浮上? @xirdim

そもそも、「正規表現で記述可能な文字列集合」の全体集合は可算集合な気がする(未確認)

2022-08-10 17:54:34
Xirdim /ひるでぃむ/ @低浮上? @xirdim

|(正規表現で表される集合の全体集合)| ≤ |(正規表現の中身の全体集合)| ≤ |𝕊| = ℵ₀ 正規表現で表される集合の全体集合 は無限集合。 ∴これは可算集合。Q.E.D. 正規表現の中身(/.*/ だったら「.*」)も文字列なんだから、文字列全体集合の濃度以下でしょ、という意味

2022-08-10 18:17:12
Xirdim /ひるでぃむ/ @低浮上? @xirdim

というか、(人間による使用を想定した)任意の言語で、その語形変化の規則は人間の言葉で説明できるはず。 人間の言葉は可算集合なんだから(線条性のある文字体系で表せることから明らか)、語形変化規則の全体集合も可算集合のはず

2022-08-10 18:24:32

目標の再確認

Xirdim /ひるでぃむ/ @低浮上? @xirdim

目標。 𝕊 の部分集合 A について語形変化 f: A → 𝕊 を定義したときに、 ・値域 B を求める。 ・写像 F: 2ᴬ → 2ᴮ, A₁ ↦ {f(σ) | σ∈A₁} を定める。 ・写像 F': 2ᴮ → 2ᴬ, B₁ ↦ {σ | f(σ)∈B₁} を定める。  ※イメージは逆写像だけど、逆写像とは限らないから F⁻¹ とは書かなかった

2022-08-10 16:20:06
Xirdim /ひるでぃむ/ @低浮上? @xirdim

文字列↦文字列 の汎用性が高い写像をいくつか作って、その適当な組み合わせで f が表せるようにしたい

2022-08-10 17:05:55

そもそもこれできるの?

Xirdim /ひるでぃむ/ @低浮上? @xirdim

任意の可算集合 A について、A から A への写像を元とする任意の可算集合 B を考える。A から A への写像を適当に有限個用意すれば、その適当な合成で、B の任意の元と等しい写像を作れるか?

2022-08-11 17:45:11
Xirdim /ひるでぃむ/ @低浮上? @xirdim

無限個の合成を認めれば高々5種類の写像で良いことがわかったんだけど有限個の合成だとなぁ

2022-08-19 17:26:01

わからんがとりあえず進む

Xirdim /ひるでぃむ/ @低浮上? @xirdim

というわけで、できるかどうか分からないまま見切り発車になってしまうけど、この写像 f をより小さい単位に分解していくことを考える twitter.com/xirdim/status/…

2022-08-19 17:28:32
Xirdim /ひるでぃむ/ @低浮上? @xirdim

とりあえず語尾を付け替えるのは必須と。語頭や語中も必要だな。 あと「何文字目に何」とかでの条件分岐も必要だけど、その辺は正規表現にヒットするかどうかでカバーできる。

2022-08-19 17:35:44
Xirdim /ひるでぃむ/ @低浮上? @xirdim

オエル語のコピュラみたいに大量の接辞が規則的につくようなのにも対応することを考えると、活用形名も同時に算出することを見据える必要がある

2022-08-19 18:06:47
Xirdim /ひるでぃむ/ @低浮上? @xirdim

ところで、なんか核心に踏み込めない感じだった理由がわかった気がする;語形変化にはどういうパターンがあるのかという類型を全然知らない(致命的() (自然言語含め)そこら辺を調べるとするか

2022-08-19 18:08:40

またも見切り発車

Xirdim /ひるでぃむ/ @低浮上? @xirdim

ググったけどこの手の網羅的な情報が出てこない。というわけで見切り発車するしかないかなになった twitter.com/xirdim/status/…

2022-08-21 14:34:53
Xirdim /ひるでぃむ/ @低浮上? @xirdim

想定しておくべきことを纏めると、 ・辞書形に加えて、さらに幾つかのパラメータをとれることが必要 ・変化形名を同時に生成できることが必要 ・定数(e.g. 母音リスト:「後ろからn番目の母音を〜」とかに対応するため)を定義できることが必要

2022-08-21 14:36:26
Xirdim /ひるでぃむ/ @低浮上? @xirdim

あと、写像の定義が循環すると無限ループの判定に困るなぁ、となっていたが、 チューリング「無限ループの検出は不可能」 ∴あきらめる (そもそも写像の定義どうしの循環参照を許さないことにする;不自由がでてきたらまた考える)

2022-08-21 14:39:23
Xirdim /ひるでぃむ/ @低浮上? @xirdim

てか抱合語どうすんのこれ:始域の元を〈複数語の辞書形の組〉にする必要がある

2022-08-21 14:57:52

フレーム問題エアプ↑

Xirdim /ひるでぃむ/ @低浮上? @xirdim

抱合語を考えると再帰が必要になりそうなので一旦保留。

2022-08-21 15:16:33

方向性2: 変化規則を、文字列集合から文字列集合への写像として考える

Xirdim /ひるでぃむ/ @低浮上? @xirdim

あれ、〈ある語形に対して変化形の綴りが複数ある〉みたいな変化パターンを考えると、もはや写像にすらならない やはり集合から集合への写像として定義すべきなのか

2022-08-21 15:25:06