2019年1月18日

SEO屋さんと情報理論・検索技術

神が私の5年前のツイートをブックマークされたので、それを機に、私の5年前のツイートの本意を書き連ねてみました。一応書いておきますが、私はウィトゲンシュタインを理解できておりません。あと、私は、検索の専門家ではありません。でも、業務の都合、学んではいます。

情報理論 SEO 情報品質

takehora
1203
4
0
0

Yoichiro Takehora (竹洞陽一郎) | 株式会社Spelldata @takehora

コンテンツ（情報）の価値は、読み手の既知の情報で決まる確率分布となる。（シャノンの情報エントロピー）単語が複数の意味を持つ時に、その意味の特定する際に使われているのが、ウィトゲンシュタインの言語ゲーム / “竹洞陽一郎さんのツ…” htn.to/s8SJLrhb

2019-01-17 23:49:16

Yoichiro Takehora (竹洞陽一郎) | 株式会社Spelldata @takehora

情報理論は1950年からあるものだし、大学の情報系の授業では学ぶもの。（どちらかというと信号処理の理論として学ぶ人が多いらしいけど）情報理論と情報品質をGoogleがベースに使っているのは、論文が出てるから秘密じゃない。言語ゲームの事は、「グーグルネット覇者の真実」って本に書いてある。

2019-01-18 00:01:03

Yoichiro Takehora (竹洞陽一郎) | 株式会社Spelldata @takehora

アミット・シンガルは同義語に熱心に取り組んでいた検索エンジニアの１人だ。「ユーザーは検索語をよく変更する。最初に『犬の写真』と入力したのに、２度目は『子犬の写真』と検索することがある。だとすると、犬と子犬は交換可能な言葉であるということだ。 ― グーグルネット覇者の真実

2019-01-18 00:04:30

Yoichiro Takehora (竹洞陽一郎) | 株式会社Spelldata @takehora

また『水を沸かす』が、次の入力では『湯』になっている。こうして私たちはユーザーから言葉の意味について直接学べるようになった。これはすごい進歩だった」同様に、ユーザーが単語のスペルを間違えた後で検索をやり直すプロセスを分析することにより、グーグルは独自のスペルチェッカーを開発した。

2019-01-18 00:05:43

Yoichiro Takehora (竹洞陽一郎) | 株式会社Spelldata @takehora

それは検索システムに組み込まれ、たとえユーザーがスペルを間違えて入力しても、適切な検索結果を表示することが可能になった。しかし問題がないわけではなかった。 ― グーグルネット覇者の真実

2019-01-18 00:07:01

Yoichiro Takehora (竹洞陽一郎) | 株式会社Spelldata @takehora

グーグルの同義語システムは、犬と子犬はよく似た言葉で、水を沸かすと熱湯になることを理解するようになったが、「ホットドッグ」と「煮える子犬」が同じ意味であると解釈していた。 ― グーグルネット覇者の真実

2019-01-18 00:07:29

Yoichiro Takehora (竹洞陽一郎) | 株式会社Spelldata @takehora

この問題は、２００２年後半にある画期的な方法によって解決されたとシンガルは語っている。哲学者のウィトゲンシュタインが、言葉は文脈によってどう定義されるかについて論じた理論を応用したのだ。 ― グーグルネット覇者の真実

2019-01-18 00:08:47

Yoichiro Takehora (竹洞陽一郎) | 株式会社Spelldata @takehora

Oracleのデータベースで商売している企業のエンジニアが、Oracleってどんな技術を使っているのかなって勉強するのと同様に、Googleの検索エンジンを土台に商売しているのであれば、当然、Googleの検索エンジンに関連するような論文やら、Googleに関する本は読んでるでしょ？という事が言いたい。

2019-01-18 00:11:47

Yoichiro Takehora (竹洞陽一郎) | 株式会社Spelldata @takehora

このあたりの理論や技術は、検索理論の四則計算みたいなもので、アルゴリズムの変化では揺らがない基本原則なんですよ。あと、検索における精度と再現率の問題とか。アバウトネスの概念とか。私の出逢いが偏っているのか、そういう基礎理論を語っているSEO屋さんに会ったことがないんですよ。

2019-01-18 00:17:51

Yoichiro Takehora (竹洞陽一郎) | 株式会社Spelldata @takehora

検索理論は、統計的検定がバックにあって、第一種の過誤、第二種の過誤をどのようにバランスするかの戦いなんですよ。だから、このあたりの統計的検定などの統計学な話はSEO屋さんから出てくるべき。アルゴリズムの変遷は、過学習との闘いですよ。データの方が、SEOでモデルに寄ってくるんだもの。

2019-01-18 00:26:10

Yoichiro Takehora (竹洞陽一郎) | 株式会社Spelldata @takehora

新井紀子先生の「AI vs 教科書が読めない子どもたち」という本の中で、「偶数と奇数を足すと、答えはどうなるでしょうか？次の選択肢のうち正しいものに〇を記入し、そうなる理由を説明してください。」という問題についての誤答の事が書いてあります。答えは、もちろん、「いつも必ず奇数になる」。

2019-01-18 00:39:20

Yoichiro Takehora (竹洞陽一郎) | 株式会社Spelldata @takehora

その理由の解答例として「偶数と奇数は、整数m、nをもちいて、それぞれ2m、2n+1と表すことができる。そして、この2つの整数の和は 2m+(2n+1)=2(m+n)+1となる。m+nが整数なので、これは奇数である。」と書いてあります。これが「証明」。

2019-01-18 00:43:17

Yoichiro Takehora (竹洞陽一郎) | 株式会社Spelldata @takehora

でも、大学入試を終えた大学生を中心とした調査での正答率は34％。理系に限定すると、46.4％。酷い誤答の例として、以下の解答を掲載していらっしゃいます。例1: 2＋1＝3、4＋5=9のように。これは「例示」。例2: 全部やってみたらそうなった。

2019-01-18 00:48:16

Yoichiro Takehora (竹洞陽一郎) | 株式会社Spelldata @takehora

私が出逢ってきたSEO屋さんは、この「例示」だったり、例2のような事を仰る方が多く、理論ベースの「証明」に至っていないケースが多いわけですよ。もちろん、Googleが実装してるわけだから、証明は無理でしょう。でも、その理論関係は、Googleのエンジニア達が学会に論文として出してますよ。

2019-01-18 00:51:26

Yoichiro Takehora (竹洞陽一郎) | 株式会社Spelldata @takehora

もちろん、2020年4月1日施行の改正民法債権法では、サービスについても「売買」として、品質保証が求められるわけですから、SEO屋さんは、どのように品質検査・品質保証をするのかなと、興味津々で見ております。

2019-01-18 00:54:50

いま話題のタグ