編集部イチオシ

ある理系院生による新元号予想の軌跡

ある理系院生が発表の一ヶ月半前にふと思いたって始めた、一日一個の新元号予想のまとめです。 途中からは勉強を兼ねて@youwht さんの記事(https://qiita.com/youwht/items/0b204c3575c94fc786b8)を参考に、機械学習を駆使して候補の探索に挑戦。 春休みの自由研究のような内容になっていきます。 ※ツイート主は非情報系であり、機械学習関連のツイートは誤解を元に記述されている可能性があります。
21

※「万保」は原案の一つだったそうです(4/2 追記)。

Twitter モーメント @MomentsJapan

新元号案6案すべて判明とNHKが報じました「令和」の他は、「英弘」「広至」「万和」「万保」「久化」 です twitter.com/i/events/11128…

2019-04-02 11:06:08

何の気なしにつぶやいたこのツイートが、思わぬ結果を招くことに。。。

S. Miyata @38tter_miya

一個ずつ考えるのが面倒になってきたので、「頻出漢字上位」と「小学三年生までに習う漢字の中でめでたい意味を持つ字」を一個ずつ取り出して Google 検索結果の件数が少ない順に発表する、とかにしようかな。。

2019-03-19 20:34:23
S. Miyata @38tter_miya

ファイルに書き出す前に 503 error でストップしてしまった。。。一文字目が"暦"あたりだと既存の二文字と被る可能性が少なそうなんじゃ?(適当) pic.twitter.com/Qu3EIhKAi3

2019-03-20 00:13:01
拡大
拡大
拡大
拡大

このあたりでやや飽きてくる。

S. Miyata @38tter_miya

最近あまりにも芸がなかったので、機械学習の word2vec モデルに元号の二文字の「意味の近さ」を描かせてみた(まぁQiitaの某記事をなぞっただけだけど)横軸は青:過去の元号(大化、白雉、...、平成)、橙:予想(安寛、弘文、...、天丼)、縦軸は二文字をそれぞれ「文字ベクトル」としたときの cos pic.twitter.com/PK0EhRWJQt

2019-03-27 14:04:34
拡大

ちょうど飽きてきたところで、以前から興味があった機械学習のモデルを適用してみることを思いつく。

@youwht さんの記事(https://qiita.com/youwht/items/0b204c3575c94fc786b8)を参考に、機械学習の word2vec というモデルで候補となる組み合わせを探すことに。

このモデルは、文章を学習データとして与えると、その文脈の中での単語の類似性(意味が同じ方向を向いているか?)を推測し、単語同士の類似度を返してくれます。
(ただし、今回は漢文が元になると思われるので、文字と文字の類似性を考えることになります)