10
yuhkan @yuhkan
カタROM購入、DB化完了。 さて、定例の(?)サークル名重複チェックでもするか。 #C83
yuhkan @yuhkan
まずカナ重複。スピカが11サークルでトップ、リッカ、カラーズ、アステリズム、ノーネーム、ネコカン、チェリーブロッサムが7つ重複、6サークル重複は5、5ダブりは14。トップは不動ながら、やや傾向が変わったかな?気のせいかな? #C83
yuhkan @yuhkan
サークル名重複だと雪月花Azureが6サークルでトップ、群青、Clover、HB、colors、スピカまでが5サークル重複、4ダブりが10。 #C83
yuhkan @yuhkan
サークル名とカナの完全重複は、colors(カラーズ)HB(エイチビー)clover(クローバー)スピカ(スピカ)群青(グンジョウ)が5ダブり。 #C83
yuhkan @yuhkan
4ダブりは猫屋敷(ネコヤシキ)、lilac(ライラック)、unlimited(アンリミテッド)、アネモネ(アネモネ)、Spica(スピカ)、雪月花(セツゲツカ)。3ダブりは52あった #C83
yuhkan @yuhkan
ライター名重複だと、「はる」が16でトップ、「TOMO」「ゆう」「ユキ」「マル」「あき」「あお」までが10以上重複。漢字交じりは睦月が6ダブり。 #C83
yuhkan @yuhkan
さほど大きく傾向は変わらない感じかな。ぱっと見語感の良いワードはダブりやすいと言う印象。夏だけ、冬だけというサークルによる、ダブりワードの偏りも、トップだけを見ると特に感じない。上位人気ワードは夏冬通じて人気である、と言える。 #C83
yuhkan @yuhkan
ジャンルコード別、とかはじめたらおそらく面白い結果になるのだろうけど、今はそんな時間が無い(爆死 #C83
yuhkan @yuhkan
サークル名から人気ジャンルを割出すとか、特定ジャンルに偏るサークル名から、次の人気ジャンルへの移行を読むとか出来たら面白そう。意味は無さそうだがw #C83

コメント

yuhkan @yuhkan 2012年12月23日
まとめを更新しました。
yuhkan @yuhkan 2013年1月7日
さて、今さらではあるのだが、カタROMのDBファイル直読みに処理を変更してみると、どうも実際の登録と異なっている可能性があることが判明。後日入念に確認する #C83
yuhkan @yuhkan 2013年1月7日
チェック完、問題無いことを確認。DBの検索条件ミスだな、コレは。twしてる内容が正しいので問題無い。 #C83
yuhkan @yuhkan 2013年1月7日
Accessでgroup by する場合、全角半角勝手に変換してまとめてくれるのだが、sqliteの場合やってくれない、と。かな検索は兎も角、サークル名検索だと、適当に作った場合はまるんじゃないか、コレ。どうやったっけな……
yuhkan @yuhkan 2013年1月8日
別にまとめました。「PN / サークル名かぶりについての調査、補追(全角英数登録サークルが検索されないソフトがある件) 」 http://togetter.com/li/435539
ログインして広告を非表示にする
ログインして広告を非表示にする