名古屋市の子宮頸癌ワクチンアンケート調査データの解析に挑む
- parasite2006
- 70589
- 664
- 38
- 136
(その2)
名古屋のHPVVデータ、年齢調整のための部分が一番やっかいなんだよなー・・・。手入力・・・やっちゃうー?
2016-06-28 21:09:13カルテから該当患者見つけては何十個もの変数を抜き出してEXCELに手入力作業、300例を1人で数ヶ月かけてやった。名古屋市のデータは一応はすでに整った形になってるので手入力の労力はだいぶ軽減されてるはず。4万例なら20人いたらなんとかなるかな?ここに統計の先生も入ってもらって
2016-06-28 21:24:01@DrMagicianEARL あれ、pdf確認してないんですが、全例連結されたデータはあるんです?年齢と別データなら無理だと思ったんですが
2016-06-28 21:56:32@DrMagicianEARL 金を出して入力委託したほうが早くないですかねぇ。 多分、ドクターが入力するのは時間がもったいないし、間違いも多くなる。
2016-06-28 21:51:48@DrMagicianEARL その様に、医師や専門家個人ではなく、例えば△△病院〇〇科◇◇研究室」等のオフィシャルな組織単位なら生データ(のExcelデータ)の請求ができるとか…そういったルートも無さそうですか?
2016-06-28 21:24:35@ronja_yty 組織として公式に請求したわけではありませんが、メール内容は組織として請求してるかのように見えないこともないです。教室名やその連絡先まで全部記載してますから。それであのあっさり回答は・・・
2016-06-28 21:27:35@DrMagicianEARL ご回答ありがとうございます。名古屋市は「もうガタガタ文句言われるのはイヤ!」みたいな感じで、余計な事はせず中立を保つのみと決意したのでしょうね。データ手入力、頑張ってください(´・ω・`)。
2016-06-28 21:36:52(その3)
名古屋のHPVVデータのPDF→CSV変換,私もpdftotext+簡単なスクリプトでやりはじめましたが,201番の項目までは何とかいきそうですがその先が苦戦しています。特に最後の項目はどんなにがんばっても無理っぽいです。やっぱり意地悪しないで元データ出してほしい
2016-06-28 22:37:33@kishida_koji @h_okumura Mac で,「Aiseesoft Mac PDF Word 変換」というのを使って最後の自由記述の部分を除き,テキストファイルにできましたけど,その後も面倒ばかり。やる気がなくなった。
2016-06-28 22:04:37おつかれさまです。なかなか一筋縄ではいかなそうです twitter.com/anonymous12481…
2016-06-28 22:18:03@h_okumura 五個のファイルのうち,一つはCSV にした(275番目を除いて)。さて,どこかへアップロードすればよいのかな。
2016-06-29 02:16:44おつかれさまです。アップロードよろしく。あるいは私宛お送りください RT @anonymous124816: @h_okumura 五個のファイルのうち,一つはCSV にした(275番目を除いて)。さて,どこかへアップロードすればよいのかな。
2016-06-29 07:38:46名古屋のHPVVデータのCSV化,匿名のかたからいただきました。項目番号220,223,229は読み取ることができないファイルがいくつかあったため全部欠損値にしたとのことです oku.edu.mie-u.ac.jp/~okumura/stat/…
2016-06-29 09:48:39結果的に、解釈が異なる複数のCSVが出回る形になるとすると、改竄のリスクが高まり、公開版との整合性のチェックもできないことになっていませんか。意思決定が、裏目に裏目に出ている印象ですけれども。 twitter.com/h_okumura/stat…
2016-06-29 10:02:37まさにその通りです。今後も別のバージョンをいただいたらどんどん公開していきます。名古屋市のいう「PDFなら改竄されない」が逆であることの証明にもなりますし,正式版CSV公開への圧力になればと思っています twitter.com/tweeting_drtak…
2016-06-29 10:32:38@h_okumura まさにその通り。読み取りミス,変換ミス,などなど,ないとは限らないから。もとのデータ入力方法も変なところがあるし,例えば7つのうち1つをチェックというのに二つ以上チェックしているデータをどう扱うかとか,解析時のオプションで結果に違いが出てくるとか。
2016-06-29 11:51:27PDFで改竄を防ぐというのがデータ分析への障壁ということを意味するならば、1)データ分析の過誤は増大する、2)データ分析上の過誤や捏造への相互批判への障壁にもなる。メリットとデメリットは相殺される一方で、分析者の労力は激増し、トータルではマイナスとしか思えないっすね。
2016-06-29 10:42:14情報系の先生がデータのEXCEL化に苦戦してるほどのpdfってもはや解析させる気ないだろ何が他の解析に任せるだよふざけんな名古屋市。こんなもん隠蔽と変わらんだろ
2016-06-28 23:56:45@parasite2006 @h_okumura おお、CSVファイル化に成功した方がおられるのですね
2016-06-29 10:58:09