名古屋市の子宮頸癌ワクチンアンケート調査データの解析に挑む

名古屋市が公費で実施した子宮頸がんワクチンアンケート調査の公表済み速報結果を引っ込め、生データだけをPDFで公表したもののそれ以上の解析はせず結果も出さないと言明。このデータを変換して再解析しようするネット上の動きを追いました。新情報は随時追加予定です。 名古屋市ウェブサイトから削除された速報結果のアーカイブ https://web.archive.org/web/20151223190255/http://www.city.nagoya.jp/kenkofukushi/cmsfiles/contents/0000073/73419/sokuhou.pdf 名古屋市ウェブサイトのデータ公表コーナー(2017年2月1日現在こちらに移転) http://www.city.nagoya.jp/kenkofukushi/page/0000088972.html 続きを読む
121
前へ 1 ・・ 3 4 ・・ 20 次へ

(その2)

⅃ЯAƎ⊿せかんどらいふすたあと @DrMagicianEARL

名古屋のHPVVデータ、年齢調整のための部分が一番やっかいなんだよなー・・・。手入力・・・やっちゃうー?

2016-06-28 21:09:13
⅃ЯAƎ⊿せかんどらいふすたあと @DrMagicianEARL

論文化することを目標に共著者を募って手分けして手入力ならなんとかなるかもしれないな

2016-06-28 21:12:26
⅃ЯAƎ⊿せかんどらいふすたあと @DrMagicianEARL

カルテから該当患者見つけては何十個もの変数を抜き出してEXCELに手入力作業、300例を1人で数ヶ月かけてやった。名古屋市のデータは一応はすでに整った形になってるので手入力の労力はだいぶ軽減されてるはず。4万例なら20人いたらなんとかなるかな?ここに統計の先生も入ってもらって

2016-06-28 21:24:01
⅃ЯAƎ⊿せかんどらいふすたあと @DrMagicianEARL

Lancet Infectious Disease誌あたりなら狙えるんじゃないか?

2016-06-28 21:25:10
どっぺるさん(まだ温かい) @doppel_surg

@DrMagicianEARL あれ、pdf確認してないんですが、全例連結されたデータはあるんです?年齢と別データなら無理だと思ったんですが

2016-06-28 21:56:32
八面大王 @hachimen

@DrMagicianEARL 金を出して入力委託したほうが早くないですかねぇ。 多分、ドクターが入力するのは時間がもったいないし、間違いも多くなる。

2016-06-28 21:51:48
魔系犬/西保男・自称シャカニセッポニスト @ronja_yty

@DrMagicianEARL その様に、医師や専門家個人ではなく、例えば△△病院〇〇科◇◇研究室」等のオフィシャルな組織単位なら生データ(のExcelデータ)の請求ができるとか…そういったルートも無さそうですか?

2016-06-28 21:24:35
⅃ЯAƎ⊿せかんどらいふすたあと @DrMagicianEARL

@ronja_yty 組織として公式に請求したわけではありませんが、メール内容は組織として請求してるかのように見えないこともないです。教室名やその連絡先まで全部記載してますから。それであのあっさり回答は・・・

2016-06-28 21:27:35
魔系犬/西保男・自称シャカニセッポニスト @ronja_yty

@DrMagicianEARL ご回答ありがとうございます。名古屋市は「もうガタガタ文句言われるのはイヤ!」みたいな感じで、余計な事はせず中立を保つのみと決意したのでしょうね。データ手入力、頑張ってください(´・ω・`)。

2016-06-28 21:36:52

(その3)

Haruhiko Okumura @h_okumura

名古屋のHPVVデータのPDF→CSV変換,私もpdftotext+簡単なスクリプトでやりはじめましたが,201番の項目までは何とかいきそうですがその先が苦戦しています。特に最後の項目はどんなにがんばっても無理っぽいです。やっぱり意地悪しないで元データ出してほしい

2016-06-28 22:37:33
foobar @anonymous124816

@kishida_koji @h_okumura Mac で,「Aiseesoft Mac PDF Word 変換」というのを使って最後の自由記述の部分を除き,テキストファイルにできましたけど,その後も面倒ばかり。やる気がなくなった。

2016-06-28 22:04:37
Haruhiko Okumura @h_okumura

おつかれさまです。なかなか一筋縄ではいかなそうです twitter.com/anonymous12481…

2016-06-28 22:18:03
foobar @anonymous124816

@h_okumura 五個のファイルのうち,一つはCSV にした(275番目を除いて)。さて,どこかへアップロードすればよいのかな。

2016-06-29 02:16:44
Haruhiko Okumura @h_okumura

おつかれさまです。アップロードよろしく。あるいは私宛お送りください RT @anonymous124816: @h_okumura 五個のファイルのうち,一つはCSV にした(275番目を除いて)。さて,どこかへアップロードすればよいのかな。

2016-06-29 07:38:46
Haruhiko Okumura @h_okumura

名古屋のHPVVデータのCSV化,匿名のかたからいただきました。項目番号220,223,229は読み取ることができないファイルがいくつかあったため全部欠損値にしたとのことです oku.edu.mie-u.ac.jp/~okumura/stat/…

2016-06-29 09:48:39
Takashi Okumura @tweeting_drtaka

結果的に、解釈が異なる複数のCSVが出回る形になるとすると、改竄のリスクが高まり、公開版との整合性のチェックもできないことになっていませんか。意思決定が、裏目に裏目に出ている印象ですけれども。 twitter.com/h_okumura/stat…

2016-06-29 10:02:37
Haruhiko Okumura @h_okumura

まさにその通りです。今後も別のバージョンをいただいたらどんどん公開していきます。名古屋市のいう「PDFなら改竄されない」が逆であることの証明にもなりますし,正式版CSV公開への圧力になればと思っています twitter.com/tweeting_drtak…

2016-06-29 10:32:38
foobar @anonymous124816

@h_okumura まさにその通り。読み取りミス,変換ミス,などなど,ないとは限らないから。もとのデータ入力方法も変なところがあるし,例えば7つのうち1つをチェックというのに二つ以上チェックしているデータをどう扱うかとか,解析時のオプションで結果に違いが出てくるとか。

2016-06-29 11:51:27
上海II @shanghai_ii

PDFで改竄を防ぐというのがデータ分析への障壁ということを意味するならば、1)データ分析の過誤は増大する、2)データ分析上の過誤や捏造への相互批判への障壁にもなる。メリットとデメリットは相殺される一方で、分析者の労力は激増し、トータルではマイナスとしか思えないっすね。

2016-06-29 10:42:14
⅃ЯAƎ⊿せかんどらいふすたあと @DrMagicianEARL

情報系の先生がデータのEXCEL化に苦戦してるほどのpdfってもはや解析させる気ないだろ何が他の解析に任せるだよふざけんな名古屋市。こんなもん隠蔽と変わらんだろ

2016-06-28 23:56:45
taiwata@ゆるふわ ( ・`ω・´)キリッ @taiwata

@DrMagicianEARL 市の担当とその上司が「ど文系」なんでしょう。

2016-06-29 00:19:45
⅃ЯAƎ⊿せかんどらいふすたあと @DrMagicianEARL

@parasite2006 @h_okumura おお、CSVファイル化に成功した方がおられるのですね

2016-06-29 10:58:09
前へ 1 ・・ 3 4 ・・ 20 次へ