河野太郎議員(@konotarogomame)とネ申エクセル問題&オープンデータの話 #ネ申エクセル #ネ申殺し
.@konotarogomame 3. ヘッダー(上部の目次)が複数行かつ、セルの結合をされている点 4. 都道府県の値が「青 森」のようにスペースを含んでいること 5. 値の - は凡例で 事実のないもの だが、これが 作付け0 を意味するのであれば 0 にすべき (続く)
2016-10-22 15:27:11.@konotarogomame 6. 値の x は(統計的にはよくないが)仮に 0 とし、別途備考欄に記述する 7. データと書類としての見た目が分割されておらず、データと見た目を分割すべき (続く)
2016-10-22 15:27:56.@konotarogomame 8. データと見た目の分割が可能なら、都道府県のみのデータから全国 および 全国農業地域のデータは不要 …とりあえず、すぐに思いつく点としては以上になります (続く)
2016-10-22 15:28:49.@konotarogomame 先述のデータとして扱いやすい形式として添付した画像は上記の問題点6.の一部と7. 8.への対処を省いたものとなります。 ちなみにこれを作るのにおおよそ1時間ほどの時間がかかりました。 (続く)
2016-10-22 15:33:06.@konotarogomame この1時間に処理に必要な統計データ数をかけた時間が、研究者の真の意味での研究時間から削れれると考えると損失の大きさはご理解いただけるかと思います。 (続く)
2016-10-22 15:44:34.@konotarogomame 例えば過去30年間のある統計を3つ処理しようとしたと仮定すると30×3×1時間=90時間=(一日6時間労働として)15人日 これと同じことを仮に500人の研究者がやるとすると、7500人日もの真の意味での研究時間が消えることとなります (続く)
2016-10-22 15:46:58.@konotarogomame データベースと統計に造形を持つ教授やエンジニアを招聘し、お話を伺っていただければ、あらゆる分野の研究者の研究の一助となります。 三重大学 奥村晴彦先生 @h_okumura と 結城浩さん @hyuki を(勝手に)推挙します (終わり)
2016-10-22 16:03:33@konotarogomame 再利用しやすい表形式データの指針として、VLED オープンデータガイド2.1版「8.3.2表形式データに関する指針」がまとめられています。これに準拠したデータ作成がなされると助かる人は多いです。 vled.or.jp/results/OpenDa…
2016-10-22 00:38:04@konotarogomame 脇から失礼。まずい点は、データとして数値を再利用するのが困難な点だというのはお分かりですか?それが分かれば、対策はどうやって再利用しやすいデータにするかの一つです。例えば入力時に単位は別にして半角数字だけにしておく。既にある物は変換して公開する(続
2016-10-21 23:48:38@konotarogomame ・数字が全角なので半角にする ・0の代わりに「お」となってるので数字だけにする ・単位も欄を分けて数字だけにする ・xlsでなくcsvで提供する ・他の人が送ってた以下の資料の8.3.2に沿う vled.or.jp/results/OpenDa…
2016-10-22 10:12:45@konotarogomame 変換する予算がないなら、その旨記載し研究者が変換したものを返してくれたらそれを公開する、外で変換された物を確認する予算もなければオリジナルへのリンク付きでの再公開を認める、などでしょうか。他にもいい手があるかもしれません(続く
2016-10-21 23:54:57@konotarogomame でも、一番安いのは、データ入力時に何の為の物かを意識して再利用しやすいデータとすることだとおもいます。そうすると自然と最初に書いた、半角数字で単位は別にするとなると思います。長々と失礼しました
2016-10-21 23:56:19@konotarogomame 数値データが全角だと処理ソフトは読み込めません。数値データの同じ枠に単位が入っていてもダメです。これを使える形にするには手作業でデータを整える必要があります。政府の担当のかたが、ご自分のデータを入力する際に、少し気をつければこの作業はなくなります。
2016-10-22 09:35:35@konotarogomame 政府の貴重なデータを、うまく活用するためには別の処理ソフトで可視化したり解析したりすることが有効です。ところが、政府から出るエクセルに書かれたデータは、細かい部分でこのようなデータ処理に適した形式になっていないことが多いのです。例えばエクセルの数値
2016-10-22 09:38:57@konotarogomame そして、紙ベースで出力した統計データをそのままスキャンしてpdf化して発表するのもやめていただきたい。統計局などで出しているデータはかなり利用しやすくなっていますが、それ以外のところはめちゃくちゃなので結構困ります。
2016-10-22 08:38:29.@konotarogomame 日本政府のデータ、書類は、一般的にPDFファイルとして公開されているものが多いと思います。ところが、これをコピーして引用したり、リンクして議論したりするのに困難です。鍵付きでコピーできないものも多い。米国政府にはこういうのはほとんどありません。
2016-10-22 10:49:32これを機に国会で「ネ申Excel追放運動」が起こることを期待 twitter.com/konotarogomame…
2016-10-22 09:44:12(ここでさりげなく「「ネ申Excel」問題」のPDFを貼っておく oku.edu.mie-u.ac.jp/~okumura/SSS20… )
2016-10-22 09:51:08さっきのペーパー,もし引用していただけるなら,奥村晴彦「「ネ申Excel」問題」情報処理学会情報教育シンポジウムSSS2013論文集,pp.93-98(2013年8月)でお願いします。ちなみにシンポジウムではこんな賞をいただきました oku.edu.mie-u.ac.jp/~okumura/SSS20…
2016-10-22 19:52:34@konotarogomame この問題に以前から真剣に取り組んでおられる三重大学の奥村晴彦教授(学長補佐)を招いて勉強会を開くことから始めるとよいと思います。
2016-10-22 10:12:53これは同感なとこが多かった。 事務屋はめんどくさいことを残業してやって仕事自慢している。 情報処理能力が無いだけだろって思う。 twitter.com/narusase/statu…
2016-10-22 11:24:44こういう小さなことだけど、結果として大きな手間が発生する問題が解消するのはとってもいいことだな… 研究者として次に公共機関にお願いしたいことは、OpenData関連の togetter.com/li/469017 この問題の解消ではないかと思われます twitter.com/konotarogomame…
2016-10-21 23:14:21利用者のことを考えるのは当然。 考えてること同じ。 役人はそう言うことに疑問さえ抱かない。 誰か外部からこう言うこと言って欲しい。 上司も周りもがわからん珍すぎて無理。 twitter.com/cinnamondiary/…
2016-10-22 11:41:36方眼紙として使う人間はうちの役所でも非常に多い。よく見かける。 それならば、記入項目だけ絞ってエクセルに入力させ、あとはワードに差し込みさせたらいい。 データと表の体裁は別物としてとらえて欲しい。 twitter.com/ororeoredayoor…
2016-10-22 11:48:26@konotarogomame エクセルを方眼紙として使っただけのものをなんとかして欲しいです。例えば犯罪統計 dd.hokkaido-np.co.jp/news/society/s… から何かの経年変化を見ようとすると大仕事になります。印刷媒体と違うやり方を検討していただいてもよいのではないかと。
2016-10-22 11:05:14.@konotarogomame @narusase @togetter_jp どんなデータが、どんな形式で、どこで公開されているか、を一覧にしたひとつのテキストファイルが欲しいです。あと応用されたケースやプログラムを共有するサイトがあると嬉しいです。
2016-10-22 12:28:58.@konotarogomame 内閣府GDP統計、csv で公開するのは構わんですが四半期速報ごとにファイル名変えてないで同名ファイルでデータ更新してほしいですね ( ´ω`) twitter.com/tacmasi/status…
2016-10-22 12:19:08どなたか、例えば政府のこのデータは、ここがこう悪くて、こう直すと良くなるということを、いくつか具体的に指摘していただけませんか。 twitter.com/narusase/statu…
2016-10-22 08:24:26