河野太郎議員(@konotarogomame)とネ申エクセル問題&オープンデータの話 #ネ申エクセル #ネ申殺し
なぜ変えない方が良いの? twitter.com/tacmasi/status…
2016-10-22 14:29:56.@konotarogomame 内閣府GDP統計、csv で公開するのは構わんですが四半期速報ごとにファイル名変えてないで同名ファイルでデータ更新してほしいですね ( ´ω`) twitter.com/tacmasi/status…
2016-10-22 12:19:08.@konotarogomame 使うのに楽だからです。 せっかくコード書いて自動でデータ読み込もうとしても、更新のたびにファイル名変えられるといちいちファイル名確認しないといけない。手間です( ´ω`) twitter.com/konotarogomame…
2016-10-22 14:45:23@konotarogomame 「変えない」といっても「上書き」ではなく、「機械が理解できる規則正しい名称を使う」ということですね。 pic.twitter.com/imZ8GCtdQp
2016-10-24 23:15:30@konotarogomame 5stardata.info/ja/ 情報公開フォーマットの目指す姿を5段階で示したものです。 日本では☆1や2が多いので、まず☆3(XMLやCSVなどの形式にすること)を目指していただきたいです。
2016-10-24 22:11:35完全同意RT @narusase: .@konotarogomame データベースと統計に造形を持つ教授やエンジニアを招聘し、お話を伺っていただければ、あらゆる分野の研究者の研究の一助となります。 三重大学 奥村晴彦先生 @h_okumura と 結城浩さん @hyuki を…
2016-10-22 18:14:47@konotarogomame 同名ファイルの件,取得し処理する側では常に同じファイル名で処理できます.ファイル名に日付等が入る場合,一定のルールで命名されていないと自動処理が難しくなります.
2016-10-22 18:21:28. @konotarogomame 各項目の属性として,文字列なのか数値なのか,文字列なら最大文字長文字の種類など,数値なら桁数・単位などが定まっていると,機械で自動的に処理できます.また,数値なら半角数字のみとし全角は許さないことが必須です.見た目は似ていても全く別物となります
2016-10-22 18:26:59@konotarogomame プログラムで最新のデータを取得するのが楽だからです。最新のデータはいつも同じファイル名だと便利ではあります。
2016-10-22 18:38:01@konotarogomame ファイル名(つまりhttp://などのURL)は特定の情報につけられた住所です。住所が変わると探さないといけなくなります。探すには人が目視で判断しないといけません。住所の付け方を普遍的にして固定し、常にそこに同じ系列の情報があるようにすべきなのです
2016-10-22 15:31:39@konotarogomame ファイルだけでなくサービスについても固定した住所は役立ちます。そのURLへ決まった形式で情報を送るとそれを加工(検索、検出、蓄積、集計など)して送り返すサービスを割り付けることもできます。市役所や郵便局の場所が変わるとサービスが受けにくくなるのです
2016-10-22 15:37:25@konotarogomame オープンデータの基本指針は多々ありますが、下記は一例です。自動でプログラム処理できるデータ様式であること。加えて今後はIPAが規定する共通語彙基盤(日本語を含めた様式の標準化)への準拠もカギです。kantei.go.jp/jp/singi/it2/d…
2016-10-22 15:46:10@konotarogomame オープンデータやオープンガバメントの領域で行政・企業・市民・エンジニアを繋ぐ活動をしているCode for Japanという団体の者です。理想は中の業務改善の結果、必然的かつ低コストで出力品質が高まることです。お時間あれば意見交換できたら幸いです。
2016-10-22 15:56:36@各テーブルの日付カラムにyyyyMMdd、yyyy-MM-dd, yyyy MM DD, yyyy:MM:ddなど多種多様な形式で日付を入れた人 ゴジラが真っ先にお前を襲う呪いをかけた
2016-08-10 18:59:04…日付変換関数を何十種類か書いたことがありますけれど、アレはひどかった。色々な形式があるだけだったらまだしも、文脈依存なんですよ。平成年号か、西暦下二桁かが、レコードによってチガウ…
2016-10-22 17:45:28↓ 日時はUTCならISO8601の 2016-10-21T22:47:58+00:00 or 2016-10-21T22:47:58Z 形式、ローカルタイムなら 2016-10-21 23:23:23 or 2016/10/21 23:23:23 形式に統一してっていつも思う
2016-10-22 17:59:53PDFではなくテキストベースのCSVとかでデータを公表すべきです。PDFからテキスト化するボランティアが大量に働いています。またデータ置き場は変えないこと。政府系ウェブサイトdead linkまみれです。@konotarogomame @ecohis @narusase
2016-10-22 21:03:06.@konotarogomame わざわざ文字列扱いで入力されておる食品標準成分表xlsxファイルとかなんでこんなめんどくさいことするのかなーと想いますね( 'ω`) twitter.com/konotarogomame… pic.twitter.com/SB56bl7nq1
2016-10-22 21:31:46どなたか、例えば政府のこのデータは、ここがこう悪くて、こう直すと良くなるということを、いくつか具体的に指摘していただけませんか。 twitter.com/narusase/statu…
2016-10-22 08:24:26データの保存とレイアウトの情報は別にする。すべてロング形式にして列内でデータのクラス(数値、文字列など)は同一にする。クロス表だとかセルの結合だとか注釈を入れるだとかは論外。csvで保存して統一的なファイル名にする。 twitter.com/konotarogomame…
2016-10-22 22:06:47そもそも調査票の設計段階で通年でパネルとして使用できるようにする。現状では当該年の集計表を作ることを目的としたものにしかなっていない。結果、昔の調査票や名簿がないとか年度間で同一企業のidが変わるだとかのありえない状況になっている。 twitter.com/konotarogomame…
2016-10-22 22:11:32こうした問題を根本的に解決するためには実際に政府のデータを使って分析を行っている人たちを調査の設計段階から組み込んでおく必要があると思う。現状の政府統計はデータ分析能力のない素人が設計したどうしようもない代物になっている。 twitter.com/konotarogomame…
2016-10-22 22:15:24あとはできることなら予算を投じて開国以来、せめて戦後からの全ての政府統計を電子化すると同時に名簿や調査票情報を一元化してほしい。それだけでとても貴重なデータセットになる。国内外の研究者がこぞって分析してくれるようになる。 twitter.com/konotarogomame…
2016-10-22 22:26:36ほんとだ,MacのExcelにCSV UTF-8が。行末CRのBOMなしUTF-8で保存される。でもそれをExcelで開くと化けるという罠orz pic.twitter.com/CcJmF4vJoY
2016-10-23 15:51:00データはexcel等の特定のソフト向けのものでなく、CSV等のテキストファイルにしないと、科学技術系のソフトウェアへの入力にかなり手間取ります。また、そのようなソフトウェアの多くは文字コードがShiftJISでなくUTF-8が標準になります。 @konotarogomame
2016-10-24 19:35:40割と真面目な話、書類提出にExcelフォーマットを要求する企業は、本気で止めて欲しい。いやだって、僕はMS Excelは所持していないので。購入する資金を負担しないのに、有償ソフトウェアの使用を強要しないで欲しい。
2016-10-24 21:06:56