66

時系列が前後するが、先にネ申エクセルの簡単な説明

narusase @narusase
ざっくり解説、#ネ申エクセル #神エクセル とは 1. 主に統計データ等において、セル結合や、全角数値などによりデータの再利用性が著しく悪化したもの 2. 提出書類としてのエクセル等において、1マス1文字などの入力が著しく困難なもの …の二つのいずれかを指す

以下本文

佐久間 功(文と企画・近々廃業) @Biz_Sakuma
現在、TLは河野太郎大絶賛の嵐(ほどではないけど)これだけ政治家さんの活動を褒めてる状態は珍しい。
河野太郎 @konotarogomame
罫線をなくしただけで大絶賛!? では、次の要望は何? twitter.com/biz_sakuma/sta…
narusase @narusase
こういう小さなことだけど、結果として大きな手間が発生する問題が解消するのはとってもいいことだな… 研究者として次に公共機関にお願いしたいことは、OpenData関連の togetter.com/li/469017 この問題の解消ではないかと思われます twitter.com/konotarogomame…
ツイートまとめ 公務員が公開するネ申Excelが日本の生産性を落としている話 本格的オープンデータを前に公務員にデータリテラシをつけないと日本のあちこちで無駄な作業が大量発生しそう 427649 pv 4897 888 users 3535
河野太郎 @konotarogomame
どうすれば良いのか、具体的に説明して。 twitter.com/narusase/statu…
narusase @narusase
@konotarogomame いわゆる神エクセルといわれる問題で奥村先生のこちら oku.edu.mie-u.ac.jp/~okumura/SSS20… の文章が一番まとまった説明になるかと思います。(続く) twitter.com/konotarogomame…
narusase @narusase
@konotarogomame ざっくりと言うと、お役所的に美しい形式はPCで処理する場合に扱いにくいので、数値は半角に、単位を別に、一列に一つの系列のデータにする単語にスペースを入れない (続く)
narusase @narusase
@konotarogomame 「東 京」ではなく、「東京」など、「昭和30年('55)」ではなく「昭和」「30」「年」「1955」「年」に分けるなどなど、読んだエクセルをそっくりそのまま計算や集計などにそのまま再利用できる形式にしていただけると幸いです。 (続く)
narusase @narusase
@konotarogomame 例えば、出生数と就学児童数のデータが存在するとして、そこから東京都の1980年の出生数と、15年後の1995年の就学児童数(高校1年)の比較をしたい場合を考えます。 (続く)
narusase @narusase
@konotarogomame このとき、出生数のデータは 「昭和55年('80)」「東京都」「100万人」、就学児童数のデータは「一九九五」「 東 京 」「壱壱〇〇〇〇〇」などになっているとしたら、 (続く)
narusase @narusase
@konotarogomame 比較のためにはそれぞれを手作業で正規化して「1980」「東京」「1000000」と「1995」「東京」「1100000」に変換してからでないと容易には比較ができないことがなんとなくわかってもらえるかと思います。 (続く)
narusase @narusase
@konotarogomame 仮にこれが、二つの資料ではなく、10のデータ、100のデータの組み合わせで結果を求める場合、そのためにかかる手間は暴対なものになることが想像できるかと思います。 (続く)
narusase @narusase
@konotarogomame もし、これらのデータが、完全に同じ条件のもと作られるとしたら。この手のデータを扱う何十、何百の研究者がこの手間から解放されることになり、従前の問題と同様に研究者にかかる多くの労力が不要になります。 (続く)
narusase @narusase
@konotarogomame 総務省は一部ではありますがこちらで e-stat.go.jp/api/api-data/ APIとしてのデータ提供を開始しており、エクセルのフォーマットの統一だけでなくこちらがより拡充されると、 (続く)
narusase @narusase
@konotarogomame いろいろな分野で無駄な労力がさらにより省けるかと思われます。 よろしくご検討のほどお願い申し上げます。 (終わり)
narusase @narusase
@konotarogomame ここから先は余談ですが、この総務省のAPIとマイナンバーの公的個人認証サービスの民間開放の結果 #codeblue #codeblue_jp のeエストニア の話につながっていってくれれば夢があるなーとふと思いました。
piyokango @piyokango
“CODE BLUE 2016 Report:18分で会社が作れる、エストニアのデジタル社会インフラ事情 (1/2) - ITmedia エンタープライズ” htn.to/38D5UK2
河野太郎 @konotarogomame
どなたか、例えば政府のこのデータは、ここがこう悪くて、こう直すと良くなるということを、いくつか具体的に指摘していただけませんか。 twitter.com/narusase/statu…
narusase @narusase
@konotarogomame 例えばGoogleで「統計情報」で最初にヒットしたものからたどれる一番近い統計がこちらになります 農林水産省の平成28年果樹及び茶栽培面積(7月15日現在) maff.go.jp/j/tokei/kouhyo… (続く) twitter.com/konotarogomame…
narusase @narusase
@konotarogomame エクセルとしてはこちらです e-stat.go.jp/SG1/estat/Xlsd… 添付画像の前者が元の形式で、後者がデータとして扱いやすい形式になります。 (続く) pic.twitter.com/HuJpRQWUNP
拡大
拡大
narusase @narusase
.@konotarogomame 元の形式は目次、P4、P5、P6、P7、P8 のシートからなっています。 あくまで書類として扱う場合は、たいへん読みやすいのですが、データとして扱う場合には次の問題点があります。 (続く)
narusase @narusase
.@konotarogomame 1. 単年度の統計のため複数年度の比較、グラフ化が難しい(複数年度対応できるなら対前年の差はなくてもよい) 2. 作付け作物が複数のシートに分かれており、作物ごとの比較、グラフ化が難しい (続く)
残りを読む(363)

コメント

Shun Fukuzawa @yukichi 2016年10月25日
以前から再編集しづらくて容量を取るネ申パワポも密かに問題だと思っている
のりしあん @noricyan2 2016年10月25日
郵便番号のデータも最低ですよね。
toshifumi takizawa @tackyto 2016年10月25日
これ本当に勘弁して欲しかった。新聞報道からちょっと詳細を確認しようとしたら膨大なめんどくさい処理が発生する。
marmot1123 @marmot1123 2016年10月25日
素晴らしいまとめ.聞く方も説く方も素晴らしい.
narusase @narusase 2016年10月25日
2016年10月25日 21時30分ごろまでに補足したツイートを追加 まとめを更新しました。
Masa Kid @kida_777 2016年10月25日
河野太郎がいい仕事をしそうだ。
どこにもいない人 @nowhereman17 2016年10月25日
どうでもいい『暴対』という誤変換が気になって仕方がない。四課かよ。
赤間道岳 @m_akama 2016年10月25日
yukichi 道具の使い方が根本的に間違ってるんですよね。パワポは発表の道具であって絵を描く道具ではないのですが、どうにも(´・ω・`)
narusase @narusase 2016年10月27日
2016年10月27日 00時20分ごろまでに補足したツイートを追加 researchmap に関する話題についても一部取り込み
narusase @narusase 2016年10月27日
まとめを更新しました。 2016年10月27日 22時20分ごろまで更新分を追加 また、問題提起の話をとりこむ
narusase @narusase 2016年10月29日
まとめを更新しました。 2016年10月29日 23時50分ごろまで更新分を追加 元ネタ関連の重要なつぶやきも追加
narusase @narusase 2016年11月2日
まとめを更新しました。 2016年11月02日 00時20分ごろまで更新分を追加 河野太郎議員の働きかけで、ネ申エクセル問題に具体的な進捗が!
narusase @narusase 2016年11月4日
まとめを更新しました。 2016年11月04日 22時15分ごろまでの更新分を追加 ここにきてさらなる展開が!
narusase @narusase 2016年11月5日
まとめを更新しました。2016年11月05日 22時50分ごろまでの更新分を追加、方々にバズっていくようすもいくつかピックアップ …以降、うざくなるので更新コメントは省略します
セリ@MHW&DQ10 @guard_74 2016年11月6日
データはCSVじゃなくてTSV(タブ区切り)の方が良いなぁ。文字列データの場合にカンマやダブルクォーテーションの面倒な変換しなくてすむし。
たけ@砂岩魂を夺 Sh! ←意味は分からん @takebor 2017年7月15日
どうせこれ生データの集計結果を転記する清書版なんだろうから生データ出せで済む話のような
abc @abc43621495 2017年8月5日
どう考えてもブログでやったほうがいい長文ツイートを垂れ流す神Twitterもしばしば見るな。
ログインして広告を非表示にする
ログインして広告を非表示にする