パナマ文書。データの大きさは基本的に質とはあまり関係無いけど、それにしてもでかい。どういう形式で保存されているのかまだよく読んでいないのでわからないけど、データジャーナリズムを標榜するようなところにとっては宝の山っぽい。 theguardian.com/news/2016/apr/…
2016-04-05 10:48:44そういえば昔、ケイマン諸島にダイビングに行った時、グランドケイマンの中心部には明らかに島の規模に比べておかしい数の銀行があって、うわあ…って思ったな。あのあたりは世界の闇。綺麗なとこなんだけど。
2016-04-05 11:04:36この手の公開データって「公開されてるけど誰も見ないので実際は見えないのと同じ」と言うケースが殆んど。特に手書きのスキャンの場合。扇動的ではない、抑えた表現方法でこういうデータをブラウズ出来る可視化アプリケーションを作ると良いと思うけどな。
2016-04-08 06:00:52Neo4jの社長さんが時事ネタにのっかってる。っていうか、本当に解析作業に使ってるんだな。 neo4j.com/blog/panama-pa…
2016-04-08 06:51:47非営利の報道機関でこういう作業できるって凄いな。そもそもリーク文書をグラフ構造としてデータベース化して理解しよう、と言う発想が日本の新聞社とかでは出ない気がする。
2016-04-08 06:58:07もともとは、ICIJの解析担当者が、このリークの時に計算機を使った分析の必要性を感じてグラフデータベース利用を考案、その時からの付き合いらしい。 projects.icij.org/swiss-leaks/
2016-04-08 07:02:12面白い。今回のはでかすぎるとしても、日本の大手も、英語のできるジャーナリストと統計屋さんとプログラマとデザイナ組ませて、暫く好き勝手にやらせてみればいいのに。公開データでも山程できることはあると思うので。
2016-04-08 07:06:512013年のオフショア・リークの時のグラフデータが、パナマ文書のデータとして某サイトから出回ってるけど、何で?単なる誤解なのかな。まだ今回のグラフデータって出回ってないですよね?
2016-04-10 02:38:00色々と最近読んだ記事と自分の関連知識を一般向けにまとめました。 I just published “「パナマ文書」解析の技術的側面” medium.com/@c_z/%E3%83%91…
2016-04-10 08:30:10パナマ文書のデータ下ごしらえの記事、割とニッチだと思ってたけど、想像より広く読まれているようでちょっと驚き。面白いもの見つけてもやっぱり英語のリンク貼るだけっていうのはよろしくないのかな。自分が面白いと思った英語の文書見かけたら、日本語でなんか書かないとなかなか広まらないか。
2016-04-11 00:01:31今気づいたけど、Neo4jの方がブログ更新してる。今公開されている情報をもとに、そのグラフをNeo4jとCypherで再構築するとどんな感じになるかという記事。 neo4j.com/blog/analyzing…
2016-04-11 00:14:09やっぱりデータのモデリングの問題を指摘してる。もし本当に、あの程度のエッジタイプしかデータベース内に無いとすると、せっかく強力なクエリ言語があってもできることに制限ができちゃうので。
2016-04-11 00:18:12あと、名寄せした後の結果を、ノードをマージして一つのものに統合するんじゃなくて、”has similar name or address”っていう特殊なエッジで接続してるので、あれもデータのクオリティという観点から見るとちょっとアレかな、と。
2016-04-11 00:19:58まあ名前の揺れは本当にあらゆるところで厄介。要するにバイオインフォ分野のID乱立問題のようなものだから。今回の場合だと、特殊エッジ追加の代わりに、ノードのaliasというプロパティに格納した方がすっきりしたかもしれない。
2016-04-11 00:25:23このブログで指摘されてる、モデルの修正とノード、エッジタイプの追加は全くもってその通りだと思うので、おそらく次の解析のラウンドで類することをやると思う。今のグラフモデルだと、本当に「何らかの繋がりがある」というレベルの情報しか見えないので。
2016-04-11 00:34:11そういえば“Why It Couldn’t Have Happened Ten Years Ago”というNeo4jの社長さんの言葉をもっと強調しといた方がよかった。10年くらい前自分がこの分野で仕事始めた時もこんなレベルのツールは全然揃ってなかった。今だからこそできることは多い
2016-04-11 00:50:43ここの創業者の方にちょこっと会った事あるけど、本気で最新のテクノロジー全力で使ってでかいグラフをブラウザでサクサク描こうとしているので、巨大グラフをブラウザで描く必要がある人は追っておくといいと思います。 graphistry.com
2016-04-11 06:52:44パナマ文書関連で書いた記事、これだけ興味がある人が居ると言うのは、科学や工学と同じく、調査報道も高度化すると内部で何やっているのかわからなくなるからなのかも。多分興味のある技術者も多いと思うので、ICIJの解析チームの人は手法に関しての記事を書いてほしいところ。
2016-04-11 12:35:24ここ数年参加してる可視化の実務屋向けの会議でも、NPOや報道系の人の発表がある。その人たちのやっている事は実質的にソフト開発やデータ解析なので、このままの方向で行くと、エンジニアや統計の専門家が組織内に居ないと、そうでない組織との出来る事の差が物凄く開いてしまうと思った。
2016-04-11 12:40:53何事も高度化したらチーム化して分業し、プロジェクトベースでやり方変えていかないともう難しいと思う。自分のような人間が医学部で働いてる理由もまさにそこだし。
2016-04-11 12:43:37大変面白い記事。イランや北朝鮮の核関連物質の調達に関わる調査など、人や企業が関わるネットワーク解析に役に立つ議論だ。 / “「パナマ文書」解析の技術的側面” by @c_z medium.com/@c_z/%E3%83%91…
2016-04-11 14:31:55世界を揺るがす「パナマ文書」。朝日新聞デジタルの特設ページです→ t.asahi.com/jb86 多国籍企業の「租税回避」では、こんな複雑な仕組みも話題になりました→ t.asahi.com/jb89 pic.twitter.com/coSFx7xJeB
2016-04-11 18:29:34