#Panamapapers 解析の技術的側面

0
Keiichiro Ono @c_z

パナマ文書。データの大きさは基本的に質とはあまり関係無いけど、それにしてもでかい。どういう形式で保存されているのかまだよく読んでいないのでわからないけど、データジャーナリズムを標榜するようなところにとっては宝の山っぽい。 theguardian.com/news/2016/apr/…

2016-04-05 10:48:44
Keiichiro Ono @c_z

そういえば昔、ケイマン諸島にダイビングに行った時、グランドケイマンの中心部には明らかに島の規模に比べておかしい数の銀行があって、うわあ…って思ったな。あのあたりは世界の闇。綺麗なとこなんだけど。

2016-04-05 11:04:36
Keiichiro Ono @c_z

この手の公開データって「公開されてるけど誰も見ないので実際は見えないのと同じ」と言うケースが殆んど。特に手書きのスキャンの場合。扇動的ではない、抑えた表現方法でこういうデータをブラウズ出来る可視化アプリケーションを作ると良いと思うけどな。

2016-04-08 06:00:52
Keiichiro Ono @c_z

Neo4jの社長さんが時事ネタにのっかってる。っていうか、本当に解析作業に使ってるんだな。 neo4j.com/blog/panama-pa…

2016-04-08 06:51:47
Keiichiro Ono @c_z

非営利の報道機関でこういう作業できるって凄いな。そもそもリーク文書をグラフ構造としてデータベース化して理解しよう、と言う発想が日本の新聞社とかでは出ない気がする。

2016-04-08 06:58:07
Keiichiro Ono @c_z

もともとは、ICIJの解析担当者が、このリークの時に計算機を使った分析の必要性を感じてグラフデータベース利用を考案、その時からの付き合いらしい。  projects.icij.org/swiss-leaks/

2016-04-08 07:02:12
Keiichiro Ono @c_z

面白い。今回のはでかすぎるとしても、日本の大手も、英語のできるジャーナリストと統計屋さんとプログラマとデザイナ組ませて、暫く好き勝手にやらせてみればいいのに。公開データでも山程できることはあると思うので。

2016-04-08 07:06:51
Keiichiro Ono @c_z

2013年のオフショア・リークの時のグラフデータが、パナマ文書のデータとして某サイトから出回ってるけど、何で?単なる誤解なのかな。まだ今回のグラフデータって出回ってないですよね?

2016-04-10 02:38:00
Keiichiro Ono @c_z

色々と最近読んだ記事と自分の関連知識を一般向けにまとめました。  I just published “「パナマ文書」解析の技術的側面” medium.com/@c_z/%E3%83%91…

2016-04-10 08:30:10
Keiichiro Ono @c_z

パナマ文書のデータ下ごしらえの記事、割とニッチだと思ってたけど、想像より広く読まれているようでちょっと驚き。面白いもの見つけてもやっぱり英語のリンク貼るだけっていうのはよろしくないのかな。自分が面白いと思った英語の文書見かけたら、日本語でなんか書かないとなかなか広まらないか。

2016-04-11 00:01:31
Keiichiro Ono @c_z

今気づいたけど、Neo4jの方がブログ更新してる。今公開されている情報をもとに、そのグラフをNeo4jとCypherで再構築するとどんな感じになるかという記事。 neo4j.com/blog/analyzing…

2016-04-11 00:14:09
Keiichiro Ono @c_z

やっぱりデータのモデリングの問題を指摘してる。もし本当に、あの程度のエッジタイプしかデータベース内に無いとすると、せっかく強力なクエリ言語があってもできることに制限ができちゃうので。

2016-04-11 00:18:12
Keiichiro Ono @c_z

あと、名寄せした後の結果を、ノードをマージして一つのものに統合するんじゃなくて、”has similar name or address”っていう特殊なエッジで接続してるので、あれもデータのクオリティという観点から見るとちょっとアレかな、と。

2016-04-11 00:19:58
Keiichiro Ono @c_z

まあ名前の揺れは本当にあらゆるところで厄介。要するにバイオインフォ分野のID乱立問題のようなものだから。今回の場合だと、特殊エッジ追加の代わりに、ノードのaliasというプロパティに格納した方がすっきりしたかもしれない。

2016-04-11 00:25:23
Keiichiro Ono @c_z

ここから先を効率良くやるには、統計の専門家と自然言語処理の専門家を入れないと難しいと思う。データ量も激増するので。

2016-04-11 00:30:33
Keiichiro Ono @c_z

このブログで指摘されてる、モデルの修正とノード、エッジタイプの追加は全くもってその通りだと思うので、おそらく次の解析のラウンドで類することをやると思う。今のグラフモデルだと、本当に「何らかの繋がりがある」というレベルの情報しか見えないので。

2016-04-11 00:34:11
Keiichiro Ono @c_z

そういえば“Why It Couldn’t Have Happened Ten Years Ago”というNeo4jの社長さんの言葉をもっと強調しといた方がよかった。10年くらい前自分がこの分野で仕事始めた時もこんなレベルのツールは全然揃ってなかった。今だからこそできることは多い

2016-04-11 00:50:43
Keiichiro Ono @c_z

ここの創業者の方にちょこっと会った事あるけど、本気で最新のテクノロジー全力で使ってでかいグラフをブラウザでサクサク描こうとしているので、巨大グラフをブラウザで描く必要がある人は追っておくといいと思います。 graphistry.com

2016-04-11 06:52:44
Keiichiro Ono @c_z

パナマ文書関連で書いた記事、これだけ興味がある人が居ると言うのは、科学や工学と同じく、調査報道も高度化すると内部で何やっているのかわからなくなるからなのかも。多分興味のある技術者も多いと思うので、ICIJの解析チームの人は手法に関しての記事を書いてほしいところ。

2016-04-11 12:35:24
Keiichiro Ono @c_z

ここ数年参加してる可視化の実務屋向けの会議でも、NPOや報道系の人の発表がある。その人たちのやっている事は実質的にソフト開発やデータ解析なので、このままの方向で行くと、エンジニアや統計の専門家が組織内に居ないと、そうでない組織との出来る事の差が物凄く開いてしまうと思った。

2016-04-11 12:40:53
Keiichiro Ono @c_z

何事も高度化したらチーム化して分業し、プロジェクトベースでやり方変えていかないともう難しいと思う。自分のような人間が医学部で働いてる理由もまさにそこだし。

2016-04-11 12:43:37
Kazuto Suzuki @KS_1013

大変面白い記事。イランや北朝鮮の核関連物質の調達に関わる調査など、人や企業が関わるネットワーク解析に役に立つ議論だ。 / “「パナマ文書」解析の技術的側面” by @c_z medium.com/@c_z/%E3%83%91…

2016-04-11 14:31:55
The Asahi Shimbun GLOBE+ @asahi_globe

世界を揺るがす「パナマ文書」。朝日新聞デジタルの特設ページです→ t.asahi.com/jb86 多国籍企業の「租税回避」では、こんな複雑な仕組みも話題になりました→ t.asahi.com/jb89 pic.twitter.com/coSFx7xJeB

2016-04-11 18:29:34
拡大
リンク Newsweek日本版 「パナマ文書」解析の技術的側面 世界中で話題になっているパナマ文書。各国で政権を揺るがすような事態にもなってい...