Hortonworks DataFlowの紹介 at Macnica Networks Day 2016

Hortonworks DataFlowの開発者河村によるHortonworks DataFlowの紹介
0
Kimihiko Kitase @kkitase

まもなく、Macnica Networks Day 2016でHortonworks DataFlowの開発者 Koji Kawamura が、Hortonworks、データフローの自動化について話します! pic.twitter.com/Gjh6LIxxpk

2016-07-08 14:02:13
拡大
拡大
Kimihiko Kitase @kkitase

Macnica Networks DAY 2016 にて、「進化するデータ基盤、あらゆるデータをつなげる、コネックテッド・データプラットフォーム」まもなく始まります。 Hortonworks DataFlowの開発者が登壇します。#hortonworks #hdp #hdf

2016-07-08 14:09:23
Aki@めもおきば 冬コミ12/31東U-58b @nekoruri

Hortonworks、黄色いゾウ一族にあるまじきロゴの普通さ

2016-07-08 14:17:20
Kimihiko Kitase @kkitase

#Hortonworks 河村: Hortonworksは、Hadoopのディストリビューション Hortonworks Data Platform、Hortonworks DataFlowを開発、販売している会社です。 pic.twitter.com/ZoPUL8eAOe

2016-07-08 14:20:51
拡大
Kimihiko Kitase @kkitase

#Hortonworks 河村: データの種類が多岐にわたり、社内外の流れているデータ (Data in Motion)もとりいれてビジネスに活かしていくのが重要ではないか。

2016-07-08 14:22:51
Kimihiko Kitase @kkitase

#Hortonworks 河村: Hortonworksを知っている人はHDPのほうを知っているかもしれないですね。HDPはHadoop, Spark, HBaseなど、データを蓄積、分析するプラットフォームになります。

2016-07-08 14:24:11
Kimihiko Kitase @kkitase

#Hortonworks 河村: 今日メインでお話しするHDF (Hortonworks DataFlow)は、流れているデータをコントロールするための製品です。

2016-07-08 14:25:01
Kimihiko Kitase @kkitase

#Hortonworks 河村: Shell Scriptとか、コマンドとか、SQLでデータを整形していたところを、HDFを使えば簡単に自動化できる。

2016-07-08 14:27:41
Kimihiko Kitase @kkitase

#Hortonworks 河村: Hortonworks DataFlowは、Apache NiFiをベースにパッケージされている製品です。

2016-07-08 14:28:27
Kimihiko Kitase @kkitase

#Hortonworks 河村: Apache NiFiは、国家安全保障局(NSA)が8年くらい期間をへて開発されたソフトウェアです。

2016-07-08 14:29:07
Kimihiko Kitase @kkitase

#Hortonworks 河村: HDFをつかえば、S3やSplunkなど140以上の接続するためのコンポーネントが揃っているので、それをつなげていくだけでデータフローを自動化できます。

2016-07-08 14:30:16
Kimihiko Kitase @kkitase

#Hortonworks 河村: HDFのユースケースとしては、 1. ログの収集、分析の最適化 2. サイバーセキュrティのためのログ 3. IoT など

2016-07-08 14:31:12
Kimihiko Kitase @kkitase

#Hortonworks 河村: 最近のエンタープライズシステムだと、一つのDCにデータがあるというのは珍しいのではないか。オンプレミスとクラウドと複数のデータソースをマッチする仕組みもあります。

2016-07-08 14:32:41
Kimihiko Kitase @kkitase

#Hortonworks 河村: あらかじめいろんなコネクタが用意されている。例えば、Twitterの情報を取得したければ、「Get Twitter」というコネクタをつかえば、簡単に取得できるし

2016-07-08 14:35:45
Kimihiko Kitase @kkitase

#Hortonworks 河村: 取得してきたデータをHadoop (HDFS)に貯めたいのであれば、そのコネクタを利用すれば簡単に蓄積できる。

2016-07-08 14:36:26
Kimihiko Kitase @kkitase

#Hortonworks 河村: データのフローというのは一度作って終わりではない。重要なことは、いかに簡単にメンテナンスできるかである

2016-07-08 14:37:21
Kimihiko Kitase @kkitase

#Hortonworks 河村:一般的なデータフローはスプリンクラーのようにあらかじめ設計されているが、NiFiは、流れているデータの流れをライブで変更できる。

2016-07-08 14:38:27
Kimihiko Kitase @kkitase

#Hortonworks 河村: Data Provenance (データの来歴)データの出所がどうなのかが重要。ネットで買い物すると、その商品がいまどこで、何時につきますよというのがわかると思うが、そういうイメージです。

2016-07-08 14:40:01
Kimihiko Kitase @kkitase

#Hortonworks 河村: HDFをつかうと、データ来歴がわかり、データがどこから、何時何分に、どのくらいの量がきたかが簡単にわかる。

2016-07-08 14:41:31
Kimihiko Kitase @kkitase

#Hortonworks 河村: データフローというのは一回作っておしまいじゃないんだよ。どういう条件の時は、こっちのフローに流しましょうと、ライブで簡単に描くことができる。

2016-07-08 14:42:48
Kimihiko Kitase @kkitase

#Hortonworks 河村: HDFはセキュリティにも考慮して開発されている。NiFiみたいなツールに誰もがアクセスしてデータをみられたら心配だよね。なので、HDFでは監査機能もあり、どのユーザーがどのデータにアクセスしたかがわかります

2016-07-08 14:43:54
Kimihiko Kitase @kkitase

#Hortonworks 河村: 最高のデータサイエンティスト、強力なプラットフォーがあっても、分析には適切なデータが必要、データ収集が最初で最大のポイントになります。この問題を解消するのがHortonworks DataFlowです。

2016-07-08 14:45:05
Kimihiko Kitase @kkitase

#Hortonworks 河村: 最後にデモをお見せします。

2016-07-08 14:45:18
Kimihiko Kitase @kkitase

#Hortonworks 河村: Githubからソースコードの改変ステータスを加工してを可視化したりできます。 pic.twitter.com/dVINYynjEP

2016-07-08 14:51:10
拡大
拡大