Hortonworks DataFlowの紹介 at Macnica Networks Day 2016
まもなく、Macnica Networks Day 2016でHortonworks DataFlowの開発者 Koji Kawamura が、Hortonworks、データフローの自動化について話します! pic.twitter.com/Gjh6LIxxpk
2016-07-08 14:02:13Macnica Networks DAY 2016 にて、「進化するデータ基盤、あらゆるデータをつなげる、コネックテッド・データプラットフォーム」まもなく始まります。 Hortonworks DataFlowの開発者が登壇します。#hortonworks #hdp #hdf
2016-07-08 14:09:23#Hortonworks 河村: Hortonworksは、Hadoopのディストリビューション Hortonworks Data Platform、Hortonworks DataFlowを開発、販売している会社です。 pic.twitter.com/ZoPUL8eAOe
2016-07-08 14:20:51#Hortonworks 河村: データの種類が多岐にわたり、社内外の流れているデータ (Data in Motion)もとりいれてビジネスに活かしていくのが重要ではないか。
2016-07-08 14:22:51#Hortonworks 河村: Hortonworksを知っている人はHDPのほうを知っているかもしれないですね。HDPはHadoop, Spark, HBaseなど、データを蓄積、分析するプラットフォームになります。
2016-07-08 14:24:11#Hortonworks 河村: 今日メインでお話しするHDF (Hortonworks DataFlow)は、流れているデータをコントロールするための製品です。
2016-07-08 14:25:01#Hortonworks 河村: Shell Scriptとか、コマンドとか、SQLでデータを整形していたところを、HDFを使えば簡単に自動化できる。
2016-07-08 14:27:41#Hortonworks 河村: Hortonworks DataFlowは、Apache NiFiをベースにパッケージされている製品です。
2016-07-08 14:28:27#Hortonworks 河村: Apache NiFiは、国家安全保障局(NSA)が8年くらい期間をへて開発されたソフトウェアです。
2016-07-08 14:29:07#Hortonworks 河村: HDFをつかえば、S3やSplunkなど140以上の接続するためのコンポーネントが揃っているので、それをつなげていくだけでデータフローを自動化できます。
2016-07-08 14:30:16#Hortonworks 河村: HDFのユースケースとしては、 1. ログの収集、分析の最適化 2. サイバーセキュrティのためのログ 3. IoT など
2016-07-08 14:31:12#Hortonworks 河村: 最近のエンタープライズシステムだと、一つのDCにデータがあるというのは珍しいのではないか。オンプレミスとクラウドと複数のデータソースをマッチする仕組みもあります。
2016-07-08 14:32:41#Hortonworks 河村: あらかじめいろんなコネクタが用意されている。例えば、Twitterの情報を取得したければ、「Get Twitter」というコネクタをつかえば、簡単に取得できるし
2016-07-08 14:35:45#Hortonworks 河村: 取得してきたデータをHadoop (HDFS)に貯めたいのであれば、そのコネクタを利用すれば簡単に蓄積できる。
2016-07-08 14:36:26#Hortonworks 河村: データのフローというのは一度作って終わりではない。重要なことは、いかに簡単にメンテナンスできるかである
2016-07-08 14:37:21#Hortonworks 河村:一般的なデータフローはスプリンクラーのようにあらかじめ設計されているが、NiFiは、流れているデータの流れをライブで変更できる。
2016-07-08 14:38:27#Hortonworks 河村: Data Provenance (データの来歴)データの出所がどうなのかが重要。ネットで買い物すると、その商品がいまどこで、何時につきますよというのがわかると思うが、そういうイメージです。
2016-07-08 14:40:01#Hortonworks 河村: HDFをつかうと、データ来歴がわかり、データがどこから、何時何分に、どのくらいの量がきたかが簡単にわかる。
2016-07-08 14:41:31#Hortonworks 河村: データフローというのは一回作っておしまいじゃないんだよ。どういう条件の時は、こっちのフローに流しましょうと、ライブで簡単に描くことができる。
2016-07-08 14:42:48#Hortonworks 河村: HDFはセキュリティにも考慮して開発されている。NiFiみたいなツールに誰もがアクセスしてデータをみられたら心配だよね。なので、HDFでは監査機能もあり、どのユーザーがどのデータにアクセスしたかがわかります
2016-07-08 14:43:54#Hortonworks 河村: 最高のデータサイエンティスト、強力なプラットフォーがあっても、分析には適切なデータが必要、データ収集が最初で最大のポイントになります。この問題を解消するのがHortonworks DataFlowです。
2016-07-08 14:45:05#Hortonworks 河村: Githubからソースコードの改変ステータスを加工してを可視化したりできます。 pic.twitter.com/dVINYynjEP
2016-07-08 14:51:10