明日からデータ分析をしなきゃいけない人のためのAWSセミナー
- 日時 2013年12月12日(14:00~18:00)
- 開催場所 AWS目黒オフィス
- 参加人数 120名
まとめ
- Redshiftの最大顧客はAmazon。自社の理念に基づき、顧客に最大の利益をもたらすDWHシステムを独自の指標で検証しAWSのRedshiftを選択した。
- Redshift x tableauで業務革命。やりたい分析に注力でき、本来の目的に時間を割くことが出来るようになった。
- Data Pipelineを使えば、EC2等を立ててのジョブが必要なくなる。フルマネージドなので管理いらず。簡易ETLにも使える。
クラウド型データウェアハウスAmazon Redshift
アマゾンデータサービスジャパン SA 八木橋鉄平氏
Amazon Redshiftの概要とアーキテクチャ
- データウェアハウスで何を分析していますか?
-
ROIに満足されていますか?
-
データウェアハウス導入時の壁
- 膨大な初期投資
- データ増加量の予測が難しい
- Redshiftだとペタバイト級のDWHサービスを1/10の料金で!
- 何故マネージド・データベースなのか?
- AWS側で自動化
- お客様は自分のビジネスに注力
- DWHにはカラムナ型のデータベースが多く用いられる
- スケーラビリティ(数クリックで拡張可能)
- オンプレとの連携
ユーザ事例のご紹介
- DAT306 Amazonの事例
- ユースケース
- 典型的なEnterprise DWH
- BigDataへの活用
- SaaS企業
- Amazonのデータウェアハウス
- Amazonの正式なデータレポジトリ
- ペタバイト超のデータ
- 既存のEDHはOracle RACからEMR+Redshift
- Introduction the Elephant
- 顧客にベストな価値を与えられるか?
- ベストプラクティスか?
- 成長の歴史
- ペタバイトのデータ
- ストレージ67%(YoY)
- プロセッシング47%(YoY)
- 長期的にDWHの維持
- 急激な変化への対応
- Amazon DWH - CPJ(Cost per Job)
- AmazonのDWHを検討する指標
- 現状の課題
- 10TB以上のデータスキャン時の性能問題
- 調達サイクル3M
DAT306 Slide
他のAWSサービスとの連携
AWS Data Pipeline
- データ駆動型ワークフローの定義と自動化
- Input - Activity - Output(Activityでシェルを叩いたり処理を決めることができる)
- US Eastにあるが、リソースとして全てのリージョンを指定可能
- 簡易ETLと言ってもよい。ETL
Amazon Kinesis
- フルマネージドされたリアルタイム処理(データはS3のように堅牢性の高い保持をされる)
- 高速なビッグデータ
- ビッグデータのソリューション
- ビッグデータの一般的な解析処理
- クエリーエンジン
- バッチエンジン
- ビッグデータへのストリーム処理
- Kinesisはリアルタイム処理
- ビッグデータの一般的な解析処理
- Twitterのリアルタイム文字列カウント処理実演
まとめ
- 初期投資を大幅に抑制できる
- 継続的なデータ増加にも対応
Redshift x TableauによるRLS流業務改革
リクルートライフスタイル 春日重俊氏
http://www.recruit-lifestyle.co.jp/
RLSにおけるビッグデータへの取り組み
- (データサイエンティスト+アーキテクト)×マーケターの三位一体
- ビッグデータ活用
- 統計解析(データサイエンティスト)Netezza
- BI(マーケター)Redshift
- モニタリング
- メルマガ最適化によりアクション数アップ(同一コンテンツ配信からパーソナライズ配信)
RLSのデータ基盤環境について
- データ基盤遷移
- 2010 Oracle
- 2011からHadoop
- 2012からNetzza
- 2013 Redshiftへ
- データ収集基盤(Hadoop,Netezza,Redshift)、BI基盤(tableau)、計算基盤(SPSS,R,GraphLab)、管理基盤(ETL,ZABBIX等)
RedShift利用事例
- 利用背景
- Netezza導入後、その利便性からユーザが殺到し統計解析用途にリソースが割けなくなった
- Redshift or Netezza積み増し
- Why Redshift?
- リソース増強の容易性
- BI製品との親和性
- Why tableau?(要件変更の柔軟性、豊富なビジュアル)
- Before ローカル集計でマーケターが手でやっていて疲弊した
- After 思考する方にシフト出来た。
まとめ
- Redshift x tableauで業務革命
- Hadoop,Redshiftは共存可能
Amazon Redshift、EMRのデータを「見える化」するTableauのご紹介
Tableau Japan 並木正之氏
半分くらいtableauの顧客っぽい
http://www.tableausoftware.com/ja-jp
Help people see and understand their data
- 1997年スタンフォード大学
tableau desktopでデモ
- 元データはExcelでもCSVでもなんでもよい
- データ分析からプレゼン資料作成まで
- google analitics
データ分析は簡単に出来るだよ!
AWS & Tableauで明日から始めるデータ解析
クラスメソッド 横田社長、阿部慎也氏
AWSとtableauの両方のパートナー
AWS専門チーム16名
クラウドはAWSのみ。(追いつけないから)
データ分析環境のこれまでとこれから
- S3 - EMR - S3 - Redshift -Tableau
- CloudTrail SNS S3 - SQS - S3 - Redshift - Tableau
- Data Pipeline(S3 - S3 - EMR - S3 -Redshift) - Tableau
- Data Pipeline(すまほ - DynamoDB - EMR - S3 - Redshift)
- (csv - DataSpider talend[ETL] - csv) - (S3 - Redshift) - Tableau
- Log - fluentd - S3 - EMR - S3 Redshift - Tableau
監査ログの設定と出力(CloudTrail)ここからデモ
- CloudTrail SNS S3 - SQS - S3 - Redshift - Tableau
明日から実際にデータ分析しないとならない人はほとんど参加していない……
ログの整形処理(EMR)
データウェアハウス管理(Redshift)
データ紹介・分析(Tableau Desktop)
まとめ
- 何を分析したいのか?
- 目的達成のための選択肢組み合わせは多種多彩
- 分析のためには様々な武器が必要
- ETL
- ログ周り(fluentd)
- 分析手法や分析ツール
- ビジネス知識
- 連携自動化
- テクノロジー
- AWSで様々な技術的課題をほぼ全て解決できます。