明日からデータ分析をしなきゃいけない人のためのAWSセミナー行ってきた


明日からデータ分析をしなきゃいけない人のためのAWSセミナー


undefined

  • 日時 2013年12月12日(14:00~18:00)
  • 開催場所 AWS目黒オフィス
  • 参加人数 120名

まとめ

  • Redshiftの最大顧客はAmazon。自社の理念に基づき、顧客に最大の利益をもたらすDWHシステムを独自の指標で検証しAWSのRedshiftを選択した。
  • Redshift x tableauで業務革命。やりたい分析に注力でき、本来の目的に時間を割くことが出来るようになった。
  • Data Pipelineを使えば、EC2等を立ててのジョブが必要なくなる。フルマネージドなので管理いらず。簡易ETLにも使える。

クラウド型データウェアハウスAmazon Redshift

アマゾンデータサービスジャパン SA 八木橋鉄平氏

Amazon Redshiftの概要とアーキテクチャ

  • データウェアハウスで何を分析していますか?
  • ROIに満足されていますか?

  • データウェアハウス導入時の壁

    • 膨大な初期投資
    • データ増加量の予測が難しい
  • Redshiftだとペタバイト級のDWHサービスを1/10の料金で!
  • 何故マネージド・データベースなのか?
    • AWS側で自動化
    • お客様は自分のビジネスに注力
  • DWHにはカラムナ型のデータベースが多く用いられる
    • スケーラビリティ(数クリックで拡張可能)
  • オンプレとの連携

ユーザ事例のご紹介

  • DAT306 Amazonの事例
  • ユースケース
    • 典型的なEnterprise DWH
    • BigDataへの活用
    • SaaS企業
  • Amazonのデータウェアハウス
    • Amazonの正式なデータレポジトリ
    • ペタバイト超のデータ
    • 既存のEDHはOracle RACからEMR+Redshift
  • Introduction the Elephant
    • 顧客にベストな価値を与えられるか?
    • ベストプラクティスか?
  • 成長の歴史
    • ペタバイトのデータ
    • ストレージ67%(YoY)
    • プロセッシング47%(YoY)
  • 長期的にDWHの維持
  • 急激な変化への対応
  • Amazon DWH - CPJ(Cost per Job)
    • AmazonのDWHを検討する指標
  • 現状の課題
    • 10TB以上のデータスキャン時の性能問題
    • 調達サイクル3M
      DAT306 Slide

他のAWSサービスとの連携

AWS Data Pipeline

  • データ駆動型ワークフローの定義と自動化
  • Input - Activity - Output(Activityでシェルを叩いたり処理を決めることができる)
  • US Eastにあるが、リソースとして全てのリージョンを指定可能
  • 簡易ETLと言ってもよい。ETL

Amazon Kinesis

  • フルマネージドされたリアルタイム処理(データはS3のように堅牢性の高い保持をされる)
  • 高速なビッグデータ
  • ビッグデータのソリューション
    • ビッグデータの一般的な解析処理
      • クエリーエンジン
      • バッチエンジン
    • ビッグデータへのストリーム処理
    • Kinesisはリアルタイム処理
  • Twitterのリアルタイム文字列カウント処理実演

まとめ

  • 初期投資を大幅に抑制できる
  • 継続的なデータ増加にも対応

Redshift x TableauによるRLS流業務改革

リクルートライフスタイル 春日重俊氏
http://www.recruit-lifestyle.co.jp/

RLSにおけるビッグデータへの取り組み

  • (データサイエンティスト+アーキテクト)×マーケターの三位一体
  • ビッグデータ活用
    • 統計解析(データサイエンティスト)Netezza
    • BI(マーケター)Redshift
    • モニタリング
  • メルマガ最適化によりアクション数アップ(同一コンテンツ配信からパーソナライズ配信)

RLSのデータ基盤環境について

  • データ基盤遷移
    • 2010 Oracle
    • 2011からHadoop
    • 2012からNetzza
    • 2013 Redshiftへ
  • データ収集基盤(Hadoop,Netezza,Redshift)、BI基盤(tableau)、計算基盤(SPSS,R,GraphLab)、管理基盤(ETL,ZABBIX等)

RedShift利用事例

  • 利用背景
    • Netezza導入後、その利便性からユーザが殺到し統計解析用途にリソースが割けなくなった
  • Redshift or Netezza積み増し
  • Why Redshift?
    • リソース増強の容易性
    • BI製品との親和性
  • Why tableau?(要件変更の柔軟性、豊富なビジュアル)
    • Before ローカル集計でマーケターが手でやっていて疲弊した
    • After 思考する方にシフト出来た。

まとめ

  • Redshift x tableauで業務革命
  • Hadoop,Redshiftは共存可能

Amazon Redshift、EMRのデータを「見える化」するTableauのご紹介

Tableau Japan 並木正之氏
半分くらいtableauの顧客っぽい
http://www.tableausoftware.com/ja-jp

Help people see and understand their data

  • 1997年スタンフォード大学

tableau desktopでデモ

  • 元データはExcelでもCSVでもなんでもよい
  • データ分析からプレゼン資料作成まで
  • google analitics

データ分析は簡単に出来るだよ!


AWS & Tableauで明日から始めるデータ解析

クラスメソッド 横田社長、阿部慎也氏
AWSとtableauの両方のパートナー
AWS専門チーム16名
クラウドはAWSのみ。(追いつけないから)

データ分析環境のこれまでとこれから

  • S3 - EMR - S3 - Redshift -Tableau
  • CloudTrail SNS S3 - SQS - S3 - Redshift - Tableau
  • Data Pipeline(S3 - S3 - EMR - S3 -Redshift) - Tableau
  • Data Pipeline(すまほ - DynamoDB - EMR - S3 - Redshift)
  • (csv - DataSpider talend[ETL] - csv) - (S3 - Redshift) - Tableau
  • Log - fluentd - S3 - EMR - S3 Redshift - Tableau

監査ログの設定と出力(CloudTrail)ここからデモ

  • CloudTrail SNS S3 - SQS - S3 - Redshift - Tableau
    明日から実際にデータ分析しないとならない人はほとんど参加していない……

ログの整形処理(EMR)

データウェアハウス管理(Redshift)

データ紹介・分析(Tableau Desktop)

まとめ

  • 何を分析したいのか?
  • 目的達成のための選択肢組み合わせは多種多彩
  • 分析のためには様々な武器が必要
    • ETL
    • ログ周り(fluentd)
    • 分析手法や分析ツール
    • ビジネス知識
    • 連携自動化
  • テクノロジー
    • AWSで様々な技術的課題をほぼ全て解決できます。