2020年10月28日、株式会社ジールにて、『【ウェブセミナー】TableauとSnowflakeでデータ活用の常識を変える~1億5000万件の販売実績データから軽快に動くダッシュボードを作成~』が開催されました。
●TableauとはどのようなBIツールなのか
●Snowflakeとはどのようなデータウェアハウス(DWH)サービスなのか
大好評だった本セミナーの内容を、それぞれのツールができることをわかりやすく記事で解説いたします。
はじめに:Tableauとは・Snowflakeとは?
データを自由に分析し活用するためには、ユーザーが利用しやすい分析ツールが必要です。しかし、それだけではデータを分析することはできません。データ自体をいろいろな制約から取り払った場所に用意しておくことが必要となります。本セミナーでは、その制約を取り払う製品として、「Tableau(タブロー)」と「Snowflake(スノーフレーク)」をご紹介します。「Tableau(タブロー)」は、データを誰もが簡単にあらゆるデータを分析できるBIツール、「Snowflake」(スノーフレーク)はクラウドベースのデータウェアハウス(DWH)サービスです。そしてお客様に導入実績のあるジールからこの組み合わせのメリットについてご紹介します。
目次
第一部 今までのデータ活用の課題とこれからのデータ活用シーンを実演
<講師> 株式会社ジール ビジネスディベロップメント部 亀井 美佳 氏|岡本 真一 氏
これまでのデータ活用と課題
お客様にデータ活用の課題についてアンケートを実施したところ、「データが分散しているためデータ統合をどのように進めたらよいかわからない」、「データ活用を始めたいが、どのように進めたらよいか分からない」という回答が多くありました。
また、データの分析・活用について相談できる人がいなかったり、複数のデータで異なる結果が出てきて解釈が難しいということもよく聞きます。
このような課題を解決するものは、Tableau(タブロー)とSnowflake(スノーフレーク)の組み合わせであると考えています。
Tableauは、直感的な操作で非常に強力な分析が誰にでも簡単に出来るビジュアル分析プラットフォームです。製品の使い方で困ったり、相談できる相手がいないといったような時にもコミュニティが充実しているので、仲間を見つけて気軽に相談できることもTableauの強みの一つです。
Snowflakeは、次世代のフルマネージド型のクラウドネイティブ・データウェアハウスです。
複数のクラウドサービスに対応しており、ストレージとコンピュータリソースが分離しているところが特長です。従来型のデータウェアハウスの場合、処理が集中すると全体的なパフォーマンスが落ちてしまいますが、Snowflakeは、処理が集中する時に必要なリソースを動的に割り当てることができるので、パフォーマンスを気にすることなく利用できます。
Snowflake のデータウェアのサイズの割り当て画面
用途に応じたサーバーサイズの変更や、処理の多重度によって使用するクラスタ数を自動的に増減するオートスケールができるので、下図の赤い線で表されているように、あらかじめリソースを常時起動する従来型の運用をやめて、コストを最適化した環境で常にフレッシュなデータを使った分析とデータの活用を実現できます。
Snowflakeにデータを集めれば、パフォーマンスよくアクセスできるので、冒頭で話していたデータ活用の課題にあった「分散したデータを探す」といったような必要もなく、パフォーマンス改善のための物理的なマート作成も不要になります。そしてTableauは、簡単な操作で分析したり見える化ができ、ダッシュボードの共有ができますので、知りたい答えをすぐに見つけることができます。Tableau、Snowflakeのどちらも最初から高額なライセンス料が発生するわけではなく、スモールスタートすることが出来ますので、どこから始めたらいいのかわからないという悩みをお持ちの方も、この2つのソリューションで小さく始めてみてはいかがでしょうか?
Snowflakeの無償トライアルは、こちらに用意してあります。今なら30日間無料でお試しできます。
以下のリンク先フォームからお申し込みください。
第二部 BIツール(Tableau)/AIツール(Einstein Analytics)の組み合わせで実現する、真のデータ活用とは
<講師> Tableau Software, LLC Partner Account Manager 黒井 慶 氏
10月7日から3日間、開催しましたTableau Conferenceで、「Einstein Analytics」(アインシュタイン・アナリティクス)は、Tableau CRMとしてリブランドされることが発表されました。この内容のご紹介とTableauとSnowflakeを組み合わせることによって得られる新しい示唆、これはどういったものなのかということを紹介していきます。
1.なぜ、組織横断型のデータ活用が難しいのか?
経済産業省の2025年の崖という有名なレポートがありますが、これには、どうしてデータ活用が進まないかということが書いてあります。それは、既存システムが事業部門ごとに構築され、全社横断的なデータ活用ができないからです。
また、データ活用は、データを可視化しただけではうまくいきません。よりまして、Tableauでは、データを活用するプロセスを、こう変えていけばどうですか?という提案をしています。
従来型のデータ活用プロセスは、資料作成のために基幹システムなどからデータを抽出しますが、抽出時点からデータの鮮度が落ちていきます。このため、変更・改変をしたいときにすぐに修正することができず、最新の正しい情報で意思決定することが難しくなります。
Tableauでは、基幹システムなどのデータソースに直接つなげることによって、データを見てアクションへつなげるサイクルがとても早くなります。下記の図のようにデータ活用のプロセスを変えることで組織の壁を越えられるのではと考えています。
2.業務システムからインサイトを得る方法
昨年、Tableauはセールスフォース傘下に入りました。セールスフォースでは、「Customer360」というビジョンを持っています。これは、お客様のデジタルトランスフォーメーションをサポートする仕組みです。さまざまなテクノロジーでお客様の課題を網羅して、一元的にお客様を見て、最適な提案をするというビジョンです。
下記の図は、代表的な社内システムを5つあげています。左から説明すると、会計システム、予実管理システム、生産管理システム、問い合わせ情報を管理するシステム、営業活動情報などを管理する顧客管理システムです。
通常、それぞれの社内システムにデータを可視化する仕組みがあります。これを使うと各システムに閉じたデータを把握することはできますが、他のシステムのデータと掛け合わせることはできません。このため、CSVファイルにエクスポートし、それらを表計算ソフトで集計したりTableauで可視化したりしたものを、経営者が参照します。
ところが、前述と同じ理由でエクスポートしたファイルは鮮度が落ちている、一部の部門(図ではSales Cloudが該当)だけでリアルタイム情報が得られたとしても、経営者が見る「掛け合わせデータ」は最新のものではありません。
これを解決する方法として、Snowflakeにデータを集約し、それをTableauで分析することをお勧めします。
例えば、会計システムで売掛金が増加し、回収できていないことが分かったとすると、何が問題なのかを調べなくてはなりません。
営業活動を管理しているSalesCloudを見てみますと、複数のお客様から支払いが滞っていることがわかります。さらに調べるために、問い合わせ情報を管理しているServiceCloudを見てみます。確認したところ特定の製品に問題があり、検収がされていないケースがあることがわかりました。品質に問題があるということなので、生産管理システムを確認してみます。そうすると今度は、品質問題を起こしたある部品、ロットを特定することができました。次に確認すべきは、予実管理システムです。計画値に対するプレッシャーから品質に問題がでてしまったのではないかという仮説が成り立ちます。
このようにTableauとSnowflakeで、各業務システムをつなげることによって、さまざまなデータを横ぐしにしてインサイトを得ることができます。
3.Tableau(タブロー) + Snowflake(スノーフレーク)で作る、データバリューチェーン
下記の図が、Tableau(タブロー)の新しいラインナップです。
「Einstein Analytics」(アインシュタイン・アナリティクス)は、Tableau CRMになります。
以前から利用されている方もいるかと思いますが、ブランドが変わるだけで、機能や価格も変わりませんので安心して利用いただけます。
また、Tableauのそれぞれの製品を説明します。
Tableau Prep Builder :様々なデータソースに接続し、データのクレンジング(加工、整形)を行う。
Tableau Desktop:データに接続し、ビジュアル分析を通してインサイトを得る。
Tableau Server / Online:得られたインサイトをチームで共有、上司に報告、他部門に発信する。
Tableau Catalog:Tableau管理下のデータ資産をカタログ化。検索や管理、来歴管理が容易になる。
Tableau Prep Conductor:Tableau Prep Builderの手続き(フロー)を自動化。
「Einstein Analytics」(アインシュタイン・アナリティクス)とTableauは、別製品ですが、これから統合していく方針です。まず、AI/MLとデータのレイヤーから統合・連携していきます。
最終的にすべてのレイヤーで統合していくロードマップが発表されました。
では、AI/MLとデータのレイヤーの統合の具体的なイメージとして、下記の3つの機能を挙げます。
-
ダッシュボード拡張機能 (Dashboard Extensions):ダッシュボードからリアルタイム予測結果にアクセス
-
分析計算:リアルタイム予測をVizに埋め込み
-
Tableau Prep:予測数値をデータセットに追加
それぞれ説明していきます。
ダッシュボード拡張機能 (Dashboard Extensions):ダッシュボードからリアルタイム予測結果にアクセス
下図の左側がTableauダッシュボード、右側がアインシュタインになっています。
右側に31%と書いてありますが、これは、出荷が遅れる可能性を示しており、その下に出荷の遅れる原因は何か?出荷を早める要因は何か?ということが記載されています。このように様々な予測データをアインシュタインが分析した結果を表示していますので、素早く次の手を打つことができます。
分析計算(Analytics Calc):リアルタイム予測をVizに埋め込み
下図の右下に散布図がありますが、Tableauのワークシートから計算式でTableau CRMを表示させています。現在、PythonとかRなど外部関数をCallする仕組みがありますが、同じ仕組みを実装しています。
Tableau Prep:予測数値をデータセットに追加
Tableau Prep のフローに、予測モデルにデータを渡し、結果をもらう機能が追加されます。あらかじめ作っておいた予測モデルを選択できますので、予測モデルの詳細を知らなくても予測モデルの結果を組み込んだデータを準備することができます。
予測ができれば、変化への対応も楽になります。では、次にどうやって作っていけばよいのかということを紹介します。
SnowflakeにDesktopやPrepをつなげて、データを綺麗にします。そしてTableau CRMに渡し、予測データを作ります。予測データ付きのデータをTableau Online にアップロードすると、ここに過去のデータと未来のデータのデータセットができます。それを、アナリストの方々が、Tableau Desktopで分析するもよし、現場の方々がTableau Onlineに接続してみるのもよし、場合によってはSalesforce をお客様のポータルに埋め込んで、ポータルのユーザーが間接的にそのオンラインのデータを見るというシナリオです。その裏にあるデータセットの実態は、SAPやAnaplanなどのデータを収集したSnowflakeです。これをすることによって、さまざまな業務で使っているデータを横ぐしで見ることできます。
Tableau Creator とTableau CRMとSnowflakeがあれば誰でも着手出来ますので、ぜひお試しください。
第三部 データ待ち時間を0へ〜分析のフローを止めない基盤「Data Cloud」
<講師> Snowflake株式会社 シニアセールスエンジニア KT 氏
第三部はSnowflakeのセッションです。Snowflakeはどんなことができる製品で、何を目指してこの市場に登場したのかを紹介していきます。
前のセッションでTableauの紹介もあったのと、私も2020年5月まではTableauの社員だったこともあり、Snowflakeの話をする前に、Tableauが提唱している「人がどうやってデータを理解するか」のステップを図解した【ビジュアル分析のサイクル】の図を紹介します。人がデータを活用する時の姿をシンプルに表した図になっています。
データを使って売上や利益を向上したい、コスト削減したい、などいろいろなタスクがあります。そのタスクを解決するために、どんなデータを取得するか、どんなグラフで表現するかを考え、最終的には誰かに共有して、アクションを促していきます。これらの動作にいちいち時間がかかって遅いようではいけません。待っている時間は私たちの思考のフローを途切れさせてしまうのです。ですから、この1つ1つのステップをいかに待たずに素早く行えるかが非常に大切なのです。
ある日突然激変した世界の中で、ある事に気付く
新型コロナウイルス感染拡大の影響で、日本では2020年4月は緊急事態宣言が発出され、たくさんの人が家に留まることを余儀なくされました。世界ではロックダウンの施策がとられ、世界中の人の外出は大きく制限されました。しかし家にこもっていたら、外の様子は分からず、感染が拡大している実感は湧きません。ではどうしたらよいのか? その答えを得るため、私たちは目に見えないものをデータを使って解き明かそうとしました。Tableau Publicには、コロナウイルスに関連するレポートを有志の人たちがたくさんアップしています。世界中の人がこの状況をなんとかできないか、私たちの力で何とかできないか、ということで、こういった努力をいろんな方がされていました。しかし、一方でこれらの分かりやすいビジュアリゼーションの裏側は、表には見えない地道で根気のいる努力がありました。
コロナウイルスの感染者情報は、データの集計方法が突然変わったりするので、毎日のように手を加えながら、集計をしていました。保健所の方は、本来的には、感染者の情報をデータ化することが仕事ではありません。もしデータが自動的に記録されていたら、どんなに違ったことになっていたことでしょう。しかし残念ながら、かなりの分量が手作業で集計、送信されていました。その結果、本来の検査という仕事を圧迫していたことでしょう。データを集める行為自体が本来やるべき仕事の邪魔をしてしまうことになったのです。
従って、私たちの世界でデータを使っていろんなことを知ることができる状況だったかというと、まだデータ=世界には程遠いものでした。Tableau的に言うとGetするDataがなかったわけです。データを持ってきたり、取りに行くのは非常に簡単にできます。しかし、取ろうと思うそのデータが、そもそも存在していない、という大きな課題に気づきました。
Our Mission:Enable every organization to be data-driven すべての組織をデータドリブンへ
私たちは存在しているだけで、生きている限り日常的にデータを生成しています。
Webサイトを閲覧する、システムにログインする、FacebookなどのSNSに書き込み「いいね」を押す、アンケートを送信する、などデータを生成していることを意識しないままに動作しています。とにかく生きていると、様々なデータを生成しています。そのデータが、どのように使われているのかを、意識していないケースが多く見受けられます。生まれたことにすら気付かれないデータは、気付かない内にデータについて熟知したごくわずかな企業にいつの間にか保管され、自分のものであったことすら忘れ去られ、勝手に利用され始めていくのです。自分たちが生成したデータは、自分のものであるという意識を持っていなければなりません。今、世界は大きな分岐路に立たされています。自分のデータを自分で管理し、活用して、データの持ち主の意志と尊厳を尊重しながら、倫理的にビジネスバリューを上げていくことのできる組織や個人により、世界的にデータドリブンが進んでいくのか、あるいはごく限られたデータを扱うことに長けた組織にデータを搾取され、それ以外の組織に所属する人たちは自分ではデータ活用ができず、限られた人たちのみがデータの恩恵を受ける格差社会に突入していくのかという、大きな分岐点です。
データを使った様々な可能性は、すべての組織のためにあるのではないでしょうか。ごく一部の人のためのデータではなく、すべての人がデータを使えるような場所を作りたい。今そうなっていないのは、データ活用が難しすぎるからです。ですから私たちはすべての組織をデータドリブンにするために、どんな人でも簡単にデータを扱うことができるようSnowflakeを作りました。
すべての組織を支えるデータクラウド
私たちはすべての組織が使えるデータクラウドを提供しています。これはデータが綺麗であろうが、整備されていなかろうが、量が多かろうが、使う人が何人いようが、どんなシチュエーションにおいてもカバーできる場所のことです。そのデータクラウドに、皆さんのデータを一箇所に集めることができ、メンテナンスを極限まで削減することができれば、データの管理は格段に容易になります。データの管理に頭を悩ますことがなくなった人たち同士が一緒にコラボレーションできるような世界を目指しています。
そもそも、なぜデータは使いたいときに使えないのか?それには、次の3つの課題があります。
大きな3つの課題
1.データの出自
データの生まれる場所が異なれば、形や量も異なり、素早く処理する能力と工夫が必要になる。
2.サイロ化
データはそもそも生成される場所が異なるためサイロ化しやすい。また一度データ統合した後もパフォーマンスを理由にデータマート化されたりして再度サイロ化が進むケースもある。
3.共有のハードル
データを他の組織に共有する場合、データを複製して送信する必要がある。一度保護したはずのデータを再度別の場所に送信する場合、データの置き場所や通信方法についてのセキュリティーの設定を再度検討しなければならない。重たいデータの送信や、更新頻度の高いデータ連携には莫大なコストがかかる。
各所に散らばったデータを柔軟に処理するには、莫大なハードウェアリソースがあればいいと考えられてきました。ですから、上記の課題については、巨大なリソースであっても即座に使うことができるクラウドが解決してくれると考えられていました。しかしそれはうまくいきませんでした。なぜなら、既存のクラウドは次の2通りしかなかったからです。
・アプリケーションクラウド
例えば、セールスフォースなどになります。
・インフラストラクチャークラウド
例えば、AWSやAzureなどになります。
結局、現状のクラウドの環境だけでは、データを見ることが難しい状態です。データを閲覧するためにはアプリケーションから生成したデータを統合し、計算させる複雑なステップがあります。処理する場所をただクラウド環境に持っていただけではクラウドのリソースを効率よく使えないというのが、私たちの問題提起でした。私たちは、この難解さをなるべく簡単にシンプルにしていきたいと考えています。データがどこにあっても、誰でも使えるようにするために、アプリケーションクラウドとインフラストラクチャークラウドの間にデータクラウドとしてクッションのように存在している状態を目指しています。そのためには、データを格納する場所が、どこであっても連携できるよう、マルチクラウドであり、マルチリージョンであることが非常に重要だと考えています。
データクラウドを支えるアーキテクチャー
ストレージは一箇所に統合され、それに対してコンピューターリソースを個別に付けていくことができる形となっています。格納しているデータに対してアクセスするコンピュータリソースは、何個でも作ることができます。それでも一箇所に統合されたデータにたくさんのコンピューターリソースが同時にどれだけアクセスしても全く競合しないというのがSnowflakeのアーキテクチャーです。
データの量が、最初は少ししかなく、途中でどんどん増えていったときにも対応できます。ウェアハウスのサイズを上げていくと、処理時間はどんどん短くなります。コストは、稼働した時間×性能です。例えば、XSサイズで16分かかる処理をXLサイズで1分で処理できたならば金額は同じです。同じ金額で16分の1のスピードを出せるのならば、早い方を選択するべきでしょう。
普段は、セキュリティーで守られているが、データの一部分だけ外に公開したい、このデータはある人にだけ貸してあげたい、ということもできるのが Snowflake です。自分のデータを1カ所に保存して、どこにもコピーしないままに、別のユーザーがその人が所持しているウェアハウスを使って、みなさんのデータにアクセスすることができる。これがデータシェアリング機能になっています。この機能を活用してデータプロバイダーが自分たちのデータをまるでマーケットに並べて出店しているかのようなデータマーケットプレイスもあります。新型コロナウイルスに関するリアルタイムの情報などは、データマーケットプレイス上で無償公開され、世界中の調査機関や医療、製薬業、政府などに活用されています。ウェアハウスがいくつアクセスしてきても良いからこそ実現できる画期的なデータ共有の方法です。
このような機能やビジョンが評価され、現在3000を超えるお客様のデータ基盤としてSnowflakeを使っていただいています。
皆様が自分の意思で、個々人が最もクリエイティブな発想のできる環境を用意し、すべての組織がデータドリブンな世界になる、そういう道を皆様と一緒に歩んでいきたいと考えています。
まとめ:TableauとSnowflakeでデータドリブンな世界を実現しましょう
本記事ではTableauとは何か、Tableauでできることは何かということ、そしてSnowflakeとは何か、Snowflakeでできることは何かという基本的なことを様々な事例をもとに解説してきました。
セルフサービスBIという言葉をよく聞く機会がありますが、そのセルフサービスBIを牽引してきた製品は、Tableau(タブロー)ではないでしょうか。
また、データを用意しておく場所として最適なものとしては、クラウド型でベンダーの垣根を超えるSnowflake(スノーフレーク)ではないでしょうか。
データを自由に活用するために必要な製品としては、最適な組み合わせです。両製品を組み合わせてデータドリブンな経営をスモールスタートさせましょう。
気になった方は、こちらまでご連絡ください。