昨今、企業が扱うデータ量が膨大となったため、EXCELやCSVのデータを使ったレポート作成では時間と手間が大幅にかかるようになりました。
また、報告レポートの為に関数の多用により運用も属人化している状況で、課題を抱えている企業様も少なくないのでは無いでしょうか?
このような膨大なデータを「Snowflake」というデータウェアハウスを採用する事で、これらの問題を解決する事が可能です。
本記事から続く全3回のシリーズでは、SnowflakeとTableauによるExcelデータからの分析レポート作成のデモンストレーションを実施します。
第1回の本記事では、上記のような課題を解決に導くデータウェアハウスであるSnowflake(スノーフレイク)についてわかりやすく解説します。
第2回ではTableauについて解説し、第3回では実際に手持ちのExcelを、SnowflakeとTableauとで優れた分析レポートにするデモンストレーションをご紹介します。
本記事は2023年5月24日に弊社で開催したオンラインセミナー『手持ちのCSV/Excelとデータウェアハウスを組み合わせたデータ分析との共有による一歩先のデータ活用~Tableau PrepとSnowflakeを使ってデータ活用のノウハウを教えます~』の内容です。https://www.zdh.co.jp/event/20230524/
※第2回のレポート記事は以下よりご覧いただけます。
SnowflakeとTableauによる分析レポート作成のデモンストレーション(2)Tableauとは
目次
1.Snowflake社とは
Snowflake(スノーフレイク)とは、企業名であり、同社が提供するサービス名でもあります。以下の文章では、企業名のSnowflakeを「Snowflake社」、サービス名のSnowflakeを単に「Snowflake」と記述します。まずはSnowflake社について解説します。
Snowflake社の歩み
2012年、Snowflake社はアメリカ合衆国のカリフォルニア州に設立されました。投資家から資金を調達し、企業名と同じ名のSnowflakeというサービスを開発し、2015年に一般提供が開始されました。
日本には2019年に参入し、2020年にはAWS東京、2021年にはAzure(アジュール)東京、2022年にはAWS大阪にてサービスを開始しました。
※AWSとは、アマゾン提供のクラウドコンピューティングサービスであり、AWS東京/大阪とはデータセンタが集積されている物理ロケーションです。同様にAzureとは、Microsoft社が提供するクラウドコンピューティングサービスです。
Snowflake社は、設立からわずか9年の2021年には、全世界で3,000人以上の従業員と、約5,000社の顧客を持つ企業に成長しました。2023年現在は、約7,200社の顧客を持つ大企業となっております。
Snowflake社の日本顧客
Snowflake社の日本顧客はこちらの企業ですが、これらはほんの一部です。このうち、弊社ジールがサポートさせていただいている企業は、スシローを経営するFOOD&LIFE COMPANIES様、IDPOSのサービスを行うJBtoBなどです。
Snowflake社のテクノロジーパートナーエコシステム
Snowflake社は様々なベンダーとパートナーを結び、開発をしています。
ビジネスインテリジェンス(BI)の領域では、Tableau、Power BI、ThoughtSpot、日本企業ではウイングアーク1stなど、様々なツールベンダーと連携しています。企業の意思決定に係わるデータインテグレーション、ETLや、企業内の異なるシステム間でデータを共有するEAIの領域では、Informatica、FiveTran、Tableau、dbt、denodoといった企業と連携しています。コンピューターに学習させて解析するマシンラーニング、データから有益な知見を得るデータサイエンスの領域では、SAS、DataRobot、Dataiku等々と連携し、リスクを最小限に抑えるセキュリティガバナンス領域でも、様々なツールベンダーと連携して開発を進めています。
この連携をSnowflake社では、テクノロジーパートナーエコシステムと呼んでいます。
以上より、Snowflake社は創業からわずか十数年で世界のデータの結集を支援するグローバルフォースとなったことが分かります。
2.オンプレミスとは・クラウドデータプラットフォームとは
続いてSnowflake社が提供するサービスであるSnowflakeの解説に移るのですが、まずは背景知識としてオンプレミスとは何か・オンプレミスの課題・クラウドデータプラットフォームサービスとは何かを解説します。
オンプレミスとは
1990年頃、世間では自社システムを使ったデータウェアハウス(DWH:Data Ware House)が導入され始めました。自社施設内にサーバーや通信回線等の環境を備えてシステム構築・運用を行うものであり、のちにオンプレミス型と呼ばれます。プレミス(premises)が英語で「建物」ですので、on the premisesで「建物内で」という意味です。
2000年代後半にクラウドコンピューティングが浸透し、クラウドでの運用も可能となりました。そのため、クラウドでの運用と区別して、「自社施設内にサーバー等を備えての運用」のことを「オンプレミス」と呼ぶようになりました。つまり「オンプレミス」は、「クラウド」の対義語です。
オンプレミスの課題
企業のデータ分析において、オンプレミス型で生じる様々な問題について解説します。まずは企業のデータ分析の流れを紹介します。
企業が持つ膨大なデータの一例が図の左側です。例えば、データソース、多数のトランザクションを同時に実行するOLTP業務系のデータベース、他社のシステムを提供するサードパーティのデータ、データ通信などの履歴記録、Webログのデータです。
これらの膨大なデータは、複数のシステム間で連携・活用できるよう、抽出・変換・書き出し(Extract・Transform・Load)などが必要です。これらを頭文字を取ってETL処理と呼びます。
ETL処理したデータは、データレイクやデータウェアハウスとよばれるデータベースに貯められます。そして、分析したい目的に合わせデータマートが作られ、最後にBIツールなどでデータ分析が行われます。以上が、データ分析の流れです。
※データレイクは情報の湖、データウェアハウスは情報の倉庫と称されます。データレイクはデータ形式や規模を問わずあらゆる情報を格納します。膨大なデータの収集と蓄積に長けている一方、集約されたデータを分析するためには、整理されていない膨大な情報を構造化しなくてはなりません。対して、データウェアハウスは情報に加工や変換を施して構造化し、データを分析しやすい状態で保管します。
※データマートとは、企業に蓄積された膨大なデータの中から、目的に応じて一部を取り出したデータベースです。例えば顧客へのメール送信を目的として「会員番号」と「メールアドレス」だけを取り出して構築されたデータベース等です。
図の水色の四角の中に書かれているのは、このような流れの中でオンプレミスを利用するが故の課題・問題です。
例えばETL処理のところですが、データが急に増えてきてもロード処理を簡単に拡張できない、オンプレミスを導入した代償として初期コストが高い、運用コストが高いなどがあります。下の方では、データをコピーして遠隔地保管することで、ガバナンスやセキュリティのリスクも生じます。またオンプレミスである以上、リソースには上限が決まっているため、迅速にパフォーマンスを上げることも、実効性能を上げることもできないという課題が生じます。
クラウドデータプラットフォームの誕生
2000年代中頃には、クラウド化の流れと共に、あらゆるデータを扱いやすくするデータレイクという言葉が流行り、分散したビッグデータを格納して処理できるHadoopが台頭しました。しかし、これらは様々なデータやユーザーをサポートするには不十分でした。
※Hadoop(ハドゥープ)とは、データを複数のサーバに分散し、並列して処理するミドルウェア(ソフトウェア基盤)です。テラバイト、ペタバイト級大容量データの分析などを高速処理できるため、「ビッグデータ」活用における主要技術として活用が進んでいます。
そこで、クラウドにデータを集めてプラットフォームとして利用する技術(クラウドデータプラットフォーム)が発展し、全てのデータ、全てのユーザータイプのサポートが可能となりました。そのサービスの一つが、Snowflakeです。
3.Snowflake(スノーフレイク)とは
本章では、Snowflakeというクラウドデータプラットフォームサービスが、前章で述べたオンプレミスの課題をどのように解決するのか、またSnowflakeを利活用するメリットを、わかりやすく解説します。
Snowflakeが解決する課題1:無限大に拡張可能
オンプレミスでは急にデータが増えた場合であっても、ストレージ・容量をすぐに増やすことは困難です。また、コンピューターリソースに限界があるため、同時実行性能が低下し、重いデータベースを操作するのにSQLがうまく回らないなど、拡張性に限界があります。
※SQL(シークェル、シーケル)とは、データベース言語の1つで、データベースの定義や操作を行えるものです。
対してSnowflakeでは、データボリュームに対して効率的に処理することで無限に対応できます。ユーザー数が増えても同様です。さらにSnowflakeでは、構造化データだけではなく、半構造化データ・非構造化データも対応可能であり、必要に応じてパフォーマンスを速くすることもできます。
図にUNLIMITED(無制限)とある通り、Snowflakeではデータウェアハウスで利用される処理特性に合わせてリソースの大きさ、数の変更が容易に可能です。
図の左側のETLの処理では、例えばSnowflakeでは日中はスモールサイズで処理し、夜間はラージサイズで、一気にかつ簡単に動かすことができます。
図の中央のBI視覚化は、例えば通常は一つのサーバーで動かし、月曜日の午前中だけは非常に多くのユーザーが同時実行するため、サーバーを順次増やして同時実効性能を上げることができます。
図の右側のデータサイエンスの人には大きいサーバーを割り当てられます。
さらに、Snowflakeでは全てのワークロード処理で一箇所のデータを参照し対応できます。したがって、情報の一貫性と正確性を確保するSingle Source of Truth(SSOT、信頼できる唯一の情報源)を実現できます。
Snowflakeが解決する課題2:コストの最適化
オンプレミスでは決まった量でしか利用することができません(キャパシティ契約)。さらに、この量まで使わなかった場合も費用が発生します。図の破線が従来型のキャパシティ契約ですが、使っていないところ(赤斜線)は無駄なコストが発生しています。また、午後5時付近でデータサイエンスを2XL使っていますが、従来型のキャパシティ契約ではこのように飛びぬけたパフォーマンスをすぐに得ることはできませんので、機会損失に繋がります。
対してSnowflakeでは、従量課金すなわち実際の利用量に対する課金です(図)。例えば午前3時から7時まではバッチで、その後BIユーザーやデータサイエンスが入って利用量が増えた場合も、使った分だけの課金なので、コストを最適化できますし、機会損失も生じません。
Snowflakeが解決する課題3:メンテナンスが容易
オンプレミスでは、バージョンアップやパソコン内の不要な情報をクリーンアップするチューニング、メンテナンス等々に対して人手がかかります。表の左側がオンプレミスですが、すべての項目でお客様が実施しなければなりません。
従来型のデータウェアハウス(表の中央)では、データセンターやソフトウェア、ハードウェアのメンテナンスなどはベンダー側となりますが、依然多くの項目はお客様で対応が必要です。
それに対しSnowflake(表の右側)は、全てをベンダー側が行います。DB管理、チューニング、索引データのインデクスやデータパーツチューニングの設定、管理、データを説明するためのメタデータや統計情報の取得、データベース管理システムに対する命令文であるクエリの最適化、障害や災害発生時の復旧のバックアップ、暗号化や監視サービスも、すべてSnowflakeが提供します。
つまり、Snowflakeはメンテナンス業務のすべてを代行するフルマネージドサービスです。お客様がすることは、自分で作ったアプリケーションや自分で作ったデータの管理だけですので、非常にメンテナンスが容易です。
Snowflakeが解決する課題4:安全で簡単なデータ共有
オンプレミス、および従来型のデータウェアハウスでは、様々な仕組みを作らなければならないので時間やコストがかかり、データをコピーしたり、リアルタイムのデータ連携は困難です。
対してSnowflakeでは、安全かつリアルタイムのデータ共有が可能です。そのため、データのコピーや移動の必要がなく、プライバシーなどのセキュリティ面でも安心です。Snowflakeでは、共有データを活用し価値を最大化する、データコラボレーションが可能です。
ここでSnowflakeが提供する3種類のデータ共有を紹介します。まずは「ダイレクトシェア」です。Snowflakeを持っている1対1のお客様同志は、数ステップの設定だけですぐにデータを共有できます。次に、それを1対複数の関係にしたのが「データエクスチェンジ」です。最後に「マーケットプレイス」は、Snowflakeの環境を持たないお客様も利用できる機能です。Snowflakeのマーケットプレイスにはサードパーティデータがあり、無償や有償ですぐに利用できるためコストがかかりません。こちらに自社のデータを上げることで、データの収益化も可能です。
ここでサードパーティデータとは何かと、その重要性を解説します。こちらの図の通り、自社内のデータをファーストパーティデータ、関連会社や取引先データをセカンドパーティデータ、第三者のデータやオープンデータのことを、サードパーティデータと呼びます。サードパーティデータは、例えば国や自治体が公表しているオープンデータ、データ収集を専門とする企業から入手したデータなどがあります。サードパーティのデータを連携することで分析を高度化できるため、非常に重要となります。
こちらが実際のSnowflakeのマーケットプレイスの画面です。ETL(抽出・変換・書き出し処理)は必要なく、データテーブルという形ですぐにデータを見ることができます。
Snowflakeの進化・新機能Snowpark
Snowflakeは、2014年にはクラウドネイティブ専用のデータウェアハウスでしたが、2019年には、様々なワークロードに対応できるプラットフォームである、クラウドデータプラットフォームに進化しました。さらに2020年には、様々な組織間や企業間でデータコラボレーションできるプラットフォームとして、データクラウドと呼ばれるサービスに進化しています。
さらに、2023年に新機能Snowparkがリリースされました。開発者フレームワークという、データサイエンティストやデータエンジニアが使うSCALAやPYTHONなどの言語とネイティブに連携できる機能を持ち、非常に強力なエンジンとして、進化しています。このように、常に進化を続けるのがSnowflakeの特長です。
ジール提供サービスのご紹介
オープンデータ活用サービス:CO-ODE
ここで、私たちジールが提供するオープンデータ活用サービス「CO-ODE(コ・オード)」を紹介します。国や自治体が公開するオープンデータを分析・加工しやすい形で提供するサービスです。企業のマーケティングにおいて、サードパーティデータとして利用しやすくなるため、スシロー様、リンナイ様、大林組様、小田急様などでご利用いただいています。このサービスは、マーケットプレイスに展開予定のため、ご興味があればご連絡ください。
株式会社ジールがSnowflake、Tableauと連携して提供できるサービス
私たちジールは、Snowflake社の日本法人が設立された2019年からパートナーとなり、多数の実績がございます。ETLのところからSnowflakeにデータをため込んで、Tableau等のBIで可視化していく領域について、一連のサービスに対応できます。詳しくは今後の第2回、第3回の記事をご覧ください。
まとめ
本記事は全3回のシリーズもの「SnowflakeとTableauによるExcelデータからの分析レポート作成のデモンストレーション」の第1回として、データウェアハウスであるSnowflakeについてわかりやすく解説しました。Snowflakeの何がすごいか、またSnowflakeを導入するメリットが、おわかりいただけたのではないでしょうか。
まずはSnowflake社の設立から現在までの歩みを述べ、次にオンプレミスの特徴とその課題について解説し、データウェアハウスとしてのSnowflakeが、いかに課題を解決し、現在も進化を続けているかを紹介しました。
第2回ではTableauについて解説し、第3回では実際に手持ちのExcelをSnowflakeとTableauとで優れた分析レポートにするデモンストレーションを紹介します。ぜひご覧ください。
第2回のレポート記事は以下よりご覧いただけます。
SnowflakeとTableauによる分析レポート作成のデモンストレーション(2)Tableauとは
更新日:2024年5月21日