2020年12月11日、株式会社ジールにて、『【ウェブセミナー】困難なビッグデータ統合をシンプル・高速に実現~超高速ETL DMExpressとクラウド型データウェアハウス Snowflake がもたらす、真に使えるビッグデータ統合環境とは~』が開催されました。その内容をレポートします。
はじめに
近年、いろいろなサービスのクラウド化が加速していますが、データを保存する場所については、あまりクローズアップされていませんでした。それは、AWS、Azure、GCPなどが、あらゆるものをクラウド化し、その中でデータを保存できる機能も有しており、データを活用するための保存場所については、重要視されていなかったからです。しかし、データを自由に利用するには、データを保存するためのクラウドプラットフォームが必要になります。そのプラットフォームとしてSnowflakeが脚光を浴びていますが、その全貌のご紹介と、Snowflakeへデータを保存するときに必要なETL製品としてDMExpressをご紹介します。
目次
第一部 データ分析を阻む壁を突破 クラウド型データウェアハウスSnowflakeのご紹介
<講師> 株式会社ジール ビジネスディベロップメント部 マネージャー 亀井 美佳 氏
1.Snowflakeとは?
Snowflake は、クラウドで稼働することを前提に作られた唯一のDWHです。近年クラウドは、アクセスしない日はないというくらい活用されています。これは、新たなテクノロジーの変化の一つですが、そのほか、扱うデータの増大やデータの共有、そして、データを分析する人の多様化があります。
このような時代背景の中で、Snowflakeは、データの発生元であるデータソースとデータを使う人を、どれだけシンプルにつなげていけるのか?ということを目指し、ソリューションを展開しています。
「すべての組織で働く人がデータドリブンに判断できるようにしたい」というミッションを掲げています。
各企業にあるデータ基盤は、数10年という歴史の中で脈々と構築されたプラットフ ォームを所有されています。しかし、最近爆発的に増えたデータを保存しようと思っても、なかなか データのロード処理ができないといったことや、従来型のレガシーシステムから、最新のクラウドのデータまでいろいろな種類に対応しなければならないといった課題もあります。
Snowflakeは、単なるデータウェアハウスとしてだけではなく 、データレイクやその他、データを活用するための様々な管理機能がワンストップで提供されています。
2.Snowflakeの5つの特長
Snowflakeの5つの特徴をご紹介します。
5つの特長
1.スケールとパフォーマンス
スケールアップやスケールアウトに対応し、高速で稼働します。データを保管する場所と実行するエンジンが分離しているため、例えば、財務用とマーケティング用とそれぞれにリソースを割り当てて、お互いが干渉しないような形で実行することができます。
2.ニアゼロマネジメント
インフラ周りの運用・管理から解放されます。また、タイムトラベルという機能があり、過去に遡ってデータを復元することができます。
3.マルチクラウド・クロスクラウド
AWS、Azure、GCP、のいずれのクラウドにも対応しています。
4.ガバナンス・セキュリティ
データを接続する方式や認証は、様々なバリエーションに対応しています。ロールベースの権限管理だけではなくて、ビューの参照権限や行レベルレベルのセキュリティの設定も可能です。そして、データを保管する時にはデータが暗号化され ます。
5.データ共有
データをコピーすることなく、権限設定によって共有することができます。
無償トライアル、ハンズオンラボガイドのご案内
◆ 無償トライアル
Snowflakeを$400分、無償で誰でもお試し頂けます。
お申し込みはこちらから
◆ ハンズオンラボガイド
ガイドに沿って操作するだけで、Snowflakeの特徴を90分でご理解頂けます
https://www.snowflake.com/resource/snowflake-free-trial-lab-guide-japanese
クラウド上の新しいデータプラットフォームとしてお使い頂ける環境であることをご理解いただけましたでしょうか?一点捕捉しますと、このデータウェアハウスにデータを入れるためには、ETL製品が必要になります。この次のセッションでは、簡単にGUIで設定でき、大量のデータでも高速に連携できるETL製品、DMExpressをご紹介します。
第二部「ビッグデータ統合を加速するシンプル・高速ETL DMExpress」
<講師> 株式会社アシスト 東日本技術本部 情報基盤技術統括部 技術3部 課長 宮本 玲氏
1.セッションの要点
クラウドにデータを保存する前に、狙いを定めて保存していかないと、ただデータを貯めただけということになってしまいます。基幹システムのデータを運用して、DXに繋げていくためには、システムの差異やフォーマットの違いなどを吸収するシステムとして、ETLシステムは重要な役割を担います。このETLシステムには、簡単かつスマートに動いてくれる製品として、DMExpressが最適だと考えています。
2.かんたん × スマート
DMExpressの特長は、以下の3つです。
-
かんたん:GUIによる簡単な操作で開発できます。
-
スマート:自動チューニング機能を備えています。
-
高速処理:高速で処理され安定稼働します。
[かんたん] わかりやすいGUI
集計、コピー、結合、マージ、ソートの処理を5つのパーツから選ぶ形になっており、定義されたテンプレートに上か ら順番にパラメータを入れて設定していきます。そして、それぞれの処理をつないでいけば、ひとつのジョブが完成し、一連の処理が設定されます。このように型がきまっているので、製品トレーニングを1日受講すれば、 若手のSEでも、開発担当者として立ち上がります。
シンプルな製品アーキテクチャ
元々はメインフレームのソートのユーティリテ ィー製品でした。それからオープン環境であるUNIX、Windows、Linuxでコーティングした製品です。ユーテ ィリティーから発生している製品ですので、製品構造が大変シンプルになっており、障害が少なく、安定稼働するソフトウェアです。既存のお客様からは、品質の良さについて高くご評価いただいています。
[スマート]
ETLは、明細系のデータとマスターのデータを付き合わせたりする処理が多く、フォーマットの変換やデータを接続する加工処理になります。そのため、データが増えれば増えるほど、データの並び替え、いわゆるソート機能が重要になってきます。DMExpressは、このソート機能が大変優れており、高速にデータ統合を処理できる仕組みになっています。
また、処理実行時に環境に合わせた自動チューニングの機能も備えています。メモリ、データ、I/O、CPUの性能を鑑みて、どの処理を、どの順番でしたらよいのか自動で判別して実行していきます。
3.ユースケース
本記事では、いくつかある事例の中から一つご紹介します。
三菱電機ビルテクノサービス様
基幹システムにあるデータは、テーブルが大きく抽出することができず、BIは直接、基幹システムと連携していました。そのため、レスポンスが遅く、基幹システムに影響しないよう制限されたものでした。そこで、DMExpressを導入していただいたところ、既存のETLツールではできなかった大容量テーブルのデータ統合が、約4時間で処理可能となりました。そのため、分析の範囲と精度が向上し、よりビジネスの効率を上げるための分析が可能となりました。
第三部 SnowflakeとDMExpressの組み合わせで実現する未来
<講師> 株式会社アシスト、株式会社ジール
このセッションでは、DMExpressで、売上明細データを集計加工してSnowflake にロードするデモンストレーションをご紹介します。
CSV形式の売上明細データ1000万件のデータとOracleデータベースに顧客マスターのデータがあり、DMExperssで抽出、変換、集計を行い、Snowflakeにロードする流れになります。
DMExpressは、タスクとジョブという概念があります。タスクは処理の最小単位で、データの加工などの処理をさせ、タスクエディターで開発します。そして、そのタスクエディターで開発したものをジョブエディターで配置し、フロー化させます。
今回のデモンストレーションでは、以下の処理を行います。
- 処理パターンからコピー処理を選択
- 入力ファイルを設定
- データ 変換処理を 2 つ作成
- 出力は Snowflake テーブルにロード
データの変換処理は、「年」と「月」であったものを年月に、またコード番号からコードの名称を呼び込み変換します。
これらの作業もすべてGUIで行うことができます。
処理の最後には、処理結果のレポートが表示されます。
このように変換処理とロード処理が簡単に設定できます。また、1000万件の処理スピードの速さも実感できたかと思います。
また、最後にSnowflake Data Marketplace をご紹介します。
事前アンケートで課題点として挙げられていたなかで、データの共有を実現したいというものがありました。外部に共有したい考えられているお客様もいらっしゃいます。そういう時には、この機能を利用してデータを公開、共有することができます。
Snowflakeのプラットフォーム上で世界中のいろんな企業や組織の方が、すでにデータを公開しており、いろいろなカテゴリーで探すことができるようになっています。
例えば新型コロナウイルスのオープンデータも公開されています。これを取り込んで、コロナウイルスの状況と自社の売上情報を比較してみる、といったことが簡単にできるようになります。
このように自由自在にワンクリックで自分の手元にあるデータと外部に公開されているMarketplace上の公開されているデータを組み合わせて活用できるようになります。
まとめ
本セミナーでは、Snowflakeの概要とデモンストレーション、そして、高速転送ができるETL製品 DMExpressのご紹介でした。様々なものがクラウド化する中で、データを保存する場所をクラウドにダイレクトで保存し、クラウドベンダーに依存せず利用できるサービスはSnowflake以外にありません。また既存のデータをクラウド化するためには、ETLの機能は不可欠です。様々なETLが市場にはありますが、操作が簡単かつ高速に転送できる製品としては、DMExpressは卓越した製品です。ご興味を持たれた方は、ぜひこちらから問い合わせください。