こんにちは、DX攻略部のkanoです。
「定期的にデータ転送する必要があるが、手動でおこなうのは手間だし、忘れてしまう」ということがありませんか?
今回はETLツールとして注目を集めているTROCCOを使えば、その悩みが解消できるのではないかと思いました。
TROCCOに搭載されている「ワークフロー」という機能を実際に使って、定期的なデータ転送を自動化できないかを、非エンジニアである私がチャレンジしてみます!
TROCCOワークフローでデータ連携を自動化する理由
TROCCOというのは、簡単に説明するとクラウドETLサービスのことです。
データの転送や変換をおこなってくれるツールで、データ基盤の構築や運用に活用できるサービスになります。
TROCCOの場合、ノーコードやローコードでデータ加工ができ、専門的な知識を持ったエンジニアがいない環境でも利用できるのです。
そんなTROCCOを導入し、ワークフローでデータ連携を自動化することはどういったメリットがあるか説明していきます。
こんにちは、DX攻略部のしいです! 目的別やシステム別にデータがバラバラに散在してしまう経験、ありませんか? 個人レベルでもしょっちゅう起こるこのデータ分散問題は、企業規模が大きくなるほどさらに深刻になります。 膨大なデー[…]
データの自動化が必要な背景
現代のデータ運用において、手作業でデータ処理をするのは非常に労力がかかり、同時にヒューマンエラーが起きやすい、という問題点が挙げられます。
この問題を解決するためには、データパイプラインの自動化を取り入れることが重要です。
TROCCOのワークフロー機能は、この役割を担ってくれます。
TROCCOのワークフロー機能を活用する5つのメリット
TROCCOのワークフロー機能を活用することで、大きくわけて5つのメリットが得られます。
そのメリットを解説します。
メリット1:データ処理の自動化で工数削減
データ運用を手作業でおこなうことは、膨大な時間を必要とします。
TROCCOを活用して、データ転送やETL処理をワークフローで自動化すれば、毎回のオペレーション作業をなくし、人的リソースを削減できるのです。
特に毎朝のデータ集計や夜間パッチ処理のような、定期的に実行するジョブで大きな効果を発揮します。
メリット2:データの整合性・信頼性の向上
データ処理において、手作業はヒューマンエラーの原因になりがちです。
TROCCOのワークフローを使えば、処理の順序や依存関係を適切に設定できます。
そのことで、データの欠損や整合性エラーを防ぐことにつながるのです。
「データの前処理が完了した後にのみ、集計ジョブを実行する」といった形に設定すれば、エラーの発生を最小限に抑えられて、問題箇所も見つけやすくなります。
メリット3:エラー管理・通知機能によるスムーズな運用
問題が発生しているときに、その状態に早く気づくことは重要なことです。
TROCCOのワークフローには、エラー発生時の通知機能が搭載されています。
また、エラーが発生した際にリトライ処理を設定することも可能です。
エラーはSlackもしくはEmailで通知できるので、スムーズに対処できます。
メリット4:データフローの可視化と管理のしやすさ
データを取り扱う際、エンジニアだけでなく非エンジニアが携わることがあります。
また、エンジニアがデータの取り扱いを社内に共有する場合や、会議などでプロジェクトの説明をすることもあるでしょう。
こういった場合において、データがどのように流れているかを可視化できていれば、取り扱いや説明が容易になります。
データを可視化することで、ジョブの依存関係を一目で確認でき、処理の流れを管理しやすくなるのもメリットです。
同時にトラブル発生時に迅速な対応が可能になるため、トラブルの影響を最小限に抑えられます。
TROCCOでは、複数のデータソース間の連携が可能で、管理しやすいデータパイプラインを構築できるのです。
メリット5:スケジューリングによる最適なデータ更新
データの取扱業務は、基本的には定期的な作業です。
TROCCOのワークフローを利用し、データの更新を定期化すれば、定期的なデータ転送をスムーズに自動化させられます。
たとえば、下記のような定期業務を自動化できます。
- 毎日深夜に前日の売上データを取り込む
- リアルタイムデータを一定間隔で更新
- 特定のイベントに応じてデータ処理をトリガーする
売上データであれば、できるだけ一日の最後に取り込みたいものですが、そういった希望もTROCCOのワークフローを設定すれば可能です。
また、データを30分ごとに取得する、ファイルがS3にアップロードされたらデータ転送を開始するといった、一定間隔の更新やトリガー方式もおすすめの活用法になります。
このようにTROCCOのワークフローは、データ処理の時間を削減し、ヒューマンエラーを減らしてくれるので、企業に大きなメリットがあるといえるでしょう。
こんにちは、DX攻略部のしいです! データ活用が進む中で、企業におけるデータの取り扱いはますます重要になっています。 データを分析・活用するには、まずそのデータを整理・整形する必要があります。 しかし、データの量が多かった[…]
実践:TROCCOワークフローを使ってデータパイプラインを構築してみた
TROCCOのワークフローを実際の画面を見ながら設定してみようと思います。
TROCCOのワークフロー定義は、FreeプランまたはEssentialプラン以上の契約アカウントでのみ、利用できる点に注意してください。
STEP1: ワークフローの設計(どんなデータ連携を自動化するか決める)
最初にどんなデータ連携を自動化するか、ワークフローの設計をおこなってください。
たとえば、下記のようなデータ連携を自動化できます。
- S3に格納されたログデータをSnowflakeに取り込む
- BigQueryの分析結果をRedshiftに同期する
また、どのタイミングでデータ処理するのかも決めましょう。
- 毎日深夜2時にデータを更新
- 30分ごとなどの一定間隔でリアルタイムデータを取得する
- ファイルがS3にアップロードされたら自動的に処理を開始
このようにデータ処理のタイミングを設定すれば、日々の業務が大幅に効率化されます。
また、データの前処理やETL処理を含めるかなどの設定も可能です。
エラー発生時のリトライ設定や通知も設定できますので、このあたりもワークフローの設計時に検討してください。
STEP2: TROCCOのジョブと依存関係を設定する
では、実際にTROCCOでワークフローを設定していきましょう。
ワークフロー定義は、FreeプランまたはEssentialプラン以上の契約アカウントが必要になりますので、そちらの準備も忘れないようにしてください。
TROCCOにログインしたら、トップ画面であるダッシュボードをチェックしてください。
画像のように「ワークフロー定義」と書かれた部分があるので、「新規追加」を選択して、ワークフローを設定していきます。
次にワークフロー名を入力し、今回はそれ以外の部分はデフォルトのままにします。
記入が終わったら「保存」を押して、次に進みましょう。
ここからの画面が、まさにTROCCOの魅力ともいえる、直感的にワークフロー定義をできる画面になります。
左の「タスク追加」というところに並んだ一覧から、転送設定・データマート定義を追加していきます。
TROCCO転送ジョブとTROCCOデータマートシンクの連携
今回は「TROCCO転送ジョブ」と「TROCCOデータマートシンク」を選んでみました。
注意点として、事前にそれぞれの転送するためのデータを用意しておく必要があるため、今回の場合であれば転送設定やデータマート定義の作成をおこなっておきましょう。
転送設定に関しては、下記の記事を参考に設定してみください。
こんにちは、DX攻略部のkanoです。 TROCCOはデータ基盤の総合支援サービスとして注目を集めているツールです。 しかし、私のような非エンジニアでもデータ転送や連携は難しくないのか気になっていました。 そのため、最初に[…]
タスクの設置は自由に設置できるので、下記の画像のような形に設置できます。
それぞれのタスク同士をつなげることで、ワークフロー定義がつながりを持ちます。
マインドマップのようなワークフロー定義の画面
ワークフローの設置をおこなっていて感じたのは、「マインドマップを思い出すなぁ」という感想でした。
自分の考えなどを木の枝が伸びるように設置して、頭の中を整理するというのがマインドマップの特徴ですが、TROCCOのワークフローも同じ感覚になりました。
それぞれのつながりが可視化されて、非エンジニアの私でもイメージしやすくなりました。
また、「自動レイアウト」という機能をつかえば、よりスマートに各タスクが整理されます。
シンプルなワークフロー定義であれば、こちらで完成です。
STEP3: ワークフローの実行
ワークフロー定義を保存し、実行すると実行ログが表示されます。
正しく設定されていればワークフロー実行ログにチェックマークが入り、左上に「SUCCESS」と表示されるので、エラーが起きていないか確認しましょう。
ワークフローの細かな設定が可能
今回はシンプルなワークフロー定義を設定しましたが、実際には他のデータ転送と一緒に並行処理をおこなうなど、さまざまな設定が可能です。
「タスク同時実行上限数」、「タイムアウト設定」、「リトライ回数」などが設定できます。
画像のように2つの処理を並行でおこなってから、Snowflakeにデータ転送をおこなう、というワークフロー定義も簡単にできるのです。
スケジュール設定では、「毎事」、「毎日」、「毎週」、「毎月」といった、実行頻度を選択できるのも便利でした。
通知設定は「終了時」、「失敗時」と選べるので、画面をずっと見ている必要がないのも嬉しかったです。
ワークフローに定義できるタスク
TROCCOのワークフローの便利さを身を持って体験できました。
最後にTROCCOのワークフローに定義できるタスクについて確認しておきましょう。
さまざまなタスクをワークフローに定義できる
TROCCOでは下記のタスクをワークフローに定義できます。
「Google BigQueryデータチェック」や「Snowflakeデータチェック」など、さまざまなタスク種別が用意されています。
「Tableauデータ抽出」なども、ワークフロー定義を活用すれば、日々の業務を効率化させられそうです。
特定のジョブが完了した後に次のジョブを実行する、各種ジョブをループで複数回実行するなど、目的にあわせてワークフロー定義をおこなってみてください。
まとめ
TROCCOのワークフローを活用してデータ連携を自動化することに挑戦してみました。
非エンジニアの私ですが、TROCCOを使えば専門的なプログラミング知識が無くても、ワークフローの設定ができました。
直感的に操作ができるため、コーディングなどの知識が不要なのはとても魅力だと思います。
TROCCOのワークフローを活用して、さまざまなタスクを組んで自動化にチャレンジしたいですね!
DX攻略部では、企業のDX化に関するお悩み解決に取り組んでいますので、DX化を検討の企業様はぜひDX攻略部にお問い合わせください。