Azure Data Factoryとは?

Azure Data Factoryについて、調べてもうまく咀嚼できなかったのでChatGPTに教えてもらった。

Azure Data Factoryとは?

クラウド間のデータ処理フロー全体の設計と実行をノーコードで制御できる基盤である

生まれた背景

データ分析やBI(ビジネスインテリジェンス)を効率的に行うための基盤を整備するために、ETLというプロセスがある。

ETL:Extract(抽出)、Transform(変換)、Load(格納)の頭文字で、

  • 複数のデータソースからデータを抽出し
  • 抽出したデータを分析基盤様に変換して、データの形式を統一したり不要なデータを削除したりし
  • 変換したデータをデータウェアハウスに格納する

プロセスのことを指す。

オンプレ時代には、このETLがそれぞれのデータソース毎に個別の連携処理を実装し、サーバーの管理・ジョブスケジューリング・監視も手作業でやっていた。

そのため、接続先が増えるほど、スパゲッティ上の依存構造が発生し、運用負荷が大きかった。

Azure Data Factoryが生まれ、解決したかったこと

1.データがクラウド・オンプレ・SaaSに分散し統合が困難であるという課題に対して、全てのデータソースに統一的にアクセスできるパイプラインモデルを作る

2.バッチ処理や依存関係管理の複雑さを、ノーコードで処理をビジュアル化し、依存順序も明示できる

3.インフラ運用やスケーラビリティをマネージドサービスで提供する など

Azure Data Factoryの進化

v1 (2015):データのコピーとスケジュール制御を行う。コード中心で変換機能が無かった。

v2 (2018〜現在):GUIベースでマッピングデータフローやSSIS統合ランタイムを実装。本格的なETL/ELT機能を搭載し、「クラウド統合基盤」へ進化した

Azure Data Factoryの原理原則

原理説明
オーケストレーション指向個々の処理(コピー、変換、通知など)を順序立てて構成
抽象化された接続モデルどんなデータソースでも「リンクサービス」で抽象化(統一的に制御)
サーバーレス + ハイブリッド対応完全マネージドで、オンプレ連携も Self-hosted IR 経由で可能

データ移行とかの文脈で目にすることが多かったのでモヤモヤしていたが、少し理解ができた気がする。

まだ分からない事も多いので、そのあたりは追々・・・(ETLとELTの違いなど)

コメント