Data Factoryを使用してAzure Blob StorageからAzure SQL Databaseにデータをコピーする

はじめに
実施概要
事前準備
実施手順
おわりに

はじめに

業務でAzure Data Factoryに触れる機会があったので、学んだ内容を整理するために簡単なデータコピー処理の実装方法をまとめてみました。

実施概要

本記事では、Azure Data Factoryを使用してAzure Blob StorageからAzure SQL DatabaseへCSVファイルをコピーする処理の実装をします。

Azure Data Factoryとは、Azureが提供するデータ統合のためのプラットフォームです。ETL（抽出・変換・格納）やELTの機能を視覚的な操作で実現可能であり、クラウドのデータ統合だけでなくオンプレミスとクラウドを併用するハイブリッド環境や、Azure外部のデータソースともデータ統合が可能です。

Data Factoryには下記の4つの基本概念があり、これらを作成することでデータコピー処理を実装出来ます。

・リンクサービス：データソース（Blob、SQL）への接続を定義します。

・データセット：リンクサービスが参照するデータストアに格納されている入力/出力データを表します。フォルダ名やテーブル名といったデータ構造を示し、利用する実データを指定します。

・アクティビティ：データに対して実行するアクションを定義します。データのコピー・変換などのさまざまなアクティビティがあります。

・パイプライン：複数のアクティビティを論理的にまとめて管理するグループです。1つの処理を行うアクティビティを複数用意し、それらをパイプラインにまとめて管理します。

事前準備

Data Factory
- Data Factoryを作成
データソース（Blob）
- CSVファイルを格納するためのストレージアカウントを作成
- ストレージアカウント内にコンテナを作成
- コンテナ内にCSVファイルを作成（実際に使用したCSVファイルの中身↓）
データソース（SQL）
- SQL Serverを作成
- SQL Databaseを作成
- 作成したデータベース内にテーブルを作成
  - CSVファイルの中身とスキーマ（列名、列数など）が同じもの

実施手順

1.リンクサービスの作成

Blobリンクサービス

1-1.Data Factoryの左側ウィンドウ「管理」タブの”Connections”から「Linked services」を選択し、「新規」をクリックします。

1-2.新しいリンクサービスページで「Azure Blob ストレージ」を選択し、「続行」をクリックします。

1-3.下記を設定し、「作成」をクリックします。

新しいリンクサービス
名前	AzureBlobStorage
説明	-
統合ランタイム経由で接続	AutoResolveIntegrationRuntime
認証の種類
	アカウントキー
	接続文字列
アカウントの選択方法	Azureサブスクリプションから
└Azureサブスクリプション	サブスクリプションを選択
└ストレージアカウント名	ストレージアカウントを選択
追加の接続プロパティ	-
テスト接続	宛先のリンクサービス

アカウントの選択方法では、3.事前準備で用意したストレージアカウントを選択します。

SQLリンクサービス

1-4. Data Factoryの左側ウィンドウ「管理」タブの”Connections”から「Linked services」を選択し、「新規」をクリックします。

1-5. 新しいリンクサービスページで「Azure SQL Database」を選択し、「続行」をクリックします。

1-6. 下記を設定し、「作成」をクリックします。

新しいリンクサービス
名前	AzureSQLDatabase
説明	-
統合ランタイム経由で接続	AutoResolveIntegrationRuntime
	接続文字列
アカウントの選択方法	Azureサブスクリプションから
└Azureサブスクリプション	サブスクリプションを選択
└サーバ名	SQL Serverを選択
└データベース名	SQL Databaseを選択
認証の種類	SQL認証
ユーザー名	SQL認証のユーザー名を入力
パスワード	SQL認証のパスワードを入力
Always Encrypted	□
追加の接続プロパティ	-
テスト接続	宛先のリンクサービス

アカウントの選択方法では、3.事前準備で用意したSQL Server、SQL Databaseを選択します。

データセットの作成

Blobデータセット

2-1. Data Factoryの左側ウィンドウ「Author」タブの”Datasets”から「新しいデータセット」をクリックします。

2-2.新しいデータセットページで「Azure Blob ストレージ」を選択し、「続行」をクリックします。

2-3.形式の選択でDelimited Textを選択し「続行」をクリックします。

2-4.プロパティで下記を設定し、「ok」をクリックします。

プロパティの設定
名前	BlobDataset
リンクサービス	AzureBlobStorage
ファイルパス	Blob（CSVファイル）が格納されているファイルパスを選択
先頭行をヘッダーとして	☑
スキーマのインポート	サンプルファイルから
└ファイルの選択	列スキーマをインポートするためにコピーしたいBlob（CSVファイル）を選択

SQLデータセット

2-5. Data Factoryの左側ウィンドウ「Author」タブの”Datasets”から「新しいデータセット」をクリックします。

2-6.新しいデータセットページで「Azure SQL Database」を選択し、「続行」をクリックします。

2-7. 下記を設定し、「ok」をクリックします。

プロパティの設定
名前	SQLDataset
リンクサービス	AzureSQLDatabase
テーブル名	SQLテーブル名をドロップダウンで選択
スキーマのインポート	接続またはストアから

パイプラインの作成

3-1. Data Factoryの左側ウィンドウ「Author」タブの”Pipelines”から「新しいパイプライン」をクリックします。

3-2.アクティビティの”移動と変換”から「データのコピー」をパイプラインにドラッグ＆ドロップします。

3-3.コピーアクティビティで下記を設定します。

全般
	名前			CopyCSVFromBlobToSQL
ソース
	ソースデータセット			BlobDataset
	ファイルパスの種類			ワイルドカードファイルパス
		ワイルドカードパス		-
			フォルダーパス	-
			ファイル名	*
シンク
	シンクデータセット			SQLDataset
	書き込む動作			挿入