【Informatica】接続(Connector)の設定 : Azure Data Lake Storage Gen2 の場合

Informatica 社の提供するデータ活用プラットフォーム Informatica Intelligent Cloud Service (以降、IICS)の機能の1つであるデータ統合(Cloud Data Integration)では、オンプレミスのSQLサーバやクラウドサービスで提供されているストレージ・データウェアハウスのサービスと連携することで、それらのサービスに対するデータの抽出や、格納が行えるようになります。

以前の記事ではクラウドデータウェアハウス製品である、「Snowflake」との接続(Connector)の作成について記事化しております。接続(Connector)とは何か?ということについては、以下の記事を参照していただければと思います。
blog.jbs.co.jp

本記事では、CSVファイルなどのファイルを蓄積する、クラウドストレージサービスの「Azure Data Lake Storage Gen2」に対する接続(Connector)の設定方法について説明します。

接続(Connector)の作成

Azure Data Lake Storage Gen2 の環境と、接続(Connector)作成の目的

以下のような環境を Azure Data Lake Storage Gen2 で作成しています。

今回、コンテナ「maindir」配下のディレクトリにあるすべてのデータを利用可能とする接続(Connector)を作成することを目的とします。

また、データ連携するためには、Azure Data Lake Storage Gen2 に対して、データの処理を実際に行う、 Secure Agent からの接続を許可する必要があります。
Secure Agent についても、過去記事化しております。
blog.jbs.co.jp
Secure Agent のネットワーク環境としては、Secure Agent サーバ発の通信がインターネット上に抜けることが可能である、オンプレミス環境に構築されている想定とします。

Azure Data Lake Storage Gen2 の「セキュリティとネットワーク」→「ネットワーク」から、接続を許可するIPアドレスの指定を行っています。
コネクタを作成し、データ連携をさせるために必要な Secure Agent のIPアドレスを、ファイアウォールの「アドレス範囲」に加えます。

アドオンコネクタの利用開始

Azure Data Lake Storage Gen2 の接続を作成できるようにするために、「管理者」→「アドオンコネクタ」で「Microsoft Azure Data Lake Storage Gen2 Connector」を探し、「無料トライアルを開始する」をクリックして利用を開始します。

以下の選択で「OK」をクリックすると、「接続」の設定で選択できるようになります。

接続(Connector)の設定

新しい接続作成画面を表示します。
接続名を決めたら、タイプで先ほどアドオンコネクタで有効にした「Microsoft Azure Data Lake Storage Gen2」を選択します。

「ランタイム環境」は自身の環境にある Secure Agent を選択します。

Connection Section の設定

Azure Data Lake Storage Gen2 の情報を入力します。「Authentication Type」により、必要な設定項目が変わります。
本記事では「Authentication Type」が「Shared Key Authentication」の場合の設定内容について、説明します。

「Shared Key Authentication」で設定を行う場合のパラメータは以下の項目です。

  • AccountName(必須) : ストレージアカウントの名前を入力します。
  • Authentication Type(必須) : 選択式で、「Service Principal Authentication」、「Shared Key Authentication」、「Managed Identity Authentication」の中から認証タイプを選択します。今回は「Shared Key Authentication」を選択します。
  • Account Key(必須) : ストレージアカウントのアクセスキーを入力します。今回の認証方式「Shared Key Authentication」の認証はこちらのアクセスキーによって行われます。


  • File System Name(必須) : 連携させたい Azure Data Lake Storage Gen2 のファイルシステム名を入力します。

具体的な例として、以下のようにデータストレージ「コンテナー」で「maindir」という名前のコンテナ内のディレクトリやファイルを参照させたい場合、「File System Name」にはコンテナ名「maindir」を入力します。

  • Directory Path : 参照先のディレクトリのパスを入力します。

コンテナのすべてのディレクトリを参照させる場合、「/」を指定することで、
各ディレクトリを参照させることができ、その配下のファイルを選択を利用することができます。

  • Adls Gen2 End-point : 選択式です。米国政府や中国地域のエンドポイントを利用しない限り、「core.windows.net」を選択します。
設定内容の確認

実際にパラメータを設定し、接続テストまで実施します。

設定後はデータソースとして Azure Data Lake Storage Gen2 の連携したコンテナ配下に格納されているファイルを、データ加工に利用できるようになります。データ加工については別の機会で記事にできればと思います。

おわりに

今回の記事では、Azure Data Lake Storage Gen2 とデータ連携を行うための設定について説明しました。
前回のSnowflakeのコネクタ設定と合わせると、以下のようなパイプラインを組むことができるようになりました。

データレイクからデータを抽出し、加工を経てデータウェアハウスに格納する。ETLの一連の流れが組めてきました。次回はデータ加工について、一連の流れを記事化できればと思います。

執筆担当者プロフィール
内田 誠人

内田 誠人(日本ビジネスシステムズ株式会社)

約4年のネットワークエンジニア経験から、データエンジニアの領域に足を踏み入れたインフラエンジニア。 かき氷愛好家。

担当記事一覧