【Microsoft Fabric】2つのデータの相関関係を可視化する

Microsoft Fabricは、データの移動や処理、変換、リアルタイム分析、レポート作成などの機能を統合した企業向けのSaaS型プラットフォームです。

今回は、試用版のMicrosoft Fabricを使用して、Microsoft Fabricに取り込んだ2つのデータ(日本のGDP成長率と失業率)を結合し、相関関係を可視化する方法をご紹介します。

データソースの準備

今回は、World Bank Groupのオープンソースデータを使用します。

World Bank Open Data | Data

上記から、GDP成長率と失業率のデータをダウンロードします。

ダウンロードしたCSVファイルを、識別しやすい任意の名前に変更します。

データソースの取り込み

Microsoft Fabric トップページを開いて左下の「Microsoft Fabric」を選択し、メニューバーからData Engineeringを押下し、Synapse Data Engineeringホーム画面を開きます。

任意のワークスペースを選択し、「新規」>「レイクハウス」の順に押下します。

任意の名前を入力して、レイクハウスを作成します。

作成したレイクハウス(Test_LH)にデータソースを取り込んでいきます。「データの取得」>「ファイルのアップロード」の順に押下します。

取り込む2つのデータをそれぞれ指定し、アップロードを押下します。

※ 画像はGDP_growth.csvですが、Unemployment.csvも同様に行います。

エクスプローラーの「Files」で、アップロードしたデータの確認ができます。

これで、Microsoft Fabricへのデータの取り込みが完了しました。

データの加工

生データを取り込んだだけでは、下図のように余計な行や空白があることから、データの加工が必要になります。

データフローへのインポート

データの加工は、データフローを用います。

左メニューバーから「作成」>「データフロー」の順に押下します。

「データを取得」>「詳細」を押下します。

データソースの選択でレイクハウス(Test_LH)を選択します。

先ほど取り込んだ2つのデータにチェックを入れて、画面右下の「作成」を押下します。

これでデータフローへ2つのデータのインポートが完了しました。

データ構造とデータ型の変換

「変換」>「入れ替え」の順に押下し、テーブルの行と列を入れ替えます。

「ホーム」>「列の管理」>「列の選択」の順に押下します。

本記事では、日本のみのデータを使用するため、年列である「Column5」と日本列である「Column125」のみにチェックを付け、「OK」を押下します。

「Column5」と「Column125」の列名では識別しにくいため、任意の名前に変更します。列名を右クリックして「名前の変更」を押下し、任意の名前を記入します。

今回は、下記のように列名を変更しました。

変更前 変更後
Column5 Year
Column125 JPN_GDPG

「Year」列はテキストとして扱う必要があるため、列名の左側「ABC123」をクリックし、「テキスト」を選択します。

また、「JPN_GDPG」列は数値として扱う必要があるため、列名の左側「ABC123」をクリックし、「10進数」を選択します。

エラー値と空白行の削除

「JPN_GDPG」列を選択している状態で、「行の削除」>「エラーの削除」を押下します。

「JPN_GDPG」列の展開ボタンをクリックし、「空の削除」を押下します。

これで「GDP_growth.csv」のデータ加工が完了しました。

※「Unemployment.csv」も同様にデータ加工を行います。

テーブルの結合

本記事では、2つのデータの相関関係を可視化するため、テーブルデータの結合処理を行います。

「結合」>「クエリのマーク」の順に押下します。

左テーブルと右テーブルそれぞれ「Year」列を結合列を選択します。結合の種類は「左外部」を選択し、「OK」を押下します。

結合した「Unemployment.csv」の展開ボタンを押下し、「Year」のチェックを外し、「OK」を押下します。

これでデータの加工が完了しました。下図が加工後のテーブルデータになります。

公開先の指定

加工したデータの同期先を指定します。画面右下、「データ同期先」>「レイクハウス」の順に押下します。

「次へ」を押下します。

任意のテーブル名を入力し、レイクハウスの「Test_LH」を同期先として指定し、「次へ」を押下します。

「設定の保存」を押下します。

データ同期先に「レイクハウス」が選択されていることを確認し、「公開」を押下します。

My Workspaceからレイクハウス(Test_LH)を押下し、加工後のテーブルデータ(JPN_GDP_UR_TB)が作成されていることを確認します。

これで、加工したテーブルデータのレイクハウスへの反映が完了しました。

データの可視化

データフローで加工したテーブルデータをもとにレポートを作成し、GDP成長率と失業率の相関関係を可視化します。

レイクハウス(Test_LH)の画面右上の「Lakehouse」>「SQL分析エンドポイント」の順に押下し、SQL分析エンドポイントに切り替えます。

テーブル(JPN_GDP_UR_TB)を選択し、「既定のセマンティック モデルに追加」を押下します。

「新しいレポート」を押下します。

「ビジュアルのビルド」から「折れ線グラフおよび集合縦棒グラフ」を選択します。

X軸に「Year」、列のY軸に「JPN_GDPG」、線のY軸に「JPN_UR」とします。

※ 設定するとY軸は自動的に「~の合計」となります

続いて、グラフタイトルを変更します。「ビジュアルの書式設定」>「全般」>「タイトル」>「テキスト」の順に押下し、任意のテキストを入力します。

また、データが年代順になっていないため、軸の並べ替えを行います。グラフの「その他のオプション」>「軸の並べ替え」>「Year」>「昇順で並べ替え」の順に押下します。

下図のようにレポートが作成され、2つのデータ(GDP成長率と失業率)の相関関係を可視化することができました。

まとめ

Microsoft Fabricを使用した2つのデータを結合し、相関関係を可視化させる手順について紹介しました。

本記事では、簡単なデータ分析の一例として相関関係の可視化を行いましたが、他にもリアルタイム分析や機械学習モデルの構築などもMicrosoft Fabricで行うことが可能です。

目的や用途に合わせて柔軟なデータ活用を行うことができそうです。

執筆担当者プロフィール
内田 湧

内田 湧(日本ビジネスシステムズ株式会社)

Data&AI プラットフォーム部 Data ソリューション1グループ。趣味は料理と運動することです。

担当記事一覧