JBSでデータエンジニアをしている稲留です。
CData Syncを利用したニアリアルタイムによるデータ連携パイプラインの構築を実施しました。
本記事では、CData Syncをインストール型として導入した背景と構築方法について記載いたします。
CData Syncとは
CData Syncの主な特徴を4つ記載します。
1. 圧倒的な接続性:多様なデータソースと同期先に対応
CData Syncは、200〜400以上のデータソースと同期先に対応しており、Salesforce、kintone、NetSuiteなどのSaaSから、PostgreSQL、SQL Server、OracleなどのRDB、さらにSnowflake、BigQuery、RedshiftなどのクラウドDWHまで幅広くカバーしています。
それぞれのデータソースに対して詳細なエンドポイントやカスタムオブジェクトにも対応しており、企業の複雑なデータ連携ニーズに応える柔軟性があります。
2. ノーコードで簡単設定:誰でも扱える操作性
CData Syncは、ノーコードで3ステップ程度の簡単な設定でデータ同期ジョブを構築できます。
API呼び出しやJSON整形などのコーディングは不要で、GUIベースで直感的に操作できます。エンジニアリソースが限られている現場でも、スムーズに導入・運用が可能です。
3. サーバーライセンス制:従量課金なしで安定運用
多くのETLツールがデータ量や同期頻度に応じた従量課金モデルを採用している中、CData Syncはサーバーライセンス制を採用しています。
これにより、データ量が多い環境でもコストが予測しやすく、安定した運用が可能です。特にエンタープライズ環境では、予算管理のしやすさが大きなメリットとなります。
ライセンスオプションに関しては以下の公式をご確認ください。
https://jp.cdata.com/sync/pricing/
4. インストール型でフルコントロール:クラウドでもオンプレでも自由に構築
CData Syncはインストール型のETLツールであり、オンプレミス環境や閉域網、クラウドVM(EC2、GCEなど)にも柔軟に構築できます。
これにより、セキュリティポリシーやネットワーク制約に応じたフルコントロールの運用が可能です。
SaaS型ツールでは難しい細かなログ確認やカスタムクエリの実行も、CData Syncなら対応できます。
構成について
Privateサブネット内のEC2にCData Syncをインストールし、CData Syncサーバとして構築しました。
CData SyncサーバはNat gatewayを通じてインターネットにアクセスできるようにしています。
CData Syncサーバの構築
今回は、CData Sync version 24.3.9121の構築を実施します。AWS周りの構築について、本記事では省略します。
CData Syncのインストールについては、こちらの公式ドキュメントを参考にしています。
EC2インスタンスのシステム要件
Windows Server 2025のEC2インスタンスにCData Syncをインストールします。
CData Sync公式のシステム要件は以下となっています。
CData Sync のシステム要件
このセクションでは、CData Sync のシステム要件について説明します。これらの要件は、オンプレミスアプリケーションと仮想マシンの両方に適用されます。
推奨される最小要件: 4 GB RAM(大量のトラフィックが発生する場合は8+ GB 推奨)
ジョブロギングに十分な空きディスク容量
引用元:CData Sync - インストールと設定 | 24.3.9121
CPUに関して、1ジョブ1コアを目安に考えれば問題ないと思います。2並列実行の場合は2コアないと処理に影響(処理が重くなる等)が発生する可能性が高いです。
今回は一から作成していますが、CData Syncが提供しているAMIでは以下のインスタンスタイプが推奨されています。
- m5d.large
ディスク容量に関しては、インストール時に生成されるインストールファルダとアプリケーションファルダはそれぞれ500MBほどです。
そのため、インストール時に必要なディスク容量はそれほど大きくありません。スモールスタートであれば30GBほどで十分だと思います。
しかし、本格稼働する場合はログの容量や拡張型CDCジョブの場合ステージファイルの保存容量などを考慮する必要があります。
ジョブやタスクの数は実行間隔、ログの保存期間、CDCジョブで生成されるステージファイルであればデータソースのデータ更新量に左右されるため、様子を見つつストレージを追加していく必要があるかと思います。
CData Syncのダウンロード
CData Syncのインストーラーは以下のURLからダウンロードすることができます。
https://jp.cdata.com/sync/builds/
CData Syncを利用するにはインストール後にライセンスを登録する必要があります。
※ 以下のURLから申請する事で30日間の無償トライアルライセンスを取得可能です
https://jp.cdata.com/sync/trial/
CData Syncのインストール
Windows Serverにログインし、ダウンロードした以下のインストーラーを実行します。
- CDataSync.exe
CData Syncのセットアップ
インストーラーを実行すると、セットアップ画面が表示されます。バージョンを確認し問題なければ「Next」をクリックして次に進めます。
ライセンスについての使用許諾
ライセンス使用についての許諾契約書を確認し、「I Agree」をクリックして次に進めます。
インストール先フォルダの指定
こちらのセットアップ画面ではインストール先のフォルダを指定します。
デフォルトでも問題ないですが、今回はCData Sync用としてDドライブを追加しているため、以下のフォルダパスを指定しました。
- D:\CData\CData Sync\
コンポーネントの選択
すべての項目にチェックがついていることを確認し、「Next」をクリックして次に進めます。
スタートメニューフォルダの選択
以下のCData Syncのショートカットを格納するフォルダ名を指定します。デフォルトのままで問題ないです。
- Start CData Sync
- Stop CData Sync
インストールの実行
「Inatall」をクリックし、インストールを実行します。
正常にインストールが完了すると以下の表示になります。「Finish」をクリックしてインストール完了です。
生成フォルダの確認
インストールが完了すると、「インストール先フォルダの指定」手順で設定したフォルダに以下の2つのフォルダが作成されます。それぞれが作成されていることを確認してください。
- CData Sync(インストールファルダ)
- sync(アプリケーションファルダ)
ライセンスの登録
インストールが完了すると自動的にCData Syncが起動し、UIが表示されます。
初期アカウントの作成が完了すると以下のライセンス画面に移るので「ライセンスを追加」をクリックします。
ラインセンスの種類から「プロダクトキー」を選択します。
代表者の「名前」「Eメール」と、ライセンス取得時に共有された「プロダクトキー」を入力し、「同意します。」にチェックを入れて「保存」することで登録が完了します。
プロダクトキーによる登録にはインターネット接続が必要になります。オフライン環境での登録の場合は、ライセンスファイルによる登録を実施してみてください。
※ CDataサポートに問い合わせることでライセンスファイルの取得が可能です。
(参考)CData SyncのJavaヒープ領域の変更
デフォルトでは、Java仮想マシンは利用可能なシステムメモリの1/4の最大ヒープ領域と、システムメモリの1/64の最小ヒープ領域を自動的に割り当てます。
メモリ容量が限られているマシンでは、大規模な処理に対してJava仮想マシンがヒープ領域に割り当てる最大メモリが少なすぎる場合があり、Javaヒープ領域エラーが発生してジョブが失敗する可能性があります。
Windowsの場合、以下の設定ファイルからJavaの最小最大ヒープ領域を設定することが可能です。
- <インストールフォルダ>\sync.exe.config
今回は、最小 Java ヒープスペースを 2GB、最大ヒープスペースを 10GB に設定します。
変更前(デフォルト)の設定ファイルはこのようになっています。
<?xml version="1.0" encoding="utf-8" ?>
<configuration>
<startup>
<supportedRuntime version="v4.0" />
</startup>
<!-- You can add some Java JVM parameters here. This is for Java application only.
<appSettings>
<add key="JAVA_OPTS" value="" />
</appSettings>
-->
変更後の設定ファイルです。
<?xml version="1.0" encoding="utf-8" ?>
<configuration>
<startup>
<supportedRuntime version="v4.0" />
</startup>
<!-- You can add some Java JVM parameters here. This is for Java application only. -->
<appSettings>
<add key="JAVA_OPTS" value="-Xms2g -Xmx10g" />
</appSettings>
</configuration>
まとめ
本記事を最後までお読みいただき、ありがとうございます。
CData Syncの導入を検討している方の参考になれば幸いです。
稻留 敬太(日本ビジネスシステムズ株式会社)
新卒からHadoopなどビッグデータ基盤周りの業務に着手。現在は、データエンジニアとしてSnowflakeを中心にETLなどの開発業務やデータパイプラインの運用業務を担当。趣味はスニーカー収集。
担当記事一覧