プレパレーションのバージョン管理
データの作業を行う際、バージョンを作成してプレパレーションの状態をキャプチャーするかどうかを決定できます。
ステップをまだ何も適用していなくても、バージョンの作成はいつでもできます。バージョンを作成すると、タイムスタンプと簡潔な説明でプレパレーションを特定の状態に固定できます。
[Manage versions] (バージョンの管理)ボタンを使って、プレパレーションの新しいバージョンを作成するか、作成済みのバージョンを読み取り専用モードで確認します。各バージョンは個別にエクスポートできます。
プレパレーションにバージョンを追加すると、長期的なプレパレーションの相違を確認しやすくなりますが、その主要な目的は、プレパレーションでまだ作業が行われている場合でも、Talendジョブで使われるプレパレーションを常に同じ状態に確実に維持することです。バージョンはデータ統合でもビッグデータジョブでも使用できます。
プレパレーションのバージョンは、プレパレーションをフォルダー構造間で共有または移動する時にプロパゲートされますが、新しいデータセットにコピーまたは適用する時はプロパゲートされません。
プレパレーションのバージョンを作成
以下の例では、データに対していくつかのプレパレーションステップを実行し、2つの異なる時期のバージョンを作成し、バージョン間の切り替えおよびプレパレーションの現在の状態への切り替えを確認します。
ここで使用するデータセットには、名前、職業、電話番号、メールアドレスなどの顧客データが格納されていますが、一部クレンジングが必要です。先頭や末尾の空白、大文字小文字のばらつきなど、顧客名を含んだカラムにはフォーマットの不一致があります。また、各種電話番号やメールアドレスが無効です。
プレパレーションを進めながら、2つの異なる時期のプレパレーションの状態を反映した2つのバージョンを作成します。
Procedure
Results
クレンジングプロセスの2つのステップでのプレパレーションの状態をキャプチャーするために、プレパレーションの2つのバージョンを作成しました。これらのバージョンのいずれかをエクスポートしてTalendジョブで使用することも、プレパレーションの現在の状態を編集し続けることもできます。
Talendジョブでバージョンを使用
Talend Studioでは、プレパレーションのバージョンをデータ統合またはビッグデータジョブ内で使用できます。
Talend Studioでは、tDataprepRunコンポーネントにより、プレパレーションまたはそのバージョンのいずれかを再使用して、同じモデルのデータに適用できます。
プレパレーションをその現在の状態で使用することもできますが、特定のバージョンを使用すれば、プレパレーションがまだ作業中でも、ジョブで使用されるプレパレーションの状態を常に同じに保つことができるため、より高い整合性を維持できます。
以下の例では、Salesforce入力データに既存のプレパレーションを適用し、Redshiftデータベースにその結果を出力するジョブを示します。
このプレパレーションは、基本的な顧客情報(名前、電話番号、メールアドレスなど)が含まれているデータセットに作成されたものです。名前エントリーのフォーマットエラーを排除し、電話番号から無効な値を削除するためにいくつかのステップが適用されています。
プレパレーション中に2つのバージョン(1つは最初の2つのステップの後に、もう1つは3番目のステップの後に)が作成されました。
Before you begin
- 少なくとも1つのバージョンを持つプレパレーションをTalend Cloud Data Preparation内で作成済みです。この場合、既存のプレパレーションはcontacts cleansingです。
- Salesforceからインポートしたデータのスキーマは、最初にプレパレーションの作成に使ったデータセットと同じスキーマであることが必要です。
Procedure
Results
選択したバージョンのプレパレーションに含まれるすべてのプレパレーションステップが、ジョブのフロー内で直接データに適用されます。