メイン コンテンツをスキップする 補完的コンテンツへスキップ

プレパレーションのバージョン管理

データの作業を行う際、バージョンを作成してプレパレーションの状態をキャプチャーするかどうかを決定できます。

ステップをまだ何も適用していなくても、バージョンの作成はいつでもできます。バージョンを作成すると、タイムスタンプと簡潔な説明でプレパレーションを特定の状態に固定できます。

[バージョン]タブが開かれている状態。

[Manage versions] (バージョンの管理)ボタンを使って、プレパレーションの新しいバージョンを作成するか、作成済みのバージョンを読み取り専用モードで確認します。各バージョンは個別にエクスポートできます。

プレパレーションにバージョンを追加すると、長期的なプレパレーションの相違を確認しやすくなりますが、その主要な目的は、プレパレーションでまだ作業が行われている場合でも、Talendジョブで使われるプレパレーションを常に同じ状態に確実に維持することです。バージョンはデータ統合でもビッグデータジョブでも使用できます。

プレパレーションのバージョンは、プレパレーションをフォルダー構造間で共有または移動する時にプロパゲートされますが、新しいデータセットにコピーまたは適用する時はプロパゲートされません。

プレパレーションのバージョンを作成

以下の例では、データに対していくつかのプレパレーションステップを実行し、2つの異なる時期のバージョンを作成し、バージョン間の切り替えおよびプレパレーションの現在の状態への切り替えを確認します。

ここで使用するデータセットには、名前、職業、電話番号、メールアドレスなどの顧客データが格納されていますが、一部クレンジングが必要です。先頭や末尾の空白、大文字小文字のばらつきなど、顧客名を含んだカラムにはフォーマットの不一致があります。また、各種電話番号やメールアドレスが無効です。

データセットに顧客データが含まれている状態。

プレパレーションを進めながら、2つの異なる時期のプレパレーションの状態を反映した2つのバージョンを作成します。

Procedure

  1. [First_name]カラムのヘッダーをクリックし、Ctrlキーを押したままLast_nameカラムのヘッダーをクリックします。

    2つのカラムの内容が選択されます。

  2. [Remove trailing and leading characters] (末尾文字と先頭文字を削除)ファンクションと[Change to title case] (単語の先頭文字が大文字になるようにスタイルを変換)ファンクションを適用して、空白を除去し、大文字小文字を調整します。
    末尾と先頭の文字を削除し、大文字と小文字を区別するファンクションが適用された状態。

    プレパレーションの最初の大きなステップは、これらのフォーマットエラーのマークを消去することです。次に、これらの変更を追跡するためのバージョンを作成します。

  3. ヘッダーバーにある[Manage versions] (バージョンの管理)ボタンをクリックします。

    ファンクションパネル[Versions] (バージョン)パネルに切り替わります。このプレパレーションにはまだバージョンがないため、パネルは空です。

    [バージョン]パネルが開かれている状態。

    [Manage versions] (バージョンの管理)ボタンによる新しいバージョンの追加は、管理者権限のあるTalend Data Preparationユーザーしか実行できません。他のユーザーは既存のバージョンを読み取り専用モードで確認することしかできません。

  4. [Add version] (バージョンの追加)ボタンをクリックします。
  5. 対応するフィールド、この例では[Fixing formatting errors in names] (名前のフォーマットエラーの修正)にバージョンの簡単な説明を入力して、[Add version] (バージョンの追加)をクリックします。
    [バージョン]パネルが開かれている状態。

    バージョンがタイムスタンプ、ユーザーが追加した説明と共に[Versions] (バージョン)パネルに表示されます。

    [バージョン]パネルが1つのバージョン番号と共に開かれている状態。
  6. バージョンをクリックして読み取り専用モードでアクセスします。

    フィルターを適用してデータを参照できますが、ファンクションを適用することはできません。

  7. 読み取り専用モードを終了して、データの準備を再開するには、ヘッダーバーにある[Switch to current state] (現在の状態に切り替え)をクリックします。

    これで編集モードに戻ります。

  8. PhoneカラムとEmailカラムから残りの無効なエントリーをクレンジングするには、グリッド左上のメニューアイコンをクリックし、[Display rows with invalid or empty values] (値が無効または空の行を表示)を選択します。
  9. ファンクションパネルから[Delete these filtered rows] (フィルタリング済みの行を削除)ファンクションを選択します。
    [フィルタリング済みの行を削除]オプション。

    無効な値がすべてデータセットから削除されたので、この状態をキャプチャーするための別のバージョンを作成します。

  10. ステップ35を繰り返して新しいバージョンを作成しますが、今回は説明としてRemoving all invalid valuesと入力します。

    2つのバージョンが[Versions] (バージョン)パネルに表示され、読み取り専用モードでアクセスできます。

    [バージョン]パネルが2つのバージョン番号と共に開かれている状態。

Results

クレンジングプロセスの2つのステップでのプレパレーションの状態をキャプチャーするために、プレパレーションの2つのバージョンを作成しました。これらのバージョンのいずれかをエクスポートしてTalendジョブで使用することも、プレパレーションの現在の状態を編集し続けることもできます。

Talendジョブでバージョンを使用

Talend Studioでは、プレパレーションのバージョンをデータ統合またはビッグデータジョブ内で使用できます。

Talend Studioでは、tDataprepRunコンポーネントにより、プレパレーションまたはそのバージョンのいずれかを再使用して、同じモデルのデータに適用できます。

情報メモNote: tDataprepRunTalend Cloud Data Preparationコンポーネントを使用するには、Talend Studioバージョン7.1以上が必要です。

プレパレーションをその現在の状態で使用することもできますが、特定のバージョンを使用すれば、プレパレーションがまだ作業中でも、ジョブで使用されるプレパレーションの状態を常に同じに保つことができるため、より高い整合性を維持できます。

以下の例では、Salesforce入力データに既存のプレパレーションを適用し、Redshiftデータベースにその結果を出力するジョブを示します。

Talend Studioにジョブが表示されている状態。

このプレパレーションは、基本的な顧客情報(名前、電話番号、メールアドレスなど)が含まれているデータセットに作成されたものです。名前エントリーのフォーマットエラーを排除し、電話番号から無効な値を削除するためにいくつかのステップが適用されています。

プレパレーションに既に行われたクレンジングステップ。

プレパレーション中に2つのバージョン(1つは最初の2つのステップの後に、もう1つは3番目のステップの後に)が作成されました。

バージョンを示した図。

Before you begin

  • 少なくとも1つのバージョンを持つプレパレーションをTalend Cloud Data Preparation内で作成済みです。この場合、既存のプレパレーションはcontacts cleansingです。
  • Salesforceからインポートしたデータのスキーマは、最初にプレパレーションの作成に使ったデータセットと同じスキーマであることが必要です。

Procedure

  1. 新しい標準ジョブまたはSparkジョブをTalend Studioで作成します。
  2. Talend StudioのデザインワークスペースでtSalesforceInputtDataprepRun、tRedshiftOutputを追加し、2つの[Row] (行) > [Main] (メイン)リンクを使ってリンクします。
  3. tSalesforceInputコンポーネントを選択し、[Component] (コンポーネント)タブをクリックして基本設定を定義します。

    tSalesforceInputコンポーネントのスキーマは必ず、tDataprepRunコンポーネントによって予測されるスキーマに一致させてください。

  4. tDataprepRunコンポーネントを選択し、[Component] (コンポーネント)タブをクリックして基本設定を定義します。
    Talend StudioでのtDataprepRunコンポーネントのプロパティ。
  5. Talend Cloud Data Preparationの接続情報を入力します。
  6. [Choose an existing preparation] (既存のプレパレーションを選択)をクリックして、Talend Cloud Data Preparationで使用可能なプレパレーションのリストを表示します。
    Talend Studioで[既存のプレパレーションを選択]ダイアログボックスが開かれている状態。
  7. 適用するプレパレーションのバージョンを含んだcontacts cleansingの前のチェックボックスをオンにして、[OK]をクリックします。
  8. [choose a version] (バージョンを選択)をクリックして、プレパレーションの使用可能なバージョンのリストからバージョンを選択します。この場合、バージョン1を選択します。
    Talend Studioで[バージョンを設定]ダイアログボックスが開かれている状態。

    ジョブでは、選択されたプレパレーションの現在の状態がデフォルトで使用されます。共同作業の状況で、一定のバージョンの代わりに現在の状態を使用すると、知らないうちに誰かがプレパレーションに変更を加える可能性があります。その結果、ジョブの結果がどうなるのか正確に把握できなくなります。このような理由から、ジョブでバージョンを使用した方が安全です。

  9. [Fetch Schema] (スキーマを取得)をクリックして、contacts cleansingのスキーマを取得します。
  10. tRedshiftOutputコンポーネントを選択し、[Component] (コンポーネント)タブをクリックして基本設定を定義します。
  11. ジョブを保存し、F6を押して実行します。

Results

選択したバージョンのプレパレーションに含まれるすべてのプレパレーションステップが、ジョブのフロー内で直接データに適用されます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。