メイン コンテンツをスキップする 補完的コンテンツへスキップ

動的選択を使ってデータセットをクローリング

動的クローラーモードでは、フィルターを作成し、指定された時間に一致するテーブルをすべて取得できます。

このモードの主な利点は、データベースに含まれているテーブルをフィルターを使うことで発見しやすくなる点です。また、クローラーを定期的に実行してデータセットのクオリティをアップデートしたり、新しいテーブルを追加したりすることもできます。

データセットの名前に西暦の下2桁を使用している企業の例を考えてみましょう。データが含まれているテーブルはSnowflakeデータベースに格納されており、そこには顧客、売上、レポートといった情報が入っています。この企業は、2021年のデータを持つ全テーブルをTalend Cloud Data Inventoryに追加し、シンプルな再実行操作で、新しい追加データをインポートしたり、既存のデータセットを更新できるようにしたいと考えています。

最善の方法は、Snowflake接続を作成し、動的選択モードを使ってクロールすることです。

始める前に

複数データセットのクローリングに説明されているように、クローラー設定ウィンドウがすでに開かれていること。

手順

  1. [Dynamic selection] (動的選択)モードを選択します。
    Snowflake接続の内容がすべて検出され、リスト表示されます。
    Snowflake接続の全コンテンツの動的選択。
  2. [Add filter] (フィルターを追加) > [Name] (名前) > [Contains] (含む)をクリックし、_21と入力します。
    選択プレビューに、2021年の情報が含まれているテーブルのみが表示されます。
    動的選択にフィルターが適用されている状態。
    情報メモ注: フィルターが追加されなかった場合は、Snowflakeデータベースの全テーブルが選択されます。
  3. [Next] (次へ)をクリックし、共有設定を行います。
  4. [Next] (次へ)をクリックし、クローラーの名前(この場合はSnowflake dynamic)と説明(All tables with data from 2021など)を入力します。
  5. [Run] (実行)をクリックします。

タスクの結果

クロールが開始され、テーブルがデータセットとしてインベントリーに順次追加されます。指定されたデータセットのサンプルが利用可能になったら、そのデータセットを使い始めることができます。

Snowflakeデータベースに何らかの変更が発生した(たとえば関連する2021年のデータを持ち、_21という名前が付けられた新しいテーブルが利用可能になったり、既に存在するテーブルのデータがアップデートされたりした)場合でも、接続リストからSnowflakeの接続を選択し、既存のクローラーを再実行するだけで結構です。_21という名前フィルターに一致する新しいテーブルが選択リストに直接追加され、他のデータセットはすべてアップデートされます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。