大規模データセットで作業

Talend Cloud Data Preparationで10,000行を超えるデータセットは、デフォルトで大規模データセットと見なされます。

作成できるデータセットのサイズについて何の制約もない場合でも、大規模データセットのエクスポート設定と表示は通常のデータセットとは異なります。サンプルでは最初の10,000行を表示して作業できますが、表記は残りのデータセットにも適用されます。次のシナリオは、50,000行が含まれているデータセットの例です。

大型のデータセットからより多くのデータをフェッチ

Talend Cloud Data Preparationで大規模データセットで作業をする場合、たとえば50,000行であれば、最初の10,000行のサンプルだけが表示されます。

他のデータセットの場合と同様に、データの準備を開始してファンクションを適用できます。ただし、いずれかのタイプのフィルターをデータに適用する場合は例外です。サンプルで作業をしているので、最初の10,000行の中から一致する行だけが取得されます。ただし、残りの40,000行から一致する行をさらに取得し、この新しいサンプルに基づいてプレパレーションを調整することもできます。

手順

グリッドの左上にあるメニューアイコンをクリックして、[Display rows with invalid or empty values] (値が無効または空の行を表示)を選択します。

フィルターが正しく適用され、一致する行だけがグリッドに表示されていることがフィルターバーで確認できます。その他のフィルターも選択できます。さらに、データのカテゴリーにフィルターを適用するオプションは、サンプルに一致する値がない場合でも個別のカラムに対して使用できます。カラムヘッダーのメニューアイコンをクリックして、利用可能なオプションを表示します。

フィルターバーの[Fetch more] (さらに取得)ボタンを見ると、現在サンプルで作業をしていること、およびより多くの行がフィルターに一致している可能性があることもわかります。
[Fetch more] (さらに取得)をクリックして、現在のフィルターに一致する行をさらに取得します。

[Fetch additional rows] (行をさらにフェッチ)ダイアログボックスが開いたら、データの取得状況を確認できます。

10,000行の結果に達した時、またはデータセットの終了に達すると、Talend Cloud Data Preparationは自動的に停止します。ユーザーがプロセスを停止して、既に見つかった行を表示することもできます。停止後、画面がグリッドに戻します。画面上の作業対象サンプルは、フェッチした行で構成されています。今後適用するフィルターまたはファンクションは、このサンプルだけに適用されます。

適用するために最初に選択したフィルターがどの行とも一致しない場合は、すべてのフィルターを消去することも、データセット全体を検索して一致する行がないか探すこともできます。
サンプルを最初の状態に戻すには、すべてのフィルターを消去します。
各フィルターのバツ印をクリックするか、ごみ箱アイコンをクリックしてフィルターを消去します。

タスクの結果

グリッドには再び、データセットの最初の10,000行が表示されるので、データの準備を続行できます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください