メイン コンテンツをスキップする 補完的コンテンツへスキップ

データセットの管理

ランディングストレージ変換データ マートレプリケーションのデータ タスクに含まれるデータセットを管理して、変換の作成、データのフィルタリング、列の追加ができます。

含まれるデータセットは、 [デザイン] ビューの [データセット] の下に表示されます。列ピッカー (列ピッカー) を使用して、表示する列を選択できます。

データ タスクの [デザイン] ビューの [データセット]

データ タスクの [デザイン] ビューの [データセット]
video thumbnail

変換ルールと明示的な変換

グローバル変換と明示的な変換の両方を実行できます。

変換ルール

グローバル変換は、スコープにワイルド カードとして% を使用し、一致するすべてのデータセットに適用する変換ルールを作成することにより実行できます。

変換ルールは、影響を受ける属性の角が濃い紫色で示されます。

明示的な変換

明示的な変換は、次のときに作成されます。

  • [編集] を使用して列の属性を変更するとき

  • データセットで [名前の変更] を使用するとき。

  • 列を追加するとき。

明示的な変換は、グローバル変換を上書きし、影響を受ける属性の角が薄い紫色で示されます。

データセット モデル

データセットは、タスク タイプとタスクの操作に応じて、ソースベースまたはターゲットベースのいずれかになります。使用するデータセット モデルは、ソース変更時のパイプラインの動作や、実行できる操作に影響します。

  • データセットはソース データセットをベースにしており、メタデータの変更のみが保持されます。ソースデータの変更は自動的に適用され、すべてのダウンストリームタスクに変更が生じる可能性があります。列の順序の変更、またはソース データセットの変更はできません。

    ランディング、ストレージ、登録済みデータ、レプリケーション、データ レイクへのランディングのタスク タイプでは、常にソースベースのデータセット モデルが使用されます。

  • データセットは、ターゲットのメタデータに基づいています。ソースに対して列が追加または削除されても、次のダウンストリーム タスクに自動的に適用されるわけではありません。列の順序の変更、およびデータ ソースの変更ができます。つまり、タスクはより自己完結的になり、ソースの変更の影響を制御できるようになります。

    変換、およびデータ マートのタスク タイプでは、ターゲットベースのデータセット モデルを使用できます。操作によっては、変換タスクにソースベースのモデルが使用される場合があります。

    • SQL 変換または変換フローが列選択を実行する場合、データセットはターゲットベースになります。たとえば、SQL 変換で SELECT A, B, C from XYZ を使用する場合、または変換フローで [列を選択] プロセッサーを使用する場合などです。

    • 既定の列が維持されている場合、データセットはソースベースになります。たとえば、SQL 変換で SELECT * from XYZ を使用する場合などです。

ソースベース モデルからターゲットベース モデルへのプロジェクトの更新

該当する場合、既存のプロジェクトは、ターゲットベースのデータセット モデルに更新されます。プロジェクトを初めて開くときに、更新プロセスが開始されます。異なるデータセットモデルを持つプロジェクトのインポートとエクスポートには、いくつかの考慮事項があります。

  • ソースベース モデルを持つプロジェクトをターゲットベース モデルを持つプロジェクトにインポートすることはできません。

    ソースベースのモデルを含むプロジェクトを新しいプロジェクトにインポートし、新しいプロジェクトを更新して、結果のプロジェクトをエクスポートします。これで、このプロジェクトをターゲットベース モデルを使用してプロジェクトに再インポートできるようになりました。

  • ターゲットベース モデルを持つプロジェクトをソースベース モデルを持つプロジェクトにインポートすることはできません。

    ターゲットベース モデルを持つプロジェクトをインポートする前に、プロジェクトをターゲットベース モデルに更新します。

データセットのフィルタリング

情報メモデータセットをフィルタリングする機能は、Qlik Data Gateway - Data Movement、ストレージ、変換データ タスク経由でデータをランディングするデータ タスクのランディングにのみ使用できます。

必要に応じて、データをフィルタリングして行のサブセットを作成できます。

  • [フィルター] をクリックします。

詳細については、「データセットのフィルタリング」を参照してください。

データセットの名前の変更

データセットの名前を変更できます。

  • データセット上で [詳細] をクリックし、次に [編集] をクリックします。

列の追加

必要に応じて、行レベルの変換で列を追加できます。

  • [列を追加] をクリックします

詳細については、「データセットへの列の追加」を参照してください。

列の編集

列を選択して [編集] をクリックすると、列のプロパティを編集できます。

  • 名前

  • キー

    主キーとなる列を設定します。[キー] 列で選択または選択解除して、キーを設定することもできます。

  • Null 可能

  • データ型

    列のデータ型を設定します。一部のデータ型では、 [長さ] などの追加のプロパティを設定できます。

    情報メモ列のデータ型やデータ型のサイズを変更すると、データセットを使用するタスクに影響を与える可能性があります。詳細については、「データ型の管理」を参照してください。

列の削除

データセットから 1 つまたは複数の列を削除できます。

  • 削除する列を選択し、 [削除] をクリックします。

削除された列を表示するには、 [削除された列を表示] をクリックします。削除された列は、取り消し線付きのテキストで示されます。削除された列を選択し、 [元に戻す] をクリックすると、削除された列を復元できます。

ヒント メモ追加した列を削除するには、列を選択して [元に戻す] をクリックします。

列への明示的な変更を元に戻す

1 つまたは複数の列に対する、すべての明示的な変更を元に戻すことができます。

  • 変更を元に戻す列を選択し、 [元に戻す] をクリックします。

グローバル変換ルールからの変更は元に戻すことができません。

追加した列を元に戻すと、その列は削除されます。

データセットの設定

データセットの設定を変更できます。既定の設定ではデータ アセットの設定を継承しますが、設定を明示的にオンまたはオフに変更することもできます。

  • データセットで 詳細 をクリックしてから、 [設定] をクリックします。

データの表示

データのサンプルを表示して、データ パイプラインを設計しながらデータの形状を表示して検証することができます。

以下の要件を満たす必要があります。

  • Administration アクティビティ センターのテナント レベルでデータの表示が有効になっている。

    有効にするには、 [設定] ページに移動し、 [機能コントロール] タブを選択して、 [データ統合 でデータを表示] をオンにします。

  • 接続が常駐するスペースで [データ表示可能] のロールが割り当てられている。

  • プロジェクトが常駐するスペースで [表示可能] の役割が割り当てられています。

情報メモ個人スペースにプロジェクトと接続が作成されると、所有者はいつでもデータを表示できます。

[設計] ビュー内の [データセット] タブでサンプル データを表示するには、

  • [物理オブジェクト] にある [データを表示] をクリックします。

データのサンプルが表示されます。[列の数] でサンプルに含めるデータ列の数を設定できます。

データセットとテーブルの間を変更するには、

  • [データセット] を選択して、データの理論表現を表示します。

  • [物理オブジェクト] 選択して、データベースの物理表現をテーブルおよびビューとして表示します。

    ニュース メモ物理表現がまだ作成されていない場合、このオプションは使用できません。

サンプル データをフィルターするには、2 つの方法があります。

  • フィルター を使用して、取得するサンプル データをフィルターします。

    例えば、フィルター ${OrderYear}>2023 を使用し、[列の数] を 10 に設定すると、2024 年から 10 個の注文のサンプルを取得します。

  • 特定の列でサンプル データをフィルターします。

    これは、既存のサンプル データのみに作用します。フィルター を使用して 2024 年の注文のみを含め、列フィルターで 2022 年の注文を表示するように設定すると、サンプルは空になります。

データ サンプルを特定の列順に並べ替えることもできます。並べ替えは、既存のサンプル データのみに作用します。フィルター を使用して 2024 年の注文のみを含め、列順序を逆にしても、サンプル データには 2024 年の注文のみが含まれます。

データ ビューの列を非表示にすることができます。

  • 単一列を非表示にするには、列で 詳細 をクリックしてから、[列を非表示] をクリックします。

  • 複数列を非表示にするには、任意の列で 詳細 をクリックしてから、[列を表示] をクリックします。これにより、ビュー内にあるすべての列の可視性を制御できます。

データセットの検証と調整

データ タスクに含まれるすべてのデータセットを検証できます。

[Validate and adjust (検証と調整)] を展開して、すべての検証エラーと設計変更を確認します。

データセットの検証

  • [データセットを検証する] をクリックして、データセットを検証します。

検証には、次のチェックが含まれます。

  • すべてのテーブルに主キーがあること

  • 不足している属性がないこと。

  • 重複するテーブル名または列名がないこと。

ソースと比較した設計変更のリストも表示されます。

  • 追加されたテーブルと列

  • 削除されたテーブルと列

  • 名前が変更されたテーブルと列

  • 変更された主キーとデータ型

[Validate and adjust (検証と調整)] を展開して、すべての検証エラーと設計変更を確認します。

  • 検証エラーを修正してから、データ セットを再度検証します。

  • 主キーやデータ型の変更を除いて、ほとんどの設計変更は自動的に調整できます。その場合には、データセットを同期する必要があります。

データセットの準備

可能な場合は、データを損失することなくデータセットを準備して設計変更を調整できます。データを損失することなく設計変更を調整できない場合は、データの損失ありでソースからテーブルを再作成するかどうかを選択するオプションが表示されます。

これには、タスクを停止する必要があります。

  • 詳細、[準備] の順番でクリックします。

データセットが準備されたら、ストレージ タスクを再開する前にデータセットを検証します。

データセットの再作成

ソースからデータセットを再作成することができます。データセットを再作成すると、データが失われます。ソース データがある限り、ソースデータをソースからリロードすることができます。

情報メモ個々のテーブルに問題がある場合は、最初にテーブルを再作成するのではなく、リロードしてみることをお勧めします。テーブルを再作成すると、過去のデータが失われる可能性があります。重大な変更があった場合は、データをリロードできるよう、再作成されたデータ タスクを使用するダウンストリームのデータ タスクを準備することも必要です。

これには、タスクを停止する必要があります。

  • 詳細 をクリックしてから、 [テーブルを再作成] をクリックします。

制限事項

  • Google BigQuery では、列を削除または名前を変更すると、テーブルが再作成され、データが失われます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。