メイン コンテンツをスキップする 補完的コンテンツへスキップ

データセットの管理

ランディングストレージ変換データ マートレプリケーションのデータ タスクに含まれるデータセットを管理して、変換の作成、データのフィルタリング、列の追加ができます。

含まれるデータセットは、 [デザイン] ビューの [データセット] の下に表示されます。列ピッカー (列ピッカー) を使用して、表示する列を選択できます。

データ タスクの [デザイン] ビューの [データセット]

データ タスクの [デザイン] ビューの [データセット]

変換ルールと明示的な変換

グローバル変換と明示的な変換の両方を実行できます。

変換ルール

グローバル変換は、スコープにワイルド カードとして% を使用し、一致するすべてのデータセットに適用する変換ルールを作成することにより実行できます。

変換ルールは、影響を受ける属性の角が濃い紫色で示されます。

明示的な変換

明示的な変換は、次のときに作成されます。

  • [編集] を使用して列の属性を変更するとき

  • データセットで [名前の変更] を使用するとき。

  • 列を追加するとき。

明示的な変換は、グローバル変換を上書きし、影響を受ける属性の角が薄い紫色で示されます。

データセット モデル

データセットは、タスク タイプとタスクの操作に応じて、ソースベースまたはターゲットベースのいずれかになります。使用するデータセット モデルは、ソース変更時のパイプラインの動作や、実行できる操作に影響します。

  • データセットはソース データセットをベースにしており、メタデータの変更のみが保持されます。ソースデータの変更は自動的に適用され、すべてのダウンストリームタスクに変更が生じる可能性があります。列の順序の変更、またはソース データセットの変更はできません。

    ランディング、ストレージ、登録済みデータ、レプリケーション、データ レイクへのランディングのタスク タイプでは、常にソースベースのデータセット モデルが使用されます。

  • データセットは、ターゲットのメタデータに基づいています。ソースに対して列が追加または削除されても、次のダウンストリーム タスクに自動的に適用されるわけではありません。列の順序の変更、およびデータ ソースの変更ができます。つまり、タスクはより自己完結的になり、ソースの変更の影響を制御できるようになります。

    変換、およびデータ マートのタスク タイプでは、ターゲットベースのデータセット モデルを使用できます。操作によっては、変換タスクにソースベースのモデルが使用される場合があります。

    • SQL 変換または変換フローが列選択を実行する場合、データセットはターゲットベースになります。たとえば、SQL 変換で SELECT A, B, C from XYZ を使用する場合、または変換フローで [列を選択] プロセッサーを使用する場合などです。

    • 既定の列が維持されている場合、データセットはソースベースになります。たとえば、SQL 変換で SELECT * from XYZ を使用する場合などです。

ソースベース モデルからターゲットベース モデルへのプロジェクトの更新

該当する場合、既存のプロジェクトは、ターゲットベースのデータセット モデルに更新されます。プロジェクトを初めて開くときに、更新プロセスが開始されます。異なるデータセットモデルを持つプロジェクトのインポートとエクスポートには、いくつかの考慮事項があります。

  • ソースベース モデルを持つプロジェクトをターゲットベース モデルを持つプロジェクトにインポートすることはできません。

    ソースベースのモデルを含むプロジェクトを新しいプロジェクトにインポートし、新しいプロジェクトを更新して、結果のプロジェクトをエクスポートします。これで、このプロジェクトをターゲットベース モデルを使用してプロジェクトに再インポートできるようになりました。

  • ターゲットベース モデルを持つプロジェクトをソースベース モデルを持つプロジェクトにインポートすることはできません。

    ターゲットベース モデルを持つプロジェクトをインポートする前に、プロジェクトをターゲットベース モデルに更新します。

データセットのフィルタリング

情報メモデータセットをフィルタリングする機能は、Qlik Data Gateway - データ移動、ストレージ、変換データ タスク経由でデータをランディングするデータ タスクのランディングにのみ使用できます。

必要に応じて、データをフィルタリングして行のサブセットを作成できます。

  • [フィルター] をクリックします。

詳細については、「データセットのフィルタリング」を参照してください。

データセットの名前の変更

データセットの名前を変更できます。

  • データセットで をクリックしてから、 [名前を変更] をクリックします。

列の追加

必要に応じて、行レベルの変換で列を追加できます。

  • [列を追加] をクリックします

詳細については、「データセットへの列の追加」を参照してください。

列の編集

列を選択して [編集] をクリックすると、列のプロパティを編集できます。

  • 名前

  • キー

    主キーとなる列を設定します。[キー] 列で選択または選択解除して、キーを設定することもできます。

  • Null 可能

  • データ型

    列のデータ型を設定します。一部のデータ型では、 [長さ] などの追加のプロパティを設定できます。

データ型の変更による影響を理解する

データ型のサイズの変更、または別のデータ型への切り替えには、次の 2 つの一般的なユース ケースがあります。

  • 現在のデータ型に適合しないデータを取り込む。
  • より高い数値精度が求められる。例: SMALLINT を DECIMAL (p,s) に変更。

ほとんどの場合、データ型を変更すると ALTER TABLE 操作が実行され、データの損失を防ぐことができます。たとえば、以前のデータ型が STRING (25) で、新しいデータ型が STRING (50) の場合、新しいデータ型の列のデータは問題なく更新されます。ただし、場合によっては、データ型を変更するとテーブルが削除され、再作成されます。たとえば、以前の列のデータ型が NUMBER で、それを DATE に変更すると、数値を日付に変換することはできないため、テーブルはドロップされ、再作成されます。同様に、ターゲット プラットフォームが ALTER テーブル操作 (Databricks など) をサポートしていない場合、テーブルはドロップされ、再作成されます。

テーブルを変更することは理論的には可能ですが、根本的な複雑さのため、データ タスクによってテーブルはドロップされ、再作成されます。最後に、実際のデータ損失ではなく潜在的なデータ損失によって、ドロップと再作成の操作がトリガーされる場合もあります。たとえば、STRING(25) を STRING(1) に変更すると、取り込まれたデータが STRING(1) に収まらない場合はデータ損失が発生します。ただし、STRING(25) には常に 1 文字のみが含まれる可能性があるため、実際にはデータ損失は発生しませんが、データ損失の可能性があるため、テーブルはドロップされ、再作成されます。

ターゲットプラットフォームにかかわらず、テーブルをドロップして再作成する必要があるデータ型の変更

次のデータ型を変更すると、テーブルがドロップされ、再作成されます。

  • BYTES
  • BLOB
  • CLOB
  • NCLOB

テーブルをドロップして再作成することなく、データ型のサイズの変更をサポートするターゲット プラットフォーム

Snowflake、Google BigQuery、Amazon Redshift、Microsoft SQL Server、Azure Synapse Analytics を使用する場合、テーブルをドロップして再作成することなく、特定のデータ型のサイズを変更できます。次の表は、前述の各プラットフォームでサポートされているデータ型を示しています。

データ型 Snowflake Google BigQuery Azure Synapse Analytics Microsoft SQL Server Amazon Redshift

INT1

いいえ

はい

はい

はい

いいえ

INT2

いいえ

はい

はい

はい

いいえ

INT4

いいえ

はい

はい

はい

いいえ

INT8

いいえ

はい

はい

はい

いいえ

REAL4

いいえ

いいえ

はい

はい

いいえ

REAL8

いいえ

いいえ

はい

はい

いいえ

UINT1

いいえ

はい

はい

はい

いいえ

UINT2

いいえ

はい

はい

はい

いいえ

UNIT4

いいえ

はい

はい

はい

いいえ

UNIT8

いいえ

はい

はい

はい

いいえ

NUMERIC

はい

はい

はい

はい

いいえ

STRING

はい

はい

はい

はい

はい

WSTRING

いいえ

はい

はい

はい

いいえ

テーブルをドロップして再作成することなく、データ型を STRING に変更することをサポートするターゲット プラットフォーム

データを Microsoft SQL Server および Azure Synapse Analytics に移動する場合、テーブルをドロップして再作成することなく、次のデータ型を STRING に変更できます。

  • BOOLEAN
  • DATE
  • TIME
  • DATETIME
  • INT1
  • INT2
  • INT4
  • INT8
  • REAL4
  • REAL8
  • UINT1
  • UINT2
  • UNIT4
  • UNIT8
  • NUMERIC
  • WSTRING (Azure Synapse Analytics でのみサポート)

列の削除

データセットから 1 つまたは複数の列を削除できます。

  • 削除する列を選択し、 [削除] をクリックします。

削除された列を表示するには、 [削除された列を表示] をクリックします。削除された列は、取り消し線付きのテキストで示されます。削除された列を選択し、 [元に戻す] をクリックすると、削除された列を復元できます。

ヒント メモ追加した列を削除するには、列を選択して [元に戻す] をクリックします。

列への明示的な変更を元に戻す

1 つまたは複数の列に対する、すべての明示的な変更を元に戻すことができます。

  • 変更を元に戻す列を選択し、 [元に戻す] をクリックします。

グローバル変換ルールからの変更は元に戻すことができません。

追加した列を元に戻すと、その列は削除されます。

データセットの設定

データセットの設定を変更できます。既定の設定ではデータ アセットの設定を継承しますが、設定を明示的にオンまたはオフに変更することもできます。

  • データセットで をクリックしてから、 [設定] をクリックします。

データの表示

データのサンプルを表示して、データ パイプラインを設計しながらデータの形状を表示して検証することができます。

以下の要件を満たす必要があります。

  • Administration のテナント レベルでデータの表示が有効になっている。

    [設定] > [機能コントロール] > [データ統合 でのデータ表示] が有効になっている。

  • 接続が常駐するスペースで [データ表示可能] のロールが割り当てられている。

  • プロジェクトが常駐するスペースで [表示可能] の役割が割り当てられています。

情報メモ個人スペースにプロジェクトと接続が作成されると、所有者はいつでもデータを表示できます。

[設計] ビュー内の [データセット] タブでサンプル データを表示するには、

  • [物理オブジェクト] にある [データを表示] をクリックします。

データのサンプルが表示されます。[列の数] でサンプルに含めるデータ列の数を設定できます。

データセットとテーブルの間を変更するには、

  • [データセット] を選択して、データの理論表現を表示します。

  • [物理オブジェクト] 選択して、データベースの物理表現をテーブルおよびビューとして表示します。

    ニュース メモ物理表現がまだ作成されていない場合、このオプションは使用できません。

サンプル データをフィルターするには、2 つの方法があります。

  • フィルター を使用して、取得するサンプル データをフィルターします。

    例えば、フィルター ${OrderYear}>2023 を使用し、[列の数] を 10 に設定すると、2024 年から 10 個の注文のサンプルを取得します。

  • 特定の列でサンプル データをフィルターします。

    これは、既存のサンプル データのみに作用します。フィルター を使用して 2024 年の注文のみを含め、列フィルターで 2022 年の注文を表示するように設定すると、サンプルは空になります。

データ サンプルを特定の列順に並べ替えることもできます。並べ替えは、既存のサンプル データのみに作用します。フィルター を使用して 2024 年の注文のみを含め、列順序を逆にしても、サンプル データには 2024 年の注文のみが含まれます。

データ ビューの列を非表示にすることができます。

  • 単一列を非表示にするには、列で をクリックしてから、[列を非表示] をクリックします。

  • 複数列を非表示にするには、任意の列で をクリックしてから、[列を表示] をクリックします。これにより、ビュー内にあるすべての列の可視性を制御できます。

データセットの検証と調整

データ タスクに含まれるすべてのデータセットを検証できます。

[Validate and adjust (検証と調整)] を展開して、すべての検証エラーと設計変更を確認します。

データセットの検証

  • [データセットを検証する] をクリックして、データセットを検証します。

検証には、次のチェックが含まれます。

  • すべてのテーブルに主キーがあること

  • 不足している属性がないこと。

  • 重複するテーブル名または列名がないこと。

ソースと比較した設計変更のリストも表示されます。

  • 追加されたテーブルと列

  • 削除されたテーブルと列

  • 名前が変更されたテーブルと列

  • 変更された主キーとデータ型

[Validate and adjust (検証と調整)] を展開して、すべての検証エラーと設計変更を確認します。

  • 検証エラーを修正してから、データ セットを再度検証します。

  • 主キーやデータ型の変更を除いて、ほとんどの設計変更は自動的に調整できます。その場合には、データセットを同期する必要があります。

データセットの準備

可能な場合は、データを損失することなくデータセットを準備して設計変更を調整できます。データを損失することなく設計変更を調整できない場合は、データの損失ありでソースからテーブルを再作成するかどうかを選択するオプションが表示されます。

これには、タスクを停止する必要があります。

  • 、[準備] の順番でクリックします。

データセットが準備されたら、ストレージ タスクを再開する前にデータセットを検証します。

データセットの再作成

ソースからデータセットを再作成することができます。データセットを再作成すると、データが失われます。ソース データがある限り、ソースデータをソースからリロードすることができます。

これには、タスクを停止する必要があります。

  • をクリックしてから、 [再作成] をクリックします。

制限事項

  • Google BigQuery では、列を削除または名前を変更すると、テーブルが再作成され、データが失われます。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。