ファイルベースのデータセットのデータ品質
ファイルベースのデータセットでセマンティック タイプの検出とデータ品質の読み取りを活用するには、カタログにファイルをアップロードする必要があります。
現在、品質計算でサポートされているファイルの種類は、CSV、TXT、QVD、XLS、XLSX です。Excel ファイルに複数のシートが含まれている場合、品質の計算は最初のシートに対してのみ実行されます。
ファイルベースのデータセットの作成
ファイルからデータセットを作成し、後でデータセットの概要とデータ製品の概要でそのスキーマと品質にアクセスするには、それらを Qlik Talend Data Integration にアップロードする必要があります。
-
Qlik Talend Data Integration > [カタログ] で、 [作成] をクリックし、次に [データセット] をクリックします。
-
[データ ファイルをアップロード] をクリックします。
-
アップロードするファイルを参照し、アップロードするスペースを選択して、 [アップロード] をクリックします。
[アップロードして分析] をクリックすると、このファイルからデータセットと分析アプリの両方が作成されます。
新しいデータセットがカタログに追加され、品質インジケーターと内容の詳細にアクセスできるようになります。この構成により、ファイルベースのデータセットを分析アプリのソースとして使用することも可能になります。
カタログは Qlik Talend Data Integration ハブと Qlik 分析サービス ハブの両方からアクセスできるため、データセットを任意の場所で開くことができ、コンテキストに応じて適切な接続が使用されます。
品質の計算
データセットの [概要] にある [計算] または [更新] ボタンを使用すると、データベースの 1,000 行のサンプルに対して品質計算が実行されます。この操作は、ファイルベースのデータセットのプルアップ モードで実行されます。
100 行のサンプルが取得され、最新のセマンティック タイプ、有効性、完全性の統計を含むプレビューとして表示されます。このサンプルは MongoDB に保存されます。