メイン コンテンツをスキップする

データのプロファイリング

プロファイル統計は、発生率、範囲、データセット内で発生する値を測定する列分析を提供します。これらの指標は、以下のような項目値の間の関係を説明します。

  • ユニーク値のカウント (カーディナリティ)
  • サンプル値、最も一般的な値、値の頻度
  • 既定値または潜在的な重複値の識別に役立つ冗長性
  • NULL、文字列、数値のカウント
  • 最小値、最大値、平均値、合計値、標準偏差を含む値の範囲に関する情報

データ管理者は、プロファイリングからデータセットに関する豊富な技術情報にアクセスします。この情報は、リソースとアクセスの整理と割り当てに役立ちます。アプリ開発者は、アプリの作成や視覚化のプランニングにおいてアイデアと方向性を得るために、プロファイル統計とデータ サンプリングを使用します。項目プロファイリングは、データ アナリストやビジネス ユーザーが洞察をより早く得るのに役立ちます。最初にアプリを作成しなくても、利用価値のある項目プロファイルの指標を表示および視覚化できます。

Catalog provides two different views of field profile data: List view and Tile view. List view is a tabular summary of configurable profile statistics and Tile view is a card-based, visual representation of fields laid out as a grid. Select the Tile Select tile icon for tile view or List Select list icon for list view icon to switch between profile views.

タイル ビュー:  項目は、その項目に含まれるデータのタイプに意味のあるメトリックによってプロファイルされます (例: テキストと数値)

プロファイル タイル ビュー

リスト ビュー:  [] ドロップダウンから関心のあるプロファイル統計を選択します

プロファイル リスト ビュー

Profile Tile (プロファイル タイル) ビュー

Profile Tile (プロファイル タイル) ビューは、そのタイプの項目で最も有益なコンテンツを表示するように設計された視野プロファイルです。表示される既定のビューカードの種類は、そのフィールドの数値またはテキスト値の数が多いかどうかによって決まります。たとえば、テキスト値と数値の両方を持つフィールドの場合、デフォルトでは、テキスト値の数が多い場合には Most Common Values (最も一般的な値) カードタイプが表示され、フィールドの数値の数が多い場合には Binned Frequency カードタイプが表示されます。A が選択されたときに、ユニークではない値が格納されるすべてのフィールドで、Most Common Values Frequency (最も一般的な値の頻度) カードタイプに切り替えるためのドロップダウントグルが提供されています。または #1 が選択されている場合は、数値分布カードに切り替えることができます。フィールドに NULL 値がある場合、すべてのカードタイプに NULL 値の数が含まれることに注意してください。

タイル ビュー カード:  Binned Frequency (ビニング頻度) の数値分布、サンプル値Most Common Values Frequency (最も一般的な値の頻度)

タイル ビュー プロファイル カード

サンプル値 カード

サンプル値のカードは、すべての値が一意かつテキストのみの場合に表示されます。最初の (最大) 3 つの値が表示されます。

サンプル値 プロファイル カード
プロファイル カードのサンプル値

サンプル値 プロファイルの基準: 濃度が高い (すべてが異なる値)場合、項目値はこのカードでプロファイルされます。すべての値がテキストベースで一意である場合、いくつかのサンプル値がこの種類の項目のデータへの最良の初期ビューを提供します。

サンプル値プロファイル カードは以下を提供します。 

  • 項目名
  • 濃度
  • 最大 3 つのサンプル値 (フィールドの値が 3 つ未満の場合もあります)

Most Common Values Frequency (最も一般的な値の頻度)カード

Most Common Values Frequency (最も一般的な値の頻度)カードには、最も一般的な 2 つの値と、それらの値および他のすべての値の頻度がその他として組み合わされて表示されます。 値が 3 つしかない場合を除き、3 つの値すべてが、各値の頻度で表示されます。このプロファイルカ ードは、テキスト、数値、または混合データ値に適用できます。

Most Common Values Frequency (最も一般的な値の頻度) プロファイル カードとテキスト値
プロファイル カードの最も一般的な値の頻度
Most Common Values Frequency (最も一般的な値の頻度) プロファイル カードと数値
プロファイル カードの最も一般的な値

Most Common Values Frequency (最も一般的な値の頻度) の基準: 値が少ない、または値の分布が歪んでいる項目は、最も一般的な値の頻度カードに対してプロファイルされます。このプロファイリングは、同じ値のインスタンスが複数ある場合にのみ適用されます。ユーザーは、項目値の分布についてすばやく洞察を得ることができます。項目データにテキストと数値の両方が含まれていて、数値よりもテキストが多い場合は、Most Common Values Frequency (最も一般的な値の頻度) カードが表示されます。Binned Frequency (ビニング頻度)の切り替えは、項目に 3 つ以上の数値がある場合に提供されます。

Most Common Values Frequency (最も一般的な値の頻度) プロファイル カードは、以下を提供します。 

  • 項目名
  • 濃度
  • 最も一般的な値とその頻度
  • 残りの値の Other (その他) を合わせた頻度

Binned Frequency (ビニング頻度)カード

Binned Frequency (ビニング頻度)カードには、数値項目に関連する分布およびプロファイリング情報が表示されます。 最小、平均、最大のデータ値を含みます。項目データにテキストと数値の両方が含まれていて、テキストよりも数値が多い場合は、Binned Frequency (ビニング頻度)カードが表示されます。Most Common Values Frequency (最も一般的な値の頻度) カードタイプは、ユニークではない値が格納されるすべてのフィールドで使用できます。

Binned Frequency (ビニング頻度)プロファイル カード

プロファイル カードのビニングの頻度

Binned Frequency (ビニング頻度)プロファイル カードは、以下を提供します。 

  • 項目名
  • 濃度
  • 数値データ分布を示すヒストグラム
  • 最小値
  • 平均値 (数値の合計をデータセット内の値の総数で割ったもの)
  • 最大値

Profile List view (プロファイル リスト ビュー)

Profile List view (プロファイル リスト ビュー) は、プロファイル統計オプションを含むテーブルを提供します。ユーザーは、Columns でプロファイリングされているデータセットにとって最も意味のある対象のメトリックを確認します。最初の 9 つの統計は、既定で事前に選択されています。

ハブの [ホーム] タブから、[自身のデータ] に移動します。 または [カタログ] から、[タイプ]:  [データ] でフィルタリングします。

  1. [データセットを開く]、[プロファイル データ] の順に選択します。これにより、データセットの [プロファイル] ページが開きます。[] ボタンを選択し、関心のあるプロファイル統計の横にチェックマークを付けます。項目 (列) をプロファイリングしてテーブルに表示するためには、該当する統計を選択する (横にチェックマークを付ける) 必要があります。次のリストは、利用可能なプロファイル統計の詳細をまとめたものです。

    プロファイル統計
    統計 説明
    名前 項目名 (例: CategoryID)
    データ型

    Qlik Senseは、さまざまなシステムからデータを登録します。外部と内部との統一データ型マッピングは、参照のために項目 (列) データに課せられます。サポートされるデータ型値は以下のとおりです。

    • [日付]: ISO 8601 形式の YYYY-MM-DD で表される年月日を含む日付

    • Time: ISO 8601 形式の hh.mm.ss.sss±hh:mm で表される時間、分、秒を含む時間の値
    • Datetime: YYYY-MM-DDThh.mm.ss.sss の形式で表される年月日、時間、分、秒、分数を含む日時の値
    • Timestamp: YYYY-MM-DDThh.mm.ss.sssZ の形式で表される年月日、時間、分、秒、分数、タイムゾーンを含む日付と時刻の値
    • String: テキストを表す文字データ
    • Double: 倍精度 64 ビット IEEE 754 浮動小数点の数値データ型
    • Decimal: 精度 (合計桁数) および位取り (小数点以下の桁数) によって定義される正確な数値データ型
    • Integer: 正または負の整数
    • Boolean: ブール値 (TRUE/FALSE)
    • Binary: "1" および "2" などの 2 つの値を正確に取得可能なカテゴリー データ
    • カスタム: マッピングされたシステムが認識しているタイプ以外のデータ型
    ユニーク値 カーディナリティ、この項目に表示されるユニーク値の数
    サンプル値 サンプル値 (3 つのサンプル値表示)
    Sum この項目内に含まれるすべての値の合計 (文字列項目の場合は "0" を表示)
    最小値 この項目の最小監視値 (数値項目)
    最大値 この項目の最大監視値 (数値項目)
    平均値 この項目の平均監視値
    システム タグ コード セットを識別するために適用されるファイル タグ ($ascii、$text など)
    標準偏差 数値項目の標準偏差
    正の値の数
    負の値の数
    ゼロ値 "0" 値の数
    空の文字列 空の文字列の数
    最小長 監視された最も短い文字数
    平均の長さ 監視された平均の文字数
    最大長 監視された最も長い文字数
    最初の並べ替え値 並べ替えウェイトの最初 (最低) の値 (文字列項目)
    最後の並べ替え値 並べ替えウェイトの最後 (最高) の値 (文字列項目)
    数値 数値の数
    テキスト値 テキスト値の数
    最も頻度の高い値 フィールド内の最も一般的な 3 つの値

データ サンプリング

データのサンプルは、母集団データセットのサブセットです。データが期待されるパターンやフォーマットに適合していることを確認する際、データ管理者に役立つツールです。アプリ作成者は、他のレコードとデータセットのコンテキスト内で項目および項目データを把握できます。これらの表示では、最初にデータに注目します。開発者は、分析をしたり相関関係がないかを探るためにデータ探索を開始できます。

各項目の最初の 20 個のデータ値のサンプルを表示するには、[データ サンプル] を選択します

データセット エンジン サンプル
  • アイコン ドロップダウン矢印 ボタン、[サンプル] の順に選択し、各項目のデータ値のサンプル (n=20) を表示します。

権限

データのプロファイリングとサンプリングを行うには、権限が必要です。データ プロファイリング操作は、幅広い [プロファイル データ ソース] 権限にマッピングされます。詳細については、「共有スペースでの権限の管理」または「管理スペースでの権限の管理」を参照してください。

  • [プロファイル データ] > [プロファイル データ ソース]