項目レベルメタデータとデータプロファイリングの管理

データ管理者は、プロファイリングからデータセットに関する豊富な技術情報にアクセスします。アプリ開発者は、アプリの作成やビジュアライゼーションのプランニングにおいてアイデアと方向性を得るために、プロファイル統計とデータサンプリングを使用します。項目プロファイリングは、データアナリストやビジネスユーザーが洞察をより早く得るのに役立ちます。最初にアプリを作成しなくても、利用価値のある項目プロファイルの指標を一目で確認および視覚化できます。項目レベルメタデータでは、エイリアス、説明、および分類を項目に適用できます。こうした機能は、特定のデータや機密情報の項目を特定するために役立ちます。

Qlik Cloudは、データセット内の最大 1200 万行までしかプロファイルしません。データセットが 1200 万行を超えると、最初の 1200 万行のみがプロファイルされます。プロファイルされる行数に関係なく、すべての項目のメタデータが追加されます。

項目レベルメタデータの管理

[項目] タブからデータセットにあるすべての項目のメタデータにアクセスして編集できます。タイルビューのタイルアイコンを選択します [タイル] ビューから任意のカードを選択する、リストビューのリストアイコンを選択します [リスト] ビューから任意の行を選択する、または [データ] ビューから任意の列を選択すると、グリッドの右側にその項目の [詳細] パネルが開きます。[項目エイリアス]、[説明]、[タグ]、[分類] はオプションの項目レベルメタデータ項目であり、このパネルから定義および編集できます。

項目メタデータの項目
詳細	説明
項目エイリアス	任意の代替名を入力し、項目名をプロファイル分析でわかりやすいものにします。エイリアスの項目名が表示されるのはプロファイル分析だけであり、技術的な列名には影響しません。
説明	項目の項目メタデータとプロファイリングを閲覧するユーザーに役立つ情報を入力します。
タグ	この項目とデータを定義および分類するためのテキストスニペットを入力します。
分類	[個人情報] か [機密情報] いずれかのチェックボックスを選択します。

選択された [個人情報] および [機密情報] の項目レベル分類が [データセットの概要] タブに表示され、技術的なデータセットメタデータの下に項目ごとリストされます。

複数のシートがある Excel ファイルの項目に適用された分類は、シート名および項目名とともに一覧表示されます (例: 個人情報: Sheet1/EmpID)。

タイルビューで項目カードを選択して [詳細] パネルを開く — 複数のシートがある XLSX ファイルの項目レベルメタデータ

データのプロファイリング

プロファイル統計は、発生率、範囲、データセット内で発生する値を測定する列分析を提供します。これらの指標は、以下のような項目値の間の関係を説明します。

ユニーク値のカウント (カーディナリティ)
サンプル値、最も一般的な値、値の頻度
既定値または潜在的な重複値の識別に役立つ冗長性
NULL、文字列、数値のカウント
最小値、最大値、平均値、合計値、標準偏差を含む値の範囲に関する情報

カタログは項目プロファイルデータの以下の３つのビューを提供します:Tile view、List view、Data view。

Tile viewは、グリッドとして配置された項目をカードベースで視覚的に表現しています。

List viewは、設定可能なプロファイル統計の表の要約です。

Table view は、項目の列名とデータセットの最初の 20 レコードまでを一覧表示します。

プロファイルビューを切り替えるには、Tile タイルビューのタイルアイコンを選択します、List リストビューのリストアイコンを選択しますまたはデータアイコンを選択します。

プロファイルタイルビュー

Profile Tile (プロファイルタイル) ビューは、そのタイプの項目で最も有益なコンテンツを表示するように設計された視野プロファイルです。表示される既定のビューカードの種類は、その項目の数値またはテキスト値の数が多いかどうかによって決まります。たとえば、テキスト値と数値の両方を持つ項目の場合、規定値では、テキスト値の数が多い場合には Most Common Values (最も一般的な値) カードタイプが表示され、項目の数値の数が多い場合には Binned Frequency カードタイプが表示されます。 [Most Common Values] (最も一般的な値)アイコンが選択されたときに、ユニークではない値が格納されるすべての項目で、Most Common Values (最も一般的な値)カードタイプに切り替えるためのドロップダウントグルが提供されています。またはビニングされた頻度　 [ビニングされた頻度]アイコンが選択されている場合は、数値分布カードに切り替えることができます。項目に NULL 値がある場合、すべてのカードタイプに NULL 値の数が含まれることに注意してください。

サンプル値カード

サンプル値のカードは、すべての値が一意かつテキストのみの場合に表示されます。(最高で) 最初の 3 つの値と追加の一意の値の合計数が表示されます。

サンプル値プロファイルの基準: カーディナリティが高い (すべてが異なる値) 場合、項目値はこのカードでプロファイルされます。すべての値がテキストベースで一意である場合、いくつかのサンプル値がこの種類の項目のデータへの最良の初期ビューを提供します。

各サンプル値プロファイルカードは以下を提供します。

項目名
カーディナリティ(ユニーク値)
最大 3 つのサンプル値 (項目の値が 3 つ未満の場合もあります)

最も一般的な値の頻度カード

Most Common Values Frequency (最も一般的な値の頻度)カードは、5 つの最も一般的な値とその頻度を表示します。5 つより値がある場合は、これらが組み合わせられて、その他として表示されます。どの項目に値がなくても、合計はゼロとして表示されます。このプロファイルカードは、テキスト、数値、または混合データ値に適用できます。

最も一般的な値の頻度の基準:値が少ない、または値の分布が歪んでいる項目は、最も一般的な値の頻度カードでプロファイルされます。このプロファイリングは、同じ値のインスタンスが複数ある場合にのみ適用されます。ユーザーは、項目値の分布についてすばやく洞察を得ることができます。項目データにテキストと数値の両方が含まれていて、数値よりもテキストが多い場合は、Most Common Values Frequency (最も一般的な値の頻度) カードが表示されます。Binned Frequency (ビニング頻度)の切り替えは、項目に 3 つ以上の数値がある場合に提供されます。

各最も一般的な値の頻度プロファイルカードは、以下を提供します。

項目名
カーディナリティ(ユニーク値)
最も一般的な値とその頻度
残りの値の Other (その他) を合わせた頻度

ビニング頻度カード

Binned Frequency (ビニング頻度)カードには、数値項目に関連する分布およびプロファイリング情報が表示されます。最小、平均、最大のデータ値を含みます。項目データにテキストと数値の両方が含まれていて、テキストよりも数値が多い場合は、Binned Frequency (ビニング頻度)カードが表示されます。Most Common Values Frequency (最も一般的な値の頻度) カードタイプは、ユニークではない値が格納されるすべての項目で使用できます。

各ビニング頻度プロファイルカードは、以下を提供します。

項目名
カーディナリティ(ユニーク値)
数値データ分布を示すヒストグラム
最小値
平均値 (数値の合計をデータセット内の値の総数で割ったもの)
最大値

Profile List view (プロファイルリストビュー)

Profile List view (プロファイルリストビュー) は、プロファイル統計オプションを含むテーブルを提供します。ユーザーは、テーブルの右端までスクロールすると表示される、列ピッカー [列]アイコンの下にある、データセットにとって最も意味のあるメトリクスを確認します。最初の 9 つの統計は、既定で事前に選択されています。

データセットのプロファイル一覧表示ビュー — リストビュー: テーブルを右にスクロールすると表示される列ピッカーから、関心のあるプロファイル統計を選択します。

項目プロファイル統計
統計	説明
[Name] (名前)	項目名 (例: CategoryID)
データ型	Qlik Senseは、さまざまなシステムからデータを登録します。外部と内部との統一データ型マッピングは、参照のために項目 (列) データに課せられます。サポートされるデータ型値は以下のとおりです。 Date: ISO 8601 形式の YYYY-MM-DD で表される年月日を含む日付 Time: ISO 8601 形式の hh.mm.ss.sss±hh:mm で表される時間、分、秒を含む時間の値 Datetime: YYYY-MM-DDThh.mm.ss.sss の形式で表される年月日、時間、分、秒、分数を含む日時の値 Timestamp: YYYY-MM-DDThh.mm.ss.sssZ の形式で表される年月日、時間、分、秒、分数、タイムゾーンを含む日付と時刻の値 String: テキストを表す文字データ Double: 倍精度 64 ビット IEEE 754 浮動小数点の数値データ型 Decimal: 精度 (合計桁数) および位取り (小数点以下の桁数) によって定義される正確な数値データ型 Integer: 正または負の整数 Boolean: ブール値 (TRUE/FALSE) Binary: 「1」および「2」などの 2 つの値を正確に取得可能なカテゴリーデータ Custom: マッピングされたシステムが認識しているタイプ以外のデータ型
ユニーク値	カーディナリティ、この項目に表示されるユニーク値の数
NULL 値	NULL 値の数
サンプル値	サンプル値 (3 つのサンプル値表示)
合計値	この項目内に含まれるすべての値の合計 (文字列項目の場合は "0" を表示)
最小値	この項目の最小監視値 (数値項目)
最大値	この項目の最大監視値 (数値項目)
平均値	この項目の平均監視値
中央値	この項目の数値配列の中央値
システムタグ	コードセットを識別するために適用されるファイルタグ ($ascii、$text など)
標準偏差	数値項目の標準偏差
正	正の値の数
負	負の値の数
ゼロ値	"0" 値の数
空の文字列	空の文字列の数
最小長	監視された最も短い文字数
平均の長さ	監視された平均の文字数
最大長	監視された最も長い文字数
最初の並べ替え値	並べ替えウェイトの最初 (最低) の値 (文字列項目)
最後の並べ替え値	並べ替えウェイトの最後 (最高) の値 (文字列項目)
数値	数値の数
テキスト値	テキスト値の数
最も頻度の高い値	項目内の最も一般的な 3 つの値

プロファイルデータビュー

プロファイルデータビューには、データセットが項目列名と(最大で)最初の20個の値を持つストレートデータテーブルとして表示されます。

データセットのプロフィールデータビュー — データビュー: データセットの列名と最初の20レコードが表示されます

権限

データのプロファイリングとサンプリングを行うには、権限が必要です。データセットのスペースで、データソースのプロファイリングを許可するロールが必要です。詳細については、「共有スペースでの権限の管理」または「管理スペースでの権限の管理」を参照してください。

詳細を見る

データカタログを使用してデータをプロファイリングするにはどうすればよいですか?

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。

こちらにフィードバックをお寄せください

項目レベル メタデータとデータ プロファイリングの管理

項目レベル メタデータの管理