項目レベル メタデータとデータ プロファイリングの管理
データ管理者は、プロファイリングからデータセットに関する豊富な技術情報にアクセスします。アプリ開発者は、アプリの作成やビジュアライゼーションのプランニングにおいてアイデアと方向性を得るために、プロファイル統計とデータ サンプリングを使用します。項目プロファイリングは、データ アナリストやビジネス ユーザーが洞察をより早く得るのに役立ちます。最初にアプリを作成しなくても、利用価値のある項目プロファイルの指標を一目で確認および視覚化できます。項目レベル メタデータでは、エイリアス、説明、および分類を項目に適用できます。こうした機能は、特定のデータや機密情報の項目を特定するために役立ちます。
項目レベル メタデータの管理
[項目] タブからデータセットにあるすべての項目のメタデータにアクセスして編集できます。 [タイル] ビューから任意のカードを選択する、 [リスト] ビューから任意の行を選択する、または [データ] ビューから任意の列を選択すると、グリッドの右側にその項目の [詳細] パネルが開きます。[項目エイリアス]、[説明]、[タグ]、[分類] はオプションの項目レベル メタデータ項目であり、このパネルから定義および編集できます。
詳細 | 説明 |
---|---|
項目エイリアス | 任意の代替名を入力し、項目名をプロファイル分析でわかりやすいものにします。エイリアスの項目名が表示されるのはプロファイル分析だけであり、技術的な列名には影響しません。 |
説明 | 項目の項目 メタデータとプロファイリングを閲覧するユーザーに役立つ情報を入力します。 |
タグ | この項目とデータを定義および分類するためのテキスト スニペットを入力します。 |
分類 | [個人情報] か [機密情報] いずれかのチェックボックスを選択します。 |
データのプロファイリング
プロファイル統計は、発生率、範囲、データセット内で発生する値を測定する列分析を提供します。これらの指標は、以下のような項目値の間の関係を説明します。
- ユニーク値のカウント (カーディナリティ)
- サンプル値、最も一般的な値、値の頻度
- 既定値または潜在的な重複値の識別に役立つ冗長性
- NULL、文字列、数値のカウント
- 最小値、最大値、平均値、合計値、標準偏差を含む値の範囲に関する情報
カタログは項目 プロファイル データの以下の3つのビューを提供します:Tile view、List view、Data view。
Tile viewは、グリッドとして配置された項目をカードベースで視覚的に表現しています。
List viewは、設定可能なプロファイル統計の表の要約です。
Table view は、項目の列名とデータセットの最初の 20 レコードまでを一覧表示します。
プロファイルビューを切り替えるには、Tile、Listまたはデータアイコンを選択します。
プロファイル タイル ビュー
Profile Tile (プロファイル タイル) ビューは、そのタイプの項目で最も有益なコンテンツを表示するように設計された視野プロファイルです。表示される既定のビューカードの種類は、その項目の数値またはテキスト値の数が多いかどうかによって決まります。たとえば、テキスト値と数値の両方を持つ項目の場合、規定値では、テキスト値の数が多い場合には Most Common Values (最も一般的な値) カードタイプが表示され、項目の数値の数が多い場合には Binned Frequency カードタイプが表示されます。が選択されたときに、ユニークではない値が格納されるすべての項目で、Most Common Values (最も一般的な値)カードタイプに切り替えるためのドロップダウントグルが提供されています。またはビニングされた頻度 が選択されている場合は、数値分布カードに切り替えることができます。項目に NULL 値がある場合、すべてのカードタイプに NULL 値の数が含まれることに注意してください。
サンプル値 カード
サンプル値のカードは、すべての値が一意かつテキストのみの場合に表示されます。(最高で) 最初の 3 つの値 と 追加の一意の値の合計数が表示されます。
サンプル値 プロファイルの基準: カーディナリティが高い (すべてが異なる値) 場合、項目値はこのカードでプロファイルされます。すべての値がテキストベースで一意である場合、いくつかのサンプル値がこの種類の項目のデータへの最良の初期ビューを提供します。
各サンプル値プロファイル カードは以下を提供します。
- 項目名
- カーディナリティ(ユニーク値)
- 最大 3 つのサンプル値 (項目の値が 3 つ未満の場合もあります)
最も一般的な値の頻度カード
Most Common Values Frequency (最も一般的な値の頻度)カードは、5 つの最も一般的な値とその頻度を表示します。5 つより値がある場合は、これらが組み合わせられて、その他 として表示されます。どの項目に値がなくても、合計は ゼロ として表示されます。このプロファイルカ ードは、テキスト、数値、または混合データ値に適用できます。
最も一般的な値の頻度 の基準:値が少ない、または値の分布が歪んでいる項目は、最も一般的な値の頻度カードでプロファイルされます。このプロファイリングは、同じ値のインスタンスが複数ある場合にのみ適用されます。ユーザーは、項目値の分布についてすばやく洞察を得ることができます。項目データにテキストと数値の両方が含まれていて、数値よりもテキストが多い場合は、Most Common Values Frequency (最も一般的な値の頻度) カードが表示されます。Binned Frequency (ビニング頻度)の切り替えは、項目に 3 つ以上の数値がある場合に提供されます。
各 最も一般的な値の頻度 プロファイル カードは、以下を提供します。
- 項目名
- カーディナリティ(ユニーク値)
- 最も一般的な値とその頻度
- 残りの値の Other (その他) を合わせた頻度
ビニング頻度 カード
Binned Frequency (ビニング頻度)カードには、数値項目に関連する分布およびプロファイリング情報が表示されます。 最小、平均、最大のデータ値を含みます。項目データにテキストと数値の両方が含まれていて、テキストよりも数値が多い場合は、Binned Frequency (ビニング頻度)カードが表示されます。Most Common Values Frequency (最も一般的な値の頻度) カードタイプは、ユニークではない値が格納されるすべての項目で使用できます。
各ビニング頻度プロファイル カードは、以下を提供します。
- 項目名
- カーディナリティ(ユニーク値)
- 数値データ分布を示すヒストグラム
- 最小値
- 平均値 (数値の合計をデータセット内の値の総数で割ったもの)
- 最大値
Profile List view (プロファイル リスト ビュー)
Profile List view (プロファイル リスト ビュー) は、プロファイル統計オプションを含むテーブルを提供します。ユーザーは、テーブルの右端までスクロールすると表示される、列ピッカー の下にある、データセットにとって最も意味のあるメトリクスを確認します。最初の 9 つの統計は、既定で事前に選択されています。
プロファイルデータビュー
プロファイル データ ビューには、データセットが項目列名と(最大で)最初の20個の値を持つストレート データ テーブルとして表示されます。
権限
データのプロファイリングとサンプリングを行うには、権限が必要です。データセットのスペースで、データ ソースのプロファイリングを許可するロールが必要です。詳細については、「共有スペースでの権限の管理」または「管理スペースでの権限の管理」を参照してください。