データプロファイリングエリア
プレパレーションでは、いくつかのタブからデータセットに関する知見を得ることができます。
[Chart] (チャート)タブ
[Chart] (チャート)タブは、データをグラフィカルに表現したものです。データにフィルターをすばやく簡単に適用する方法にもなります。
選択するデータ型やセマンティックタイプに応じて、タブにおける値の分配のグラフィカルな表現が次のように変わります。
- 数値データには縦棒チャート
- テキストデータには横棒チャート
- [Continent] (大陸)、[Continent Code] (大陸コード)、[Country] (国)、[Country Code ISO2] (国コードISO2)、[Country Code ISO3] (国コードISO3)には世界地図
- [North American state] (北米の州)と[North American state code] (北米の州コード)には北米地図
- [US State] (米国の州)と[US State Code] (米国の州コード)にはアメリカ合衆国の地図
- [MX Estado] (メキシコの州)と[MX Estado Code] (メキシコの州コード)にはメキシコの地図
- [CA Province Territory] (カナダの州)と[CA Province Territory Code] (カナダの州コード)にはカナダの地図
- [FR Department] (フランスの県)、[FR Region] (フランスの地域圏)、[FR Region Legacy] (フランスの旧地域圏)にはフランスの地図
その他の情報と例は、チャートを使用して値をフィルタリングをチェックしてください。
[Value] (値)タブ
[Value] (値)タブには、選択されたカラムのさまざまなサマリー統計が表示されます。これらの統計は、数値があるカラムに対してのみ有効です。
- [Count] (カウント): カラムにある値の数
- [Distinct] (個別): カラムにある、異なる値の数
- [Duplicate] (重複): カラムにある同一値の数
- [Valid] (有効): カラムにある有効値の数
- [Empty] (空): カラムにある空レコードの数
- [Invalid] (無効): カラムにある無効値の数
- [Avg length] (平均長): カラムレコードの文字数に基づいた文字列値の平均長
- [Min length] (最小長): カラムレコードの文字数に基づいた文字列値の最小長
- [Max length] (最大長): カラムレコードの文字数に基づいた文字列値の最大長
- [Min] (最小): カラムの最低値
- [Max] (最大): カラムの最高値
- [Mean] (平均): カラムの平均値
- [Variance] (差異): 平均値と比較した値の分布。数学的には、平均値からの差の2乗の平均として定義されます。
[Pattern] (パターン)タブ
[Pattern] (パターン)タブには、データを構成する文字のタイプと数がグラフィカルに表現されています。
言い換えると、単語または文字の精度によってレコードがどう構造化されているかを視覚的に確認できます。データにフィルターをすばやく簡単に適用する方法にもなります。
カラムのコンテンツを選択する時に、横棒チャートには使用されているさまざまなパターンの配分が表示されます。選択するデータのタイプに応じて、表示されるデフォルトパターンは異なります。
- カラムタイプがtextまたはbooleanの場合は単語ベース
- カラムタイプがdateまたはnumberの場合は文字ベース
ただし、データのタイプに関係なく、[Pattern] (パターン)タブで文字ベースと単語ベースの間でパターンを切り替えることができます。
たとえばファーストネームとラストネームにおけるデータクオリティの問題を検出するのに、単語ベースのパターン分析は効率的な手法です。句読点や数字が含まれているなど、単語のみで構成されていない名前は、目立つのですぐに判明します。他方、文字ベースのパターンは、クライアントIDやアカウント番号などの構造化されたデータの場合により適しています。文字や数字の数が正しくない場合は、チャートでわかります。
その他の例は、パターンを使用して値をフィルタリングをチェックしてください。
[Advanced] (詳細)タブ
[Advanced] (詳細)タブは、数値の場合のみ利用可能です。箱ひげ図によって、カラムのレコード分布に関する知見が得られます。この箱ひげ図には次の情報が表示されます。
- [Maximum] (最大): カラムレコードの最高値
- [Minimum] (最小): カラムレコードの最低値
- [Mean] (平均): カラムレコードの平均値
- [Median] (中央): カラムレコードの中央値
- 上位4分の1: カラムレコードの中央値と最高値(最大)の間の中央値
- 下位4分の1: カラムレコードの最低値(最小)と中央値の間の中央値