カーディナリティ
カーディナリティとは、列にあるデータ値の一意性のことです。一意の値が多すぎる列や、一意の値がまったくない列は、分散がほとんどありません。機械学習モデルは、そのようなデータの何らかのパターンを特定することはできません。
高いカーディナリティとは、一意の値の数が多いことを意味します。カーディナリティが高くならないように、類似する値をビン化またはグループ化できます。また、新しい特徴量列を作成することもできます。例えば、自宅の住所を、特定の場所までの行きまたは帰りの距離に変換できます。
固有の値 (定数) が 1 つしかない列は、パターンの特定に役立ちません。
関連する学習: