データマイニングのタイプ
Talend Studioでカラム分析を作成すると、分析するカラムの横に[Datamining Type] (データマイニングタイプ)ボックスが表示されます。
ボックスで選択されたタイプが、関連するカラムのデータマイニングタイプとなります。
すべてのデータ型ですべてのインジケーター(またはメトリクス)を計算できるわけではないため、これらのデータマイニングタイプにより、Talend Studioで関連するカラムに対する適切なメトリクスを選択できます。
使用できるデータマイニングタイプは、[Nominal] (名義)、[Interval] (間隔)、[Unstructured Text] (非ストラクチャーテキスト)、[Other] (その他)です。次のセクションでは、これらのデータマイニングのタイプについて説明します。
Nominal (名義)
名義データはカテゴリーデータで、数値としてコードが割り当てられる値や観察ですが、この場合の数値は単なるラベルです。名義データはカウントできますが、順番を変えたり、測定したりすることはできません。
Talend Studioでは、テキストデータのマイニングタイプは「Nominal」(名義)に設定します。たとえばWEATHERというカラムにsun、cloud、rainという値があるとすると、これは名義です。
また、POSTAL_CODEカラムに52200と75014という値がある場合、数値でありながらこれらも名義的なものです。このデータはフランスの郵便番号を示すため、データは名義型です。そういったデータに平均などの数値計算を行うことは意味がありません。このような場合、現時点ではTalend Studioで正しいデータ型を自動的には推測できないため、カラムのデータマイニングタイプを「Nominal」(名義)に設定します。
プライマリキーデータや外部キーデータなども同様です。ほとんどの場合、キーは数値データで示されますが、そのデータマイニングタイプはNominal (名義)です。
Interval (インターバル)
このデータマイニングタイプは、数値データと時間データに使用します。このタイプのデータには平均を計算できます。データベースでは、数値がテキストフィールドに保存されることがあります。
Talend Studioでは、テキストのカラム(VARCHARというタイプのカラムなど)のデータマイニングタイプを「Interval (インターバル)」として定義できます。この場合、データは数値データとして処理されるべきであり、概要統計が利用できるはずです。
[Unstructured text] (非ストラクチャーテキスト)
このデータマイニングタイプは、非ストラクチャーテキストデータを処理するために使用します。
たとえば、コメントテキストを含むCOMMENTというカラムの場合、その中のテキストは非ストラクチャー的なため、データマイニングタイプを「Nominal (名義)」にすることはできません。それでも、そのようなカラムの重複値を見ることができるため、新しいデータマイニングタイプが必要になることがあります。
その他
このタイプによって、Talend Studioでは処理できないデータがデザインされます。