メイン コンテンツをスキップする 補完的コンテンツへスキップ

データマイニングのタイプ

Talend Studioでカラム分析を作成すると、分析するカラムの横に[Datamining Type] (データマイニングタイプ)ボックスが表示されます。

ボックスで選択されたタイプが、関連するカラムのデータマイニングタイプとなります。

[分析済みカラム]セクションにある分析済みカラムのデータマイニングタイプ用のドロップダウンリスト。

すべてのデータ型ですべてのインジケーター(またはメトリクス)を計算できるわけではないため、これらのデータマイニングタイプにより、Talend Studioで関連するカラムに対する適切なメトリクスを選択できます。

使用できるデータマイニングタイプは、[Nominal] (名義)[Interval] (間隔)[Unstructured Text] (非ストラクチャーテキスト)[Other] (その他)です。次のセクションでは、これらのデータマイニングのタイプについて説明します。

Nominal (名義)

名義データはカテゴリーデータで、数値としてコードが割り当てられる値や観察ですが、この場合の数値は単なるラベルです。名義データはカウントできますが、順番を変えたり、測定したりすることはできません。

Talend Studioでは、テキストデータのマイニングタイプは「Nominal」(名義)に設定します。たとえばWEATHERというカラムにsuncloudrainという値があるとすると、これは名義です。

また、POSTAL_CODEカラムに5220075014という値がある場合、数値でありながらこれらも名義的なものです。このデータはフランスの郵便番号を示すため、データは名義型です。そういったデータに平均などの数値計算を行うことは意味がありません。このような場合、現時点ではTalend Studioで正しいデータ型を自動的には推測できないため、カラムのデータマイニングタイプを「Nominal」(名義)に設定します。

プライマリキーデータや外部キーデータなども同様です。ほとんどの場合、キーは数値データで示されますが、そのデータマイニングタイプはNominal (名義)です。

Interval (インターバル)

このデータマイニングタイプは、数値データと時間データに使用します。このタイプのデータには平均を計算できます。データベースでは、数値がテキストフィールドに保存されることがあります。

Talend Studioでは、テキストのカラム(VARCHARというタイプのカラムなど)のデータマイニングタイプを「Interval (インターバル)」として定義できます。この場合、データは数値データとして処理されるべきであり、概要統計が利用できるはずです。

[Unstructured text] (非ストラクチャーテキスト)

このデータマイニングタイプは、非ストラクチャーテキストデータを処理するために使用します。

たとえば、コメントテキストを含むCOMMENTというカラムの場合、その中のテキストは非ストラクチャー的なため、データマイニングタイプを「Nominal (名義)」にすることはできません。それでも、そのようなカラムの重複値を見ることができるため、新しいデータマイニングタイプが必要になることがあります。

その他

このタイプによって、Talend Studioでは処理できないデータがデザインされます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。