クラスタリングプロセスを設定する

手順

tMahoutClusteringをダブルクリックして[Component] (コンポーネント)ビューを開きます。
[Schema] (スキーマ)リストで[Built-In] (組み込み)を選択し、[Edit Schema] (スキーマを編集)の横にある[...]ボタンをクリックし、入力ファイル内のデータ構造を説明します。
スキーマダイアログボックスに8行を追加し、上記のキャプチャーに示すように入力データを定義します。
コンポーネントには、clusterIDという1つの読み取り専用カラムがあります。
[OK]をクリックします。
[File Configuration] (ファイル設定)エリアで以下の操作を行います。
- [Input HDFS file] (入力HDFSファイル)の横にある[...]ボタンをクリックし、クラスター化する入力数値データを保持するHadoopシステム上のHDFSファイルを参照します。
- クラスター化データのカラムを区切るために使うフィールド区切りを設定します。
- [Cluster columns] (クラスターカラム)テーブルで、テーブルに行を追加し、各行をクリックして、入力スキーマからカラムを選択します。
[Clustering Configuration] (クラスタリング設定)エリアで以下の操作を行います。
- [Clustering Type] (クラスタリングタイプ)リストから、数値データをクラスタリングするために使うアルゴリズム(この例では[Fuzzy K-means] (ファジーK-Means))を選択します。
- [Distance Measure] (距離測定)リストから、クラスタリングに使うする距離測定を選択します。
- [Number of clusters] (クラスター数)フィールドに3と入力します。
- [Max iterations] (最大反復)と[Convergence delta] (収束デルタ)の値はそのままにしておきます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください