TalendのML特徴処理アルゴリズム
HashingTF
テキスト処理アルゴリズムとして、HashingTFは入力データを固定長の特徴ベクトルに変換し、入力データ内のこれらの単語の出現頻度を計算することにより、単語(単語または単語のシーケンス)の重要性を反映します。このアルゴリズムは、Spark BatchおよびSpark Streaming Jobsで利用できます。
Spark Batch Jobでは、通常、IDF (Inverse Document Frequency)アルゴリズムと共に使い、重み計算の信頼性を高めます。Talend Sparkジョブのコンテキストでは、2番目のtModelEncoderを配置して、HashingTF計算の出力に[Inverse document frequency] (文献出現頻度の逆数)アルゴリズムを適用する必要があります。
データは、HashingTF計算に送信する前に既にセグメント化されている必要があります。したがって、使うデータがセグメント化されていない場合は、別のtModelEncoderを使って[Tokenizer] (トークナイザー)アルゴリズムまたは[Regex tokenizer] (正規表現トークナイザー)アルゴリズムを適用し、データを準備する必要があります。
SparkでのHashingTF実装の詳細は、SparkドキュメントのHashingTF (英語のみ)をご覧ください。
- 入力カラムのタイプ: Object
- 出力カラムのタイプ: Vector
パラメーター | 説明 |
---|---|
numFeatures |
特徴ベクトルの次元を定義する特徴の数。 たとえば、numFeatures=220と入力して次元を定義できます。パラメーターを指定しない場合は、デフォルト値の220が使われます。 出力ベクトルはスパースベクトルです。たとえば、"tModelEncoder transforms your data to features."というドキュメントは、numFeatures=3を配置すれば(3,[0,1,2],[1.0,2.0,3.0])に変換できます。 スパースベクトルの読み取り方法は、 Local vector (英語のみ)をご覧ください。 |
HashingTFのSpark APIの詳細は、ML HashingTF (英語のみ)をご覧ください。
感情分析モデルを作成する目的で、機械学習ファミリーからのコンポーネントの分類またはクラスタリング用にデータを準備するために使えます。
文献出現頻度の逆数
テキスト処理アルゴリズムとして、[Inverse document frequency] (文献出現頻度の逆数) (IDF)は、出現するドキュメントが多すぎる用語の重要性を控えめに扱う目的で、HashingTF計算の出力を処理ためによく使われます。このアルゴリズムはSpark Batchジョブで利用できます。
入力データを提供するためにHashingTF計算を実行するtModelEncoder コンポーネントを必要とします。
SparkでのIDF実装の詳細は、SparkドキュメンテーションでIDF (英語のみ)をご覧ください。
- 入力カラムのタイプ: Vector
- 出力カラムのタイプ: Vector
パラメーター | 説明 |
---|---|
minDocFreq |
用語を含む必要があるドキュメントの最小数。この数値は、項がIDF計算に関連するようになることを示すしきい値です。 たとえば、minDocReq=5を配置すると、ある用語が4つのドキュメントのみに含まれている場合、その用語は無関係と見なされ、IDFは適用されません。 このIDFアルゴリズムのSpark APIの詳細は、ML feature IDF (英語のみ)をご覧ください。 |
感情分析モデルを作成する目的で、機械学習ファミリーからのコンポーネントの分類またはクラスタリング用にデータを準備するために使えます。
Word2Vector
Word2Vectorは、テキスト類似度計算などの他の学習計算で使うために、ドキュメントを特徴ベクトルに変換します。このアルゴリズムはSpark Batchジョブで利用できます。
SparkでのWord2Vector実装の詳細は、SparkドキュメンテーションでWord2Vec (英語のみ)をご覧ください。
- 入力カラムのタイプ: List
- 出力カラムのタイプ: Vector
パラメーター | 説明 |
---|---|
maxIter |
最適な結果を得るための最大反復回数。たとえば、maxIter=5。 |
minCount |
トークンがWord2Vectorモデルの語彙に含まれているように見える必要のある最小回数。デフォルトはminCount=5。 |
numPartitions |
パーティションの数 |
seed |
ランダムなシード番号。 |
stepSize |
各反復のステップのサイズ。これは学習率を定義します。 |
vectorSize |
各特徴ベクトルのサイズ。デフォルトはvectorSize=100です。これにより、ドキュメントを識別するために100個の数値が計算されます。 |
複数のパラメーターを設定する必要がある場合は、maxIter=5;minCount=4のようにセミコロン(;)を使ってパラメーターを区切ります。
Word2VectorのSpark APIについては、Word2Vec (英語のみ)をご覧ください。
たとえば、製品に関する同様のユーザーコメントを見つける目的で、機械学習ファミリーからのコンポーネントの分類またはクラスタリング用にデータを準備するために使えます。
CountVectorizer
CountVectorizerは、テキストドキュメントのコレクションから最も頻度の高い用語を抽出し、トークンカウントのベクトルに変換します。
このアルゴリズムはSpark Batchジョブで利用できます。
[List] (リスト)タイプの入力データを提供するために、[Tokenizer] (トークナイザー)または[Regex tokenizer] (正規表現トークナイザー)計算を実行するtModelEncoderコンポーネントを必要とします。
SparkのCountVectorizer実装の詳細は、CountVectorizer (英語のみ)をご覧ください。
- 入力カラムのタイプ: List
- 出力カラムのタイプ: Vector
パラメーター | 説明 |
---|---|
minDF |
ある用語がCountVectorizerによって作成された語彙に含まれるために出現する必要のあるドキュメントの最小数。 デフォルト値はminDF=1です。0と1の間の値を入力した場合は、ドキュメントの比率を意味します。 |
minTF |
ドキュメント内の希な用語を無視するために使われるしきい値。頻度がminTFの値を下回る用語は無視されます。 デフォルト値はminTF=1です。 |
vocabSize |
CountVectorizerによって作成された各語彙ベクトルの最大サイズ。 デフォルト値は218 です。 |
CountVectorizerのSpark APIについては、CountVectorizer (英語のみ)をご覧ください。
これは、分類コンポーネントまたはクラスタリングコンポーネントのテキストマイニングに関して、テキストを処理するためによく使います。
Binarizer
Binarizerは、指定されたしきい値を使って、値が1.0または0.0のいずれかに分布されるバイナリ特徴に特徴を変換します。
このアルゴリズムは、Spark BatchおよびSpark Streaming Jobsで利用できます。
SparkでのBinarizer実装の詳細は、SparkドキュメンテーションでBinarizer (英語のみ)をご覧ください。
- 入力カラムのタイプ: Double
- 出力カラムのタイプ: Doubler
パラメーター | 説明 |
---|---|
threshold |
連続する特徴を2値化するために使うしきい値。しきい値より大きい特徴は1.0に、しきい値以下の特徴は0.0に2値化されます。 デフォルトはthreshold=0.0です。 |
BinarizerのSpark APIについては、ML Binarizer (英語のみ)をご覧ください。
たとえば、このユーザーの満足または不満を示すユーザーコメントを推定する目的で、機械学習ファミリーからのコンポーネントの分類またはクラスタリング用にデータを準備するために使えます。
Bucketizer
Bucketizerは、定義された境界値を使って、連続する特徴を特徴バケットのカラムに分割します。
このアルゴリズムは、Spark BatchおよびSpark Streaming Jobsで利用できます。
SparkでのBucketizer実装の詳細は、SparkドキュメンテーションでBucketizer (英語のみ)をご覧ください。
- 入力カラムのタイプ: Double
- 出力カラムのタイプ: Doubler
パラメーター | 説明 |
---|---|
splits |
連続する特徴をバケットに分割するために使うパラメーター。バケットは片側のレンジ[x,y)であり、同様にyを含む最後のバケットを除き、指定する境界値(xとy)によって定義されます。 たとえば、splits=Double.NEGATIVE_INFINITY, -0.5, 0.0, 0.5, Double.POSITIVE_INFINITYのように指定すると、値は-0.5, 0.3, 0.0, 0.2のように分割されます。ターゲットカラムの上限と下限が不明な場合は、Double.NEGATIVE_INFINITYとDouble.POSITIVE_INFINITYを使うことをお勧めします。 |
BucketizerのSpark APIについては、Bucketizer (英語のみ)をご覧ください。
モデルの分類またはクラスタリングのトレーニング用にカテゴリーデータを準備するために使えます。
離散コサイン変換(DCT)
Sparkの[Discrete Cosine Transform] (離散コサイン変換)は、1次元DCT-IIを実装して、時間領域の実数値ベクトルを周波数領域の同じ長さの別の実数値ベクトルに変換します。すなわち、入力データは異なる周波数で振動する一連の余弦波に変換されます。
このアルゴリズムは、Spark BatchおよびSpark Streaming Jobsで利用できます。
-
[Vector assembler] (Vectorアセンブラー)などのアルゴリズムを使うtModelEncoderコンポーネント
-
tMatchModelコンポーネント
SparkのDCT実装については、DCT (英語のみ)をご覧ください。
- 入力カラムのタイプ: Vector
- 出力カラムのタイプ: Vector
パラメーター | 説明 |
---|---|
inverse |
逆DCT計算(inverse=trueの場合)または順DCT計算(inverse=falseの場合)のどちらを実行するかを示すブール値。 デフォルトではinverse=falseです。 |
Discrete Cosine TransformのSpark APIについては、DCT (英語のみ)をご覧ください。
関連する分類またはクラスタリングモデルをトレーニングするための画像と音声の処理に広く使われています。
MinMaxScaler
MinMaxScalerは、各特徴ベクトルを固定範囲に再スケーリングします。
-
[Vector assembler] (Vectorアセンブラー)などのアルゴリズムを使うtModelEncoderコンポーネント
-
tMatchModelコンポーネント
このアルゴリズムはSpark Batchジョブで利用できます。
SparkのMinMaxScaler実装については、MinMaxScaler (英語のみ)をご覧ください。
- 入力カラムのタイプ: Vector
- 出力カラムのタイプ: Vector
パラメーター | 説明 |
---|---|
min |
変換後の各ベクトルの下限。デフォルトではmin=0です。 |
max |
変換後の各ベクトルの上限。デフォルトではmax=1です。 |
MinMaxScalerのSpark APIについては、MinMaxScaler (英語のみ)をご覧ください。
特定の範囲内に収まるように特徴を正規化するために使います。これは通常、たとえばピクセル強度に関するデータを正規化するために、画像処理で使います。
N-gram
N-gramは、トークン化された文字列(多くの場合は単語)をコンマ区切りのN-gramの配列に変換します。各プログラム内では、単語はスペースで区切られています。たとえば、2-gramsを作成する場合、文字列Good morning Worldは(good morning, morning world)に変換されます。
このアルゴリズムは、Spark BatchおよびSpark Streaming Jobsで利用できます。
[List] (リスト)タイプの入力データを提供するために、[Tokenizer] (トークナイザー)または[Regex tokenizer] (正規表現トークナイザー)計算を実行するtModelEncoderコンポーネントを必要とします。
SparkのN-gram実装については、NGram (英語のみ)をご覧ください。
- 入力カラムのタイプ: List
- 出力カラムのタイプ: List
パラメーター | 説明 |
---|---|
n |
各n-gramの最小長。デフォルトではn=1、つまり、1-gramまたはunigramです。 |
N-gramのSpark APIについては、NGram (英語のみ)をご覧ください。
関連する分類またはクラスタリングモデルのデータを準備するために、音声認識などの自然言語処理で頻繁に使います。
正規子
[Normalizer] (正規子)は、学習計算のパフォーマンスを向上させるために、入力データの各ベクトルを正規化して単位ノルムを持たせます。
このアルゴリズムは、Spark BatchおよびSpark Streaming Jobsで利用できます。
SparkのNormalizer実装については、SparkドキュメンテーションでNormalizer (英語のみ)をご覧ください。
- 入力カラムのタイプ: Vector
- 出力カラムのタイプ: Vector
パラメーター | 説明 |
---|---|
pNormValue |
入力フローから単位ノルムへの特徴ベクトルの標準化に使うpノルム値。 デフォルトはpNormValue=2で、ユークリッドノルム (英語のみ)を使うことを意味します。 |
[Normalizer] (正規子)のSpark APIについては、Normalizer (英語のみ)をご覧ください。
テキスト分類(tLogicRegressionModel など)またはテキストクラスタリングのパフォーマンスを最終的に向上させるために、TF-IDF計算の結果を正規化するために使えます。
one-hotエンコーダー
[One hot encoder] (one-hotエンコーダー)は、カテゴリー特徴のラベルインデックスのカラムをバイナリコードのカラムにマッピングすることにより、連続特徴がカテゴリー特徴を使うことを期待するアルゴリズムを有効にします。
このアルゴリズムは、Spark BatchおよびSpark Streaming Jobsで利用できます。
[String indexer] (文字列Indexer)アルゴリズムで別のtModelEncoderコンポーネントを使って、ラベルインデックスのこのカラムを作成できます。
SparkのOneHotEncoder実装については、SparkドキュメンテーションでOneHotEncoder (英語のみ)をご覧ください。
- 入力カラムのタイプ: Double
- 出力カラムのタイプ: Vector
パラメーター | 説明 |
---|---|
dropLast |
最後のカテゴリーを削除するかどうかを決定するために使うブール値のパラメーター。 デフォルトはdropLast=trueです。つまり、最後のカテゴリーが削除され、このカテゴリーの出力ベクトルには0のみが含まれ、各ベクトルが使うストレージ領域は1ビット少なくなります。この設定により、出力ベクトルのストレージ領域を節約できます。 |
[One hot encoder] (one-hotエンコーダー)のSpark APIについては、OneHotEncoder (英語のみ)をご覧ください。
tLogicRegressionModelなどの分類コンポーネントまたはクラスタリングコンポーネントに特徴データを提供するために使えます。
PCA
PCAは、直交変換を実装して、相関する特徴のベクトルを線形に相関しない特徴のベクトルに変換します。これにより、高次元の特徴ベクトルを低次元の特徴ベクトルに投影できます。
このアルゴリズムはSpark Batchジョブで利用できます。
-
[Vector assembler] (Vectorアセンブラー)などのアルゴリズムを使うtModelEncoderコンポーネント
-
tMatchModelコンポーネント
SparkのPCA実装については、SparkドキュメンテーションでPCA (英語のみ)をご覧ください。
- 入力カラムのタイプ: Vector
- 出力カラムのタイプ: Vector
パラメーター | 説明 |
---|---|
k |
生成する主コンポーネントの数。この値は、出力される特徴ベクトルの次元を決定します。たとえばk=3は、3次元の特徴ベクトルが出力されることを意味します。PCAとその主コンポーネントの詳細は、Principal component analysis (英語のみ)をご覧ください。 |
PCAのSpark APIについては、PCA (英語のみ)をご覧ください。
通常、クラスタリングの問題を解決するための特徴を準備するために使えます。
多項式近似展開
[Polynomial expansion] (多項式近似展開)は、学習計算のパフォーマンスを向上させるために入力特徴を拡張します。
このアルゴリズムは、Spark BatchおよびSpark Streaming Jobsで利用できます。
Sparkでの[Polynomial expansion] (多項式近似展開)実装については、SparkドキュメンテーションでPolynomialExpansion (英語のみ)をご覧ください。
- 入力カラムのタイプ: Vector
- 出力カラムのタイプ: Vector
パラメーター | 説明 |
---|---|
degree |
拡張する多項式の次数。特徴の次数をより高く拡張すると、多くの場合、作成する必要があるモデルの精度が高くなりますが、次数が高すぎると、同じモデルに基づく予測分析の結果が過剰適合になる可能性があります。 デフォルトはdegree=2、つまり、入力特徴を2次多項式空間に拡張することを意味します。 |
[Polynomial expansion] (多項式近似展開)のSpark APIについては、Polynomial expansion (英語のみ)をご覧ください。
tLogicRegressionModelなどの分類コンポーネントまたはクラスタリングコンポーネント用に特徴データを処理するために使えます。
QuantileDiscretizer
QuantileDiscretizerは、連続する特徴のカラムを読み取り、これらの特徴データからデータのサンプルを分析し、それに応じて、連続する特徴のデータをほぼ等しい部分にグルーピングするカテゴリー特徴のカラムを出力します。
このアルゴリズムはSpark Batchジョブで利用できますが、EMR 5.8のSpark 2.2とは互換性がありません。
SparkのQuantileDiscretizer実装については、SparkドキュメンテーションでQuantileDiscretizer (英語のみ)をご覧ください。
- 入力カラムのタイプ: Double
- 出力カラムのタイプ: Doubler
パラメーター | 説明 |
---|---|
numBuckets |
入力データをグルーピングするバケットの最大数。この値は2以上でなければなりません。デフォルト値はnumBuckets=2です。 |
QuantileDiscretizerのSpark APIについては、Quantile Discretizer (英語のみ)をご覧ください。
モデルの分類またはクラスタリングのトレーニング用にカテゴリーデータを準備するために使えます。
正規表現トークナイザー
[Regex tokenizer] (正規表現トークナイザー)は、指定された正規表現パターンに基づいて高度なトークン化を実行します。
SparkでのRegexTokenizer実装の詳細は、SparkドキュメンテーションでRegexTokenizer (英語のみ)をご覧ください。
このアルゴリズムは、Spark BatchおよびSpark Streaming Jobsで利用できます。
- 入力カラムのタイプ: String
- 出力カラムのタイプ: ObjectとList
パラメーター | 説明 |
---|---|
gaps |
正規表現が1つ以上の空白文字を使って入力テキストを分割するか(gaps=trueの場合)、またはトークンを繰り返し照合するか(gaps=falseの場合)、を示すために使うブール値のパラメーター。 デフォルトでは、このパラメーターはtrueに設定されており、デフォルトの区切り文字は\\s+で、1つ以上の文字に一致します。 |
pattern |
入力テキストのトークンと一致する正規表現パターンを設定するために使うパラメーター。 |
minTokenLength |
最小の長さを使って一致するトークンをフィルタリングするために使うパラメーター。空の文字列を返さないように、デフォルト値は1です。 |
複数のパラメーターを設定する必要がある場合は、gaps=true;minTokenLength=4のようにセミコロン(;)を使ってパラメーターを区切ります。
[Regex tokenizer] (正規表現トークナイザー)のSpark APIについては、RegexTokenizer (英語のみ)をご覧ください。
これは、分類コンポーネントまたはクラスタリングコンポーネント(tRandomForestModelなど)のテキストマイニングに関して、スパムフィルターモデルなどを作成する目的で、テキストを処理するためによく使います。
トークナイザー
[Tokenizer] (トークナイザー)は、入力テキスト(多くの場合は文)を個々の用語(多くの場合は単語)に分割します。これらの単語はすべて小文字に変換されます。
Sparkでの[Tokenizer] (トークナイザー)実装の詳細は、SparkドキュメンテーションでTokenizer (英語のみ)をご覧ください。
このアルゴリズムは、Spark BatchおよびSpark Streaming Jobsで利用できます。
- 入力カラムのタイプ: String
- 出力カラムのタイプ: ObjectとList
Tokenizerに追加のパラメーターを設定する必要はありません。
[Tokenizer] (トークナイザー)のSpark APIについては、Tokenizer (英語のみ)をご覧ください。
これは、分類コンポーネントまたはクラスタリングコンポーネント(tRandomForestModelなど)のテキストマイニングに関して、スパムフィルターモデルなどを作成する目的で、テキストを処理するためによく使います。
SqlTransformer
SQLTransformerでは、Spark SQLステートメントを使って特徴変換を実装できます。Sparkドキュメンテーションに示されている制限が適用されます。これらの制限とSparkのSQLTransformer実装については、SparkドキュメンテーションでSQLTransformer (英語のみ)をご覧ください。
このアルゴリズムは、Spark BatchおよびSpark Streaming Jobsで利用できます。
-
入力カラムのタイプ: すべてのタイプ。SQLステートメントで使うするカラムを選択する必要があります
-
出力カラムのタイプ: すべてのタイプ: SQLステートメントに応じて定義する必要があります
パラメーター | 説明 |
---|---|
statement |
入力データの選択または変換に使うSpark SQLステートメント。 |
SQLTransformerのSpark APIについては、SQLTransformer (英語のみ)をご覧ください。
データを柔軟に抽出および変換して、他の機械学習アルゴリズムの特徴を準備したり、他の機械学習アルゴリズムの結果でクエリーを直接実行したりできます。
また、tSqlRowを使ってSpark SQLクエリーを効率的に実行したり、tMapを使ってデータを結合したりして、データを準備することもできます。
スタンダードスケーラー
[Standard scaler] (標準スケーラー)は、正規分布の一般的なケースである単位標準偏差(単位分散)を持つように各入力ベクトルを標準化します。標準化されたデータにより、収束率が向上し、非常に大きな分散を持つ特徴がモデルのトレーニング中に過度に大きな影響を与えることを防止できます。Sparkでの標準Scaler実装の詳細は、Sparkドキュメンテーションで標準Scaler (英語のみ)をご覧ください。
このアルゴリズムはSpark Batchジョブで利用できます。
-
入力カラムのタイプ: Vector
-
出力カラムのタイプ: Vector
パラメーター | 説明 |
---|---|
withMean |
スケーリングの前に、特徴データの各ベクトルを平均でセンタリングする(つまり、これらの数値のそれぞれから特徴番号の平均を引く)かどうかを示すために使われるブール値パラメーター。データを中央に配置すると、密な出力が構築されるため、入力データがスパースの場合、例外が発生します。 デフォルトでは、このパラメーターはfalseに設定されています。つまり、中央揃えは行われません。 |
withStd |
単位標準偏差を持つように入力データをスケーリングするかどうかを示すために使うブール値のパラメーター。 デフォルトでは、withStdはtrueに設定されています。これは、入力特徴ベクトルを正規化して単位標準偏差を持たせることを意味します。 |
複数のパラメーターを設定する必要がある場合は、withMean=true;withStd=trueのようにセミコロン(;)を使ってパラメーターを区切ります。
両方のパラメーターをfalseに設定すると、[Standard scaler] (標準スケーラー)は実際には何もしません。
[Standard scaler] (標準スケーラー)のSpark APIについては、StandardScaler (英語のみ)をご覧ください。
tKMeanModelなどの分類コンポーネントまたはクラスタリングコンポーネント用にデータを準備するために使えます。
StopWordsRemover
StopWordsRemoverは、ストップワードを入力語文字列から除外します。[List] (リスト)タイプの入力データを提供するために、[Tokenizer] (トークナイザー)または[Regex tokenizer] (正規表現トークナイザー)計算を実行するtModelEncoderコンポーネントを必要とします。
SparkでのStopWordsRemover実装の詳細は、SparkドキュメンテーションでStopWordsRemover (英語のみ)をご覧ください。
このアルゴリズムは、Spark BatchおよびSpark Streaming Jobsで利用できます。
-
入力カラムのタイプ: List
-
出力カラムのタイプ: List
パラメーター | 説明 |
---|---|
caseSensitive |
ストップワードの除外で大文字と小文字を区別するかどうかを示すブール値。デフォルトでは、値はcaseSensitive=falseです。 |
stopWords |
フィルタリングに使うストップワードのリストを定義します。デフォルトではstopWords=Englishです。これらのデフォルトのストップワードのリストは、stop_words (英語のみ)で確認できます。 ストップワードのカスタムリストを使う必要がある場合は、たとえばstopWords=the,stop,wordsのように、このパラメーターを使ってストップワードを直接入力できます。 |
ストップワードの詳細は、wikipediaでStop words (英語のみ)をご覧ください。
StopWordsRemoverのSpark APIは、StopWordsRemover (英語のみ)をご覧ください。
テキスト処理でできるだけ多くのノイズを回避するために、多くの場合あまり意味を持たない最も一般的な単語を削除します。
文字列Indexer
[String indexer] (文字列Indexer)は、カテゴリー特徴(文字列タイプのラベル)のインデックスを生成します。これらのインデックスは、[One hot encoder] (one-hotエンコーダー)などの他のアルゴリズムで使い、同等の連続特徴を構築できます。インデックスは頻度の順に並べられ、最も頻繁なラベルはインデックス0を取得します。
SparkでのStringIndexer実装の詳細は、SparkドキュメンテーションでStringIndexer (英語のみ)をご覧ください。
このアルゴリズムはSpark Batchジョブで利用できます。
-
入力カラムのタイプ: String
-
出力カラムのタイプ: Doubler
[String indexer] (文字列Indexer)に追加のパラメーターを設定する必要はありません。
[String indexer] (文字列Indexer)のSpark APIについては、StringIndexer (英語のみ)をご覧ください。
[String indexer] (文字列Indexer)と[One hot encoder] (one-hotエンコーダー)により、連続特徴がカテゴリー特徴を使うことを想定するアルゴリズムが有効になります。
Vector Indexer
[Vector indexer] (Vector Indexer)は、maxCategoriesパラメーターの定義に基づいてカテゴリー特徴カラムを識別し、識別された各カラムからカテゴリーに0から始まるインデックスを付けます。他のカラムは連続特徴カラムとして宣言され、インデックスが作成されません。SparkでのVectorIndexer実装の詳細は、SparkドキュメンテーションでVectorIndexer (英語のみ)をご覧ください。
このアルゴリズムはSpark Batchジョブで利用できます。
-
入力カラムのタイプ: Vector
-
出力カラムのタイプ: Vector
パラメーター | 説明 |
---|---|
maxCategories |
ベクトルカラムがカテゴリー特徴を表すか連続特徴を表すかを示すしきい値を設定するために使うパラメーター。たとえば、maxCategories=2を配置すると、3つ以上の異なる値を含むカラムは連続特徴カラムとして宣言され、他のカラムはカテゴリー特徴カラムとして宣言されます。 デフォルトはmaxCategories=20です。 |
[Vector indexer] (Vector Indexer)のSpark APIについては、VectorIndexer (英語のみ)をご覧ください。
[Vector indexer] (Vector Indexer)は、カテゴリー特徴にインデックスを付け、tRandomForestModelによって実行されるディシジョンツリー計算などのアルゴリズムがカテゴリー特徴を適切に処理できるようにします。
Vectorアセンブラー
[Vector assembler] (Vectorアセンブラー)は、選択された入力カラムを1つの単一のベクトルカラムに結合し、他のアルゴリズムまたはベクトル特徴を想定する機械学習計算で使えるようにします。[Vector assembler] (Vectorアセンブラー)は、異なるカラムから取得された特徴を再計算しません。これらの特徴カラムを1つのベクトルに結合するだけで、特徴はそのままにします。
[Vector assembler] (Vectorアセンブラー)を選択すると、tModelEncoderの[Basic settings] (基本設定)ビューで[Transformation table] (変換テーブル)の[Input column] (入力カラム)カラムが無効になり、[Parameters] (パラメーター)カラムのinputColsパラメーターを使って、組み合わせる入力カラムを選択する必要があります。
SparkでのVectorAssembler実装の詳細は、SparkドキュメンテーションでVectorAssembler (英語のみ)をご覧ください。
このアルゴリズムは、Spark BatchおよびSpark Streaming Jobsで利用できます。
-
入力カラムのタイプ: 数値型、ブール値型、Vector型
-
出力カラムのタイプ: Vector
パラメーター | 説明 |
---|---|
inputCols |
1つのVectorカラムに結合される入力カラムを示すために使うパラメーター。たとえば、inputCols=id,country_codeを配置してidカラムとcountry_codeカラムを組み合わせることができます。 |
[Vector assembler] (Vectorアセンブラー)のSpark APIについては、VectorAssembler (英語のみ)をご覧ください。
[Vector assembler] (Vectorアセンブラー)は、ロジスティック回帰計算、またはtLogisticRegressionModelやtRandomForestModelなどのコンポーネントによって実行されるディシジョンツリー計算のための特徴ベクトルを準備します。
ChiSqSelector
ChiSqSelectorは、独立性のカイ2乗検定に基づいて特定の特徴カテゴリーへの特徴の関連性を判定し、それらのカテゴリーに最も関連する特徴を選択します。SparkでのChiSqSelector実装の詳細は、SparkドキュメンテーションでChiSqSelector (英語のみ)をご覧ください。
このアルゴリズムは、Spark BatchおよびSpark Streaming Jobsで利用できます。
-
入力カラムのタイプ: Vector、Double、List
-
出力カラムのタイプ: Vector
パラメーター | 説明 |
---|---|
featuresCol |
ChiSqSelectorによって選択される特徴を提供する入力カラム。このカラムのタイプは Vectorである必要があります。 |
labelCol |
使う特徴のカテゴリーを提供する入力カラム。この入力カラムのタイプは Doubleである必要があります。 |
numTopFeatures |
ChiSqSelectorが特徴カテゴリーに最も関連性があると定義し、出力するために選択する特徴の数。デフォルトでは、このパラメーターはnumTopFeatures=50で、最も関連性の高い特徴の上位50を選択することを意味します。 |
たとえば、ローン検証の分析では、featuresというカラムとlabelというカラムが用意されています。前者のカラムにはaddress、 age、incomeなどの借り手候補に関する特徴があり、後者のカラムには各候補者のローンを検証するかどうかを示すカテゴリーがあります。これらのカラムをChiSqSelectorで利用するには、featuresCol=features,labelCol=labelを配置する必要があります。
さらに、関連性が最も高い1つの特徴のみを選択する場合はnumTopFeatures=1を配置します。すると、income特徴が選択されます。代わりにnumTopFeatures=2を配置すると、関連性が高い上位2つの特徴、incomeとageが選択されます。
ChiSqSelectorのSpark APIについては、ChiSqSelector (英語のみ)をご覧ください。
これを使って、トレーニング分類またはクラスタリングモデルの最も予測力のある特徴を生成できます。
RFormula
Rformulaを使うと、特徴ラベルと共に特徴Vectorを生成できます。Sparkドキュメンテーションに示されている制限が適用されます。これらの制限とSparkのRFormula実装については、SparkドキュメンテーションでRFormula (英語のみ)をご覧ください。
このアルゴリズムはSpark Batchジョブで利用できますが、EMR 5.8のSpark 2.2とは互換性がありません。
-
入力カラムのタイプ: 文字列型と数値型。使うカラムを選択するには、R式を使う必要があります。
-
出力カラムのタイプ: 特徴にはVector、ラベルには Double
パラメーター | 説明 |
---|---|
featuresCol |
特徴データを保持するために使う出力カラム。 |
labelCol |
特徴ラベルを保持するために使う出力カラム。 |
formula |
適用するR式。 |
たとえば、[Transformation table] (変換テーブル)の[Parameters] (パラメーター)カラムにfeaturesCol=features;labelCol=label;formula=clicked ~ country + hourを配置した場合、featuresカラムとlabelカラムを出力スキーマに追加し、前者のカラムをタイプVectorに、後者をタイプDoubleに設定する必要があります。次に、変換中にformulaパラメーターを使って定義されたR式が入力カラムに適用され、特徴がfeaturesカラムに生成され、特徴ラベルがlabelカラムに生成されます。この例は、SparkドキュメンテーションのRformula (英語のみ)で説明されている例に基づいています。
RFormulaのSpark APIについては、R Formula (英語のみ)をご覧ください。
R式を適用して特徴データを準備できます。
VectorSlicer
VectorSlicerは、特徴Vectorを読み取り、indicesパラメーターの値に基づいてこのVectorから特徴を選択し、選択した特徴を出力カラムの新しいVectorに書き込みます。-
[Vector assembler] (Vectorアセンブラー)などのアルゴリズムを使うtModelEncoderコンポーネント
-
tMatchModelコンポーネント
SparkのVectorSlicer実装については、SparkドキュメンテーションでVectorSlicer (英語のみ)をご覧ください。
このアルゴリズムは、Spark BatchおよびSpark Streaming Jobsで利用できます。
-
入力カラムのタイプ: Vector
-
出力カラムのタイプ: Vector
パラメーター | 説明 |
---|---|
indices |
選択して出力する特徴の数値インデックス。たとえば、次のVector、[0.0, 10.0, 0.5]の2番目と3番目の特徴を選択する必要がある場合は、indices=1,2を配置する必要があります。すると、Vector [10.0, 0.5]が出力カラムに書き込まれます。 出力Vectorの特徴は、それらのインデックスに従って順序付けられます。 |
VectorSlicerのSpark APIについては、VectorSlicer (英語のみ)をご覧ください。ただし、namesパラメーターはtModelEncoderではサポートされていません。
これにより、使う特徴を正確に選択できます。