フリーテキストデータの取り扱い

フリーテキスト (フォームに入力されたテキスト文字列データなど) をモデルで使用するには、機械学習アルゴリズムによる特別な処理が必要です。Qlik Predict では、フリーテキストの処理は自動特徴量エンジニアリングの一形態です。専門的には、この処理には TF-IDF (用語頻度 - 逆文書頻度) メソッドが使用されます。

Qlik Predict は、英語のフリーテキストデータを含む特徴量の個別処理をサポートしています。

トレーニングデータの列にフリーテキストが含まれている場合、その列にはフリーテキスト特徴量タイプが割り当てられます。カテゴリ特徴量として使用することもできますが、カーディナリティが高い (一意の値が多すぎる) 場合は極力使用しないでください。

実験でフリーテキスト特徴量として使用する列を、最大 3 つ選択できます。

フリーテキストデータで構成される項目を使用する場合、2024 年 1 月 23 日より前にトレーニングされたモデルを再トレーニングすることをお勧めします。

フリーテキストエンコーディングの要件

フリーテキストを含む列をフリーテキストとして正常にエンコードするためには、2 つの要件を満たす必要があります。これらの要件は、実験作成のさまざまな段階でチェックされます。

要件は次のとおりです。

列の平均文字数は 50 文字以上である必要があります。
列の平均単語数は 5 語以上である必要があります。

特徴量をフリーテキストとして扱う

特徴量をフリーテキストとして扱うプロセスは次のとおりです。

トレーニングデータを選択すると、Qlik Predict はフリーテキストとして処理が可能な特徴量を特定しますこれらは、スキーマビューで [利用可能なフリーテキスト] インサイトでマークされており、フリーテキスト特徴量タイプになります。
実験の v1 を実行すると、追加の分析が完了します。この時点で、当初はフリーテキストとしてマークされていた特徴量が、フリーテキスト特徴量として使用できないことが判明する可能性があります。

フリーテキストとして使用できない特徴量のカーディナリティが高い場合は、実験からそれらの選択を解除することをお勧めします。これらの特徴量は、カテゴリとして扱われる場合、モデルのパフォーマンスに価値をもたらしません。

フリーテキストとして使用できない特徴量のカーディナリティが高くない場合は、[Treat as categorical] (カテゴリとして扱う) をクリックするか、 [特徴量タイプ] をフリーテキストからカテゴリに切り替えることで、実験に含めることができます。特徴量タイプをフリーテキストのままにすると、内部的にはカテゴリとして扱われ、impact encoded されます。

前処理の詳細については、「自動データ準備と変換」を参照してください。

スキーマビューに表示される各インサイトの詳細については、「トレーニングデータに関するインサイトの表示」を参照してください。

実験ターゲットとしてのフリーテキスト特徴量の使用

まれに、フリーテキスト特徴量がターゲットとして選択される場合があります。特徴量がフリーテキストエンコーディングのすべての要件を満たしており、2 ～ 10 個の一意の値が含まれている場合、その特徴量をターゲットとして使用できます。このようなシナリオでは、実験は標準の二値分類問題または多項分類問題として定義されます。

予測でのフリーテキスト特徴量

フリーテキスト特徴量でトレーニングおよび展開されたモデルで予測を実行するための要件については、「予測におけるフリーテキスト特徴量の使用」を参照してください。

考慮事項

実験にフリーテキスト機能を含めると、実験は複雑になり、実行に必要なプロセスが増加します。フリーテキストデータが十分に複雑な場合、結果モデルで [Permutation Importance] チャートを使用できない可能性があります。

トラブルシューティング

フリーテキストデータを使用してモデルをトレーニングすることは、リソースを大量に消費するプロセスとなる可能性があります。多数の一意の単語を含むフリーテキスト列を特徴量として含めると、エラーが発生する可能性があります。

これらのエラーを解決するためのガイドラインを次に示します。

トレーニングデータセット内のデータサブセットを減らして、含まれるフリーテキストの行を減らします。
モデルトレーニングに含める必要のないフリーテキスト特徴量を削除します。
1 つ以上のフリーテキスト列を、フリーテキスト特徴量ではなくカテゴリ特徴量として扱います。これらのフリーテキスト特徴量に高いカーディナリティが含まれている場合、この方法は推奨されません。

制限事項

自由テキストの自動特徴量エンジニアリングは、特定のサイズ制限内のトレーニングデータセットでのみ利用できます。詳細については、「トレーニングデータセットとプロファイリングの制限」を参照してください。
自動フリーテキスト特徴量エンジニアリングは、時系列実験では使用できません。

詳細を見る

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください

フリー テキスト データの取り扱い

フリー テキスト エンコーディングの要件