メイン コンテンツをスキップする 補完的コンテンツへスキップ

フリー テキスト データの取り扱い

フリー テキスト (フォームに入力されたテキスト文字列データなど) をモデルで使用するには、機械学習アルゴリズムによる特別な処理が必要です。Qlik Predict では、フリー テキストの処理は自動特徴量エンジニアリングの一形態です。専門的には、この処理には TF-IDF (用語頻度 - 逆文書頻度) メソッドが使用されます。

Qlik Predict は、英語のフリー テキスト データを含む特徴量の個別処理をサポートしています。

トレーニング データの列にフリー テキストが含まれている場合、その列にはフリー テキスト特徴量タイプが割り当てられます。カテゴリ特徴量として使用することもできますが、カーディナリティが高い (一意の値が多すぎる) 場合は極力使用しないでください。

実験でフリー テキスト特徴量として使用する列を、最大 3 つ選択できます。

情報メモフリー テキスト データで構成される項目を使用する場合、2024 年 1 月 23 日より前にトレーニングされたモデルを再トレーニングすることをお勧めします。

フリー テキスト エンコーディングの要件

フリー テキストを含む列をフリー テキストとして正常にエンコードするためには、2 つの要件を満たす必要があります。これらの要件は、実験作成のさまざまな段階でチェックされます。

要件は次のとおりです。

  • 列の平均文字数は 50 文字以上である必要があります。

  • 列の平均単語数は 5 語以上である必要があります。

特徴量をフリーテキストとして扱う

特徴量をフリー テキストとして扱うプロセスは次のとおりです。

  1. トレーニング データを選択すると、Qlik Predict はフリー テキストとして処理が可能な特徴量を特定しますこれらは、スキーマ ビューで [利用可能なフリー テキスト] インサイトでマークされており、フリー テキスト特徴量タイプになります。

  2. 実験の v1 を実行すると、追加の分析が完了します。この時点で、当初はフリー テキストとしてマークされていた特徴量が、フリー テキスト特徴量として使用できないことが判明する可能性があります。

    フリー テキストとして使用できない特徴量のカーディナリティが高い場合は、実験からそれらの選択を解除することをお勧めします。これらの特徴量は、カテゴリとして扱われる場合、モデルのパフォーマンスに価値をもたらしません。

    フリー テキストとして使用できない特徴量のカーディナリティが高くない場合は、[Treat as categorical] (カテゴリとして扱う) をクリックするか、 [特徴量タイプ] をフリー テキストからカテゴリに切り替えることで、実験に含めることができます。特徴量タイプをフリー テキストのままにすると、内部的にはカテゴリとして扱われ、impact encoded されます。

前処理の詳細については、「自動データ準備と変換」を参照してください。

スキーマ ビューに表示される各インサイトの詳細については、「トレーニング データに関するインサイトの表示」を参照してください。

実験ターゲットとしてのフリー テキスト特徴量の使用

まれに、フリー テキスト特徴量がターゲットとして選択される場合があります。特徴量がフリー テキスト エンコーディングのすべての要件を満たしており、2 ~ 10 個の一意の値が含まれている場合、その特徴量をターゲットとして使用できます。このようなシナリオでは、実験は標準の二値分類問題または多項分類問題として定義されます。

予測でのフリー テキスト特徴量

フリー テキスト特徴量でトレーニングおよび展開されたモデルで予測を実行するための要件については、「予測におけるフリー テキスト特徴量の使用」を参照してください。

考慮事項

実験にフリー テキスト機能を含めると、実験は複雑になり、実行に必要なプロセスが増加します。フリー テキスト データが十分に複雑な場合、結果モデルで [Permutation Importance] チャートを使用できない可能性があります。

トラブルシューティング

フリー テキスト データを使用してモデルをトレーニングすることは、リソースを大量に消費するプロセスとなる可能性があります。多数の一意の単語を含むフリー テキスト列を特徴量として含めると、エラーが発生する可能性があります。

これらのエラーを解決するためのガイドラインを次に示します。

  • トレーニング データセット内のデータ サブセットを減らして、含まれるフリー テキストの行を減らします。

  • モデル トレーニングに含める必要のないフリー テキスト特徴量を削除します。

  • 1 つ以上のフリー テキスト列を、フリー テキスト特徴量ではなくカテゴリ特徴量として扱います。これらのフリー テキスト特徴量に高いカーディナリティが含まれている場合、この方法は推奨されません。

制限事項

  • 自由テキストの自動特徴量エンジニアリングは、特定のサイズ制限内のトレーニング データセットでのみ利用できます。詳細については、「トレーニングデータセットとプロファイリングの制限」を参照してください。

  • 自動フリー テキスト特徴量エンジニアリングは、時系列実験では使用できません。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。