タイムアウェア モデルの作成
タイムアウェア トレーニングを使用すると、トレーニング データ内に存在する時間ベースの列に沿ってデータを予測できるモデルを構築できます。この時間ベースの列の影響を受けることがわかっているターゲットに対して予測を実行する必要がある場合は、タイムアウェア トレーニングをアクティブ化します。
タイムアウェア トレーニングは、トレーニングデータに特化したデータ処理を適用することでデータ漏洩を削減します。この処理により、機械学習アルゴリズムは、特定の日付または時間の軸に応じて、データと予測コンテキストをより適切に解釈できるようになります。
タイムアウェア モデルをトレーニングするには、トレーニング データセットに日付またはタイムスタンプ データを含む列が必要です。この列は、トレーニング前にデータセットを並び替えるために使用される日付インデックスです。データ インデックスの作成については、「日付インデックスの要件」を参照してください。
使用に適しているケース
タイムアウェア モデル トレーニングは、トレーニングにすでに存在する時間メトリクスにわたって変化を予測するモデルに最適です。例:
-
来月の売上を予測するとします。データセットに [トランザクションの日付] 列があります。
-
配送遅延に関するメトリクスを予測するとします。データセットに [配送日] 列があります。
考慮事項
ユースケースによっては、タイムアウェア モデルトレーニングにより、より優れたモデルを構築できる可能性があります。その他のケースでは、AutoML が提供する既定のトレーニング プロセスでより良い結果が得られる可能性があります。一般に、データが特定の時間ベースの列に大きく依存している場合は、タイムアウェア モデル トレーニングを使用することをお勧めします。
Qlik AutoML では、タイムアウェア トレーニングでは、時系列の問題に対して遅延特徴量を生成するための自動特徴量エンジニアリングは実行されません。特徴量エンジニアリングを必要とする時間ベースのユースケースでは、データセットの準備段階で必要な特徴量エンジニアリングを実行することをお勧めします。
タイムアウェア トレーニングの仕組み
機械学習における一般的な問題は、モデルがトレーニング時に使用可能な情報のみに基づいてトレーニングされるようにする方法を見つけることです。トレーニング データに重要な日付と時間情報が含まれている場合、この情報を使用してデータ漏洩を防ぐことができます。
日付インデックスの要件
タイムアウェア トレーニングを有効にするには、モデル トレーニングが依存する日付と時間の情報を含む列がデータセット内に必要です。トレーニングのモデル最適化を構成するときに列を選択します。
トレーニングで列を日付インデックスとして使用するには、列に次のすべてが含まれている必要があります。
-
完全な日付。たとえば、月または日の値で構成される列は使用できません。
-
日付と時間のデータ タイプ。
-
日付特徴量タイプ。
ホールドアウトとクロス検証
ホールドアウトおよびクロス検証プロセスでデータを分離する方法を選択する場合、ランダム選択のメソッドによって将来のデータをモデル トレーニングに導入できます。タイムアウェア トレーニングを開始すると、AutoML は代わりに次のプロセスを使用します。
-
トレーニング データセットは、トレーニング データとホールドアウト データに分割される前に、選択したインデックス列に沿って並べ替えられます。
-
トレーニングの各反復では、固定のテスト サイズと徐々に増加するトレーニング サイズが使用されます。反復するたびに、データはより新しいものになります。
詳しくは、時間ベースのクロス検証 を参照してください。
その他の処理
タイムアウェア モデルのトレーニングでは、既定のトレーニング プロセスとは異なる他のプロセスも使用されます。たとえば、タイムアウェア トレーニングでは、null 代入のために修正されたプロセスが使用されます。詳細については、「Null の代入」を参照してください。
タイムアウェア トレーニングのオン
タイムアウェア モデルのトレーニングは、実験で実行するバージョンごとにオン/オフにしたり、再構成したりできます。
次の手順を実行します。
-
実験で、 [構成を見る] をクリックします。
-
少なくとも 1 つのバージョンの実験をすでに実行している場合は、 [新しいバージョン] をクリックします。
-
パネルで、 [モデル最適化] を展開します。
-
[時間ベースのテスト - トレーニング分割] で、データの並べ替えに使用する [日付インデックス] を選択します。
モデルの改良中にタイムアウェア トレーニングを変更できます。たとえば、設定をオフにしたり、日付インデックスとして新しい列を選択したりできます。詳細については、「モデルの改良」を参照してください。