例 – 自動機械学習によるモデルのトレーニング
この例では、インテリジェント モデル最適化を使用して機械学習モデルをトレーニングします。インテリジェント モデル最適化により、AutoML はモデルの反復と改良のプロセスを処理します。これは、モデルの予測パフォーマンスに影響を与える特徴量を除外することによって行われます。
インテリジェント モデル最適化の詳細については、「インテリジェント モデル最適化」を参照してください。
学習内容
この例では、次のことを学習します。
-
ML実験の作成と構成方法
-
インテリジェント最適化が自動モデル改良を実現する方法
-
トレーニング結果の表示と分析方法
その他の考慮事項
インテリジェント モデル最適化は、適切に準備されたデータセットがあれば、モデルの改良に大いに役立ちます。実際のユース ケースでモデルの品質を高く保つには、構造化されたフレームワークに従って、関連する特徴量とデータを含むトレーニング データセットを準備することから始めることが不可欠です。詳細については、次を参照してください
インテリジェント モデル最適化は、必要に応じて実験バージョンごとにオフにできます。この設定をオフにすると、モデルを手動で最適化することになります。実験構成に特定の調整を加える場合は、手動による最適化が役立ちます。インテリジェント モデル最適化を備えたバージョンを実行し、それをオフにして手動で小さな調整を加えながら、提供される自動改良を有効に利用できます。
この例では、インテリジェント最適化を使用した実験トレーニングについて説明します。手動最適化の使用方法を示す完全なチュートリアルについては、「チュートリアル - 予測データの生成と視覚化」を参照してください。このチュートリアルでは、インタラクティブな Qlik Sense アプリを使用したモデルの展開、予測の実行、予測データの視覚化についてのエンドツーエンドのガイダンスも提供します。
この例を完了する必要があるユーザー
インテリジェント モデル最適化を使用して機械学習モデルを改良する方法を学習するには、この例を完了する必要があります。
この例を完了するには、次が必要となります。
-
Professional 資格または Full User 資格
-
テナントでの Automl Experiment Contributor セキュリティ ロール
-
共同作業スペースで作業している場合は、作業するスペースで必要なスペース ロール。参照: 共有スペースでの権限の管理
ML リソースを表示または作成できない場合は、必要なロール、資格、または権限を持っていない可能性があります。詳細については、テナント管理者に問い合わせてください。
詳細については、「Qlik AutoML を操作できるユーザー」を参照してください。
始める前に必要な準備
このパッケージをダウンロードしてデスクトップに解凍します。
パッケージには、モデルのトレーニングに使用するトレーニング データセットが含まれています。データセットには、更新期限が過ぎて、サブスクリプションのサービスをチャーンするか継続するかを決定した顧客に関する情報が含まれています。
次の手順を実行します。
-
Analytics アクティビティ センターを開きます。
-
[作成] ページに移動し、 [データセット] を選択して、 [データ ファイルをアップロード] を選択します。
-
AutoML Example - Churn data - training.csv ファイルをアップロード ダイアログにドラッグします。
-
スペースを選択します。個人スペース、または他のユーザーがこのデータにアクセスできるようにする場合は共有スペースにもできます。
-
[アップロード] をクリックします。
データセットがアップロードされたら、実験の作成を実行できます。
パート 1: 実験の作成
次の手順を実行します。
-
Analytics アクティビティ センターの [作成] ページに移動し、 [ML 実験] を選択します。
-
実験の名前を入力します (例: インテリジェント最適化の例)。
-
必要に応じて、説明とタグを追加します。
-
実験のスペースを選択します。個人スペースまたは共有スペースを選択できます。
-
[作成] をクリックします。
-
AutoML Example - Churn data - training.csv ファイルを選択します。
パート 2: 実験の構成
次に、実験を構成します。
インテリジェント モデル最適化では、手動による最適化よりも初期構成が少なくなります。この場合、ターゲットを選択し、既定で含まれているすべての特徴量を使用します。
ターゲットの選択
機械学習モデルで顧客チャーンを予測するため、Churned をターゲットとしてデータセットの最後の列で選択します。
実験では、 [データ] タブのみが表示される必要があります。ターゲットは複数の方法で選択できますが、ここでは既定で開いている スキーマ ビューを使用します。
次の手順を実行します。
-
スキーマで Churned にカーソルを合わせ、表示されるターゲット アイコンをクリックします。
特徴量の選択を確認する
ターゲットを選択すると、すべての使用できる特徴量と推奨される特徴量が既定で含まれます。 スキーマ ビューで、2 つの特徴量を除くすべての特徴量が含まれていることを確認します。含まれている各特徴量の横にあるチェックボックスがオンになっています。Country は使用できません。AccountID はカーディナリティが高く使用は推奨されないため、選択は解除したままにします。
インテリジェント最適化の確認
ページの右側に、追加設定を行うためのパネルが開いています。インテリジェント モデル最適化がオンになっていることを確認します。
次の手順を実行します。
-
実験構成パネルが開いていない場合は、 [ 構成を見る] をクリックして開きます。
-
パネルで、 [モデル最適化] を展開します。
-
選択された最適化オプションは [インテリジェント] である必要があります。
トレーニングの実行
モデルのトレーニングを開始するには、ページの右下にある [実験を実行] をクリックします。
パート 3: 結果を表示する
トレーニングが完了すると、 [モデル] タブが表示されて開きます。ここで、トレーニング中に実行された最適化を確認できます。 アイコンが付いた最上位モデルが自動的に選択されます。このモデルを分析してみましょう。
[モデル トレーニングの概要] を確認します。ここには、このモデルのインテリジェント最適化の結果が示されています。このケースでは、次の特徴量がドロップされ、削除の理由が示されていることがわかります。
-
ターゲット漏洩の疑いがあるため、DaysSinceLastService はドロップされました。 このケースでは、列には不適切なロジックのデータが含まれていました。サービスをキャンセルした顧客 (場合によっては数年前) について、最後のサービス チケットからの日数がまだカウントされていました。この特徴量は、モデルに誤ったパフォーマンス スコアを与え、展開した場合にモデルのパフォーマンスが大きく低下する可能性があるため、削除する必要がありました。「データ漏洩」を参照してください。
-
PriorPeriodUsage と PriorPeriodUsage-Rounded は、別の特徴量との相関が高すぎるためドロップされました。相関のある特徴量は、トレーニングにまだ含まれています。「相関」を参照してください。
-
CurrentPeriodUsage、CustomerTenure、StartMonth、Territory、DeviceType、StartWeek は、Permutation Importance が低いためにすべてドロップされました。モデルへの影響が少ない特徴量は統計的なノイズとみなされ、パフォーマンスを向上させるために削除できます。「Permutation Importance を理解する」を参照してください。
これらの特徴量が削除されたので、最も影響力のある特徴量と、モデルの予測パフォーマンスのいくつかの指標を示すビジュアライゼーションを確認できます。これらのチャートに表示される内容は、特徴量セットに欠けているものがないか、または結果が偏っていないかを評価するのに役立ちます。
これらのビジュアライゼーションを使用してモデルを分析する方法の詳細については、「モデルのクイック分析の実行」を参照してください。
分析をさらに深める
モデルのメトリクスをさらに詳しく調べる場合は、実験の [比較] タブと [分析] タブに切り替えます。これらのタブでは、メトリクスをより詳細かつインタラクティブに表示できます。
詳細については、「モデルの比較」および「詳細なモデル分析の実行」を参照してください。
次のステップ
高品質のデータセットを使用すると、インテリジェント最適化により、追加の反復をほぼ必要とせずに、すぐに展開できるモデルが作成されます。この時点で、パフォーマンス最上位のモデルを展開することをお勧めします。それ以外の場合は、手動でモデルを改良し続けるか、トレーニング データを更新してインテリジェント モデル最適化を再度実行します。
次のステップの詳細については、次を参照してください。
お疲れ様でした!
この例を完了しました。インテリジェント モデル最適化を使用して、すぐに展開できる機械学習モデルを簡単にトレーニングする方法をご理解いただけたと思います。
追加の資料とリソース
- Qlik では、さらなる詳細情報を提供する、広範なリソースをご用意しています。
- Qlik オンライン ヘルプを使用できます。
- 無料のオンライン コースを含むトレーニングは、Qlik Continuous Classroom で利用できます。
- ディスカッション フォーラム、ブログなどは、Qlik Community にあります。
お客様のご意見は重要です
フィードバックをお待ちしています。以下のセクションを使用して、弊社へのフィードバックをお知らせください。