Konfigurieren von Experimenten
Die Konfiguration von Experimenten besteht in der Auswahl des Ziels und der Features, die das Modell zum Vorhersagen des Ziels verwenden wird. Daneben können Sie eine Reihe optionaler Einstellungen konfigurieren.
Um Sie bei der Auswahl eines Ziels zu unterstützen, wird der Verlaufsdatensatz analysiert, und die zusammengefasste Statistik wird für jede Spalte im Datensatz angezeigt. Es werden mehrere automatische Vorverarbeitungsschritte auf den Datensatz angewendet, um zu gewährleisten, dass nur geeignete Daten eingeschlossen werden. Weitere Einzelheiten zur Datenvorverarbeitung finden Sie unter Automatische Datenvorbereitung und -umwandlung.
Nach dem Ausführen von v1 können Sie bei Bedarf neue Experimentversionen erstellen, um das Modelltraining weiter zu verfeinern. Weitere Informationen finden Sie unter Verfeinern von Modellen.
Anforderungen und Berechtigungen
Weitere Informationen über die Benutzeranforderungen für die Arbeit mit ML-Experimenten finden Sie unter Arbeiten mit Experimenten.
Ansichten
Die Standardansicht ist die Schemaansicht, bei der jede Spalte in Ihrem Datensatz durch eine Zeile im Schema mit Informationen und Statistiken dargestellt wird. Für weitere Informationen und Beispieldaten für jede Spalte gibt es die Datenansicht. Klicken Sie auf und , um zwischen den Ansichten zu wechseln.
Klicken Sie auf , um das Seitenfenster Experimentkonfiguration zu öffnen oder zu schließen. Hier finden Sie Informationen zu Ihrem Experiment und der aktuellen Konfiguration.
Auswählen eines Ziels
Die Zielspalte enthält die Werte, die vom Modell für maschinelles Lernen vorhergesagt werden sollen. Sie können die Zielspalte bis zum Start des ersten Trainings ändern. Danach ist sie für Änderungen gesperrt.
Gehen Sie folgendermaßen vor:
-
Halten Sie den Mauszeiger über die Spalte und klicken Sie auf das angezeigte Symbol .
Die Zielspalte wird jetzt durch gekennzeichnet, und die anderen verfügbaren Spalten werden automatisch als Features ausgewählt.
Nachdem das Ziel ausgewählt wurde, können Sie mit der Ausführung der ersten Version des Experiments beginnen. Weitere Informationen finden Sie in Trainieren von Experimenten. An dieser Stelle können Sie wie unten beschrieben weitere Konfigurationen vornehmen, oder Sie können die Konfiguration anpassen, nachdem Sie die Trainingsergebnisse geprüft haben.
Erläuterungen dazu, wie Ihre Daten interpretiert und verarbeitet werden, finden Sie im Verlauf des Experimenttrainings. Weitere Informationen finden Sie unter Häufige in Trainingsdaten gefundene Einblicke.
Bestimmen des Typs des erstellten Modells
Die Spalte, die Sie als Ziel auswählen, bestimmt den Typ des Modells, das von Ihrem Experiment erstellt wird. Das spielt wiederum eine Rolle bei der Bestimmung, welche Algorithmen zum Trainieren des Modells verwendet werden. Bestimmte Spalten in Ihrem Datensatz können möglicherweise nicht als Ziel für Ihr Experiment ausgewählt werden, oder es wurde eine bestimmte Verarbeitung darauf angewendet.
Die Modelltypen sind:
-
Binärklassifikationsmodell
-
Mehrklassen-Klassifikationsmodell
-
Regressionsmodell
In der Tabelle unten sind die Faktoren im Ziel zusammengefasst, die den Typ des verwendeten Modells bestimmen.
Modelltyp | Anzahl distinkter Werte in Spalte | Erforderlicher Feature-Typ | Zusätzliche Informationen |
---|---|---|---|
Binäre Klassifizierung | 2 | Beliebig | - |
Mehrklassen-Klassifizierung | 3-10 | Beliebig | Eine Spalte mit mehr als 10 distinkten, nichtnumerischen Klassen kann als Ziel nicht ausgewählt werden. |
Regression | Mehr als 10 | Numerisch | - |
Auswählen von Featurespalten
Nachdem das Ziel festgelegt ist, können Sie wählen, welche der anderen verfügbaren Spalten in das Training des Modells eingeschlossen werden. Schließen Sie alle Features aus, die nicht Teil des Modells sein sollen. Beachten Sie, dass die Spalte im Datensatz bestehen bleibt, aber vom Trainingsalgorithmus nicht verwendet wird.
Oben im Fenster Experimentkonfiguration sehen Sie die Anzahl der Zellen in Ihrem Datensatz. Wenn die Zahl das Limit Ihres Datensatzes überschreibt, können Sie Features ausschließen, um unter das Limit zu gelangen.
Sie können die Featurespalten auf verschiedene Weisen auswählen:
-
Deaktivieren Sie manuell die Kontrollkästchen für die Features, die Sie nicht einschließen möchten.
-
Klicken Sie auf Alle Features ausschließen und wählen Sie dann nur diejenigen aus, die Sie einschließen möchten.
-
Führen Sie eine Suche durch und schließen Sie alle Features in Ihrem gefilterten Suchergebnis aus oder ein.
-
Nachdem Sie die erste Version des Experiments ausgeführt haben, können Sie die Anzahl der obersten einzuschließenden Features definieren.
Wenn Sie Features auswählen, wird diesen automatisch ein Feature-Typ zugewiesen. Die möglichen Feature-Typen sind:
-
Kategorial
-
Numerisch
-
Datum
-
Freitext
Der Feature-Typ wird basierend auf den in der Feature-Spalte enthaltenen Daten zugewiesen. Wenn ein Feature bestimmte Kriterien erfüllt, kann es bereitgestellt werden, um als Grundlage für automatisch erstellte Features zu dienen. Bei Bedarf können Sie ändern, ob das Feature für automatische Feature-Erstellung verwendet wird. Genaue Einzelheiten zur automatischen technischen Planung von Features („Feature Engineering“) finden Sie unter Automatische technische Planung von Features.
Bestimmte Spalten in Ihrem Datensatz können möglicherweise nicht als Features für Ihr Experiment ausgewählt werden, oder es wurde eine bestimmte Verarbeitung darauf angewandt. Erläuterungen dazu, wie Ihre Daten interpretiert und verarbeitet werden, finden Sie im Verlauf des Experimenttrainings. Weitere Informationen finden Sie unter Häufige in Trainingsdaten gefundene Einblicke.
Auswählen von Algorithmen
Standardmäßig werden alle verfügbaren Algorithmen eingeschlossen. Sie können beliebige Algorithmen ausschließen, die Sie nicht verwenden möchten. In der Regel tun Sie dies im Rahmen der Modellverfeinerung, nachdem Sie die ersten Trainingsergebnisse erhalten haben. Weitere Informationen finden Sie in Verfeinern von Modellen.
Ändern der Feature-Typen
Wenn ein Datensatz geladen wird, werden die Spalten abhängig vom Datentyp und anderen Merkmalen als kategorial, numerisch, Datum oder Freitext behandelt. In einigen Fällen es ist ratsam, diese Einstellung zu ändern.
Beispiel: Wenn die Tage der Woche durch die Zahlen 1-7 dargestellt werden, steht jede Zahl für einen kategorialen Wert. Standardmäßig wird sie als numerischer Wert mit fortlaufendem Rang behandelt. Sie müssten also die Konfiguration manuell ändern, damit sie als kategorial behandelt wird. Sie haben auch die Möglichkeit, einen kategorialen Featuretyp in einen numerischen Featuretyp zu konvertieren.
Wenn eine Spalte dahingehend identifiziert wird, dass sie Datums- und Uhrzeitinformationen enthält, wird sie als Grundlage für neu erzeugte, automatisch erstellte Features genutzt. Wenn dies geschieht, wird die ursprüngliche Spalte (das übergeordnete Feature) so behandelt, als hätte sie den Feature-Typ „Datum“. Sie können das übergeordnete Feature von Feature-Typ „Datum“ in einen Feature-Typ „Kategorial“ ändern. Wenn Sie dies tun, können Sie jedoch die automatisch erstellten Features im Experimenttraining nicht mehr verwenden.
Gehen Sie folgendermaßen vor:
-
Klicken Sie in der Spalte Featuretyp auf .
-
Wählen Sie einen Wert in der Liste aus.
Sie können alle Spalten mit einem geänderten Featuretyp im Fenster Experimentkonfiguration unter Datenbehandlung anzeigen.
Ändern des Datensatzes
Sie können den Trainingsdatensatz vor Ausführen der ersten Experimentversion und nach Ausführen jeder weiteren Version ändern.
Wenn Sie den Datensatz vor dem Ausführen der ersten Version ändern, geht jede vor dem Ändern des Datensatzes vorgenommene Konfiguration verloren.
Gehen Sie folgendermaßen vor:
Klicken Sie im Fenster Experimentkonfiguration unter Trainingsdaten auf Datensatz ändern.
Wählen Sie einen neuen Datensatz aus.
Weitere Informationen zum Ändern und Aktualisieren des Datensatzes während der Modellverfeinerung (nach dem Ausführen einer Experimentversion) finden Sie unter Ändern oder Aktualisieren des Datensatzes.
Konfigurieren der Hyperparameteroptimierung
Sie können das Modell anhand von Hyperparameteroptimierung optimieren. Beachten Sie, dass dies eine erweiterte Option ist, durch die sich die Trainingszeit erheblich verlängern kann. Weitere Informationen finden Sie unter Hyperparameteroptimierung.
Gehen Sie folgendermaßen vor:
Erweitern Sie im Fenster Experimentkonfiguration den Abschnitt Modelloptimierung.
Aktivieren Sie das Kontrollkästchen Hyperparameteroptimierung.
Legen Sie optional ein Zeitlimit für Ihre Optimierung fest. Das Standardzeitlimit ist eine Stunde.
Häufige in Trainingsdaten gefundene Einblicke
Abhängig von der Qualität Ihres Datensatzes bestehen möglicherweise Einschränkungen dafür, wie Sie bestimmte Teile der Daten in der Experimentkonfiguration verwenden können. Die Spalte Einblicke in der Schemaansicht ist nützlich beim Identifizieren bestimmter Merkmale von Datenfeldern und beim Verständnis, wie diese durch Algorithmen für maschinelles Lernen verarbeitet werden.
Die folgende Tabelle zeigt mögliche Einblicke, die im Schema angezeigt werden können:
Einblick | Bedeutung | Auswirkung bei Konfiguration |
---|---|---|
Konstante | Die Spalte hat für alle Zeilen den gleichen Wert. | Die Spalte kann nicht als Ziel oder eingeschlossenes Feature verwendet werden. |
One-hot Encoded | Der Featuretyp ist kategorial und die Spalte enthält weniger als 14 eindeutige Werte. | Keine Auswirkung auf die Konfiguration. |
Impact Encoded | Der Featuretyp ist kategorial und die Spalte enthält 14 oder mehr eindeutige Werte. | Keine Auswirkung auf die Konfiguration. |
Hohe Kardinalität | Die Spalte enthält zu viele eindeutige Werte, was sich negativ auf die Modellleistung auswirken kann, wenn sie als Feature verwendet wird. | Die Spalte kann nicht als Ziel verwendet werden. Sie wird als Feature automatisch ausgeschlossen, kann aber bei Bedarf eingeschlossen werden. |
Spärliche Daten | Die Spalte enthält zu viele Nullwerte. | Die Spalte kann nicht als Ziel oder eingeschlossenes Feature verwendet werden. |
Unterrepräsentierte Klasse | Die Spalte enthält eine Klasse mit weniger als 10 Zeilen. | Die Spalte kann nicht als Ziel verwendet, aber als Feature eingeschlossen werden. |
<Anzahl der> automatisch erstellten Features | Die Spalte ist das übergeordnete Feature, das zur Erzeugung von automatisch erstellten Features verwendet werden kann. | Wenn dieses übergeordnete Feature als Datums-Feature gedeutet wird, wird es automatisch aus der Konfiguration entfernt. Es wird empfohlen, stattdessen die automatisch erstellten Datums-Features zu verwende, die daraus erzeugt werden können. Es ist möglich, diese Einstellung zu überschreiben und das Feature statt der automatisch erstellten Features einzubeziehen. |
Automatisch erstelltes Feature | Die Spalte ist ein automatisch erstellte Feature, das aus einem übergeordneten Datums-Feature erzeugt werden kann oder erzeugt wurde. Es ist im ursprünglichen Datensatz nicht aufgetreten. | Sie können eine oder mehrere dieser automatisch erstellten Features während des Experimenttrainings entfernen. Wenn Sie den Featuretyp des übergeordneten Features in kategorial ändern, werden alle automatisch erstellten Features entfernt. |
Konnte nicht als Datum verarbeitet werden | Die Spalte enthält möglicherweise Datums- und Uhrzeitinformationen, konnte jedoch nicht für die Erzeugung automatisch erstellter Datums-Features genutzt werden. | Das Feature wird aus der Konfiguration genommen. Falls automatisch erstellte Features vorher aus diesem übergeordneten Feature erzeugt wurde, werden sie aus zukünftigen Experimentversionen entfernt. Sie können das Feature nach wie vor im Experiment verwenden, allerdings müssen Sie den entsprechenden Featuretyp in kategorial ändern. |
Möglicher Freitext | Die Spalte könnte zur Verwendung als Freitext-Feature verfügbar sein. | Der Freitext-Featuretyp wird der Spalte zugewiesen. Sie müssen eine Experimentversion ausführen, um zu bestätigen, ob das Feature als Freitext verarbeitet werden kann. |
Freitext | Es wurde bestätigt, dass die Spalte Freitext enthält. Sie kann als Freitext verarbeitet werden. | Für das Feature ist keine weitere Konfiguration erforderlich. |
Konnte nicht als Freitext verarbeitet werden | Bei weiterer Analyse hat sich herausgestellt, dass die Spalte nicht als Freitext verarbeitet werden kann. | Sie müssen das Feature für die nächste Experimentversion in der Konfiguration abwählen. Wenn das Feature keine hohe Kardinalität hat, können Sie alternativ den Feature-Typ zu „Kategorial“ ändern. |