Experimenten configureren
De configuratie van experimenten bestaat uit het selecteren van het doel, en de kenmerken die het model zal gebruiken om het doel te voorspellen. U kunt tevens een aantal optionele instellingen configureren.
Om u te helpen bij de selectie van een doel, wordt de historische gegevensverzameling geanalyseerd en wordt een samenvatting van de statistieken weergegeven voor iedere kolom in de gegevensverzameling. Er worden verschillende automatische voorbewerkingsstappen op de gegevensverzameling toegepast om er zeker van te zijn dat er alleen geschikte gegevens worden toegevoegd. Voor meer informatie over de voorbewerking van gegevens, kunt u Geautomatiseerde voorbereiding en transformatie raadplegen.
Na het uitvoeren van v1 kunt u indien nodig nieuwe experimentversies maken om de modeltraining verder te verfijnen. Ga voor meer informatie naar Modellen verfijnen.
Vereisten en machtigingen
Raadpleeg Werken met experimenten voor meer informatie over de gebruikersvereisten voor het werken met ML-implementaties.
Weergaven
De standaardweergave is de schemaweergave waarin iedere kolom in uw gegevensverzameling wordt vertegenwoordigd door een rij in het schema met informatie en statistieken. Voor meer informatie en voorbeeldgegevens voor iedere kolom, hebt u ook de gegevensweergave. Klik op en om te schakelen tussen de weergaven.
Klik op om het deelvenster Experimentconfiguratie aan de zijkant te openen of te sluiten. Hier vindt u informatie over uw experiment en de huidige configuratie.
Een doel selecteren
De doelkolom bevat de waarden waarvan u wilt dat het machine learning-model ze voorspelt. U kunt de doelkolom wijzigen tot u de eerste training start. Hierna wordt deze vergrendeld tegen bewerken.
Doe het volgende:
-
Plaats uw muisaanwijzer boven de kolom en klik op het -pictogram dat verschijnt.
De doelkolom wordt nu aangeduid door en de overige beschikbare kolommen worden automatisch als kenmerken geselecteerd.
Wanneer het doel is geselecteerd, kunt u de uitvoer van de eerste versie van het experiment starten. Lees meer in Trainingsexperimenten. U kunt nu meer opties configureren (zoals hieronder beschreven) of de configuratie aanpassen nadat u de trainingsresultaten hebt bekeken.
Wanneer u door de experimenttraining navigeert, wordt er uitleg getoond over hoe uw gegevens worden geïnterpreteerd en verwerkt. Ga voor meer informatie naar Veelvoorkomende inzichten in trainingsgegevens.
Het gemaakte modeltype bepalen
De kolom die u selecteert als het doel bepaalt het modeltype dat door uw experiment wordt gemaakt. Dit speelt dan weer een rol bij het bepalen van de algoritmen die worden gebruikt om het model te trainen. Bepaalde kolommen in uw gegevensverzameling kunnen mogelijk niet worden geselecteerd als doel voor uw experiment. Er kan ook een specifieke bewerking op worden toegepast.
De modeltypen zijn als volgt:
-
Binair classificatiemodel
-
Multiclassificatiemodel
-
Regressiemodel
De onderstaande tabel vat samen hoe de factoren in uw doel het modeltype bepalen.
Modeltype | Aantal unieke waarden in kolom | Vereist kenmerktype | Aanvullende informatie |
---|---|---|---|
Binaire classificatie | 2 | Enkele | - |
Multiclass-classificatie | 3-10 | Enkele | Een kolom met meer dan 10 unieke, niet-numerieke klassen kan niet als doel worden geselecteerd. |
Regressie | Meer dan 10 | Numeriek | - |
Kenmerkkolommen selecteren
Met de doelset kunt u kiezen welke van de overige beschikbare kolommen u aan de training van het model wilt toevoegen. Sluit kenmerken uit die geen onderdeel van het model moeten zijn. Deze kolom blijft in de gegevensverzameling staan, maar wordt niet gebruikt voor de training van het algoritme.
Bovenaan in het deelvenster Experimentconfiguratie ziet u het aantal cellen in uw gegevensverzameling. Als het aantal de limiet van uw gegevensverzameling overschrijdt, kunt u kenmerken uitsluiten om onder de limiet te blijven.
U kunt de kenmerkkolommen op verschillende manieren selecteren:
-
U kunt de selectievakjes voor de kenmerken die u niet wilt toevoegen, handmatig uitschakelen.
-
Klik op Alle kenmerken uitsluiten en selecteer vervolgens alleen de kenmerken die u wilt gebruiken.
-
Voer een zoekopdracht uit en sluit alle kenmerken in uw gefilterde zoekresultaat uit of voeg ze toe.
-
Nadat u de eerste versie van het experiment hebt uitgevoerd, kunt u het Aantal topkenmerken die opgenomen moeten worden definiëren.
Als u kenmerken selecteert, wordt hieraan automatisch een kenmerktype toegewezen. De mogelijke kenmerktypen zijn:
-
Categorisch
-
Numeriek
-
Datum
-
Vrije tekst
Het kenmerktype is gebaseerd op de gegevens in de kenmerkkolom. Als een kenmerk aan bepaalde criteria voldoet, kan dit de basis vormen voor automatisch ontwikkelende kenmerken. Indien gewenst kunt u wijzigen of het kenmerk voor automatische kenmerkontwikkeling wordt gebruikt. Voor meer informatie over automatische kenmerkontwikkeling gaat u naar Automatische kenmerkontwikkeling.
Bepaalde kolommen in uw gegevensverzameling kunnen mogelijk niet worden geselecteerd als kenmerken voor uw experiment. Er kan ook een specifieke bewerking op worden toegepast. Wanneer u door de experimenttraining navigeert, wordt er uitleg getoond over hoe uw gegevens worden geïnterpreteerd en verwerkt. Ga voor meer informatie naar Veelvoorkomende inzichten in trainingsgegevens.
Algoritmen selecteren
Standaard worden alle beschikbare algoritmen toegevoegd. Algoritmen die u niet wilt gebruiken, kunt u uitsluiten. U zou dit normaliter doen als onderdeel van modelverfijning wanneer u de eerste trainingsresultaten hebt gezien. Lees meer in Modellen verfijnen.
Kenmerktypen wijzigen
Wanneer een gegevensverzameling wordt geladen, worden de kolommen op basis van het gegevenstype behandeld als categorisch, numeriek of datum. Het kan voorkomen dat u deze instelling wilt wijzigen.
Als bijvoorbeeld de dagen van de week worden vertegenwoordigd door de getallen 1 t/m 7, dan vertegenwoordigt ieder getal een categorische waarde. Dit wordt standaard behandeld als een doorlopend gerangschikte numerieke waarde. Daarom dient u de configuratie handmatig te wijzigen om de waarde te behandelen als categorisch. U hebt ook de mogelijkheid een categorisch kenmerktype om te zetten in een numeriek kenmerktype.
Als wordt vastgesteld dat een kolom datum- en tijdinformatie bevat, wordt de kolom gebruikt als de basis voor het genereren van nieuwe automatisch ontworpen kenmerken. Als dit gebeurt, wordt de oorspronkelijke kolom (het bovenliggende kenmerk) behandeld als een kolom van het datumkenmerktype. U kunt het bovenliggende kenmerk wijzigen van een datumkenmerktype naar een categorisch kenmerktype. Maar als u dit doet, kunt u de automatisch ontwikkelde kenmerken niet meer in experimenttraining gebruiken.
Doe het volgende:
-
Klik in de kolom Kenmerktype op .
-
Selecteer een waarde in de lijst.
U kunt alle kolommen met een gewijzigd kenmerktype zien in het deelvenster Experimentconfiguratie onder Gegevensverwerking.
Gegevensverzameling wijzigen
U kunt de trainingsgegevensset wijzigen voordat u de eerste experimentversie uitvoert. U kunt dit ook doen na het uitvoeren van een versie.
Als u de gegegevensverzameling wijzigt nadat u de eerste versie hebt uitgevoerd, verliest u configuraties die u hebt gemaakt voordat u de gegevensverzameling wijzigde.
Doe het volgende:
Klik op het deelvenster Experimentconfiguratie onder Trainingsgegevens op Gegevensverzameling wijzigen.
Selecteer een nieuwe gegevensverzameling.
Zie De gegevensverzameling wijzigen en vernieuwen voor meer informatie over het wijzigigen en vernieuwen van de gegevensverzameling tijdens het verfijnen van het model (na de uitvoering van een experimentversie).
Optimalisatie van hyperparameter configureren
U kunt het model optimaliseren met behulp van optimalisatie van de hyperparameter. Dit is een geavanceerde optie die de duur van de training aanzienlijk kan verhogen. Ga voor meer informatie naar Optimalisatie van hyperparameter.
Doe het volgende:
Vouw in het deelvenster Experimentconfiguratie de sectie Modeloptimalisatie uit.
Selecteer het selectievakje Hyperparameteroptimalisatie.
U kunt desgewenst een tijdslimiet voor uw optimalisatie instellen. De standaardtijdslimiet is één uur.
Veelvoorkomende inzichten in trainingsgegevens
Afhankelijk van de kwaliteit van uw gegevensverzameling kan het zijn dat er beperkingen zijn voor hoe u bepaalde delen van de gegevens in uw experimentconfiguratie kunt gebruiken. De kolom Inzichten in de schemaweergave is handig als u specifieke kenmerken van gegevensvelden wilt identificeren en hoe ze worden verwerkt door machine learning-algoritmen.
De volgende tabel toont mogelijke inzichten die in het schema worden weergegeven:
Inzicht | Betekenis | Impact op configuratie |
---|---|---|
Constante | De kolom heeft dezelfde waarde voor alle rijen. | De kolom kan niet worden gebruikt als een doel of toegevoegd kenmerk. |
One-hot encoded | Het kenmerktype is categorisch en de kolom bevat minder dan veertien unieke waarden. | Geen effect op configuratie. |
Impact gecodeerd | Het kenmerktype is categorisch en de kolom bevat veertien of meer unieke waarden. | Geen effect op configuratie. |
Hoge kardinaliteit | De kolom bevat te veel unieke waarden en dat kan negatieve impact hebben op de prestaties van het model indien gebruikt als kenmerk. | De kolom kan niet worden gebruikt als een doel. Hij wordt automatisch uitgesloten als kenmerk, maar kan zo nodig nog wel worden toegevoegd. |
Verspreide gegevens | De kolom bevat te veel null-waarden. | De kolom kan niet worden gebruikt als een doel of toegevoegd kenmerk. |
Ondervertegenwoordigde klasse | De kolom heeft een klasse met minder dan tien rijen. | De kolom kan niet worden gebruikt als een doel, maar kan worden toegevoegd als een kenmerk. |
<aantal> automatisch ontwikkelde kenmerken | De kolom is het bovenliggende kenmerk dat kan worden gebruikt om automatisch ontwikkelde kenmerken te genereren. | Als dit bovenliggende kenmerk wordt geïnterpreteerd als een datumkenmerk, wordt het automatisch verwijderd uit de configuratie. Het wordt aanbevolen dat u in plaats daarvan de automatisch ontwikkelde datumkenmerken gebruikt die op basis daarvan kunnen worden gegenereerd. Het is mogelijk om deze instelling te overschrijven en het kenmerk toe te voegen in plaats van de automatisch ontwikkelde kenmerken. |
Automatisch gegenereerd kenmerk | De kolom is een automatisch ontwikkeld kenmerk dat kan worden, of is gegeneerd vanuit een bovenliggend datumkenmerk. Het komt niet voor in de oorspronkelijke gegevensverzameling. | U kunt een of meerdere van deze automatisch ontwikkelde kenmerken tijdens de experimenttraining verwijderen. Als u het kenmerktype van het bovenliggende kenmerk instelt op categorisch, worden alle automatisch ontwikkelde kenmerken verwijderd. |
Kan niet worden verwerkt als datum | De kolom bevat mogelijk datum- en tijdinformatie, maar kan niet worden gebruikt om automatisch ontwikkelde datumkenmerken te maken. | Het kenmerk wordt verwijderd uit de configuratie. Als automatisch ontwikkelde kenmerken eerder zijn gegenereerd uit dit bovenliggende kenmerk, worden ze verwijderd uit toekomstige experimentversies. U kunt het kenmerk in het experiment nog wel gebruiken, maar u moet dit kenmerktype wijzigen in categorisch. |
Mogelijke vrije tekst | De kolom is mogelijk beschikbaar om te gebruiken als vrijetekstkenmerk. | Het kenmerktype Vrije tekst wordt toegewezen aan de kolom. U moet een experimentversie uitvoeren om te bevestigen of het kenmerk als vrije tekst kan worden verwerkt. |
Vrije tekst | Er is bevestigd dat de kolom vrije tekst bevat. Deze kan als vrije tekst worden verwerkt. | Er zijn geen aanvullende configuraties voor het kenmerk vereist. |
Kan niet worden verwerkt als vrije tekst | Na verdere analyse is gebleken dat de kolom niet als vrije tekst kan worden verwerkt. | U moet het kenmerk deselecteren in de configuratie voor de volgende experimentversie. Als het kenmerk geen hoge cardinaliteit heeft, kunt u het kenmerktype eventueel wijzigen in Categorisch. |