Propriétés du tGoogleDataprocManage Standard
Ces propriétés sont utilisées pour configurer le tGoogleDataprocManage s'exécutant dans le framework de Jobs Standard.
Le composant tGoogleDataprocManage Standard appartient à la famille Cloud.
Le composant de ce framework est disponible dans tous les produits Talend avec Big Data et dans Talend Data Fabric.
Basic settings
Project ID |
Saisissez l'ID de votre projet Google Cloud Platform. Si vous n'êtes pas certain de l'ID de votre projet, vérifiez dans la page Manage Resources de vos services Google Cloud Platform. |
Cluster ID |
Saisissez l'ID de votre cluster Dataproc à utiliser. |
Provide Google Credentials in file |
Lorsque vous lancez votre Job à partir d'une machine donnée sur laquelle Google Cloud SDK a été installé et vous a autorisé à utiliser vos identifiants de compte utilisateur·rice pour accéder à Google Cloud Platform, ne cochez pas cette case. Dans cette situation, cette machine est souvent votre machine locale. Lorsque vous lancez votre Job à partir d'une machine distante, comme un Talend JobServer, cochez cette case et dans le champ Path to Google Credentials file qui s'affiche, saisissez le répertoire dans lequel ce fichier JSON est stocké dans la machine du Talend JobServer. Vous pouvez également cliquer sur le bouton [...] puis, dans la boîte de dialogue qui s'ouvre, parcourir le fichier JSON. Pour plus d'informations concernant le fichier Google Credentials, contactez l'administrateur·trice de votre Google Cloud Platform ou consultez Google Cloud Platform Auth Guide. |
Action |
Sélectionnez l'action à effectuer sur votre cluster par le tGoogleDataprocManage.
|
Version |
Sélectionnez la version de l'image à utiliser pour créer un cluster Dataproc. |
Region |
Dans cette liste déroulante, sélectionnez la région Google Cloud à utiliser. |
Zone |
Sélectionnez la zone géographique dans laquelle sont utilisées les ressources de calcul et dans laquelle sont stockées et traitées les données. Les zones disponibles dépendent de la région sélectionnée dans la liste déroulante Regional. Une zone en termes Google Cloud est un emplacement isolé au sein d'une région, autre terme géographique employé par Google Cloud. |
Instance configuration |
Saisissez les paramètres afin de déterminer combien d'instances master et worker doivent être utilisées par le cluster Dataproc à créer et configurez les performances de ces instances master et worker. |
Paramètres avancés
Wait for cluster ready |
Cochez cette case pour que le composant continue à s'exécuter jusqu'à ce que le cluster soit complètement configuré. Lorsque vous décochez cette case, ce composant arrête son exécution immédiatement après avoir envoyé la commande de création. |
Master disk size |
Saisissez un nombre, sans guillemet, afin de déterminer la taille du disque de chaque instance maître. |
Master local SSD |
Saisissez un nombre, sans guillemet, afin de déterminer le nombre d'appareils de stockage SSD (solid-state drive) locaux à ajouter à chaque instance maître. Selon Google, ces SSD locaux conviennent uniquement aux stockages temporaires, comme les caches, pour les espaces de traitement ou les données à faible valeur. Il est recommandé d'utiliser les options de stockage durable de Google pour stocker les données importantes. Pour plus d'informations concernant les options de stockage de Google, consultez Durable storage options. |
Worker disk size |
Saisissez un nombre, sans guillemet, afin de déterminer la taille du disque de chaque instance worker. |
Worker local SSD |
Saisissez un nombre, sans guillemet, afin de déterminer le nombre d'appareils de stockage SSD (solid-state drive) locaux à ajouter à chaque instance worker. Selon Google, ces SSD locaux conviennent uniquement aux stockages temporaires, comme les caches, pour les espaces de traitement ou les données à faible valeur. Il est recommandé d'utiliser les options de stockage durable de Google pour stocker les données importantes. Pour plus d'informations concernant les options de stockage de Google, consultez Durable storage options. |
Network ou Subnetwork |
Cochez une case ou l'autre pour utiliser respectivement un réseau ou sous-réseau Google Compute Engine pour le cluster à créer, pour activer les communications intra-cluster. Comme Google ne permet pas l'utilisation simultanée du réseau et du sous-réseau, cocher une case masque l'autre. Pour plus d'informations concernant la configuration du réseau pour les clusters Google Dataproc, consultez Dataproc Network. |
Internal IP only |
Cochez cette case pour configurer toutes les instances du cluster pour n'avoir que des adresses IP internes. Le sous-réseau du cluster doit avoir un accès privé à Google activé pour permettre aux nœuds du cluster d'accéder aux API et aux services Google depuis des IP internes. Pour plus d'informations consultez Configuration du réseau du cluster Dataproc. |
Initialization action |
Dans cette table, sélectionnez les actions d'initialisation disponibles dans le bucket partagé dans Google Cloud Storage à exécuter sur tous les nœuds de votre cluster Dataproc, immédiatement après la configuration du cluster. Si vous devez utiliser des scripts d'initialisation personnalisés, chargez-les dans ce bucket Google partagé, afin que le tGoogleDataprocManage puisse les lire.
Pour plus d'informations concernant ce bucket partagé et les actions d'initialisation, consultez Initialization actions. |
tStatCatcher Statistics |
Cochez cette case afin de collecter les données de log au niveau du composant. |
Utilisation
Règle d'utilisation |
Ce composant peut être utilisé en standalone dans un sous-Job. |