Propriétés du tDynamoDBInput pour Apache Spark Batch
Ces propriétés sont utilisées pour configurer le tDynamoDBInput s'exécutant dans le framework de Jobs Spark Batch.
Le composant tDynamoDBInput Spark Batch appartient à la famille Bases de données.
Le composant de ce framework est disponible dans tous les produits Talend avec Big Data et dans Talend Data Fabric.
Basic settings
Use an existing connection |
Cochez cette case et sélectionnez le composant de connexion adéquat dans la liste Component list pour réutiliser les paramètres d'une connexion que vous avez déjà définie. |
Inherit credentials from AWS role (Hériter des identifiants du rôle AWS) |
Cochez cette case pour tirer parti des informations d'authentification du profil de l'instance. Ces informations peuvent être utilisées sur des instances Amazon EC2 et sont fournies via le service de métadonnées d'Amazon EC2. Pour utiliser cette option, votre Job doit s'exécuter dans Amazon EC2 ou d'autres services pouvant tirer parti des rôles IAM pour accéder aux ressources. Pour plus d'informations, consultez Utilisation d'un rôle IAM pour accorder des autorisations à des applications s'exécutant sur des instances Amazon EC2 (uniquement en anglais). Note InformationsRemarque : Cette option est disponible lorsque la case Use an existing connection n'est pas cochée.
|
Access Key |
Saisissez l'ID de la clé d'accès identifiant de manière unique un compte AWS. Pour plus d'informations concernant l'obtention de vos Access Key et Secret Key, consultez Obtention de vos clés d'accès AWS (uniquement en anglais). Note InformationsRemarque : Cette option est disponible lorsque les cases Use an existing connection et Inherit credentials from AWS role sont décochées.
|
Secret Key |
La Secret Access Key, combinée à la clé d'accès, constitue votre accès sécurisé à Amazon S3. Pour saisir la clé secrète, cliquez sur le bouton [...] à côté du champ Secret key, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles puis cliquez sur OK afin de sauvegarder les paramètres. Note InformationsRemarque : Cette option est disponible lorsque les cases Use an existing connection et Inherit credentials from AWS role sont décochées.
|
Région |
Spécifiez la zone géographique AWS en sélectionnant le nom d'une zone géographique dans la liste ou en saisissant le nom de la zone entre guillemets doubles ("us-east-1" par exemple) dans la liste. Pour plus d'informations concernant les zones géographiques AWS, consultez Régions et points de terminaison AWS (uniquement en anglais). |
Use End Point |
Cochez cette case et dans le champ Server Url affiché, spécifiez l'URL du service Web du service de base de données DynamoDB. |
Schema et Edit schema |
Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs.
|
|
Créez le schéma en cliquant sur le bouton Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :
|
Table Name |
Spécifiez le nom de la table de laquelle lire les données. |
Advanced settings
Number of scan segments |
Saisissez, sans guillemet, le nombre de segments pour l'opération d'analyse (scan) parallèle. |
Nombre de partitions |
Saisissez, sans guillemet, le nombre maximum de partitions dans lesquelles vous souhaitez que Spark divise les données d'entrée, afin que les exécuteurs Spark traitent les données en parallèle. Il est recommandé de saisir un nombre inférieur ou égal au nombre de segments. |
Throughput read percent |
Saisissez, sans guillemet, le pourcentage (exprimé en décimal) de la capacité de lecture prédéfinie dans Amazon à utiliser. Le reste de cette capacité est utilisé pour d'autres applications ne provenant pas de Talend. Pour plus d'informations concernant cette capacité de lecture, consultez Capacité de débit pour la lecture et l'écriture (uniquement en anglais). |
Advanced settings |
Ajoutez des propriétés pour définir les opérations supplémentaires que vous souhaitez que le tDynamoDBInput effectue lors de la lecture des données. Cette table est présente pour les évolutions futures du composant et l'utiliser requiert un haut niveau de connaissances en développement DynamoDB. Actuellement, aucune propriété personnalisable n'est disponible. |
Utilisation
Règle d'utilisation |
Ce composant est utilisé en tant que composant de début et nécessite un lien de sortie. Ce composant doit utiliser un tDynamoDBConfiguration dans le même Job pour se connecter à une base de données DynamoDB. Vous devez déposer un tDynamoDBConfiguration près de ce composant et en configurer les propriétés simples (Basic settings) pour utiliser le tDynamoDBConfiguration. Ce composant, ainsi que la Palette Spark Batch à laquelle il appartient, ne s'affiche que lorsque vous créez un Job Spark Batch. Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données. |
Connexion à Spark |
Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie. |