Propriétés du tCacheIn pour Apache Spark Batch
Ces propriétés sont utilisées pour configurer le tCacheIn s'exécutant dans le framework de Jobs Spark Batch.
Le composant tCacheIn Spark Batch appartient à la famille Processus en cours.
Le composant de ce framework est disponible dans tous les produits Talend avec Big Data nécessitant une souscription et dans Talend Data Fabric.
Basic settings
Propriétés | Description |
---|---|
Schema et Edit schema |
|
Output cache |
Sélectionnez le composant tCacheOut duquel le tCacheIn va lire le cache RDD. |
Utilisation
Conseils d'utilisation | Description |
---|---|
Règle d'utilisation |
Ce composant est utilisé en tant que composant de début et nécessite un lien de sortie. Ce composant est utilisé avec le tCacheOut. De manière itérative, le tCacheOut stocke des données d'entrée en cache, afin que le tCacheIn lise le cache sans avoir à calculer à nouveau le modèle Spark DAG (Directed Acyclic Graph, le modèle utilisé par Spark pour ordonnancer les actions Spark). Ce composant, ainsi que la Palette Spark Batch à laquelle il appartient, ne s'affiche que lorsque vous créez un Job Spark Batch. Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données. |
Connexion à Spark |
Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie. |