Propriétés du tMongoDBConfiguration pour Apache Spark Streaming
Ces propriétés sont utilisées pour configurer le tMongoDBConfiguration s'exécutant dans le framework de Jobs Spark Streaming.
Le composant tMongoDBConfiguration Spark Streaming appartient aux familles Bases de données et Bases de données NoSQL.
Ce composant est disponible dans Talend Real-Time Big Data Platform et dans Talend Data Fabric.
Basic settings
Property type |
Peut être Built-In ou Repository. Built-In : aucune propriété n'est stockée de manière centrale. Repository : Sélectionnez le fichier dans lequel sont stockées les propriétés du composant. |
DB Version |
Sélectionnez la version de la base de données MongoDB à laquelle vous connecter. |
Use connection string |
Cochez cette case pour établir une connexion à l'aide d'un URI (Uniform Resource Identifier). Vous devez ensuite cliquer sur le bouton [...] et saisir l'URI entre guillemets doubles dans la boîte de dialogue Enter a new password qui s'ouvre, puis cliquer sur OK pour sauvegarder les paramètres. Notez que l'URI fournit directement le nom d'utilisateur·trice et le mot de passe. Les paramètres Username et Password ne sont donc pas disponibles. Note InformationsImportant : Le format d'URI MongoDB Atlas n'est pas supporté dans les Jobs Spark Streaming.
Pour plus d'informations, consultez la section Connection String URI Format de la documentation MongoDB (en anglais). Cette option est disponible uniquement si vous sélectionnez MongoDB 4+ dans la liste déroulante DB Version et que vous avez installé la mise à jour mensuelle 8.0.1-R2023-05 du Studio Talend ou une plus récente fournie par Talend. |
Use replica set address or multiple query routers |
Cochez cette case pour afficher la table Server addresses. Dans la table Server addresses, définissez les bases de données MongoDB partagées ou les ensembles de répliques MongoDB auxquel(le)s vous souhaitez vous connecter. |
Server et Port |
Saisissez l'adresse IP et le numéro du port d'écoute du serveur de la base de données. Disponible lorsque la case Use replica set address or multiple query routers n'est pas cochée. |
Database |
Saisissez le nom de la base de données MongoDB à laquelle vous connecter. |
Use SSL connection |
Cochez cette case pour activer la connexion chiffrée SSL ou TLS. Utilisez le composant tSetKeystore dans le même Job afin de spécifier les informations de chiffrement. Configurez la propriété spark.executor.extraJavaOptions, dans la table Advanced properties de l'onglet Spark configuration, dans la vue Run. Par exemple :
"spark.executor.extraJavaOptions" : "-Djavax.net.ssl.trustStorePassword =password -Djavax.net.ssl.trustStore= /tmp/keystore.jks -Djavax.net.ssl.trustStoreType=JKS"Cette propriété configure les mêmes paramètres que le tSetKeystore pour les exécuteurs Spark, vous pouvez donc copier les valeurs du tSetKeystore. De plus, vous devez déployer le Keystore sur tous les nœuds worker au même emplacement. Dans l'exemple ci-dessus, /tmp/keystore.jks. Notez que la connexion SSL est disponible uniquement à partir de la version 2.4 de MongoDB. |
Use authentication |
Si la base de données MongoDB à utiliser nécessite une authentification, cochez cette case pour activer l'authentification à la base de données. Parmi les mécanismes listés dans la liste déroulante Authentication mechanism, le mécanisme NEGOTIATE est recommandé si vous n'utilisez pas Kerberos, car il sélectionne automatiquement le mécanisme d'authentification le plus adapté à la version de MongoDB que vous utilisez. Pour plus d'informations concernant les autres mécanismes de la liste, consultez MongoDB Authentication (en anglais) dans la documentation MongoDB. |
Set Authentication database |
Si le nom d'utilisateur ou d'utilisatrice à utiliser pour se connecter à MongoDB a été créé dans une base de données d'authentification MongoDB spécifique, cochez cette case pour saisir le nom de la base de données en question dans le champ Authentication database qui s'affiche. Pour plus d'informations concernant la base de données d'authentification MongoDB, consultez User Authentication database (en anglais). |
Username et Password |
Saisissez les informations d'authentification de l'utilisateur ou de l'utilisatrice de la base de données. Pour saisir le mot de passe, cliquez sur le bouton [...] à côté du champ Password, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles et cliquez sur OK afin de sauvegarder les paramètres. Ces options sont disponibles lorsque la case Use authentication est cochée et que la case Use connection string est décochée. Si le système de sécurité sélectionné dans la liste Authentication mechanism est Kerberos, saisissez les informations dans les champs suivants User principal, Realm et KDC server et non dans les champs Username et Password. |
Paramètres avancés
Connection string options |
Vous pouvez définir d'autres propriétés dans cette table pour la connexion à MongoDB, en plus des propriétés définies dans l'onglet Basic settings. Par exemple, vous pouvez ajouter l'option suivante afin de spécifier une valeur de délai avant suspension pour cette connexion.
connectTimeoutMS=300000 Pour plus d'informations concernant les options que vous pouvez ajouter dans cette table, consultez Connection options (en anglais). |
Utilisation
Règle d'utilisation |
Ce composant est utilisé sans avoir besoin d'être connecté à d'autres composants. La configuration dans un composant tMongoDBConfiguration s'applique uniquement aux composants MongoDB associés, dans le même Job. Autrement dit, les composants MongoDB utilisés dans un Job enfant ou parent qui est appelé par un tRunJob ne peuvent pas réutiliser cette configuration. Ce composant, ainsi que les composants Spark Streaming de la Palette à laquelle il appartient, s'affichent uniquement lorsque vous créez un Job Spark Streaming. Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données. |
Connexion à Spark |
Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie. |