Propriétés du tVerifyEmail pour Apache Spark Batch
Ces propriétés sont utilisées pour configurer le tVerifyEmail s'exécutant dans le framework de Jobs Spark Batch.
Le composant tVerifyEmail Spark Batch appartient à la famille Qualité de données.
Le composant de ce framework est disponible dans tous les produits Talend Platform avec Big Data et dans Talend Data Fabric.
Basic settings
Schema |
Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs. |
|
Built-in : le schéma est créé et conservé localement pour ce composant seulement. |
|
Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets. |
Edit Schema |
Créez le schéma en cliquant sur le bouton Edit Schema. Si vous effectuez des modifications, le schéma passe automatiquement en type built-in. Le schéma de sortie du tVerifyEmail contient différentes colonnes en lecture seule, selon les options sélectionnées dans la vue Basic settings du composant. Les colonnes de sortie en lecture seule sont les suivantes : VerificationLevel : fournit le statut de vérification des adresses e-mail traitées comme suit : -VALID : signifie que l'adresse e-mail est conforme à la règle définie. -INVALID : signifie que l'adresse e-mail n'est pas conforme à la règle définie. -CORRECTED : signifie que l'adresse e-mail d'entrée n'est pas conforme à la règle définie et a été corrigée à l'aide du contenu des colonnes sélectionnées. Cette colonne est disponible uniquement lorsque vous sélectionnez l'option Use column content dans la section LOCAL Part Options. -VERIFIED : signifie que les adresses existent dans le domaine. Cette colonne est disponible uniquement lorsque l'option Check with mail server callback est sélectionnée. -REJECTED : signifie que l'adresse e-mail n'existe pas dans le domaine. Cette colonne est disponible uniquement lorsque l'option Check with mail server callback est sélectionnée. Suggested_Email : suggère un contenu pour la partie précédant le caractère @. La chaîne de caractères de l'e-mail est construite grâce aux colonnes sélectionnées dans la vue Use column content. |
Column to validate |
Sélectionnez dans la liste la colonne que vous souhaitez valider avec le tVerifyEmail. |
Check the entire email with regular expression |
Cochez cette case si vous souhaitez mettre en correspondance l'adresse e-mail complète et une expression régulière spécifique. Complete regular expression : saisissez l'expression régulière par rapport à laquelle vous souhaitez mettre en correspondance les adresses e-mail. Ce rapprochement est la première étape d'optimisation du processus de consolidation et permet d'exclure les adresses contenant des erreurs, avant d'aller plus loin dans la consolidation des parties locales et relatives au domaine des adresses e-mail. |
LOCAL Part Options |
Les champs de cette vue varient selon l'option sélectionnée. "LOCAL part" dans une adresse e-mail fait référence aux caractères précédent le "@". -Use regular expression : saisissez, dans le champ Pattern, l'expression par rapport à laquelle vérifier la partie locale d'une adresse e-mail. -Use simplified pattern : saisissez, dans le champ Pattern, le modèle simplifié par rapport auquel vérifier la partie locale de l'adresse e-mail. Sélectionnez l'option Show syntax of simplified pattern pour afficher la syntaxe à utiliser avec une description. Pour plus d'informations concernant la syntaxe, consultez Syntaxe du modèle simplifié à utiliser avec le tVerifyEmail. -Use column content : utilisez les champs de cette vue afin de décider du contenu par rapport auquel vérifier la partie locale de l'adresse e-mail. Si la partie locale ne correspond pas à ce que vous avez défini, elle sera réécrite à l'aide du contenu des champs. -Enable case-sensitive pattern matching : cochez cette case pour rendre sensible à la casse le rapprochement des modèles pour la partie locale des adresses e-mail. La sensibilité à la casse du rapprochement des modèles peut être utilisée avec chacune des options ci-dessus. |
DOMAIN Part Options |
Les champs dans cette vue varient selon l'option sélectionnée. -Check the Top-level Domains and the following ones : cochez cette case afin de vérifier la partie de l'adresse e-mail suivant le dernier point. Vous pouvez utiliser la table Additional Top-level Domains pour ajouter des domaines de premier niveau supplémentaires par rapport auxquels vous souhaitez valider les adresses e-mail. -Check domains with a black list : sélectionnez cette option afin de vérifier que vous avez défini le domaine comme étant dans la liste de blocage, dans la table Domains. -Check domains with a white list : sélectionnez cette option afin de vérifier que vous avez défini le domaine comme étant dans la liste d'autorisation, dans la table Domains. |
Global Variables
Variables globales |
ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case. Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant. Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser. Pour plus d'informations concernant les variables, consultez Utiliser les contextes et les variables. |
Utilisation
Règle d'utilisation |
Ce composant est utilisé comme étape intermédiaire. Ce composant, ainsi que la Palette Spark Batch à laquelle il appartient, ne s'affiche que lorsque vous créez un Job Spark Batch. Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données. |
Connexion à Spark |
Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie. |