Propriétés du tRuleSurvivorship pour Apache Spark Batch

Ces propriétés sont utilisées pour configurer le tRuleSurvivorship s'exécutant dans le framework de Jobs Spark Batch.

Le composant tRuleSurvivorship Spark Batch appartient à la famille Qualité de données.

Le composant de ce framework est disponible dans tous les produits Talend Platform avec Big Data et dans Talend Data Fabric.

Basic settings

Schema et Edit schema	Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé `line` lors du nommage des champs. Ce composant fournit deux colonnes en lecture seule : SURVIVOR : cette colonne est de type Boolean. Elle indique si un enregistrement est l'enregistrement consolidé (true) ou non (false). Il y a un enregistrement consolidé pour chaque groupe. CONFLICT : cette colonne affiche les conflits lorsque plus d'un enregistrement répond à une règle métier donnée. Lorsqu'un enregistrement consolidé est créé, la colonne CONFLICT n'affiche pas les conflits résolus par les règles de résolution des conflits.
	Built-in : le schéma est créé et conservé localement pour ce composant seulement.
	Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets.
Group identifier	Sélectionnez la colonne dont le contenu indique les identifiants de groupe requis du schéma d'entrée.
Rule package name	Saisissez le nom de l'ensemble de règles que vous créez via ce composant.
Generate rules and survivorship flow	Une fois que toutes les règles ont été configurées dans un ensemble via ce composant, cliquez sur l'icône pour générer l'ensemble de règles sous le nœud Survivorship Rules du dossier Rules Management sous Metadata dans le Repository de la perspective Integration de votre Studio Talend. Note InformationsRemarque : Cette étape est nécessaire pour valider les modifications et les prendre en compte lors de l'exécution. Si un ensemble de règles du même nom existe déjà dans le Repository, ces modifications, une fois validées, vont l'écraser, sinon celui du Repository aura priorité lors de l'exécution. Note InformationsAvertissement : Dans un ensemble de règles, deux règles ne peuvent pas porter le même nom.
Rule table	Renseignez cette table pour créer un flux complet de consolidation. Chaque règle donnée est définie comme une étape d'exécution. Ainsi, dans l'ordre décroissant dans la table, ces règles représentent une séquence et un flux prend forme. Les colonnes de cette table sont : Order : dans la liste, sélectionnez l'ordre d'exécution des règles que vous créez afin de définir un flux de consolidation. Les types d'ordre peuvent être : Sequential : une règle Sequential est une étape d'exécution d'un flux de consolidation. Par exemple, la première règle en haut de la table Rule table sera la première étape et, en descendant, la règle Sequential suivante sera la deuxième étape. La première règle en haut doit être une règle Sequential. Multi-condition : une règle Multi-condition est une règle supplémentaire pour une étape d'exécution donnée. Elle est toujours ajoutée à la dernière règle Sequential du dessus dans la table et, à cette étape, les deux règles doivent obligatoirement être respectées. Par exemple, après avoir défini la première règle Sequential, définissez une règle Multi-condition en-dessous ; les deux règles deviennent les règles de la première étape. Multi-target : après exécution, chaque étape valide la valeur des champs d'un enregistrement d'une colonne Reference column donnée et sélectionne la valeur correspondante comme étant celle de meilleure qualité pour renseigner une colonne Target column donnée, une règle Multi-target vous permet d'ajouter une ou plusieurs colonne(s) Target column dans la même étape. Vous devez définir chaque colonne Reference column et Target column manuellement dans cette table. Rule Name : saisissez le nom de chaque règle que vous créez. Cette colonne est disponible uniquement pour les règles Sequential puisqu'elle définit les étapes du flux de consolidation. N'utilisez pas de caractère spécial dans le nom des règles, sinon le Job risque de ne pas s'exécuter correctement. Les noms de règle sont sensibles à la casse. Reference column : sélectionnez la colonne sur laquelle vous souhaitez appliquer une règle donnée. Ce sont les colonnes définies dans le schéma de ce composant. Cette colonne n'est pas disponible pour les règles Multi-target car elles définissent uniquement les colonnes Target column. Function : sélectionnez le type d'opération de validation à effectuer sur une colonne Reference column donnée. Les types disponibles comprennent : None : aucune opération de validation n'est effectuée. Most common : valide la valeur de champ la plus fréquente dans chaque groupe de doublons. Most recent ou Most ancient : le premier valide la valeur de date la plus récente et le second valide la valeur de date la plus ancienne, dans chaque groupe de doublons. La colonne de référence correspondante doit être de type Date. Most complete : valide le champ lorsque l'enregistrement auquel il appartient possède le moins de champs vides. Longest ou Shortest : le premier valide la valeur de champ la plus longue et le second valide la valeur de champ la plus courte, dans chaque groupe de doublons. Largest ou Smallest : le premier valide la plus grande valeur numérique et le second la plus petite valeur numérique, dans chaque groupe de doublons. Match regex : valide le champ lorsqu'il est conforme à l'expression régulière dans la colonne Value. Expression : valide le champ lorsqu'il est conforme à l'expression saisie dans la colonne Value. La valeur de l'expression doit être écrite à l'aide du langage Drools. Value : saisissez l'expression qui vous intéresse, correspondant à la fonction Match regex ou Expression sélectionnée dans la colonne Function. Target column : lorsqu'une étape est exécutée, elle valide la valeur d'un champ d'un enregistrement d'une colonne Reference column donnée et sélectionne la valeur correspondante de meilleure qualité pour renseigner la colonne Target column donnée. Sélectionnez la colonne Target column parmi les colonnes du schéma du composant. Ignore blanks : cochez les cases correspondant au nom des colonnes dont vous souhaitez ignorer les valeurs vides.
Define conflict rule	Cochez cette case pour créer des règles de résolution des conflits dans la table Conflict rule table.
Conflict rule table	Renseignez cette table pour créer des règles de résolution des conflits. Les colonnes de cette table sont : Rule Name : saisissez le nom de chaque règle que vous créez. N'utilisez pas de caractère spécial dans le nom des règles, sinon le Job risque de ne pas s'exécuter correctement. Conflicting column : lorsqu'une étape est exécutée, elle valide la valeur d'un champ d'un enregistrement d'une colonne Reference column donnée et sélectionne la valeur correspondante de meilleure qualité pour renseigner la colonne Conflicting column donnée. Sélectionnez cette colonne Conflicting column parmi les colonnes du schéma du composant. Function : sélectionnez le type d'opération de validation à effectuer sur une colonne Conflicting column donnée. Les types disponibles comprennent ceux de la table Rule table et les types suivants : Fill empty : cette fonction remplit les champs vides avec la valeur spécifiée. Remove duplicate : cette fonction supprime la valeur d'un champ dans la colonne Reference column si la même valeur pour ce champ a été validée dans la colonne Conflicting column. Not match regex : cette fonction valide le champ lorsqu'il n'est pas conforme à l'expression régulière dans la colonne Value. Survive as : lorsqu'une valeur de champ de la colonne Reference column est validée, cette fonction sélectionne la valeur de champ correspondante dans le colonne Conflicting column comme étant celle de meilleure qualité. Value : saisissez l'expression qui vous intéresse, correspondant à la fonction Match regex ou Expression sélectionnée dans la colonne Function. Reference column : sélectionnez la colonne sur laquelle vous souhaitez appliquer une règle de résolution de conflits donnée. Ce sont les colonnes définies dans le schéma de ce composant. Ignore blanks : cochez les cases correspondant au nom des colonnes dont vous souhaitez ignorer les valeurs vides. Disable : cochez cette case pour désactiver la règle correspondante.

Paramètres avancés

Set the number of partitions by GID	Saisissez le nombre de partitions selon lequel vous souhaitez diviser chaque groupe.

Variables globales

Variables globales	ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case. Une variable Flow fonctionne durant l'exécution d'un composant. Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser. Pour plus d'informations concernant les variables, consultez le Guide d'utilisation du Studio Talend.

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case.

Une variable Flow fonctionne durant l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide d'utilisation du Studio Talend.

Utilisation

Règle d'utilisation	Ce composant est utilisé comme étape intermédiaire. Ce composant, ainsi que la Palette Spark Batch à laquelle il appartient, ne s'affiche que lorsque vous créez un Job Spark Batch. Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données.
Connexion à Spark	Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers : Yarn mode (Yarn Client ou Yarn Cluster) : Lorsque vous utilisez Google Dataproc, spécifiez un bucket dans le champ Google Storage staging bucket de l'onglet Spark configuration. Lorsque vous utilisez HDInsight, spécifiez le blob à utiliser pour le déploiement du Job, dans la zone Windows Azure Storage configuration de l'onglet Spark configuration. Lorsque vous utilisez Altus, spécifiez le bucket S3 ou le stockage Azure Data Lake Storage (aperçu technique) pour le déploiement du Job, dans l'onglet Spark configuration. Lorsque vous utilisez Qubole, ajoutez tS3Configuration à votre Job pour écrire vos données métier dans le système S3 avec Qubole. Sans tS3Configuration, ces données métier sont écrites dans le système Qubole HDFS et détruites une fois que vous arrêtez votre cluster. Lorsque vous utilisez des distributions sur site (on-premises), utilisez le composant de configuration correspondant au système de fichiers utilisé par votre cluster. Généralement, ce système est HDFS et vous devez utiliser le tHDFSConfiguration (en anglais). Standalone mode : utilisez le composant de configuration correspondant au système de fichiers que votre cluster utilise, comme le tHDFSConfiguration Apache Spark Batch ou le tS3Configuration Apache Spark Batch (en anglais). Si vous utilisez Databricks sans composant de configuration dans votre Job, vos données métier sont écrites directement dans DBFS (Databricks Filesystem). Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Règle d'utilisation

Ce composant est utilisé comme étape intermédiaire.

Ce composant, ainsi que la Palette Spark Batch à laquelle il appartient, ne s'affiche que lorsque vous créez un Job Spark Batch.

Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données.

Connexion à Spark

Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :

Yarn mode (Yarn Client ou Yarn Cluster) :
- Lorsque vous utilisez Google Dataproc, spécifiez un bucket dans le champ Google Storage staging bucket de l'onglet Spark configuration.
- Lorsque vous utilisez HDInsight, spécifiez le blob à utiliser pour le déploiement du Job, dans la zone Windows Azure Storage configuration de l'onglet Spark configuration.
- Lorsque vous utilisez Altus, spécifiez le bucket S3 ou le stockage Azure Data Lake Storage (aperçu technique) pour le déploiement du Job, dans l'onglet Spark configuration.
- Lorsque vous utilisez Qubole, ajoutez tS3Configuration à votre Job pour écrire vos données métier dans le système S3 avec Qubole. Sans tS3Configuration, ces données métier sont écrites dans le système Qubole HDFS et détruites une fois que vous arrêtez votre cluster.
- Lorsque vous utilisez des distributions sur site (on-premises), utilisez le composant de configuration correspondant au système de fichiers utilisé par votre cluster. Généralement, ce système est HDFS et vous devez utiliser le tHDFSConfiguration (en anglais).
Standalone mode : utilisez le composant de configuration correspondant au système de fichiers que votre cluster utilise, comme le tHDFSConfiguration Apache Spark Batch ou le tS3Configuration Apache Spark Batch (en anglais).

Si vous utilisez Databricks sans composant de configuration dans votre Job, vos données métier sont écrites directement dans DBFS (Databricks Filesystem).

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici