Dans la perspective Integration du Studio Talend, créez un Job Spark Batch vide, à partir du nœud Job Designs, dans la vue Repository.
Pour plus d'informations concernant la création d'un Job Spark Batch, consultez .
Dans l'espace de modélisation, saisissez le nom du composant à utiliser et sélectionnez ce composant dans la liste qui apparaît. Dans ce scénario, les composants sont : un tHDFSConfiguration, deux tFixedFlowInput (nommez-en un customer_base et l'autre web_data), un tSqlRow, un tCacheOut, un tCacheIn, un tMap, un tExtractDelimitedFields, un tAggregateRow, un tTop et un tLogRow.
Les composants tFixedFlowInput sont utilisés pour charger les données d'exemple dans le flux de données. Dans un cas réel d'utilisation, vous pouvez utiliser d'autres composants, comme le tMysqlInput ou le tMap au lieu du tFixedFlowInput, afin de créer un processus sophistiqué afin de préparer vos données à un traitement.
Reliez le customer_base (tFixedFlowInput), le tSqlRow et le tCacheOut avec un lien Row > Main. Dans ce sous-Job, les enregistrements concernant les clients dont le niveau de support est Silver sont sélectionnés et stockés dans le cache.
Reliez le web_data (tFixedFlowInput) au tMap à l'aide d'un lien Row > Main. Ce flux est le flux d'entrée principal vers le composant tMap.
Répétez l'opération afin de relier le tCacheIn au tMap. Ce flux est le flux de référence (lookup) vers le tMap.
Reliez le tMap au tExtractDelimitedFields à l'aide d'un lien Row > Main et donnez un nom à cette connexion dans la boîte de dialogue qui s'ouvre. Par exemple, nommez-la output.
Reliez le tExtractDelimitedFields, le tAggregateRow, le tTop et le tLogRow à l'aide de liens Row > Main.
Reliez le composant customer_base au web_data à l'aide d'un lien Trigger > OnSubjobOk.
Laissez le composant tHDFSConfiguration seul, sans connexion.
Cette page vous a-t-elle aidé ?
Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.