Préparation d'un jeu de données basé HDFS
Dans cet exemple, vous travaillez pour une entreprise en ligne de streaming de vidéos. Vous récupérez des informations clients stockées dans un cluster, créez un jeu de données dans Talend Data Preparation, appliquer plusieurs étapes de préparation pour nettoyer et enrichir ces données puis les réexporter dans le cluster, avec un nouveau format.
En utilisant le service Components Catalog, les données ne sont pas stockées physiquement sur le serveur de Talend Data Preparation, elles sont récupérées à la demande depuis le cluster. Seul un échantillon est récupéré et affiché dans l'interface de Talend Data Preparation, sur lequel vous pouvez travailler.
Pour utiliser Talend Data Preparation dans un contexte Big Data, vous devez compléter ces prérequis :
- le service Components Catalog est installé et en cours d'exécution sur une machine Windows ou Linux,
- le Spark Job Server est installé et en cours d'exécution sur une machine Linux,
- le Streams Runner est installé et en cours d'exécution sur une machine Linux,