Accéder au contenu principal Passer au contenu complémentaire

Intégration de données

La première étape de la création d'un pipeline de données d'un projet Qlik Talend Data Integration consiste à intégrer les données. Cela implique de transférer les données à partir de la source de données et de stocker des ensembles de données dans un format optimisé pour la lecture. Vous pouvez mettre les données à jour avec gestion continue des modifications ou utiliser des chargements planifiés.

Vous créez l'intégration en une seule fois, mais elle est réalisée en deux étapes.

  • Dépôt temporaire des données

    Cela implique de transférer les données en continu de la source de données locale vers une zone de dépôt temporaire, via une tâche de données Dépôt temporaire.

    Dépôt temporaire de données à partir de sources de données

  • Stockage d'ensembles de données

    Cela implique la lecture du chargement initial des données de dépôt temporaire ou des chargements incrémentiels et l'application des données dans un format optimisé pour la lecture via une tâche de données Stockage.

    Stockage de jeux de données

Lorsque vous avez intégré les données, vous pouvez utiliser les ensembles de données stockés de plusieurs manières.

  • Vous pouvez utiliser les ensembles de données dans une application analytique.

  • Vous pouvez créer des transformations.

  • Vous pouvez créer un mini-data warehouse

Intégrer les données

Vous commencez à intégrer des données dans un projet. Les ensembles de données seront stockés dans un entrepôt de données cloud défini dans le projet. Pour plus d'informations sur les projets, consultez Création d'un pipeline de données.

  1. Dans votre projet, cliquez sur Ajouter nouveau, puis sur Intégrer les données.

    Note ConseilVous pouvez également cliquer sur sur une source existante dans le projet, puis cliquer sur Intégrer les données.
  2. Ajoutez un nom et une description pour l'intégration.

    Cliquez sur Suivant.

  3. Sélectionnez la connexion source.

    Vous pouvez sélectionner une connexion source existante ou créer une nouvelle connexion à la source.

    Pour plus d'informations, consultez Configuration des connexions aux sources de données.

    Cliquez sur Suivant.

  4. Sélectionner les données à charger.

    Pour plus d'informations, consultez Sélection de données.

    Cliquez sur Suivant.

    Paramètres apparaît, vous permettant de sélectionner la méthode de mise à jour et les paramètres d'historique.

  5. Sélectionnez la méthode à utiliser pour mettre les données à jour dans Méthode de mise à jour :

    • Change Data Capture (CDC)

      Si vos données contiennent également des tables ne supportant pas CDC, ou des vues, deux pipelines de données seront créés. Un pipeline avec l'ensemble des tables supportant CDC, et un autre pipeline avec l'ensemble des autres tables et vues utilisant Charger et comparer.

    • Charger et comparer

  6. Indiquez si vous souhaitez répliquer l'historique des anciennes données en plus des données actuelles dans Historique.

    Lorsque vous êtes prêt, cliquez sur Suivant.

  7. Si vous n'utilisez pas Data Movement gateway pour accéder à votre source de données, la section suivant s'affichera dans les paramètres :

    • Répliquer les données tous les : Vous pouvez planifier la fréquence à laquelle capturer les modifications apportées à la source de données et définir une Heure de début et une Date de début. Si les ensembles de données sources supportent CDC (Change Data Capture), seules les modifications apportées aux données sources seront répliquées et appliquées aux tables cibles correspondantes. Si les ensembles de données sources ne supportent pas CDC (par exemple, les Vues), les modifications seront appliquées via l'actualisation de l'ensemble des données sources dans les tables cibles correspondantes. Si certains des ensembles de données sources supportent CDC et d'autres non, deux sous-tâches distinctes seront créées : l'une pour actualiser les ensembles de données qui ne supportent pas CDC et l'autre pour capturer les modifications apportées aux ensembles de données qui supportent CDC.

      L'assistant de configuration de l'intégration vous permet de planifier un intervalle d'une heure. Une fois l'assistant d'intégration terminé, vous pouvez explorer différentes options de planification, comme décrit dans Planification de tâches sans utiliser Data Movement gateway.

    Pour des informations sur les intervalles de planification minimaux en fonction du type de source de données et du niveau d'abonnement, consultez Intervalles de planification minimaux autorisés.

  8. Prévisualisez les tâches de données créées pour intégrer les données, puis renommez-les, si vous préférez.

    Note ConseilCes noms sont utilisés pour nommer des schémas de base de données dans la ressource de données de stockage. Un schéma ne pouvant être associé qu'à une seule tâche, pensez à employer des noms uniques pour éviter tout conflit avec les ressources de données des autres projets utilisant la même plateforme de données.
  9. Indiquez si vous souhaitez ouvrir n'importe laquelle des tâches de données créées ou revenir au projet.

    Lorsque vous êtes prêt, cliquez sur Terminer.

Les tâches de données d'intégration sont maintenant créées. Pour commencer la réplication des données, vous devez :

Sélection de données

Vous pouvez sélectionner certaines tables ou vues, ou utiliser des règles de sélection pour inclure ou exclure des groupes de tables.

Note InformationsSi la sélection comprend des vues, CDC n'est pas pris en charge.

Utilisez % comme caractère générique pour définir des critères de sélection pour les schémas et les tables.

  • %.% définit toutes les tables de tous les schémas.

  • Public.% définit toutes les tables du schéma Public.

Critères de sélection vous fournit un aperçu selon vos sélections.

Vous pouvez effectuer l'une des deux opérations suivantes :

  • Créez une règle pour inclure ou exclure un groupe de tables en fonction des critères de sélection.

    Cliquez sur Ajouter une règle à partir des critères de sélection pour créer une règle, puis sélectionnez Inclure ou Exclure.

    Vous pouvez voir la règle sous Règles de sélection.

  • Sélectionnez un ou plusieurs ensembles de données, puis cliquez sur Ajouter les ensembles de données sélectionnés.

    Vous pouvez voir les ensembles de données ajoutés sous Ensembles de données sélectionnés de manière explicite.

Les règles de sélection ne s'appliquent qu'à l'ensemble actuel de tables et de vues, et non aux tables et aux vues ajoutées après.

En savoir plus

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !