Accéder au contenu principal Passer au contenu complémentaire

Amazon Redshift

Vous pouvez utiliser Amazon Redshift comme plate-forme de données cible dans un pipeline de données ou une tâche de réplication. Dans un pipeline de données, il est possible d'effectuer différentes opérations ELT sur la plate-forme cible, notamment le stockage de données, la transformation de données, la création de mini-data warehouses et l'enregistrement de données. Par ailleurs, un tâche de réplication implique la réplication de données directement d'un système de source vers un système cible avec des fonctionnalités de transformation de base, mais sans support des opérations ELT..

La configuration de Amazon Redshift comme cible implique les conditions suivantes :

Configuration d'une zone intermédiaire cloud

Note InformationsSi vous enregistrez des données existantes, il n'est pas nécessaire de configurer une zone intermédiaire cloud.

La configuration d'une connexion à Amazon Redshift nécessite également la configuration de la connectivité à une zone intermédiaire cloud Amazon S3 dans laquelle placer temporairement les données et les modifications avant de les appliquer et de les stocker.

Pour savoir comment configurer une connexion à Amazon S3, voir Amazon S3.

Configuration d'une connexion à Amazon Redshift

Une fois que vous avez fourni les paramètres intermédiaires, procédez comme suit :

  1. Dans Connexions, cliquez sur Créer une connexion.

  2. Sélectionnez le Amazon Redshift connecteur cible et fournissez les paramètres suivants :

Cible de données

Note InformationsCe champ n'est pas disponible avec l'abonnement Démarreur Qlik Talend Cloud, car Data Movement gateway n'est pas supporté avec ce niveau d'abonnement.

Une Data Movement gateway est nécessaire uniquement si la base de données cible n'est pas accessible depuis Qlik Cloud et est accessible uniquement via un lien privé (par exemple, si elle est située sur site derrière un pare-feu ou dans un cloud privé virtuel). Si c'est le cas, sélectionnez la Data Movement gateway via laquelle vous souhaitez accéder à la base de données cible.

Suivant votre cas d'utilisation, il s'agira soit de la même Data Movement gateway que celle déployée pour déplacer des données provenant de la source de données, soit d'une autre.

Pour des informations sur les cas d'utilisation de Data Movement gateway, consultez Quand Data Movement gateway est-elle obligatoire ? et Cas d'utilisation courants.

Si la base de données cible est directement accessible depuis Qlik Cloud, sélectionnez Aucune.

Note InformationsLors de l'accès à la base de données cible via Data Movement gateway, vous devez également installer le pilote approprié sur le poste Data Movement gateway. Pour des informations détaillées, voir la section Configuration du pilote ci-dessous.

Propriétés de connexion

  • Serveur : nom d'hôte du serveur de base de données Amazon Redshift.

  • Port : port via lequel accéder à votre base de données Amazon Redshift. La valeur par défaut est 5439.

Propriétés de compte

Nom d'utilisateur et Mot de passe : nom d'utilisateur et mot de passe d'un utilisateur autorisé à accéder à la base de données Amazon Redshift.

Propriétés de base de données

  • Nom de base de données : il existe deux méthodes à utiliser pour spécifier une base de données :

    • Méthode 1 - Sélection à partir d'une liste : Cliquez sur Charger des bases de données et sélectionnez une base de données.
    • Méthode 2 - Manuellement : Sélectionnez Saisir le nom de base de données manuellement et saisissez le nom de la base de données.

Propriétés internes

Les propriétés internes s'adressent à des cas d'utilisation spéciaux et ne sont par conséquent pas exposées dans la boîte de dialogue. Utilisez-les uniquement si Qlik Support vous le demande.

Utilisez les boutons Créer nouveau et Annuler à droite des champs pour ajouter ou supprimer des propriétés, suivant les besoins.

Nom

Nom d'affichage de la connexion.

Conditions préalables requises

Autorisations requises

Accordez les autorisations suivantes sur la base de données Redshift :

  • Grant COPY
  • Grant INSERT
  • Grant UPDATE
  • Grant DELETE
  • Grant SELECT
  • Create Schema (nécessaire uniquement s'il n'existe aucun schéma et si vous souhaitez que Qlik Talend Data Integration en crée)
  • Grant CREATE TABLE
  • Grant ALTER TABLE
  • Grant DROP TABLE

Configuration du pilote

Un pilote est obligatoire uniquement si vous accédez à la base de données via Data Movement gateway. Dans ce cas, vous devez installer le pilote sur le poste Data Movement gateway.

Vous pouvez installer le driver via l'utilitaire d'installation de pilote (recommandé) ou manuellement. Tentez une installation manuelle uniquement dans le cas improbable où vous rencontriez un problème avec l'utilitaire d'installation de pilote.

Utilisation de l'utilitaire d'installation de pilote pour installer le pilote

Cette section explique comment installer le driver requis. Le processus implique l'exécution d'un script qui téléchargera, installera et configurera automatiquement le driver requis. Vous pouvez également exécuter des scripts permettant de mettre à jour et de désinstaller le driver, si nécessaire.

  • Assurez-vous que Python 3.6 ou une version ultérieure est installé sur le serveur de passerelle Déplacement des données.

    Python est préinstallé sur la plupart des distributions Linux. Vous pouvez vérifier la version de Python installée sur votre système en exécutant la commande suivante :

    python3 --version

Pour télécharger et installer le driver :

  1. Arrêtez le service Data Movement gateway :

    sudo systemctl stop repagent

  2. Confirmez éventuellement l'arrêt du service :

    sudo systemctl status repagent

    Le statut doit être comme suit :

    Active: inactive (dead) since <timestamp> ago

  3. Sur le poste de passerelle Déplacement des données, remplacez le répertoire de travail par :

    opt/qlik/gateway/movement/drivers/bin

  4. Exécutez la commande suivante :

    Syntaxe :

    ./install redshift

    Si le driver ne peut pas être téléchargé (en raison de restrictions d'accès ou de problèmes techniques), un message s'affichera, vous indiquant où télécharger et copier le driver sur le poste de passerelle Déplacement des données. Une fois que c'est fait, exécutez de nouveau la commande install redshift.

    Sinon, le CLUF du driver apparaîtra.

  5. Procédez de l'une des manières suivantes :

    • Appuyez à plusieurs reprises sur [Entrée] pour parcourir lentement le CLUF.
    • Appuyez à plusieurs reprises sur la barre d'espace pour parcourir rapidement le CLUF.
    • Appuyez sur q pour quitter le texte de licence et faire apparaître les options d'acceptation du CLUF.
  6. Procédez de l'une des manières suivantes :

    • Saisissez « y » et appuyez sur [Entrée] pour accepter le CLUF et démarrer l'installation.
    • Saisissez « n » et appuyez sur [Entrée] pour rejeter le CLUF et quitter l'installation.
    • Saisissez « v » et appuyez sur [Entrée] pour afficher de nouveau le CLUF.

  7. Le driver sera installé.

  8. Attendez la fin de l'installation (indiquée par « Complete! »), puis démarrez le service Data Movement gateway :

    sudo systemctl start repagent

  9. Confirmez éventuellement le lancement du service :

    sudo systemctl status repagent

    Le statut doit être comme suit :

    Active: active (running) since <timestamp> ago

Exécutez la commande update si vous souhaitez désinstaller des versions précédentes du driver avant d'installer le driver fourni.

Pour télécharger et mettre à jour le driver :

  1. Arrêtez le service Data Movement gateway :

    sudo systemctl stop repagent

  2. Confirmez éventuellement l'arrêt du service :

    sudo systemctl status repagent

    Le statut doit être comme suit :

    Active: inactive (dead) since <timestamp> ago

  3. Sur le poste de passerelle Déplacement des données, remplacez le répertoire de travail par :

    opt/qlik/gateway/movement/drivers/bin

  4. Exécutez la commande suivante :

    Syntaxe :

    ./update redshift

    Si le driver ne peut pas être téléchargé (en raison de restrictions d'accès ou de problèmes techniques), un message s'affichera, vous indiquant où télécharger et copier le driversur le poste de passerelle Déplacement des données. Une fois que c'est fait, exécutez de nouveau la commande update redshift.

    Sinon, le CLUF du driver apparaîtra.

  5. Procédez de l'une des manières suivantes :

    • Appuyez à plusieurs reprises sur [Entrée] pour parcourir lentement le CLUF.
    • Appuyez à plusieurs reprises sur la barre d'espace pour parcourir rapidement le CLUF.
    • Appuyez sur q pour quitter le texte de licence et faire apparaître les options d'acceptation du CLUF.
  6. Procédez de l'une des manières suivantes :

    • Saisissez « y » et appuyez sur [Entrée] pour accepter le CLUF et démarrer l'installation.
    • Saisissez « n » et appuyez sur [Entrée] pour rejeter le CLUF et quitter l'installation.
    • Saisissez « v » et appuyez sur [Entrée] pour passer le CLUF en revue depuis le début.
  7. L'ancien driver sera désinstallé et le nouveau driver sera installé.

  8. Attendez la fin de l'installation (indiquée par « Complete! »), puis démarrez le service Data Movement gateway :

    sudo systemctl start repagent

  9. Confirmez éventuellement le lancement du service :

    sudo systemctl status repagent

    Le statut doit être comme suit :

    Active: active (running) since <timestamp> ago

Exécutez la commande uninstall si vous souhaitez désinstaller le driver.

Pour désinstaller le driver :

  1. Arrêtez toutes les tâches configurées pour utiliser ce connecteur.

  2. Sur le poste de passerelle Déplacement des données, remplacez le répertoire de travail par :

    opt/qlik/gateway/movement/drivers/bin

  3. Exécutez la commande suivante :

    Syntaxe :

    ./uninstall redshift

    le driver sera désinstallé.

Installation manuelle du pilote

Vous devez tenter d'installer manuellement le driver uniquement si l'installation de pilote automatisée n'a pas fonctionné.

  1. Arrêtez le service Data Movement gateway :

    sudo systemctl stop repagent

  2. Confirmez éventuellement l'arrêt du service :

    sudo systemctl status repagent

  3. Le statut doit être comme suit :

    Active: inactive (dead) since <timestamp> ago

  4. Téléchargez et installez les outils client SQL Linux nécessaires pour vous connecter au cluster Amazon Redshift. Qlik Data Gateway - Data Movement nécessite le pilote ODBC Amazon Redshift (x64) 1.4.65.1000 uniquement.

    Téléchargez le pilote depuis :

    https://s3.amazonaws.com/redshift-downloads/drivers/odbc/1.4.65.1000/AmazonRedshiftODBC-64-bit-1.4.65.1000-1.x86_64.rpm

    Après l'installation du pilote ODBC, modifiez le fichier /etc/odbcinst.ini comme suit :

    [ODBC Drivers]

    Amazon Redshift (x64)=Installed

    Et :

    [Amazon Redshift (x64)]

    Description=Amazon Redshift ODBC Driver (64-bit)

    Driver=/opt/amazon/redshiftodbc/lib/64/libamazonredshiftodbc64.so

  5. Démarrez le service Data Movement gateway :

    sudo systemctl start repagent

  6. Confirmez éventuellement le lancement du service :

    sudo systemctl status repagent

    Le statut doit être comme suit :

    Active: active (running) since <timestamp> ago

Pour une liste des pilotes supportés par Amazon Redshift, voirhttp://docs.aws.amazon.com/redshift/latest/mgmt/configure-odbc-connection.html.

Port

Le port 5439 (cluster Amazon Redshift) doit être ouvert pour la communication sortante.

Certificat de l'autorité de certification (CA)

Data Movement gateway se connecte à AWS via SSL. Cette connexion exige un certificat d'autorité de certification approprié pour résider sur le poste Serveur Data Movement gatewaymachine ; sinon la connexion échoue. L'objectif de ce certificat d'autorité de certification est d'authentifier la propriété du certificat du serveur AWS.

Assurez-vous que le certificat d'autorité de certification nécessaire est présent dans l'emplacement suivant sur le poste Linux :

/etc/pki/tls/certs/ca-bundle.crt

S'il n'existe pas, le plus simple consiste à copier le groupement de certificats d'un autre poste Linux.

Conditions préalables requises et considérations générales

  • Si votre source de données comporte des caractères emoji de 4 octets, utilisez une transformation pour convertir le type de données WSTRING(n ) en WSTRING ( n*2 ).

  • Assurez-vous que les paramètres d'heure et de fuseau horaire sur la machine Data Movement gateway sont exacts. Cette précision est nécessaire afin de garantir :

    • la synchronisation correcte des tâches Chargement complet et CDC ;
    • la corrélation de l'heure du journal des transactions à l'heure réelle.
  • Vous ne pouvez pas lire de vues en direct ni de vues historiques dans Services d'analyse Qlik Cloud depuis des jeux de données créés dans une cible Amazon Redshift par Qlik Talend Data Integration.

Limitations et considérations générales

  • Le connecteur Amazon Redshift supporte l'authentification standard (nom d'utilisateur et mot de passe) uniquement.

Types de données

Le tableau suivant indique les types de données Amazon Redshift supportés lors de l'utilisation de Qlik Cloud et le mappage par défaut depuis les types de données Qlik Cloud.

Les informations de type de données natif sont préservées et affichées dans la colonne Type de données natif des vues d'ensemble de données. Si la colonne n'est pas visible, vous devez ouvrir le sélecteur de colonnes de la vue d'ensemble de données et sélectionner la colonne Type de données natif.

Note InformationsDans Qlik Cloud, la longueur de chaîne est calculée en nombre de caractères, tandis que dans Redshift, la longueur varchar est calculée en octets. Le nombre d'octets par caractère peut varier en fonction des caractères réels et du chiffrement. Qlik Cloud suppose que la longueur est de 3 octets par caractère. Cela signifie que lorsque vous définissez wstring(10), la table sera créée sous forme de varchar(30), dans la pratique.
Types de données supportés
Types de données Qlik Cloud Types de données Amazon Redshift

BOOLEAN

BOOLEAN

BYTES

VARBINARY(length)

DATE

DATE

TIME

VARCHAR (20)

DATETIME

Si scale est => 0 et =< 6 :

TIMESTAMP

Si scale est => 7 et =< 12 :

VARCHAR (37)

INT1

INT2

INT2

INT2

INT4

INT4

INT8

INT8

NUMERIC

If scale is => 0 and =< 37, then:

NUMERIC (precision, scale)

If scale is => 38 and =< 127, then:

VARCHAR (length)

REAL4

FLOAT4

REAL8

FLOAT8

STRING

If length is => 1 and =< 65535, then:

VARCHAR (Length in Bytes)

If length is => 65535 and =< 2147483647, then:

VARCHAR (65535)

UINT1

INT2

UINT2

INT4

UINT4

INT8

UINT8

NUMERIC (20,0)

WSTRING

If length is => 1 and =< 21845, then:

NVARCHAR (length in Bytes)

If length is => 21846 and =< 2147483647, then:

VARCHAR (65535)

BLOB

VARBYTE (16777216)

NCLOB

VARCHAR (65535)

CLOB

VARCHAR (65535)

Les types de données SQL Server suivants ne sont pas supportés. Les données ne seront pas lues.

  • HLLSKETCH

Les types de données suivants sont convertis en VARCHAR(65535) :

  • GEOGRAPHY

  • GEOMETRY

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !