Amazon S3
Amazon Simple Storage Service (Amazon S3) est un service de stockage d'objets qui offre une évolutivité, une disponibilité des données, une sécurité et des performances leaders de l'industrie.
Préparation pour l'authentification
Pour pouvoir accéder à vos données, vous devez authentifier la connexion à l'aide des informations d'identification de votre compte.
Pour vous connecter à Amazon S3, vous devez disposer d'autorisations dans AWS Identity Access Management (IAM) qui vous permettent de créer des stratégies et des rôles et d'associer des stratégies à des rôles. Cela est nécessaire pour accorder l'autorisation à votre compartiment S3 :
Création d'une stratégie IAM
Une stratégie IAM est un langage de stratégie d'accès basé sur JSON qui permet de gérer les autorisations d'accès aux ressources d'un compartiment.
| Noms d'autorisation | Operation (Opération) | Description |
| s3:GetObject | Objet GET |
Permet d'extraire des objets d'Amazon S3. |
| s3:GetObject | Objet HEAD | Permet de récupérer les métadonnées d'un objet sans renvoyer l'objet lui-même. |
| s3:ListBucket | Compartiment GET (Liste d'objets) |
Permet le renvoi d'une partie ou de la totalité (jusqu'à 1 000) des objets contenus dans un compartiment. |
| s3:ListBucket | Compartiment HEAD |
Utilisé pour déterminer si un compartiment existe et si son accès est autorisé. |
Pour créer la stratégie IAM :
- Dans AWS, accédez au service IAM en cliquant sur le menu Services et en saisissant IAM.
- Cliquez sur IAM une fois que cela s'affiche dans les résultats.
- Cliquez sur Stratégies dans le menu situé à gauche de la page.
- Cliquez sur Créer une stratégie.
- Sur la page Créer une stratégie, cliquez sur l'onglet JSON.
- Sélectionnez tout ce qui se trouve actuellement dans le champ de texte et supprimez-le.
- Dans le champ de texte, collez le JSON suivant et remplacez MyBucketName par le nom de votre compartiment :
{ "Version": "2012-10-17", "Statement": [ { "Sid": "", "Effect": "Allow", "Action": [ "s3:GetObject", "s3:ListBucket" ], "Resource": [ "arn:aws:s3:::MyBucketName", "arn:aws:s3:::MyBucketName/*" ] } ] } - Cliquez sur Vérifier la stratégie.
- Sur la page Vérifier la stratégie, donnez un nom à la stratégie. Par exemple :
qlik_amazon_s3. - Cliquez sur Créer une stratégie.
Création d'un rôle IAM
Pour effectuer cette étape, vous devez disposer des autorisations AWS IAM suivantes : CreateRole et AttachRolePolicy. Pour plus d'informations, consultez la documentation d'Amazon.
Si vous créez plusieurs intégrations Amazon S3, vous devez effectuer cette étape pour chaque intégration que vous connectez.
- Dans AWS, accédez à la page Rôles IAM.
- Cliquez sur Créer un rôle.
- Sur la page Créer un rôle :
- Dans la section Sélectionner le type d'entité fiable, cliquez sur l'option Un autre compte AWS.
- Dans le champ ID du compte, collez
338144066592. - Dans la section Options, cochez la case Demander un ID externe.
- Dans le champ ID externe qui s'affiche, collez
qlik_connection_<tenant-id>et remplacez <tenant-id> par votre ID client.Pour trouver votre ID client, consultez Recherche d'informations sur le client.
- Cliquez sur Suivant : Autorisations.
- Sur la page Associer des autorisations :
- Recherchez la stratégie que vous avez créée à la section Création d'une stratégie IAM.
- Une fois que vous l'avez trouvée, cochez la case correspondante dans le tableau.
- Cliquez sur Suivant : Balises.
- Si vous souhaitez saisir des balises, faites-le sur la page Ajouter des balises. Sinon, cliquez sur Suivant : Vérifier.
- Sur la page Vérifier :
- Dans le champ Nom de rôle, collez
qlik_s3_<tenant-id>et remplacez <tenant-id> par votre ID client.Pour trouver votre ID client, consultez Recherche d'informations sur le client.
- Dans le champ Description du rôle, saisissez une description. Par exemple :
Qlik role for Amazon S3 integration. - Cliquez sur Créer un rôle.
- Dans le champ Nom de rôle, collez
Définition du modèle de recherche
Le champ Modèle de recherche définit les critères de recherche que Qlik doit utiliser pour sélectionner et répliquer des fichiers. Ce champ accepte les expressions régulières, qui peuvent être utilisées pour inclure un seul ou plusieurs fichiers.
Lorsque vous créez un modèle de recherche, gardez à l'esprit les points suivants :
- Lorsque vous incluez plusieurs fichiers pour une même table, chaque fichier doit avoir les mêmes valeurs de ligne d'en-tête.
- Les caractères spéciaux tels que les points (
.) ont une signification particulière dans les expressions régulières. Pour une correspondance exacte, ils doivent être échappés. Par exemple :.\ - Qlik utilise Python pour les expressions régulières, dont la syntaxe peut varier par rapport à d'autres variétés. Essayez d'utiliser PyRegex pour tester vos expressions avant d'enregistrer l'intégration.
- Les modèles de recherche Parquet (
.parquet) et Arvo (.arvo) sont également supportés. - Les modèles de recherche doivent tenir compte de la manière dont les données des fichiers sont mises à jour. Prenez les exemples suivants :
| Scénario | Fichier unique, mis à jour périodiquement | Plusieurs fichiers, générés quotidiennement |
| Mode de mise à jour | Un fichier JSONL unique est périodiquement mis à jour en fonction des nouvelles données et des données mises à jour des clients. | Un nouveau fichier CSV contenant les nouvelles données et les données mises à jour des clients est créé chaque jour. Les anciens fichiers ne sont jamais mis à jour après leur création. |
| Nom de fichier | customers.jsonl
|
customers-[STRING].csv, où [STRING] est une chaîne aléatoire unique |
| Modèle de recherche |
Comme il n'existera jamais qu'un seul fichier, vous pouvez saisir le nom exact du fichier dans votre compartiment S3 :
|
Pour vous assurer que les nouveaux fichiers et les fichiers mis à jour sont identifiés, vous devez saisir un modèle de recherche correspondant à tous les fichiers commençant par
|
| Correspondance | customer.jsonl, exactement |
|
Exigences en matière de fichiers
| En-tête de la première ligne (fichiers CSV uniquement) |
|
| Types de fichiers |
|
| Types de compression |
Ces fichiers doivent être correctement compressés, sinon des erreurs se produiront lors de l'extraction.
|
| Délimiteurs (fichiers CSV uniquement) |
|
| Encodage des caractères |
UTF-8 ( Note InformationsLes fichiers
.parquet et .arvo sont des fichiers binaires bruts. |
Création de la connexion
Pour plus d'informations, consultez Connexion à des applications SaaS.
- Complétez les propriétés de connexion requises.
-
Fournissez un nom pour la connexion dans Nom de la connexion.
-
Sélectionnez Ouvrir les métadonnées de connexion pour définir les métadonnées de la connexion lors de sa création.
-
Cliquez sur Créer.
| Paramètre | Description |
|---|---|
| Data gateway |
Sélectionnez une Passerelle de déplacement des données si cela est nécessaire pour votre cas d'utilisation. Note Informations
Ce champ n'est pas disponible avec l'abonnement Démarreur Qlik Talend Cloud, car il ne supporte pas Passerelle de déplacement des données. Si vous avez un autre niveau d'abonnement et si vous ne souhaitez pas utiliser Passerelle de déplacement des données, sélectionnez Aucune. Pour des informations sur les avantages de Passerelle de déplacement des données et les cas d'utilisation qui la nécessitent, consultez Passerelle de données Qlik - Déplacement des données. |
| Date de début |
Saisissez la date, au format |
| Compartiment S3 | Nom du compartiment S3. |
| ID de compte AWS |
ID de compte AWS du compte dans lequel le compartiment existe. Vous trouverez l'ID de votre compte AWS dans la Console de gestion AWS, sous Détails du compte. |
| Modèle de recherche | Saisissez les fichiers à inclure dans votre table. Vous pouvez saisir un seul nom de fichier ou une expression régulière. Exemple : |
| Répertoire | Limitez la recherche au chemin d'accès à ce répertoire. Lorsque cette option est définie, seuls les fichiers se trouvant à cet emplacement feront l'objet d'une recherche et ceux qui correspondent au modèle de recherche seront sélectionnés. Vous ne pouvez pas utiliser d'expression régulière. Exemple : csv-exports-folder ou employee_jsonl_exports. |
| Configuration d'une table
Configurez une table en spécifiant les fichiers à inclure. Vous pouvez configurer plusieurs tables. |
|
| Nom de table | Nom de la table. Chaque cible a ses propres règles en matière de dénomination des tables. Par exemple, les noms de table Amazon Redshift ne peuvent pas dépasser 127 caractères. |
| Clé primaire | Saisissez la clé primaire pour identifier des lignes ou des enregistrements uniques. Si vous saisissez plusieurs clés, séparez les valeurs par des virgules.
Exemple : id, name. |
| Spécifier les champs datetime | Saisissez les valeurs qui doivent apparaître comme datetime au lieu d'une chaîne dans votre table. Exemple : created_at, modified_at. |
| Délimiteur | Sélectionnez le délimiteur dans la liste déroulante. |