Accéder au contenu principal Passer au contenu complémentaire

Structure de la vue Mini-data warehouse

Cette rubrique décrit les colonnes d'en-tête internes (identifiables par leur préfixe hdr__) des vues Mini-data warehouse. Les pipelines de données donnent souvent des mini-data warehouses, qui dénormalisent les données en schémas en étoile. La structure des faits est facile à consommer pour les analystes via la modélisation dimensionnelle. Par conséquent, la compréhension du rôle des colonnes d'en-tête vous permettra de générer des rapports plus spécialisés pour l'analyse et la consommation par les applications en aval.

Vue Faits

Format du nom de la vue : <DATA_ASSET_SCHEMA>.[<PREFIX>]<FACT>

Les colonnes d'en-tête suivantes sont ajoutées à la structure de la vue :

Champs d'en-tête des tables

Colonne

Type

Description

hdr__deleted booléen

Indique si l'enregistrement a été ou non supprimé de la table de faits.

hdr_{dimension-name}_key_id int64

Référence aux dimensions de Type 1 et de Type 2. La vue Fait contiendra une colonne distincte pour chaque dimension du fait.

Exemple :

hdr__EMPLOYEES_key_id

Vue Dimension de Type 1

Format du nom de la vue : <DATA_ASSET_SCHEMA>.[<PREFIX>]<DIMENSION>

Les colonnes d'en-tête suivantes sont ajoutées à la structure de la vue :

Champs d'en-tête des tables

Colonne

Type

Description

hdr_{dimension-name}_key_id int64

Séquence incrémentée par enregistrement

hdr__deleted booléen

Indique si l'enregistrement a été ou non supprimé de la table de dimensions.

Vue Dimension de Type 2

Format du nom de la vue : <INTERNAL_SCHEMA>.[<PREFIX>]<DIMENSION>

Les colonnes d'en-tête suivantes sont ajoutées à la structure de la vue :

Champs d'en-tête des tables

Colonne

Type

Description

hdr_{dimension-name}_key_id

int64

Séquence incrémentée par enregistrement

hdr__from_timestamp timestamp

Horodatage de début UTC de cette version de l'enregistrement. Par exemple, la colonne peut indiquer la date à laquelle un client a commencé à habiter à une adresse donnée.

Cette colonne vous permet d'effectuer les opérations suivantes :

  • Analyser les données en fonction des informations historiques. Par exemple, vous pouvez déterminer la durée pendant laquelle une commande est restée à l'état En attente ou l'impact sur les ventes d'un changement d'adresse d'un client par rapport aux données de l'an dernier.
  • Analyser les données par date, tout en sachant ce que vous savez maintenant. En revanche, la colonne hdr__was_current_from_timestamp décrite ci-dessous vous permet d'analyser des données en fonction d'une date spécifique, en sachant uniquement ce que vous saviez alors.

Pour une dimension de Type 2 avec des entités dénormalisées, il s'agit de l'horodatage de l'ensemble de données mis à jour dans la ressource de données Stockage ou Transformation.

hdr__to_timestamp timestamp

Horadatage de fin UTC de la version de l'enregistrement. La colonne est utilisée pour délimiter la plage de dates d'une version d'enregistrement donnée. Par exemple, la colonne peut indiquer la date à laquelle un client a arrêté d'habiter à une adresse donnée.

Voir également la description de la colonne hdr_from_timestamp ci-dessus.

hdr__operation varchar(1)

Opérations Chargement complet :

  • L : Inséré lors du chargement complet

Opérations Modifier le traitement (via des tables de modifications) :

  • D : Supprimé
  • U : Mis à jour
  • I : Inséré

Actions résultant d'opérations compare (Comparer) et apply (Appliquer) :

  • d : Supprimé
  • u : Mis à jour
  • i : Inséré
hdr__was_current_from_timestamp timestamp

Affiche l'horodatage UTC de la dernière mise à jour appliquée à l'enregistrement.

Cette colonne, avec la colonne hdr__was_current_to_timestamp, vous permet d'analyser des données en fonction d'une date spécifique, en sachant uniquement ce que vous saviez alors. Par exemple, imaginons que, chaque jour, vous calculiez le total des commandes du jour précédent à 2 h du matin. Le 1er décembre, la somme totale des commandes du jour précédent est de 1 000 000 $. Mais, le 2 décembre, un enregistrement est inséré, indiquant que, le 30 novembre, une commande d'un total de 500 000 $ a été passée. Le montant des commandes pour le 30 novembre était donc en fait de 1 500 000 $ ! Cependant, si vous générez un rapport sur la somme totale des commandes le 30 novembre en fonction de ce que vous saviez le 1er décembre à 2 h, le résultat resterait de 1 000 000 $.

hdr__was_current_to_timestamp timestamp

Cette colonne est renseignée lorsqu'un enregistrement est remplacé par une enregistrement plus récent. Elle indique l'horodatage UTC correspondant au moment où l'enregistrement a été traité, et par conséquent pas l'enregistrement le plus récent.

Voir également la description de la colonne hdr_was_current_from_timestamp ci-dessus.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !