Structure de la vue Mini-data warehouse
Cette rubrique décrit les colonnes d'en-tête internes (identifiables par leur préfixe hdr__) des vues Mini-data warehouse. Les pipelines de données donnent souvent des mini-data warehouses, qui dénormalisent les données en schémas en étoile. La structure des faits est facile à consommer pour les analystes via la modélisation dimensionnelle. Par conséquent, la compréhension du rôle des colonnes d'en-tête vous permettra de générer des rapports plus spécialisés pour l'analyse et la consommation par les applications en aval.
Vue Faits
Format du nom de la vue : <DATA_ASSET_SCHEMA>.[<PREFIX>]<FACT>
Les colonnes d'en-tête suivantes sont ajoutées à la structure de la vue :
Colonne |
Type |
Description |
---|---|---|
hdr__deleted | booléen |
Indique si l'enregistrement a été ou non supprimé de la table de faits. |
hdr_{dimension-name}_key_id | int64 |
Référence aux dimensions de Type 1 et de Type 2. La vue Fait contiendra une colonne distincte pour chaque dimension du fait. Exemple : hdr__EMPLOYEES_key_id |
Vue Dimension de Type 1
Format du nom de la vue : <DATA_ASSET_SCHEMA>.[<PREFIX>]<DIMENSION>
Les colonnes d'en-tête suivantes sont ajoutées à la structure de la vue :
Colonne |
Type |
Description |
---|---|---|
hdr_{dimension-name}_key_id | int64 |
Séquence incrémentée par enregistrement |
hdr__deleted | booléen |
Indique si l'enregistrement a été ou non supprimé de la table de dimensions. |
Vue Dimension de Type 2
Format du nom de la vue : <INTERNAL_SCHEMA>.[<PREFIX>]<DIMENSION>
Les colonnes d'en-tête suivantes sont ajoutées à la structure de la vue :
Colonne |
Type |
Description |
---|---|---|
hdr_{dimension-name}_key_id |
int64 |
Séquence incrémentée par enregistrement |
hdr__from_timestamp | timestamp |
Horodatage de début UTC de cette version de l'enregistrement. Par exemple, la colonne peut indiquer la date à laquelle un client a commencé à habiter à une adresse donnée. Cette colonne vous permet d'effectuer les opérations suivantes :
Pour une dimension de Type 2 avec des entités dénormalisées, il s'agit de l'horodatage de l'ensemble de données mis à jour dans la ressource de données Stockage ou Transformation. |
hdr__to_timestamp | timestamp |
Horadatage de fin UTC de la version de l'enregistrement. La colonne est utilisée pour délimiter la plage de dates d'une version d'enregistrement donnée. Par exemple, la colonne peut indiquer la date à laquelle un client a arrêté d'habiter à une adresse donnée. Voir également la description de la colonne hdr_from_timestamp ci-dessus. |
hdr__operation | varchar(1) |
Opérations Chargement complet :
Opérations Modifier le traitement (via des tables de modifications) :
Actions résultant d'opérations compare (Comparer) et apply (Appliquer) :
|
hdr__was_current_from_timestamp | timestamp |
Affiche l'horodatage UTC de la dernière mise à jour appliquée à l'enregistrement. Cette colonne, avec la colonne hdr__was_current_to_timestamp, vous permet d'analyser des données en fonction d'une date spécifique, en sachant uniquement ce que vous saviez alors. Par exemple, imaginons que, chaque jour, vous calculiez le total des commandes du jour précédent à 2 h du matin. Le 1er décembre, la somme totale des commandes du jour précédent est de 1 000 000 $. Mais, le 2 décembre, un enregistrement est inséré, indiquant que, le 30 novembre, une commande d'un total de 500 000 $ a été passée. Le montant des commandes pour le 30 novembre était donc en fait de 1 500 000 $ ! Cependant, si vous générez un rapport sur la somme totale des commandes le 30 novembre en fonction de ce que vous saviez le 1er décembre à 2 h, le résultat resterait de 1 000 000 $. |
hdr__was_current_to_timestamp | timestamp |
Cette colonne est renseignée lorsqu'un enregistrement est remplacé par une enregistrement plus récent. Elle indique l'horodatage UTC correspondant au moment où l'enregistrement a été traité, et par conséquent pas l'enregistrement le plus récent. Voir également la description de la colonne hdr_was_current_from_timestamp ci-dessus. |