Azure Cloud Storage
Azure Cloud Storage är Microsofts hanterade objektlagringstjänst för ostrukturerade data, inklusive text, binära filer, media, loggar och applikationssäkerhetskopior. Den stöder åtkomstnivåerna frekvent, lågfrekvent och arkiv, erbjuder georedundant replikering och integreras med Microsoft Entra ID (tidigare Azure Active Directory) för säker åtkomstkontroll.
Qlik Talend Cloud ansluter till Azure Cloud Storage med en Microsoft Entra ID-applikation (tjänstens huvudnamn) som har läsbehörighet till mållagringskontots behållare. Denna koppling hämtar filer från den angivna behållaren, upptäcker automatiskt scheman genom att sampla filinnehåll och utför inkrementell datareplikering baserat på filändringars tidsmarkörer.
Förbereda för autentisering
För att komma åt dina data måste du autentisera denna koppling med dina kontouppgifter.
För att konfigurera ditt Azure Cloud Storage-konto behöver du:
- En Azure-prenumeration med ett Azure Storage-konto.
- En blob-behållare i lagringskontot som innehåller filerna som ska replikeras.
- En Microsoft Entra ID-applikationsregistrering med en klienthemlighet.
- Rollen Storage Blob Data Reader tilldelad till applikationens tjänsthuvudnamn, begränsad till lagringskontot eller den specifika behållaren. Detta är den rekommenderade rollen med lägst behörighet för skrivskyddad åtkomst.
För att registrera en Microsoft Entra ID-applikation och hämta dina inloggningsuppgifter:
- Logga in på ditt Azure-konto.
- Navigera till Microsoft Entra ID > Appregistreringar > Ny registrering.
- Ange följande information för din applikation:
- Namn: Ange ett namn, till exempel QlikDataIntegration.
- Kontotyper som stöds: Välj Endast konton i den här organisationskatalogen.
- Klicka på Registrera.
- På applikationens Översikt-sida kopierar du både Applikations-ID (klient) och Katalog-ID (klientorganisation) och sparar dem i en säker fil.
- Navigera till Certifikat och hemligheter > Klienthemligheter > Ny klienthemlighet.
- Ange en beskrivning och välj en giltighetsperiod för klienthemligheten.
- Klicka på Lägg till.
- Kopiera värdet för din klienthemlighet och spara det i en säker fil.
- I Azure-portalen öppnar du ditt lagringskonto och navigerar sedan till Åtkomstkontroll (IAM) > Lägg till > Lägg till rolltilldelning.
- Välj rollen Storage Blob Data Reader och tilldela denna roll till den applikation du just registrerade.
- Klicka på Spara.
Filformat som stöds
- Avgränsade textfiler:
.csv,.tsv,.psv,.txt(med konfigurerbar avgränsare) - JSON Lines:
.jsonl - Parquet:
.parquet - Avro:
.avro - Excel:
.xlsx(flera kalkylblad per arbetsbok stöds; varje arks rader replikeras och arkets namn läggs till i kolumnen_sdc_source_file) - Gzip-komprimerade filer:
.gz(som innehåller något av ovanstående format)
Skapa denna koppling
Mer information finns i Koppla till SaaS-program.
- Ange de kopplingsegenskaper som krävs.
-
Ange ett namn på kopplingen i Kopplingsnamn.
-
Välj Öppna kopplingsmetadata för att definiera metadata för kopplingen när den har skapats.
-
Klicka på Skapa.
| Inställning | Beskrivning |
|---|---|
| Datagateway |
Välj en Gateway för dataflytt om det krävs för ditt användningsfall. Anteckning om information
Detta fält är inte tillgängligt med Qlik Talend Cloud Starter-prenumerationen eftersom den inte stöder Gateway för dataflytt. Om du har en annan prenumerationsnivå och inte vill använda Gateway för dataflytt väljer du Inget. Information om fördelarna med Gateway för dataflytt och användningsfall som kräver det finns i Qlik Data Gateway – dataflytt. |
| Startdatum |
Ange det datum, i formatet |
| Lagringskontonamn | Namnet på Azure Storage-kontot, till exempel mittlagringskonto utan https:// eller .blob.core.windows.net. |
| Behållarnamn | Namn på blob-behållare, till exempel min-behållare. |
| Klientorganisations-ID | Klientorganisations-ID. |
| Tabeller | Tabellkonfigurationen avgör vilka filer som läses och hur deras innehåll tolkas. Varje tabelldefinition inkluderar ett filsökmönster, ett tabellnamn och valfria inställningar för att anpassa filhanteringen. |
| Klient-ID | Klient-ID. |
| Klienthemlighet | Klienthemlighet. |
Tabellkonfiguration
Varje post i tabellkonfigurationen representerar en logisk tabell som härleds från filer i denna behållare. Följande egenskaper kan konfigureras för varje tabell:
| Egenskap | Obligatorisk eller valfri | Beskrivning |
|---|---|---|
| Tabellnamn | Obligatorisk |
Ange namnet på denna logiska tabell (till exempel my_orders_csv). Detta blir namnet på denna ström i Qlik Talend Cloud.
|
| Sökmönster | Obligatorisk |
Ange ett reguljärt uttryck för att matcha filnamn (till exempel matchar .*\.csv$ alla CSV-filer). Tillämpa detta på filnamn i denna behållare eller den angivna katalogen, om en sådan anges.
|
| Katalog | Valfri |
Ange ett mappökvägsprefix i denna behållare för att begränsa filsökningen (till exempel exports/orders/). Förbättra prestandan genom att begränsa de filer som skannas. Detta är inte ett reguljärt uttryck.
|
| Primärnyckel | Valfri |
Definiera en kommaseparerad lista med kolumnnamn som ska användas som primärnyckel (till exempel id eller id,date). För CSV-filer använder du rubrikfältnamn; för JSONL-filer använder du objektsnycklar på toppnivå. Lämna tomt för att använda fullständig tabellreplikering. Fyll i för att aktivera inkrementell replikering baserat på filändringstid.
|
| Ange datumtidsfält | Valfri |
Lista kolumnnamnen, separerade med kommatecken, som ska behandlas som datumtidsfält, även om de inte upptäcks automatiskt under schemaupptäckten (till exempel created_at, updated_at).
|
| Avgränsare | Valfri |
Ange fältseparatorn för avgränsade textfiler. Standard är , (komma). Använd \t för TSV-filer eller | för PSV-filer. Om den inte anges upptäcks avgränsaren automatiskt baserat på filändelsen.
|
-
Konfigurera
.jsonl- och.csv-filer som separata tabeller för att säkerställa korrekt schemahantering och datakonsistens. -
Se till att alla
.csv-filer som matchar ett sökmönster inkluderar en konsekvent rubrikrad med identiska kolumnnamn och ordning. -
Använd konsekventa objektattributnycklar i alla
.jsonl-filer som definierats för varje tabell. Nyckelnamn och strukturer bör överensstämma för tillförlitlig schemaupptäckt.
Tabeller som replikeras
Tabeller definieras i den tabellkonfiguration som du tillhandahåller. Varje tabell motsvarar en uppsättning filer i blob-behållaren som matchar det angivna sökmönstret och, i tillämpliga fall, katalogprefixet. Denna koppling upptäcker tabellschemat genom att sampla upp till fem filer per tabell, läsa var femte rad och analysera upp till 1 000 poster per fil.
Replikering använder en inkrementell metod baserad på filändringars tidsmarkörer när en primärnyckel är konfigurerad. Filer som ändrats efter det senaste synkroniseringsbokmärket bearbetas under varje extrahering. Om ingen primärnyckel anges replikeras hela tabellen fullständigt vid varje körning.
Följande systemkolumner läggs till i varje tabell som standard:
| Kolumn | Beskrivning |
|---|---|
_sdc_source_container
|
Namnet på den Azure-blob-behållare där posten har sitt ursprung. |
_sdc_source_file
|
Den fullständiga sökvägen till filen som innehåller posten. För Excel-filer läggs arkets namn till (till exempel exports/q1.xlsx/Sheet1).
|
_sdc_source_lineno
|
Radnumret för posten i filen. |
_sdc_extra
|
Extra fält som tolkats och som inte matchar det upptäckta schemat (endast .jsonl-filer).
|
Begränsningar och överväganden
- Lagringskontonamnet anges som ett rent namn, inte en URL.
-
Gzip-komprimerade filer (
.gz) stöds. Denna koppling läser det ursprungliga filnamnet från gzip-huvudet för att fastställa det inre filformatet. Gzip-filer som skapats med--no-name(inget filnamn i huvudet) hoppas över. -
Filer med filändelserna
.csv,.txt,.tsv,.psveller.jsonlkontrolleras för gzip-magiska byte och dekomprimeras transparent, även om filen inte har filändelsen.gz. -
Nästlad komprimering (till exempel en
.gz-fil inuti en annan.gz) stöds inte och hoppas över. -
Fältet Sökmönster använder syntax för reguljära uttryck, inte glob-mönster (använd till exempel
.*\.csv$istället för*.csv). - Filer utan en igenkänd filändelse hoppas över och en varning utfärdas.
- Denna koppling inkluderar inbyggd logik för nya försök med exponentiell backoff för Azure API-hastighetsgränser (HTTP 429) och tillfälliga serverfel (HTTP 500, 502, 503, 504), upp till fem försök.
- Filkodningen förväntas vara UTF-8.