Azure Cloud Storage

Azure Cloud Storage är Microsofts hanterade objektlagringstjänst för ostrukturerade data, inklusive text, binära filer, media, loggar och applikationssäkerhetskopior. Den stöder åtkomstnivåerna frekvent, lågfrekvent och arkiv, erbjuder georedundant replikering och integreras med Microsoft Entra ID (tidigare Azure Active Directory) för säker åtkomstkontroll.

Qlik Talend Cloud ansluter till Azure Cloud Storage med en Microsoft Entra ID-applikation (tjänstens huvudnamn) som har läsbehörighet till mållagringskontots behållare. Denna koppling hämtar filer från den angivna behållaren, upptäcker automatiskt scheman genom att sampla filinnehåll och utför inkrementell datareplikering baserat på filändringars tidsmarkörer.

En översiktlig beskrivning av denna koppling, inklusive användbara länkar och funktioner som stöds.

Funktion/förmåga	Supportinformation
Stöd till Qlik Talend Data Integration-projekt	Endast replikeringsprojekt. Datapipelineprojekt stöds inte.
Metoder för uppdatering av mål	Replikeringsuppgifter: Tillämpa ändringar Lagra ändringar Mellanlagra data i datareservoar-uppgifter: Sammanställning av ändringsdata (CDC)
Hantera metadata	Manuell generering av metadata är inte nödvändig.
Schemautveckling	Endast åtgärden Ändra kolumndatatyp stöds.
Replikering av LOB-kolumner (NCLOB, CLOB och BLOB)	Stöds inte.
Schemalagd CDC	Krävs. Det är på detta sätt som målet hålls uppdaterat med ändringar i källan. För uppgifter om replikering, se Schemalägga uppgifter För mellanlagringsuppgifter i datasjöar, se Schemalägga CDC för uppgifter för mellanlagring i datalake
Meddelanden	Stöds delvis Konfigurera aviseringar vid ändringar under drift
Övervakning	Endast CDC, eftersom fullständig laddning inte är relevant för denna koppling. Övervakning av en enskild datauppgift
Automatisk denestning av JSON-kolumners nyttolast	Stöds inte. Nyttolaster för JSON-kolumner i källdatauppsättningen avnästlas inte automatiskt på målet.

Förbereda för autentisering

För att komma åt dina data måste du autentisera denna koppling med dina kontouppgifter.

Kontrollera att kontot du använder har läsåtkomst till de tabeller som du vill hämta.

För att konfigurera ditt Azure Cloud Storage-konto behöver du:

En Azure-prenumeration med ett Azure Storage-konto.
En blob-behållare i lagringskontot som innehåller filerna som ska replikeras.
En Microsoft Entra ID-applikationsregistrering med en klienthemlighet.
Rollen Storage Blob Data Reader tilldelad till applikationens tjänsthuvudnamn, begränsad till lagringskontot eller den specifika behållaren. Detta är den rekommenderade rollen med lägst behörighet för skrivskyddad åtkomst.

För att registrera en Microsoft Entra ID-applikation och hämta dina inloggningsuppgifter:

Logga in på ditt Azure-konto.
Navigera till Microsoft Entra ID > Appregistreringar > Ny registrering.
Ange följande information för din applikation:
- Namn: Ange ett namn, till exempel QlikDataIntegration.
- Kontotyper som stöds: Välj Endast konton i den här organisationskatalogen.
Klicka på Registrera.
På applikationens Översikt-sida kopierar du både Applikations-ID (klient) och Katalog-ID (klientorganisation) och sparar dem i en säker fil.
Navigera till Certifikat och hemligheter > Klienthemligheter > Ny klienthemlighet.
Ange en beskrivning och välj en giltighetsperiod för klienthemligheten.
Klicka på Lägg till.
Kopiera värdet för din klienthemlighet och spara det i en säker fil.
I Azure-portalen öppnar du ditt lagringskonto och navigerar sedan till Åtkomstkontroll (IAM) > Lägg till > Lägg till rolltilldelning.
Välj rollen Storage Blob Data Reader och tilldela denna roll till den applikation du just registrerade.
Klicka på Spara.

Filformat som stöds

Avgränsade textfiler: .csv, .tsv, .psv, .txt (med konfigurerbar avgränsare)
JSON Lines: .jsonl
Parquet: .parquet
Avro: .avro
Excel: .xlsx (flera kalkylblad per arbetsbok stöds; varje arks rader replikeras och arkets namn läggs till i kolumnen _sdc_source_file)
Gzip-komprimerade filer: .gz (som innehåller något av ovanstående format)

Skapa denna koppling

Mer information finns i Koppla till SaaS-program.

Ange de kopplingsegenskaper som krävs.
Ange ett namn på kopplingen i Kopplingsnamn.
Välj Öppna kopplingsmetadata för att definiera metadata för kopplingen när den har skapats.
Klicka på Skapa.

Inställningar för koppling
Inställning	Beskrivning
Datagateway	Välj en Data Movement gateway om det krävs för ditt användningsfall. Anteckning om information Detta fält är inte tillgängligt med Qlik Talend Cloud Starter-prenumerationen eftersom den inte stöder Data Movement gateway. Om du har en annan prenumerationsnivå och inte vill använda Data Movement gateway väljer du Inget. Information om fördelarna med Data Movement gateway och användningsfall som kräver det finns i Qlik Data Gateway - Data Movement.
Startdatum	Ange det datum, i formatet `MM/DD/YYYY`, från vilket data måste replikeras från din källa till ditt mål.
Lagringskontonamn	Namnet på Azure Storage-kontot, till exempel mittlagringskonto utan `https://` eller `.blob.core.windows.net`.
Behållarnamn	Namn på blob-behållare, till exempel min-behållare.
Klientorganisations-ID	Klientorganisations-ID.
Tabeller	Tabellkonfigurationen avgör vilka filer som läses och hur deras innehåll tolkas. Varje tabelldefinition inkluderar ett filsökmönster, ett tabellnamn och valfria inställningar för att anpassa filhanteringen.
Klient-ID	Klient-ID.
Klienthemlighet	Klienthemlighet.

Tabellkonfiguration

Varje post i tabellkonfigurationen representerar en logisk tabell som härleds från filer i denna behållare. Följande egenskaper kan konfigureras för varje tabell:

Egenskap	Obligatorisk eller valfri	Beskrivning
Tabellnamn	Obligatorisk	Ange namnet på denna logiska tabell (till exempel `my_orders_csv`). Detta blir namnet på denna ström i Qlik Talend Cloud.
Sökmönster	Obligatorisk	Ange ett reguljärt uttryck för att matcha filnamn (till exempel matchar `.*\.csv$` alla CSV-filer). Tillämpa detta på filnamn i denna behållare eller den angivna katalogen, om en sådan anges.
Katalog	Valfri	Ange ett mappökvägsprefix i denna behållare för att begränsa filsökningen (till exempel `exports/orders/`). Förbättra prestandan genom att begränsa de filer som skannas. Detta är inte ett reguljärt uttryck.
Primärnyckel	Valfri	Definiera en kommaseparerad lista med kolumnnamn som ska användas som primärnyckel (till exempel `id` eller `id,date`). För CSV-filer använder du rubrikfältnamn; för JSONL-filer använder du objektsnycklar på toppnivå. Lämna tomt för att använda fullständig tabellreplikering. Fyll i för att aktivera inkrementell replikering baserat på filändringstid.
Ange datumtidsfält	Valfri	Lista kolumnnamnen, separerade med kommatecken, som ska behandlas som datumtidsfält, även om de inte upptäcks automatiskt under schemaupptäckten (till exempel `created_at`, `updated_at`).
Avgränsare	Valfri	Ange fältseparatorn för avgränsade textfiler. Standard är `,` (komma). Använd `\t` för TSV-filer eller `\|` för PSV-filer. Om den inte anges upptäcks avgränsaren automatiskt baserat på filändelsen.

Konfigurera .jsonl- och .csv-filer som separata tabeller för att säkerställa korrekt schemahantering och datakonsistens.
Se till att alla .csv-filer som matchar ett sökmönster inkluderar en konsekvent rubrikrad med identiska kolumnnamn och ordning.
Använd konsekventa objektattributnycklar i alla .jsonl-filer som definierats för varje tabell. Nyckelnamn och strukturer bör överensstämma för tillförlitlig schemaupptäckt.

Tabeller som replikeras

Tabeller definieras i den tabellkonfiguration som du tillhandahåller. Varje tabell motsvarar en uppsättning filer i blob-behållaren som matchar det angivna sökmönstret och, i tillämpliga fall, katalogprefixet. Denna koppling upptäcker tabellschemat genom att sampla upp till fem filer per tabell, läsa var femte rad och analysera upp till 1 000 poster per fil.

Replikering använder en inkrementell metod baserad på filändringars tidsmarkörer när en primärnyckel är konfigurerad. Filer som ändrats efter det senaste synkroniseringsbokmärket bearbetas under varje extrahering. Om ingen primärnyckel anges replikeras hela tabellen fullständigt vid varje körning.

Följande systemkolumner läggs till i varje tabell som standard:

Kolumn	Beskrivning
`_sdc_source_container`	Namnet på den Azure-blob-behållare där posten har sitt ursprung.
`_sdc_source_file`	Den fullständiga sökvägen till filen som innehåller posten. För Excel-filer läggs arkets namn till (till exempel `exports/q1.xlsx/Sheet1`).
`_sdc_source_lineno`	Radnumret för posten i filen.
`_sdc_extra`	Extra fält som tolkats och som inte matchar det upptäckta schemat (endast `.jsonl`-filer).

Begränsningar och överväganden

Lagringskontonamnet anges som ett rent namn, inte en URL.
Gzip-komprimerade filer (.gz) stöds. Denna koppling läser det ursprungliga filnamnet från gzip-huvudet för att fastställa det inre filformatet. Gzip-filer som skapats med --no-name (inget filnamn i huvudet) hoppas över.
Filer med filändelserna .csv, .txt, .tsv, .psv eller .jsonl kontrolleras för gzip-magiska byte och dekomprimeras transparent, även om filen inte har filändelsen .gz.
Nästlad komprimering (till exempel en .gz-fil inuti en annan .gz) stöds inte och hoppas över.
Fältet Sökmönster använder syntax för reguljära uttryck, inte glob-mönster (använd till exempel .*\.csv$ istället för *.csv).
Filer utan en igenkänd filändelse hoppas över och en varning utfärdas.
Denna koppling inkluderar inbyggd logik för nya försök med exponentiell backoff för Azure API-hastighetsgränser (HTTP 429) och tillfälliga serverfel (HTTP 500, 502, 503, 504), upp till fem försök.
Filkodningen förväntas vara UTF-8.

Var den här sidan till hjälp för dig?

Om du stöter på några problem med den här sidan eller innehållet på den, t.ex. ett stavfel, ett saknat steg eller ett tekniskt fel – meddela oss!

Lämna din feedback här