Azure Cloud Storage | Qlik CloudHjälp
Gå till huvudinnehåll Gå till ytterligare innehåll

Azure Cloud Storage 

Azure Cloud Storage är Microsofts hanterade objektlagringstjänst för ostrukturerade data, inklusive text, binära filer, media, loggar och applikationssäkerhetskopior. Den stöder åtkomstnivåerna frekvent, lågfrekvent och arkiv, erbjuder georedundant replikering och integreras med Microsoft Entra ID (tidigare Azure Active Directory) för säker åtkomstkontroll.

Qlik Talend Cloud ansluter till Azure Cloud Storage med en Microsoft Entra ID-applikation (tjänstens huvudnamn) som har läsbehörighet till mållagringskontots behållare. Denna koppling hämtar filer från den angivna behållaren, upptäcker automatiskt scheman genom att sampla filinnehåll och utför inkrementell datareplikering baserat på filändringars tidsmarkörer.

Förbereda för autentisering

För att komma åt dina data måste du autentisera denna koppling med dina kontouppgifter.

Anteckning om informationKontrollera att kontot du använder har läsåtkomst till de tabeller som du vill hämta.

För att konfigurera ditt Azure Cloud Storage-konto behöver du:

  • En Azure-prenumeration med ett Azure Storage-konto.
  • En blob-behållare i lagringskontot som innehåller filerna som ska replikeras.
  • En Microsoft Entra ID-applikationsregistrering med en klienthemlighet.
  • Rollen Storage Blob Data Reader tilldelad till applikationens tjänsthuvudnamn, begränsad till lagringskontot eller den specifika behållaren. Detta är den rekommenderade rollen med lägst behörighet för skrivskyddad åtkomst.

För att registrera en Microsoft Entra ID-applikation och hämta dina inloggningsuppgifter:

  1. Logga in på ditt Azure-konto.
  2. Navigera till Microsoft Entra ID > Appregistreringar > Ny registrering.
  3. Ange följande information för din applikation:
    • Namn: Ange ett namn, till exempel QlikDataIntegration.
    • Kontotyper som stöds: Välj Endast konton i den här organisationskatalogen.
  4. Klicka på Registrera.
  5. På applikationens Översikt-sida kopierar du både Applikations-ID (klient) och Katalog-ID (klientorganisation) och sparar dem i en säker fil.
  6. Navigera till Certifikat och hemligheter > Klienthemligheter > Ny klienthemlighet.
  7. Ange en beskrivning och välj en giltighetsperiod för klienthemligheten.
  8. Klicka på Lägg till.
  9. Kopiera värdet för din klienthemlighet och spara det i en säker fil.
  10. I Azure-portalen öppnar du ditt lagringskonto och navigerar sedan till Åtkomstkontroll (IAM) > Lägg till > Lägg till rolltilldelning.
  11. Välj rollen Storage Blob Data Reader och tilldela denna roll till den applikation du just registrerade.
  12. Klicka på Spara.

Filformat som stöds

  • Avgränsade textfiler: .csv, .tsv, .psv, .txt (med konfigurerbar avgränsare)
  • JSON Lines: .jsonl
  • Parquet: .parquet
  • Avro: .avro
  • Excel: .xlsx (flera kalkylblad per arbetsbok stöds; varje arks rader replikeras och arkets namn läggs till i kolumnen _sdc_source_file)
  • Gzip-komprimerade filer: .gz (som innehåller något av ovanstående format)

Skapa denna koppling

Mer information finns i Koppla till SaaS-program.

  1. Ange de kopplingsegenskaper som krävs.
  2. Ange ett namn på kopplingen i Kopplingsnamn.

  3. Välj Öppna kopplingsmetadata för att definiera metadata för kopplingen när den har skapats.

  4. Klicka på Skapa.

Inställningar för koppling
Inställning Beskrivning
Datagateway

Välj en Gateway för dataflytt om det krävs för ditt användningsfall.

Anteckning om information

Detta fält är inte tillgängligt med Qlik Talend Cloud Starter-prenumerationen eftersom den inte stöder Gateway för dataflytt. Om du har en annan prenumerationsnivå och inte vill använda Gateway för dataflytt väljer du Inget.

Information om fördelarna med Gateway för dataflytt och användningsfall som kräver det finns i Qlik Data Gateway – dataflytt.

Startdatum

Ange det datum, i formatet MM/DD/YYYY, från vilket data måste replikeras från din källa till ditt mål.

Lagringskontonamn Namnet på Azure Storage-kontot, till exempel mittlagringskonto utan https:// eller .blob.core.windows.net.
Behållarnamn Namn på blob-behållare, till exempel min-behållare.
Klientorganisations-ID Klientorganisations-ID.
Tabeller Tabellkonfigurationen avgör vilka filer som läses och hur deras innehåll tolkas. Varje tabelldefinition inkluderar ett filsökmönster, ett tabellnamn och valfria inställningar för att anpassa filhanteringen.
Klient-ID Klient-ID.
Klienthemlighet Klienthemlighet.

Tabellkonfiguration

Varje post i tabellkonfigurationen representerar en logisk tabell som härleds från filer i denna behållare. Följande egenskaper kan konfigureras för varje tabell:

Egenskap Obligatorisk eller valfri Beskrivning
Tabellnamn Obligatorisk Ange namnet på denna logiska tabell (till exempel my_orders_csv). Detta blir namnet på denna ström i Qlik Talend Cloud.
Sökmönster Obligatorisk Ange ett reguljärt uttryck för att matcha filnamn (till exempel matchar .*\.csv$ alla CSV-filer). Tillämpa detta på filnamn i denna behållare eller den angivna katalogen, om en sådan anges.
Katalog Valfri Ange ett mappökvägsprefix i denna behållare för att begränsa filsökningen (till exempel exports/orders/). Förbättra prestandan genom att begränsa de filer som skannas. Detta är inte ett reguljärt uttryck.
Primärnyckel Valfri Definiera en kommaseparerad lista med kolumnnamn som ska användas som primärnyckel (till exempel id eller id,date). För CSV-filer använder du rubrikfältnamn; för JSONL-filer använder du objektsnycklar på toppnivå. Lämna tomt för att använda fullständig tabellreplikering. Fyll i för att aktivera inkrementell replikering baserat på filändringstid.
Ange datumtidsfält Valfri Lista kolumnnamnen, separerade med kommatecken, som ska behandlas som datumtidsfält, även om de inte upptäcks automatiskt under schemaupptäckten (till exempel created_at, updated_at).
Avgränsare Valfri Ange fältseparatorn för avgränsade textfiler. Standard är , (komma). Använd \t för TSV-filer eller | för PSV-filer. Om den inte anges upptäcks avgränsaren automatiskt baserat på filändelsen.
  • Konfigurera .jsonl- och .csv-filer som separata tabeller för att säkerställa korrekt schemahantering och datakonsistens.
  • Se till att alla .csv-filer som matchar ett sökmönster inkluderar en konsekvent rubrikrad med identiska kolumnnamn och ordning.
  • Använd konsekventa objektattributnycklar i alla .jsonl-filer som definierats för varje tabell. Nyckelnamn och strukturer bör överensstämma för tillförlitlig schemaupptäckt.

Tabeller som replikeras

Tabeller definieras i den tabellkonfiguration som du tillhandahåller. Varje tabell motsvarar en uppsättning filer i blob-behållaren som matchar det angivna sökmönstret och, i tillämpliga fall, katalogprefixet. Denna koppling upptäcker tabellschemat genom att sampla upp till fem filer per tabell, läsa var femte rad och analysera upp till 1 000 poster per fil.

Replikering använder en inkrementell metod baserad på filändringars tidsmarkörer när en primärnyckel är konfigurerad. Filer som ändrats efter det senaste synkroniseringsbokmärket bearbetas under varje extrahering. Om ingen primärnyckel anges replikeras hela tabellen fullständigt vid varje körning.

Följande systemkolumner läggs till i varje tabell som standard:

Kolumn Beskrivning
_sdc_source_container Namnet på den Azure-blob-behållare där posten har sitt ursprung.
_sdc_source_file Den fullständiga sökvägen till filen som innehåller posten. För Excel-filer läggs arkets namn till (till exempel exports/q1.xlsx/Sheet1).
_sdc_source_lineno Radnumret för posten i filen.
_sdc_extra Extra fält som tolkats och som inte matchar det upptäckta schemat (endast .jsonl-filer).

Begränsningar och överväganden

  • Lagringskontonamnet anges som ett rent namn, inte en URL.
  • Gzip-komprimerade filer (.gz) stöds. Denna koppling läser det ursprungliga filnamnet från gzip-huvudet för att fastställa det inre filformatet. Gzip-filer som skapats med --no-name (inget filnamn i huvudet) hoppas över.
  • Filer med filändelserna .csv, .txt, .tsv, .psv eller .jsonl kontrolleras för gzip-magiska byte och dekomprimeras transparent, även om filen inte har filändelsen .gz.
  • Nästlad komprimering (till exempel en .gz-fil inuti en annan .gz) stöds inte och hoppas över.
  • Fältet Sökmönster använder syntax för reguljära uttryck, inte glob-mönster (använd till exempel .*\.csv$ istället för *.csv).
  • Filer utan en igenkänd filändelse hoppas över och en varning utfärdas.
  • Denna koppling inkluderar inbyggd logik för nya försök med exponentiell backoff för Azure API-hastighetsgränser (HTTP 429) och tillfälliga serverfel (HTTP 500, 502, 503, 504), upp till fem försök.
  • Filkodningen förväntas vara UTF-8.

Var den här sidan till hjälp för dig?

Om du stöter på några problem med den här sidan eller innehållet på den, t.ex. ett stavfel, ett saknat steg eller ett tekniskt fel – meddela oss!