Saltar al contenido principal Saltar al contenido complementario

Administrar conjuntos de datos

Puede administrar los conjuntos de datos incluidos en las tareas de datos de Aterrizaje, Almacenamiento, Transformación, Data mart y Replicación para crear transformaciones, filtrar los datos y agregar columnas.

Los conjuntos de datos incluidos se muestran en Conjuntos de datos en la vista Diseño. Puede seleccionar qué columnas mostrar con el selector de columnas (Selector de columnas).

Conjuntos de datos en la vista Diseño de una tarea de datos

Conjuntos de datos en la vista Diseño de una tarea de datos

Reglas de transformación y transformaciones explícitas

Puede realizar transformaciones tanto globales como explícitas.

Reglas de transformación

Puede realizar transformaciones globales creando una regla de transformación que utilice % como comodín en el ámbito para aplicarlo a todos los conjuntos de datos coincidentes.

Las reglas de transformación se indican mediante una esquina de color púrpura oscuro en el atributo afectado.

Transformaciones explícitas

Las transformaciones explícitas se crean:

  • Cuando utiliza Editar para cambiar un atributo de columna.

  • Cuando utiliza Renombrar en un conjunto de datos.

  • Cuando agrega una columna.

Las transformaciones explícitas anulan las transformaciones globales y se indican mediante una esquina de color violeta claro en el atributo afectado.

Modelos de conjuntos de datos

Los conjuntos de datos pueden estar basados en el origen o en el destino, dependiendo del tipo de tarea y de las operaciones de la tarea. El modelo de conjunto de datos utilizado afecta al comportamiento de la canalización en los cambios de origen, y a las operaciones que puede realizar.

  • El conjunto de datos se basa en los conjuntos de datos fuente y solo contendrá cambios en los metadatos. Se aplica automáticamente un cambio en los datos de origen que puede provocar cambios en todas las tareas posteriores. No es posible cambiar el orden de las columnas, o cambiar el conjunto de datos de origen.

    Los siguientes tipos de tarea utilizan siempre un modelo de conjunto de datos de origen: Destino, Almacenamiento, Datos registrados, Replicación y Aterrizaje en un lago de datos.

  • El conjunto de datos se basa en los metadatos del destino. Si se añade o elimina una columna desde el origen, no se aplicará automáticamente a la siguiente tarea descendente. Puede cambiar el orden de las columnas y cambiar el conjunto de datos de origen. Esto significa que la tarea es más autónoma y le permite controlar el efecto de los cambios de origen.

    Los siguientes tipos de tareas pueden utilizar un modelo de conjuntos de datos basado en el destino: Transformación, Data mart. Hay algunos casos en los que se utiliza un modelo basado en el origen para tareas de transformación basadas en la operación.

    • Si una transformación SQL o un flujo de transformación realiza una selección de columnas, el conjunto de datos se basará en el destino. Por ejemplo, si utiliza SELECT A, B, C from XYZ en una transformación SQL o utiliza el procesador Seleccionar columnas en un flujo de transformación.

    • Si se mantienen las columnas predeterminadas, el conjunto de datos está basado en el origen. Por ejemplo, si utiliza SELECT * from XYZ en una transformación SQL.

Actualizar proyectos desde un modelo basado en el origen a un modelo basado en el destino

Los proyectos existentes se actualizan al modelo de conjunto de datos basado en el destino cuando procede. Se le guiará a través del proceso de actualización cuando abra un proyecto por primera vez. Existen algunas consideraciones a la hora de importar y exportar proyectos con diferentes modelos de conjuntos de datos.

  • No es posible importar un proyecto con un modelo basado en origen a un proyecto con un modelo basado en destino.

    Importar el proyecto con un modelo basado en fuentes a un nuevo proyecto, actualizar el nuevo proyecto y, a continuación, exportar el proyecto resultante. Ahora puede volver a importar este proyecto al proyecto con un modelo basado en destino.

  • No es posible importar un proyecto con un modelo basado en destino a un proyecto con un modelo basado en origen.

    Actualice el proyecto a un modelo basado en destino antes de importar un proyecto con un modelo basado en origen.

Filtrar un conjunto de datos

Nota informativaLa capacidad de filtrar un conjunto de datos está disponible para las tareas de aterrizaje de datos que transfieren datos a través de Pasarela de datos de Qlik - Data Movement, también para las tareas de almacenamiento y transformación de datos.

Puede filtrar datos para crear un subconjunto de filas, si es necesario.

  • Haga clic en Filtrar

Para obtener más información, consulte Filtrar un conjunto de datos.

Cambiar el nombre de un conjunto de datos

Puede cambiar el nombre de un conjunto de datos.

  • Haga clic en en un conjunto de datos y, a continuación, en Editar.

Añadir columnas

Puede agregar columnas con transformaciones de nivel de fila, si es necesario.

  • Haga clic en Añadir columna

Para obtener más información, consulte Agregar columnas a un conjunto de datos.

Editar una columna

Puede editar las propiedades de la columna seleccionando una columna y haciendo clic en Editar.

  • Nombre

  • Clave

    Establezca una columna para que sea una clave principal. También puede establecer claves seleccionando o anulando la selección en la columna Clave.

  • Anulable

  • Tipo de datos

    Establezca el tipo de datos de la columna. Para algunos tipos de datos, puede establecer una propiedad adicional, por ejemplo, Longitud.

Comprensión del impacto de cambiar un tipo de datos

Hay dos casos de uso comunes para cambiar el tamaño del tipo de datos o cambiar a un tipo de datos diferente:

  • Ingesta de datos que no tienen cabida en el tipo de datos actual.
  • La exigencia de mayor exactitud numérica. Por ejemplo, cambiar SMALLINT a DECIMAL (p,s).

En la mayoría de los casos, el cambio de un tipo de datos dará lugar a una operación ALTER TABLE, evitando así la pérdida de datos. Por ejemplo, si el tipo de datos anterior era STRING (25) y el nuevo es STRING (50), los datos de la columna con el nuevo tipo de datos se actualizarán sin ningún problema. Sin embargo, en algunos casos, el cambio de un tipo de datos hará que se elimine la tabla y se vuelva a crear. Por ejemplo, si el tipo de datos de la columna anterior es NUMBER y lo cambia a DATE, la tabla se eliminará y se volverá a crear, ya que no es posible convertir números en fechas. Del mismo modo, si la plataforma de destino no admite operaciones de tabla ALTER (como Databricks), la tabla se eliminará y se volverá a crear.

Hay algunos casos en los que teóricamente es posible alterar una tabla, pero debido a la complejidad subyacente, la tarea de datos la abandonará y volverá a crearla. Por último, hay casos en los que la pérdida potencial de datos, y no la pérdida real, desencadenará una operación de eliminar y volver a crear. Por ejemplo, si cambia STRING(25) por STRING(1), se producirá una pérdida de datos si los datos ingestados no caben en STRING(1). Sin embargo, es posible que STRING(25) contenga siempre un solo carácter, por lo que en la práctica no se producirá ninguna pérdida de datos, pero la tabla se eliminará y se volverá a crear debido a la posible pérdida de datos.

Cambios en los tipos de datos que requieren que la tabla se elimine y se vuelva a crear, independientemente de la plataforma de destino.

El cambio de los siguientes tipos de datos hará que se elimine la tabla y se vuelva a crear:

  • BYTES
  • BLOB
  • CLOB
  • NCLOB

Plataformas objetivo que admiten cambios en el tamaño de los tipos de datos sin necesidad de eliminar y volver a crear la tabla

Cuando trabaje con Snowflake, Google BigQuery, Amazon Redshift, Microsoft SQL Server y Azure Synapse Analytics, podrá modificar el tamaño de determinados tipos de datos sin que la tabla se elimine y se vuelva a crear. La tabla siguiente indica qué tipos de datos son compatibles con cada una de las plataformas mencionadas.

Tipo de datos Snowflake Google BigQuery Azure Synapse Analytics Microsoft SQL Server Amazon Redshift

INT1

No

No

INT2

No

No

INT4

No

No

INT8

No

No

REAL4

No

No

No

REAL8

No

No

No

UINT1

No

No

UINT2

No

No

UNIT4

No

No

UNIT8

No

No

NUMERIC

No

STRING

WSTRING

No

No

Plataformas objetivo que admiten el cambio de tipos de datos a STRING sin que la tabla se elimine y se vuelva a crear

Al mover datos a Microsoft SQL Server y Azure Synapse Analytics, puede cambiar los siguientes tipos de datos a STRING, sin que la tabla se elimine y se vuelva a crear:

  • BOOLEAN
  • DATE
  • TIME
  • DATETIME
  • INT1
  • INT2
  • INT4
  • INT8
  • REAL4
  • REAL8
  • UINT1
  • UINT2
  • UNIT4
  • UNIT8
  • NUMERIC
  • WSTRING (compatible solo con Azure Synapse Analytics)

Eliminar columnas

Puede eliminar una o más columnas de un conjunto de datos.

  • Seleccione las columnas que desee eliminar y haga clic en Eliminar.

Si desea ver las columnas eliminadas, haga clic en Mostrar columnas eliminadas. Las columnas eliminadas se indican mediante un texto tachado. Puede recuperar una columna eliminada seleccionándola y haciendo clic en Revertir.

Nota de sugerenciaPara eliminar una columna agregada, selecciónela y haga clic en Revertir.

Revertir cambios explícitos en las columnas

Puede revertir todos los cambios explícitos realizados en una o más columnas.

  • Seleccione las columnas en las que desee revertir los cambios y haga clic en Revertir.

Los cambios de las reglas de transformación global no se revertirán.

Si revierte una columna agregada, esta se eliminará.

Configuración del conjunto de datos

Puede cambiar la configuración del conjunto de datos. La configuración predeterminada hereda la configuración del activo de datos, pero también puede cambiar una configuración para que esté explícitamente activada o desactivada.

  • Haga clic en , en un conjunto de datos y luego en Configuración.

Ver datos

Puede ver una muestra de los datos para ver y validar la forma de sus datos mientras diseña su canalización de datos.

Deben cumplirse los siguientes requisitos:

  • La visualización de datos se activa a nivel de espacio empresarial inquilino en Administración.

    Habilite Configuración > Control de funciones > Ver datos en Integración de datos.

  • Se le asigna el rol Puede ver datos en el espacio donde reside la conexión.

  • Se le asigna el rol Puede ver en el espacio donde reside el proyecto.

Nota informativaCuando se crean proyectos y conexiones en un espacio Personal, el propietario siempre puede ver los datos.

Para ver datos de muestra en la pestaña Conjuntos de datos de la vista Diseño:

  • Haga clic en Ver datos en Objetos físicos.

Se visualiza una muestra de los datos. Puede establecer cuántas filas de datos incluir en la muestra con Número de filas.

Para cambiar entre conjuntos de datos y tablas:

  • Seleccione Conjuntos de datos para ver la representación lógica de los datos.

  • Seleccione Objetos físicos para ver la representación física en la base de datos como tablas y vistas.

    Nota de prensaEsta opción no está disponible si aún no se ha creado la representación física.

Puede filtrar los datos de muestra de dos maneras:

  • Usar Filtrar para filtrar qué datos de muestra recuperar.

    Por ejemplo, si utiliza el filtro ${OrderYear}>2023 y Número de filas se establece en 10, obtendrá una muestra de 10 pedidos de 2024.

  • Filtrar los datos de la muestra por una columna específica.

    Esto solo afectará a los datos de muestra existentes. Si usó Filtro para incluir únicamente pedidos de 2024 y establece el filtro de columna para mostrar pedidos a partir de 2022, el resultado es una muestra vacía.

También puede ordenar la muestra de datos por una columna específica. La ordenación solo afectará a los datos de muestra existentes. Si utilizó Filtro para incluir únicamente pedidos de 2024 e invierte el orden de clasificación, los datos de muestra seguirán conteniendo solo pedidos de 2024.

Puede ocultar columnas en la vista de datos:

  • Para ocultar una columna, haga clic en en la columna, y después en Ocultar columna.

  • Oculte varias columnas haciendo clic en en cualquier columna y después en Mostrar columnas. Esto permite controlar la visibilidad de todas las columnas de la vista.

Validar y ajustar los conjuntos de datos

Puede validar todos los conjuntos de datos que se incluyen en la tarea de datos.

Expanda Validar y ajustar para ver todos los errores de validación y cambios en el diseño.

Validar los conjuntos de datos

  • Haga clic en Validar conjuntos de datos para validarlos.

La validación incluye comprobar que:

  • Todas las tablas tienen una clave principal.

  • No faltan atributos.

  • No hay nombres de tablas o columnas duplicados.

También obtendrá una lista de cambios de diseño en comparación con la fuente:

  • Tablas y columnas añadidas

  • Tablas y columnas eliminadas

  • Tablas y columnas renombradas

  • Claves principales y tipos de datos cambiados.

Expanda Validar y ajustar para ver todos los errores de validación y cambios en el diseño.

  • Corrija los errores de validación y luego vuelva a validar los conjuntos de datos.

  • La mayoría de los cambios en el diseño se pueden ajustar automáticamente, excepto las claves principales o los tipos de datos modificados. En ese caso, debe sincronizar los conjuntos de datos.

Preparar los conjuntos de datos

Puede preparar conjuntos de datos para ajustar los cambios de diseño sin pérdida de datos si es posible. Si hay cambios de diseño que no se pueden ajustar sin pérdida de datos, tendrá la opción de volver a crear las tablas desde el origen con pérdida de datos.

Esto requiere detener la tarea.

  • Haga clic en y después en Preparar.

Cuando los conjuntos de datos estén preparados, valide los conjuntos de datos antes de reiniciar la tarea de almacenamiento.

Volver a crear conjuntos de datos

Puede volver a crear los conjuntos de datos desde el origen. Cuando vuelva a crear un conjunto de datos, se producirá pérdida de datos. Siempre que tenga los datos de origen, puede volver a cargarlos desde el origen.

Esto requiere detener la tarea.

  • Haga clic en y después en Volver a crear.

Limitaciones

  • En Google BigQuery, si elimina o cambia el nombre de una columna, esto volverá a crear la tabla y provocará la pérdida de datos.

¿Esta página le ha sido útil?

No dude en indicarnos en qué podemos mejorar si encuentra algún problema en esta página o su contenido, como, por ejemplo, errores tipográficos, pasos que falta o errores técnicos.