Saltar al contenido principal Saltar al contenido complementario

Calidad y detección de datos

Tras abrir un conjunto de datos, puede echar un vistazo a varias partes de la vista general para obtener más información sobre su calidad general, su esquema, las estadísticas de calidad y los tipos semánticos de cada columna.

Nota de avisoPor el momento, las funciones de calidad de datos y tipos semánticos solo están disponibles para los conjuntos de datos Snowflake. Los conjuntos de datos registrados a partir de otras fuentes distintas de Snowflake son perfectamente utilizables para los productos de datos, pero no mostrarán ninguna métrica de calidad en la vista general.

Indicadores de calidad del conjunto de datos

Al abrir la vista general de un conjunto de datos que acaba de registrarse, la mayor parte de la información aparece atenuada. Para calcular la calidad de los datos por primera vez, haga clic en el botón Calcular. Si la calidad ya se ha calculado con anterioridad, pero quiere asegurarse de que los datos están actualizados, haga clic en el botón Actualizar.

Cada cálculo o actualización le costará créditos de Snowflake. Para obtener más información, consulte Calidad de los datos para conjuntos de datos Snowflake.

Hay dos secciones principales en las que se muestra la calidad.

  • El área Calidad de los datos, que incluye:

    • La distribución de valores válidos, no válidos y vacíos en todo el conjunto de datos en forma de una barra de calidad con tres colores y sus respectivos porcentajes.

    • Una puntuación de Validez, que expresa el porcentaje de valores válidos, sin tener en cuenta los valores vacíos.

    • Una puntuación de Exhaustividad, que expresa el porcentaje de valores que no están vacíos.

  • El área Esquema, que muestra los diferentes campos del conjunto de datos, qué tipo de datos o tipo semántico se ha aplicado, y una barra de calidad para cada campo del conjunto de datos.

Nota de sugerenciaSi el esquema y la calidad del conjunto de datos no se recuperan, compruebe si la conexión que ha configurado en el centro de control de los Servicios de analítica de Qlik tiene el campo Rol debidamente rellenado, o si el propio rol concede los permisos necesarios sobre la tabla de la base de datos.

Detección de tipos semánticos

A cada campo de un conjunto de datos se le asigna automáticamente un tipo semántico para describir mejor su contenido. Entre bambalinas se produce una operación de detección de datos para determinar qué tipo asignar.

La detección de datos calcula cuántos valores de una columna coinciden con cada tipo semántico y, si el resultado es superior al 40 %, asigna el tipo semántico a la columna.

¿Cómo se calcula el porcentaje?

Este porcentaje es la suma de dos:

  • Un porcentaje representa el número de valores que coinciden con el tipo semántico; hasta el 100 % asignado. Para determinar si un valor coincide con un tipo semántico, la detección de datos depende del tipo del tipo semántico:

    • Diccionario: ¿El valor coincide con un valor del diccionario? Se ignoran los signos de puntuación, las mayúsculas y minúsculas, los espacios y las tildes.

    • Expresión regular: ¿El valor coincide con la expresión regular?

    • Compuesto: ¿se detecta el valor en al menos un tipo secundario?

      Un tipo compuesto es un grupo de tipos semánticos existentes, denominados secundarios.

    Si la respuesta es afirmativa, el valor se considera válido.

  • El otro porcentaje representa la similitud entre el nombre de la columna y el nombre del tipo semántico; hasta un 10 % asignado.

    Para comparar los nombres:

    • Se usa el algoritmo de Levenshtein. Calcula el número mínimo de ediciones (inserción, supresión o sustitución) necesarias para transformar una cadena en otra.

    • Se ignoran la distinción entre mayúsculas y minúsculas y las tildes.

    • Si las cadenas contienen espacios, se ignora el orden de las palabras. Por ejemplo, Teléfono EE. UU. y Teléfono EEUU se consideran idénticas.

    El porcentaje máximo es 100 %. Si todos los valores coinciden con un tipo semántico y el nombre de la columna es idéntico al nombre del tipo semántico, el resultado sigue siendo 100 %.

Detección de tipos de datos

En lugar de tipos semánticos, también se pueden asignar tipos de datos nativos. Si ningún tipo semántico obtiene más del 40 %, la detección de datos asigna automáticamente un tipo de datos.

Para determinar de qué tipo es un valor, la detección de datos sigue un orden:

  1. ¿El valor está vacío?

  2. ¿Es el valor de tipo booleano? Verdadero y Falso son los únicos valores considerados de tipo booleano.

  3. ¿Es el valor de tipo entero?

  4. ¿Es el valor de tipo decimal?

  5. ¿Es el valor de tipo fecha?

  6. Si el valor no es de uno de los tipos anteriores, se considera un valor de texto.

Como la verificación es incremental, un valor solo es de un tipo. Por ejemplo, el valor 5 es de tipo entero. No se considerará de tipo texto.

¿Esta página le ha sido útil?

No dude en indicarnos en qué podemos mejorar si encuentra algún problema en esta página o su contenido, como, por ejemplo, errores tipográficos, pasos que falta o errores técnicos.