Calidad y detección de datos
Tras abrir un conjunto de datos, puede echar un vistazo a varias partes de la vista general para obtener más información sobre su calidad general, su esquema, las estadísticas de calidad y los tipos semánticos de cada columna.
Indicadores de calidad del conjunto de datos
Al abrir la vista general de un conjunto de datos que acaba de registrarse, la mayor parte de la información aparece atenuada. Para calcular la calidad de los datos por primera vez, haga clic en el botón Calcular. Si la calidad ya se ha calculado con anterioridad, pero quiere asegurarse de que los datos están actualizados, haga clic en el botón Actualizar.
Cada cálculo o actualización le costará créditos de Snowflake. Para obtener más información, consulte Calidad de los datos para conjuntos de datos Snowflake.
Hay dos secciones principales en las que se muestra la calidad.
-
El área Calidad de los datos, que incluye:
-
La distribución de valores válidos, no válidos y vacíos en todo el conjunto de datos en forma de una barra de calidad con tres colores y sus respectivos porcentajes.
-
Una puntuación de Validez, que expresa el porcentaje de valores válidos, sin tener en cuenta los valores vacíos.
-
Una puntuación de Exhaustividad, que expresa el porcentaje de valores que no están vacíos.
-
-
El área Esquema, que muestra los diferentes campos del conjunto de datos, qué tipo de datos o tipo semántico se ha aplicado, y una barra de calidad para cada campo del conjunto de datos.
Detección de tipos semánticos
A cada campo de un conjunto de datos se le asigna automáticamente un tipo semántico para describir mejor su contenido. Entre bambalinas se produce una operación de detección de datos para determinar qué tipo asignar.
La detección de datos calcula cuántos valores de una columna coinciden con cada tipo semántico y, si el resultado es superior al 40 %, asigna el tipo semántico a la columna.
¿Cómo se calcula el porcentaje?
Este porcentaje es la suma de dos:
-
Un porcentaje representa el número de valores que coinciden con el tipo semántico; hasta el 100 % asignado. Para determinar si un valor coincide con un tipo semántico, la detección de datos depende del tipo del tipo semántico:
-
Diccionario: ¿El valor coincide con un valor del diccionario? Se ignoran los signos de puntuación, las mayúsculas y minúsculas, los espacios y las tildes.
-
Expresión regular: ¿El valor coincide con la expresión regular?
-
Compuesto: ¿se detecta el valor en al menos un tipo secundario?
Un tipo compuesto es un grupo de tipos semánticos existentes, denominados secundarios.
Si la respuesta es afirmativa, el valor se considera válido.
-
-
El otro porcentaje representa la similitud entre el nombre de la columna y el nombre del tipo semántico; hasta un 10 % asignado.
Para comparar los nombres:
-
Se usa el algoritmo de Levenshtein. Calcula el número mínimo de ediciones (inserción, supresión o sustitución) necesarias para transformar una cadena en otra.
-
Se ignoran la distinción entre mayúsculas y minúsculas y las tildes.
-
Si las cadenas contienen espacios, se ignora el orden de las palabras. Por ejemplo, Teléfono EE. UU. y Teléfono EEUU se consideran idénticas.
El porcentaje máximo es 100 %. Si todos los valores coinciden con un tipo semántico y el nombre de la columna es idéntico al nombre del tipo semántico, el resultado sigue siendo 100 %.
-
Detección de tipos de datos
En lugar de tipos semánticos, también se pueden asignar tipos de datos nativos. Si ningún tipo semántico obtiene más del 40 %, la detección de datos asigna automáticamente un tipo de datos.
Para determinar de qué tipo es un valor, la detección de datos sigue un orden:
-
¿El valor está vacío?
-
¿Es el valor de tipo booleano? Verdadero y Falso son los únicos valores considerados de tipo booleano.
-
¿Es el valor de tipo entero?
-
¿Es el valor de tipo decimal?
-
¿Es el valor de tipo fecha?
-
Si el valor no es de uno de los tipos anteriores, se considera un valor de texto.
Como la verificación es incremental, un valor solo es de un tipo. Por ejemplo, el valor 5 es de tipo entero. No se considerará de tipo texto.