¿Cómo construir búsquedas compatibles con el proceso de normalización?

+34 900 840 407

support@cytomic.ai

Productos relacionados

Caracteres de separación

Transformación

Reglas generales

Consejos para las búsquedas

¿Cómo construir búsquedas compatibles con el proceso de normalización de Cytomic Data Watch?

Productos relacionados_

Cytomic Data Watch

Introducción_

Los datos extraídos de los ficheros encontrados en el equipo del usuario se almacenan en una base de datos en el propio equipo tras aplicar un proceso de normalización. Este proceso varía si Cytomic Data Watch considera el dato como una entidad PII (Personally Identifiable Information) o un texto sin identificar.

El proceso de normalización afecta de forma directa a las búsquedas, ya que se compara esta con los datos almacenados después de sufrir el proceso de normalización. Es decir, la búsqueda se ejecuta sobre los datos normalizados y no sobre los datos originales contenidos en los ficheros del usuario.

Veamos a continuación algunos aspectos que forman parte de este proceso de normalización:

Caracteres de separación_

Cytomic Data Watch maneja un grupo de caracteres especiales que considera como separadores entre palabras y que puede retirar completamente o sustituir por un único espacio. El grupo de caracteres es el siguiente:

Retorno de carro: \r
Salto de línea: \n
Tabulador: \t
Caracteres: ” : ; ! ? – + _ * = ( ) [ ] { } , . | % \ / ’

Transformación de caracteres_

Independientemente de que la cadena de caracteres sea reconocida como una entidad o no, antes de almacenarla en la base de datos se transforma a minúsculas. Las búsquedas del administrador también son transformadas a minúsculas, con lo que escribir en mayúsculas o minúsculas no afecta al resultado de la búsqueda.

Reglas generales para normalizar los datos reconocidos como una entidad_

Las entidades formadas por caracteres numéricos (teléfonos, números de cuentas bancarias etc.) se elimina el conjunto de caracteres separadores y se almacena la cadena resultante como una única entidad. Por ejemplo “1.42.65.116-C” se almacena como la entidad de tipo IDCARD “14265116C”.
Las entidades de tipo Dirección IP y Correo electrónico se almacenan tal cual.
Las entidades Nombre y Apellidos y Dirección cada palabra se almacena de forma independiente y se eliminan las que contengan números. Por ejemplo “Calle Santiago de Compostela 5 1º Izquierda” se almacenará como “calle”, “santiago”, “de”, “compostela”, “izquierda”.

Reglas generales para normalizar los datos no reconocidos como una entidad_

Los datos numéricos y alfanuméricos (palabras formadas por letras y números) que no sean detectadas como una entidad son eliminados en el proceso de normalización, y por lo tanto su búsqueda no devuelve ningún resultado.
Cada carácter de separación encontrado divide la cadena de caracteres en dos palabras independientes e impide el almacenamiento del carácter separador. Por ejemplo la cadena “casa.bosque” se almacena como “casa” y “bosque” y el carácter separador “.” se descarta.

Consejos para construir búsquedas compatibles con el proceso de normalización_

Utiliza preferiblemente letras en minúsculas.
Los caracteres numéricos que forman parte de cadenas que no son identificados como una entidad compatible con Cytomic Data Watch se eliminan en el proceso de normalización, y por tanto no deben ser incluidos en las búsquedas.
Para buscar números de cuentas bancarias, números de tarjetas de crédito, números de identidad, números de la seguridad social, números de pasaporte, números de permiso elimina los caracteres de separación.
Para buscar direcciones IP y direcciones de correo electrónico introdúcelas tal cual.
Para buscar números de teléfono elimina los caracteres de separación, introduciendo el código del país si es necesario sin el signo “+”.
Para buscar direcciones físicas, nombres y apellidos elimina los caracteres numéricos.