Data Quality

Visa a eliminação de inconsistências, padronização dos dados e identificação de duplicidades. O processo de uso do produto é dividido em duas etapas, Data Cleansing e Deduplicação, conforme apresentaremos adiante:

Data Cleansing

Também chamada por ‘Data Scrubbing’, opera em quatro passos:

1. Limpeza
2. Validação
3. Padronização
4. Qualificação

1. Limpeza

A partir de análises de séries históricas e algoritmos de text e Data Mining, são realizadas as seguintes funções:

  • Identificação e eliminação de resíduos de digitação;
  • Conversão de caracteres para padrão internacional ASCII;
  • Com base em listas próprias ou indicações específicas (automáticas ou não), realiza-se a identificação e eliminação de termos impróprios – destacando-se os obscenos;
  • Conversão e padronização de datas com separação dos campos ‘dia’, ‘mês’ e ‘ano’.

Uma vez finalizada a Limpeza, os dados tornam-se aptos para a implementação dos próximos passos do Data Cleansing: Validação, Padronização e Qualificação.

2. Validação

As regras de validação são previamente definidas e a realização desta tarefa é automática:

  • Análise e classificação - em válidos e não-válidos – de campos de regra de validação definida e amplamente conhecidas. São exemplos de regra de validação definida: CPF e CNPJ;
  • Análise e identificação de inconsistências de campos interdependentes – são campos validados por valores de outros campos.

Ao fim deste processo, o responsável pelo Banco de Dados conhecerá quais dados proporcionarão maior precisão e foco para as ações de Marketing.

Validação Conjunto Endereço

Através de um processo de Data Parsing (tokenização), é feita a separação de todos os componentes do Conjunto Endereço: Tipo de Logradouro, Título, Logradouro, Número, Complemento, Bairro, Cidade, Estado e CEP. Aplicando processos de text e Data Mining, estas informações são comparadas às bases históricas e à base da Correios S.A. Os endereços são fonetizados, comparados, analisados e, dado um intervalo de confiança, validados ou não. Em alguns casos, existe alteração de dados. Ao final, são atribuídos status aos registros, visando otimizar ações de Marketing. São eles:

  • Status 1: Validado sem alterações
  • Status 2: Validado com alterações
  • Status 3: Não validado por ambivalência
  • Status 4: Não validado por inconsistência

A validação prévia dos registros permite que se faça uma Telequalificação dos endereços não-validados. Conseqüentemente, há uma representativa diminuição de custos das ações de Marketing.

A maior vantagem deste processo é que a comunicação com os fone com os clientes. Uma base com números válidos agiliza os processos estimulando a eficiência dos operadores, o que implica em uma redução de custos e uma maior eficácia na utilização dos recursos nas ações de Marketing.

3. Padronização

A meta é a uniformização dos dados e pode ser alcançada a partir de uma lista verdade ou de dados livres. Algoritmos de text e Data Mining, desenvolvidos especificamente para esta função, identificam incidências de padrões naturais e correlações entre os dados indicando novos modelos a serem utilizados. A cada dado é atribuído um status:

  • Status 1: Registro padronizado
  • Status 2: Registro sem padronização
  • Status 3: Registro inconsistente e sem possibilidade de padronização

Registros padronizados permitem um melhor acompanhamento da base de dados e a formação de grupos de afinidade aperfeiçoando a assertividade das ações de Marketing.

4. Qualificação

Visando expandir o leque de informações úteis para uma campanha de Marketing de sucesso, os dados são tratados para que se tornem mais precisos de maneira sistêmica – permitindo tanto uma atribuição de natureza jurídica como de gênero para nomes. A aplicação de algoritmos de text e Data Mining e de bases de conhecimento asseguram a qualidade dos resultados finais.

atribuição de natureza jurídica como de gênero para nomes. A aplicação de algoritmos de text e Data Mining e de bases de conhecimento asseguram a qualidade dos resultados finais.

A cada registro tratado será atribuída uma classificação como pessoa física ou jurídica e respectivo gênero – masculino ou feminino (no caso de pessoas físicas). Estas novas informações serão incorporadas ao banco de dados, enriquecendo-o para utilização em novas ações de Marketing.

Deduplicação

Uma vez encerrado o Data Cleansing, o Deduplicação identifica duplicidades e cria registros únicos. O termo ‘Merge & Purge’ também identifica esta etapa.

Seguindo os critérios de prevalência de dados, são eleitas as informações válidas de cada registro duplicado. A união destas informações gera novos registros sem inconsistências e duplicidades. Antes de iniciar o processamento são definidos quatro pontos, a saber:

1. Critérios primários de seleção para deduplicação;
2. Dimensões da deduplicação;
3. Árvore de deduplicação;
4. Critérios de prevalência de dados.

Ao final deste processo, todas as duplicidades serão indicadas e os registros únicos montados, além de um mapa completo das origens de todos os dados para efeitos de auditoria. Com isso, de acordo os critérios definidos, o banco de dados pode ser utilizado em ações de Marketing sem riscos nem de acessar o mesmo cliente mais de uma vez nem de utilizar registros que possuam dados menos confiáveis misturados a outros mais confiáveis.