A função de um profissional que trabalha com dados, seja focado em ferramentas de análise ou de machine learning, exige uma intensa atividade de pré-processamento de dados.
Embora seja uma etapa “menos glamourosa”, a maior parte do tempo gasto é ocupado nessa atividade. Estima-se que ela consuma em torno de 70-80% do tempo e esforço total de um projeto de análise de dados.
O pré-processamento de dados é um conjunto de atividades que envolvem preparação, organização e estruturação dos dados. Trata-se de uma etapa fundamental que precede a realização de análises e predições.
Essa etapa é de grande importância, pois será determinante para a qualidade final dos dados que serão analisados. Ela pode, inclusive, impactar no modelo de previsão, gerado a partir dos dados.
Entre os principais problemas encontrados dentro de um conjunto de dados, também conhecido como dataset, podemos elencar os atributos com valores faltantes, os outliers e as escalas diferentes para valores iguais.
Neste artigo, apresentarei algumas técnicas de pré-processamento de dados, que podem ser aplicadas em qualquer conjunto de dados.
O objetivo aqui é o de transmitir um conhecimento mais conceitual e generalista, para que possa ser aplicado posteriormente por você em qualquer linguagem de programação.
🆕 Este artigo foi revisado e atualizado em Maio de 2024!
Processo de descoberta de conhecimento
O objetivo de qualquer atividade relacionada a dados, como mineração de dados, é a aquisição de conhecimento. É um conhecimento indispensável à tomada de decisões mais sólidas.
A mineração de dados é um processo de negócios para explorar grandes quantidades de dados com foco no reconhecimento de regras e padrões
Dentro da mineração de dados, os três principais modelos utilizados para descoberta/aquisição de conhecimento são: KDD, SEMMA e CRISP-DM, sendo o último o mais popular na indústria.
O processo de CRISP-DM envolve:
- entendimento de negócio;
- entendimento dos dados;
- preparação dos dados;
- modelagem dos dados;
- avaliação dos resultados;
- deployment (produção).
É importante destacar que, antes de colocar em produção, após a etapa de avaliação, pode ser necessário retornar a um dos passos anteriores, como o entendimento do negócio, conforme o seguinte esquema:
Tendo como base esta metodologia, por exemplo, teríamos na etapa número 3 o conjunto de atividades denominada preparação ou pré-processamento de dados. É nela que focaremos no restante do artigo.
Estrutura de dados
Antes de iniciar o pré-processamento em si, é importante conhecer as principais estruturas dos dados. De modo geral, elas podem ser classificadas em três categorias:
Dados estruturados
São os dados que contêm uma organização rígida e previamente planejada. Normalmente são “etiquetados” em linhas e colunas que identificam suas características a respeito de determinados assuntos. Podem ser organizados em blocos semânticos (relações) e definição de descrições para dados de um mesmo grupo (atributo).
Exemplos: Bancos de dados relacionais, planilhas excel, arquivos CSV, entre outros.
Dados semiestruturados
São os dados que possuem uma estrutura, mas que não está de acordo com estruturas formais dos modelos associados a bancos de dados relacionais ou outras formas de tabelas de dados. Eles possuem marcadores, como tags, para separar elementos semânticos e criar hierarquias para os registros e campos.
Exemplos: Arquivos XML, JSON, HTML, etc.
Dados não estruturados
São os dados nos quais não conseguimos identificar uma organização clara. Para gerar insights sobre estes dados é preciso realizar um intenso pré-processamento para recuperar a informação.
Exemplos: documentos de texto, audio, imagens, etc.
Técnicas de Pré-Processamento
O pré-processamento de dados é um conjunto de técnicas de mineração de dados usadas para transformar dados brutos em formatos úteis e eficientes. Pode ser necessário em qualquer uma das 3 estruturas citadas.
Existem 3 principais passos envolvidos neste processo: limpeza de dados, transformação de dados e redução de dados. Cada um deles envolve diversas atividades.
Limpeza de dados
Os dados originais do seu dataset podem conter muitas partes irrelevantes ou ausentes. Para lidar com esta situação, a limpeza de dados é essencial. Ela envolve o manuseio e/ou preenchimento de dados ausentes, redução de ruídos, identificação e remoção de valores aberrantes e a resolução de inconsistências.
A) Dados faltantes: Essa situação ocorre quando alguns dados estão ausentes. Existem diversas práticas para resolver problemas dessa natureza, entre elas, as seguintes:
- Remover os registros com atributos nulos;
- Realizar uma média com os valores do mesmo atributo;
- Realizar uma mediana com os valores do mesmo atributo;
- Preencher o atributo faltante com os valores que mais ocorrem no dataset.
É importante ressaltar que cada tipo de dado pode exigir uma estratégia diferente para lidar com dados faltantes. Nenhuma das técnicas é uma panaceia para resolver todos os problemas.
B) Dados ruidosos: são os dados sem sentido que não podem ser interpretados por máquinas. Eles podem ser gerados devido a falhas na coleta de dados, erros de entrada de dados, entre outras situações difíceis de prever. Podem ser tratados das seguintes maneiras:
- Método de Binning: É um processo de suavização de dados, usado para minimizar os efeitos de pequenos erros de observação. Os valores dos dados originais são divididos em pequenos intervalos conhecidos como compartimentos e, em seguida, são substituídos por um valor geral calculado para esse compartimento. Pode-se substituir todos os dados em um segmento por seus valores médios ou limites.
- Regressão: Aqui os dados podem ser suavizados ajustando-os a uma função de regressão. Ela pode ser linear (com uma variável independente) ou múltipla (com várias variáveis independentes).
- Agrupamento: Essa abordagem agrupa os dados semelhantes em um cluster. Os outliers podem ser tratados separadamente ou deixados de fora dos clusters.
Transformação de Dados
Essa etapa é executada para transformar os dados originais em formatos mais apropriados e adequados para o processo de mineração. Envolve as seguintes atividades:
A) Normalização: Isso é feito para dimensionar os valores dos dados em um intervalo especificado, como -1,0 a 1,0 ou 0,0 a 1,0.
B) Seleção de Atributos: Nesta ação novos atributos são gerados a partir do conjunto de atributos fornecido para ajudar no processo de mineração.
C) Discretização: É o processo de transferência de funções contínuas, modelos, variáveis e equações em contrapartes discretas. Isso é importante, pois alguns algoritmos só trabalham com entradas de valores discretos, não conseguindo prever valores contínuos. A discretização cria um número limitado de possíveis estados.
D) Geração de hierarquia de conceitos: Aqui, os atributos são convertidos para um nível superior na hierarquia. Por exemplo: o atributo “cidade” pode ser convertido em “país”.
Redução de dados
A mineração de dados é usada, principalmente, para lidar com grande volume de dados. Por isso, o processamento computacional se torna cada vez mais complexo. Para aumentar a eficiência e reduzir os custos usamos o processo de redução de dados. Suas principais etapas são:
A) Agregação de cubo de dados: É a atividade de construção de um cubo de dados, um formato multidimensional que, apesar de gerar maior necessidade de armazenamento, permite um processamento mais rápido por não necessitar varrer toda a base em busca de determinado valor.
B) Seleção de subconjunto de atributos: É a opção por utilizar os atributos altamente relevantes em detrimento dos menos relevantes. Para realizar a seleção de atributos pode-se usar o nível de significância e o valor p do atributo. O atributo com valor p maior que o nível de significância pode ser descartado.
C) Redução da numerosidade: Permite que os dados sejam substituídos ou estimados por alternativas de representação de dados menores, tais como modelos paramétricos (que armazenam apenas os parâmetros do modelo em vez dos dados reais) ou métodos não paramétricos tais como agrupamento, amostragem e o uso de histogramas.
D) Redução de dimensionalidade: Isso reduz o tamanho dos dados por mecanismos de codificação. Pode ser com ou sem perdas. Se após a reconstrução a partir dos dados compactados, os dados originais puderem ser recuperados, essa redução será chamada de redução sem perdas. Caso contrário, será denominada redução com perdas. Os dois métodos efetivos de redução de dimensionalidade são: transformação de Wavelet e PCA (Principal Component Analysis).
Dúvidas mais frequentes sobre Pré-Processamento de Dados
Com base nas buscas do Google, a partir da seção “People also ask“, levantei as principais dúvidas sobre o tema:
O Que é Pré-processamento de Dados?
O que é preparação de dados para processamento?
Qual o objetivo do pré-processamento de dados?
Conclusão
Apesar de ser considerada uma atividade menos interessante e bastante trabalhosa, o pré-processamento de dados é essencial para qualquer tipo de análise. Caso contrário, “entrará lixo e sairá lixo” no seu modelo.
Ou seja, nem o algoritmo mais poderoso conseguirá acertar suas previsões sem datasets de qualidade.
Curtiu o post? Então compartilhe este artigo nas redes sociais, ele foi desenvolvido com muito esforço e dedicação. Para manter contato comigo pelo LinkedIn, basta me adicionar nesse link.
Gostei do seu post. Parabéns. Muito elucidativo.