Engenheiro de Dados

O que faz um engenheiro de dados?

Com o aumento da quantidade de dados disponíveis e a demanda por cientistas de dados para analisá-los, a profissão de engenheiro de dados se consolida, tornando-se essencial para as organizações.

Por ser uma profissão relativamente nova, a engenharia de dados é composta por uma série de conhecimentos difíceis de se encontrar em um único profissional. Estas habilidades estão diretamente relacionadas ao desenvolvimento e arquitetura de software, além de sólidos conhecimentos em bancos de dados, DevOps e infraestrutura de TI.

De acordo com a definição do DataCamp, um engenheiro de dados desenvolve, constrói, testa e mantém arquiteturas, como bancos de dados e sistemas de processamento em larga escala. Ele trabalha em conjunto com o cientista de dados para prover insights para embasar as decisões empresariais.

Neste artigo explicaremos tudo sobre a profissão de engenheiro de dados. Continue acompanhando!

🆕 Este artigo foi revisado e atualizado em maio de 2022!

 

Atribuições de um Engenheiro de Dados

Diante da exigência de mercado de tratar grandes volumes de dados, surge a necessidade de organizá-los em sua origem e, dessa forma, poupar recursos com soluções complexas.

Um data engineer possui o compromisso de garantir que os dados da empresa estejam disponíveis para análise, de forma consistente e segura. Ele é responsável por coletar, transformar, armazenar e disponibilizar os dados.

De acordo com Nathan Marz, criador do Apache Storm, “o engenheiro de dados é um tipo especializado de engenheiro de software que possibilita outros a responderem questões sobre grandes datasets com restrições específicas de latência e tempo.” Trecho retirado do DataHackers.

Entre suas funções está a construção de reservatórios de dados, conhecidos como data warehouses e data lakes. Embora seu trabalho não tenha tanta visibilidade, ele trabalha em backoffice para simplificar a vida de um cientista de dados.

Com sua ajuda, o cientista de dados pode realizar análises preditivas de modo mais fácil, extraindo conhecimento para a organização. Enquanto o cientista de dados se preocupa com análises de negócios, como a criação de modelos preditivos, o engenheiro de dados é o cara que disponibiliza esses dados para serem consumidos de um modo que faça sentido.

O engenheiro de dados deve trabalhar proativamente para reagir aos problemas, trabalhando na análise, modelagem, desenvolvimento e monitoramento. Ou seja, em toda a cadeia do desenvolvimento de um pipeline de dados.

 

Quais ferramentas esse profissional precisa conhecer?

O engenheiro de dados precisa conhecer uma grande quantidade de ferramentas, bancos de dados e serviços cloud, como: Google Big Query, Spark, Kafka, MongoDB, MySQL, Cassandra, Storm, Hadoop, Hive, Map Reduce, Neo4j, Redis, Logstash, AWS Kinesis, AWS RDS, entre outras. Além disso, precisa ter conhecimentos em diferentes linguagens de programação, como Python, Java e Scala.

De modo geral, não é necessário que um engenheiro de dados domine todas essas ferramentas. No entanto, ele precisa ter um conhecimento generalista a respeito delas, um conhecimento que lhe permita debruçar-se sobre problemas que vão surgindo para buscar a ferramenta mais adequada para resolvê-los.

 

Como se tornar um engenheiro de dados?

Por ser uma profissão tão nova, criada a partir da consolidação do Big Data e dos desafios que ele traz, não existem tantos cursos específicos nem trajetória única para esse profissional.

As principais formações disponíveis são online e a maior parte do conhecimento não está em língua portuguesa. Duas opções sólidas e em português são os cursos online da DataScience Academy e o MBA IGTI:

Formação em engenharia de dados – DSA
MBA em engenharia de dados – IGTI
Become a Data Engineer – Udacity (inglês)
Data Engineering on Google Cloud Platform – Coursera (inglês)
Big Data for Data Engineers – Coursera (inglês)
Hadoop Fundamentals – (inglês)

Para cursos sobre ciência de dados, acesse este outro post.

Além das formações especializadas na área, o profissional pode buscar as seguintes certificações para ajudar na busca por vagas:

Google Cloud Certified Professional Data Engineer
Cloudera Certified Professional (CCP): Data Engineer
Certificate in Engineering Excellence Big Data Analytics Optimization
IBM Certified Data Engineer – Big Data

 

Quanto ganha um engenheiro de dados?

É difícil estimar quanto ganha um engenheiro de dados no Brasil. Segundo dados da PayScale, o profissional ganha entre $64k e $134k nos Estados Unidos. Embora os salários sejam bons no Brasil, a nossa realidade ainda está muito distante da norte-americana.

Para obter mais informações sobre esse mercado nos Estados Unidos, acesse o report disponibilizado pela PayScale.

 

Conclusão

Por fim, o engenheiro de dados, assim como o cientista de dados, é um unicórnio. Ou seja, um profissional raro que necessita de um grande range de skills para conseguir arquitetar sistemas distribuídos, criar pipelines confiáveis, combinar fontes de dados, criar a arquitetura de soluções e colaborar com a equipe de data science, que será a principal consumidora de suas soluções.

Para saber mais sobre essa carreira recomendo muito a leitura de dois artigos: The Rise of the Data Engineer e The Downfall of the Data Engineer.

Curtiu o artigo? Ficou com alguma dúvida sobre a engenharia de dados? Então deixe um comentário ou compartilhe nas redes sociais! Caso queira trocar uma ideia pelo LinkeIN, pode me adicionar pelo link.

 
Conteúdo recomendado: Podcast do DataHackers

About the Author: Pedro César Tebaldi Gomes

Trabalho há 10 anos no mercado B2B de tecnologia da informação e hoje atuo como líder de um time de Business Intelligence. Já escrevi mais de 500 artigos sobre tecnologia durante esse período. Estudo ciência de dados, machine learning e estatística para atingir melhores resultados nos diferentes projetos que atuo.

5 Comments

  1. Spark está repetido na listagem de ferramentas de um engenheiro de dados. E acredito que SQL também é uma linguagem de programação.

Deixe uma resposta

O que faz um engenheiro de dados?

tempo de leitura: 5 min