Construir e gerenciar pipelines confiáveis de dados envolvendo ingestão/coleta, processamento, integração, armazenamento e disponibilização de dados na organização.
Atuar em uma arquitetura de sistemas distribuídos para o processamento de dados massivos em paralelo (MPP), combinando diversas fontes de dados heterogêneas e colaborando com equipes de análise e ciência de dados na construção de soluções e geração de valor baseadas em dados.
Requirements
Experiência prática com ingestão, integração, processamento e armazenamento de grandes volumes de dados;
Atuação em projetos de Big Data;
Behavior Driven Development (BDD).
Extração de dados em Python e processamento de dados com PySpark;
Experiências em ferramentas ETL's;
Conhecimento em modelagem de dados relacionais e dimensionais (Data WareHouse);
Experiência com bancos de dados SQL;
Experiência com conjunto de ferramentas relacionadas a Big Data na AWS como: EMR, Kinesis, RedShift, S3, Glue, ElasticSearch;
Conhecimento em Kafka;
Conhecimento com Data Lake e Data Ops.
Certificações AWS; (desejável)
Conhecimento em ferramentas de provisionamento de infraestrutura em cloud via código tais como: Terraform, CloudFormation. (desejável)
Tech Stack
Amazon Redshift
AWS
Cloud
ElasticSearch
ETL
Kafka
PySpark
Python
SQL
Terraform
Benefits
Cartão flexível Swile pra você usar como quiser (VA e VR)