Skip to content

Latest commit

 

History

History
65 lines (47 loc) · 2.76 KB

README.md

File metadata and controls

65 lines (47 loc) · 2.76 KB

Engenharia de Dados - Projeto 2

Esse projeto tem como finalidade demonstrar conhecimentos adquiridos no curso: Formação Engenharia de Dados: Domine Big Data!

Etapas

Etapas Descrição
1 Aplicações geradoras de Dados em Python
2 Kinesis Data Stream <> Kinesis Data Firehose
3 S3 bucket
4 Glue Crawler
5 Glue Job ETL
6 Parquet
7 Athena -> Catalog -> SQL

Tecnologias utilizadas:

image

Data Workflow:

  • Produtores : Três sensores simulados por aplicação python produzindo e entregando dados a cada 10s para kinesis stream

  • Consumidores: kinesis data stream para coleta dos dados em tempo real
    kineses firehose para entrega dos dados particionados em bucket S3

  • ETL: Crawler para gerar data catalog schema e tabela
    Job conversão de tipos e geração de formato parquet

  • Analytics: athena para consultas ad-hoc

Imagens:

  • 1. Produtores:

image

  • 2. Kinesis data stream:

image

  • 3. Kinesis firehose - origem e destino:

image
image

  • 4. S3 (firehose > destino):

image

  • 5. Glue Database e tabela:

image

  • 6. Crawler:

image
image

  • 7. Data Catalog table schema:

image

  • 8. Job ETL:

image
image

  • 9. Parquet:

image

  • 10. Athena:

image