Postagens

ETL - IPCA e Commodity Boi Gordo (Arquitetura Medallion - Delta Lake)

Imagem
  Introdução: Este trabalho descreve o desenvolvimento e a implementação de um pipeline de Extração, Transformação e Carga (ETL) com finalidade analítica, destinado à ingestão, padronização e análise de dados econômicos relacionados ao Índice Nacional de Preços ao Consumidor Amplo (IPCA) e ao preço do Boi Gordo . A proposta tem como objetivos centrais assegurar a qualidade e a consistência dos dados , garantir a rastreabilidade das transformações aplicadas e viabilizar a extração de insights analíticos relevantes para a compreensão da dinâmica econômica analisada. A arquitetura da solução fundamenta-se no uso das tecnologias Python , Apache Spark (PySpark) e Delta Lake , adotando o paradigma da arquitetura Medallion , estruturada nas camadas Bronze, Silver e Gold . Essa organização permite o gerenciamento progressivo dos dados, desde a ingestão bruta até a consolidação analítica, promovendo controle de versionamento, preservação de histórico e evolução estruturada do pipeline...

Ingestão de Cotações da B3 via API Alpha Vantage

Imagem
Introdução O presente estudo tem como objetivo explorar o uso de APIs de séries temporais diárias para a extração, organização e análise de dados históricos do mercado financeiro, com ênfase em ativos brasileiros. A pesquisa possui caráter exploratório e educacional, buscando compreender o funcionamento de requisições a APIs financeiras, bem como o tratamento e a manipulação de séries temporais, contemplando informações como preços de abertura, máxima, mínima, fechamento e volume negociado. Além disso, o projeto propõe a utilização de ferramentas de processamento de dados em larga escala e distribuído, visando otimizar a análise de grandes volumes de informações financeiras. Nesse contexto, são consideradas tecnologias como PySpark para programação distribuída em Python, o ecossistema Apache para processamento de dados, Apache Hadoop para armazenamento e gerenciamento de grandes conjuntos de dados, e Delta Lake para garantir confiabilidade, versionamento e consistência das tabelas de...

Normalização de Dados na Área de Logística: Modelagem e Implementação de um Banco de Dados Relacional

Imagem
Apresentação introdutória: A normalização de dados, no contexto de banco de dados relacionais, é um processo fundamental para a organização eficiente das informações. Ela garante que os dados sejam armazenados de forma estruturada, eliminando redundâncias e assegurando a integridade das informações.(Mannino,2014). Esse processo contribui para a melhoria do desempenho e facilita a manipulação dos dados dentro de um sistema de gerenciamento de banco de dado ( SGBD ). Por meio da normalização, as tabelas são organizadas de acordo com um conjunto de regras chamadas formas normais, que ajudam a distribuir os dados em diferentes tabelas, mantendo o relacionamento entre elas e evitando problemas como  anomalias de inserção, exclusão e atualização. Dessa forma, a normalização permite que os banco de dados operem de maneira eficiente, oferecendo consistências e confiabilidade nas operações realizadas. (Ramahrishnan:Gehrke,2011) Na área de desenvolvimento de sistemas, o desempenho e a organi...