You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Delta lake is an open-source project that enables building a Lakehouse architecture on top of existing storage systems such as S3, ADLS, GCS, and HDFS.
Dados Relacionados a Trilogia da Franquia "O Senhor Dos Anéis", os dados em questão são trechos retirados das falas ditas por seus personagem nessa trilogia.
Nessa Análise estaremos realizando a tradução desses trechos para o português, verificando qual personagem possui maior e a menor quantidade de diálogo.
Fase 2: Processamentos, Refinamentos e Joins
São realizadas etapas de processamento em que são removidas colunas desnecessárias e preparação de tabelas com join para MDW modelagem com dados normalizados em formatos de conjunto de dados.
Teremos a responsabilidade de enriquecer os dados, neste processo é onde tratamos os dados e refinamos para a área de negócios ou quem irá consumir os dados.
🔧 Architeture ELT Delta lake
No projeto iremos lê os dados de um sistema de arquivos chamado landing-zone usando dependências de deltalake, que são pacotes .jar e estarão escritos na configuração de sessão do spark, com o qual é possível usar o framework Delta Lake. Após a execução deste script, os dados serão escritos no diretório passado no código, já dentro da tabela de escrita, será escrito um diretório chamado _delta_log, que é responsável por armazenar arquivos incrementais nos metadados da tabela, será algo como 000000000000000000000.json, 000000000000000000001.json...
O arquivo Json na pasta _delta_log terá as informações como add/remove parquet files (for Atomicity), stats (for optimized performance & data skipping), partitionBy for partition pruning), readVersions(for time travel), commitInfo(for audit).