Skip to content
View Donotavio's full-sized avatar
😎
Helo Word!!!
😎
Helo Word!!!

Block or report Donotavio

Block user

Prevent this user from interacting with your repositories and sending you notifications. Learn more about blocking users.

You must be logged in to block users.

Maximum 250 characters. Please don't include any personal information such as legal names or email addresses. Markdown supported. This note will be visible to only you.
Report abuse

Contact GitHub support about this user’s behavior. Learn more about reporting abuse.

Report abuse
Donotavio/README.md
typing intro

visits WakaTime LinkedIn

GitHub Trophies


Em poucas linhas

Sou Gerente de Engenharia de Dados na Educbank (fintech) e uso Databricks como feature platform para unificar pipelines, modelagem com Delta Lake e workflows de ML. No dia a dia:

  • desenho e otimizo pipelines batch/streaming (custo, performance e confiabilidade);
  • garanto governança & compliance (LGPD/GDPR), versionamento e qualidade;
  • lidero times, revisão de código e definição de padrões (PEP-8, clean code, testes).


Minhas principais responsabilidades

Lakehouse governado: uso Unity Catalog + Delta Lake para segurança, lineage, tags de PII e trilha de auditoria. 🚀 Pipelines resilientes: batch/streaming com Auto Loader, Z-Ordering, particionamento, custos otimizados e SLOs claros. 🤝 Liderança técnica: definindo padrões, mentorando squads e garantindo revisões que equilibram velocidade e qualidade. 🔒 Compliance: políticas de acesso, masking (row/column) e segregação multi-ambiente (dev/stg/prod).


Stack de produção

Databricks (Repos, Workflows, Auto Loader, MLflow) • Apache Spark (PySpark) • Delta Lake (time travel, Z-Ordering) • Orquestração (Airflow, DBT, Databricks Workflows) • AWS (S3, EC2, IAM) • Azure (ADLS Gen2, Event HubsKafka API, Key Vault, Synapse/SQL, Managed Identity) • Python/SQLKafkaTerraformPostgreSQLMongoDBGitHub Actions


Governança no Databricks

Trabalho com governança ponta a ponta no Lakehouse, alinhando segurança, catalogação, compartilhamento e auditoria:

  • Unity Catalog (UC)
    • Catálogo centralizado e RBAC por catálogo/schema/tabela/view/função/volume.
    • Lineage fim a fim, tags e classificação para PII/PHI (LGPD/GDPR).
    • Segurança granular: row-level e column-level via dynamic views (masking/filters por grupo).
    • External Locations + Storage Credentials para acesso controlado a S3.
    • Observabilidade: System Tables (acessos, consultas, compute, billing) para auditoria/custos.
  • Delta Lake
    • Schema enforcement & evolution, constraints, OPTIMIZE com Z-Order, Time Travel para auditoria/rollback.
  • Delta Sharing
    • Compartilhamento seguro e auditável de tabelas/visualizações com parceiros (UC↔UC ou open recipient).
  • Controles de plataforma
    • Cluster/SQL Warehouse Policies, Secrets (AWS Secrets Manager/Key Vault), SCIM/SSO, IP access lists.
  • Multi-ambiente
    • Catálogos por ambiente: edbk_dev, edbk_stg, edbk_prod (isolamento, acesso por grupos, promotion controlado).

Exemplo prático (SQL)

-- catálogos de ambiente
CREATE CATALOG IF NOT EXISTS edbk_dev COMMENT 'Dev catalog';
CREATE CATALOG IF NOT EXISTS edbk_stg COMMENT 'Staging catalog';
CREATE CATALOG IF NOT EXISTS edbk_prod COMMENT 'Production catalog';

-- esquemas de domínio
CREATE SCHEMA IF NOT EXISTS edbk_prod.finance;
CREATE SCHEMA IF NOT EXISTS edbk_prod.risk;

-- grants mínimos
GRANT USE CATALOG ON CATALOG edbk_prod TO `grp_data_readers`;
GRANT USE SCHEMA ON SCHEMA edbk_prod.finance TO `grp_fin_readers`;
GRANT SELECT ON ALL TABLES IN SCHEMA edbk_prod.finance TO `grp_fin_readers`;

Projetos & exemplos técnicos

  • Pipelines em Databricks: notebooks e jobs para ingestão (batch/streaming), Delta Lake e MLflow.
  • Orquestração: DAGs do Airflow e Workflows no Databricks para ELT e features de ML.
  • Boas práticas: testes, tratamento de schema, particionamento, Z-Ordering, otimização de custos em S3/compute.
  • Saul Goodman — Extensão anti-procrastinação: Procrastinação invisível → extensão Manifest V3 em TypeScript com índice (badge/popup), alertas/Chart.js e modo terremoto → foco recuperado sem enviar dados para fora do navegador. Links: RepositórioChrome Web StoreSite oficial.

Métricas


Como posso ajudar

  • Arquitetura Lakehouse (Delta Lake, Unity Catalog, governança).
  • Pipelines PySpark performáticos e seguros.
  • Feature engineering para ML em produção.
  • Observabilidade, custo e reliability (SLAs/SLOs).

Contato

ribeitemp@gmail.comLinkedIn

Pinned Loading

  1. saul_goodman saul_goodman Public

    Extensão MV3 para Chrome/Chromium que assume o alter ego vendedor de Saul Goodman para monitorar quanto tempo você passa em sites produtivos versus procrastinatórios.

    HTML 2

  2. cv-site-otavio cv-site-otavio Public

    Portfolio profissional com Jekyll - Otávio Henrique da Silva Ribeiro

    HTML 1

  3. Educbank/case-tec-eng-dados Educbank/case-tec-eng-dados Public

    Case técnico para Engenheiro de Dados Pleno com foco em PySpark declarativo, agregações mensais e cálculo de rolling 3 meses com Window Functions. Avalia DataFrame API sem UDF, organização de códig…

    Python 1 3

  4. Terminal-Wrestling-League Terminal-Wrestling-League Public

    Go