Skip to content
View datafixerbr's full-sized avatar

Block or report datafixerbr

Block user

Prevent this user from interacting with your repositories and sending you notifications. Learn more about blocking users.

You must be logged in to block users.

Maximum 250 characters. Please don't include any personal information such as legal names or email addresses. Markdown supported. This note will be visible to only you.
Report abuse

Contact GitHub support about this user’s behavior. Learn more about reporting abuse.

Report abuse
datafixerbr/README.md

Tiago Henrique

Data Engineer · Data Journalist · Civic Tech Builder

Pernambuco, Brasil 🇧🇷 | Open Data · Public Infrastructure · Trustworthy AI

LinkedIn Email


Quem eu sou

(english below)

Sou Engenheiro de Dados e Jornalista Investigativo, atuando na interseção entre infraestrutura aberta, accountability cívica e narrativas orientadas por dados.

Minha trajetória começou com uma câmera fortográfica: foram mais de dez anos cobrindo cultura, política e direitos humanos como freelancer para veículos de imprensa de Pernambuco. A partir de 2020, evoluí para a prática de jornalismo de dados e desenvolvimento de tecnologias cívicas, sempre na intersecção entre tecnologia, transparência pública e impacto social. Entre 2023 e 2025, consolidei minha experiência técnica com atuação como engenheiro de dados em ambiente financeiro crítico em uma das principais fintechs do país.

Hoje, construo sistemas de dados que responsabilizam instituições — em escala, de forma aberta e reproduzível por qualquer pessoa.


Who I am

I am a Data Engineer and Investigative Journalist, working at the intersection of open infrastructure, civic accountability, and data-driven storytelling.

My career began with a photographic camera — over a decade covering culture, politics, and human rights as a freelance journalist for major press outlets in Pernambuco. In 2020, I moved into data journalism and civic technology, always at the intersection of technology, public transparency, and social impact. From 2023 to 2025, I built and maintained production data pipelines at PicPay, one of Brazil's largest fintechs, working in a regulated financial environment with millions of users.

Today I build data systems that hold institutions accountable — open, reproducible, and designed to work for journalists and communities, not just engineers.


O que eu construo

(english below)

Jornalismo  ──────────────────────────────────────────────────────────────►  Infraestrutura
[Reportagem de campo]  [OSINT]  [Pipelines de Dados]  [Datalakes Abertos]  [Ferramentas Cívicas]
  • 🏗️ Lakehouse de Dados para dados públicos com foco no Nordeste do Brasil — open source, reproduzível e pensado para redações e observatórios locais.
  • 🔍 Enquadramento PMESP — Auditoria algorítmica das classificações de uso da força pela Polícia Militar de São Paulo.
  • 🦟 Projeto Mutuca — Motor aberto de coleta, padronização e redistribuição de dados públicos do Nordeste brasileiro.
  • 🏦 Engenharia de Dados em Produção — Construção e manutenção de pipelines que atendem milhões de usuários em um ambiente financeiro crítico.

What I Build

Journalism  ─────────────────────────────────────────────────►  Infrastructure
[Field reporting]  [OSINT]  [Data Pipelines]  [Open Datalakes]  [Civic Tools]
  • 🏗️ Data Lakehouse for public data from Brazil's Northeast region — open source, reproducible, designed for local newsrooms
  • 🔍 Enquadramento PMESP — Algorithmic audit of São Paulo military police use-of-force classifications
  • 🦟 Projeto Mutuca — Open data collection, standardization, and redistribution engine for public Northeast Brazil datasets 🏦 Production-Grade Experience — 2 years building and maintaining data pipelines at PicPay (fintech, 30M+ users) — bringing financial-grade reliability standards to open civic infrastructure

Technical Stack

Area Tools
Languages Python · SQL
Pipelines Apache Airflow · Spark · Trino · Dremio · dbt
Architecture ETL/ELT · Data Lakehouse · Data Governance · Observability
Journalism OSINT · Public Data · Data Visualization
Approach Open source · Reproducible Research · Auditable Pipelines

Tecnologia Cívica & Princípios de Dados Abertos

(english below)

Todos os projetos deste perfil são construídos com os seguintes compromissos:

  • 📂 Abertos por padrão — conjuntos de dados, pipelines e documentação são públicos
  • 🔁 Reprodutíveis — qualquer pessoa pode fazer fork, executar e auditar a metodologia
  • 🗺️ Enraizados no território — foco no Nordeste do Brasil, uma região historicamente subatendida em acesso a dados
  • 🤝 Comunidade em primeiro lugar — construídos com jornalistas, ativistas e servidores públicos — e não apenas para eles

Civic Tech & Open Data Principles

All projects in this profile are built with these commitments:

  • 📂 Open by default — datasets, pipelines, and documentation are public
  • 🔁 Reproducible — anyone can fork, run, and audit the methodology
  • 🗺️ Locally grounded — focused on Brazil's Northeast (57M people, chronically underrepresented in national data infrastructure)
  • 🤝 Community first — built with journalists, activists, and public servants — not just for them

Education & Certifications

  • 🎓 ABRAJI (Brazilian Association of Investigative Journalism) — AI Fact-checking in Elections · Gemini Toolkit for Journalists
  • 🎓 Open Knowledge Brasil — Python for Civic Innovation · OSINT for Journalists & Activists
  • 🎓 Google — Professional Certificate in Data Analytics
  • 🎓 TRYBE — Full-Stack Web Development · Computer Science · Back-End Engineering

📬 Open to collaborations on civic data, investigative journalism tools, and open infrastructure for the Global South.

Pinned Loading

  1. Mutuca-Project/mutuca Mutuca-Project/mutuca Public

    O Mutuca é uma Prova de Conceito (POC) de uma plataforma de dados moderna, open-source e agnóstica a nuvem (cloud-agnostic). Ele foi pensando e desenhado seguindo padrões de arquitetura e ferrament…

    Jupyter Notebook 1