Reconstrução de identidades brasileiras a partir de dados públicos.
Este repositório contém os experimentos e implementações desenvolvidos para o Projeto Final intitulado:
"Uma Abordagem para Elaboração de Identidades de Brasileiros baseada em Dados Públicos"
João Gabriel Hartmann – Curso Superior de Tecnologia em Segurança da Informação – UNISINOS
Orientador: Dr. Luciano Ignaczak
O projeto investiga como dados pessoais expostos em fontes públicas (registros governamentais, redes sociais, etc.) podem ser processados e estruturados para reconstrução de identidades, utilizando técnicas como OSINT e Processamento de Linguagem Natural (PLN).
- Utilizar Open Source Intelligence (OSINT) e Extração de Informações (Information Extraction - IE) para identificação de pessoas a partir de dados públicos.
- Demonstrar como entidades nomeadas e relações podem ser extraídas automaticamente com NER e Relation Extraction.
- Avaliar a capacidade de um sistema automatizado de reconstruir perfis reais com alta precisão.
- Conscientizar sobre riscos relacionados à privacidade e uso indevido de dados públicos.
- Python 3.10.12
1. Coleta de dados → Identificação de fontes confiáveis e coleta de informações
2. Pré-processamento → Limpeza, normalização e quebra em páginas de textos
3. Extração de dados → Named Entity Recognition and Classification (NERC) e Relation Extraction
4. Avaliações → Avaliação do Modelo e Avaliação de Remontagem de Identidade
Recomenda-se o uso de um ambiente virtual. Para instalar as dependências:
pip install -r requirements.txtImportante: o projeto utiliza a biblioteca
nltk. Na primeira execução, será necessário baixar o pacotepunkt:
import nltk
nltk.download('punkt')O projeto utiliza SQLite como base de dados.
Para inicializar o banco:
sqlite3 database/perfilador.sqlite < database/schema.sql- Altere o caminho conforme o local desejado.
- O script
schema.sqlestá localizado emdatabase/schema.sql. - O arquivo
.dbserá criado automaticamente com as tabelas corretas.
Para executar o pipeline principal:
python main.pyEste projeto é exclusivamente acadêmico e educativo. Nenhum dado pessoal real é exposto ou utilizado com finalidades indevidas. Uso inadequado do código é de inteira responsabilidade do usuário.