🏳️‍🌈 Base de Dados de Ódio LGBTQIA+

license

language

🏳️‍🌈 Base de Dados de Ódio LGBTQIA+

Dataset para detecção de hate speech contra pessoas LGBTQIA+ em português brasileiro com regras contextuais para proteger termos de dissidência de gênero.

✨ Funcionalidades

Dataset Binário: Hate vs não-hate (expandido com ToLD-BR)
Dataset Especializado: Transfobia vs Assédio/Insulto
Regras Contextuais: Protege termos de gênero
Anotações Manuais: Validadas por especialistas

📊 Estatísticas

Total de exemplos: 4.780.095 (dataset binário expandido)
Dataset manual: 2.053 exemplos
Dataset especializado: 385.146 exemplos
Dataset ToLD-BR: 1.942.521 exemplos

🎯 Regras Contextuais

Proteção de Termos de Gênero

"boyceta": Detecta contexto positivo vs negativo
"sapatão": Protege identidade lésbica
"travesti": Respeita identidade trans

Contextos Detectados

Positivo: orgulho, beleza, identidade, expressão
Negativo: nojo, escroto, desgraçado, arrombado
Educativo: definição, conceito, explicação
Ridicularização: engraçado, hilário, cômico

📁 Estrutura

datasets/
├── dataset_binary_expanded_with_toldbr.csv    # Dataset binário expandido
├── dataset_manual_final.csv                   # Dataset manual
├── dataset_specialized_final.csv              # Dataset especializado
├── dataset_toldbr_final.csv                  # Dataset ToLD-BR
└── dataset_obvious_hate.csv                  # Casos óbvios de hate

🚀 Como Usar

import pandas as pd

# Carregar dataset binário
df_binary = pd.read_csv("dataset_binary_expanded_with_toldbr.csv")

# Carregar dataset manual
df_manual = pd.read_csv("dataset_manual_final.csv")

# Carregar dataset especializado
df_specialized = pd.read_csv("dataset_specialized_final.csv")

📈 Melhorias Recentes

✅ Integração com ToLD-BR
✅ Regras contextuais implementadas
✅ Proteção de termos de dissidência de gênero
✅ Detecção de contexto positivo vs negativo
✅ Threshold adaptativo otimizado

🔗 Links

Modelo: radar-social-lgbtqia
Space: radar-social-lgbtqia-space

⚠️ Importante

Este dataset foi desenvolvido para proteger a comunidade LGBTQIA+ e detectar discurso de ódio. As regras contextuais garantem que termos de identidade de gênero sejam respeitados.

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
datasets		datasets
datasets_originais		datasets_originais
.gitattributes		.gitattributes
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

🏳️‍🌈 Base de Dados de Ódio LGBTQIA+

✨ Funcionalidades

📊 Estatísticas

🎯 Regras Contextuais

Proteção de Termos de Gênero

Contextos Detectados

📁 Estrutura

🚀 Como Usar

📈 Melhorias Recentes

🔗 Links

⚠️ Importante

About

Uh oh!

Releases

Packages

License

travahacker/base-dados-odio-lgbtqia

Folders and files

Latest commit

History

Repository files navigation

🏳️‍🌈 Base de Dados de Ódio LGBTQIA+

✨ Funcionalidades

📊 Estatísticas

🎯 Regras Contextuais

Proteção de Termos de Gênero

Contextos Detectados

📁 Estrutura

🚀 Como Usar

📈 Melhorias Recentes

🔗 Links

⚠️ Importante

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Packages