Esta seção estabelece o contexto fundamental do projeto, detalhando a missão do Comitê Estratégico Soja Brasil (CESB), a natureza da colaboração com o Instituto de Tecnologia e Liderança (INTELI) e, de forma crucial, a complexidade inerente ao ativo de dados que esta iniciativa visa potencializar. A análise aprofundada do desafio de dados demonstra a necessidade de uma infraestrutura robusta para transformar um vasto repositório de informações brutas em inteligência de negócios acionável.
O Comitê Estratégico Soja Brasil é uma entidade sem fins lucrativos formados por profissionais e pesquisadores de diversas áreas que se uniram para trabalhar estrategicamente e utilizar os conhecimentos adquiridos nas suas respectivas carreiras em prol da sojicultura nacional. A Missão do Desáfio é produzir mais e no mesmo espaço, utilizando pesquisas, tecnologias e a sustentabilidade como pilares para alcance dos maiores índices de produticade de soja. Ao longo dos anos, o CESB tem compartilhado junto à produtores, consultores, institutos de pesquisa, cooperativas, entre outros…, histórias de sucesso, buscando alavancar a média da produção nacional, a qual se apresenta atualmente, entre 56 sacas por hectare. Ano a ano, produtos tem rompido patamares de produtividade do Desafio CESB. Rua Paulo A. do Nascimento, 145 Jardim Portal da Colina - Sorocaba - SP CEP: 18047-400
Comitê Estratégico Soja Brasil (CESB). Disponível em: https://www.cesbrasil.org.br/. Acesso em: 15 aug. 2025.
A presente iniciativa representa uma colaboração estratégica entre o Módulo 11 do INTELI e o CESB. O objetivo central do projeto é:
"Desenvolvimento de uma ferramenta que seja capaz de identificar e corrigir os problemas das entradas de dados discrepantes e/ou erradas. Além disso, a criação de um dashboard que facilite a captura e visualização das informações de manejo das áreas de soja de maneira simples, como em formato de gráficos. Isto é fundamental para que o CESB possa compartilhar as melhores práticas de manejo com nossos parceiros." (de acordo com TAPI, documento de especificação do projeto).
A temática desenvolvida em conjunto com a empresa parceira, "Estrutura e governança para análise de dados", resulta em um produto final que consiste em um pipeline de dados e no desenvolvimento de um Data Warehouse e de um Cubo de Dados para consultas, utilizando ferramentas de BI. No decorrer do módulo será utilizado o Power BI, da empresa Microsoft.
Dada a problemática da qualidade de dados, que transcende a esfera técnica e representa uma ameaça direta à missão e à credibilidade do CESB, o tema se torna ainda mais relevante. A reputação da organização é construída sobre a divulgação de resultados auditados e confiáveis, que servem como referência para as melhores práticas agrícolas. Se os dados que geram o "laudo técnico" de um campeão estiverem corrompidos, as recomendações derivadas perdem sua validade. Isso pode levar a um cenário em que um produtor, ao seguir as práticas de um campeão baseadas em dados inflados (por exemplo, por um erro no registro da área), não obtém os resultados esperados. Consequentemente, isso pode gerar perdas financeiras e a erosão da confiança na marca CESB.
O pipeline de dados, portanto, não é meramente uma otimização de TI; trata-se de uma ferramenta de mitigação de risco fundamental para proteger a integridade, a reputação e o valor da marca CESB.
Dentre os benefícios descritos, destacam-se os ganhos intrínsecos à criação de um Data Warehouse, tais como:
- gestão eficiente em memória;
- economia de armazenamento em comparação a sistemas de acesso imediato (como bancos de dados convencionais);
- estruturação lógica de dados em formato histórico para consultas;
- analise de anomalias nos dados brutos, afim de aumentar o nivel de copnfiabilidade e qualidades dos dados.
- construção de um Cubo de Dados, que possibilita consultas performáticas e análises complexas em modelo drill-down.
Para cargas de trabalho analíticas, o modelo OLAP troca espaço e custo de pré-processamento por consultas quase proporcionais ao tamanho da resposta:
Enquanto o modelo relacional, sem materialização, frequentemente paga um custo proporcional ao tamanho do dado bruto:
Ou seja, estamos desenvolvendo um pipeline de dados com ênfase no acúmulo de informações para consultas futuras detalhadas, utilizando o formato de cubo para economizar processamento, considerando que os dados tendem a se acumular ao longo do tempo.
Warning
Esta iniciativa foca na construção de uma pipeline de dados para tratamento, sanitização, armazenamento e disponibilização de dados históricos do CESB. O escopo inclui a criação de dashboards em Power BI para análise e visualização. Estão fora do escopo deste projeto: a etapa de aquisição primária de dados (desenvolvimento de formulários de inscrição), a reestruturação de processos de negócio do CESB e o desenvolvimento de modelos preditivos complexos, que poderão ser explorados em fases futuras.
- Conforme a política de utilização de AI acordada em sala de aula, foi utilizada para captar informações da apresentação institucional e formatação de tabelas. No trecho 1.1 foi utilizada para expandir ideias descritas em texto autoral. Utilizada com o proposito de refinamento do texto e asserssao de baremas AI
Superados os desafios de dados, a iniciativa INTELI-CESB está posicionada para catalisar uma revolução na capacidade analítica da organização. Esta seção articula como o projeto transcende a mera correção de problemas para criar novas oportunidades estratégicas, alinhando-se diretamente com a missão do CESB de impulsionar a produtividade, a sustentabilidade e a rentabilidade na sojicultura.
Com o objetivo de aferir a integridade dos dados e construir um Data Warehouse para armazenar informações históricas, este projeto lida diretamente com o core do negócio da empresa parceira. Esses dados são determinantes para a definição dos vencedores e possuem um enorme potencial para pesquisa e desenvolvimento de modelos preditivos, bem como para a identificação de falhas recorrentes.
A capacidade analítica atual do CESB, embora funcional, é predominantemente descritiva. O dashboard exemplificado na apresentação demonstra a capacidade de responder à pergunta “O que aconteceu?”.
Por exemplo, é possível identificar que, em uma determinada safra, o sistema de Plantio Direto obteve uma produtividade média de 82,69 sc/ha entre 28.514 inscrições, enquanto o Plantio Convencional registrou uma média de 79,27 sc/ha em 3.045 inscrições. Trata-se de uma informação valiosa, mas que representa apenas o primeiro degrau da escada analítica.
A visão deste projeto é elevar a capacidade do CESB para além dessa abordagem descritiva, viabilizando análises diagnósticas e preditivas. A nova plataforma, alimentada por um pipeline de dados robusto, permitirá não apenas registrar o desempenho passado, mas também compreender suas causas, prever cenários futuros e recomendar ações de melhoria.
Com uma base de dados limpa, padronizada e integrada, o CESB poderá evoluir em dois níveis de maturidade analítica:
- Análise Diagnóstica – Por que aconteceu?
Em vez de apenas constatar que o Plantio Direto foi superior, será possível investigar as razões. Os novos dashboards possibilitarão drill-downs em dezenas de variáveis (tipo de solo, regime de chuvas, cultivar utilizada, custos) para identificar os fatores determinantes de sucesso.
- Análise Preditiva – O que vai acontecer?
A partir de 15 anos de dados históricos, será possível construir modelos estatísticos capazes de prever resultados. Exemplo: “Qual a produtividade provável para um produtor em Formosa-GO, utilizando a cultivar ‘X’ com o pacote de adubação ‘Y’, considerando as previsões climáticas para a próxima safra?”
- Conforme a política de utilização de AI acordada em sala de aula, foi utilizada para captar informações da apresentação institucional e formatação de tabelas. No trecho 1.1 foi utilizada para expandir ideias descritas em texto autoral. Utilizada com o proposito de refinamento do texto e asserssao de baremas AI
| Objetivo Estratégico do CESB | Indicador de Sucesso (KPI) | Funcionalidade da Solução (Pipeline + Power BI) | Exemplo de Insight Gerado |
|---|---|---|---|
| Aumentar a Produtividade Média | Redução da lacuna de produtividade entre a média dos participantes do CESB e a média nacional (CONAB). | Benchmarking interativo por microrregião, cultivar e sistema de produção. Análise de componentes de rendimento. | "Produtores no Sudoeste de GO que utilizam o trator Modelo X em conjunto com a semeadora Y alcançam, em média, uma população de plantas 15% maior, resultando em um ganho de 8 sc/ha." |
| Promover a Sustentabilidade | Identificação e quantificação de práticas com menor uso de insumos (defensivos, fertilizantes, água) por saca produzida. | Análise de correlação entre custos de insumos, práticas de manejo (ex: rotação de culturas) e produtividade final. | "A prática de Rotação de Culturas 'Z' está correlacionada com uma redução de 20% no uso de fungicidas na safra de soja subsequente, sem impacto negativo na produtividade." |
| Assegurar a Rentabilidade do Produtor | Aumento da análise e divulgação de práticas baseadas no custo por saca e na margem de lucro, não apenas na produtividade bruta. | Dashboards de análise de rentabilidade, integrando todos os custos de produção com a receita obtida. | "Embora a produtividade máxima tenha sido alcançada com o pacote tecnológico 'A', a maior rentabilidade (R$/ha) foi obtida com o pacote 'B', que teve um custo 25% menor." |
| Aumentar a Credibilidade do Desafio | Redução de >95% nos erros de dados reportados nas análises e publicações do CESB. | Módulos automatizados de limpeza, validação e padronização de dados na pipeline. | Geração de um "Relatório de Qualidade de Dados" trimestral para a diretoria do CESB, garantindo total transparência e confiabilidade das informações. |
A governança de dados é um elemento crítico para garantir integridade, segurança e confiabilidade na tomada de decisões. No caso do CESB, verificou-se que não há um guia formalizado de governança comitês estruturados, políticas de segurança da informação, mecanismos automatizados de controle de acesso, ou processos formais de monitoramento de qualidade dos dados. Embora haja uma equipe dedicada que atua com responsabilidade e filtro manual das informações antes de compartilhá-las, o modelo atual é altamente dependente de intervenção humana e suscetível a falhas operacionais.
A responsabilidade primária pela gestão e filtragem dos dados recai sobre a equipe técnica interna, formada por dois analistas. A diretoria (cerca de 20 consultores) tem acesso a informações filtradas, e os patrocinadores recebem dados relacionados apenas às áreas que apoiam. Apesar desse controle seletivo, não existe documentação formalizada que descreva papéis, responsabilidades ou fluxos de aprovação para acesso aos dados.
O backup existe, mas não há evidência de testes periódicos de restauração nem de controle sobre onde e como os backups são armazenados. No tocante à LGPD, o controle é exercido manualmente pela filtragem feita por Lorena e João, sem um processo automatizado de anonimização, registro de consentimento ou atendimento aos direitos dos titulares de forma estruturada.
Atualmente, não há métricas de qualidade de dados definidas ou ferramentas para monitorar consistência, completude ou acurácia. As correções são feitas de forma pontual, quando erros são identificados, o que gera riscos de inconsistências históricas e falta de rastreabilidade.
Warning
Embora a dedicação da equipe seja notável, o cenário atual apresenta vulnerabilidades significativas:
- Alto risco operacional devido à dependência exclusiva de processos manuais;
- Ausência de rastreabilidade e auditoria, dificultando comprovar a origem e transformação dos dados;
- Fragilidade na conformidade com a LGPD, o que pode gerar riscos legais;
- Falta de controles técnicos de segurança, deixando os dados expostos a acessos não autorizados ou perdas.
| RF | Requisito Funcional | User Story | Teste de Usuário (Exemplo) |
|---|---|---|---|
| RF01 | O sistema deve permitir importação de dados por meio de arquivos estáticos (CSV, Excel, etc.). | Como analista de dados, eu quero importar dados de arquivos estáticos para incluir informações de produtividade de soja no sistema. | Validar se um arquivo CSV com dados de produtividade é importado com sucesso. |
| RF02 | O sistema deve realizar sanitização dos dados para evitar erros de leitura no Power BI (ex.: remoção de caracteres inválidos, padronização de formatação). | Como analista de dados, eu quero que o sistema saneie os dados automaticamente para garantir a qualidade e evitar erros no Power BI. | Importar um arquivo com caracteres inválidos e verificar se eles são removidos ou corrigidos. |
| RF03 | O sistema deve permitir conversão dos arquivos para formatos compatíveis com o modelo de dados do dashboard. | Como analista de dados, eu quero converter os arquivos para formatos compatíveis para garantir que os dados possam ser lidos pelo dashboard do Power BI. | Verificar se um arquivo Excel é convertido para um formato adequado ao modelo de dados do Power BI. |
| RF04 | O sistema deve apresentar indicadores de produtividade das áreas de soja em gráficos assertivos e de fácil interpretação. | Como coordenador técnico, eu quero visualizar indicadores de produtividade em gráficos claros para analisar rapidamente o desempenho das áreas de soja. | Acessar o dashboard e verificar a apresentação dos gráficos de produtividade. |
| RF05 | O sistema deve permitir filtros interativos (por região, safra, cultivar, tipo de manejo, etc.). | Como coordenador técnico, eu quero aplicar filtros interativos para analisar a produtividade de soja por diferentes critérios. | Utilizar o filtro de "região" e verificar se o dashboard atualiza os dados corretamente. |
| RF06 | O sistema deve exibir mapas geográficos com a localização das áreas analisadas. | Como coordenador técnico, eu quero visualizar mapas geográficos para identificar a localização das áreas de soja analisadas. | Acessar o dashboard e verificar se as áreas de soja são exibidas corretamente no mapa. |
| RF07 | O sistema deve apresentar tendências históricas de produtividade e manejo. | Como auditor, eu quero visualizar tendências históricas de produtividade e manejo para acompanhar a evolução do desempenho ao longo do tempo. | Acessar o dashboard e verificar se gráficos de tendência histórica são exibidos. |
| RF08 | O sistema deve permitir drill down para explorar informações em diferentes níveis de detalhe. | Como analista de dados, eu quero realizar drill down nas informações para explorar dados em diferentes níveis de detalhe. | Clicar em um gráfico de produtividade geral e verificar se é possível ver os dados por cultivar. |
| RF09 | O sistema deve permitir exportação de relatórios em PDF e Excel. | Como coordenador técnico, eu quero exportar relatórios em PDF e Excel para compartilhar as análises com a equipe e parceiros. | Exportar um relatório do dashboard para PDF e verificar se o arquivo é gerado corretamente. |
| RF10 | O sistema deve permitir compartilhamento seguro do dashboard com parceiros comerciais e produtores. | Como gestor de projetos, eu quero compartilhar o dashboard de forma segura para garantir que apenas os parceiros e produtores autorizados tenham acesso. | Conceder acesso a um usuário de parceiro e verificar se ele consegue visualizar o dashboard. |
| RF11 | O sistema deve implementar controle de acesso por usuário, definindo quais dados cada perfil pode visualizar. | Como gestor de projetos, eu quero definir o controle de acesso por usuário para garantir que cada perfil veja apenas os dados pertinentes. | Atribuir um perfil com acesso limitado e verificar se o usuário não consegue ver dados restritos. |
Tendo em vista que os Requisitos Não Funcionais (RNFs) atuam em camadas subjacentes do sistema e frequentemente não recebem a devida atenção, a presente proposta concentrará seus esforços em um nicho técnico específico. Alinhado ao propósito educacional do projeto e às normativas de conformidade da organização parceira, optou-se por não abordar desafios estruturais do negócio ou a etapa de aquisição de dados. O objetivo central deste trabalho é garantir a eficiência e a performance da solução. A análise se concentrará no tempo de resposta para o usuário final e no ciclo de vida dos dados dentro do pipeline de ETL, mensurando o intervalo desde a entrada da informação bruta até sua total disponibilização. A solução para estes desafios será alcançada através da aplicação de um conjunto de padrões arquiteturais avançados.
| RNF | Categoria | Requisito Não Funcional | Norma ISO 25010 Associada | Teste de Usuário (Exemplo) |
|---|---|---|---|---|
| RNF01 | Performance | Tempo de Resposta para Filtragem e Consultas: O sistema deve retornar resultados de filtragem e consultas no dashboard em até 0,5 segundo. | Performance Efficiency – Time Behaviour | Aplicar um filtro e medir o tempo até que os gráficos e tabelas sejam atualizados completamente. |
| RNF02 | Performance | Tempo de Carregamento Inicial: O carregamento inicial do dashboard, incluindo todos os gráficos e tabelas, deve ocorrer em até 3 segundos. | Performance Efficiency – Time Behaviour | Abrir o dashboard com um dataset e medir o tempo até a renderização completa. |
| RNF03 | Performance | Uso Eficiente de Recursos: O sistema deve otimizar consultas e modelagem para minimizar consumo de CPU e memória, garantindo fluidez. | Performance Efficiency – Resource Utilization | Monitorar uso de CPU e memória no acesso ao dashboard via smartphone, verificando que não há travamentos. |
| RNF04 | Segurança | Autenticação Segura: O acesso ao dashboard deve exigir autenticação única por usuário, com senha ou método seguro. | Security – Confidentiality | Tentar acessar o dashboard sem autenticação e verificar o bloqueio. |
| RNF05 | Observabilidade | Monitoramento de Performance e Erros: O sistema deve coletar métricas de uso (tempo de resposta, taxa de erros, etc.) para análise. | Reliability – Maturity e Maintainability – Analysability | Executar consultas lentas e verificar se os logs registram o tempo e os parâmetros usados. |
| RNF06 | Observabilidade | Registro de Eventos Críticos: Todas as falhas de carregamento ou erros de consulta devem ser registrados em logs detalhados. | Reliability – Fault Tolerance e Maintainability – Analysability | Forçar um erro de carregamento e verificar se ele aparece nos registros com timestamp e descrição clara. |
| RF | Teste de Usuário |
|---|---|
| RF01 – Importação de arquivos estáticos | Pré-condição: Possuir um arquivo .xls válido com dados de produtividade de soja. Procedimento: Fazer upload do arquivo no sistema. Resultado esperado: O sistema processa e importa os dados sem erros. Pós-condição: Os dados importados ficam disponíveis para visualização no dashboard. |
| RF02 – Sanitização dos dados | Pré-condição: Possuir um arquivo .xls com caracteres inválidos, campos vazios e formatações inconsistentes. Procedimento: Importar o arquivo para o sistema. Resultado esperado: O sistema remove caracteres inválidos e padroniza formatos automaticamente. Pós-condição: O dataset sanitizado está pronto para uso no Power BI. |
| RF03 – Conversão para formatos compatíveis | Pré-condição: Possuir um .xls com campos desalinhados e formatos mistos (datas como texto, números com vírgula e ponto). Procedimento: Carregar o arquivo no sistema. Resultado esperado: Todos os campos são convertidos para o formato correto. Pós-condição: Dados ficam disponíveis em formato padronizado para o dashboard. |
| RF04 – Indicadores em gráficos assertivos | Pré-condição: Ter dados validados no sistema. Procedimento: Abrir o dashboard e visualizar métricas de produtividade. Resultado esperado: Indicadores aparecem em gráficos claros e com possibilidade de drill down. Pós-condição: Usuário consegue interpretar os dados de forma simples e objetiva. |
| RF05 – Filtros interativos | Pré-condição: Dashboard carregado com dados. Procedimento: Aplicar filtro por “região”. Resultado esperado: Gráficos e tabelas se atualizam em no máximo 0,5s. Pós-condição: Dashboard permanece responsivo. |
| RF06 – Mapas geográficos | Pré-condição: Dados com coordenadas geográficas disponíveis. Procedimento: Acessar a aba de mapas no dashboard. Resultado esperado: Áreas de soja aparecem georreferenciadas corretamente. Pós-condição: Usuário consegue identificar localizações com precisão. |
| RF07 – Tendências históricas | Pré-condição: Dataset contendo dados de safras anteriores. Procedimento: Abrir visualização histórica no dashboard. Resultado esperado: Gráficos mostram evolução de produtividade e manejo ao longo do tempo. Pós-condição: Tendências ficam disponíveis para análise comparativa. |
| RF08 – Drill down | Pré-condição: Gráfico de produtividade consolidada carregado. Procedimento: Clicar em um indicador geral. Resultado esperado: O dashboard exibe dados detalhados (ex.: por cultivar). Pós-condição: Navegação retorna ao nível consolidado ao comando do usuário. |
| RF09 – Exportação de relatórios | Pré-condição: Dashboard carregado com dados filtrados. Procedimento: Exportar relatório em PDF. Resultado esperado: Arquivo é gerado com dados e layout corretos. Pós-condição: Relatório salvo para compartilhamento. |
| RF10 – Compartilhamento seguro | Pré-condição: Usuário com permissão de compartilhamento logado. Procedimento: Conceder acesso a parceiro. Resultado esperado: Parceiro acessa dashboard sem restrições de performance. Pós-condição: Permissões ficam registradas no sistema. |
| RF11 – Controle de acesso por usuário | Pré-condição: Dois usuários com perfis diferentes criados. Procedimento: Logar com usuário de perfil restrito. Resultado esperado: Apenas dados autorizados são visíveis. Pós-condição: Restrições permanecem ativas até alteração de perfil. |
| RNF | Teste de Usuário |
|---|---|
| RNF01 – Tempo de resposta 0,5s | Pré-condição: Dashboard carregado com dataset ≥ 50 mil registros. Procedimento: Aplicar filtro por “safra”. Resultado esperado: Atualização total em até 0,5 segundo. Pós-condição: Dashboard segue responsivo. |
| RNF02 – Tempo de carregamento ≤ 3s | Pré-condição: Dashboard fechado. Procedimento: Abrir dashboard completo com dataset. Resultado esperado: Renderização de todos os elementos em até 3 segundos. Pós-condição: Dashboard pronto para interação. |
| RNF03 – Uso eficiente de recursos | Pré-condição: Dashboard aberto em dispositivo de baixo consumo (smartphone). Procedimento: Navegar entre diferentes abas e aplicar filtros. Resultado esperado: Consumo de CPU e memória não causa lentidão ou travamento. Pós-condição: Dashboard segue funcional. |
| RNF04 – Autenticação segura | Pré-condição: Usuário não autenticado tenta acessar o dashboard. Procedimento: Abrir URL do dashboard. Resultado esperado: Sistema bloqueia acesso e solicita autenticação. Pós-condição: Apenas usuários autenticados podem acessar. |
| RNF05 – Monitoramento de performance e erros | Pré-condição: Sistema com logs ativos. Procedimento: Executar uma consulta complexa. Resultado esperado: Tempo e parâmetros da consulta ficam registrados nos logs. Pós-condição: Logs disponíveis para análise posterior. |
| RNF06 – Registro de eventos críticos | Pré-condição: Sistema operacional e monitoramento ativos. Procedimento: Forçar erro de carregamento de arquivo .xls. Resultado esperado: Evento registrado com timestamp e detalhes do erro. Pós-condição: Registro disponível para auditoria. |
| Requisito Funcional (RF) | RNF01 – Tempo de Resposta 0,5s | RNF02 – Carregamento ≤ 3s | RNF03 – Uso Eficiente de Recursos | RNF04 – Autenticação Segura | RNF05 – Monitoramento de Performance e Erros | RNF06 – Registro de Eventos Críticos |
|---|---|---|---|---|---|---|
| RF01 Importação de dados estáticos | X | X | X | X | X | |
| RF02 Sanitização dos dados | X | X | X | X | X | |
| RF03 Conversão para formatos compatíveis | X | X | X | X | X | |
| RF04 Indicadores em gráficos assertivos | X | X | X | X | X | |
| RF05 Filtros interativos | X | X | X | X | ||
| RF06 Mapas geográficos | X | X | X | X | X | |
| RF07 Tendências históricas | X | X | X | X | X | |
| RF08 Drill down | X | X | X | X | ||
| RF09 Exportação de relatórios | X | X | ||||
| RF10 Compartilhamento seguro | X | X | X | |||
| RF11 Controle de acesso por usuário | X | X | X |
- INSTITUCIONAL_CESB INTELI 0725 LUIZ.pptx.pdf
- Conforme a política de utilização de AI acordada em sala de aula, foi utilizada para captar informações da apresentação institucional e formatação de tabelas. No trecho 1.1 foi utilizada para expandir ideias descritas em texto autoral. Utilizada com o proposito de refinamento do texto e asserssao de baremas AI