Dez sinais de que você está errando no seu projeto de Big Data

Por Israel Nacaxe, co-fundador da Propz

Big Data

Recentemente li um excelente artigo de @martingoodson, e como são informações de extrema relevância no contexto atual do mercado de inteligência e Big Data, decidi compartilhar. Como especialista na área há cerca de dez anos, acredito que as dicas abaixo podem te ajudar a caminhar com menos tropeços nessa odisseia que é trabalhar com grande volume de dados. Confira as principais considerações de Martin Goodson no texto abaixo.

A ciência de dados continua a gerar empolgação nos varejistas, contudo os resultados conquistados até agora também trazem decepção aos seus líderes. De que maneira podemos eliminar riscos e garantir resultados reais que atinjam a essas expectativas?

1. Seus dados não estão prontos (ainda) — Se existem dados disponíveis eles sempre podem ser aproveitados, certo? Errado. Faça uma análise crítica e, se não for possível aproveitá-los, se não forem úteis, é melhor descartar tudo e recomeçar a captação.
Um consultor me disse certa vez que devemos sempre questionar se os dados já foram usados anteriormente em algum projeto. Caso a resposta seja não, acrescente entre 6 meses a 1 ano para concluir uma ‘limpeza’ e organização inicial desses dados.

Fazer uma espécie de auditoria nas informações disponíveis sempre evita retrabalhos. Faça-a antes de começar o projeto. Por exemplo, você pode concluir que sua base de dados tem diferentes transações armazenadas em Dólar e Yen, sem especificar quem é quem.

2. Big Data é o novo petróleo? — Não, não é. Dados não podem ser considerados comodity, como o petróleo é. Antes de qualquer coisa, ele deve ser transformado em um produto para poder ser avaliada sua qualidade.

3. Seus cientistas de dados estão prestes a pedir demissão — Não trate seus cientistas de dados como quem irá sair da empresa amanhã. Não torture seus cientistas de dados ao bloquear ou limitar acesso aos sistemas ou informações que eles precisam para cumprir seus trabalhos. Mostre confiança no trabalho que executam e forneça ambiente adequado para o desenvolvimento do que foi combinado.

Cientista de dados4. Você não tem um cientista de dados líder — Por esse mesmo motivo não será possível ter certeza de que seus dados são úteis ou não. Você precisa de pessoas que conheçam e respirem modelos matemáticos (selection bias, measurement bias, etc) ou então você nunca saberá se os resultados alcançados fazem realmente algum sentido. Os profissionais mais indicados para essa função são chamados de cientistas de dados.

Não confunda analista de dados e suporte a business intelligence com profissionais que apenas registram ações em andamento de um time, para ‘maximizar resultados’ com profissional gabaritado e com experiência em programação probabilística, MCMC, Análise de dados ou Hidden Markov Models. É bem diferente. Curiosamente, o inverso também é frequentemente verdade.

5. Você não deveria ter contratado cientista de dados — Para trabalhos de ETL (processo de extrair, transformar e carregar) contrate bons engenheiros de dados (data engineer). Para relatórios o melhor é contratar um experiente analista de business intelligence. Ponto final.

6. Seu chefe é fã de um blog sobre machine learning — Com o hype sobre machine learning em alta é fácil encontrar grande quantidade de conteúdo sobre o tema internet afora. O problema disso é que agora todos começam a se achar experts no assunto. Todos podem ter insights sobre machine learning. Questione sempre, ou isso corre sérios riscos de não acabar bem.

7. Seus modelos são complexos demais — Comece com um modelo compreensível e já interpretado anteriormente e teste com uma baseline. Moral da história: use um modelo simples que você consiga entender. Apenas depois dessa fase adote algo mais complexo, e somente se for muito necessário.

8. Seus resultados não são reproduzíveis — O coração da ciência é a reprodutibilidade. Importante aplicar Git, fazer revisões de código, rodar testes automatizados, além de gestão do pipeline de dados. Fez tudo isso? Depois não diga que não avisei.

9. Um departamento de P&D (pesquisa e desenvolvimento) parece um alienígena para a cultura da sua empresa — P&D é uma atividade de alto risco. Muitos não estão preparados para as grandes inovações. Um laboratório de ciências aplicadas é na verdade um grande compromisso. Dados podem frequentemente oferecer uma ameaça àqueles que preferem confiar em seus instintos. P&D tem um grande risco de falha e exige altos níveis de perseverança da equipe envolvida. Antes de seguir em frente com essa ideia faça uma análise profunda se a sua empresa está pronta para realmente aceitar essa cultura.

10. Criar produtos oriundos de dados sem acessá-los de fato é como querer embalsamar um animal sem nunca tê-los visto vivos — Nunca deixe UX designers e gerentes de produto usarem dados falsos (mesmo que sejam rascunhos). Assim que você tiver acesso aos dados reais, o wireframe vai parecer fantasia pura. Os dados reais sempre terão picos discrepantes ou trechos mais tranquilos, sem graça. Será muito dinâmico. Será muito previsível ou não previsível o suficiente. Use dados reais desde o início ou seu projeto irá acabar na miséria e no ódio de si mesmo.

0 respostas

Deixe uma resposta

Quer se juntar a discussão?
Sinta-se à vontade para contribuir!

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *