Resumo 10º Encontro de Usuários de BI

Resumo 10º Encontro de Usuários de BI – evento aprofundou discussão sobre a convivência do DW Tradicional com o Big Data.

Contextualizando

Chegamos à décima edição do nosso Encontro de Usuários de BI, que trouxe o tema “A Convivência do DW Tradicional com Big Data”.

Sempre em formato de workshop, com flexibilidade para apontamentos e argumentações por parte dos participantes a todo momento, o assunto gerou discussões sobre a melhor forma de planejar a arquitetura, a estratégia de implementação e a utilização dos ambientes de DW Tradicional e de Big Data.

Realizado em São Paulo, o 10º Encontro de Usuários de BI contou com a presença de profissionais de grandes empresas e que atuam em áreas como tecnologia da informação, marketing e gestão de canais digitais.

Compartilhamos, abaixo, os principais comentários, dúvidas e consensos que ocorreram ao longo do evento.

O debate gerou grande interatividade, com questionamentos e debates acerca dos seguintes tópicos:

 

Logo no início do evento o primeiro ponto levantado foi sobre as diferenças e as semelhanças entre Data Warehousing Tradicional e Big Data. Destacou-se que uma das semelhanças entre as duas abordagens se refere ao volume de dados – ambos podem comportar tanto pequenos quanto grandes volumes. O que eventualmente é importante considerar é a questão financeira, podendo ser necessários investimentos mínimos consideráveis para adotar um projeto desse porte.

Falando sobre diferenças, um dos pontos notados pelos participantes é de que o DW é um ambiente mais estruturado, enquanto o Big Data é percebido como mais flexível. Com isso como pano de fundo para o debate, foi argumentado por alguns dos participantes que flexibilidade demais gera desafios, enquanto que outra parte dos presentes observou que estruturação demais também gera desafios. Diante dessa reflexão, surge o seguinte questionamento: será que essas duas características, flexibilidade para Big Data, e estruturação para Data Warehousing, são mandatórias?

Em busca de respostas para a questão, o conceito inteligência do negócio foi trazido à discussão com o objetivo de repensar o todo e descobrir se é possível haver flexibilidade, performance, documentação e estruturação de dados e, ainda assim, atender as diversas demandas do usuário. Será que é possível? Será que conseguimos pensar em coisas que nos levem a chegar nesse caminho?

Para um dos presentes, sim, este caminho é possível, e convida os presentes a pensarem na evolução que teve o computador, que até pouco tempo era um “tijolão” e, hoje em dia, é algo mínimo, um “relógio que faz tudo”. Segundo ele, o problema não é ferramental, mas conceitual. E conclui dizendo que é preciso pensar TI como negócio.

Contrapondo o comentário acima, outro participante que sempre atuou em projetos de DW, mas do lado do usuário, diz não acreditar nessa possibilidade, pois não vê a execução acontecer. Em sua opinião, a equipe de TI sempre faz o que o usuário pede, sem levantar se haverá ou não benefícios para a empresa. E completa dizendo que se os dois lados não se comunicarem e pensarem em conjunto nada dará certo.

Um ponto importante a se pensar levantado neste tópico, abordou o fato dos profissionais terem o hábito de acreditar em soluções “mágicas” apresentadas pelos fornecedores de tecnologia, e que resolveriam todas as questões. Foi citado o exemplo de uma grande empresa do setor de telecomunicações que adquiriu um grande ambiente de big data, com mais de 15 PB de dados, o qual está encontrando dificuldades de justificar.

De maneira geral, o grupo entendeu neste tópico que existem mais semelhanças do que diferenças entre o ambiente de DW Tradicional e o Big Data.

O tema performance foi amplamente discutido durante o debate. Alguns participantes levantaram a questão de que para grandes volumes de dados o Big Data entrega um resultado mais rápido do que o DW Tradicional; referindo-se a questões como estrutura, arquitetura e tecnologia.

Alguns concluíram que a performance está muito associada à disponibilidade de ferramentas mais poderosas, hoje, do que no passado. Mas a diferença de performance que as ferramentas trazem estão associadas só ao Big Data, apenas ao Data Warehousing ou aos dois? Data Warehousing dá menos performance que Big Data?

A resposta veio rápida por parte de um participante, que disse que dependendo de como é feita a estruturação do Data Warehousing e do Big Data, isso se reflete em maior ou menor performance. Utilizar as ferramentas corretas possibilita extrair melhor proveito de cada um dos ambientes. A questão não é a ferramenta, mas como se constrói, e isso pode ou não entregar performance.

Junto com o ponto da performance veio outro item considerado importante por todos: a flexibilidade. Será que a performance limita a flexibilidade? Para alguns, a resposta foi sim. E alguns defenderam a ideia de que o Big Data é como se fosse uma caixa de ferramentas muito mais completa para atender necessidades específicas.

Mas será que o mais moderno sempre oferece mais flexibilidade? Talvez a questão não esteja relacionada à modernidade, mas ao fato de o Data Warehousing ser considerado uma plataforma que precisa ter uma estrutura, enquanto que o Big Data não, pois foi criado para dados não estruturados.

Para exemplificar essa visão, falou-se que na abordagem do DW, em primeiro lugar surge uma necessidade de negócio para então o profissional de TI projetar e construir o DW de maneira bem estruturada, com um projeto de modelagem de dados que permita atender aquela necessidade e sobre uma plataforma tecnológica (software/hardware) que vai atender a necessidade tanto no quesito performance quanto na questão de volume de dados.

Já o ambiente de Big Data permite uma abertura maior com relação aos tipos de dados, não sendo necessário trabalhar/modelar os dados com um caso de uso em mente. Quando o assunto é performance, é preciso avaliar se é uma plataforma em que o volume é o principal motivador, porque, de acordo com um dos participantes, não faz sentido não ter muito volume e partir para uma plataforma Big Data.

No DW existe uma modelagem otimizada para consulta, enquanto que no Big Data a performance é provida pelo ambiente escalável, vai crescendo de acordo com a necessidade e, teoricamente, com o custo mais baixo e trabalhando em cima de dados que podem ser estruturados, mais completos ou não estruturados.

Com essa discussão, chegou-se à conclusão de que volume tanto faz, e que é uma semelhança entre DW Tradicional e Big Data. Performance apareceu como uma possível diferença entre as duas ferramentas, mas concluiu-se que também é possível ter performance com ambas. No que se refere à flexibilidade, pontuou-se que ela vem da possibilidade de poder colocar o dado do jeito que quiser e da forma que se deseja analisar.

Quando vamos para o mundo real de quem constrói ambientes analíticos e de quem os utiliza, surgem questões fundamentais tais como a necessidade de estruturação dos dados, porque se não for estruturado, mesmo no ambiente Big Data, haverá dificuldades importantes, principalmente por parte do usuário.

A partir do último ponto do bloco anterior surge então a questão: por que estruturamos o dado?

Por dois motivos: ter melhor performance e mais facilidade de uso (estruturando também para o usuário conseguir utilizar).

Outro ponto levantado sobre a estruturação de dados foi que ele também promove a dicionarização da informação. Na base de dados, se não há um modelo estruturado e claro do que são as informações, a ponta final pode utilizar os dados de forma errada. O Big Data pode dar uma impressão de facilidade por ser mais ágil, mas se você não tiver uma dicionarização boa, as áreas que vão utilizar essa informação podem usar de forma errada, diferente uma da outra, e aí teremos conflito de resultado; e isso vale para os dois ambientes.

É preciso ter um grupo de usuários finais que esteja com uma visão bem clara das suas necessidades. Nem sempre todo mundo está com a ideia bem elaborada que possa permitir a estruturação dos dados, e nesse sentido, tanto faz o ambiente adotado. A partir do momento que a ponta final/usuários estiver estruturada, é possível dar uma solução, oferecendo qualquer tipo de dado, em qualquer ambiente e com a performance desejada.

A discussão acima apontou para a conclusão de que nem sempre o usuário está preparado para dizer o que ele precisa. Quando se constrói um ambiente analítico, existe a pretensão de que é só colocar todo o tipo de informação ali que o usuário vai se virar. Mas quando de fato se inicia o projeto, em geral, é feita uma consulta com o usuário para que ele diga o que de fato precisa. Muitas vezes, ele diz que quer tudo e só depois de muito custo ele começa a pontuar o que, de fato, precisa e quer no ambiente analítico.

Como exemplo de usuários, se consultarmos um estatístico “das antigas”, que seguiu os métodos estruturados de estatística, e compararmos com a garotada que está chegando, onde a metodologia é totalmente diferente, os mais jovens vão demandar um monte de outras coisas e tipos de dados. E tudo “online”.

Surge então a questão: Data Warehousing tradicional lida bem com dado online? Não. A proposta de Big Data é lidar bem com dado online? Sim.

Vamos então explorar o tema de utilização dos dados.

 

A área de negócios exige constantes mudanças. A tecnologia tem como principal missão de orientar o usuário. A questão é: o que você quer analisar e como você quer analisar? Se você joga tudo numa gaveta e pega um monte de agulhas, joga lá uma agulha laranja, será que vai achar essa agulha laranja algum dia?

A missão da área de TI é resolver o problema, e não convencer o cliente de que ele não poderá fazer determinada coisa. O usuário nunca quer saber se é ou não possível, quer que os técnicos executem. Essa tal gaveta em que se coloca tudo e onde o usuário pode perguntar o que quiser é possível, ela só não é fácil de ser feita.

Com a utilização, o usuário vai descobrir que tem coisas que para ele são importantes e que outras são extremamente importantes, assim, o modelo vai sendo criado. A missão do profissional de TI não é a de dizer não. Sempre que o especialista disser não para o problema, ele falhou.

No passado, talvez por falta de conhecimento, ao invés de trazer um dado ou um grupo de dados específicos, trazia-se a base inteira e então tínhamos o projeto de DW. Hoje, com o Big Data, não é preciso a base inteira, sendo possível trazer apenas os dados desejados para uma análise específica. Um dos participantes enfatiza que ainda não é 100% assim, mas acredita que este é o caminho.

Outro participante confronta dizendo que o Data Warehousing não trazia tudo, apenas uma parte necessária para responder o que era preciso. Já o Big Data vem para ajudar a encontrar respostas às perguntas que não foram feitas ainda. Uma parte interessante do Big Data é entregar a resposta para uma pergunta que você nunca imaginou. A questão do “trazer tudo” pode gerar uma confusão imensa, e é natural este momento. Essa fase de mapeamento, que ocorre no projeto tradicional de DW, faz com que o profissional de TI que está desenvolvendo o projeto vá buscar onde as informações estão, modelar como o negócio precisa e entregar.

E quando falamos de diversidade do dado, volume e complexidade? O volume de dados apresenta diferença entre um banco de dados tradicional e o ambiente Hadoop apenas em custo na visão dos participantes. Com relação à capacidade de lidar com volumes, não. Já com a diversidade e o tipo de dados, o ambiente de Big Data (Hadoop) permite maior flexibilidade, podendo lidar com diversos tipos de dados não estruturados – imagem, som, texto, entre outros.

O mais importante a compreender é que jogar os dados e deixá-los lá, sem utilidade, pode ser nocivo. Os conceitos de modelagem, de organização e de governança terão de ser aplicados. Mesmo na tecnologia Hadoop, será necessária uma estratégia para gerar algum grau de trabalho para os usuários.

 

Diariamente, surgem novos indicadores. Se o profissional deseja responder qualquer pergunta, construir qualquer indicador, para qualquer usuário, o que é preciso trazer para a base? Tudo. Tem alguma divergência? Não. Então, qual a missão da TI? É trazer toda informação necessária para algum lugar que permita ao usuário fazer o que ele quiser. Essa é uma missão atingível? Há controvérsias, alguns têm mais esperanças, outros têm menos, outros estão no meio do caminho, mas essa é a missão.

O que conhecemos de Data Warehousing Tradicional atende essa visão? No geral, os participantes dizem que não, pois a questão do online é um problema. Um deles diz que uma das dificuldades são modelos em cima de uma necessidade que pode ser alterada em prazo de dias, com base em fatos, dimensões e métricas. Neste caso, poderia se pensar em um modelo relacional, que bem construído responde a qualquer pergunta, oferece uma possibilidade infinita de análise.

Na teoria, pode-se adicionar os elementos nesse modelo e ele vai continuar respondendo a todas as perguntas. Isso é teórico no sentido de que não dá para contestar, é matemática, é teoria de conjuntos, quem estudou profundamente o assunto sabe que os modelos relacionais respondem a qualquer pergunta. Mas qual é o problema de um modelo de dados relacional para quem vive com um banco de dados grande para fazer análise? Performance.

O DW tem uma vantagem sobre o Big Data: estruturação. Possuir um modelo de dados tem suas virtudes, ao mesmo tempo em que não ter este modelo pode ser um caos. O modelo vai existir, pelo menos em algum momento. A diferença é que no DW ele existe na concepção do ambiente, ocorre antes, na preparação do dado. Mas a modelagem, pensando em entrega final, em visualização do dado, é uma modelagem diferente.

Na hora em que se começa a usar, existe a necessidade de modelar o dado, só que os “turistas” do Big Data vendem a imagem de que não é necessário modelar o dado, e aí vem tudo errado. Do ponto de vista da preocupação de performance, em um ambiente Hadoop ou de processamento paralelo distribuído, a performance é maior. Entretanto, do ponto de vista de como usar o dado, é bem diferente, pois é preciso tratar os problemas de integridade, das anomalias dos dados, do relacionamento. Se deixar para o usuário fazer isso a cada pergunta, é impossível. É como dizer a ele: “se vira”.

Um dos participantes levanta essa questão dizendo que sempre enfrenta um problema no banco em que trabalha: a questão de segurança.

O conceito de DW tem uma preocupação com a confidencialidade e com a governança – ela é boa ou ela é má? Como tudo na vida, existem pontos a favor e contra. Não dá para abrir mão da confidencialidade e da governança. Isso é um problema intrínseco ao conceito de Big Data? Não necessariamente. Ninguém disse que o Big Data não tem governança. Hoje, esse é um problema inerente ao grau de maturidade de ferramentas do Big Data. Tem um monte de gente desenvolvendo ferramentas de governança para Big Data. Quem trabalha com Big Data não diz “segurança não é importante”. Não deu tempo de desenvolver, a prioridade é fazer performance, é fazer ser rápido”. Para isso tem o time que se encarrega da governança.

Para aqueles que querem usar todo o potencial do DW, o que é preciso saber? Precisa ser um “Ás” do SQL, ou ter um “Ás” do SQL ao lado?

Sempre teremos duas situações, o usuário que tem mais facilidade com a tecnologia – e aí é preciso dar a ele o dado para que faça o que desejar; e aquele usuário que tem dificuldade, mas que por meio da ferramenta que o profissional de TI escolher vai proporcionar que este também trabalhe com o dado.

Uma das constatações é de que as ferramentas de Self-Service BI funcionam bem quando o dado é preparado. Ao inserir tudo, sem preparo prévio, o problema persiste e o usuário não consegue usar.

Um dos participantes comenta que, em sua experiência como gestor de modelagem estatística, enxerga uma mudança de perfil, em que o usuário que mexe em SQL também manuseia várias outras ferramentas. Isso porque ele sempre quis ter acesso a tudo, mas sua preocupação nunca foi performance. Rodava uma base, demorava uma, duas, ou três horas, e não sabia o que era índice na tabela, o usuário é estatístico. No mundo de Big Data, não tem como não se preocupar, caso contrário o negócio não roda, pois é muito dado. A complexidade de análise é bastante grande.

Ao final do debate, concluiu-se que o mais importante é atender a necessidade do usuário. Para resolver os problemas é preciso haver discussões sobre o que fazer, tentar um caminho, possivelmente errar, para depois então ajustar. Vale o conceito de “falhe, mas falhe rápido”!

Para ter uma arquitetura boa, perene e capaz, o bom senso diz que os profissionais de TI precisam focar no que há de melhor dentro de suas experiências, e que cada equipe tenha uma discussão sobre qual tecnologia usar e também falar sobre inteligência de negócio. Tudo é importante. Pensando no futuro, é preciso criar um ambiente flexível, composto por componentes do DW Tradicional e componentes do mundo Big Data, que tenha um maior conjunto de informações possível, que estimule os usuários a fazerem análises mais complexas, possibilitando, assim mais assertividade. Portanto o mais importante é de fato a convivência entre esses dois ambientes – DW tradicional e Big Data.

Deixe uma resposta

Your email address will not be published. Required fields are marked *