Big Data

big-data-1-11

O assunto Big Data está cada vez mais em discussão como diferencial competitivo para as empresas.

O instituto de pesquisas Gartner define a expressão como dados que apresentam relevância em quatro aspectos principais: volume, velocidade, variedade e complexidade. O volume de dados tende a ser utilizado como sinônimo de Big Data. Esse aspecto tornou-se mais evidente em função do aumento da troca de dados entre sistemas e novos dispositivos, além do crescimento da digitalização de mídias antes disponíveis somente em outros formatos, tais como textos, imagens, vídeos e áudio.

A velocidade está associada à multiplicação de novas fontes de dados e a necessidade de consumo desses dados de forma mais rápida. Fontes de dados automatizadas, como sensores, RFIDs e GPSs, são capazes de gerar dados a cada fração de segundo para diferentes métricas e, se somadas aos demais equipamentos que fazem parte do parque instalado, provocam um fluxo constante de dados ao longo do tempo.

Já a variedade é incluída pela organização dos dados que é dividida em: dados estruturados, semiestruturados e não estruturados. Os dados estruturados estão presentes em sistemas tradicionais corporativos (bancos de dados, arquivos sequenciais e hierárquicos etc). Os semiestruturados estão disponíveis por meio de logs de sistemas (web servers, CDRs etc.) e os não estruturados são os conteúdos digitalizados que, anteriormente, eram acessados em forma não digital, como arquivos de imagens, áudios, textos, entre outros.

O universo de Big Data contempla a possibilidade de uso de todos os dados disponíveis por meio de e-mails, documentos, messaging, imagens, gravações de áudio, logs, vídeos etc. Por fim, a complexidade existe pelo fato de como lidar com todas as características listadas anteriormente para trazer informação útil de forma eficiente.

Na prática, o Big Data pode ser definido como todos os dados em que as tecnologias tradicionais, em uso nos dias de hoje, possuem dificuldade em endereçar. Para saber se você está diante de um problema de Big Data, pense se possui dificuldade em tratar um dos seguintes aspectos: armazenamento, proteção, gerenciamento, compartilhamento, análise e visualização.

Então, surge o questionamento: as empresas já estão utilizando Big Data? Existem companhias com elevado grau de maturidade analítica. Essas são as empresas que baseiam suas decisões em fatos e, hoje, tiram proveito de uma vantagem competitiva estratégica. Alguns analistas indicam que as empresas que adotarem antecipadamente Big Data terão uma vantagem competitiva de 20% em todas as métricas financeiras sobre seus competidores.

Integração de Dados

images-3

Integrar dados é uma das tarefas mais complexas da área de tecnologia de uma organização. É com a integração de dados que se permite a comunicação entre aplicações, a geração de relatórios gerenciais ou mesmo a comunicação entre empresas.

O processo de integrar dados exige que os mesmos sejam Extraídos de determinada origem, Transformados segundo determinadas regras de negócio e finalmente Carregados em seu novo destino.

Os projetos de data warehouse são bons exemplos de Integração de Dados pois consolidam dados de diferentes fontes. A maioria dessas fontes tendem a ser bancos de dados relacionais ou arquivo de texto (texto plano), mas podem existir outras fontes.

Uma aplicação de integração de dados tem que ser capaz de se comunicar com as bases de dados e ler diversos formatos de arquivos utilizados por toda a organização. Essa pode ser uma tarefa não trivial, e muitas fontes de dados podem não ser acessadas com facilidade.

Algumas das ferramentas utilizadas em projetos de integração de dados são IBM InfoSphere DataStage , Informática Power Center, Business Objects Data Integrator , Data Transformation Services entre outras.

Desafios

Os processos de integração de dados podem ser bastante complexos e problemas operacionais significativos podem ocorrer com sistemas desenvolvidos inapropriadamente.

A gama de valores e a qualidade dos dados em um sistema operacional podem ficar fora das expectativas dos desenvolvedores quando as regras de validação e transformação são especificadas. O perfil dos dados de uma fonte durante a análise dos dados é altamente recomendável para identificar as condições dos dados que precisarão ser gerenciados pelas especificações de regras de transformação.

A escalabilidade de um sistema de integração de dados durante o seu ciclo de vida de uso precisa ser estabelecido durante a análise. Isto inclui o conhecimento dos volumes de dados que terão que ser processados e os níveis de serviço que devem ser atendidos. O tempo disponível para extrair dados dos sistemas de origem pode variar, o que pode significar que a mesma quantidade de dados pode ter que ser processada em menos tempo. Volumes crescentes de dados podem requerer um desenho que possa escalar de processamento diário de lotes para processamento intra-diário de microlotes para a integração com filas de mensagens para garantir a continuidade da transformação e da atualização.

integracao-dados

 

Data Warehousing

Um armazém de dados, ou ainda depósito de dados, é um sistema de computação utilizado para armazenar informações relativas às atividades de uma organização em bancos de dados, de forma consolidada. O desenho da base de dados favorece os relatórios, a análise de grandes volumes de dados e a obtenção de informações estratégicas que podem facilitar a tomada de decisão.

data warehouse possibilita a análise de grandes volumes de dados, coletados dos sistemas transacionais (OLTP). São as chamadas séries históricas que possibilitam uma melhor análise de eventos passados, oferecendo suporte às tomadas de decisões presentes e a previsão de eventos futuros. Por definição, os dados em um data warehouse não são voláteis, ou seja, eles não mudam, salvo quando é necessário fazer correções de dados previamente carregados. Os dados estão disponíveis somente para leitura e não podem ser alterados.

A ferramenta mais popular para exploração de um data warehouse é a Online Analytical Processing OLAP ou Processo Analítico em Tempo Real, mas muitas outras podem ser usadas.

Os data warehouse surgiram como conceito acadêmico na década de 80. Com o amadurecimento dos sistemas de informação empresariais, as necessidades de análise dos dados cresceram paralelamente. Os sistemas OLTP não conseguiam cumprir a tarefa de análise com a simples geração de relatórios. Nesse contexto, a implementação do data warehouse passou a se tornar realidade nas grandes corporações. O mercado de ferramentas de data warehouse, que faz parte do mercado de Business Intelligence, cresceu então, e ferramentas melhores e mais sofisticadas foram desenvolvidas para apoiar a estrutura do data warehouse e sua utilização.

Atualmente, por sua capacidade de sumarizar e analisar grandes volumes de dados,o data warehouse é o núcleo dos sistemas de informações gerenciais e apoio à decisão das principais soluções de business intelligence do mercado.