Big Data é uma combinação de dados estruturados, semiestruturados e não estruturados coletados por organizações que podem ser extraídos para obter informações e usados em projetos de aprendizado de máquina, modelagem preditiva e outros aplicativos de análise avançada.
Os sistemas que processam e armazenam Big Data tornaram-se um componente comum das arquiteturas de gerenciamento de dados nas organizações, combinados com ferramentas que suportam o uso da análise de Big Data. O Big Data é frequentemente caracterizado pelo conceito dos 4 Vs:
- o grande volume de dados em muitos ambientes;
- a enorme variedade de tipos de dados frequentemente armazenados em sistemas de Big Data;
- a velocidade com que muitos dos dados são gerados, coletados e processados;
- a veracidade, ou seja, o grau de confiança desses dados.
Essas características foram identificadas pela primeira vez em 2001 por Doug Laney, então analista da consultoria Meta Group Inc. O grupo Gartner os popularizou ainda mais após adquirir o Meta Group em 2005.
Atualmente, muitos concebem outros Vs para o Big Data, mas por padrão esses são os 4 Vs que realmente interessam para nossa definição.
Embora Big Data não seja equivalente a nenhum volume específico de dados, as implantações de Big Data geralmente envolvem terabytes, petabytes e até exabytes de dados gerados e coletados ao longo do tempo.
Por que o Big Data é tão importante?
As empresas usam Big Data em seus sistemas para melhorar as operações, fornecer melhor atendimento ao cliente, criar campanhas de marketing personalizadas e realizar outras ações que, em última análise, podem aumentar a receita e os lucros. As empresas que o utilizam efetivamente têm uma vantagem competitiva em potencial sobre as que não o fazem, porque são capazes de tomar decisões de negócios mais rápidas e informadas.
Por exemplo, o Big Data fornece informações valiosas sobre os clientes que as empresas podem usar para refinar seu marketing, publicidade e promoções, a fim de aumentar o envolvimento do cliente e as taxas de conversão. Dados históricos e em tempo real podem ser analisados para avaliar as preferências em evolução dos consumidores ou compradores corporativos, permitindo que as empresas se tornem mais responsivas aos desejos e necessidades dos clientes.
Big Data também é usado por pesquisadores médicos para identificar sinais de doenças e fatores de risco e por médicos para diagnosticar doenças e condições médicas em pacientes. Além disso, uma combinação de dados de registros eletrônicos de saúde, sites de mídia social, a web e outras fontes fornece às organizações de saúde e agências governamentais informações atualizadas sobre ameaças ou surtos de doenças infecciosas.
Aqui estão mais alguns exemplos de como o Big Data é usado pelas organizações:
- No setor de energia, o Big Data ajuda as empresas de petróleo e gás a identificar possíveis locais de perfuração e monitorar as operações de dutos; da mesma forma, as concessionárias o utilizam para rastrear redes elétricas.
- As empresas de serviços financeiros usam sistemas de Big Data para gerenciamento de risco e análise em tempo real de dados de mercado.
- Fabricantes e empresas de transporte contam com Big Data para gerenciar suas cadeias de suprimentos e otimizar rotas de entrega.
- Outros usos do governo incluem resposta a emergências, prevenção ao crime e iniciativas de cidades inteligentes.
Onde o Big Data é usado?
O Big Data vem de inúmeras fontes – alguns exemplos são sistemas de processamento de transações, bancos de dados de clientes, documentos, e-mails, registros médicos, logs de fluxo de cliques na Internet, aplicativos móveis e redes sociais. Também inclui dados gerados por máquina, como arquivos de log de rede e servidor e dados de sensores em máquinas de fabricação, equipamentos industriais e dispositivos de internet das coisas.
Além dos dados de sistemas internos, os ambientes de Big Data incorporam geralmente dados externos sobre consumidores, mercados financeiros, condições climáticas e de tráfego, informações geográficas, pesquisas científicas e muito mais. Imagens, vídeos e arquivos de áudio também são formas de Big Data, e muitos aplicativos de Big Data envolvem dados de streaming que são processados e coletados continuamente.
Analisando os Vs do Big Data
1. Volume
Volume é a característica mais comumente citada de Big Data. Um ambiente de Big Data não precisa conter uma abundância de dados, mas a maioria contém devido à natureza dos dados que estão sendo coletados e armazenados neles. Clickstreams, logs do sistema e sistemas de processamento de fluxo estão entre as fontes que normalmente produzem grandes volumes de dados continuamente.
2. Variedade
Big Data também abrange uma ampla variedade de tipos de dados, incluindo o seguinte:
- dados estruturados, como transações e registros financeiros;
- dados não estruturados, como texto, documentos e arquivos multimídia;
- dados semiestruturados, como logs do servidor web e dados de streaming de sensores.
Vários tipos de dados podem precisar ser armazenados e gerenciados juntos em sistemas de Big Data. Além disso, os aplicativos de Big Data geralmente incluem vários conjuntos de dados que podem não ser integrados antecipadamente. Por exemplo, um projeto de Big Data Analytics pode tentar prever as vendas de um produto correlacionando dados sobre vendas anteriores, devoluções, avaliações online e chamadas de atendimento ao cliente.
3. Velocidade
Refere-se à velocidade com que os dados são gerados e devem ser processados e analisados. Em muitos casos, os conjuntos de Big Data são atualizados em tempo real ou quase real, em vez das atualizações diárias, semanais ou mensais feitas em muitos Data Warehouses (DW) tradicionais.
Gerenciar a velocidade dos dados também é importante, pois a análise de Big Data se expande ainda mais para aprendizado de máquina e inteligência artificial (IA), cujos processos analíticos encontram automaticamente padrões nos dados e os usam para gerar insights.
4. Veracidade
Refere-se ao grau de precisão nos conjuntos de dados e quão confiáveis eles são. Dados brutos coletados de várias fontes podem causar problemas de qualidade de dados que podem ser difíceis de identificar. Se eles não forem corrigidos por meio de processos de limpeza de dados, dados incorretos levam a erros de análise que podem prejudicar o valor das iniciativas de análise de negócios. As equipes de gerenciamento e análise de dados também precisam garantir que tenham dados precisos suficientes disponíveis para produzir resultados válidos.
Veracidade é o que permite uma análise de dados mais consistente e adequada, baseada em informações relevantes e, mais que isso, potencialmente utilizáveis para melhorar as operações da empresa.
Outras características do Big Data
Alguns cientistas de dados e consultores também agregam valor à lista de características do Big Data. Nem todos os dados coletados têm valor ou benefícios comerciais reais. Como resultado, as organizações precisam confirmar que os dados estão relacionados a problemas de negócios relevantes antes de serem usados em projetos de análise de Big Data.
A variabilidade também se aplica frequentemente a conjuntos de Big Data, que podem ter vários significados ou ser formatados de forma diferente em fontes de dados separadas – fatores que complicam ainda mais o gerenciamento e a análise de Big Data.
Algumas pessoas atribuem ainda mais Vs ao Big Data; várias listas foram criadas com entre 7 e 10.
Como o Big Data é armazenado e processado?
O Big Data geralmente é armazenado em um Data Lake. Embora os Data Warehouses sejam geralmente construídos em bancos de dados relacionais e contenham apenas dados estruturados, os Data Lakes podem suportar vários tipos de dados e normalmente são baseados em clusters Hadoop, serviços de armazenamento de objetos em nuvem, bancos de dados NoSQL ou outras plataformas de Big Data.
Muitos ambientes de Big Data combinam vários sistemas em uma arquitetura distribuída; por exemplo, um Data Lake central pode ser integrado a outras plataformas, incluindo bancos de dados relacionais ou um Data Warehouse. Os dados em sistemas de Big Data podem ser deixados em sua forma bruta e, em seguida, filtrados e organizados conforme necessário para usos específicos de análise. Em outros casos, é pré-processado usando ferramentas de mineração de dados e software de preparação de dados para que esteja pronto para aplicativos executados regularmente.
O processamento de Big Data exige muito da infraestrutura de computação subjacente. O poder de computação necessário geralmente é fornecido por sistemas em cluster que distribuem cargas de trabalho de processamento em centenas ou milhares de servidores comuns, usando tecnologias como Hadoop e o mecanismo de processamento Spark.
Obter esse tipo de capacidade de processamento de maneira econômica é um desafio. Como resultado, a nuvem é um local popular para sistemas de Big Data. As organizações podem implantar seus próprios sistemas baseados em nuvem ou usar ofertas gerenciadas de Big Data como serviço de provedores de nuvem.
Os usuários da nuvem podem aumentar o número necessário de servidores apenas o tempo suficiente para concluir projetos de análise de Big Data. A empresa paga apenas pelo armazenamento e pelo tempo de computação que usa, e as instâncias de nuvem podem ser desativadas até que sejam necessárias novamente.
>>> Confira a segunda parte deste guia aqui! <<<
Ou você pode também se interessar por:
- Como utilizar o feedback dos clientes para melhorar seu serviço
- A importância da diversidade e inclusão nas empresas: um caminho para o sucesso
- Como desenvolver um pensamento crítico em sua carreira
- Conheça 13 ferramentas essenciais para empreendedores iniciantes
- O que é Empreendedorismo Social e como ele está mudando o mundo