Tecnologia

Big Data: guia prático para ficar por dentro (Parte 2)

Esta é a continuação do nosso guia sobre Big Data. Para ver a primeira parte, confira aqui: Big Data: guia prático para ficar por dentro (Parte 1)

Como funciona o Big Data Analytics

Para obter resultados válidos e relevantes de aplicativos Big Data Analytics, os cientistas de dados e outros analistas de dados devem ter uma compreensão detalhada dos dados disponíveis e uma noção do que estão procurando neles. Isso torna a preparação de dados, que inclui criação de perfil, limpeza, validação e transformação de conjuntos de dados, uma primeira etapa crucial no processo de análise.

Depois que os dados são coletados e preparados para análise, várias disciplinas de Ciência de Dados e análise avançada podem ser aplicadas para executar diferentes aplicativos, usando ferramentas que fornecem recursos e capacidades de análise de Big Data. Essas disciplinas incluem aprendizado de máquina e seu desdobramento de aprendizado profundo, modelagem preditiva, mineração de dados, análise estatística, análise de streaming, mineração de texto e muito mais.

Usando os dados do cliente como exemplo, os diferentes ramos de análise que podem ser feitos com conjuntos de Big Data incluem o seguinte:

  • Análise comparativa. Examina as métricas de comportamento do cliente e o envolvimento do cliente em tempo real para comparar os produtos, serviços e marcas de uma empresa com os de seus concorrentes.
  • Listening de redes sociais. Analisa o que as pessoas estão dizendo nas mídias sociais sobre um negócio ou produto, o que pode ajudar a identificar possíveis problemas e públicos-alvo para campanhas de marketing.
  • Análise de marketing. Fornece informações que podem ser usadas para melhorar as campanhas de marketing e ofertas promocionais de produtos, serviços e iniciativas de negócios.
  • Análise de sentimentos. Todos os dados coletados sobre os clientes podem ser analisados ​​para revelar como eles se sentem em relação a uma empresa ou marca, níveis de satisfação do cliente, possíveis problemas e como o atendimento ao cliente pode ser melhorado.

Tecnologias de gerenciamento de Big Data

Hadoop, uma estrutura de processamento distribuído de código aberto lançada em 2006, inicialmente estava no centro da maioria das arquiteturas de Big Data. O desenvolvimento do Spark e de outros mecanismos de processamento empurrou o MapReduce, o mecanismo integrado ao Hadoop, mais para o lado. O resultado é um ecossistema de tecnologias de Big Data que podem ser usadas para diferentes aplicativos, mas geralmente são implantadas juntas.

Plataformas de Big Data e serviços gerenciados oferecidos por fornecedores de TI combinam muitas dessas tecnologias em um único pacote, principalmente para uso na nuvem. Atualmente, isso inclui:

  • Amazon EMR (anteriormente Elastic MapReduce)
  • Plataforma de dados Cloudera
  • Google Cloud Dataproc
  • HPE Ezmeral Data Fabric (anteriormente MapR Data Platform)
  • Microsoft Azure HDInsight

Para organizações que desejam implantar sistemas de Big Data por conta própria, seja no local ou na nuvem, as tecnologias disponíveis, além do Hadoop e do Spark, incluem as seguintes categorias de ferramentas:

  • Repositórios de armazenamento, como o Hadoop Distributed File System (HDFS) e serviços de armazenamento de objetos em nuvem que incluem Amazon Simple Storage Service (S3), Google Cloud Storage e Azure Blob Storage.
  • Estruturas de gerenciamento de cluster, como Kubernetes, Mesos e YARN, gerenciador de recursos e agendador de tarefas integrado do Hadoop, que significa Yet Another Resource Negotiator, mas é comumente conhecido apenas pela sigla.
  • Mecanismos de processamento de fluxo, como Flink, Hudi, Kafka, Samza, Storm e os módulos Spark Streaming e Structured Streaming integrados ao Spark.
  • Bancos de dados NoSQL que incluem Cassandra, Couchbase, CouchDB, HBase, MarkLogic Data Hub, MongoDB, Neo4j, Redis e várias outras tecnologias.
  • Plataformas de data lake e data warehouse, entre elas Amazon Redshift, Delta Lake, Google BigQuery, Kylin e Snowflake.
  • Mecanismos de consulta SQL, como Drill, Hive, Impala, Presto e Trino.

Desafios do Big Data

Em conexão com os problemas de capacidade de processamento, projetar uma arquitetura de Big Data é um desafio comum para os usuários. Os sistemas de Big Data devem ser adaptados às necessidades específicas de uma organização, um empreendimento DIY que exige que as equipes de TI e gerenciamento de dados reúnam um conjunto personalizado de tecnologias e ferramentas. 

A implantação e o gerenciamento de sistemas de Big Data também exigem novas habilidades em comparação com as que os administradores de banco de dados e desenvolvedores focados em software relacional normalmente possuem.

Ambos os problemas podem ser amenizados usando um serviço de nuvem gerenciado, mas os gerentes de TI precisam ficar de olho no uso da nuvem para garantir que os custos não saiam do controle. Além disso, migrar conjuntos de dados locais e processar cargas de trabalho para a nuvem costuma ser um processo complexo.

Outros desafios no gerenciamento de sistemas de Big Data incluem tornar os dados acessíveis a cientistas e analistas de dados, especialmente em ambientes distribuídos que incluem uma combinação de diferentes plataformas e armazenamentos de dados.

Para ajudar os analistas a encontrar dados relevantes, as equipes de análise e gerenciamento de dados estão criando cada vez mais catálogos de dados que incorporam funções de gerenciamento de metadados e linhagem de dados. O processo de integração de conjuntos de Big Data também costuma ser complicado, principalmente quando a variedade e a velocidade dos dados são fatores.

Chaves para uma estratégia eficaz de Big Data

Em uma organização, desenvolver uma estratégia de Big Data requer uma compreensão das metas de negócios e dos dados atualmente disponíveis para uso, além de uma avaliação da necessidade de dados adicionais para ajudar a atingir os objetivos. Os próximos passos a serem tomados incluem o seguinte:

  • priorizando casos de uso e aplicativos planejados;
  • identificar novos sistemas e ferramentas que são necessários;
  • criar um roteiro de implantação;
  • avaliar as habilidades internas para ver se é necessário retreinamento ou contratação.

Para garantir que os conjuntos de Big Data sejam limpos, consistentes e usados adequadamente, um programa de governança de dados e processos de gerenciamento de qualidade de dados associados também devem ser prioridades. Outras práticas recomendadas para gerenciar e analisar Big Data incluem focar nas necessidades de negócios de informações sobre as tecnologias disponíveis e usar a visualização de dados para auxiliar na descoberta e análise de dados.

Práticas e regulamentos de coleta de Big Data

À medida que a coleta e o uso de Big Data aumentaram, também aumentou o potencial de uso indevido de dados. Um clamor público sobre violações de dados e outras violações de privacidade pessoal levou a União Europeia a aprovar o Regulamento Geral de Proteção de Dados (GDPR), uma lei de privacidade de dados que entrou em vigor em maio de 2018.

Seguindo o mesmo modelo da GDPR, o governo brasileiro promulgou em agosto do mesmo ano uma lei semelhante, adaptada à realidade do País. A LGPD – Lei Geral de Proteção de Dados, Lei nº 13.709/2018, no entanto, somente em agosto de 2021 passou a ter sua implementação finalizada, exigindo uma grande movimentação das empresas para se adequarem às normas, sob risco de multas pesadas em não conformidades.

Para garantir o cumprimento dessas leis, as empresas precisam gerenciar cuidadosamente o processo de coleta de Big Data. Controles devem ser implementados para identificar dados regulamentados e impedir que funcionários não autorizados os acessem.

O lado humano do Big Data

Em última análise, o valor comercial e os benefícios das iniciativas de Big Data dependem dos trabalhadores encarregados de gerenciar e analisar os dados. Algumas ferramentas de Big Data permitem que usuários menos técnicos executem aplicativos de análise preditiva ou ajudem as empresas a implantar uma infraestrutura adequada para projetos de Big Data, minimizando a necessidade de hardware e know-how de software distribuído.

Big Data pode ser contrastado com Small Data, um termo que às vezes é usado para descrever conjuntos de dados que podem ser facilmente usados para self-service BI ou análises descritivas. Um axioma comumente citado é: “Big Data é para máquinas; Small Data é para pessoas”.

>>> Perdeu a primeira parte do guia? Acesse aqui! <<<

Ou confira mais artigos:

W. Ciambroni

Compartilhar
Publicado por:
W. Ciambroni

Posts Recentes

Como utilizar o feedback dos clientes para melhorar seu serviço

Já parou para pensar no tesouro que está escondido nas opiniões dos seus clientes? Pois…

9 meses atrás

A importância da diversidade e inclusão nas empresas: um caminho para o sucesso

Você já parou para pensar como seria trabalhar em um ambiente onde todas as pessoas…

9 meses atrás

Como desenvolver um pensamento crítico em sua carreira

Você já se pegou em uma reunião de trabalho, cercado por colegas que parecem ter…

9 meses atrás

Conheça 13 ferramentas essenciais para empreendedores iniciantes

E aí, futuro magnata dos negócios! Pronto para embarcar na aventura de empreender, mas sem…

9 meses atrás

O que é Empreendedorismo Social e como ele está mudando o mundo

Você já se perguntou como podemos usar os negócios para fazer o bem? É exatamente…

9 meses atrás

Qualidades de um líder eficaz: como desenvolvê-las e inspirar sua equipe

Como podemos nos destacar em um ambiente empresarial em constante evolução, onde a competição é…

9 meses atrás