*Este artigo foi originalmente publicado em 14/03/16 e seu conteúdo foi atualizado e estendido em 31/10/2017

Que Big Data mudou o jeito se fazer negócios já está bem claro. Agora, você já reparou como a ciência analisar grandes volumes dados também mudou nosso jeito falar?

E quem está estudando ou é interessado no assunto anda por aí se comunicando de forma diferente, tendo insights, minerando dados e de olho nos algoritmos.

Se você também quer ficar por dentro do “ Big Data”, leia nosso dicionário e alguns que precisa saber para dominá-lo.

Algoritmo

Fórmula matemática ou estatística executada por um software para realizar análises de dados. É uma sequência lógica, finita e definida de instruções que devem ser seguidas para resolver um problema ou executar uma tarefa. Ele geralmente consiste de vários cálculos.

Clique aqui para ver um exemplo de uso de algoritmo.

Amazon Web Services

Segundo a sua própria definição, “a AWS oferece soluções confiáveis com base na nuvem para ajudá-lo a cumprir requisitos empresariais”. Com clientes como Pfizer e a Marinha dos EUA, a nuvem da Amazon oferece uma gama de serviços em comércio eletrônico, banco de dados, arquivamento, jogos, marketing digital e, claro, Big Data.

Análise de sentimento

São técnicas e tecnologias utilizadas para identificar e extrair informações sobre o sentimento (positivo, negativo ou neutro) de um indivíduo ou grupo de indivíduos sobre determinado tema.

Análise preditiva

Análise preditiva é a utilização dos dados para prever tendências ou eventos futuros. Ao coletar, organizar e analisar esses dados, torna-se possível antecipar comportamentos do seu público-alvo, adequando as estratégias de negócios.

Analytics

É o conjunto que envolve a coleta de dados, seu processamento e a análise para gerar insights, ajudando nas tomadas de decisão data-driven, ou seja, baseadas em informações. No geral, é uma forma de possuir e analisar dados. Para entender melhor, considere o Analytics veloz como a Fórmula I.

BI

Sigla para Business Inteligence, ou Inteligência de Negócios, em português. Trata-se de métodos de coleta, organização e análise de informações com o objetivo de fornecer subsídios para tomadas de decisões em negócios. Isso acontece por causa da transformação de dados brutos em informações com valor estratégico.

Big Table

Sistema do Google de armazenamento de dados estruturados. A gigante norte-americana o utiliza para guardar, entre outras coisas, seus serviços Gmail, Google Earth e YouTube. Ele também está disponível para uso público por meio do Google App Engine.

Cientista de dados

Analista de dados, especialista em extrair insights de grandes volumes de informação. Processa, analisa, percebe. O cientista de dados pode ser matemático, estatístico, sociólogo, cientista da computação ou até mesmo jornalista. Ele faz parte de uma equipe multidisciplinar de visão ampla, que tem olhos voltados para negócios e a estratégia.

Saiba tudo sobre a profissão de cientistas de dados em nosso artigo sobre o tema.

Clusterização

Clusterização é o agrupamento de um conjunto de objetos, de forma que os objetos no mesmo grupo (chamado de cluster) sejam mais similares entre si do que os objetos reunidos em outros grupos ou clusters.

A clusterização é uma técnica muito utilizada tanto para mineração quanto para análise de dados. Seu uso é comum em machine learning, reconhecimento de padrões, análise de imagens, recuperação de informação e compressão de dados.

Dados estruturados X dados não estruturados

Esses termos referem-se à forma como um conjunto de dados está armazenado, influenciando diretamente na complexidade de extração de informações dali.

Dados estruturados têm uma organização lógica (muitas vezes em linhas e colunas) e favorecem bastante o trabalho de inteligência. Contêm uma pequena parcela dos dados disponíveis para extração via Big Data, mas por outro lado tornam essa tarefa muito mais simples.

Os dados não estruturados referem-se a informações sem nenhuma estruturação lógica, como postagens e comentários em redes sociais, vídeos e e-mails, por exemplo. A interpretação desses dados é um grande desafio, pois trata-se de um volume gigantesco de informações. Porém, justamente pelo alto volume, o potencial para extração de insights comercialmente relevantes é muito alto.

Baixe_aqui_seu_Ebook (3)

Dashboard

Termo utilizado para definir o painel de controle de um sistema, onde ficam reunidas informações sobre métricas, performance e também configurações.

Data lake

São os dados em grandes volumes e em seu estado natural, vindos de todos os tipos de fontes onde os usuários poderiam “mergulhar” e tirar amostras. Ou seja, um “lago” cheio de dados.

A armazenagem desse tipo de dado é mais difícil, já que geralmente eles possuem formatos e origens diversos. Essa diversidade toda, no entanto, pode ser bastante positiva, já que ela amplia as possibilidades de utilização.

Mergulhe aqui.

Data preparation

Data preparation, ou preparação de dados, é o processo de coletar, limpar, normalizar, combinar, estruturar e organizar dados para análise. Ele é o passo inicial (e fundamental) para que o trabalho com Big Data seja bem-sucedido, uma vez que aumenta a qualidade dos dados – e, consequentemente, dos resultados com data mining.

Dados “pobres”, de qualidade ruim, geram resultados incorretos e não-confiáveis ao fim do processo de uso das tecnologias de Data Science.

Data scraping

Data scraping, ou raspagem de dados, é a técnica de extrair dados de sites e transportá-los para um formato mais simples e maleável, a fim de serem analisados e cruzados com mais facilidade.

Em vários casos, os dados necessários para um trabalho de análise estão disponíveis, porém em sites de navegabilidade ruim ou em bancos difíceis de manipular. Para coletar automaticamente e visualizar essas informações, recorre-se a softwares conhecidos como scrapers.

Data mining

Data mining, ou mineração de dados, é o processo de descobrir informações relevantes em grandes quantidades de dados armazenados, estruturados ou disponíveis em qualquer outro tipo de “depósito”. É um passo essencial para se adquirir conhecimento sobre a concorrência ou o seu próprio produto.

Depois de uma mineração bem realizada, entra em cena o Analytics que já falamos acima. A junção deles é decisiva para empreendedores que desejam garimpar negócios.

Deep learning

Deep learning é uma subárea de machine learning que trata de modelos vagamente inspirados no cérebro humano, chamados de redes neurais.

Essa classe de modelos recentemente tem se mostrado extremamente eficaz para diversos problemas de aprendizado de máquina, chegando muitas vezes a alcançar performance próxima ou superior à humana.

Escalabilidade

Característica de um sistema, serviço ou processo de lidar com volumes crescentes de trabalho, mantendo performances satisfatórias mesmo diante de aumentos significativos de demanda.

Um sistema escalável deve estar preparado para suportar aumentos de carga significativos quando os recursos de hardware e software são requeridos.

Gamificação

É a transformação em jogo de algo que, bem, normalmente não seria um jogo. No final das contas, a gamificação é uma estratégia de interação entre pessoas e empresas, com base no oferecimento de incentivos que estimulem o engajamento do público com as marcas de maneira lúdica.

Gigabyte X Terabyte X Petabyte

Esses termos referem-se ao tamanho de arquivos lógicos para armazenamento em mídias ou servidores.

Para se ter uma noção, uma música em MP3 tem em média 3 a 5 Megabytes de tamanho, dependendo da qualidade do áudio. Sabendo disso, você pode ter noção do volume de armazenamento Gygabytes, Terabytes e Petabytes abaixo:

  • Um Gygabite (Gb) tem 1.024 Megabytes (Mb).
  • Um Terabyte (Tb) tem 1.024 Gygabites.
  • Um Petabyte (Pb) tem 1.024 Terabytes.

Hadoop

O Hadoop é um projeto de software livre com licenciamento da Apache Software Foundation. Ele tem grande utilidade para exploração de Big Data, pois viabiliza o processamento distribuído de grandes volumes de dados utilizando diversos computadores interligados em clusters.

Estes clusters podem conter até milhares de máquinas, cada uma delas disponibilizando capacidade de processamento e armazenamento locais. Dessa forma, em vez de depender de um único hardware, a biblioteca fornece serviços de alta disponibilidade baseados em grids de computadores.

Inteligência

Inteligência Artificial (AI) é um subcampo da Ciência da Computação. Seu objetivo é permitir o desenvolvimento de máquinas inteligentes, que pensam, trabalham e reagem como seres humanos.

Algumas das atividades relacionadas às máquinas e computadores “dotados” de IA são reconhecimento de fala, aprendizado, planejamento e resolução de problemas.

Falando em IA, você já conhece a linha de tempo da Inteligência Artificial?

Internet das Coisas ()

É a capacidade de recolher, analisar e transmitir dados para as coisas, aumentando a utilidade delas. E estamos falando de qualquer tipo de coisa, desde carros que se autodirigem a geladeiras que fazem listas de compras de supermercado.

A internet das coisas também contribui, e muito, para o relacionamento das empresas com os seus clientes.

Machine learning

Machine learning (ou aprendizado de máquina) refere-se a algoritmos e técnicas por meio dos quais os sistemas “aprendem”, de maneira autônoma, com cada uma das tarefas que realizam. Dessa forma, podemos dizer que o computador aperfeiçoa seu desempenho em determinada tarefa a cada vez que ela é realizada.

Quer se aprofundar em machine learning? Então acesse nosso artigo exclusivo sobre o assunto.

Metadata

Termos em inglês para metadados. Basicamente, são campos de dados que trazem informações sobre outros dados. Os metadados contêm informações que explicam um determinado arquivo ou conjunto de arquivos, geralmente de forma compreensível por sistemas informacionais.

Nuvem (cloud)

São dados ou softwares rodando em servidores remotos que não tomam espaço “físico” na sua máquina – seja ela um celular, notebook ou desktop, por exemplo. As informações são armazenadas em nuvem e se tornam acessíveis pela internet, de qualquer lugar onde o dono dos dados esteja. Descubra como navegar nas nuvens é mais fácil do que você imagina, clicando aqui.

Processamento de linguagem natural (PLN)

Processamento de linguagem natural (PLN) é um componente da inteligência artificial que refere-se à habilidade de um software analisar, entender e derivar sentido à linguagem humana (esteja ela como fala, texto ou outros formatos) de maneira inteligente e útil.

Por meio do PLN, desenvolvedores conseguem executar tarefas como resumo automático, tradução, reconhecimento de entidades nomeadas, extração de relacionamento, análise de sentimento, reconhecimento de fala e segmentação tópica.

Sistemas de recomendação

Sistemas de recomendação são métodos baseados em machine learning  que ajudam usuários (clientes, visitantes, leitores) a descobrir itens e conteúdos (produtos, filmes, eventos, artigos). Tais sistemas trabalham prevendo a classificação que os usuários dariam a cada item e exibindo para eles aqueles itens que (provavelmente) classificariam bem.

Sistemas de recomendação têm sido utilizados nos mais variados serviços, como streaming de vídeos e músicas, assim como no varejo online  Não à toa, Netflix, Spotify e Amazon, líderes de seus respectivos mercados, são referência no uso de sistemas de recomendação.

Spark

É um framework de código fonte aberto para computação distribuída. O Spark provê uma interface para programação de clusters com paralelismo e tolerância a falhas, e é uma ferramenta extremamente útil para analisar e processar grandes volumes de dados.

SQL X NoSQL X NewSQL

SQL é a sigla para “Structured Query Language”. Atualmente, é a linguagem padrão para gerenciamento de dados, com a melhor interação com databases no modelo relacional. Uma de suas principais características é o armazenamento de dados em linhas e colunas.

Um banco de dados NoSQL segue a mesma lógica do SQL, mas em vez de conter dados em linhas e colunas, permite a inclusão em qualquer ponto e a qualquer tempo.

Já o NewSQL utiliza o mesmo modelo de dados relacionais do SQL, porém com melhor performance para aplicar o modelo relacional à arquitetura distribuída. Essa diferença possibilita a superação de velhos problemas de escalabilidade.

Visualização de dados

Visualização de dados é a apresentação de dados em um contexto visual/gráfico. Padrões, tendências e correlações de dados que poderiam passar despercebidos em texto podem ser expostos e reconhecidos mais facilmente por meio de softwares de visualização.

Essa técnica facilita o entendimento do trabalho com dados, inclusive por parte de tomadores de decisão, que conseguem extrair mais e melhores insights dos resultados mostrados visualmente.

Quer utilizar visualização de dados em seu dia a dia? Então conheça 20 ferramentas que facilitarão a sua vida!

Gostou da lista? Sentiu falta de algum termo para complementar o seu vocabulário de Big Data? Compartilhe sua opinião com a gente!



Source link
Bigdata and data center

LEAVE A REPLY

Please enter your comment!
Please enter your name here