Aula 4 – Big Data (1)

Big Data: muitos dados

O que é um Exabyte? - Visual.ly
O que é um Exabyte? – Visual.ly

 

A quantidade de dados é menos importante do que a gigantesca interconexão de grupos de dados, gerando padrões.

Todas as transações online deixam rastros, uma espécie de “ferormônio” digital. Esses dados podem ser:

  • Estruturados – é a ideia clássica de uma base de dados, informações com alto grau de organização, de forma que sua inclusão em um banco de dados é transparente e facilmente acessível; e
  • Não estruturados – parecem coisa de ficção científica: não tem modelo de registro, estão misturados ou não estão organizados da forma esperada, e sua leitura tem irregularidades e ambiguidades que torna difícil entendê-los por vias tradicionais.

O Facebook, por exemplo (mais dados aqui):

  • 1,71 bilhão de usuários ativos por mês / 1,13 bilhão diariamente (dados de 27/7/16);
  • Média de amigos por usuário do sexo masculino: 145 / feminino: 166 (dados de 20/1/16);
  • Percentual de millennials (15-34 anos): 91% (dados de 16/9/15);
  • Média de graus de separação entre todos os usuários: 3.57 (dados de 4/2/16);
  • Total de horas de vídeos vistos diariamente: 100 milhões (dados de 27/1/16); e
  • Dados armazenados de usuários: mais de 300 petabytes (dados de 25/10/14).

Outros dados estão neste artigo da Forbes. Segundo a National Geographic, a NSA está construindo um data center em Utah com capacidade estimada entre 5 Zettabytes e “alguns Yottabytes”

Alimentação de uma base de dados:

  • 1ª fase: Funcionários alimentam o sistema;
  • 2ª fase: Usuários alimentam o sistema através de interações diretas ou indiretas; e
  • 3ª fase: Máquinas alimentam o sistemas automaticamente através de metadados gerados pela Internet das coisas.

Mas como se faz quando se tem muitos dados quase instantâneos? Como fazem Youtube e Facebook, entre outros? Como evitar uma sobrecarga do sistema?

Seus dados não são transferidos para o processador, mas o contrário: processadores diversos analisam conjuntos de dados.

Hardware de Big Data: Hadoop, considerado “commodity hardware”. Qualquer máquina capaz de rodar Linux (Linux Box) ou criar uma Java Virtual Machine basta. Flexível, escalável e barato, é o “lego” dos data centers.

Software de Big Data: Mapreduce. Uma tabela de referência que indica o que cada máquina faz com os dados, e todas as transações são registradas e analisadas por processadores em paralelo.

Hadoop e Mapreduce revolucionam a análise de dados

  • São rápidos (sem delays de entrada e saída);
  • São compatíveis (trabalham com dados brutos, crus);
  • São armazenáveis em memória flash (muito mais rápida do que HDs); e
  • Todas as transações são registradas e analisadas.

Big Data propicia um novo empirismo, uma revisão da teoria que define que o conhecimento vem primariamente da experiência. Enfatiza o papel da evidência, de preferência sensorial, na formação das ideias sobre a noção de ideias inatas ou tradições.

Ao aplicar análises estatísticas para enormes quantidades de dados, sistemas de Big Data inferem probabilidades: procuram os melhores sinais e padrões à medida que mais dados são alimentados, o que leva a uma natural melhoria de seus resultados ao longo do tempo. Alguns exemplos:

  • Amazon: livro ideal;
  • Google: website mais relevante;
  • Facebook: conteúdos com base nas preferências de seus usuários;
  • Waze: caminhos para fugir do trânsito; e
  • Netflix: novos filmes que atendam ao gosto do usuário.

Logo as mesmas tecnologias poderão ser aplicadas para diagnosticar doenças e recomendar tratamentos.

A amostragem sempre foi fruto de escassez de informação, típica de tempos analógicos. Com amostras muito maiores, na ordem de bilhões de registros, ou até a base de dados inteira, é possível ver detalhes que amostras pequenas não avaliariam sem uma grande margem de erro.

Bases de dados maiores desobrigam a busca por exatidão. Quando o valor é enorme, não é possível nem relevante contá-lo. O resultado satisfatório é aproximado. Pense na quantidade de automóveis, crianças ou animais em uma casa (valores pequenos, discretos e importantes) em comparação com o número de grãos de areia, moléculas ou estrelas.

Volumes pequenos precisam ser computados com exatidão. Valores muito grandes precisam de um senso de direção geral, em vez de sua análise em detalhe. O que se perde em precisão no nível micro, ganha-se em percepção no nível macro.

Três princípios de Big Data:

Imprecisão: aumentar o volume facilita a inexatidão.

  • Números errados e amostras corrompidas sempre penetraram conjuntos de dados. O que nunca foi considerado, apesar de inevitável, era aprender a viver com eles.
  • Ao partir de amostras pequenas, buscava-se a maior precisão possível. Em amostragem, a busca por exatidão era crítica, o que fazia completo sentido. um número limitado de dados poderia incorrer na amplificação dos erros e reduzir a precisão dos resultados globais.

Correlação: quantifica relações estatísticas entre dois valores de dados.

  • Correlação forte: quando um dos valores de dados muda, há grande probabilidade do outro também mudar.
  • Correlação fraca: quando um valor muda, o outro pouco se altera.

Correlações fortes não são perfeitas. É possível que dois fatos se comportem de forma semelhante por coincidência.

Reutilização dos dados. 

Às vezes o valor de uma base de dados só pode ser desencadeado quando combinado com outra, gerando relações impensadas.

Os resultados não eram descobertos antes porque a amostra estudada era pequena, o período de tempo coberto era curto, ou os dados não eram medidos, mas relatados.

Com big data a soma é mais valiosa do que seus componentes individuais.

 

Os quatro “Vs” de Big Data:

  • Volume – o tamanho da base de dados determina o valor e potencial dos dados em questão. Exemplos: transações armazenadas ao longo dos anos, interações de mídia social, sensores e comunicação máquina-a-máquina. Se no passado o volume excessivo de dados gerava um problema de armazenamento, com a diminuição dos custos outras questões emergem, como a relevância das relações em grandes volumes de dados;
  • Velocidade – novos dados são acumulados a uma velocidade sem precedentes, precisam ser administrados em tempo hábil. Sistemas de Big Data precisam lidar com enxurradas de dados em tempo quase real;
  • Variedade – dados chegam em diversos tipos e formatos. Estruturados e não-estruturados, em diversas mídias, formatos, tamanhos e formas de interconexão. Gerir, fundir e administrar diferentes variedades de dados é fundamental; e
  • Veracidade – a qualidade dos dados capturados pode variar muito. A precisão da análise depende da qualidade dos dados de origem.

Mais Vs:

  • Variabilidade – fluxos de dados podem ser altamente inconsistentes, tanto em volume, com picos periódicos, quanto em qualidade;
  • Valor da informação – informações passíveis de análise e conversão em material aplicável na tomada de decisão; e
  • Viabilidade – a gestão de dados pode se tornar um processo muito complexo. Dados tem que ser conectados e correlacionados, para que seja possível se extrair a informação desejada.

Metadados: “Dados sobre dados”

Podem ser de dois tipos:

  • Estruturais, dizem respeito ao projeto e especificações da estrutura dos dados; e
  • Descritivos, que dizem respeito ao conteúdo dos dados.

Uma das primeiras aplicações de metadados foram fichas catalográficas de bibliotecas. À medida que a informação tornou-se cada vez mais digital, metadados também passaram a ser usados para descrever dados digitais.

 

Big data, para ter valor, precisa ser bem administrada. Ela não significa infinitude automática nem substituto para a visão. Muito pelo contrário. Más análises podem gerar resultados catastróficos.

Vantagens de sistemas de Big Data:

  • Detecção de fraudes – analisa transações em tempo real, identificando padrões de comportamento anômalo
  • Análise de registro de chamadas de suporte telefônico – registros e dados de rastreamento podem ser bem aproveitados, identificando oportunidades de otimização de desempenho incremental;
  • Segmentação – para entender melhor os clientes, comportamentos e preferências. As empresas os utilizam para expandir bancos de dados com dados de mídia social;
  • Criação de modelos preditivos – governos e empresas otimizam campanhas utilizando análise de big data;
  • Compreensão e otimização de processos –otimizar varejo e descobrir tendências, de marketing a logística; e
  • Quantificação pessoal – de Relógios a privadas, sensores podem dar a seus usuários ricos insights. Mas o valor real está na análise dos dados coletivos. Serviços de relacionamento online aplicam ferramentas de Big Data e algoritmos para encontrar os pares mais adequados, entre outros.

 

Desvantagens de sistemas de Big Data:

  • Cegueira sistêmica: a ilusão da compreensão.
  • O que é correlação? O que é coincidência? O que é erro estatístico?
  • 99,9% não é 100%
  • Números são mais falíveis do que aparentam. Dados não representam a verdade, somente uma amostra estatística.
  • Reutilização de dados
  • Recombinação de dados
  • Punição preventiva (profiling)
  • Segregação e preconceito
  • Pessoas versus previsões
  • Ditadura de dados
  • Riscos de privacidade e segurança
  • Correlação não é causalidade.

Mensuração e análise de dados são ótimas. Sem elas é quase impossível progredir. Mas é preciso cautela no uso. É preciso uma transparência radical. É necessário saber QUEM usa meus dados, COMO e QUANDO.

A ignorância nunca é uma bênção. Os benefícios do conhecimento são óbvios. Mas não basta coletar os dados deve-se refletir e planejar novas metas periodicamente, identificando padrões de comportamento nocivos e recorrentes na base de dados e no pesquisador.

 

Dados: fonte de renda

Quando você não paga pelo produto você é o produto. Quando paga também é.

Data brokers: corretores de dados os coletam dados de várias fontes, em grande parte sem conhecimento de quem os fornece, normalmente combinando dados online e offline e os analisam para fazer inferências, o que pode gerar relações potencialmente sensíveis. Alegam ter:

Informações sobre 1,4 bilhão de transações realizadas e mais de 700 bilhões elementos de dados agregados um trilhão de dólares em transações de consumo;

Três bilhões de novos registros por mês a seus bancos de dados;

Cerca de 3000 registros de dados para quase todos os consumidores dos Estados Unidos;

Acxiom: faturamento entre 800 milhões e 1,1 bilhão de dólares por ano, o que representa mais de 12% do setor de marketing e serviços diretos nos EUA.

Serasa: um dos maiores corretores de dados financeiros no brasil. Comprado pela irlandesa Experian em 2007. Em 2014, a receita da filial brasileira US$ 819 milhões, 17% do faturamento global da empresa.

Dados coletados:

Dados de identificação: nome anterior, histórico de endereço, telefone, identificação governamental, data de nascimento de cada membro da família

Dados demográficos: raça e etnia, país de origem, religião, língua falada, pai idoso, crianças, escolaridade, laços familiares, demografia dos membros da família em casa, número de sobrenomes em casa, chefe de família hispânico ou latino, emprego e ocupação de cada membro da família, duração da posse ou aluguel da residência, distrito eleitoral, famílias somente com pai ou mãe, filiações religiosas ou étnicas

Dados jurídicos: falências, infrações penais e condenações, julgamentos, registros, licenças (caça ou profissional), identificação partidária;

Dados de tecnologia e mídias sociais: compras de eletrônicos, amigos e conexões, tipo de conexão, provedor de acesso, nível de uso e experiência, participação em redes sociais, membro de mais de 5 Redes Sociais, influenciador on-line, sistema operacional, compras de software, tipo de mídia publicada, compras de eletrônicos, amigos e conexões, tipo de conexão, provedor de acesso, nível de uso e experiência, participação em redes sociais, membro de mais de 5 Redes Sociais, influenciador on-line, sistema operacional, compras de software, tipo de mídia publicada

Dados residenciais e de vizinhança: moradia pública ou governamental, tipo de habitação, aquecimento e refrigeração, valor da residência, hipoteca e juros, tamanho da casa, criminalidade no bairro, número de cômodos, ano de construção

Dados de interesse geral: preferências de vestuário, participação em eventos esportivos, doações, hábito de jogo – casinos, loterias, acontecimentos da vida (aposentadoria, casamento, gravidez), assinaturas de revistas, canais de TV assistidos, animais de estimação, inclinações políticas, celebridades de preferência, gêneros de filme e música prediletos, hobbies, estilo de vida (motociclismo, outdoor / caça e tiro, nativo, new age / orgânico), membro de mais de 5 sites de compras, dados financeiros, inadimplência, categoria de crédito do cartão, dificuldades financeiras, nível de renda, crédito ativo

Dados do veículo: preferências de marca, renovação do seguro, marca e modelo, números de identificação de cada veículo de propriedade, propensão à compra de veículo novo ou usado, proprietário de motocicleta, data de aquisição, informações de compra, intenção de compra

Dados de viagens: preço mais alto pago por uma viagem, data da última viagem, passageiro frequente, propriedade de férias, tipo de férias (casino, time share, cruzeiros), destino preferido, companhia aérea preferida

Dados de comportamento de compra: montante gasto em bens, forma de pagamento preferido, canal de preferência (internet, correio, telefone), tipo de entretenimento comprado, tipo de alimentos adquiridos, média de dias entre compras, última compra (on- line e off-line), compras em catálogos populares e encomendas em catálogos de alto padrão, tamanhos das roupas, volume e tipo de livros comprados

Dados de saúde: propensão a busca por dados de saúde, doenças e prescrições online, fumante em casa, suprimentos geriátricos, uso de lentes corretivas, alergias, plano de saúde individual, usuário de saúde pública, marca mais usada de remédio, perda de peso e suplementos, compras em tópicos de saúde incluindo: alergias, artrite, colesterol, diabetes, dieta, fisiculturismo, medicina alternativa, produtos de beleza, remédios homeopáticos, ortopedia etc

Fontes de dados

Governo federal (referência dos EUA):

CENSO: demografias de bairros, como a etnia, idade, nível de escolaridade, composição familiar, renda, ocupações, e o tempo de deslocamento. estradas, endereços, distritos eleitorais e limites das cidades, municípios, subdivisões, e distritos de voto?Administração de Seguridade Social: nomes de consumidores, registros federais (equivalentes a CPFs) e datas de óbito;

Serviço postal: endereço e mudanças;

FBI e Serviço Secreto: listas de terroristas e criminosos procurados;

Agências federais e internacionais: indivíduos inelegíveis para receber contratos com o governo ou outros benefícios;

Tribunais federais fornecem informações sobre falências

Governos estaduais e municipais:

Licenças profissionais (pilotos, médicos, advogados, arquitetos) licenças recreativas (caça e pesca);

Imóveis e registros: Impostos, patrimônio, débitos, hipotecas, informações sobre propriedades (área, cômodos, benefícios);

Informações eleitorais (nome, endereço, e filiação partidária); e

Registros: de veículos, judiciais, criminais, ações cíveis e juízos, certidões de nascimento, casamento, divórcio e óbito.

Fontes comerciais:

Dados específicos de transações detalhadas sobre compras direto de varejistas. Por exemplo: sapatos de luxo, alimentos naturais, creme dental, itens relacionados a deficiências ou problemas ortopédicos), o valor da compra, a data e o tipo de pagamento utilizado. Vários dos corretores de dados também obter informações de editoras de revistas sobre os tipos de assinaturas vendidas.

Outras fontes:

  • Listas de clientes de sites de varejo, notícias e viagens, compras relacionadas à saúde;
  • Empresas de telefonia;
  • Empresas de Serviços bancários;
  • Concessionárias de veículos e corretores de imóveis;
  • Grandes varejistas; e
  • Pesquisas de marketing, registros de garantia, concursos.
  • Na maior parte das vezes os corretores de dados contratam pessoas para visitar registros locais e compilar a informação.

Daniel Kahneman: o cérebro oscila entre dois modos de pensamento:

O subconsciente, rápido, emocional, automático, frequente, instintivo e estereotípico; e

O consciente, mais lento, deliberativo, calculado, lógico e pouco frequente.

Heurísticas: atalhos mentais

Não é possível avaliar o mundo e tirar novas conclusões a cada instante, por isso é muito comum inferir resultados a partir da experiência vivida.

Vieses: erros nos atalhos.

Nem sempre o caminho mais rápido é o melhor

  • Ancoragem – O cérebro humano busca por comparações, pontos de referência para definir tamanhos, pesos, preços, conforto, viabilidade etc. Preços muito altos em um cardápio, podem levar seus clientes a considerar os valores menores como oportunidades;
  • Disponibilidade – julgamos a probabilidade de eventos de acordo com a facilidade de imaginá-los. É a ideia de que se algo pode ser imaginado, deve ser importante. A percepção das consequências associadas a uma ação está diretamente relacionada à percepção de sua magnitude;
  • Substituição – para simplificar, é comum substituir uma ideia ou questão difícil por outra mais simples. O julgamento intuitivo automático, em vez do reflexivo, acontece;
  • Otimismo e aversão à perda – o viés otimista gera a ilusão de controle, que pode ter uma utilidade na adaptação da espécie aos diferentes ambientes. O otimismo protege o indivíduo da aversão à perda, a tendência de temer a perda mais do que se valoriza os ganhos;
  • Enquadramento (framing) – pessoas reagem a uma escolha de acordo com o contexto em que ela é apresentada;
  • Custos irrecuperáveis – quando uma despesa já foi realizada e não poderá ser recuperada, a maioria continua a investir em vez de reconsiderar. Não é surpreendente que o mercado tenha dificuldades em se comportar de maneira que os economistas considerariam “racional”;
  • Vieses cognitivos –“atalhos” de pensamento, como excesso de confiança; pessimismo; efeito placebo; racionalização pós-compra; procrastinação; reciprocidade; e estereótipos. Alguns deles:
    • Apoio à escolha – tendência a se sentir bem após uma tomada de decisão por ter resolvido um conflito;
    • Avestruz – aversão a fatos perigosos ou negativos;
    • Clustering – buscar padrões em eventos aleatórios;
    • Confirmação – escutar somente a informação que confirma certezas e preconceitos;
    • Conformidade – adaptação ao grupo;
    • Conservadorismo – Dar preferência a fatos anteriores do que a elementos que os contestem;
    • Descompasso de empatia – quem está em um estado de espírito não consegue entender quem está em outro estado de espírito;
    • Disponibilidade heurística –superestimar a importância da informação disponível;
    • Expectativa – influencia inconscientemente a percepção de um resultado;
    • Frequência – palavra, pessoa ou objeto que se acabou de aprender parece estar em todos os lugares;
    • Halo – um atributo positivo de alguém é associado com a pessoa como um todo;
    • Manada – adotar uma crença com base em sua popularidade;
    • Negação de duração – a duração de um evento traumático é menosprezada;
    • Negatividade – colocar mais ênfase em experiências negativas do que positivas;
    • Percepção seletiva – expectativas influenciam a visão de mundo;
    • Ponto cego – deixar de reconhecer vieses cognitivos;
    • Resultado – julgar decisões com base em seus resultados, mesmo que tenham sido efeito de sorte a partir de decisões imprudentes, típicos de histórias vistas em retrospecto; e
    • Retorno imediato – supervalorização do retorno imediato, mesmo que seja mais prejudicial do que um ganho maior no futuro.

Slides da aula:

 

Tarefa da aula:

Analise até que ponto a vigilância de dados pode ser prejudicial para a sua vida. Uma sociedade completamente desprovida de segredos poderia ser melhor? Ou seria pior? Em que aspectos?

Escreva a sua resposta em sua página do Google Docs. Ela não deve exceder 4000 caracteres. Inclua pelo menos duas referências para fundamentar sua argumentação.

 

Alguns links relevantes:

Palestra de Daniel Kahnemann ao receber o prêmio Nobel

Definição de dados estruturados para desenvolvedores

Dados estatísticos do Facebook

Página oficial do Apache Hadoop

Tutorial de Mapreduce

Os maiores Data Centers do mundo

As maiores empresas de Big Data

Página de Sandy Pentland no MIT

Documentário: The Human face of big data

Target: descoberta de gravidez por big data

Relatório a respeito de data brokers para o congresso dos EUA

Pensador do tema:

Conheça Daniel Kahnemann, primeiro psicólogo a ganhar o Prêmio Nobel de Economia por seu trabalho a respeito da psicologia da tomada de decisões, explicando os dois modos de pensar do cérebro.

 

Documentários:

BBC Horizon: The Age of Big Data

The human face of Big Data, documentário de Sandy Smolan

The wall street code, documentário de Marije Meerman

 

Ficção:

Recomendada, mas não obrigatória:

The truman show

Minority report

Enemy of the state

 

Palestras TED

Hans rosling (2009): Deixe meus dados mudarem sua mentalidade

Dave deBronkart (2011): Conheça o e-Patient Dave

Alessandro Acquisti (2013): Porque a privacidade é importante?

Joel Selanikio (2013): A revolução de big data em assistência médica

Christopher Soghoian (2013): vigilância governamental: é só o começo

Anne Milgram (2013): Porque estatísticas inteligentes são a chave para combater o crime

Malte Spitz (2012): Sua companhia telefônica está observando

Livros

Database Nation – caps 2, 8, 11

Taming the Big Data Tidal Wave – caps 3 e 4

Dataclysm – caps 13, 14

Social physics – caps 1, 3, 10

Biga data: a revolution – caps 2, 3 e 9

 

Repositório da aula

Para facilitar a vida de todos, um repositório geral dos conteúdos da aula está aqui.

 

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *