“Big Data” é um termo que há 10 anos atrás estava no “Hype Cycle” de tecnologias emergentes do Gartner, mas que sumiu desta lista em 2015, logo após entrar na área de “choque de realidade” (“Trough of disillusionment”), onde a tecnologia começa a ser utilizada e seus problemas começam a fazer parte da realidade, não apenas seus possíveis benefícios.
Mas todos sabemos que o volume de dados gerados pela humanidade só cresce a cada ano e, por isso, parece não fazer sentido o desaparecimento do termo. Porém, apenas explicar o motivo do seu desaparecimento com poucas palavras não nivela o conhecimento para que realmente haja o entendimento da razão por trás de seu “desuso” e, para vos deixar por dentro do que é, como tornou-se viável e, finalmente, como desapareceu o “Big Data”, que o convido para me acompanhar nesta pequena viagem no tempo, onde compartilho um pouco de história da tecnologia.
Tecnologias em evidência no ano de 2014, segundo relatório do Gartner.
Tecnologias em evidência no ano de 2015, segundo relatório do Gartner, com a ausência do termo “Big Data”.
https://www.datanami.com/2015/08/26/why-gartner-dropped-big-data-off-the-hype-curve/
A evolução da tecnologia e o surgimento do “Big Data”
Uma vez meu professor de Matemática explicou que o “infinito nada mais é do que aquilo que é grande demais para percebermos a diferença quando se adiciona ou se retira algo” – na prática, se tivermos um cesto com 10 mil maçãs, temos infinitas maçãs… Isso porque se alguém roubar uma maçã deste cesto, não seremos capazes de notar. Assim, podemos dizer que “Big Data” seria “qualquer volume grande demais para uma ferramenta comum processar no tempo necessário”.
E estou trazendo à tona esta memória porque há a teoria dos 3 “Vs” do “Big Data”, onde definimos que se há grande volume de informação, variedade de tipos de dados e, finalmente, necessidade de se processar tudo isso com velocidade, então é necessária uma solução adequada para tal. Voltando ao meu professor, começamos a tender ao infinito… e os dados começam a nos escapar pelas mãos se não tomarmos o cuidado adequado.
A publicação que tornou o termo “Big Data” famoso, em 2012, com os “3 Vs” e um exemplo dos vários “Vs” que começaram a ser criados depois.
E aí é como se, com o advento da internet e de todo este mundo interconectado em que começamos a viver após a década de 1990, tivéssemos acelerado nossa tendência ao infinito, de forma que não fosse mais possível trabalhar com os dados da forma tradicional. Nesta época surgiram os comunicadores pessoais como o “ICQ”, criou-se e popularizou-se o formato “MP3”, que tornou a música fácil de distribuir e, os CDs, invenção da década anterior, tornaram-se populares e começaram a ser utilizados para armazenar dados por qualquer um com um gravador de CDs em seu PC, uma revolução se comparados aos discos flexíveis (“floppy disks”, em Inglês), já que um CD guardava até 700 Mb de dados, enquanto um disquete chegava a meros 2,88 Mb (o normal era ainda metade disso). Também nesta década surgiram a Amazon (1994) e o Google (1998). O Netflix também nasceu neste período, 1997, mas ainda não trabalhava com “streaming”, pois nem havia velocidade suficiente na internet para isso (neste tempo era uma locadora de vídeos, algo já obsoleto actualmente).
O nosso mundo em rede, a internet e os dispositivos portáteis geraram uma avalanche de informação e, nos anos 2000, com o crescente barateamento do hardware e aumento de capacidade computacional, empresas de internet começaram a conseguir encontrar soluções para seus problemas, mas ao mesmo tempo houve uma nova explosão de informação com os “smartphones”. O iPhone, de 2007, foi um divisor de águas e nos trouxe o conceito de “Apps”, deixando o telefone com mais jeito de computador (e, com estes dispositivos, tornou-se possível carregar no bolso o mesmo poder de computação que levou o homem à Lua). Outra revolução foi a banda larga de internet, que permitiu que vídeos começassem a ser utilizados na rede – isso porque, até então, conectava-se à internet utilizando as linhas de telefonia (através dos “modems”, aparelhos que utilizavam o som para trocar informações entre computadores).
A partir daí, lidar com textos, imagens, vídeos, encontrar páginas e informações específicas de forma rápida, trabalhar em redes espalhadas ao redor do globo, monitorizar visitas a páginas e servidores, comprar em lojas virtuais, visualizar mapas e procurar rotas neles tornaram-se tarefas corriqueiras e necessárias…
Mas estas tarefas “novas” não tinham as mesmas necessidades dos problemas de negócios comuns daquela época: elas exigiam armazenamento e reconhecimentos de textos, indexação de grandes volumes de informação, trabalhar com imagens, trabalhar com grafos (para achar rotas melhores e armazenar caminhos), administrar acessos simultâneos, garantir disponibilidade 24×7 e, principalmente, trabalhar com padrões de informação que não cabiam nos modelos tradicionais, pois o mundo tinha ficado muito mais complexo, uma vez que começou a lidar com a vida real e desorganizada, com as coisas humanas. E de um modo nunca antes possível.
Com a necessidade veio disrupção, uma vez que os “jeitos” comuns de trabalhar não estavam gerando a performance necessária, nem estavam com os custos atraentes. As empresas de internet eram novas e não tinham orçamentos gigantescos como departamentos de defesa e empresas do sector financeiro! Assim, o Linux ganhou força, bem como os movimentos “open source”, a computação distribuída começou a ser utilizada em maior escala, permitindo que computadores mais simples “unissem” forças para gerenciar dados e cortar custos, pois um super servidor (ou “mainframes” – como era o modelo dominante de computação inicial), muitas vezes, tinha o custo superior ao da folha de pagamento de departamentos inteiros de uma instituição.
Para ilustrar parte da evolução que permitiu toda esta revolução na década de 2000, deixo a seguir uma linha do tempo dividida em duas partes: a de hardware, com a engrenagem vermelha, e a de software, com o disco flexível em azul (deixo os textos em inglês para facilitar buscas adicionais na internet).
Big Data e a evolução da computação: perspectiva de hardware e software.
Analytics, orientação a dados e “Big Data”
Vamos voltar no tempo novamente para explicar um pouco melhor outros termos e tendências que culminaram no que se chamou “Big Data Analytics”. Assim, em paralelo a todo este cenário de como a tecnologia e os dados invadiram a vida das pessoas e mudaram seus hábitos, as empresas tradicionais, como bancos e estatais, também viam que toda aquela informação gerada por seus sistemas deveria ser utilizada a seu favor. Nos Estados Unidos e Europa este processo começou mais cedo e, neste caso, voltamos às décadas de 1970 e 1980.
Neste período, para as pessoas comuns, computador era uma distracção de amantes da electrónica, um brinquedo diferente e curioso, e os primeiros computadores pessoais estavam surgindo, mas sem disco duros, monitores e, às vezes, nem teclados. Nas empresas já havia algumas pioneiras que possuíam sistemas, incluindo grandes empresas públicas, bancos e “novatas” ligadas a universidades e que prestavam serviços ao governo (a IBM, por exemplo, nasceu por seu fundador envolver-se em um concurso do governo dos EUA para fazer o censo populacional na década de 1890 – produzindo hardware e software para a tarefa; a SAS, umas das empresas líderes em Analytics, por sua vez, nasceu após seus fundadores auxiliarem o governo do estado da Carolina do Norte, nos EUA, a avaliarem dados de agricultura – utilizando o mainframe da universidade local e muito conhecimento estatístico).
O início da computação moderna, nas décadas de 1940 e 50, exigia grande necessidade de recursos financeiros e físicos, pois os computadores ocupavam salas inteiras, a computação era cara e para poucos. Mas a rápida evolução da electrónica ajudou a diminuir os tamanhos dos equipamentos e a aumentar suas capacidades (com especial homenagem ao transístor, inventado em 1949, e ao microchip, de 1960). A criação do sistema Ethernet (para comunicação rápida em rede), em 1973, permitiu várias melhorias na comunicação entre computadores e deu um “upgrade” às redes locais de empresas e instituições, permitindo melhorar a comunicação entre computadores, diminuindo a necessidade constante de transporte dos dados entre as máquinas, uma vez que elas poderiam trocar informações entre si através da rede local.
Parece simples, mas foi a primeira revolução nos custos, pois permitiu que os “mainframes” deixassem de ser a única alternativa viável para quem quisesse se informatizar. Na década de 1980, com a invenção do primeiro IBM PC (que já nasceu como uma arquitectura de hardware aberta, onde qualquer fabricante poderia fazer seu computador compatível), e, à medida que a Lei de Moore se cumpria (a capacidade dos microchips deveria dobrar em intervalos de 18 a 24 meses), o poder de processamento melhorava e o tamanho das máquinas diminuía.
Assim, iniciou-se a era dos servidores e redes distribuídos, com as redes cliente-servidor se espalhando por todo o mundo. Os dados saíram também dos “mainframes” e foram criados os sistemas gerenciadores de bases de dados, ou “bases de dados SQL”. E este foi o início do cenário onde os dados passaram a estar em um servidor, as aplicações em outro. E podíamos avaliar os dados com maior facilidade, até mesmo com uma linguagem própria para isso, chamada de SQL, a “Structured Query Language” – ou linguagem de consulta estruturada.
A evolução começou a acelerar já na década de 1980, onde a ideia de criar bases de dados analíticas tomou força e ganhou um nome: “data warehouse”. E aí nasceram as plataformas de “Business Intelligence”, ou “BI”, que evoluíram e foram ocupando espaço nas empresas na década seguinte. A análise de dados foi se apropriando não apenas de técnicas de computação, mas também da Estatística. E o interesse dos estatísticos na computação vinha desde as décadas de 1920 e 30, com o uso das máquinas perfuradoras de cartão que faziam o censo dos EUA, produzidas pela IBM e que podiam ser encontradas em laboratórios de grandes Universidades. Nestes laboratórios estudavam-se formas de aprimorar modelos de análise de dados e fazer predições com as informações analisadas.
Assim, “Analytics”, “BI” e orientação a dados foram se tornando o novo normal para as empresas e suas estratégias. Mas esta estrutura ainda estava nas empresas grandes, restrita a orçamentos generosos e, nesta realidade, quando era necessário melhorar o equipamento, utilizava-se um disco duro maior, um processador melhor e mais memória (até o limite da máquina)… Mas isso ia ficando economicamente difícil, pois evoluir é chegar ao modelo topo de gama, que sempre é mais caro, uma lógica que permanece para qualquer produto de tecnologia até hoje. Este problema era o que tecnicamente chamamos de “escalabilidade vertical”, ou seja, o jeito de melhorar o equipamento é fazer um “upgrade”. Sempre trocar uma peça por outra com maior velocidade, ou capacidade, seja de armazenamento ou processamento.
E aí chegamos às limitações que faziam o “Big Data” estar no “hype” das tecnologias emergentes: a quase milagrosa solução para lidar com o crescente volume e variedade de dados com a velocidade necessária e com um custo que tornasse o processo viável economicamente. Como seria isso possível? Isso é o que veremos na segunda e última parte deste artigo, a ser publicada brevemente.
Já assistiu aos nossos vídeos no YouTube? Inscreva-se no nosso canal clicando aqui !!!