top of page
  • Geovana Sousa

O Que é Data Science?

certeza de que, independentemente da sua área de atuação, provavelmente você já escutou o termo Data Science. Ok, mas o que é essa tal Ciência de Dados que tanto falam por aí? Bom, é exatamente isso issoque vou te explicar neste post.



uma boa parcela da população mundial tem acesso à internet, de acordo com um estudo promovido pelo Hootsuit em parceria com o We Are Social, são aproximadamente 4,7 bilhões de pessoas conectadas à internet ao redor do mundo. Seja com seus smartphones ou um computador, essas pessoas estão gerando um rastro tecnológico ao acessarem sites, redes sociais, aplicativos, entre outros. E, segundo o IDC (International Data Corporation) – organização que realiza estudos anuais para prever e mensurar a quantidade de dados criados, consumidos e armazenados no mundo – em 2020 foram criados ou replicados cerca de 64,2 ZB (Zettabyte) de dados. Agora vamos analisar o que essa informação significa, um smartphone mais básico possui 64GB de memória, fazendo uma comparação, teríamos um pouco mais de 1 trilhão de smartphones representando a quantidade de dados gerados em um ano.


Com esse grande avanço, as empresas viram uma oportunidade para obter vantagem competitiva no mercado. Para que isso fosse possível, foi necessário que as antigas equipes separadas em pequenos números de estatísticos, modeladores e analistas começassem a se especializar no estudo avançado dos dados, utilizando ferramentas tecnológicas para lidar com o grande volume de informações de maneira mais eficiente.


E toda essa informação trazida no texto acima não foi sem um propósito, afinal, você precisava enxergar uma necessidade para a utilização da Ciência de Dados.



Mas afinal, o que é Data Science?


Data Science é um conjunto de princípios fundamentais e ferramentas interdisciplinares que são aplicadas com o foco em extrair conhecimento dos dados.


Por conta da quantidade de dados que existem, podemos encontrar suas aplicações em diversos lugares e muitas vezes nem percebemos. Um exemplo muito conhecido é a plataforma do Netflix que utiliza Ciência de Dados para fazer melhores recomendações para os usuários. Entretanto, existem algumas que são pouco conhecidas, ou passam despercebidas, pelo público. Uma que vem sendo muito utilizado por empresas é a análise de comportamento de usuários em seus websites, mais conhecido como Digital Analytics. Eles utilizam ferramentas, como o Google Analytics, para observar quanto tempo seus usuários estão passando em cada página, ou se estão colocando compras no carrinho e não finalizando a venda, entre outras ações. Mas por que colher essas informações? Porque assim, conseguem entender o que está acontecendo com seus usuários e trabalhar sobre os problemas, se estão achando o conteúdo do site fraco e passam pouco tempo lendo seus artigos eles podem investir o tempo em um melhor planejamento e oferecer um conteúdo que esteja de acordo com seu público.


E essas são apenas algumas das diversas aplicações que são possíveis.



É muito comum você ouvir que os profissionais dessa área, mais conhecidos como Cientistas de Dados, precisam apenas ter em seu repertório conceitos matemáticos, estatístico e de programação. Mas não é bem assim que funciona.


A Ciência de Dados, apesar de estar bem claro, é uma ciência, ou seja, é um conjunto de conhecimentos sistematizados adquiridos pela observação, identificação, pesquisa ou explicação de fatos baseados na metodologia científica. E para que seja assim, exige profissionais completos que tenham conhecimento das ferramentas, mas também tenham entendimento de negócios. Além do mais, eles precisam saber se comunicar muito bem, para entender o problema e a real necessidade que ele apresenta, devem saber se fazer entender, ou seja, precisam saber passar os resultados que obtiveram para qualquer pessoa, independente de conhecimento técnico da área.


Algo mais do que fundamental, é que os profissionais entendam o processo por trás da Ciência de Dados, não só sigam padrões, mas tenham esse olhar analítico sob os acontecimentos e consigam estruturar uma solução ideal para cada tipo de problema.


Para que esse desenvolvimento seja um pouco mais fácil, foi criado um tipo de mini manual que demonstra as principais etapas de um processo da área.


O Ciclo de Vida da Ciência de Dados


Também conhecido como Data Science Pipeline, é um ciclo que define as fases que precisam ser realizadas para que tenha sucesso na implementação de um projeto de dados. Entretanto, ele não é algo fixo, existem diversas versões que podem ser adaptadas para uma empresa ou uma aplicação específica. Mas vamos ver o ciclo encontrado mais facilmente.




Como podemos ver no fluxograma acima, um projeto de Data Science pode ser dividido em cinco etapas principais, e para que você possa entender melhor como elas funcionam vamos ao um exemplo prático.


Imagine que você trabalhe em uma loja de varejo e, como em todos os anos, será realizada uma grande promoção de Black Friday dos principais produtos. Meses antes, seus supervisores definem como meta obter um lucro maior e diminuir a quantidade de erros de compra, pois no ano anterior alguns produtos ficaram em estoque enquanto outros se esgotaram rapidamente, não atendendo a demanda total. Você que possui esse olhar mais analítico, enxerga uma possibilidade de aplicar as ferramentas de Data Science para prever a demanda dos produtos de acordo com a base de dados da empresa.


Para isso, você irá seguir as etapas básicas do Ciclo de Vida para encontrar a melhor solução.


· Extração: Essa é a fase inicial onde são coletados os dados estruturados ou não-estruturados vindos de todas as fontes relevantes para o projeto.


Sendo assim, você decide extrair todas as vendas dos produtos que entram na promoção dos últimos 5 anos do evento.


· Preparação: durante esta fase, é realizado o tratamento dos dados para um formato que possam ser utilizados em modelos de análise.


É aqui que você irá trabalhar com alteração no seu banco de dados, deixando as informações em valores numéricos, e garantir que não existam valores nulos.


· Pré-processamento ou Processamento: fase onde trabalhamos para encontrar padrões, erros ou divergências e determinar o melhor método de análise ou modelagem para o problema.


Após tratar todos os dados você percebe que os produtos parecem vender um pouco mais a cada ano, uns mais do que outros. E assim decide que um algoritmo de regressão linear seria o ideal.


· Análise: aqui é onde o background mais técnico entra em campo. É a fase em que será aplicado os algoritmos de análise preditiva, machine learning, ou outros.


É nesta etapa que você aplica a regressão e analisa se os resultados são favoráveis, utilizando métodos matemáticos para calcular os erros de predição. Com isso, percebe que o modelo apresenta resultados positivos e decide continuar o processo.


· Comunicação: durante esta fase, suas habilidades de storytelling entram em ação, você precisa compartilhar de maneira eficiente os resultados que obteve e mostrar o porquê de seguirem suas recomendações.


Você decide por criar relatórios com gráficos bem intuitivos mostrando o comportamento linear das vendas dos produtos durante os últimos anos, e com a previsão de venda para o ano atual e os apresenta para a administração.



E assim termina o ciclo. Ou não...


É, realmente a ideia é que ele não termine após uma aplicação e você continue refazendo o mesmo processo nos anos seguintes para que consiga melhorar cada vez mais suas previsões.




Então para revisar o que falamos, Data Science é um conjunto de ideias, ferramentas e conceitos multidisciplinares que se combinam para extrair insights de dados. Suas aplicações são inúmeras podendo ir de simples recomendações de produtos até diagnosticar câncer em um paciente.



 

Espero que tenha gostado do conteúdo e que volte mais vezes. Deixe aqui sua resposta se já conhecia Data Science ou se conhece algum outro tipo de aplicação.


Não se esqueça de seguir o perfil no LinkedIn para não perder as próximas atualizações 😉

Posts Relacionados

Ver tudo

Comments


bottom of page