Paulistano de nascimento e mineiro de coração, Raphael Campos é um dos cientistas de dados da Hekima. Bacharel em Ciência da Computação pela Universidade Federal de Viçosa e Mestre pela Universidade Federal de Minas Gerais, na área de machine learning (aprendizado de máquina), em um ano de empresa ele já participou de projetos com grandes clientes, como Ambev, Saint-Gobain e Somos Educação.

Batemos um papo com Raphael para conhecer um pouco do trabalho de um cientista de dados. Tem interesse em se tornar um data scientist, ou mesmo entender como é a rotina de um profissional de Ciência de Dados? Então leia a entrevista abaixo!

 

: Como é o dia a dia de um cientista de dados?

Raphael: Trabalhamos com todo o pipeline de Data Science. O processo começa na preparação e análise da qualidade dos dados. Coletamos os dados “crus” do cliente, fazemos um levantamento para verificar se estão corretos e consistentes, se há algum dado faltante. Depois disso, normalizamos as várias fontes de dados, mesclando e corrigindo o que é possível.

Após conseguirmos uma qualidade satisfatória dos dados, fazemos outra análise, esta com um viés mais exploratório, na busca de insights e maior entendimento sobre os dados que nos ajudarão na criação do modelo preditivo. Isso tudo é um ciclo iterativo, nós sempre voltamos a etapas anteriores caso algum ponto não esteja bom o suficiente. Claro, sempre validando todo o processo com o cliente.


Leia também: Cientista de dados: que profissão é essa?


Hekima: Qual é a sua parte favorita no trabalho de cientista de dados?

Raphael: Sem dúvida, as partes de análises e criação dos modelos preditivos são as mais divertidas. Nas análises conseguimos “brincar” com os dados, descobrindo evidências que corroborem ou refutem nossas hipóteses, além de descobrir relações não antes pensadas. Os resultados dessas análises nos ajudam a criar o modelo preditivo ideal.

 

Hekima: E de qual parte você menos gosta ou considera mais difícil?

Raphael: A parte mais penosa, porém necessária, é a de preparação de dados. Ela é muito manual, pois apresenta especificidades que variam de projeto a projeto. Entre as variações de cada projeto, uma das mais frequentes é o formato dos arquivos onde os dados estão arquivados. Alguns formatos são bem trabalhosos, como PDF, e praticamente em todos os projetos em que trabalhei havia arquivos em PDF.

Além disso, muitas vezes o modelo preditivo não sai como desejamos. Em casos assim, temos de voltar na preparação dos dados, pois há a chance de eles não terem sido estruturados da forma correta.

A preparação de dados é algo constante no projeto. Dizemos que um trabalho de Data Science é dividido em 80/20, sendo 80 de preparação e 20 de análise.


Leia também: Data preparation: alicerce dos projetos de Big Data


Hekima: Quais linguagens você utiliza em projetos de Data Science?

Raphael: Já utilizei várias linguagens aqui na Hekima. Desde R e Python até Scala. Geralmente utilizamos Scala quando estamos trabalhando com Spark, para processamento de grandes volumes de dados. Então, basicamente são essas três linguagens que utilizamos bastante aqui.


Leia também: O dicionário de Big Data


Hekima: Quais são os principais desafios de um cientista de dados?

Raphael: Um dos principais desafios do cientista de dados é evangelizar o cliente. Mostrar como é o processo de se fazer Ciência de Dados. Ele se difere um pouco do processo de fábrica de software, em que você tem as especificações e é fechado. Ciência de Dados é algo muito mais, como o próprio nome diz, científico. Ali você tem hipóteses, irá experimentar, nada está pré-estabelecido. Tudo depende dos dados.

Além disso, até pelo hype do momento, é importante frisar que Data Science não é uma solução mágica. Por isso, deixar o cliente satisfeito, mas ao mesmo tempo alinhando as expectativas, é um desafio muito grande. Não só para os cientistas de dados da empresa, mas para a empresa como um todo.

Outro desafio, este mais técnico, é sempre se manter atualizado. Estão sempre surgindo coisas novas, e é uma “avalanche” de informação mesmo, até por ser uma área nova. Novos métodos, novos estudos. Esse é o maior desafio técnico, mas ao mesmo tempo é o que me mantém motivado.


Leia também: 6 tipos de conteúdos sobre Big Data


Hekima: A Hekima fomenta a busca por esses estudos?

Raphael: Sim, aqui todo mundo busca se aperfeiçoar e também passar o conhecimento para frente. Nos repasses de final de sprint (sprints são ciclos de atividades em que os projetos se dividem), por exemplo, sempre tem apresentação. O pessoal estuda alguma metodologia, conceito ou ferramenta nova e repassa para a equipe toda.

Essa prática é boa tanto para quem está apresentando, pois está consolidando o conhecimento que adquiriu, quanto para quem está assistindo, pois está absorvendo coisas novas. Isso é muito legal, pois nem sempre você consegue acompanhar tudo que está acontecendo, e chega outra pessoa da empresa e apresenta alguma coisa nova que você pode pesquisar mais a fundo depois. O ambiente da Hekima fomenta muito essa troca de conhecimento e o crescimento geral da equipe.

 

Hekima: Ainda falando em estudos, a sua dissertação de mestrado te levou para bem longe…

Raphael: Verdade. Em meu trabalho (clique aqui para acessá-lo na íntegra), propus melhorar um modelo de random forests (conjuntos de árvores de decisão, muito bem explicados pelo próprio Raphael em seu blog pessoal). Além disso, eu também propus uma forma de agregar outros modelos baseados em random forests, de forma a melhorar ainda mais a capacidade de predição no contexto de classificação textual. Eu obtive bons resultados, consegui melhorar o estado da arte da metodologia.

Isso me rendeu a publicação no SIGIR, que é um simpósio de recuperação de informação, um dos congressos mais importantes nessa área. Nesse ano ele ocorreu em Tóquio, no Japão, e eu tive a oportunidade de participar para apresentar o meu trabalho, compartilhar com a comunidade de recuperação de informação. Foi uma experiência sensacional.

 

 

Hekima: Quais dicas você dá para quem deseja se tornar um cientista de dados?

Raphael: Primeiramente, ter muita curiosidade e estudar muito. Hoje em dia, tem aparecido muito material sobre Ciência de Dados. Isso é muito bom, pois está democratizando o acesso à informação. Há vários cursos online sobre Data Science em plataformas como Udemy, Coursera e Udacity. Eu mesmo fiz vários deles.

Mestrado também é um diferencial, apesar de não ser obrigatório desde que a pessoa consiga mostrar as habilidades dela na área.

Além disso, há a questão prática. Por exemplo, fazer as competições no Kaggle (um dos principais sites de Data Science do mundo), em que você tem a oportunidade de mexer com problemas reais e uma gama bem variada de desafios, e por isso consegue entender melhor o mundo de Ciência de Dados. O pessoal da comunidade do Kaggle é muito legal, pois eles compartilham bastante informação e estão sempre dispostos a ajudar iniciantes.


Leia também: 11 bases de dados gratuitas para mineração, estudos e testes


Depois que você tiver uma base, monte um portfólio de coisas que fez na área, como implementação de algum algoritmo de aprendizado de máquina, ou então os resultados dos modelos que utilizou no Kaggle, mesmo que não tenha competido.

Resumindo, você terá de estudar. Virão problemas que não existem na literatura e você terá de “se virar nos 30”. Então, estudar sempre faz a diferença.

 

 



Source link
Bigdata and data center

LEAVE A REPLY

Please enter your comment!
Please enter your name here