Resumo da rstudio::conf 2019

Na semana passada, eu participei da minha primeira rstudio::conf, em Austin, no Texas. Essa conferência é, como o nome pode sugerir, organizada pelo pessoal do RStudio, e tem como objetivo reunir workshops e apresentações sobre tudo de R & RStudio (“All things R and RStudio”). Eu fui para a conferência com uma das bolsas de diversidade das 6 oferecidas para pessoas de fora dos Estados Unidos. O oferecimento das bolsa já é uma tradição, visto que o RStudio é umas das empresas que mais apoia e promove a diversidade na nossa comunidade.

Primeiramente, eu preciso dizer que aproveitei bastante.
Tudo foi excepcional: os workshops, as apresentações, as pessoas extremamente receptivas, a sessão de e-posters, os grupos temáticos de conversa, a localização. Algo muito importante é que, em todos os momentos, é muito claro o quanto qualquer tipo de julgamento ou assédio não é bem vindo ali. Os participantes são respeitados e acolhidos uns pelos outros, independente de qualquer característica externa, como raça ou gênero. Pode parecer óbvio que em todas as conferências e congressos essa deva ser uma constante, mas isso não é o que acontece na realidade. Neste post, eu vou falar brevemente sobre minha experiência na conferência deste ano.

Workshop

Eu participei do workshop de aprendizado de máquina na prática, ministrado majoritariamente pelo Max Kuhn. Em resumo, o workshop consistiu em apresentar as principais etapas de um projeto envolvendo aprendizado de máquina (principios basicos - engenharia de covariaveis - modelagem (regressão/classificação)), mas seguindo o framework do tidymodels, o descendente (e complementar) do caret que tem como objetivo ser uma interface uniforme de modelagem usando R.

A razão pela qual se justifica a existência do tidymodels é que existe uma grande variância na forma de usar os diferentes pacotes de modelagem. A versão tidy, por sua vez, faz o reuso das estruturas de dados, tornando mais fácil o encadeamento de funções através do pipe e é compatível com programação funcional (purrr). A sequência do workshop foi:

  • Princípios básicos: manipulação de dados com dplyr, visualização com ggplot2, um pouco de purrr e quasiquotation e modelagem com parsnip.

  • Engenharia de covariáveis e pré-processamento com recipes rsample,parsnip

  • Modelagem, para regressão e classificação, usando o recipes, caret, broom e tidyposterior.

E com isso, o framework foi apresentado do começo ao fim com apliação em alguns estudos de caso. Os materiais do workshop, claro, estão disponíveis aqui: https://github.com/topepo/rstudio-conf-2019

Apresentações

É realmente meio difícil escolher quais palestras assistir durante a rstudio::conf, geralmente são 3 ocorrendo ao mesmo tempo e todas são interessantes. Eu preferi escolher que mais se aproximaram dos meis interesses pessoais ou que pareciam algo complicado de entender por conta própria. Aqui eu vou dar só um overview sobre as minhas 3 apresentações favoritas, mas os slides e vídeos de todas elas podem ser encontrados aqui e aqui:

  • "The unreasonable effectiveness of public work’, David Robinson: a palestra foi basicamente sobre a efetividade do compartilhamento de conhecimento online. David mostrou como ele mesmo foi convidado a trabalhar no StackOverFlow após ter dado uma resposta muito boa à uma das perguntas de lá. A partir disso, ele desenvolve e exemplifica porque é tão importante a existência de trabalhos públicos (e reprodutíveis!), seja no Twitter, blogs, GitHub, etc. A dica fundamental do David é: se você já precisou repetir uma mesma coisa várias vezes, torne-a “automática”, o que nesse contexto significa

    • se você já precisou escrever a mesma função diversas vezes, faça um pacote;
    • se você já precisou dar o mesmo conselho diversas vezes, escreva um post num blog.

Fenomenal. Essa palestra vale muito a pena e eu com certeza vou usar ela como referência futura.

  • “A guide to modern reproducible data science with R”, Karthik Ram: Ok, eu sei, mais uma palestra sobre ciência reproduzível, eu realmente quero enfatizar a importância dela aqui. Essa palestra complementa a do David, mas nesse caso, Karthik nós mostra quais são as ferramentas atuais para ciência reproduzível usando R e fornece os links para todas elas depois. Ou seja, agora não há mais desculpas: temos a motivação e as ferramentas para compartilhar nossos trabalhos e fortalecer a comunidade cada vez mais :)

  • “Tidy eval in context”, Jenny Brian: non-standard evaluation é algo que eu estou achando extremamente útil ultimamente. A maioria dos meus códigos mais recentes usam em algum momento, mas até antes dessa palestra, eu não poderia dizer que entendia 100% o que é non-standard evaluation. Jenny apresentou casos sobre por que, quando e como usar NSE de forma correta, o que clarificou bastante a ideia pra mim.

Bonus: tidyverse developer day

A rstudio::conf tem um evento satélite chamado tidyverse developer day, que acontece no dia posterior ao do encerramento do evento. Nesse dia, os participantes se reunem para trabalhar em algo relacionado ao tidyverse ou algum outro projeto de interesse (cada um escolhe o seu). Pode ser resolver uma issue no GitHub, escrever um post ou um livro, criar novos projetos com as pessoas que estão ali, trabalhar em seus próprios pacotes, qualquer coisa. O que isso tem de especial é: você tem a oportunidade de estar trabalhando em conjunto com todos os membros do RStudio e outros desenvolvedores importantes. Eles tiram dúvidas, dão dicas/sugestões, ideias novas. Eu foquei em resolver issues do broom e pude conversar com os próprios autores do pacote, especialmente o Alex Hayes, sobre o funcionamento do mesmo e como ele pode ser aprimorado. Essa é uma forma bem efetiva de estimular a participação e criatividade de todos e demonstrar que nós podemos contar uns com os outros.

A pergunta que não quer calar: vale a pena?

Resposta: sim. Essa foi a conferência mais cara que eu já participei (tudo bem, eu tive bolsa, mas quero falar do custo em geral) considerando evento + hotel + passagens + visto + outros gastos. Com certeza não é um valor que todos os acadêmicos podem pagar, mas o RStudio está trabalhando neste problema. Porém, apesar do preço eu considero que vale a pena principalmente pela parte do networking e de ser uma experiência de conferência totalmente diferente das outras. A maioria das pessoas que nós conhecemos, seja porque é autor de um bom pacote ou pelos contatos via Twitter, estão lá. Isso já configura uma ótima oportunidade de estender a rede profissional e acadêmica e o participantes são excepcionalmente receptivos. As palestras são absolutamente excelentes. Tirando a parte dos minicursos, essa não é uma conferência para se aprender a programar em R, e sim aprender sobre tudo que é relacionado mas vai além disso. Eu tive a impressão de que as palestras são muito cuidadosamente selecionadas e apresentadas de forma excepcional, tornando experiência de estar ali assistindo realmente única. Ano que vem estarei lá novamente na rstudio::conf 2020, que vai ser em São Francisco :)

PS

O Hadley gostou de cachaça e voltei com muitos stickers:

comments powered by Disqus