Na semana passada, eu participei da minha primeira
rstudio::conf
,
em Austin, no Texas. Essa conferência
é, como o nome pode sugerir, organizada pelo pessoal do
RStudio
, e tem como objetivo reunir
workshops e apresentações sobre tudo de R & RStudio
(“All things R and RStudio”). Eu fui para a conferência com uma das
bolsas de diversidade das 6 oferecidas para pessoas de fora dos Estados
Unidos. O oferecimento das bolsa já é uma tradição, visto
que o RStudio é umas das empresas que mais apoia e promove a diversidade
na nossa comunidade.
Primeiramente, eu preciso dizer que aproveitei bastante.
Tudo foi excepcional: os workshops, as apresentações, as pessoas
extremamente receptivas, a sessão de e-posters, os grupos
temáticos de conversa,
a localização. Algo muito importante é que, em todos os momentos, é
muito claro o quanto qualquer tipo de julgamento ou assédio não é bem
vindo ali. Os participantes são respeitados e acolhidos uns pelos
outros, independente de qualquer característica externa, como
raça ou gênero. Pode parecer óbvio que em todas as conferências
e congressos essa deva ser uma constante, mas isso não é o que
acontece na realidade. Neste post, eu vou falar brevemente sobre
minha experiência na conferência deste ano.
Workshop
Eu participei do workshop de
aprendizado de máquina na prática,
ministrado majoritariamente pelo Max Kuhn. Em resumo, o workshop consistiu em
apresentar as principais etapas de um projeto envolvendo
aprendizado de máquina (principios basicos - engenharia de
covariaveis - modelagem (regressão/classificação)), mas seguindo o
framework do tidymodels
,
o descendente (e complementar) do caret
que tem como objetivo ser uma interface uniforme de modelagem usando R
.
A razão pela qual se justifica a existência do tidymodels
é que
existe uma grande variância na forma de usar os diferentes pacotes
de modelagem. A versão tidy
, por sua vez, faz o reuso das estruturas de dados,
tornando mais fácil o encadeamento de funções através do
pipe
e é compatível com programação funcional (purrr
). A sequência
do workshop foi:
Princípios básicos: manipulação de dados com
dplyr
, visualização comggplot2
, um pouco depurrr
equasiquotation
e modelagem comparsnip
.Engenharia de covariáveis e pré-processamento com
recipes
rsample
,parsnip
Modelagem, para regressão e classificação, usando o
recipes
,caret
,broom
etidyposterior
.
E com isso, o framework foi apresentado do começo ao fim com apliação em alguns estudos de caso. Os materiais do workshop, claro, estão disponíveis aqui: https://github.com/topepo/rstudio-conf-2019
Apresentações
É realmente meio difícil escolher quais palestras assistir durante a rstudio::conf, geralmente são 3 ocorrendo ao mesmo tempo e todas são interessantes. Eu preferi escolher que mais se aproximaram dos meis interesses pessoais ou que pareciam algo complicado de entender por conta própria. Aqui eu vou dar só um overview sobre as minhas 3 apresentações favoritas, mas os slides e vídeos de todas elas podem ser encontrados aqui e aqui:
"The unreasonable effectiveness of public work’, David Robinson: a palestra foi basicamente sobre a efetividade do compartilhamento de conhecimento online. David mostrou como ele mesmo foi convidado a trabalhar no StackOverFlow após ter dado uma resposta muito boa à uma das perguntas de lá. A partir disso, ele desenvolve e exemplifica porque é tão importante a existência de trabalhos públicos (e reprodutíveis!), seja no Twitter, blogs, GitHub, etc. A dica fundamental do David é: se você já precisou repetir uma mesma coisa várias vezes, torne-a “automática”, o que nesse contexto significa
- se você já precisou escrever a mesma função diversas vezes, faça um pacote;
- se você já precisou dar o mesmo conselho diversas vezes, escreva um post num blog.
Fenomenal. Essa palestra vale muito a pena e eu com certeza vou usar ela como referência futura.
“A guide to modern reproducible data science with R”, Karthik Ram: Ok, eu sei, mais uma palestra sobre ciência reproduzível, eu realmente quero enfatizar a importância dela aqui. Essa palestra complementa a do David, mas nesse caso, Karthik nós mostra quais são as ferramentas atuais para ciência reproduzível usando R e fornece os links para todas elas depois. Ou seja, agora não há mais desculpas: temos a motivação e as ferramentas para compartilhar nossos trabalhos e fortalecer a comunidade cada vez mais :)
“Tidy eval in context”, Jenny Brian:
non-standard evaluation
é algo que eu estou achando extremamente útil ultimamente. A maioria dos meus códigos mais recentes usam em algum momento, mas até antes dessa palestra, eu não poderia dizer que entendia 100% o que énon-standard evaluation
. Jenny apresentou casos sobre por que, quando e como usar NSE de forma correta, o que clarificou bastante a ideia pra mim.
Bonus: tidyverse
developer day
A rstudio::conf tem um evento satélite chamado
tidyverse
developer day, que acontece no dia posterior ao do encerramento do evento.
Nesse dia, os participantes se reunem para trabalhar em
algo relacionado ao tidyverse
ou algum outro projeto de
interesse (cada um escolhe o seu). Pode ser resolver uma issue
no GitHub, escrever um post ou um livro, criar novos projetos
com as pessoas que estão ali, trabalhar em seus próprios pacotes,
qualquer coisa. O que isso tem de especial é: você tem a
oportunidade de estar trabalhando em conjunto com todos os
membros do RStudio e outros desenvolvedores importantes.
Eles tiram dúvidas, dão dicas/sugestões, ideias novas.
Eu foquei em resolver issues do broom
e
pude conversar com os próprios autores do pacote,
especialmente o Alex Hayes,
sobre o funcionamento do mesmo
e como ele pode ser aprimorado. Essa é uma forma bem
efetiva de estimular a participação e criatividade
de todos e demonstrar que nós podemos contar uns com os outros.
A pergunta que não quer calar: vale a pena?
Resposta: sim. Essa foi a conferência mais cara que eu já participei
(tudo bem, eu tive bolsa, mas quero falar do custo em geral)
considerando evento + hotel + passagens + visto + outros gastos.
Com certeza não é um valor que todos os acadêmicos podem
pagar, mas o RStudio está trabalhando neste problema. Porém,
apesar do preço eu considero que vale a pena principalmente
pela parte do networking e de ser uma experiência de conferência
totalmente diferente das outras. A maioria das pessoas que nós
conhecemos, seja porque é autor de um bom pacote ou pelos contatos
via Twitter, estão lá. Isso já configura uma ótima oportunidade
de estender a rede profissional e acadêmica e o participantes são
excepcionalmente receptivos. As palestras são absolutamente
excelentes. Tirando a parte dos minicursos, essa
não é uma conferência para se aprender a programar em R
,
e sim aprender sobre tudo que é relacionado mas vai além disso.
Eu tive a impressão de que as palestras são muito cuidadosamente
selecionadas e apresentadas de forma excepcional, tornando
experiência de estar ali assistindo realmente única.
Ano que vem estarei lá novamente na rstudio::conf 2020, que vai
ser em São Francisco :)
PS
O Hadley gostou de cachaça e voltei com muitos stickers:
@bwundervald thanks for the cachaça — it’s delicious!
— Hadley Wickham (@hadleywickham) January 22, 2019
stiiiickers 👩💻🎉 #rstats pic.twitter.com/J7N4NZXbmE
— Bruna Wundervald (@bwundervald) January 16, 2019