Entrevista a Carlos Gil Bellosta

Desde hace meses, colaboramos con la Comunidad R Hispano para ayudar a organizar las IV Jornadas de Usuarios de R, que justamente se celebran la semana que viene en el Centre de Recerca en Epidemiologia Ambiental (CREAL) de Barcelona.

Aprovechamos la ocasión para entrevistar a Carlos Gil Bellosta, presidente de la Comunidad R-Hispano, consultor estadístico freelance y entusiasta de R. Más abajo, nos responde a qué hacen para fomentar y divulgar el uso de R, así como consejos para el que se inicia como para el que ya lleva tiempo usando dicho lenguaje de programación.

Podéis seguir a Carlos en Twitter (@gilbellosta), así como en su blog datanalytics, dónde podréis estar informados de las últimas noticias del mundo estadístico como de R.

¿Nos haces una introducción breve sobre la Comunidad R-Hispano?

La historia la he contado ya en alguna ocasión y es un poco larga.

Quienes entramos en contacto con R hace años, en la época heroica, nos
sentíamos un poco como robinsones: uno aquí, otro allá. Y no nos
conocíamos.

Un pequeño grupo de usuarios de R, en el 2008, caminando por la calle,
urdimos un plan en tres fases:

1.- Crear una lista de correo de ayuda sobre R en castellano.
2.- Organizar unas jornadas.
3.- Crear una asociación.

Uno de los objetivos de la lista (r-help-es), el no declarado,
consistía en poner en contacto los grupúsculos de usuarios de R que
habíamos detectado en la U. de la Rioja, en Cádiz, etc. y crear masa
crítica. Algunos de ellos mantenían foros internos de ayuda con R sin
apenas movimiento. Pasamos unos días escribiendo a todos ellos y
diciéndoles, esencialmente: en r-help-es estamos todos menos vosotros.
Todo farol. Pero la lista creció muchísimo y sirvió para nuestro
propósito de atraer a muchos usuarios de R de toda España a un foro
común.

Con la ayuda de la lista comenzamos a urdir lo de las jornadas. El
papel relevante lo tuvo José Antonio Palazón, de la U. de Murcia:
tenían unos fondos para montar un congreso antes de que acabara el
2009. Lo organizamos deprisa y corriendo, pero salió estupendamente.

Y en el seno de esas jornadas comenzamos a hablar de la creación de
una asociación, el tercer punto del plan. Había algunas necesidades
claras (tanto entonces como ahora), como dar continuidad a las
jornadas. Y teníamos el referente de algunos modelos que funcionaban,
como HispaLinux. Pero no cuajó.

En las III Jornadas de Usuarios de R pasaron tres cosas. Por un lado,
las jornadas ocurrieron por casualidad. Igual que tuvieron lugar,
pudieron no haberse celebrado nunca porque nadie, en el fondo, tenía
ni la obligación, ni la necesidad y, si se me apura, ni el derecho a
decir “háganse”. Y eso no es bueno.

Por otro lado, fueron las primeras jornadas que organizamos entre
voluntarios. En las dos anteriores habíamos contado con recursos
oficiales (de la U. de Murcia y de la Escuela Politécnica de Mieres),
subvenciones, etc. En las terceras, la EOI (Escuela de Organización
Industrial) cedió el espacio, pero toda la organización recayó en los
comités organizador y científico. Fue un trabajo colaborativo
estupendo realizado por personas que no se conocían entre sí. Y el
resultado fue espectacular. Pero, ¿sabéis por qué las jornadas fueron
gratuitas? Porque nadie se prestó a utilizar su cuenta corriente
personal para gestionar las inscripciones. Tuvimos problemas con los
patrocinadores. Fue imposible solicitar subvenciones. Se hizo patente
que necesitábamos estructura, que necesitábamos una asociación formal
con la capacidad, cuando menos, para gestionar una cuenta bancaria
propia.

Y finalmente, contamos con Emilio Torres Manzanera, de la U. de
Oviedo. Fue el que más movió el asunto de la asociación. El primer
borrador de los estatutos es obra suya. Y, de hecho, la sede social de
la Comunidad R Hispano está en su despacho.

La asociación echó a andar entonces. Dentro de su misión de “promover
el conocimiento y el uso de R”, tiene asumidas unas cuantas tareas de
oficio: coorganizar las jornadas anuales, mantener un servidor para
dar servicios a la comunidad de usuarios, tratar de obtener recursos
económicos y poco más. Pero no tiene otros brazos (e ideas) que los de
los socios.

Desde la asociación hemos tratado de promover grupos locales de
usuarios (y “alojamos” el de Madrid). Queremos también promover grupos
temáticos. Hay dos iniciativas en marcha, por ejemplo: una para mapas
y otra para procesamiento del lenguaje (castellano) con R. Nos
gustaría que expertos e interesados en la materia se dieran cita para
desarrollar herramientas y paquetes para representar datos sobre mapas
de España igual que existen herramientas en R para hacer lo mismo
sobre condados y estados de EE.UU., por ejemplo.

Sería bueno crear algún grupo de trabajo para crear herramientas y
material para la enseñanza de R. Mucha gente está desarrollando este
tipo de material en distintas universidades y creo que sería
beneficioso crear foros en los que se conozcan, compartan y
reutilicen. Eso está todavía por hacer, pero espero que llegue.

Queremos que se conozca R. Queremos aparecer en los medios (e igual
pronto tenemos noticias al respecto).

Queremos mantener un servidor lleno de información relevante para la
comunidad, con ofertas de trabajo, noticias de cursos, etc. Que de un
vistazo en r-es.org los usuarios de R puedan saber qué se cuece a
nivel local.

Y nos gustaría (estamos trabajando en eso) crear o participar en un
MOOC para poder impartir formación sobre temas relativos a R en línea
y gratuitamente.

Y queremos sumar a estas ideas e iniciativas las que se les ocurran a
quienes lean estas líneas y ofrecerles la ayuda que nos sea posible
para llevarlas a cabo.

Eso es, en definitiva, la Comunidad R Hispano.

¿Cómo fue la decisión de realizar las IV Jornadas de usuarios de R?

Hace tres años tuvimos las primeras en Murcia. Hace dos, las segundas

en Mieres. Las del año pasado, en Madrid, fueron todo un éxito y
adquirieron una dimensión mucho mayor. Este año tocaban en Barcelona.
Era la opción obvia. Queríamos aprovechar el tirón de la comunidad
local. Lanzamos el guante y lo recogió Juan Ramón González, del CREAL.

¿Qué esperas de las IV Jornadas de usuarios de R en Barcelona el 15 y 16 de noviembre?

¡Qué vergüenza! Aún no he visto el programa de ponencias. Pero creo

que la oferta de talleres de esta edición es muy potente. Pero lo más
valioso, seguro, va a ser poder intercambiar ideas con gente de
procedencias, formación e intereses muy dispares. La
interdisciplinariedad es lo que más me atrae de la comunidad de
usuarios de R.

A parte, según tengo entendido, también has sido uno de los promotores del grupo de usuarios de R de Madrid. ¿Cómo, dónde y cuándo os soléis reunir? ¿Cómo es una reunión típica?

Pues sí, creo que fui yo el que dijo algo así como: “en otros sitios
hay reuniones de usuarios de R; ¿por qué aquí no?”. Pero la gestión de
la logística es cosa de otros, principalmente de Carlos Ortega.

Hemos tenido tres reuniones solamente. Y únicamente a partir de ahora,
parece, vamos a tener sede fija, gracias a las gestiones de Carlos, en
una sede de la UNED. Yo preferiría un bar (por eso de la informalidad
y la interactividad), pero bueno.

Siempre nos hemos reunido dos horas y nos ha dado tiempo a realizar
2-3 presentaciones sobre proyectos desarrollados con R: algún paquete
nuevo, algún estudio, etc. Hemos tenido dos sesiones sobre “trading”
automático con R. Es probable que organicemos algún taller. Deberíamos
encontrar un equilibrio entre “cosas que hemos hecho con R” y enseñar
“cómo hacer (ciertas) cosas con R”. “Web scraping”, librerías gráficas
como ggplot2 o lattice, o representación de datos sobre mapas podrían
ser buenos candidatos.

¿Cuál es el perfil de los asistentes a las reuniones? ¿Tenéis intereses comunes (bioestadística, etc.)? ¿O procedéis de entornos diversos?

Todos muy diversos, la verdad. Me da la impresión de que en BCN os
reunís más o menos los mismos, que tenéis un núcleo duro. En Madrid
no. O aún no. Esperamos poder conformarlo pronto.

¿Cómo organizáis las reuniones?

Utilizamos nuestra página en r-es.org. Tratamos de invitar a conocidos
y animarlos a presentar algo. Cuando pasen las jornadas hablaré con
Xavier de Pedro (nuestro webmaster y experto en Tiki) para ver si
podemos crear una lista de correo específica para los interesados en
el grupo en r-es.org. Y que pueda ser reaprovechado por otros grupos
que se formen en el futuro.

Como usuario avanzado de R y en contacto con diferentes softwares y sectores, ¿Cuanto tiempo tardaste en sentirte cómodo con R? ¿Podrías darnos algunos consejos para quien se inicie con R?

¿Honestamente? Me sentí cómodo desde el minuto cero. Es cierto que
luego he revisado código que escribí en mis primeros días y pienso:
¡qué gañán! Pero es cierto.

Es que estaba en la universidad, allá por el 2001 o 2002. Estaba
programando algunos procesos con remuestreos y teníamos SAS. Y era un
desastre. No vale para eso. Yo, que entonces no tenía mucha
experiencia en programación (no conocía Java ni Python aún) y había
hecho mis pinitos con C, le dije a mi director: “quiero un lenguaje de
programación para hacer estadística que se parezca a C”. Por favor,
que puedas definir tus propias funciones, que tenga bucles, etc. Y me
dijo: “hay un tipo en esta universidad que es un entusiasta de una
cosa (rara) que se llama R”. Y fue amor a primera vista.

En aquella época, el documento “An introduction to R” tenía 12
páginas. Las seguí… y a programar. Ahora el documento tiene más de
cien y ya no vale para eso. Lo han echado a perder.

Ahora hay más recursos, más cursos, etc. Desafortunadamente, los
nuevos usuarios de R ya no habrán utilizado SAS o SPSS previamente y
les resultará imposible experimentar esa misma sensación.

Hay otra cosa: R no es un fin en sí mismo. Se trata de una herramienta
con la que construir cosas, resolver problemas. Aprender una
herramienta sin tener un problema en mente es una tortura. R, per se,
no es un conocimiento que merezca la pena adquirir. Hoy en día, creo,
que la manera más efectiva para aprender R es tratar de imitar la
manera en que otros han resuelto problemas similares a los tuyos. El
hecho de que R sea una herramienta libre y que la comunidad libere
código, escriba artículos, publique bitácoras, etc. facilita esa forma
de “aprendizaje por analogía”.

¿Algún libro imprescindible sobre R?¿Algún congreso a remarcar?

Congreso, el nuestro. ¿Libros? Hay muchos. Y los hay porque existen
muchos modos distintos de estar interesado en R: gráficos,
programación, estadística, minería de datos, etc. MASS (Modern Applied
Statistics with S) ha sido siempre una referencia.

Eso sí, creo que falta uno. Falta uno sin grandes pretensiones
científicas. Es uno en el que se muestre cómo realizar con R esos
análsis típicos que actuamente médicos, sicólogos, economistas, etc.
hacen con SPSS o similares. Un recetario que les sirva para “aprender
por analogía” y alejarse de ese software inferior y comenzar a
utilizar R.

¿Qué es lo que más te gusta del R? ¿Lo que más te desagrada?

He hablado más arriba de cosas que me gustan de R. Pero creo que lo
más interesante de R es que permite replantear la estadística de la
manera en que habría sido si los ordenadores se hubiesen inventado
antes que el teorema central del límite, el concepto de la varianza y,
si se me apura, la distribución normal. La estadística (y, más en
general, el análisis de datos) debiera ser una celebración de la
variabilidad, no su domesticación. La gente ve un proceso aleatorio y
no piensa sino en su media. Yo veo un histograma. Yo quiero simularlo,
ver qué pasa en los valores extremos, etc.

(De hecho, en cierto modo, la crisis que padecemos se debe a que
caímos en la cola de una serie de distribuciones que nadie vio porque
tampoco nadie miró más allá de las medias.)

Lo que más me desagrada es el caos. Un arquitecto racional no habría
permitido tanto solapamiento entre paquetes, tanta reimplementación,
tal variedad de APIs, etc. Me cuesta cierto esfuerzo vivir con ello.

¿Qué packages usas habitualmente?¿Para qué situaciones las usas?

Me gusta mucho ggplot2. Me gusta crear gráficos que involucren 4, 5 o
6 variables de mis datos para estudiar relaciones complejas
visualmente. Me gusta mucho party (y en general, los árboles de
decisión) para hacerme una primera idea de la estructura de un
conjunto de datos. Uso también mucho randomForests para predicciones.

Para manipular datos me gustan mucho los paquetes de Hadley Wickham:
reshape, plyr, etc. Me gustan porque no son solo colecciones de
funciones diversas, sino implementaciones de esquemas de trabajo, de
procedimientos abstractos para enfrentarse a determinados problemas.
Por ejemplo, plyr no es otra cosa que “divide y vencerás” en R.

Pero no soy muy “paquetero”. Hay programadores que son “paqueteros”:
por no escribir 5 líneas de código, buscan y rebuscan hasta que
encuentran una función en un paquete que se las ahorra. El paquete
“caret” tiene buena reputación para hacer análisis que involucren
validaciones cruzadas y cosas por el estilo; pero a mí me ha gustado
siempre más programarme ese tipo de cosas. Me hace sentir en control
de la situación. Pero igual un día cambio de opinión y lo adopto.

¿Como ves la adopción del R en la empresa?¿Es comparable a la adopción del R en el mundo académico?

Todo el mundo tiene en mente el esquema de difusión de la mancha de
aceite. Pero no es el correcto. En unas áreas académcias (como la
bioestadística) R se ha propagado con enorme rapidez. Pero en otros
apenas ha avanzado. Será interesante prestar atención a los “huecos”
en las jornadas de Barcelona, ver quiénes faltan, de qué sectores del
conocimiento falta representación.

Fuera de la universidad –y no me gusta decir “empresa” porque deja de
lado el sector público, las ONG, etc.– la situación es parecida:
desarrollo desigual. Pero me da la impresión de que la situación ha
cambiado mucho en los últimos tiempos. Hay movimiento. Sobre todo, por
ósmosis desde la universidad. Por un lado, los nuevos empleados
escriben “R” en su currículo. Lo usan, lo instalan.

Por otro lado, en muchos departamentos entran a trabajar exprofesores,
ex post docs, etc. que de manera más o menos subrepticia comienzan a
usar R. No es un movimiento muy visible. La universidad es mucho más
transparente en eso. Fuera de ella no se escribe, no se divulga tanto.
Pero te vas enterando de que en BBVA, en Telefónica, en Endesa, en el
INE, se hacen cosas con R. Pero quedan muchas cosas por hacer.

Hace unos años hablaba con un amigo mío, socio de una consultora, y le
decía: “¿por qué no hacéis este proyecto con R?” Y él contestaba:
“porque el cliente usa SAS”. Ahora me dice: el cliente nos pide que lo
hagamos con R. Y cuando yo le pregunto que con qué lo van a hacer, me
responde: “Con SAS porque es mejor”. Lo que calla ahora y callaba
entonces es que cobra una comisión por “vender” SAS. Contra eso hay
que luchar.

2 responses to “Entrevista a Carlos Gil Bellosta”

  1. mochuelo says :

    excelente!

Trackbacks / Pingbacks

  1. datanalytics » Entrevista en el portal del RUG Barcelona - 13/11/2012

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: