Archive | Data Analysis RSS for this section

Oferta BI Analyst para Sector Bancario/Financiero

Filial de importante empresa del sector bancario ubicada en Barcelona precisa incorporar un Business Intelligence Analyst. Su misión será dar soporte necesario para llevar a cabo acciones comerciales y satisfacer las peticiones de información de las áreas de negocio, analizar esta información y generar conclusiones para ayudar a la toma de decisiones reportando el Director de BI.

Funciones:

  • Resolver análisis concretos y definidos de información. Tratar la información (agregar, fusionar, calcular indicadores,…), analizarla y extraer resultados y conclusiones. Preparar resúmenes e informes de resultados.
  • Participar en análisis para la elaboración de estudios orientados a la toma de decisiones.
  • Acceder, y tratar la información para seleccionar públicos objetivo de clientes en acciones comerciales o de mejora de la rentabilidad y realizar seguimientos de estas acciones comerciales.
  • Dar soporte a las peticiones de información de las distintas áreas, formación a las áreas de soporte en las herramientas de análisis y ayuda en procesos operativos de prueba de nuevas acciones comerciales.
  • Responsabilizarse de los procesos de automatización de acciones recurrentes y participar en el mantenimiento funcional de la BBDD.
  • Proponer mejoras tanto de herramientas, como de procesos de análisis, como de monetización de la información disponible.
  • Utilizando las herramientas disponibles y persiguiendo los objetivos de negocio definidos.

Requisitos:

  • Formación: Informática, Estadística, Matemáticas, investigación de Mercados etc.
  • Formación complementaria: Se valorará master en BI y conocimientos de negocio MK.
  • Idiomas: Inglés nivel alto, y Castellano.
  • Conocimientos específicos: BBDD, estadísticas, datamining, SAS Microstrategy, SQL,..
  • Experiencia: 2 años en consultoría o empresa en funciones de BI.

Link Posición: http://bit.ly/1NO2Boh

Contacto: Laura Martín, Consultora laura@smart-selection.com

Talleres IV Jornadas de usuarios de R

Los talleres de las IV Jornadas de usuarios de R celebradas en Barcelona, fueron grabadas gracias a los cámaras Xavi de Pedro y Esteban Vegas.

Finalmente, el mismo Xavi y yo los hemos subido a un canal de YouTube para que las personas interesadas que no pudieran asistir puedan ver los talleres.

Los talleres que se realizaron fueron los siguientes:

Espero que los videos os sean útiles .

Recordar que las V Jornadas de usuarios de R, que se organizan en Zaragoza el 12 y 13 de diciembre, ya están en marcha.

Consulteu la presentació del Data Tuesday

Hola usuaris! Ja podeu consultar aquí la presentació que vam preparar per la primera reunió del Data Tuesday a Barcelona. Aquesta presentació va ser feta amb R Presentations , una nova eina disponible a la versió preview d’RStudio.

Hi users! The presentation we prepared for the Barcelona Data Tuesday launch meeting is now available here. Just let you know that for this presentation we used R Presentations, a new feature available at the preview release of RStudio.

Importar – Exportar datos en R

Con el objetivo de hacer este post reproducible se ha hecho esta entrada. En el antiguo post están disponibles los ficheros utilizados en la presentación realizada por el RUG-BCN, sin embargo, ahora se ha intentado que esto sea más comprensible a partir de una breve explicación, antes sólo se habían proporcionado los scripts sin más, ahora se proporciona un ejemplo reproducible.

A continuación se explicará brevemente la manera de importar datos que tienen diferentes formatos a R. La importación es muy simple, por eso se hará con poco detalle. Los archivos de ayuda de R son muy completos y claros por si surge alguna duda que vaya más allá de este post.

Para reproducir los ejemplos se pueden descargar los ficheros aquí

Importación de datos

Importando archivos CSV

datos.csv <- read.csv("datos.csv", header = T)
head(datos.csv)  # así es como deben lucir los datos

##   country country.isocode year   POP    ppp  cgnp
## 1  France             FRA 2000 61137 0.9140 101.4
## 2  France             FRA 2001 61479 0.9104 101.2
## 3  France             FRA 2002 61829 0.9106 100.3
## 4  France             FRA 2003 62171 0.9080 100.6
## 5  France             FRA 2004 62534 0.8972 100.8
## 6  France             FRA 2005 62912 0.8858 100.6

sapply(datos.csv, class)  # esto es para conocer la clase de cada variable

##         country country.isocode            year             POP 
##        "factor"        "factor"       "integer"       "numeric" 
##             ppp            cgnp 
##       "numeric"       "numeric"

summary(datos.csv)  # este es un breve resumen estadístico las variables

##    country   country.isocode      year           POP       
##  France:10   ESP:10          Min.   :2000   Min.   :10559  
##  Greece:10   FRA:10          1st Qu.:2002   1st Qu.:10710  
##  Spain :10   GRC:10          Median :2004   Median :43352  
##                              Mean   :2004   Mean   :38940  
##                              3rd Qu.:2007   3rd Qu.:61742  
##                              Max.   :2009   Max.   :64420  
##       ppp             cgnp      
##  Min.   :0.697   Min.   : 96.7  
##  1st Qu.:0.709   1st Qu.: 98.3  
##  Median :0.737   Median : 99.2  
##  Mean   :0.776   Mean   : 99.3  
##  3rd Qu.:0.869   3rd Qu.:100.6  
##  Max.   :0.914   Max.   :101.4

La instrucción View(datos.csv) muestra la base de datos completa, la visualización es muy parecida a una hoja de cálculo de excel.

Read More…

Importar dades electorals de Catalunya

Amb aquest post pre-vacances tinc la intenció d’importar les dades electorals de Catalunya. Tot passant pel projecte Dades Obertes gencat on es poden trobar moltes dades útils de la generalitat de Catalunya i comentant els passos  necessaris per poder treballar còmodament amb elles a l’R.

Dades Obertes gencat

Per explicar en que consisteix què millor que la seva pròpia definició que tenen a la seva web, que és la següent:

En què consisteix

Dades obertes gencat és el portal de la Generalitat de Catalunya, gestionat des de la Direcció General d’Atenció Ciutadana i Difusió, on estan publicades les dades de caràcter públic, amb l’objectiu de fomentar l’ús i la reutilització de la informació procedent de l’administració.

Les dades procedeixen de diferents organismes públics de la Generalitat i estan agrupades en el catàleg de dades. Les dades estan disponibles en diferents formats, la majoria dels quals són estàndard, de manera que es poden reutilitzar fàcilment.

El Govern de la Generalitat de Catalunya, seguint les tendències internacionals d’obertura de dades públiques i amb l’assessorament d’experts del W3C (World Wide Web Consortium) es compromet a l’obertura progressiva de les dades públiques de què disposi, amb les limitacions de privacitat, seguretat i propietat que apliquin en cada cas, segons l’acord de Govern de novembre de 2010. Consulteu l’apartat Què és l’Open data per saber més sobre la iniciativa a nivell global […]

Al portal de Dades Obertes hi podeu trobar un munt de dades interessants i esperem que ho vagin ampliant de forma decidida. Entre elles i fa poc les dades electorals de Catalunya. Des dels resultats a les eleccions del Senat a Catalunya l’any 1993, passant per les eleccions municipals del 2003, com les eleccions al Parlament de Catalunya del 2010. Sense comprovar-ho exhaustivament crec que hi deu ser tot.

Importar les dades a l’R

Com que aquest és el bloc del grup d’usuaris d’R de Barcelona, doncs sempre s’agraeix explicar algunes coses d’aquest llenguatge que tant servei ens fa al dia dia. Per tant, penso importar les dades dels vots de les eleccions al Parlament de Catalunya de l’any 2010. Afegeixo la descripció que en donen a la web de les dades a importar:

Descripció

Resultats de les eleccions al Parlament de Catalunya del dia 28 de novembre de 2010. Es presenten en 3 fitxers: participació; vots i electes. Els fitxers de participació i de vots inclouen els nivells territorials de municipi (MU), comarca (CO), província (PR), Catalunya (CA) i els districtes del municipi de Barcelona (DM). El fitxer d’electes presenta les dades a nivell de circumscripció.

Aquestes dades estan en csv, normalment, acostumo a baixar el fitxer i després importar-ho utilitzant les instruccions read.table o read. csv. Però avui i per variar us mostro una forma que potser no hagueu fet servir mai, directament enllaçar amb el link on està el fitxer.

eleccions2010 = read.table("http://dadesobertes.gencat.cat/recursos/eleccions/pc/OPENDATA_A2010_vots.csv",
header = TRUE, sep = ";", dec = ",", quote = "",
strip.white = TRUE, encoding ="latin1")

Per no tenir problemes amb la importació, cal definir adequadament els paràmetres següents:

  • header: Indica si la primera fila conté els noms de la base de dades.
  • sep: Indica com estan separats els diferents camps, en el nostre cas amb un punt i coma.
  • dec: Indica com estan separats els decimals, en el nostre cas una coma.
  • quote: Indica quins caràcters s’entendran com a cometes, en el nostre cas s’ha de deixar en blanc (”). Molt important ja que les dades contenen apòstrofs i per tant, es llegirien com a caràcters totes les línies entre dos apòstrofs i no estaríem important correctament les dades.
  • strip.white: Si has definit un sep, elimina els espais en blanc de més que hi puguin haver a les diferents variables. No és crític però els camps de text queden millor.
  • encoding: En el cas de Mac evites problemes amb accents, en Windows no caldria.
# Comprovem l'estructura de les dades
str(eleccions2010)

 # 'data.frame': 28743 obs. of 17 variables:
 # $ ELECCIO : Factor w/ 1 level "A": 1 1 1 1 1 1 1 1 1 1 ...
 # $ ANY : int 2010 2010 2010 2010 2010 2010 2010 2010..
 # $ NIVELL : Factor w/ 5 levels "CA","CO","DM",..: 1 1 ...
 # $ AUTONOMIA : Factor w/ 1 level "Catalunya": 11 1 1 1 ...
 # $ CODI.PROVÍNCIA : int NA NA NA NA NA NA NA NA NA ...
 # $ PROVÍNCIA : Factor w/ 5 levels "","Barcelona",..: 1 1 ...
 # $ CODI.COMARCA : int NA NA NA NA NA NA NA NA NA NA ...
 # $ COMARCA : Factor w/ 43 levels "","Alt Camp",..: 1 1 1...
 # $ CODI.MUNICIPI : int NA NA NA NA NA NA NA NA NA NA ...
 # $ MUNICIPI : Factor w/ 948 levels "","Abella de la Conca",..: 1 1 1 1 1 1 1 1 1 1 ...
 # $ CODI.DISTRICTE : int NA NA NA NA NA NA NA NA NA NA ...
 # $ NOM : Factor w/ 11 levels "","Ciutat Vella",..: 1 1 ...
 # $ SIGLES : Factor w/ 39 levels "ALS","ALTERNATIVA",..: ...
 # $ PARTIT : Factor w/ 39 levels "Alternativa Liberal Social"
 # $ VOTS.PARTITS : Factor w/ 1573 levels "0","1","1.005",...
 # $ X..VOTS...VÀLIDS: num 38.43 18.38 12.37 7.37 7 ...
 # $ ESCONS : int 62 28 18 10 10 3 4 0 0 0 ...

# Veiem que el nom del percentatge de vots valids s'ha importat de forma estranya i tot seguit ho corregim de la següent forma

names(eleccions2010) = gsub("X..VOTS...VÀLIDS", "perVotsValids", names(eleccions2010))

# Arreglar el nombre de vots ja que els milers estan separats per punts i volem que sigui un integer

eleccions2010$VOTS.PARTITS = as.character(eleccions2010$VOTS.PARTITS)

votsPartits = gsub("[.]", "", eleccions2010$VOTS.PARTITS)

votsPartits = as.numeric(votsPartits)

eleccions2010$VOTS.PARTITS = votsPartits

Seguint els passos anteriorment descrits ja tenim les dades de les eleccions al Parlament de Catalunya de l’any 2010 a l’R amb els petits problemes solucionats. D’aquesta forma ja podem fer les estadístiques o les representacions visuals que desitgem. En el meu cas, quan torni de les merescudes vacances, crec que els hi podré treure bastant profit i ja publicaré el que faci.

Bones vacances,

Lluís Ramon, RUGBCN


					

Comença el EDA Reading Group

Us recordem que aquesta setmana comencem la lectures del llibre “Exploratory Data Analysis” d’en John W. Tukey. Podeu plantejar els vostres dubtes, comentaris, etc a http://edarg.shapado.com/.

Esperem que us agradi!

 

Os recordamos que esta semana empezamos la lectura de “Exploratory Data Analysis” de John W. Tukey. Podeis ponder los comentarios, dudas, etc en  http://edarg.shapado.com/.

Esperamos que lo disfrutéis!

 

We remaind you that this week we begin the reading of  “Exploratory Data Analysis” of John W. Tukey. Let us know any comments doubts, etc in http://edarg.shapado.com/.

We hope you enjoy the reading!

 

Aleix, RUGBCN

 

 

EDA Reading Group

Catalan

Amb la idea de fer activitats relacionades amb aplicacions de R (no R exclusivament), iniciarem un grup de lectura. El llibre proposat es el clàssic “Exploratory Data Analysis” d’en J. Tukey. Aquest llibre proposa una sèrie de tècniques per conèixer, visualitzar o analitzar millor les dades amb les que estiguem treballant. La idea es potenciar la intuïció més que la tècnica: poques fórmules, pocs formalismes, moltes aplicacions i exemples. És un llibre per a tots els nivells.

Tot allò que vulgueu compartir: dubtes, observacions, idees, propostes d’exercicis, experiències, etc. ho podeu penjar a la web http://edarg.shapado.com/, on la resta de gent us podrà respondre, comentar, etc.. La velocitat proposada es un capítol per setmana. Si veiem que es massa ràpid, alleugerarem el pas. Farem algunes aturades per a que la gent es pugui posar al dia. Tot i així, es poden penjar qüestions sobre capítols anteriors (de manera que la velocitat oficial es fictícia – si no teniu temps podeu anar més a poc a poc). Idiomes acceptats: català, castellà, anglès.

La data de començament es el 11 de juny.

Castellano

Con la idea de hacer actividades relacionadas con aplicaciones de R (no R en sí mismo) empezaremos un grupo de lectura. El libro propuesto es el clásico “Exploratory Data Analysis” de J. Tukey. Este libro propone una serie de técnicas para conocer, visualizar o analizar mejor los datos con los que estemos trabajando. La idea es potenciar la intuición más que la técnica: pocas fórmulas, pocos formalismos, muchas aplicaciones y muchos ejemplos. El libro es apto para todos los niveles.

Todo aquellos que queráis compartir: ideas, ejercicios, experiencias, etc. lo podéis colgar en http://edarg.shapado.com/, donde el resto de gente os podrá responder, comentar, etc.. La velocidad propuesta es un capítulo por semana. Si vemos que es demasiado rápido, iremos más lentos. Haremos algunas paradas para que la gente se ponga al día. Aun así, se pueden colgar cuestiones sobre capítulos anteriores(de manera que la velocidad oficial es fictícia  – si no tenéis tiempo, podéis ir mas relajadamente). Idiomas aceptados: castellano, catalán, inglés.

La lectura empieza el 11 de junio.

English

In order to relate R with its applications (not just R itself), we start a reading group. The proposed book is the classic “Exploratory Data Analysis” by J. Tukey. This book proposes a series of techniques to know, visualize and analyze better your data. The idea is to enhance the intuition rather than technique: few formulas, few formalities, many applications and many examples. The book is suitable for all levels.

Everything you would like to share: ideas, exercises, experiences, etc.. write it on http://edarg.shapado.com/, where the other people can respond you, comment, etc. ..We propose a chapter per week. If we see that is too fast, we will slow down. We will make some stops for people to catch up. Still, you can post questions about previous chapters(so that the official speed is fictitious – if you have no time, you can go slower). Accepted languages: English, Catalan, Spanish.

The group begins on June 11th.

Aleix, RUGBCN

%d bloggers like this: