USAR EXCEL PARA TRABAJAR CON BIG DATA

Hola a todos : ) Qué tal estáis?, seguro que bien!

Desde ya hace unos años, con el auge del denominado Big Data, y la necesidad de tratar enormes cantidades de información, han surgido multitud de plataformas, métodos y aplicaciones para gestionar esa ingente cantidad de datos (estamos hablando de billones de registros).

Excel y también Access, nos permiten trabajar con grandes bases de datos, pero cuando hablamos de Big Data, existen varias limitaciones que debemos tener muy en cuenta. En primer lugar, los límites de Excel en lo que a registros se refiere y en segundo lugar, tanto en Excel como en Access a la memoria disponible.

Es necesario reconocer las limitaciones de Excel. Es obvio que no podrá procesar la información de billones de registros en un tiempo razonable, simplemente no está programado para poder hacerlo. Pero esto no es motivo para pensar que Excel no puede trabajar en el mundo Big Data, siempre existe una alternativa, un método diferente que nos puede ayudar.

En el post de hoy os voy a demostrar cómo podemos trabajar con un archivo de texto de 1,41GB (contiene unos 7 millones de registros) y ser capaces de obtener información de su contenido. No voy a entrar hoy en técnicas de Data Mining, eso lo dejaré para una entrada posterior con los datos que consigamos extraer de la base de datos.

Lo más complicado para hacer pruebas con Big Data, es precisamente conseguir una base de datos aceptable y que sea de contenido público. Para este ejemplo he acudido a esta web DATA.GOV (es una web de política de datos abiertos donde además de multitud de bases de datos, también ofrecen información a nivel mundial de otras web con la misma política, es este enlace os podéis descargar la dirección de todas esas webs.

Pues bien, como necesitaba una buena base de datos, después de buscar bastante, decidí quedarme con esta: Crimes – 2001 to present, se trata de la relación de crímenes sucedidos en Chicago desde el año 2001 hasta la actualidad (nov de 2017):

USAR EXCEL PARA TRABAJAR CON BIG DATA

Elegí la descarga del archivo CSV y aunque sabía que no podría ver toda la información  porque supera el límite del 1.048.576 filas, sí me dejaría abrir el archivo para poder ver qué campos tenía y cuál era el delimitador que se usaba. Una vez finalizada la descargar y abierto el CSV esta es la información que aparecía:

USAR EXCEL PARA TRABAJAR CON BIG DATA1

Como podéis observar, en la primera línea de datos tenemos el nombre de los campos de nuestra base de datos y también sabemos que el delimitador utilizado es la coma “,” (si fuese otro tipo de delimitador sería necesario crear un archivo “schema.ini” indicando el carácter concreto).

Dado que no podemos importar toda esa información a nuestra hoja Excel (o en realidad sí, pero utilizando varias hojas, lo que haría bastante complicada nuestra explotación de datos posterior), lo más sencillo y efectivo es seleccionar aquellos campos que realmente nos interesan y traer esa información mediante una consulta (o varias).

Para este ejemplo, realmente ¿qué es lo que me interesa?, pues: El tipo de delito, la descripción del delito, el año en el que sucedió y el número de casos. Con estos parámetros obtendremos la información que queremos y será fácil de tratar dado que agruparemos por año y por tipo de delito.

Pues bien esto lo vamos a lograr con el siguiente código:

Sub EXCEL_BIG_DATA()
'Definimos variables
Dim cnn As Object, dataread As Object
Dim directorio As String, archivo As String
Dim encabezados As String, obSQL As String
Dim i As Long
'Creamos objetos ADO
Set cnn = CreateObject("ADODB.Connection")
Set dataread = CreateObject("ADODB.Recordset")
'Creamos variables para nombrar archivo y directorio
directorio = "D:\"
archivo = "Crimes_-_2001_to_present.csv"
'Componemos y abrimos la cadena de conexión
With cnn
.Provider = "Microsoft.ACE.OLEDB.12.0"
.ConnectionString = "DATA SOURCE=" & directorio
.Properties("Extended Properties") = "text;"" "
.Open
End With
'Componemos consulta SQL para extraer la información
obSQL = "SELECT `Primary Type` as `TIPO DE DELITO`, " & _
"Description as DESCRIPCION, YEAR(Date) as AÑO, count (`Primary Type`) as CASOS FROM [" & archivo & "] " & _
"WHERE Arrest like 'true' GROUP BY `Primary Type`, Description, YEAR (Date) "
'Guardamos resultado de la consulta en el recordset
With dataread
.Source = obSQL
.ActiveConnection = cnn
.CursorLocation = adUseClient
.CursorType = adOpenDinamic
.LockType = adLockOptimistic
.Open
End With
'Pasamos los datos del recordset a la hoja activa
With ThisWorkbook.Sheets("Hoja1")
.Cells(2, 1).CopyFromRecordset dataread
For i = 0 To dataread.Fields.Count - 1
encabezados = dataread.Fields(i).Name
.Cells(1, i + 1) = encabezados
Next
End With
'Liberamos memoria
Set cnn = Nothing
Set dataread = Nothing
End Sub

Como podéis observar estoy utilizando ADO para conectarme al archivo de texto y traerme los datos que he especificado en la consulta, de esta forma no tengo que importarme todo el archivo y solo aquello que necesito.

Aunque hemos creado los objetos conexión y recorset, es recomendable marcar la referencia Microsoft ActiveX Data Object 2.8 Library (o la que corresponda) para que todos los componentes funcionen correctamente, sobre todo .CursorLocation.LockType. Ya sabéis, las referencias las activáis en VBA aquí:

exportar-una-tabla-o-consulta-de-access-a-excel-con-ado2

Obviamente, en la variable “directorio” debemos especificar el directorio donde se encuentra el archivo CSV o TXT, (en este ejemplo lo tengo en la unidad “D”, en un pendrive) y en “archivo” es el nombre completo del archivo con la extensión incluida.

El resultado es el siguiente:

USAR EXCEL PARA TRABAJAR CON BIG DATA2

Después de casi un minuto la consulta nos devuelve la información que necesitamos. Es decir, ahora podemos trabajar en VBA y en Excel con datos de manera más efectiva y responder a preguntas como: ¿qué delitos han aumentado desde 2001 hasta 2017?, ¿cuáles han disminuido?, podríamos hacer un pronóstico en aquellos delitos más graves para años posteriores, podríamos conocer cuál es la droga que motiva más arrestos, etc, etc. En pocas palabras, podríamos tomar decisiones en base a datos fiables y cuantificables, pero esto lo haremos más adelante en otro post dedicado a Data Mining.

Realmente la importancia radica en todo el código, tanto en la configuración de la cadena de conexión, como en la composición de la consulta SQL, donde determinamos qué campos necesitamos y como queremos agruparlos, unirlos, etc.

Parece un proceso sencillo, pero es necesario escribir y pensar bien la sentencia SQL. En este ejemplo:

obSQL = "SELECT `Primary Type` as `TIPO DE DELITO`, " & _
"Description as DESCRIPCION, YEAR(Date) as AÑO, count (`Primary Type`) as CASOS FROM [" & archivo & "] " & _
"WHERE Arrest like 'true' GROUP BY `Primary Type`, Description, YEAR (Date) "

Seleccionamos el tipo de delito primario, la descripción( por ejemplo, en detenciones por narcóticos, aquellos que son por heroína, metanfetamina, etc), el año y contamos por el campo tipo de delito (en esta consulta que el campo Arrest sea igual a “true” y finalmente agrupamos por tipo de delito y por el año en el que se ha cometido.

El uso de las comillas invertidas ” ` ” se debe a que algunos nombres de campo tiene espacios en blanco y eso genera errores en SQL, para solventarlo, usamos las comillas invertidas.

La consulta podría ser mucho más compleja y extensa, pero para realizar este ejemplo creo que es suficiente, el objetivo es demostrar que se puede trabajar con una base de datos de “gigas” y superando los límites de Excel con tiempos razonables. No necesitamos importar el archivo a Excel, simplemente lanzamos consultas desde Excel y obtenemos el resultado, evitando problemas de espacio y eficiencia.

La idea es, “si es demasiado grande, trabaja con dimensiones más pequeñas”.

Esta técnica tiene sus límites en la capacidad de memoria que tenga nuestro equipo, pero es de mucha utilidad para establecer procesos automáticos donde debemos extraer y analizar información.

No subiré el archivo CSV, lo podéis descargar en el enlace que os dejé al principio. En cuando a la macro, debéis especificar el directorio en el que hayáis guardado el archivo para que funcione correctamente y el nombre del archivo.

Los tiempos con los que obtendréis los datos van a variar según el equipo con el que trabajéis (memoria disponible, procesador, etc), en este ejemplo he utilizado mi portátil, pero con el equipo de sobremesa ha sido mucho más veloz.

Os dejo el archivo con la macro, con las referencias marcadas y preparado para realizar el ejemplo:

Descarga el archivo de ejemplo pulsando en: USAR EXCEL PARA TRABAJAR CON BIG DATA

¿Te ha resultado de interés?, puedes apoyar a Excel Signum con una pequeña donación.

Donate Button with Credit Cards

¡¡Muchas gracias!!

Anuncios