Blog

7 sencillos pasos para un exitoso proyecto de ciencia de datos

¿Alguna vez tuvo esta gran idea para un proyecto o negocio de ciencia de datos? Al final no lo hiciste porque no sabías cómo hacerlo un éxito?

Hoy voy a mostrarte cómo hacerlo.

Para mantener este artículo lo más real posible, hablemos de un caso de uso distinto.

La teoría es que puedes usar los datos de Twitter para identificar las tendencias actuales de big data.

El objetivo es vender este servicio a los clientes por un tema de su elección. Vamos a utilizar los servicios de AWS para realizar todo esto.

No estoy anunciando para AWS, solo tengo más experiencia con él. Estoy seguro de que Google Cloud o Azure tienen las mismas funciones, solo nombradas de manera diferente.

PASO 1: OBTENER LOS DATOS

Antes de hacer cualquier otra cosa, vas a necesitar probar tu teoría. Para hacer eso, debes recopilar algunos datos.

Se puede acceder a los datos de Twitter a través de API públicas. Todo lo que necesita hacer es escribir un pequeño programa que pueda descargar tweets de ciertos usuarios.

Use el lenguaje de programación con el que está más familiarizado. Por ejemplo, me gusta mucho Java, así que uso Java para estas tareas.

Cuando su software esté funcionando, descargue los tweets de todas las personas influyentes en el campo seleccionado. Influencers son personas que tienen un gran número de seguidores y que twittean un montón de cosas de big data.

Para big data es particularmente fácil porque KDNuggets tiene una lista de influencers de Twitter: http://www.kdnuggets.com/2016/02/big-data-top-influencers-brands.html

Para hacerlo en la nube, puede girar una simple instancia de AWS EC2 Linux (nano o micro) y ejecutar su software en.

OK, pero ¿cómo debo almacenar los datos?

La mejor forma de almacenar los datos es usar un formato simple .csv. Una línea por tweet que incluye el texto y la metainformación del tweet.

La metainformación que debe incluir es persona, tiempo, respuestas, retweets y me gusta.

Cuando hayas terminado, sube el archivo a S3.

¿Cuántos datos debo extraer?

Mi consejo es siempre obtener la mayor cantidad de datos posible en un tiempo razonable. Deje que su programa se ejecute durante unos días.

Twitter tiene algunas reglas estrictas de API para la cantidad de datos que puede consultar en un momento determinado. Tienes que acelerar tu software para que no salga todo. De lo contrario, se agotará el tiempo.

De todos modos, unos pocos meses de historia de tweets deberían ser suficientes. La cantidad de datos para obtener no es una ciencia exacta, sigue tus instintos.

Una cosa más: solo recopile la cantidad de datos que pueda manejar la máquina que está utilizando para el análisis.

PASO 2: SELECCIONA LAS HERRAMIENTAS ADECUADAS PARA EL ANÁLISIS

Después de obtener los datos, debe seleccionar la herramienta adecuada para analizarlos. Escriba una lista de funciones de análisis que cree que necesita y compare las herramientas disponibles.

Barato y rápido es el camino a seguir.

Puede usar herramientas gráficas como Orange, Rapid Miner u Knime.

Si no le quedan bien, vaya a escribir el análisis usted mismo. Python y R son lenguajes asombrosos para la ciencia de datos.

Pero me encanta usar Matlab, ¿puedo usarlo?

Por supuesto, si Matlab tiene las características que necesita, ¡úselo! Use lo que mejor se adapte a sus necesidades.

Puede usar la instancia anterior de EC2 para realizar análisis. O detenga el anterior y active uno nuevo si necesita cambiar el sistema operativo.

PASO 3: PRUEBA TU TEORÍA CON CIENCIA

Tienes los datos y las herramientas en su lugar. Esto significa que estás listo.

¡Es hora de trabajar los datos y probar tu teoría!

¿Pero cómo?

Comience identificando las tendencias que ya sabe que están en los datos. Una forma sencilla sería buscar en Google eventos importantes que se hayan informado mucho.

Intenta crear un proceso analítico que encuentre estas tendencias.

¿Cómo sé cuándo se ha demostrado la teoría y es hora de seguir adelante?

Si los análisis pueden encontrar las tendencias que usted especificó, entonces está en el camino correcto. Busque instancias donde el análisis encuentre nuevas tendencias.

Confirma estas tendencias, por ejemplo, buscando en Internet. Los resultados no serán confiables el 100% del tiempo.

Antes de continuar, debe decidir la cantidad de tendencias informadas falsamente (la tasa de error) que desea tolerar.

Por cierto, la tasa de error del 0% es absolutamente poco realista ?

PASO 4: DESCUBRE TU MODELO DE NEGOCIO

Después de obtener el derecho de la ciencia, debe dar un paso atrás. Antes de continuar, necesita averiguar su modelo de negocio.

Pregúntese: ¿qué es lo que hace, qué recursos necesita y qué valor le proporciona al cliente?

¿Quiénes son sus clientes y cómo va a venderles su producto?

¿Qué valores van a pagar los clientes?

Una buena manera de hacerlo es el lienzo del modelo de negocio . Es simple y barato, básicamente puedes crearlo en una hoja de papel.

Cuando haya terminado, continúe con la construcción de un producto viable mínimo (MVP).

PASO 5: CREA UN PRODUCTO MÍNIMO VIABLE

Después de probar su teoría, es hora de comenzar a construir una primera versión llamada producto viable mínimo (MVP). El objetivo de un MVP es construir una solución que solo entregue la funcionalidad principal.

No vaya por soluciones sofisticadas. Concéntrese en las funciones principales que necesita realizar.

Cumpla con lo que sabe y lo que funcionará al principio y amplíe su sistema más adelante. Puede ser algo realmente simple como una instancia de base de datos RDS y un EC2 con Tomcat para entregar contenido.

El sistema podría verse más o menos así:

Básicamente esta puede ser la primera versión que ofreces a los clientes. Tiene todas las características principales: extraer datos de Twitter, analizarlos y mostrar los resultados a los clientes.

PASO 6 AUTOMATICE Y MIDA TODO

Por lo general, un MVP no solo no tiene funciones, sino que también necesita automatización.

Automatice tanto como sea posible. Debe ser capaz de concentrarse en el desarrollo posterior y no en el funcionamiento del sistema.

Automatice cómo cargar datos en S3, deje de iniciar los análisis a mano y escriba un script de automatización.

Comience el análisis automáticamente y ya no a mano.

Conecte la secuencia de comandos de descarga a la base de datos RDS para leer dinámicamente la lista de personas influyentes. Esto le permite incluir automáticamente nuevas personas influyentes en la demanda del cliente.

Automatice todo, cree API para ingerir y almacenar datos automáticamente.

Luego está el registro.

Necesita saber lo que debe desarrollar a continuación. No solo en términos de nuevas características, también se trata de solucionar problemas con la plataforma y hacerlo más rápido.

Configure un sistema para registrar y monitorear. Intenta medir tanto como sea posible.

Puede registrar estadísticas del servidor como cpu, ram, network con herramientas como, por ejemplo, Nagios. Nagios incluye una interfaz de usuario para estas estadísticas.

Registre estadísticas para la descarga de Twitter o cargue en S3.

Registre cuánto tiempo está tomando el proceso de Analytics y otras estadísticas.

Registre lo que los usuarios están haciendo. Una forma simple es escribir una línea en el registro cada vez que un usuario está utilizando una función específica de la interfaz de usuario.

PASO 7 RE-ITERATE

Entonces, ahora su MVP se está ejecutando y usted automatizó casi todo. Usted tiene una supervisión integral en su lugar.

El sistema se está ejecutando desde hace un tiempo, usted sabe exactamente cómo se comporta cada aspecto:

Usted sabe qué tan rápido puede ingerir. Usted conoce el rendimiento del almacenamiento y los análisis. Usted tiene una indicación clara de lo que hacen los clientes.

Debido a que implementó un extenso registro, todas las debilidades en su diseño son visibles.

¿Qué hacer después?

Es hora de mejorar aún más tu sistema. Deshágase de las debilidades actuales y agregue más funciones al sistema.

Deshaciéndose de las debilidades, optimizará el rendimiento general y la estabilidad del sistema. Las nuevas características agregarán más valor para sus clientes.

La implementación de nuevas características también le permitirá ofrecer nuevos servicios o productos.

ALGUNAS PALABRAS FINALES

¿Es tan simple convertir una idea en una empresa exitosa? Sólo por:

  1. Obteniendo los datos
  2. Seleccionar las herramientas adecuadas para análisis
  3. Demostrando tu teoría con ciencia
  4. Averiguar su modelo de negocio
  5. Construyendo un producto mínimo viable
  6. Automatizando y midiendo todo
  7. Re-iterating

Seguir estos 7 pasos pondrá orden en el caos de la construcción de un producto. Le ayudarán a establecer sus prioridades y aprovechar al máximo su tiempo.

Sin embargo, para ser sincero: no hay garantía de éxito, a pesar de que la gente te dice que sí. Simplemente no hay.

Tal vez calculó mal las necesidades de sus clientes y necesita pivotar. cambiando el valor para el cliente y la forma en que entregas. Si es así, estos siete pasos te ayudarán a encontrar tu camino.

 

¿Qué piensas? ¿Extrañé una pieza crucial del rompecabezas? ¿Ya has hecho los siete pasos sin saber nada de ellos?

Compartir

Noticiar Recientes