Semana 3 · W03 · Unidad 1 · Big Data y Analytics
2026-03-01
Hoy: ¿Qué pasa cuando TechStyle pasa de 450.000 a 8.500.000 clientes? Y cerramos la Unidad 1 con evaluación.
¿Qué cambió? TechStyle entró en el mundo del Big Data.
| V | Descripción | Ejemplo TechStyle 2028 |
|---|---|---|
| Volumen | Cantidad de datos | 8,5M clientes × historial 5 años |
| Velocidad | Rapidez de generación | 340.000 pedidos/día, 24/7 |
| Variedad | Formatos distintos | CSV, JSON, imágenes, texto, GPS |
| Veracidad | Calidad y confiabilidad | Datos duplicados, reviews falsas |
| Valor | Datos útiles para decisiones | Solo el 15% del dato genera insight |
Analiza cada problema con las 5 V:
No todos los problemas de Big Data involucran las 5 V simultáneamente. Identificar cuál V es el cuello de botella es el primer paso para solucionarlo.
Clasifica cada situación:
| Característica | OLTP | OLAP |
|---|---|---|
| Propósito | Registrar operaciones | Analizar historiales |
| Operación típica | INSERT / UPDATE / DELETE | SELECT con GROUP BY y JOINs |
| Volumen por consulta | Pocas filas | Millones de filas |
| Usuario típico | Sofía (repartidora) | Juan (analista) |
| Ejemplo TechStyle | Sistema de pedidos | Reporte de ventas por categoría y año |
No se puede optimizar la misma base de datos para los dos usos a la vez.
Tipo de operación SQL y por qué importa:
INSERT INTO pedidos (fecha, total, estado) VALUES (...) → 1 fila, respuesta en < 100ms, crítico para el clienteSELECT categoria, SUM(total) FROM pedidos WHERE fecha BETWEEN ... GROUP BY categoria → millones de filas, puede tardar segundos, no es urgenteSi Juan ejecuta su consulta en la BD de Sofía, bloquea la BD y los pedidos dejan de procesarse → e-commerce caído.
Por eso existen sistemas separados: OLTP para operar, OLAP para analizar.
Clasifica cada operación:
Un DW industrial tiene tres capas:
Power BI de Juan se conecta a la capa de presentación, no directamente al OLTP.
ETL = Extraer + Transformar + Cargar
En el Lab 3: implementarán un mini-ETL con Power Query para integrar 3 sistemas OLTP de TechStyle: ventas, clientes y productos.
Un proceso ETL nocturno en TechStyle 2028:
pedidos_2028.csv (3,2GB), clientes_api.json (1,1GB), gps_logs.parquet (820MB)tiempo_entrega_horasClasifica cada situación:
precio_unitario tiene valores negativos que deben corregirse antes de cargar → Transformar.parquet no está soportado → ExtraerEste flujo conecta todo lo visto en la Unidad 1. La próxima unidad explica cómo se diseña cada eslabón.
Conectando con lo que ya dominan:
Este semestre une todos los puntos que ya conocen.
| Semana | Concepto clave |
|---|---|
| W01 | Dato → Información → Decisión. 5 componentes del SI. Actores y niveles. |
| W02 | Tipos de SI (TPS→EIS). CMI con KPIs. Calidad (4 dimensiones). Ética. |
| W03 | Big Data (5V). OLTP vs OLAP. Data Warehouse. ETL. |
Hilo conductor: TechStyle necesita los datos correctos, en el sistema correcto, para el actor correcto, en el momento correcto → para tomar decisiones correctas.
Empresa de mantención del hogar. En grupos:
Lab W03: Mini-ETL con Power Query
oltp_ventas.csv, oltp_clientes.csv, oltp_productos.csv.Próxima semana (W04): ¿Cómo le decimos a un desarrollador qué debe construir, antes de escribir código? → Diagrama de Caso de Uso.
Big Data y Analytics · USS · 2026