Cómo analizar miles de reseñas en Wildberries con LAG: análisis paso a paso

En los productos populares en Wildberries, la cantidad de reseñas fácilmente supera los miles. Leerlas manualmente es lento, tedioso y poco eficaz.

En las reseñas están ocultas las causas reales de las devoluciones, problemas sistémicos del producto, quejas recurrentes y puntos fuertes del producto. La tarea es extraer rápidamente la esencia, no ahogarse en el texto.

Por qué el análisis “a lo bruto” no funciona

El enfoque típico es cargar todas las reseñas en una LLM y pedir un resumen. En la práctica esto da un resultado pobre: se pierden patrones repetitivos, los detalles importantes se diluyen y el resultado final queda demasiado general.

La razón es sencilla: el modelo no maneja bien una gran cantidad de texto heterogéneo en una sola pasada. Se necesita otro enfoque.

Arquitectura de la solución

El proceso se construye por etapas:

Recolección de reseñas
Clasificación preliminar
División en grupos
Análisis local por grupos (fase Map)
Agregación final (fase Reduce)
Generación del informe final

En esencia es un análogo de MapReduce: primero cada grupo se analiza de forma independiente, luego los resultados se combinan. Veamos cada etapa con más detalle.

1. Recolección de reseñas

Las reseñas se recogen mediante automatización del navegador basada en Playwright interceptando las peticiones XHR. Esto es más rápido que el parseo HTML y más resistente a cambios en el maquetado: la estructura de la API cambia con menor frecuencia que el marcado de la página.

2. Clasificación preliminar

Antes de enviar a la LLM, las reseñas se dividen en positivas y negativas según la valoración del producto y filtros simples por palabras clave. Esto reduce la carga sobre el modelo y mejora la precisión: el modelo trabaja con datos homogéneos en lugar de con un flujo mezclado.

3. División en grupos

Las reseñas se dividen en grupos de 20–30 unidades. Con volúmenes mayores (a partir de 100 y más) el modelo retiene peor el contexto, aumenta la cantidad de errores y generalizaciones. Los grupos pequeños ofrecen un resultado estable y predecible.

4. Análisis local por grupos (fase Map)

Cada grupo se procesa a través de la LLM con el mismo prompt:

Eres un analista de productos. Tu tarea es procesar las reseñas de un producto y hacer un análisis agregado.

Instrucciones:
- Separa los pros y los contras de cada reseña.
- Agrupa los pros y contras repetidos.
- Al final, elabora un resumen breve de 2–3 frases: qué es lo que más les gusta a los compradores, qué es lo que más genera insatisfacción.

Datos de entrada:
[lista de reseñas]

En la salida de cada grupo — lista de pros clave, lista de contras y un breve resumen.

5. Agregación final (fase Reduce)

Todos los resultados de los grupos se combinan y se reenvían a la LLM. La tarea de este paso es eliminar duplicados, unificar formulaciones similares y destacar los principales problemas y ventajas. Sin este paso, el informe final estará sobrecargado de repeticiones.

6. Informe final

En la salida se genera un documento estructurado:

Resumen breve — 3–5 frases sobre el producto en general
Pros clave — agrupados y respaldados por la frecuencia de menciones
Contras clave — de forma análoga

Adicionalmente: se generan varias opciones de títulos para la ficha del producto, de las cuales con una consulta aparte se elige la mejor.

Ejemplo de fragmento de una salida real:

Aerofreidora de 14 litros — cocina rápido, pero no siempre de forma uniforme
La aerofreidora Libhof AFZ-14 tiene un volumen bastante grande — 14 litros, lo que es cómodo para cocinar porciones grandes, y diversos programas automáticos con control táctil. En el uso prepara los platos rápidamente, generalmente sabrosos y jugosos, y la función de deshidratador permite hacer snacks saludables. El dispositivo cuenta con un asador giratorio y una tapa desmontable, lo que amplía las posibilidades de cocinado y la comodidad para su limpieza.
Pero en el funcionamiento se encuentran problemas con la uniformidad de cocción, lo que se nota en algunos platos. A veces aparece olor en el primer uso, y las instrucciones y recetas dejan dudas. La calidad de montaje y el contenido del paquete varían entre unidades — desafortunadamente, hay defectos desagradables y juegos de accesorios incompletos. En general, es un aparato útil, pero requiere atención al elegir y al usar.
#multigrill #parrillaelectrica #cocinarencasa
Aerofreidora eléctrica para el hogar 14 litros, horno multiuso — 9 037 ~~27 273~~ rublos.

Rendimiento

El procesamiento de un producto tarda alrededor de 1 minuto:

~25 segundos — recolección de reseñas (navegador + XHR)
~35 segundos — procesamiento a través de la LLM

Volumen de datos: 1000–2000 reseñas, ~60–65 mil tokens por ciclo completo.

Stack técnico

Playwright — recolección de datos
Lógica simple de filtrado — clasificación preliminar
OpenRouter — trabajo con la LLM
Procesamiento paralelo de grupos — aceleración de la fase Map

La orquestación puede implementarse como un servicio backend o mediante herramientas no-code — por ejemplo, n8n.

Errores típicos en la implementación

Grupos demasiado grandes — con >100 reseñas el modelo empieza a generalizar y a perder detalles
Prompts diferentes para distintos grupos — los resultados se vuelven incompatibles en la etapa de agregación
Falta de agregación final — sin la fase Reduce el informe se convierte en un desorden ininteligible
Intentar hacerlo todo en una sola petición — el error más frecuente con el que todo comienza

Limitaciones

El enfoque no es perfecto: la calidad depende del modelo elegido, cada ciclo consume tokens, y nadie garantiza una precisión del 100% en las formulaciones. Aun así, los problemas clave y los patrones se identifican de forma estable — el ruido se filtra eficazmente ya en la etapa de agrupamiento.

Conclusión

Analizar miles de reseñas de Wildberries con una LLM “a lo bruto” es una lotería. El procesamiento por etapas con agrupamiento y agregación ofrece una calidad radicalmente distinta: resultado estable y repetible. Si lo ejecutas sobre un producto dos veces — obtendrás conclusiones iguales. Si lo ejecutas sobre mil productos — obtendrás informes comparables entre sí, que se pueden contrastar.

Esto es lo que distingue la herramienta del experimento: no una salida afortunada única, sino un proceso predecible que escala a cualquier volumen y transforma miles de reseñas en analítica estructurada en un minuto.

Para el negocio es una forma de identificar rápidamente problemas del producto, mejorar la ficha y reducir devoluciones. Para el comprador — la posibilidad de entender pros y contras sin leer cientos de comentarios manualmente.

Análisis y ejemplos: https://t.me/wildberris_pp

Por qué el análisis “a lo bruto” no funciona

Arquitectura de la solución

1. Recolección de reseñas

2. Clasificación preliminar

3. División en grupos

4. Análisis local por grupos (fase Map)

5. Agregación final (fase Reduce)

6. Informe final

Rendimiento

Stack técnico

Errores típicos en la implementación

Limitaciones

Conclusión

Другие статьи Python Dev

¿Cómo organizar el marcaje automático de una cola mediante SIP y Python?

Проекты Python Dev

Bot de Telegram para bromas de voz

Sistema automatico de control del consumo energetico

Gestion automatica de una red de canales de Telegram para una agencia de viajes

¿Necesitas ayuda?