// Python Dev
Extracción de datos en 2026: ¡no hace falta pasar cada página por un LLM!
Publicado el 13.05.2026
Entre los desarrolladores de parsers se ha difundido un enfoque extraño: enviar cada página descargada a una LLM pidiéndole que encuentre los datos necesarios. Suena cómodo: no hay que entender la estructura del HTML, el modelo lo hará por usted. Incluso se han creado herramientas específicas para esto: ScrapeGraphAI, Crawl4AI, FireCrawl — todas ellas de una u otra forma pasan el contenido de las páginas por un modelo de lenguaje en cada iteración.
En la práctica esto crea tres problemas a la vez.
Por qué es un mal enfoque
Lento. El ciclo es: descargar la página, enviarla al modelo, esperar la respuesta, pasar a la siguiente URL. En miles de páginas esto se convierte en una espera muy larga. Incluso si se ejecuta en paralelo, cada iteración del ciclo sigue siendo muy lenta.
Costoso. Está consumiendo tokens con etiquetas HTML, estilos, menús de navegación y otros residuos que no tienen relación con sus datos. La carga útil —a menudo— supone solo el 10% de lo que realmente se envía al modelo.
Indeterminista. La LLM puede omitir silenciosamente parte de los datos, especialmente si hay muchos en la página. No siempre lo notará de inmediato —y los datos ya estarán incompletos. Esta es una diferencia fundamental con un crawler clásico, que o encontraba el elemento por selector o fallaba con un error. Aquí la falla ocurre en silencio. Y eso, en mi opinión, es lo más peligroso: no puede estar 100% seguro de que los datos recopilados coincidan con lo que había en el sitio.
Cómo hacerlo correctamente
Use la LLM una vez —no en cada página.
Tome varias variantes de páginas con la información necesaria, cargue la plantilla en el modelo y pídale que genere código para extraer los datos —selectores CSS o XPath. Luego ejecute un crawler normal con esas configuraciones.
La elección de la herramienta depende de la complejidad del sitio:
- BeautifulSoup — para páginas estáticas donde los datos están directamente en el HTML. Ligero, rápido, fiable.
- Playwright (o Puppeteer) — para sitios dinámicos con renderizado JavaScript, desplazamiento infinito, modales y otras alegrías del frontend moderno. Lanza un navegador real y espera a que todo se cargue.
Como resultado obtiene un sistema que funciona rápido, entrega un resultado predecible y no desperdicia tokens. Así es como funcionan los crawlers de los buscadores: nadie hace que GPT procese cada página del índice.
Dónde LLM sigue siendo útil en el scraping
LLM se desempeña muy bien en tareas donde hay que entender la estructura y escribir código —exactamente lo que proponemos hacer. También el modelo funciona bien en la etapa de posprocesamiento: clasificar los datos extraídos, normalizar formatos, extraer sentido de texto no estructurado. Esa es su especialidad. Ser una línea de montaje para cada solicitud —no.
Conclusión
Separe responsabilidades: LLM construye la herramienta, el crawler recopila los datos, LLM, si es necesario, procesa el resultado. Cada uno hace lo que sabe hacer mejor.
Si necesita recopilar datos de Internet —productos de marketplaces, anuncios, precios, reseñas, cualquier otra fuente— contáctenos. Encontraremos, extraeremos y clasificaremos.
// Python Dev
Другие статьи Python Dev
2026-06-10
Por qué un LLM no reemplazará a un buen parser. Caso con repuestos de automóviles
Un cliente vino con una tarea que, al principio, parece casi ingenuamente simple — tanto que resulta un poco sospechosa. Hay un catálogo: más de 50 000 …
2026-06-01
Por qué en mi tiempo libre decidí crear la milmillonésima aplicación ToDo
Una aplicación Todo — una especie de Hello World en el mundo de la programación. Todo desarrollador la ha hecho al menos una vez, normalmente al principio, …
2026-05-30
Dos días para una tarea que parecía trivial: la carga asíncrona en bots de Telegram.
Hay una clase de tareas que parecen quince minutos de trabajo. Luego te pones con ellas y descubres que no es el código: es cómo está diseñada la sistema bajo …
// Python Projects
Проекты Python Dev
2026-05-28
Robot cobrador: llamadas automaticas a deudores
Un sistema automatizado de llamadas de voz para cobro de deudas con integracion con Google Sheets, sintesis de voz, reconocimiento de respuestas y reintentos de …
2026-05-27
Gestion automatica de una red de canales de Telegram para una agencia de viajes
Un sistema de publicacion automatica para 150 canales de Telegram con seleccion de tours y vuelos, generacion de imagenes y publicaciones programadas.
2026-04-29
Protocolo automático de llamada: de la grabación al documento estructurado
Protocolo automático de la llamada: de la grabación al documento estructurado Los equipos distribuidos pasan mucho tiempo en llamadas. Discuten tareas, toman …
// Contact
¿Necesitas ayuda?
Escríbeme y te ayudaré a resolver el problema
Escribir en TelegramОтвечаю в течение рабочего дня (03:00–13:00 GMT)
Или оставьте заявку здесь: