// Python Dev
Extracción de datos en 2026: ¡no hace falta pasar cada página por un LLM!
Publicado el 13.05.2026
Entre los desarrolladores de parsers se ha difundido un enfoque extraño: enviar cada página descargada a una LLM pidiéndole que encuentre los datos necesarios. Suena cómodo: no hay que entender la estructura del HTML, el modelo lo hará por usted. Incluso se han creado herramientas específicas para esto: ScrapeGraphAI, Crawl4AI, FireCrawl — todas ellas de una u otra forma pasan el contenido de las páginas por un modelo de lenguaje en cada iteración.
En la práctica esto crea tres problemas a la vez.
Por qué es un mal enfoque
Lento. El ciclo es: descargar la página, enviarla al modelo, esperar la respuesta, pasar a la siguiente URL. En miles de páginas esto se convierte en una espera muy larga. Incluso si se ejecuta en paralelo, cada iteración del ciclo sigue siendo muy lenta.
Costoso. Está consumiendo tokens con etiquetas HTML, estilos, menús de navegación y otros residuos que no tienen relación con sus datos. La carga útil —a menudo— supone solo el 10% de lo que realmente se envía al modelo.
Indeterminista. La LLM puede omitir silenciosamente parte de los datos, especialmente si hay muchos en la página. No siempre lo notará de inmediato —y los datos ya estarán incompletos. Esta es una diferencia fundamental con un crawler clásico, que o encontraba el elemento por selector o fallaba con un error. Aquí la falla ocurre en silencio. Y eso, en mi opinión, es lo más peligroso: no puede estar 100% seguro de que los datos recopilados coincidan con lo que había en el sitio.
Cómo hacerlo correctamente
Use la LLM una vez —no en cada página.
Tome varias variantes de páginas con la información necesaria, cargue la plantilla en el modelo y pídale que genere código para extraer los datos —selectores CSS o XPath. Luego ejecute un crawler normal con esas configuraciones.
La elección de la herramienta depende de la complejidad del sitio:
- BeautifulSoup — para páginas estáticas donde los datos están directamente en el HTML. Ligero, rápido, fiable.
- Playwright (o Puppeteer) — para sitios dinámicos con renderizado JavaScript, desplazamiento infinito, modales y otras alegrías del frontend moderno. Lanza un navegador real y espera a que todo se cargue.
Como resultado obtiene un sistema que funciona rápido, entrega un resultado predecible y no desperdicia tokens. Así es como funcionan los crawlers de los buscadores: nadie hace que GPT procese cada página del índice.
Dónde LLM sigue siendo útil en el scraping
LLM se desempeña muy bien en tareas donde hay que entender la estructura y escribir código —exactamente lo que proponemos hacer. También el modelo funciona bien en la etapa de posprocesamiento: clasificar los datos extraídos, normalizar formatos, extraer sentido de texto no estructurado. Esa es su especialidad. Ser una línea de montaje para cada solicitud —no.
Conclusión
Separe responsabilidades: LLM construye la herramienta, el crawler recopila los datos, LLM, si es necesario, procesa el resultado. Cada uno hace lo que sabe hacer mejor.
Si necesita recopilar datos de Internet —productos de marketplaces, anuncios, precios, reseñas, cualquier otra fuente— contáctenos. Encontraremos, extraeremos y clasificaremos.
// Python Dev
Другие статьи Python Dev
2026-05-12
Cómo hacerse pasar por humano: web scraping sin bloqueos
Hay una especie de prueba de Turing: la máquina intenta convencer al humano de que también es humano. En el scraping pasa exactamente al revés: es el sitio el …
2026-04-03
RabbitMQ como puente entre el entorno externo y el interno
Los brokers de colas suelen percibirse como una herramienta dentro de un mismo sistema: desacoplar microservicios, suavizar picos de carga, organizar tareas en …
2026-04-01
¿Cómo organizar el marcaje automático de una cola mediante SIP y Python?
La nota analiza la arquitectura de marcación automática: cómo se organiza la canalización de procesamiento, cómo funciona la marcación a través de Asterisk AMI …
// Python Projects
Проекты Python Dev
2026-04-29
Protocolo automático de llamada: de la grabación al documento estructurado
Protocolo automático de la llamada: de la grabación al documento estructurado Los equipos distribuidos pasan mucho tiempo en llamadas. Discuten tareas, toman …
2026-03-26
Bot de Telegram para bromas de voz
Ampliacion de un bot de Telegram existente: llamadas por SIP y Telegram, grabacion de respuestas y monetizacion mediante Telegram Stars.
2026-03-26
Sistema automatico de control del consumo energetico
Un sistema MVP para controlar limites de consumo energetico en puntos de carga de vehiculos electricos con apagado automatico del rele y registro completo de …
// Contact
¿Necesitas ayuda?
Escríbeme y te ayudaré a resolver el problema