Extracción de datos en 2026: ¡no hace falta pasar cada página por un LLM!

Entre los desarrolladores de parsers se ha difundido un enfoque extraño: enviar cada página descargada a una LLM pidiéndole que encuentre los datos necesarios. Suena cómodo: no hay que entender la estructura del HTML, el modelo lo hará por usted. Incluso se han creado herramientas específicas para esto: ScrapeGraphAI, Crawl4AI, FireCrawl — todas ellas de una u otra forma pasan el contenido de las páginas por un modelo de lenguaje en cada iteración.

En la práctica esto crea tres problemas a la vez.

Por qué es un mal enfoque

Lento. El ciclo es: descargar la página, enviarla al modelo, esperar la respuesta, pasar a la siguiente URL. En miles de páginas esto se convierte en una espera muy larga. Incluso si se ejecuta en paralelo, cada iteración del ciclo sigue siendo muy lenta.

Costoso. Está consumiendo tokens con etiquetas HTML, estilos, menús de navegación y otros residuos que no tienen relación con sus datos. La carga útil —a menudo— supone solo el 10% de lo que realmente se envía al modelo.

Indeterminista. La LLM puede omitir silenciosamente parte de los datos, especialmente si hay muchos en la página. No siempre lo notará de inmediato —y los datos ya estarán incompletos. Esta es una diferencia fundamental con un crawler clásico, que o encontraba el elemento por selector o fallaba con un error. Aquí la falla ocurre en silencio. Y eso, en mi opinión, es lo más peligroso: no puede estar 100% seguro de que los datos recopilados coincidan con lo que había en el sitio.

Cómo hacerlo correctamente

Use la LLM una vez —no en cada página.

Tome varias variantes de páginas con la información necesaria, cargue la plantilla en el modelo y pídale que genere código para extraer los datos —selectores CSS o XPath. Luego ejecute un crawler normal con esas configuraciones.

La elección de la herramienta depende de la complejidad del sitio:

BeautifulSoup — para páginas estáticas donde los datos están directamente en el HTML. Ligero, rápido, fiable.
Playwright (o Puppeteer) — para sitios dinámicos con renderizado JavaScript, desplazamiento infinito, modales y otras alegrías del frontend moderno. Lanza un navegador real y espera a que todo se cargue.

Como resultado obtiene un sistema que funciona rápido, entrega un resultado predecible y no desperdicia tokens. Así es como funcionan los crawlers de los buscadores: nadie hace que GPT procese cada página del índice.

Dónde LLM sigue siendo útil en el scraping

LLM se desempeña muy bien en tareas donde hay que entender la estructura y escribir código —exactamente lo que proponemos hacer. También el modelo funciona bien en la etapa de posprocesamiento: clasificar los datos extraídos, normalizar formatos, extraer sentido de texto no estructurado. Esa es su especialidad. Ser una línea de montaje para cada solicitud —no.

Conclusión

Separe responsabilidades: LLM construye la herramienta, el crawler recopila los datos, LLM, si es necesario, procesa el resultado. Cada uno hace lo que sabe hacer mejor.

Si necesita recopilar datos de Internet —productos de marketplaces, anuncios, precios, reseñas, cualquier otra fuente— contáctenos. Encontraremos, extraeremos y clasificaremos.

Por qué es un mal enfoque

Cómo hacerlo correctamente

Dónde LLM sigue siendo útil en el scraping

Conclusión

Другие статьи Python Dev

Cómo hacerse pasar por humano: web scraping sin bloqueos

RabbitMQ como puente entre el entorno externo y el interno

¿Cómo organizar el marcaje automático de una cola mediante SIP y Python?

Проекты Python Dev

Protocolo automático de llamada: de la grabación al documento estructurado

Bot de Telegram para bromas de voz

Sistema automatico de control del consumo energetico

¿Necesitas ayuda?