Cómo construimos nuestro buscador en…

José Ramón Pérez Agüera

abr 27

El playbook completo, abierto, para que cualquiera pueda inspirarse y montar el suyo.

Leer →

10 Comentarios

Joel Quesada

8dEditado

Enhorabuena por el artículo y gracias por compartirlo con tanto detalle. Se ven pocos así, con números reales :)

Os cuento una variante que probamos en Veepee (Privalia en España) para queries cuyo vocabulario no está en el catálogo. En lugar de tirar de un embedder semántico, expandíamos las búsquedas con "sinónimos" aprendidos de los propios datos implícitos. Por ejemplo: alguien busca "bambas", esa palabra no aparece en ninguna descripción, pero los datos muestran una relación altísima con que esa persona acabe comprando "sneakers". Es una relación que aprendes de tus propios datos, no de un modelo general. Esto también sirve para aprender otros conceptos como "marcas similares".

Tiene su parte mala, claro: cold-start con queries nuevas, donde un embedder zero-shot funciona mejor. A cambio, pilla mucho mejor términos coloquiales o regionales, donde la intención de compra no coincide del todo con la similitud semántica.

Lo dejo por si os sirve para comparar enfoques. ¡Un saludo!

Responder

Alfonso Anton

Que gran Articulo! Enhorabuena por ese trabajazo! Para los no expertos en la materia se agradece este estilo.

Un saludo.

Responder

Fede Casabianca

Tremendo post. Como PM que trabaja en Search con un catalogo de 1M de materials educativos, donde la complejidad de la query puede ser the 4 tokens o mas, me ha resultado super util para validar comportamientos con Learning-To-Rank.

Mil gracias por compatir.

Responder

patoroco

Me ha encantado todo el proceso de aprendizaje a lo largo del proceso, muchos tips extrapolables a otros proyectos, no solo buscadores.

Gracias por compartir el artículo y más con tanto detalle.

Responder

Adrián

Muchas gracias por compartir en abierto, tanto el camino para llegar a ello como el stack tecnológico. Es un cambio de paradigma y esto lo demuestra. Como también lo demuestra el hecho de que uno no se puede quitar de encima la sensación de estar leyendo un texto redactado/revisado o corregido por un LLM, tanto por el lenguaje, como por el uso de ciertas estructuras gramaticales y usos de la puntuación, de los que los modelos tienden a abusar, pero que los castellano parlantes no habituamos tanto (y el autor hace unos meses tampoco lo hacía). No es tanto una crítica, como sí una pena, porque al final todos los textos suenan igual, pierden personalidad y carisma, lo que los hace ser únicos, para al final ser todos iguales y una triste tendencia a la media. Finalizo de nuevo agradeciendo, eso siempre, este build in public que aporta mucho. Sobre todo por su procedencia.

Responder (1)

José Ramón Pérez Agüera

piensa que sin IA ese texto no existiría por falta de tiempo, es el trade off a pagar :)

Responder

Jose Parreño Garcia

Apr 27

Gracias por compartirlo con todos! Estoy seguro que con vuestro primer baseline, le podéis pedir a Claude que haga research de papers sobre problemas parecidos y que itere. Nosotros lo estamos haciendo en nuestros servicios y es súper interesante. Te levantes y el agente ha probado 10 iteraciones, y donde no ha mejorada puntos te deja un reporte de learnings, y donde mejora… alegria!!

Estaré atento a ver si hay v2 de estos artículos!

Responder

Geronimo Di Pierro

Apr 27

Muy buen post! Gracias por compartirlo!

Responder

Jose M Pelaez

Apr 27

Muchas gracias, José Ramón. Muy buena aportación a la Sociedad.

Por curiosidad, ¿os habéis planteado usar agentes de IA para analizar y reducir la "pérdida desconocida"?

Responder

Jorge Alastuey

Apr 27

Este post es la clara evidencia de lo que las IA nos están aportando.

Y no me refiero solo a que en tres días te puedes hacer un buscador que cubra todas tus necesidades.

Es muy ilustrativo lo que José Ramón comenta y creo que muchas veces no se le presta la suficiente atención. Las empresas de software van a tener que migrar hacia modelos donde haya una capa sobre la que se trabaje. Y esa capa tienen que ser los LLM.

Y esto aplica para software, pero también para formaciones etc. etc.

Responder

Gemba

Cómo construimos nuestro buscador en…