Tres ejes y dos brechas: lo que falta en la conversación sobre la IA
Llevo trabajando con Claude desde el día que salió. Casi tres años de pequeños pasos. Empecé con cosas puntuales — ayúdame a redactar un correo, a entender un concepto del grado en Ciencia de Datos, a desempolvar una fórmula. Ahora hago otra cosa: construyo agentes en producción, recomendadores, proyectos sobre Salesforce Data Cloud, sitios web completos. Con buena calidad, sin errores forzados, siguiendo buenas prácticas. Llevándome de la herramienta lo que sé pedirle.
El escepticismo que sigo encontrando
Cuando comparto este trabajo con familia, amigos del sector y conocidos, todavía me topo con bastante escepticismo. Algo de rechazo. La asunción de que un código generado con IA es mal código. De que los proyectos manejables con IA tienen que ser triviales. Que todas las imágenes con IA se ven igual.
Y en diseño la opinión es más fuerte: "todas las imágenes con IA se ven igual", "Canva ha hecho que todo se vea igual". La semana pasada tuve una discusión sobre eso. Le pregunté a la otra persona — desarrolladora también — qué modelos usaba. Qué herramientas. Qué técnica.
La respuesta era ninguna.
Tres ejes de calidad
Lo que creo que falta en esas conversaciones es esto: la calidad del output cambia según tres ejes.
- El modelo. Un modelo frontera (Claude Opus, GPT-5, Gemini 2.5) produce un output radicalmente distinto al de uno gratuito o más pequeño. La mayoría de la gente solo toca los segundos.
- La técnica. El mismo modelo da resultados distintos según las instrucciones, el scaffolding, los evals, el workflow alrededor. Promptear bien es una habilidad.
- El conocimiento de cómo funcionan los LLMs realmente. En qué son buenos, en qué alucinan, qué contexto necesitan, dónde los puedes empujar y dónde se rompen.
Cuando alguien me dice "lo probé y fue malo", mi pregunta honesta es: qué modelo, qué workflow, entiendes cómo funcionan estos modelos. La respuesta suele ser "ni idea".
Dos brechas reales
Hay también dos brechas reales que sesgan la conversación.
Una económica: los modelos frontera cuestan, y la mayoría se queda en el tier gratuito y juzga la tecnología desde ahí. El gap entre Claude Opus y un Llama 7B local no es marginal — es la diferencia entre una herramienta que escribe código de producción y una que da resultados aproximados.
Y una de conocimiento: mucha gente no sabe que Claude, Qwen o Kimi existen, mucho menos cómo usarlos bien. No es ignorancia culpable — es que el ritmo de la industria es absurdo y la curva de aprendizaje no es trivial. Pero juzgar desde ahí — sin saber qué hay disponible ni cómo se usa — sesga la opinión hacia el "no sirve".
Un caveat honesto
Esta es mi visión, sesgada por privilegio. Tengo acceso a modelos frontera por donde trabajo y por las decisiones que tomo. Puedo experimentar con las herramientas más nuevas. Ese sesgo es importante reconocerlo. No estoy juzgando a quien lo intentó una vez en una versión gratuita y concluyó que no servía — su conclusión es razonable dadas sus condiciones. Solo digo que esas condiciones no son las únicas posibles.
No estoy evangelizando. Comparto lo que veo: desarrolladores con experiencia a los que respeto, adoptando IA en sus workflows en silencio, donde hace un año no lo hacían. La penetración sigue siendo mínima — pero el cambio se nota.
Cierre
No es una varita mágica. No se puede confiar a ciegas en el output. Hay que planear, leer el código, entenderlo. Cualquiera que te diga lo contrario te está vendiendo algo.
Pero tampoco se puede decir que no sirve. Ambas cosas son ciertas a la vez, y la conversación interesante empieza cuando dejamos de defender una posición y empezamos a hablar de modelos, técnicas y workflows concretos.