Me pregunto cómo funcionará el entrenamiento de las LLM para describir imágenes si absolutamente nadie ponía texto alternativo hasta hace un par de años, cuando las IA ya estaban establecidas y podían describir.
@muchanchoasado por comparativa, de una forma muy similar a como opera el machine learning
ej. el coso consume un banco de imágenes, rollo sitios con imágenes stock con etiquetas, en donde hay muchas fotos descritas como "árboles" y con eso va creando un patrón para diferenciar qué es un árbol que no
@muchanchoasado Creo que esas si las entrenaron sin robarse mucho 🤣 miles imágenes de plátanos y les decían IA bonita esto es un plátano y así
Y dicen que esos captchas donde nos dicen marque todo lo que sea un ciclista, un semáforo, una puerta etc …iban para enseñar a las IA
@muchanchoasado los captcha. Esos que te hacían escribir qué veías en la foto jajjaja.
@muchanchoasado hay una app de google que te permite subir fotos que hayas tomado y ponerles tags, es divertido. Ademas, creo que las primeras IAs empezaron tomando muestras de resultados de indexación de google (imagenes) y generando un "promedio", lo cual daba resultados graciosos como que las ias pensaban que las pesas eran brazos levantando esferas metalicas con tubos
@nemezombi512 Jajajajaj es buenísimo! Recuerdo que cuando salió la primera beta de Google Lookout, una app que te describe los objetos que enfoca la cámara, detectaba al inodoro como una maceta.
@muchanchoasado La sabiduria arcana de las IAs, ha sido corrompida por la realidad toiletera de los LLM
@bacteriano ¡Tenés razón! Me había olvidado de las captchas. Odio cuando una página solo tiene esas cosas sin alternativa de audio.
@adra Es verdad, no se me había ocurrido que se basaran en el nombre de las imágenes y no en los metadatos (asumiendo que el alt text cuenta como metadato).
@muchanchoasado @adra bueno, seguramente es de todo. También hay mucho etiquetado manual a base de trabajadores "baratos", al parecer. Puedes leer:
Al parecer, se avanza con LLMs más éticos, la menos. La descripción de imágenes y demás sí es un ámbito donde vale la pena probar tecnologías.
@muchanchoasado @adra vaya, pensaba que Google tendría algo local. Quizá Apple sí lo tiene.
En principio se avanza para que se puedan tirar LLMs en móviles, pero diría que aún queda algo lejos (y sólo en móviles caros). Yo jugué hace tiempo con tirar un LLM en mi PC y podía, pero tenía una tarjeta Nvidia (eso sí, de 2017).
Me gustaría probar qué tal va el modelo Apertus suizo, de entrenamiento "ético", pero me falta tiempo.