Post by Muchancho del subsuelo

104d

Me pregunto cómo funcionará el entrenamiento de las LLM para describir imágenes si absolutamente nadie ponía texto alternativo hasta hace un par de años, cuando las IA ya estaban establecidas y podían describir.

4 0 0 View Post & Replies See Original

104d

@muchanchoasado por comparativa, de una forma muy similar a como opera el machine learning

ej. el coso consume un banco de imágenes, rollo sitios con imágenes stock con etiquetas, en donde hay muchas fotos descritas como "árboles" y con eso va creando un patrón para diferenciar qué es un árbol que no

1 0 0 View Post & Replies See Original

104d

@muchanchoasado Creo que esas si las entrenaron sin robarse mucho 🤣 miles imágenes de plátanos y les decían IA bonita esto es un plátano y así

Y dicen que esos captchas donde nos dicen marque todo lo que sea un ciclista, un semáforo, una puerta etc …iban para enseñar a las IA

1 0 0 View Post & Replies See Original

104d

@bacteriano ¡Tenés razón! Me había olvidado de las captchas. Odio cuando una página solo tiene esas cosas sin alternativa de audio.

0 0 0 View Post & Replies See Original

104d

@adra Es verdad, no se me había ocurrido que se basaran en el nombre de las imágenes y no en los metadatos (asumiendo que el alt text cuenta como metadato).

1 0 0 View Post & Replies See Original

104d

@muchanchoasado @adra bueno, seguramente es de todo. También hay mucho etiquetado manual a base de trabajadores "baratos", al parecer. Puedes leer:

https://archive.ph/Q92hS

Al parecer, se avanza con LLMs más éticos, la menos. La descripción de imágenes y demás sí es un ámbito donde vale la pena probar tecnologías.

1 1 0 View Post & Replies

104d

@yo @adra Ojalá llegar a un punto en el que los lectores de pantalla tengan descripción offline de imágenes, Talkback usa Gemini por el momento.

1 0 0 View Post & Replies See Original

104d

@muchanchoasado @adra vaya, pensaba que Google tendría algo local. Quizá Apple sí lo tiene.

En principio se avanza para que se puedan tirar LLMs en móviles, pero diría que aún queda algo lejos (y sólo en móviles caros). Yo jugué hace tiempo con tirar un LLM en mi PC y podía, pero tenía una tarjeta Nvidia (eso sí, de 2017).

Me gustaría probar qué tal va el modelo Apertus suizo, de entrenamiento "ético", pero me falta tiempo.

1 1 0 View Post & Replies

104d

@yo @adra Con suerte y los chinos encuentran la forma de optimizar un LLM para que corra en android5.1 xD. Dicen que Deepseek consume muchos menos recursos que OpenAI o Gemini.

0 0 0 View Post & Replies See Original