Alex (@yo@alex.femto.pub)

32d

Ambos scripts cargan el mbox como un objeto mbox, y luego van buscando uno a uno los mensajes. Compruebo en el source code que cada vez que leen un mensaje actualizan la cuenta de mensajes.

Pero en mi ordenador no llegan (al menos en 10 minutos) a leer el primer mensaje.

Mi teoría es que el objeto mailbox de python lee el archivo entero (12 gigas en un ordenador con 9 gigas de espacio libre interno), colapsa y no devuelve un puntero válido. O quizá no colapsa, pero no empieza a iterar por los mensajes hasta que los lee *todos*.

Tiradme un ladrillo a la cabeza, pero en el tipo de programación clásico, para el que el objeto mbox está pensado, tú leías línea a línea desde el primer from hasta la siguiente secuencia de dos líneas en blanco, y si la siguiente acababa en from, comprobabas la longitud y seguías. Procesabas los mensajes linealmente en el propio archivo, y el parser funcionaba línea a línea, no a nivel de base de datos.

Que sí, que si lo que quieres es buscar en un mailbox es mejor un objeto, pero si solo quieres dividirlo, con algo secuencial te vale.

1 0 0 View Post & Replies See Original

32d

@microblogc qué curioso. Si usan el módulo mailbox de la librería estándar de Python, leyéndolo por encima (no es código particularmente complejo), casi todo método llama a _lookup, que a su vez llama a _generate_toc si no se ha llamado antes. Y _generate_toc en efecto indexa el mbox entero.

Sin embargo, ojo que esto no sucede en el constructor. En mi opinión no es tema de programación orientada a objetos propiamente (quizá al diseño).

1 1 0 View Post & Replies

32d

@microblogc más bien es que la API permite leer mensajes en orden arbitrario y crear un índice es una estrategia sencilla (pero catastrófica para ficheros enormes).

Habría que ver bien qué quieres hacer, pero hay muchas herramientas para trabajar con GMail por IMAP y sincronizar a otros servidores o a ficheros locales en varios formatos (incluyendo maildir).

1 1 0 View Post & Replies

32d

@microblogc (Así mismo, la amplitud de la librería de Python es muchas veces la mar de práctica, pero muchas partes están congeladas o directamente marcadas para su eliminación. No le pediría mucho, cada vez se centran más en lo esencial del lenguaje. Las "pilas incluidas" bienvenidas sean cuando funcionan, pero IMHO tampoco esperemos muchísimo...)

0 1 0 View Post & Replies