Jump to Navigation

Blog

seg, 23/08/2010 - 00:07

Escavações do passado - histórico de emails

Tenho conversado com o Fernando tentando encontrar possibilidades pra integrar o histórico das diferentes listas de discussão que a MetaReciclagem usou ao longo dos anos (uma demanda que surgiu aqui na Infralógica). Ele chegou a encontrar alguns softwares e scripts que podem ajudar nisso, mas surgiu a dúvida sobre como manipular essas mensagens. A gente tem o arquivo no gmane, mas ele encripta os emails das mensagens armazenadas, o que impossibilita que a gente consiga cruzar as mensagens com perfis de usuários por aqui. Cheguei a procurar em meus antigos CDs de backup, mas só serviu pra perceber que eles estão desaparecendo e que já perdi um bom pedaço do meu passado digital. Acabou parecendo mais fácil pegar os emails armazenados na conta pessoal de alguém.
Eu tenho os arquivos de quase todas as listas (três das quatro que usamos até hoje) em um label na minha conta do gmail. Passei os últimos dias batalhando com isso: tentando baixar tudo do label pelo imap para o evolution e depois thunderbird para depois aplicar filtros e copiar para uma pasta (falha total, programas travados e 18.000 mensagens copiadas em um caso, 22.000 no outro).

No fim das contas, resolvi criar filtros para uma nova label no gmail, sincronizar com um cliente de email por imap (primeiro o thunderbird - congelado, depois o evolution), copiar para uma pasta local e limpar ali mesmo os excessos - respostas em PVT a threads da lista, um monte de crossposts e mensagens que foram parar lá por algum motivo. Para isso, criei uma pesquisa avançada no evolution, que me mostrava todas as mensagens que não tinham o endereço de alguma das listas como destinatário, cc, bcc, reply-to ou mailing list. Dei uma verificada nessas mensagens (vi cerca de 100 entre um total de 3.000) e decidi que podia excluí-las.

Acabei com uma pasta com cerca de 38.000 mensagens, que deve dar pra começar a brincar. Não vou compartilhá-la por inteiro porque é um absurdo de 600Mb de texto. Mas espero que em breve possamos começar testes.

1725 leituras blog de felipefonseca

Comentários

que tipos de teste?

ce tava pensando em fazer nesses dados?

mais alguém pensando/documentando junto?

integrando

minha ideia inicial é integrar o arquivo da lista a esse site aqui. importar as mensagens e cruzar com perfil de usuárixs. e aí poder visualizar todas as mensagens que determinada pessoa enviou pra lista ao longo do tempo. depois a gente pode pensar em visualizar threads, aplicar tags a mensagens ou threads, e relacionar conversas na lista com grupos (esporos/conectazes). articulação de legado...