El format mbox

Com emmagatzemen els vostres clients de correu electrònic al vostre disc dur

El format més comú per a l'emmagatzematge de missatges de correu és el format mbox. MBOX significa MailBOX. Un mbox és un fitxer únic que conté zero o més missatges de correu.

El format mbox

Si utilitzem el format mbox per emmagatzemar correus electrònics, els posem tots en un sol fitxer. Això crea un fitxer de text més o menys llarg (sempre que el correu electrònic d'Internet només existeix com a text ASCII de 7 bits, la resta), els fitxers adjunts, per exemple, es codifiquen ) que continguin un missatge de correu electrònic després de l'altre. Com sabem on s'acaba i una altra comença?

Afortunadament, cada correu electrònic té almenys una línia des del principi. Cada missatge comença amb "De" (de seguit d'un caràcter d'espai en blanc, també anomenat "De_"). Si aquesta seqüència ("De") al començament d'una línia està precedida per una línia buida o que es troba a la part superior del fitxer, hem trobat l'inici d'un missatge.

Així, doncs, el que busquem en analitzar un fitxer mbox és, bàsicament, una línia buida seguida de "Des de".

Com a expressió regular, podem escriure això com "\ n \ nFrom. * \ N". Només el primer missatge és diferent. Comença només amb "Des de" al principi d'una línia ("^ Des de. * \ N").

& # 34; De & # 34; en el cos

Què passa si exactament la seqüència anterior apareix en el cos d'un missatge de correu electrònic? Què passa si el següent és part d'un correu electrònic?

... Us envio l'informe més recent.

A partir d'aquest informe, no necessites ...

Aquí, tenim una línia buida seguida de "Des de" al principi de la línia. Si això apareix en un fitxer mbox, inequívocament tenim el començament d'un missatge nou. Almenys això és el que pensa l'analitzador i, per tant, tant el client de correu electrònic com el missatge de correu electrònic que conté el remitent o el destinatari no ens permeten confondre's, però comença amb "D'aquest informe".

Per evitar aquestes condicions desastroses, hem d'assegurar-nos que "Des de" mai apareix al principi d'una línia seguint una línia buida en el cos d'un correu electrònic.

Cada vegada que afegim un nou missatge a un fitxer mbox , busquem aquestes seqüències en el cos i simplement substituirem "De" amb "> De". Això fa impossible la interpretació equivocada. L'exemple anterior ara es veu així i ja no es desencadena l'analitzador:

... Us envio l'informe més recent.

> A partir d'aquest informe, no necessiteu ...

Per aquest motiu, de vegades podeu trobar "> Des de" en un correu electrònic on esperaria una mera "De".