Cum se digitizează cărțile pentru Project Gutenberg

Unul dintre site-urile mele de suflet de pe internet e Project Gutenberg, care oferă peste 54,000 de cărți ieșite din copyright. Au nu doar clasici precum Charles Dickens, Thomas Hardy, ci și numere ale antologiei Astounding Stories of Super-Science sau diverse reviste publicate prin secolul 19.

O mare parte dintre cărți ajung acolo prin munca voluntarilor din întreaga lume, care lucrează prin pgdp.net, pe baza cărților originale.

Am făcut și eu parte dintre voluntari acum un număr de ani și, deși momentan mi-am ieșit din mână și ar trebui să mă pun din nou la punct cu standardele înainte să mă reapuc de treabă, pot să vă povestesc cum arată procesul.

În prima fază, voluntarul care oferă conținutul se ocupă de părțile complicate: găsește cartea (ori fizică, ori scanată), se asigură că nu lipsesc pagini din ea, verifică să fie ieșită din copyright, le-o propune celor de la Project Gutenberg pentru publicare (ca să nu publice ceva care încă e sub incidența drepturilor de autor), se asigură că nu e deja pe site (sau explică de ce vrea să creeze o versiune nouă a aceluiași text).

După ce rezolvă problemele astea tehnice, scanează cartea (dacă e necesar), o trece printr-un program care transformă imaginea în text (OCR), apoi o trece printr-un alt program, care se asigură că e gata să fie urcată pe pgdp.net. După care o trimite înspre site.

În a doua fază, un manager de proiect creează proiectul. Are câteva câmpuri de completat: titlul, autorul, ISBN-ul, dificultatea proiectului, limba, genul. Spune câteva cuvinte despre proiect. Dacă e cazul, are indicații pentru cei care vor lucra la proiect. Încarcă fișierele din prima fază, apoi îi dă drumul pe site-ul pgdp.net.

În a treia fază, încep să lucreze la el corectorii, „proofreaders”, care văd și pagina scanată, și textul obținut prin OCR. Treaba lor e să se asigure că textul corespunde textului din imagini – și că înlătură lucruri precum numărul paginii și alte lucruri din header și footer care nu fac parte din cartea propriu-zisă.

O carte un pic mai greuță arată așa:

După cum se vede, varianta text nu prea e citibilă. Nu doar că trebuie șters „250 THE MONIST.” de sus, dar sunt o grămadă de semne de întrebare pe acolo care ar trebui să fie alte semne de punctuație, diverse litere sunt încurcate unele cu altele.

Primul corector se ocupă de majoritatea lucrurilor ăstora. Când te înscrii ca voluntar, ăsta e primul loc în care ajungi și prima muncă de care te ocupi.

Mai există două runde de corectură după asta – în a doua sunt deja corectori cu mai multă experiență, care știu mai bine ghidul stilistic și își înțeleg mai bine treaba. Ei rezolvă problemele rămase după prima rundă – sau le corectează pe cele inserate acolo (la un moment dat m-am trezit cu cineva care începuse să reformuleze textul cu totul, ceea ce NU se face).

Un text mai simplu din runda a doua:

În a treia rundă sunt corectorii specializați, care deja cam știu cam tot ghidul de corectură pe dinafară. Ei sunt cei care rezolvă ultimele probleme, descoperă ultimele greșeli de tipar, ultimele lucruri uitate.

Ca să ajungi în a treia grupă de corectori, trebuie să fii pe site de 42 de zile, să fi corectat 150 de pagini în runda a doua de corectură, să fi formatat 50 de pagini, să treci un test automatizat și să ți se verifice cel puțin 50 de pagini corectate, ca să nu ai o medie mai mare de o greșeală la 5 pagini.

Din cauză că cerințele sunt atât de stricte, există doar vreo mie de oameni care au lucrat în runda asta de corectură. Dar, pe de altă parte, majoritatea greșelilor și problemelor ajung să fie eliminate, chiar dacă procesul durează mult.

În a patra fază, proiectul trece prin prima rundă de formatare, unde i se pun tag-uri pentru formatare pentru italice, litere îngroșate, litere scrise cu spații mari între ele și alte alea. Apoi mai trece printr-o rundă de formatare, care verifică ce s-a făcut în prima rundă.

Din ghid:

În a cincea fază, se face post-procesarea, în care un singur voluntar ia proiectul și îl transformă într-o carte. Verifică să fie totul în ordine, eventual citește cartea cu totul, vede dacă cineva i-a lăsat vreun comentariu legat de vreo problemă, convertește ce e de convertit, elimină separatorii de pagini, adaugă imagini – chestii de-astea.

În a șasea fază, altcineva verifică faptul că tot proiectul e în regulă și cartea poate fi lansată în lume. Uneori, proiectul e oferit pentru a fi citit de cineva nou, care să semnaleze eventualele probleme și să lase comentarii.

În a șaptea fază, proiectul final e urcat pe Project Gutenberg în formatele .txt, .mobi, .epub și .html (cu și fără poze).

Inițial am decis să fac voluntariat pentru ei pentru că părea mișto – și pentru că piratam unele cărți și mă simțeam un pic vinovată pentru treaba asta. Dar m-am ales cu mai mult decât mă așteptam.

(Ca idee, eu am lucrat preponderent în faza de corectură – n-am avut treabă nici cu urcatul proiectelor, nici cu post-procesarea.)

În primul rând, am rămas fascinată de proces. Durează al naibii de mult până ajunge o carte pe Project Gutenberg (ani), dar se face o treabă foarte bună – textele se citesc și se recitesc, se verifică și răsverifică. Pașii sunt clari, indicațiile sunt scrise negru pe alb. Rareori există confuzii care trebuie discutate separat. Există mentori care-ți spun ce faci bine și ce nu. E imposibil ca un nou-venit entuziast să facă un hei-rup și să posteze mâine un proiect slab realizat, pentru că trebuie să fi demonstrat că ești capabil ca să poți lucra în faze mai târzii ale proiectului. Dacă nu ești capabil să înțelegi regulile, nu ai acces la partea de proces unde chiar poți distruge totul.

Oricine se poate înscrie, nu există obligații, teoretic rezultatul final ar putea avea o calitate variabilă – dar nu, lucrurile merg. E un proces bine gândit.

În al doilea rând, am citit lucruri pe care nu m-aș fi gândit absolut niciodată să le caut într-o bibliotecă. Am descoperit povestirile SF din anii ’30, naive cum erau. Am descoperit revista de umor britanic Punch, de pe vremea lui Dickens – a fost faimoasă la vremea ei, dar nu știam eu de ea fără să lucrez la corectarea vreunui număr sau două. Am descoperit revista Asociației Misionarilor Americani din anii 1880, în care creștinii americani se băteau pe spate pentru că făceau școli pentru negri și indieni americani și plângeau pentru sufletele lor sălbatice.

Într-un fel, am răsfoit la întâmplare tot felul de cărți vechi din tot felul de domenii, de diverse calități. M-am familiarizat cu lumea respectivă mai mult decât dacă aș fi citit doar Dickens, de exemplu. Am văzut câți dolari se donau pentru cauzele misionarilor creștini în diverse zone din SUA. Am văzut cât de prost scriau unii victorieni care n-au ajuns în canonul literaturii.

A fost o experiență interesantă, la care probabil mă voi întoarce într-o zi, pentru că încă mă simt legată de pgdp.net, de Gutenberg și de proiectul lor. Dar până atunci, voiam să dau vestea mai departe – pentru că mi-a plăcut și pentru că bănuiesc că mai sunt și alți curioși cărora le-ar plăcea să știe de lucrurile astea (sau chiar să participe la așa ceva).

Leave a Reply

Your email address will not be published. Required fields are marked *