<?xml version="1.0" encoding="utf-8" standalone="yes" ?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>Gutenberg on Roxana-Mălina Chirilă</title>
    <link>https://roxanamchirila.com/tags/gutenberg/</link>
    <description>Recent content in Gutenberg on Roxana-Mălina Chirilă</description>
    <generator>Hugo -- gohugo.io</generator>
    <language>ro-RO</language>
    <lastBuildDate>Thu, 16 Nov 2017 10:14:49 +0000</lastBuildDate>
    <atom:link href="https://roxanamchirila.com/tags/gutenberg/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Cum se digitizează cărțile pentru Project Gutenberg</title>
      <link>https://roxanamchirila.com/2017/11/16/cum-se-digitizeaza-cartile-pentru-project-gutenberg/</link>
      <pubDate>Thu, 16 Nov 2017 10:14:49 +0000</pubDate>
      <guid>https://roxanamchirila.com/2017/11/16/cum-se-digitizeaza-cartile-pentru-project-gutenberg/</guid>
      <description>&lt;p&gt;Unul dintre site-urile mele de suflet de pe internet e &lt;a href=&#34;http://www.gutenberg.org/wiki/Main_Page&#34; target=&#34;_blank&#34;&gt;Project Gutenberg&lt;/a&gt;, care oferă peste 54,000 de cărți ieșite din copyright. Au nu doar clasici precum Charles Dickens, Thomas Hardy, ci și numere ale antologiei &lt;a href=&#34;http://www.gutenberg.org/wiki/Science_Fiction_%28Bookshelf%29&#34; target=&#34;_blank&#34;&gt;Astounding Stories of Super-Science&lt;/a&gt; sau diverse reviste publicate prin secolul 19.&lt;/p&gt;
&lt;p&gt;O mare parte dintre cărți ajung acolo prin munca voluntarilor din întreaga lume, care lucrează prin &lt;a href=&#34;https://www.pgdp.net/c/&#34; target=&#34;_blank&#34;&gt;pgdp.net&lt;/a&gt;, pe baza cărților originale.&lt;/p&gt;
&lt;p&gt;Am făcut și eu parte dintre voluntari acum un număr de ani și, deși momentan mi-am ieșit din mână și ar trebui să mă pun din nou la punct cu standardele înainte să mă reapuc de treabă, pot să vă povestesc cum arată procesul.&lt;/p&gt;
&lt;p&gt;&lt;span style=&#34;text-decoration: underline;&#34;&gt;&lt;strong&gt;În prima fază&lt;/strong&gt;&lt;/span&gt;, voluntarul care oferă conținutul se ocupă de părțile complicate: găsește cartea (ori fizică, ori scanată), se asigură că nu lipsesc pagini din ea, verifică să fie ieșită din copyright, le-o propune celor de la Project Gutenberg pentru publicare (ca să nu publice ceva care încă e sub incidența drepturilor de autor), se asigură că nu e deja pe site (sau explică de ce vrea să creeze o versiune nouă a aceluiași text).&lt;/p&gt;
&lt;p&gt;După ce rezolvă problemele astea tehnice, scanează cartea (dacă e necesar), o trece printr-un program care transformă imaginea în text (OCR), apoi o trece printr-un alt program, care se asigură că e gata să fie urcată pe pgdp.net. După care o trimite înspre site.&lt;/p&gt;
&lt;p&gt;&lt;span style=&#34;text-decoration: underline;&#34;&gt;&lt;strong&gt;În a doua fază&lt;/strong&gt;&lt;/span&gt;, un manager de proiect creează proiectul. Are câteva câmpuri de completat: titlul, autorul, ISBN-ul, dificultatea proiectului, limba, genul. Spune câteva cuvinte despre proiect. Dacă e cazul, are indicații pentru cei care vor lucra la proiect. Încarcă fișierele din prima fază, apoi îi dă drumul pe site-ul pgdp.net.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;&lt;span style=&#34;text-decoration: underline;&#34;&gt;În a treia fază&lt;/span&gt;&lt;/strong&gt;, încep să lucreze la el corectorii, „proofreaders”, care văd și pagina scanată, și textul obținut prin OCR. Treaba lor e să se asigure că textul corespunde textului din imagini &amp;ndash; și că înlătură lucruri precum numărul paginii și alte lucruri din header și footer care nu fac parte din cartea propriu-zisă.&lt;/p&gt;
&lt;p&gt;O carte un pic mai greuță arată așa:&lt;/p&gt;
&lt;img loading=&#34;lazy&#34; class=&#34;size-full wp-image-7555 aligncenter&#34; src=&#34;http://roxanamchirila.com/wp-content/uploads/2017/11/pgdp-p1-higher-difficulty.jpg&#34; alt=&#34;&#34; width=&#34;963&#34; height=&#34;765&#34; /&gt; 
&lt;p&gt;După cum se vede, varianta text nu prea e citibilă. Nu doar că trebuie șters „250 THE MONIST.” de sus, dar sunt o grămadă de semne de întrebare pe acolo care ar trebui să fie alte semne de punctuație, diverse litere sunt încurcate unele cu altele.&lt;/p&gt;
&lt;p&gt;Primul corector se ocupă de majoritatea lucrurilor ăstora. Când te înscrii ca voluntar, ăsta e primul loc în care ajungi și prima muncă de care te ocupi.&lt;/p&gt;
&lt;p&gt;Mai există două runde de corectură după asta &amp;ndash; în a doua sunt deja corectori cu mai multă experiență, care știu mai bine ghidul stilistic și își înțeleg mai bine treaba. Ei rezolvă problemele rămase după prima rundă &amp;ndash; sau le corectează pe cele inserate acolo (la un moment dat m-am trezit cu cineva care începuse să reformuleze textul cu totul, ceea ce NU se face).&lt;/p&gt;
&lt;p&gt;Un text mai simplu din runda a doua:&lt;/p&gt;
&lt;img loading=&#34;lazy&#34; class=&#34;alignleft size-full wp-image-7556&#34; src=&#34;http://roxanamchirila.com/wp-content/uploads/2017/11/pgdp-p2-easy.jpg&#34; alt=&#34;&#34; width=&#34;951&#34; height=&#34;791&#34; /&gt; 
&lt;p&gt;În a treia rundă sunt corectorii specializați, care deja cam știu cam tot &lt;a href=&#34;https://www.pgdp.net/wiki/DP_Official_Documentation:Proofreading/Proofreading_Guidelines&#34; target=&#34;_blank&#34;&gt;ghidul de corectură&lt;/a&gt; pe dinafară. Ei sunt cei care rezolvă ultimele probleme, descoperă ultimele greșeli de tipar, ultimele lucruri uitate.&lt;/p&gt;
&lt;p&gt;Ca să ajungi în a treia grupă de corectori, trebuie să fii pe site de 42 de zile, să fi corectat 150 de pagini în runda a doua de corectură, să fi formatat 50 de pagini, să treci un test automatizat și să ți se verifice cel puțin 50 de pagini corectate, ca să nu ai o medie mai mare de o greșeală la 5 pagini.&lt;/p&gt;
&lt;p&gt;Din cauză că cerințele sunt atât de stricte, există doar vreo mie de oameni care au lucrat în runda asta de corectură. Dar, pe de altă parte, majoritatea greșelilor și problemelor ajung să fie eliminate, chiar dacă procesul durează mult.&lt;/p&gt;
&lt;p&gt;&lt;span style=&#34;text-decoration: underline;&#34;&gt;&lt;strong&gt;În a patra fază&lt;/strong&gt;&lt;/span&gt;, proiectul trece prin prima rundă de formatare, unde i se pun tag-uri pentru formatare pentru italice, litere îngroșate, litere scrise cu spații mari între ele și alte alea. Apoi mai trece printr-o rundă de formatare, care verifică ce s-a făcut în prima rundă.&lt;/p&gt;
&lt;p&gt;Din ghid:&lt;/p&gt;
&lt;img loading=&#34;lazy&#34; class=&#34;alignleft size-full wp-image-7557&#34; src=&#34;http://roxanamchirila.com/wp-content/uploads/2017/11/pgdp-f1-guidelines.jpg&#34; alt=&#34;&#34; width=&#34;1644&#34; height=&#34;464&#34; /&gt; 
&lt;p&gt;&lt;strong&gt;&lt;span style=&#34;text-decoration: underline;&#34;&gt;În a cincea fază&lt;/span&gt;&lt;/strong&gt;, se face post-procesarea, în care un singur voluntar ia proiectul și îl transformă într-o carte. Verifică să fie totul în ordine, eventual citește cartea cu totul, vede dacă cineva i-a lăsat vreun comentariu legat de vreo problemă, convertește ce e de convertit, elimină separatorii de pagini, adaugă imagini &amp;ndash; chestii de-astea.&lt;/p&gt;
&lt;p&gt;&lt;span style=&#34;text-decoration: underline;&#34;&gt;&lt;strong&gt;În a șasea fază&lt;/strong&gt;&lt;/span&gt;, altcineva verifică faptul că tot proiectul e în regulă și cartea poate fi lansată în lume. Uneori, proiectul e oferit pentru a fi citit de cineva nou, care să semnaleze eventualele probleme și să lase comentarii.&lt;/p&gt;
&lt;p&gt;&lt;span style=&#34;text-decoration: underline;&#34;&gt;&lt;strong&gt;În a șaptea fază&lt;/strong&gt;&lt;/span&gt;, proiectul final e urcat pe Project Gutenberg în formatele .txt, .mobi, .epub și .html (cu și fără poze).&lt;/p&gt;
&lt;p&gt;Inițial am decis să fac voluntariat pentru ei pentru că părea &lt;em&gt;mișto&lt;/em&gt; &amp;ndash; și pentru că piratam unele cărți și mă simțeam un pic vinovată pentru treaba asta. Dar m-am ales cu mai mult decât mă așteptam.&lt;/p&gt;
&lt;p&gt;(Ca idee, eu am lucrat preponderent în faza de corectură &amp;ndash; n-am avut treabă nici cu urcatul proiectelor, nici cu post-procesarea.)&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;În primul rând&lt;/strong&gt;, am rămas fascinată de _proces. _Durează al naibii de mult până ajunge o carte pe Project Gutenberg (ani), dar se face o treabă foarte bună &amp;ndash; textele se citesc și se recitesc, se verifică și răsverifică. Pașii sunt clari, indicațiile sunt scrise negru pe alb. Rareori există confuzii care trebuie discutate separat. Există mentori care-ți spun ce faci bine și ce nu. E &lt;em&gt;imposibil&lt;/em&gt; ca un nou-venit entuziast să facă un hei-rup și să posteze mâine un proiect slab realizat, pentru că trebuie să fi demonstrat că ești capabil ca să poți lucra în faze mai târzii ale proiectului. Dacă nu ești capabil să înțelegi regulile, nu ai acces la partea de proces unde chiar poți distruge totul.&lt;/p&gt;
&lt;p&gt;Oricine se poate înscrie, nu există obligații, teoretic rezultatul final ar putea avea o calitate variabilă &amp;ndash; dar nu, lucrurile merg. E un proces &lt;em&gt;bine gândit&lt;/em&gt;.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;În al doilea rând&lt;/strong&gt;, am citit lucruri pe care nu m-aș fi gândit absolut niciodată să le caut într-o bibliotecă. Am descoperit povestirile SF din anii &amp;lsquo;30, naive cum erau. Am descoperit &lt;a href=&#34;https://en.wikipedia.org/wiki/Punch_%28magazine%29&#34; target=&#34;_blank&#34;&gt;revista de umor britanic Punch&lt;/a&gt;, de pe vremea lui Dickens &amp;ndash; a fost faimoasă la vremea ei, dar nu știam eu de ea fără să lucrez la corectarea vreunui număr sau două. Am descoperit revista Asociației Misionarilor Americani din anii 1880, în care creștinii americani se băteau pe spate pentru că făceau școli pentru negri și indieni americani și plângeau pentru sufletele lor sălbatice.&lt;/p&gt;
&lt;p&gt;Într-un fel, am răsfoit la întâmplare tot felul de cărți vechi din tot felul de domenii, de diverse calități. M-am familiarizat cu lumea respectivă mai mult decât dacă aș fi citit doar Dickens, de exemplu. Am văzut câți dolari se donau pentru cauzele misionarilor creștini în diverse zone din SUA. Am văzut cât de prost scriau unii victorieni care n-au ajuns în canonul literaturii.&lt;/p&gt;
&lt;p&gt;A fost o experiență interesantă, la care probabil mă voi întoarce într-o zi, pentru că încă mă simt legată de &lt;a href=&#34;https://www.pgdp.net/c/&#34; target=&#34;_blank&#34;&gt;pgdp.net&lt;/a&gt;, de &lt;a href=&#34;http://www.gutenberg.org/&#34; target=&#34;_blank&#34;&gt;Gutenberg&lt;/a&gt; și de proiectul lor. Dar până atunci, voiam să dau vestea mai departe &amp;ndash; pentru că mi-a plăcut și pentru că bănuiesc că mai sunt și alți curioși cărora le-ar plăcea să știe de lucrurile astea (sau chiar să participe la așa ceva).&lt;/p&gt;
</description>
    </item>
    <item>
      <title>Nu iubim și cărțile vechi?</title>
      <link>https://roxanamchirila.com/2016/01/11/nu-iubim-si-cartile-vechi/</link>
      <pubDate>Mon, 11 Jan 2016 08:28:49 +0000</pubDate>
      <guid>https://roxanamchirila.com/2016/01/11/nu-iubim-si-cartile-vechi/</guid>
      <description>&lt;p&gt;Am primit o recomandare de carte, &lt;a href=&#34;http://digibuc.ro/colectii/calatori-straini-despre-tarile-romane-volumul-1-b000035826&#34; target=&#34;_blank&#34;&gt;Călători străini în Țările Române, vol. 1&lt;/a&gt; care se găsește gratuit pe site-ul bibliotecii digitale a Bucureștilor. Ceea ce e excelent, doar că formatul e pdf, ceea ce înseamnă că e greu de citit. Paginile sunt mari, nu pot fi modificate, nu pot să-mi trimit cartea pe Kindle, nu pot s-o citesc ușor de pe tabletă, dacă o dau cu copy-paste văd tot felul de bazaconii.&lt;/p&gt;
&lt;p&gt;E de înțeles că formatul e pdf: după ce scanezi o carte, e relativ simplu să transformi „pozele” imaginilor într-un singur volum. E varianta cea mai simplă de a digitiza o carte și, nu mă înțelegeți greșit, sunt foarte fericită că există cărți vechi care au fost digitizate în felul acesta &amp;ndash; e mult mai bine decât să nu fi fost deloc.&lt;/p&gt;
&lt;p&gt;Doar că se poate și mai bine și se poate și mai confortabil. Uite aici, &lt;a href=&#34;http://www.gutenberg.org/files/50879/50879-h/50879-h.htm&#34; target=&#34;_blank&#34;&gt;o carte cu poze&lt;/a&gt; care a fost transformată în html. A fost ceva de muncă pentru ea, dar munca &lt;em&gt;merită&lt;/em&gt; pentru toți cei care vor s-o citească sau s-o răsfoiască.&lt;/p&gt;
&lt;p&gt;De fapt, sunt mai multe motive pentru care vrei să ai o carte în html și nu în pdf:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;e mai ușor de citit pentru publicul larg&lt;/li&gt;
&lt;li&gt;e mult mai ușor să găsești pasaje și să citezi din ea&lt;/li&gt;
&lt;li&gt;e mai ușor de retipărit/printat (dacă vrei așa ceva)&lt;/li&gt;
&lt;li&gt;ocupă mult mai puțin spațiu, lucru de care mie ca utilizator îmi pasă puțin, dar care contează mult pentru biblioteca digitală. Cartea care mi-a fost recomandată are 17,2 MB &amp;ndash; sunt dimensiuni la care gigabiții încep să dispară rapid. Project Gutenberg, în schimb, oferea în 2006 &lt;a href=&#34;http://www.gutenberg.org/wiki/Gutenberg:The_CD_and_DVD_Project#Creating_a_Custom_CD_or_DVD&#34; target=&#34;_blank&#34;&gt;un DVD cu 17.000 de cărți&lt;/a&gt;. N-au nevoie de foarte mult spațiu și nici traficul lor de date nu e îngrozitor, de-aia nu cârâie tot timpul după fonduri.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Nu vreau să spun că &lt;em&gt;biblioteca&lt;/em&gt; ar trebui să se ocupe de asta. E ceva de muncă dacă vrei să transformi o carte scanată într-un ebook de vreun fel sau altul. Însă țara noastră are voluntari disperați să facă voluntariat &amp;ndash; i-am văzut uneori pe străzi, voluntariind cu îmbrățișări grauite și fluturași de diverse. Probabil că ar fi interesați și de așa ceva.&lt;/p&gt;
&lt;p&gt;Mai demult, am făcut voluntariat pentru &lt;a href=&#34;http://www.gutenberg.org/wiki/Main_Page&#34; target=&#34;_blank&#34;&gt;Project Gutenberg&lt;/a&gt; (unul dintre cele mai bune site-uri cu cărți gratuite) fix pentru treaba asta, prin &lt;a href=&#34;http://www.pgdp.net/c/&#34; target=&#34;_blank&#34;&gt;Distributed Proofreaders&lt;/a&gt; &amp;ndash; doar că textele respective erau în engleză, nu în română, pentru că n-aveau nici cărți în română, nici voluntari români prea mulți. Procesul prin care trecea cartea acolo nu era complicat, doar lung:&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;Se trece cartea scanată printr-un program de OCR, care să recunoască cea mai mare parte din textul din imagine și să-l transforme în text electronic.&lt;/li&gt;
&lt;li&gt;Cineva corectează textul electronic, ca să se asigure că îi corespunde textului inițial (pentru că programul poate citi o-uri în loc de e-uri, „L” mic în loc de „i” mare și alte asemenea).&lt;/li&gt;
&lt;li&gt;Cineva vine și adaugă tag-uri html pentru chestii cum ar fi &lt;i&gt;italicele&lt;/i&gt;, &lt;b&gt;bold-urile&lt;/b&gt; și &lt;u&gt;sublinierile&lt;/u&gt;.&lt;/li&gt;
&lt;li&gt;Cineva face post-procesarea cărții, ca să transforme munca celor de dinainte într-o carte electronică efectivă. Dacă sunt poze în cartea inițială, de exemplu, le taie și le inserează în cartea electronică.&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Și, efectiv, la Distributed Proofreaders se înscrie oricine vrea. Începi din poziția de corector (proofreader), în prima rundă, cea pentru oamenii noi. Apoi treci în runda a doua de corecturi, în care se presupune că ai ceva experiență și te-ai prins cum merge treaba. Apoi, dacă vrei, poți ajunge în runda a treia de corecturi, în care sunt cei foarte buni la treaba asta.&lt;/p&gt;
&lt;p&gt;După cele trei runde de corectură, vin două de formatare (în care ajungi după ce ai corectat câteva pagini și ai prins mișcarea acolo &amp;ndash; nu trebuie să fii super-corector pentru asta), una pentru cei nou-veniți, una pentru cei care sunt deja buni la ce fac.&lt;/p&gt;
&lt;p&gt;După ce cartea a fost corectată și răscorectată, după ce toate tag-urile de formatare sunt acolo unde trebuie, cineva ia cartea și îi face post-procesarea, ca să o strângă într-o formă bună. Se verifică să fie cartea în regulă, apoi e postată pe Project Gutenberg.&lt;/p&gt;
&lt;p&gt;Procesul nu trebuie neapărat să dureze mult. Munca se poate distribui între mai mulți corectori și mai mulți oameni care se ocupă de formatare și poate fi chiar distractivă. Citești câteva pagini, te prinzi ce-i cu cartea, eventual o citești pe toată dacă te interesează &amp;ndash; sau rămâi doar cu frunzăreala.&lt;/p&gt;
&lt;p&gt;Merită, deci. Merită pentru viitorii cititori, merită pentru voluntari. Trebuie doar demarat ceva, împinse niște forțe care există deja (voluntariatul, eforturile de digitizare ale bibliotecii) către un scop comun.&lt;/p&gt;
&lt;p&gt;Mai e o chestie: să zicem că o bibliotecă n-are oamenii necesari să creeze un site sau o platformă pe care voluntarii s-o acceze simplu și ușor. E în regulă: pot colabora direct cu Distributed Proofreaders. Ei au tot ce le trebuie din punct de vedere tehnic, chiar dacă site-ul e neschimbat de pe vremea lui Pazvante. Sigur, textele ar ajunge și pe Project Gutenberg &amp;ndash; dar e o problemă?&lt;/p&gt;
&lt;p&gt;Singura chestie ar fi să se găsească niște voluntari pentru treaba asta, iar apoi să se discute cu șefii de la DP &amp;ndash; nu pentru permisiune, ci ca să se negocieze niște avantaje, gen tratament preferențial pentru cărțile în română (dacă-mi aduc bine aminte, cărțile în română erau trecute la „alte limbi” și n-ar fi indicat să fie blocate după un dicționar danez-esperanto, cel mai lung roman în slavonă și cine știe ce alte chestii).&lt;/p&gt;
&lt;p&gt;N-ar fi așa de greu.&lt;/p&gt;
&lt;figure style=&#34;width: 296px&#34; class=&#34;wp-caption aligncenter&#34;&gt;&lt;img loading=&#34;lazy&#34; class=&#34;&#34; src=&#34;https://upload.wikimedia.org/wikipedia/commons/d/d7/Johannes_Gutenberg.jpg&#34; alt=&#34;&#34; width=&#34;296&#34; height=&#34;365&#34; /&gt;&lt;figcaption class=&#34;wp-caption-text&#34;&gt;Gutenberg, care a auzit că vorbim ceva de cărți.&lt;/figcaption&gt;&lt;/figure&gt;
</description>
    </item>
    </channel>
</rss>
