2013. január 12., szombat

pdf-ből epub

Akinek van e-book olvasója, biztosan találkozott már ezzel a problémával.
Miért nem jó a pdf? Mert... béna. Nem szöveg, hanem kép, nem nagyítható rendesen, mert akkor kilógna a kijelzőről, hiszen nem tudja a sorokat tördelni.
Na és a mobi vagy az epub? Azok jók, hiszen szöveges formátumúak.
De hogy alakítsuk át a pdf-eket? Az elv egyszerű: OCR. Azaz a képeken a szöveg felismerése és ezen betű szerinti szöveg már tetszés szerint alakítható... lenne. Elvileg.
A neten ráguglizva számos oldalt találhatunk, ahol csak feltöltjük a pdf-et és visszakapjuk az epub-ot. Természetesen egyik sem jó. Vagy a magyar ékezetes karaktereket rontják el (hiába állítod be iso8859-2,re vagy w-1250-re, már ahol lehet) vagy pedig az összes sortörés olyan lesz, hogy...

Eredeti a pdf-ben:

A rendező, Stephen Chbosky írt egy saját könyvet 1999-ben, amit saját bevallása szerint a filmvászonra is föl szeretett volna vinni. Nos, 2012-ben valóra vált számára az álom, hiszen elkészíthette a The Perks of Being a Wallflower című filmet. 

Egy jellemző online átalakított epub:

A rendező, Stephen Chbosky írt egy saját könyvet 1999-ben, amit saját bevallása 
szerint a filmvászonra is föl szeretett volna vinni. 
Nos, 2012-ben valóra vált számára az álom, hiszen elkészíthette a The Perks of 
Being a Wallflower című filmet.

Ronda és buta. Ilyenek pl. a ebook.online-convert.com vagy a www.2epub.com nem is folytatom a sort. Használhatatlan mind.

Próbálkozhatsz freeware progikkal is. Pl. a PdfMate Pdf Converter vagy a Pdf2mobi nevű. Erről magyarul pl. itt olvashatsz bővebben: http://hvg.hu/Tudomany/PDFek_es_kepfajlok_osszefuzese_es_exportala_7IY1Z3 Az elv szép, a gyakorlat nem annyira. Rengeteget végigpróbáltam, mindegyiknek volt valami problémája, egyiknek ez, másiknak az....

A legjobb megoldás a Calibre nevű program használata. Itt http://hvg.hu/Tudomany/20100207_e_book_keszites_calibre olvashatsz róla egy irományt, itt pedig egy lényegesen lelkiismeretesebb tutorialt http://qltura.blog.hu/2011/01/22/hajtek_pdf_konvertalas_epub_formatumba Én most ettől is tovább szeretnék menni.

A Calibre nekem nagyon szimpatikus volt, gyorsan ki is ismertem a lelkivilágát és meg is szerettem. Ezek után már mindenképpen ragaszkodtam hozzá, mert remekül katalógizálja a könyveket és elsőre tökéletesen működött az egyébként (még) nem túl ismert Wayteq Xbook 60W típusú olvasómmal. Konvertálni ő is tud, akár mobi-ba, akár epub-ba. Igen ám, de ez is ostoba program... sortörésekkel, formázásokkal nem boldogul. Irigylem azokat, akiknek alapból megfelel az a minőség, amit produkál. Ezért tovább gondolkoztam. 

Arra jutottam, hogy elkerülhetetlen lesz egy külön OCR szoftver alkalmazása. OCR-ről remélem mindenkinek a Recognita (remek magyar szoftver - volt) jut eszébe, amely később Omnipage néven futott be karriert... Én most nem ezt, hanem egy másik kéznél lévő, még könnyebben használható szoftvert használtam, az ABBYY Finereader nevűt. 
Akinek nincs kéznél ilyesmi, az nézze meg ezt: http://www.free-ocr.com/ én nem próbáltam, nekem offline is működnie kell a dolognak. Guglinak is van ilyesmi meg MS-nek is, mindkettő béna és kétséges az eredmény. Ha sok időd van, nézd meg: http://www.origo.hu/techbazis/szamitogep/20110301-szovegfelismerovel-bovult-a-google-ingyenes-szovegszerkesztoje.html

Ja igen, nagyon sokat segített még ez az oldal, a téma iránt aki részletesebben érdeklődik (és szeretne tartalomjegyzéket is generálni: http://pdxnat.wordpress.com/2011/10/31/how-to-make-an-epub-mobi-file/ Akinek esetleg DRM védett e-bookja lenne és pdf-et generálna belőle, itt talál pár hasznos tippet http://loriswp.wordpress.com/2011/07/07/how-to-convert-your-epub-file-to-pdf-format-after-removing-the-drm-protection/

Lényegre térve, az eljárás a következő:


  1. Finereader elindít, pdf to word kiválaszt, .pdf betölt.
  2. A pontos egyezéssel is kísérletezhetsz, ez főleg akkor lesz jó, ha sok a táblázatos formátumú szövegblokk. A legszebb eredményt ez adja, de hülyén formázott könyveknél (pl. ahol iniciálé van, amivel a word nem fog tudni mit kezdeni) a mellékelt ábra szerint érdemes beállítani. (Figyelj a nyelvre!)
  3. Kétszer fogja végignyálazni a pdf-et, először minden oldalt beolvas, aztán minden oldalt szövegfelismer. Ezután kitolja word-be az eredményt. Jó sok idő lesz.
  4. A Word-ben nézd át alaposan az egészet! FORMÁZD a szöveget. Arial vagy Calibri legyen a font, a betű méret pedig 13 vagy 14! EGYSÉGESEN. Egy hagyományos 6" méretű ebook olvasón így lesznek normális méretű betűid és sorközeid. Igen, tudom, hogy ezeket utólag is lehet állítani - ELVILEG. Ha nem zavar, hogy összecsúsznak majd a betűk és a sorvégek elromlanak. Szép eredményt az ebook olvasó már nem fog tudni produkálni neked. Nem, még a Kindle sem. Ha nem hiszel nekem, járj utána. 
  5. A fejezetcímeket szerkeszd meg, legyen mindegyik "címsor 1" vagy hasonló formátum. Lsd. a fenti pdxnat blogot. Tartalomjegyzék generálással próbálkoztam az ottani leírás alapján, nekem még nem jött össze. De az olvashatóságot nagyban javítani fogja a formázás.
  6. Elmented .htm formátumba. 
  7. A Calibre-ben beltöltöd a htm-et és convert to epub. (Nyugodtan hagyhatsz mindent alapértelmezetten, de egy borítóképet azért adj neki.)
  8. Calibre-ben "Küldés a fő memóriába" azaz az ebook olvasóra...
  9. Eszköz kiadása
  10. Megnézed, mit csináltál... :-)

Nincsenek megjegyzések:

Megjegyzés küldése