Monday, April 21, 2014

Promiňte... moc se omlouvám, ozval se přerývaně Bristow, když se dveře zavřely. To je... já normá

» Šok: Oficiální e-knihy vznikají pomocí technologie OCR - Oskarův Weblog @root
Tímto zápiskem bych rád navázal na předchozí zápisek o tom, kterak je možné e-knihu pro Kindle rozebrat, opravit a znovu sestavit. K jeho napsání mě vyprovokoval nákup e-knihy torchlight mods Robert Galbraith torchlight mods Volání Kukačky od nakladavatelství Plus , kterou jsem zakoupil v obchodě eReading.cz . Uvedená torchlight mods kniha byla vysázena torchlight mods neproporcionálním fontem malé velikosti, což mě samo o sobě donutilo torchlight mods k obrácení se na podporu eReadingu. torchlight mods Ta slíbila, torchlight mods že zajistí nápravu a informuje mě o tom, kdy si budu moci opravenou verzi stáhnout. Od této reakce z 20. února 2014 se nic dalšího nestalo. Podivné torchlight mods tečky
Došel jsem k závěru, že se musí jednat o nějaký omyl při exportování HTML verze knihy, kde došlo k nahrazení znaku výpustky ( ) za znak tečky. torchlight mods Nahradil jsem tedy všechny výskyty tečky, za kterou následuje malé písmeno, znakem výpustky. Polámané odstavce
Promiňte... moc se omlouvám, ozval se přerývaně Bristow, když se dveře zavřely. To je... já normálně ne... už jsem se vrátil do práce, jednám s klienty... Několikrát se zhluboka nadechl. Se zarudlýma očima se teď'
Zatímco oba předchozí problémy by se teoreticky daly vysvětlit torchlight mods i nějakým problémem během exportu textu ze sázecího systému do HTML, další vady už dokládají něco, co by mě ani ve snu nenapadlo, totiž je originální e-kniha vznikla pomocí technologie převodu obrazu na text . Dá se toho všimnout už v předchozí ukázce, torchlight mods na konci prvního odstavce, kde za slovem teď následuje ještě nadbytečný apostrof. Další výživné ukázky je možné najít všude tam, kde v tištěné knize použili speciální font nebo řez. U ukázky jsem naschvál nechal viditelné i HTML značky, aby bylo vidět, jak se střídají styly po jednotlivých znacích (jak typické pro OCR):
a Bestiguiových chyběly. První záznam Wilson učinil v 9.10 při příchodu pošťáka; další v 9.22, to dorazila <span class="t10">Donáška kv</span><span class="t10">ě</span><span class="t10">tin do bytu</span> <span class="t10">č.</span> <span class="t10">2</span><span class="t7">;</span> a konečně v 9.50 <span class="t7">Securibeí</span>í. U záznamu kontrolora torchlight mods alarmů nebyl doplněný žádný čas odchodu.
Možná nejlepší by bylo namísto prostého požadavku na podporu v daném případě poslat torchlight mods regulérní reklamaci a žádat opravení vad. Budete-li neoblomní, získáte od prodejce přinejmenším refundaci formou kreditu na další nákup (jako v komentáři torchlight mods 17 pod předchozím zápiskem ). Já ale nemám nervy dohadovat se s podporou a stále dokolečka zkoušet nové a nové verze knihy a dokola hlásit, co je dalšího špatně. Místo toho jsem při čtení sporná místa podtrhával a následně opravoval. Vznikla tak sada patchů , kterou jsem aplikoval na zdrojové HTML soubory. Kromě toho jsem text projel známým nástrojem vlna , který nahradil mezery po jednopísmenných předložkách torchlight mods za nedělitelné. Tenhle patch jsem ale ze sady radši vyřadil, protože změn bylo tolik, že by to mohlo být nad rámec zákonné licence pro citaci.
Tento zápisek berte prosím také jako otevřený dopis nakladatelství, které se dokonce zaštiťuje legendární značkou Albatros. Způsob, jakým se chová k české verzi světového bestselleru je krajně neuctivý. Možná by nebylo od věci informovat o problémech původní nakladatelství a doporučit, aby zvážilo další poskytování exkluzivních licencí tomuto nakladatelství.
Právě že to PDF je vektorové, má kopírovatelný text a dokonce ten text neobsahuje chyby, co jsou v HTML verzi. Takže jediné vysvětlení, co mě napadá je, že to PDF převedli na sadu obrázků a následně prohnali torchlight mods OCR. 1. 04. 2014, 16:13 Tomik napsal:
Mnohá torchlight mods PDF se skutečně ženou přes OCR, protože nakladatelé u knih často ani nic jiného nemají. A některá PDF jsou tak mizerně masterovaná, že text nejde extrahovat či hůře jsou v textu PDF takové chyby (diakritika, chybějící sekce, písmena, torchlight mods ...), že se to nevyplatí opravovat a sjet to OCR-only torchlight mods i s následnou korekturou je efektivnější. torchlight mods
Nevyjadřuji se ale ke konkrétnímu nakladateli, distributorovi ani obchodu, situace taková obecně je a je to celkem problém, který pak e-knihy (jako celek) dost prodražuje. 1. 04. 2014, 17:05 Dworkin napsal:
Tak to vysvetľuje, prečo sú e-knihy drahšie ako tlačené: Knihu najprv musia vytlačiť, potom oskenovať a OCR-kovať. Samozrejme, že pre každého zákazníka zvlášť 1. 04. 2014, 17:25 Šokovaný Vyšokovanec napsal:
Nejak tomu nerozumiem. Vyrobca deklaroval, ze sa e-kniha vyraba nejakym postupom (nie OCR) a oklamal ta? Ja osobne hodnotim tri bodky miesto trojbodky a apostrof naviac v slove teď ako drobne kvalitativne vady.
Podla mna nepotrebujes ani refundaciu formou kreditu, ani skusat dookola nove verzie knihy a hlasit v com je problem. Vyspi sa s niekym a uvidis to v inom svetle. 1. 04. 2014, 18:07 Ondřej Caletka napsal:
[6] Nejde o tri bodky namísto trojbodovky, jde o jednu bodku namísto trojbodovky, torchlight mods což při čtení

No comments:

Post a Comment