Как сканировать - Юрская литература - Планы, идеи и проекты

Как сканировать

Дата: Среда, 04.11.2009, 00:56 | Сообщение # 1

Группа: Проверенные

Сообщений: 32

Репутация: 0

Статус: Offline

Добрый день!
Давно хотел написать. Замечательно, что Вы сканируете так много книг и журналов. Но очень плохо, что Вы пользуетесь для этого FineReader. Нельзя ли уговорить здешних сканировщиков перейти на выстраданную годами методику производства сканов -- http://djvu-soft.narod.ru/scan/scan_and_share_1_07.htm ?
Вот, посмотрите, пожалуйста, на эти два файла -- http://rghost.ru/581427 и сравните их качество и скорость открытия и чтения в соответствующих программах. (Во втором файле отсутствует OCR слой, но нет никаких проблем его добавить, размер от этого практически не увеличится).
Очень хочется, чтобы электронные книги и на вашем сайте были по настоящему высокого качества и отвечали сложившимся стандартам.
Всего доброго,
А. Шипунов

AlexIpp

Дата: Среда, 04.11.2009, 10:25 | Сообщение # 2

Группа: Администраторы

Сообщений: 579

Репутация: 0

Статус: Offline

Добрый день, Алексей

Я думаю, что ортодоксальная приверженность одному из формату pdf/djvu - дело привычки, которые люди с трудом меняют.
В одном из докладов мы с Михаилом рассматривали вопрос, связанный со сравнением преимуществ обоих форматов:
http://rogov.zwz.ru/Audio_p....dio.ppt

PDF предпочтительнее DJVU по целому ряду причин, в частности:

1) он позволяет хранить серые и цв. картинки и фотографии в таком качестве, что их можно репродуцировать в собственных публикациях; а DJVU-сжатие уничтожает картинки. Это к вопросу о качестве.
2) дежавю почти не используется за рубежом, а мы ориентированы не на русскоязычную аудиторию, а на мировое сообщество в целом. В России многие пользователи тоже не приучены к этому формату.
3) к дежавю сложно найти программы для редактирования и обработки файлов - халява есть только в файлообменных сетях.
4) официальный софт DJVU не развивается уже много лет, и, видимо, собирается скоро исчезнуть совсем; а альтернативных динамично развивающихся программных продуктов нет.
5) отсутствие внятных программ для распознавания DJVU-файлов. Один DjVuOCR погоды не делает, и альтерантив ему нет. Даже сейчас у этой программы есть проблемы с совместимостью с поздними версиями ФайнРидера, а если завтра энтузиазм у Gencho иссякнет?
6) По поводу качества... Один из людей, регулярно сканирующих для сайта, Саша Гужов, делает сканы высочайшего качества, и для их хранения использует именно pdf. Вычищать пиксельный мусор и применять алгориты сглаживания букв можно в Акробате и ФайнРидере, там есть такие опции
7) возможности комментирования, рецензирования у PDF на порядок выше
8) PDF в ряде случаев читается с наладонников и электронными книгами
9) в DJVU сложно перевести изначально векторные макеты статей из Word и PageMaker.
10) несколько лет назад стали использоваться алгоритмы кодировки изображения в PDF, которые, судя по всему, ничем не отличаются от алгоритмов DJVU (т.е. качество и размер изображения близки). Сегодня эти алгоритмы активно использует Майкрософт - см. книги на archive.org - и умеют некоторые сканеры. И они так же, как и DJVU-программы, умеют необратимо портить фототаблицы smile

Короче, резюме - PDF-формат имеет перспективу и развивается, DJVU - это архаизм времен модемного интернета с низкими скоростями.

всё о серпулидах & белемнитах

mhorn

Дата: Среда, 04.11.2009, 12:08 | Сообщение # 3

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

и ещё один момент.
По непонятной мне причине присутствующие в рунете книги в формате djvu за редчайшим исключением не содержат текстового слоя, хотя один из самых больших плюсов электронных книг - это возможность поиска по их содержимому. Бывает, толком и не помнишь, в какой работе написано что-нибудь, в данный момент интересующее - вот тут без поиска по содержимому никуда. А так - нужно, например, глянуть работы где упоминаются, напр., аммониты рода Pectinatites - запускаешь GoogleDesktop и ищешь по компу по сочетанию Pectinatites filetype:pdf
и в качестве небольшого добавления к комментариям AlexIpp:
действительно, многие наши коллеги (как в России, так и тем более за рубежом) даже не слышали о таком формате как djvu. Есть, насколько мне известно, один единственный зарубежный сайт, где в большим количестве выкладываются публикации в этом формате - это сайт Геологической службы США.
Тем не менее надо признать, что проблема медленного интернета в регионах всё ещё присутствует - до сих пор вспоминаю, как я пытался что-то там загрузить, сидя в Институте геологии алмаза и благородных металлов в Якутске

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

m7876

Дата: Четверг, 05.11.2009, 21:50 | Сообщение # 4

Группа: Проверенные

Сообщений: 32

Репутация: 0

Статус: Offline

Все эти аргументы имели бы смысл, если бы большинство PDF на jurassic были бы именно такими, какими они являются, например, на JSTOR. Однако и размер, и качество оставляют желать очень много лучшего. Про вред использования FineReader для изготовления PDF было написано немало, повторять не буду. На возражения отвечу, хоть и похоже, что все останутся при своих мнениях.

> 1) он позволяет хранить серые и цв. картинки и фотографии в таком качестве, что их можно репродуцировать в собственных публикациях; а DJVU-сжатие уничтожает картинки. Это к вопросу о качестве.

Это неправда. DjVu-сжатие не уничтожает картинки. Вы посмотрели выложенный мной пример? Правда только то, что "втупую" примененный DjVu кодер может дать ужасные результаты, хотя и менее ужасные, чем FineReader. Вы просто их готовить не умеете smile

> 2) дежавю почти не используется за рубежом, а мы ориентированы не на русскоязычную аудиторию, а на мировое сообщество в целом. В России многие пользователи тоже не приучены к этому формату.

А как же самый большой архив электронных книг -- archive.org ? Кроме того, все разработчики DjVu формата -- зарубежные.

> 3) к дежавю сложно найти программы для редактирования и обработки файлов - халява есть только в файлообменных сетях.

http://djvu.sourceforge.net/ А халява (и не только) открыто лежит на http://djvu-soft.narod.ru/

> 4) официальный софт DJVU не развивается уже много лет, и, видимо, собирается скоро исчезнуть совсем; а альтернативных динамично развивающихся программных продуктов нет.

Latest Release:

* version 3.5.22
* released 2009-05-21.

> 5) отсутствие внятных программ для распознавания DJVU-файлов. Один DjVuOCR погоды не делает, и альтерантив ему нет. Даже сейчас у этой программы есть проблемы с совместимостью с поздними версиями ФайнРидера, а если завтра энтузиазм у Gencho иссякнет?

Согласен. А если не иссякнет? А если (как это очень часто бывает) люди подхватят разработку? Что, если завтра иссякнет энтузиазм у производителей Apache? Firefox? Ubuntu? GIMP?

> 6) По поводу качества... Один из людей, регулярно сканирующих для сайта, Саша Гужов, делает сканы высочайшего качества, и для их хранения использует именно pdf. Вычищать пиксельный мусор и применять алгориты сглаживания букв можно в Акробате и ФайнРидере, там есть такие опции

Разумеется. Достаточно скачать новые PDF из JSTOR, чтобы в этом убедиться.

> 7) возможности комментирования, рецензирования у PDF на порядок выше

Согласен. А как с этими возможностями у PDF/A? Ведь PDF, в отличие от DjVu, не является даже группой стандартов.

> 8) PDF в ряде случаев читается с наладонников и электронными книгами

DjVu в ряде случаев читается с наладонников и электронными книгами smile

> 9) в DJVU сложно перевести изначально векторные макеты статей из Word и PageMaker.

Дайте мне, пожалуйста, макет страниц на 300. Через полчаса я сделаю DjVu. Более того, "кошерная" конвертация в PDF из вышеуказанных программ часто дает омерзительные результаты.

> 10) несколько лет назад стали использоваться алгоритмы кодировки изображения в PDF, которые, судя по всему, ничем не отличаются от алгоритмов DJVU (т.е. качество и размер изображения близки).

Отличаются, хотя, Вы правы -- близки (см. дискуссию на руборде).

> По непонятной мне причине присутствующие в рунете книги в формате djvu за редчайшим исключением не содержат текстового слоя, хотя один из самых больших плюсов электронных книг - это возможность поиска по их содержимому. Бывает, толком и не помнишь, в какой работе написано что-нибудь, в данный момент интересующее - вот тут без поиска по содержимому никуда. А так - нужно, например, глянуть работы где упоминаются, напр., аммониты рода Pectinatites - запускаешь GoogleDesktop и ищешь по компу по сочетанию Pectinatites filetype:pdf

Причина как раз понятна -- нехватка времени. Процедуру эту всегда можно отложить на потом, вот все и откладывают. Когда у меня этим летом было немного времени, я сделал текстовый слой для "Пятиязычных словарей названий животных". Распозналось и добавилось безо всяких проблем. Надо просто собрать команду добровольцев, да и добавить эти слои куда надо smile A можно научить поисковики распознавать текст на лету. Вы видели, как нынче IrfanView открывает DjVu и за секунды распознает любой участок текста? Впечатляет. Кстати, а как добавить текстовый слой в нераспознанный PDF? Я просто не знаю. Полным акробатом? Занимающим два гига на диске, ворованным (или страшно дорогим), глючным, дырявым, постоянно и неотключаемо лезущим обновляться?

> Есть, насколько мне известно, один единственный зарубежный сайт, где в большим количестве выкладываются публикации в этом формате - это сайт Геологической службы США.

Results 1 - 10 of about 1,400,000 for DjVu libraries. (0.39 seconds)
Results 1 - 10 of about 4,920,000 for PDF libraries. (0.36 seconds)

> DJVU - это архаизм времен модемного интернета с низкими скоростями

Пойдите на какой-нибудь киношный форум и расскажите там, что MP4 -- это архаизм модемного интернета wink Идея-то такая же. Можно рассказать, что и UNIX -- это архаизм "консольной эпохи" управления компьютерами. И т.п. Хотя да, в музыке looseless formats сейчас набирают популярность. Но PDF-то, как правило, не looseless! Тогда давайте рекламировать MNG -- http://www.libpng.org/pub/mng/ поскольку он открыт, стабилен, полностью стандартизован (в отличие от TIFF и PDF) да еще и looseless.

===

Кстати, вот взял у вас сейчас для переделки книгу Несиса. Ужас. Не факт, что удастся переделать...

Сообщение отредактировал m7876 - Четверг, 05.11.2009, 21:51

mhorn

Дата: Четверг, 05.11.2009, 23:58 | Сообщение # 5

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

Quote (m7876)

pdfы на сайте появляются из разных источников, в последнее время стали довольно много файлов присылать. Да и сделанные нами в разное время пдфы весьма отличались. Когда я делал первые пдфки - путь их изготовления был просто чудовищным - сначала сканить, потом FR, сохранять в ворде, потом постранично закидывать в CorelDraw (я тогда не знал другого способа получить пдфы) - от уже оттуда в пдф. Не сразу выяснилось, что в FR текст можно прятать под картинку, про опции типа Actions в фотошопе я тоже долгое время понятия не имел...
что Вы скажете про свежие пдфки - например, вот такие, из совсем недавних добавлений?
http://rogov.zwz.ru/Efimova,Glasunova,1960_Albian.pdf
http://rogov.zwz.ru/Gizejewska,1981_Callovian.pdf

Quote (m7876)

Про вред использования FineReader для изготовления PDF было написано немало, повторять не буду. На возражения отвечу, хоть и похоже, что все останутся при своих мнениях.

За то время, когда я активно сканировал, я использовал для распознавания разныйе версии - от 5й до 9й. У ранних - да, были всякие недостатки, а к 9му ФР у меня претензий нет. Если все опции выставить как надо - получается хорошо. Или и тут какой-нибудь подвох?

Quote (m7876)

А как же самый большой архив электронных книг -- archive.org

на архиве - да, можно выбрать между пдф, джвю и т.д. А, скажем, на biodiversitylibrary.org - одной из библиотек из того же архива - уже до джвю так просто не добраться
И к сожалению, на архиве и на гугле фотоизображения обычно так чудовищно пережаты, что нередко толком и не поймёшь, что там на фотографии - особенно если качество изначально было неважным

Quote (m7876)

не очень понятно, как это делается - все сканы хранятся и в виде отдельных tiffов, и в виде djvu? Тогда всё это занимает немеряно места. Или как-то можно по-человечески распознавать сами дежавюшки? С пдф понятно - его можно или через Acrobat распознать, или напрямую загрузить в FR. А как это с djvu делается?

Quote (m7876)

Отличаются, хотя, Вы правы -- близки (см. дискуссию на руборде).

можно ссылочку?

Quote (m7876)

A можно научить поисковики распознавать текст на лету.

а как? не представляю. с нераспознанными пдфами в инете гугль справляется, а с djvu, насколько я понимаю - нет

Quote (m7876)

Вы видели, как нынче IrfanView открывает DjVu и за секунды распознает любой участок текста?

не видел... До того, как это прочитал, и понятия не имел, что IfranView может читать дежапвюшки

Quote (m7876)

Кстати, а как добавить текстовый слой в нераспознанный PDF? Я просто не знаю. Полным акробатом?

лучше всего загрузить его в FR, а потом сохранить в тот же файл с текстовым слоем под картинкой

Quote (m7876)

Кстати, вот взял у вас сейчас для переделки книгу Несиса. Ужас. Не факт, что удастся переделать...

ага, это ещё из древних сканов. По-моему, где-то должен быть нераспознанный вариант, если с ним проще - могу прислать
А вообще нашу версию передежавюшили деятели из б-ки ВГУ: http://www.lib.vsu.ru/elib/books/b1281.djvu
они вообще любители из нормальных пдфов делать некачественные dvju, по ходу убирая из них ссылки на jurassic.ru

===
мы тут (в первую очередь AlexIpp) сделали в своё время страничку про сканенье: http://jurassic.ru/ebooking.rus.htm
можно, в теории, что-то такое же сделать но с разъяснялкой про djvu

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

AlexIpp

Дата: Пятница, 06.11.2009, 00:46 | Сообщение # 6

Группа: Администраторы

Сообщений: 579

Репутация: 0

Статус: Offline

Quote (m7876)

ок. Если вот это - истинная тема для разговора, надо начинать с того, что конкретно вам не нравится, например, в сделанных мной пдф-ах. Например, см. страницу "В помощь интересующимся".
Я вас внимательно слушаю.
А пока не вижу в ваших словах никакого конструктивного и рационального зерна.

И еще. Вы много рассуждаете о ФайнРидер, имея в виду какую-то старую версию: используемая нами для распознания (а не сканирования) девятка дает конечный файл на выходе, полностью идентичный по качеству PDF-файлу на входе.

всё о серпулидах & белемнитах

m7876

Дата: Пятница, 06.11.2009, 03:09 | Сообщение # 7

Группа: Проверенные

Сообщений: 32

Репутация: 0

Статус: Offline

> что Вы скажете про свежие пдфки - например, вот такие, из совсем недавних добавлений?
http://rogov.zwz.ru/Efimova,Glasunova,1960_Albian.pdf

Да, они лучше, чем то, что порою было. Но все равно -- при просмотре текст мигает (виден текстовый слой), скан грязный, страницы не выровнены, обложка не вычищена. Я прошу прощения -- Вы сами попросили сделать замечания... Надеюсь, что Вы не обидетесь (а AlexIpp, похоже, обиделся -- тоже прошу прощения). Для сравнения я быстро сделал DjVu (c текстовым слоем в восьмерке, хотя я не вычитывал) -- http://rghost.ru/587655

Я потратил на этот файл 18 минут.

> За то время, когда я активно сканировал, я использовал для распознавания разныйе версии - от 5й до 9й. У ранних - да, были всякие недостатки, а к 9му ФР у меня претензий нет. Если все опции выставить как надо - получается хорошо. Или и тут какой-нибудь подвох?

Подвохов несколько -- двуслойные PDF из FR мигают при просмотре, они не стандартизованы под PDF/A, если сделать комбинированный PDF (картинки + подстановка текста), то при просмотре и печати кусочки "мозаики" разъезжаются, редактировать его в PDF редакторах чудовищно трудно, извлекать обратно изображения -- очень непросто. Я с ними немало намучался...

> на архиве - да, можно выбрать между пдф, джвю и т.д. А, скажем, на biodiversitylibrary.org - одной из библиотек из того же архива - уже до джвю так просто не добраться

Ну, всегда можно то же самое взять на archive. BHL'ское начальство я пытался склонить к DjVu, но пока без толку. Может, еще и уговорю.

> И к сожалению, на архиве и на гугле фотоизображения обычно так чудовищно пережаты, что нередко толком и не поймёшь, что там на фотографии - особенно если качество изначально было неважным

На гугле и пальцы в перчатках видны, и вклеенные таблицы не разворачивают sad

> не очень понятно, как это делается - все сканы хранятся и в виде отдельных tiffов, и в виде djvu? Тогда всё это занимает немеряно места. Или как-то можно по-человечески распознавать сами дежавюшки? С пдф понятно - его можно или через Acrobat распознать, или напрямую загрузить в FR. А как это с djvu делается?

DjVu OCR умеет декомпилировать DjVu. Природа DjVu кодера такова, что после декомпиляции текст делается еще более пригодным для OCR, нежели до.

> можно ссылочку?

http://forum.ru-board.com/topic.cgi?forum=93&topic=3172

> а как? не представляю. с нераспознанными пдфами в инете гугль справляется, а с djvu, насколько я понимаю - нет

Так же, как с PDF smile Просто гуглу лень.

> лучше всего загрузить его в FR, а потом сохранить в тот же файл с текстовым слоем под картинкой

И будет он мигать при просмотре... Причем будут видны всякие кракозябры, оставшиеся от OCR процесса -- типа грязи, распознанной как буквы.

> ага, это ещё из древних сканов. По-моему, где-то должен быть нераспознанный вариант, если с ним проще - могу прислать

Пришлите, пожалуйста! У меня нечто получилось, но я недоволен результатом.

> А вообще нашу версию передежавюшили деятели из б-ки ВГУ: http://www.lib.vsu.ru/elib/books/b1281.djvu

Ну, у меня получше wink

> можно, в теории, что-то такое же сделать но с разъяснялкой про djvu

Так есть же -- http://djvu-soft.narod.ru/scan/scan_and_share_1_07.htm Его даже на аглицкий перевели добровольцы.

> ок. Если вот это - истинная тема для разговора, надо начинать с того, что конкретно вам не нравится, например, в сделанных мной пдф-ах. Например, см. страницу "В помощь интересующимся".

А как узнать, какие там сканы Ваши?

> Я вас внимательно слушаю. А пока не вижу в ваших словах никакого конструктивного и рационального зерна.

Еще раз прошу прощения, если чем-то Вас обидел.

> И еще. Вы много рассуждаете о ФайнРидер, имея в виду какую-то старую версию: используемая нами для распознания (а не сканирования) девятка дает конечный файл на выходе, полностью идентичный по качеству PDF-файлу на входе.

Это -- спорное утверждение. Но проверить не могу -- под руками лишь восьмерка. А так -- да, давайте устроим соревнование. Нужен отсканированный набор страниц (300 dpi, grayscale). Вы будете делать PDF в FineReader, я -- DjVu своим способом. Потом дадим независимому эксперту (лучше нескольким) посмотреть и спросим, чей вариант лучше. Хотите? Впрочем, я уже сделал нечто в этом роде, причем два раза. Но пока Вас почему-то не убедил, хотя улучшение качества видно невооруженным глазом.

Да, и еще раз прошу прощения, что я вот так без спросу залез на чужой форум и начал читать мораль. Мною движет исключительно желание сделать электронные книги лучше.

Сообщение отредактировал m7876 - Пятница, 06.11.2009, 03:19

AlexIpp

Дата: Пятница, 06.11.2009, 10:46 | Сообщение # 8

Группа: Администраторы

Сообщений: 579

Репутация: 0

Статус: Offline

Quote (m7876)

да, давайте устроим соревнование. Нужен отсканированный набор страниц (300 dpi, grayscale). Вы будете делать PDF в FineReader, я -- DjVu своим способом. Потом дадим независимому эксперту

господи, да не вопрос.
Вот исходники:
http://rapidshare.de/files/48640318/SCANNING.rar.html

Результаты и (обязательно) скриншоты выкладываем прямо в эту тему.

всё о серпулидах & белемнитах

AlexIpp

Дата: Пятница, 06.11.2009, 11:00 | Сообщение # 9

Группа: Администраторы

Сообщений: 579

Репутация: 0

Статус: Offline

Итоговый файл (4966 Кб):
http://rapidshare.de/files/48640348/Binder1.pdf.html

Скриншот стр.2, фиг. 1 (увеличение 400%):

картинку надо смотреть на увеличении

Прикрепления: 9337637.jpg (159.8 Kb)

всё о серпулидах & белемнитах

mhorn

Дата: Пятница, 06.11.2009, 11:10 | Сообщение # 10

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

Quote (m7876)

при просмотре текст мигает (виден текстовый слой), скан грязный, страницы не выровнены, обложка не вычищена.

это есть. Вопрос в том, стоит ли тратить кучу времени на исправление этих мелочей? Вы пишете, что потратили на работу с файлом 18 минут. У меня сканирование заняло минуты, наверное, две, плюс минуту - на убирание местами всяких там черных полос по краям.
Я не готов тратить в несколько раз больше времени на то, чтобы немного улучшить файл. Кто-то (как, например, уже упомянутый Ал-др Гужов) - готов, ну и флаг, как говорится, в руки

Quote (m7876)

извлекать обратно изображения -- очень непросто.

почему непросто? Snapshot'ом - на раз. Уж всяко легче чем извлекать картинки из djvu smile

Как я понимаю, там можно только страницу целиком сохранить в другом формате (в tiff, к примеру), а потом уже из неё вытаскивать картинку

Quote (m7876)

Пришлите, пожалуйста! У меня нечто получилось, но я недоволен результатом.

вот нераспознанный Несис: http://rogov.zwz.ru/==buffe....ced.pdf

Quote (m7876)

Так есть же -- http://djvu-soft.narod.ru/scan/scan_and_share_1_07.htm

добавим ссылку на это дело на страничку про сканирование

Quote (m7876)

Его даже на аглицкий перевели добровольцы.

и как - есть результаты?
мы тоже всё собираемся страницу на английский перевести... Но пока не склалось.
Ещё раз к вопросу о распространенности djvu: сколько по всяким зарубежным электробиблиотекам не бродил - там
а) крайне мало сканенных в частном порядке работ (подавляющее большинство - перезалитые файлы из офиц. версий книг/журналов)
б) и НИ ОДНОЙ КНИГИ в формате djvu
есть ли у Вас противоположные примеры - в виде ссылок на электробиблиотеки где djvu были бы в каком-либо приемлемом количестве?

Quote (m7876)

BHL'ское начальство я пытался склонить к DjVu, но пока без толку

видимо, не совсем без толку - там есть вариант с djvu, в зависимости от того, из какого меню - это All или Download all. Впрочем, ссылка всё равно пересылает на соответствующую страницу на архиве

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

Юстас

Дата: Пятница, 06.11.2009, 16:51 | Сообщение # 11

Группа: Проверенные

Сообщений: 14

Репутация: 0

Статус: Offline

Quote (m7876)

Алексей, при всем уважении, но ведь и у Вас многие сканы не выровнены и довольно грязные. Пример: http://herba.msu.ru/shipuno...._2.djvu
Простите, что вмешиваюсь.

Quote (mhorn)

почему непросто? Snapshot'ом - на раз. Уж всяко легче чем извлекать картинки из djvu Как я понимаю, там можно только страницу целиком сохранить в другом формате (в tiff, к примеру), а потом уже из неё вытаскивать картинку

В WinDjView картинки извлекаются на раз тем же Snapshot'ом.

По теме. Доводилось отправлять скан статьи в djvu зарубежному коллеге. Тот был в недоумении и вежливо попросил объяснить, что это за зверь и с чем его едят. Пришлось переслать в pdf -- так было проще, чем объяснять, где достать соответствующий софт.

Сообщение отредактировал Юстас - Пятница, 06.11.2009, 16:52

m7876

Дата: Пятница, 06.11.2009, 21:15 | Сообщение # 12

Группа: Проверенные

Сообщений: 32

Репутация: 0

Статус: Offline

http://rghost.ru/589191
Ваш результат скачать не могу -- rapidshare требует ждать час. Rghost, кстати, не требует.

Добавлено (06.11.2009, 21:15)
---------------------------------------------

Quote

это есть. Вопрос в том, стоит ли тратить кучу времени на исправление этих мелочей?

Правильно -- не стОит. Я обычно и не трачу, если сам сканирую. А вот чужие сканы обрабатываю.

Quote

почему непросто? Snapshot'ом - на раз. Уж всяко легче чем извлекать картинки из djvu smile

Я имел в виду -- извлекать в исходном разрешении. Из DjVu извлекать -- нет проблем, там каждая страница -- картинка. Можно делать с ней, что хочешь.

Code

вот нераспознанный Несис: http://rogov.zwz.ru/==buffe....ced.pdf

О, это получше! Интересно, как из такого файла получился файл в десять раз больше и вдвое хуже? FineReader? wink

Quote

добавим ссылку на это дело на страничку про сканирование

Спасибо!

Quote

и как - есть результаты?

Ну да, естественно. Посмотрите, сколько на гигапедию выкладывается.

Quote

есть ли у Вас противоположные примеры - в виде ссылок на электробиблиотеки где djvu были бы в каком-либо приемлемом количестве?

Gigapedia -- 70% PDF, но DjVu много и делается все больше.

Quote

Не обращал внимания, спасибо. Видимо, аргументация подействовала smile Что еще с archive хорошо -- они выкладывают оригинальные сканы. Прямо сейчас я, например, взял книги Никольского по амфибиям и рептилиям и переделываю. DjVu получается гораздо лучше, чем у них. Сравните, например, "Флору Кавказа".

Quote

Алексей, при всем уважении, но ведь и у Вас многие сканы не выровнены и довольно грязные. Пример: http://herba.msu.ru/shipuno...._2.djvu

Правильно. И это потому, что "Я не готов тратить в несколько раз больше времени на то, чтобы немного улучшить файл." Как видите, и я тоже. Но это относится только к сканированным мной книгам, потому что мое оборудование позволяет сканировать очень ровно и с высокой четкостью (хотя да, грязь остается). Кстати, Вы привели в пример далеко не худший файл smile

Но! Все мои файлы очень легко переделать с выравниванием и очисткой. Так и произошло, например, с двумя томами "Определителя растений Средней Азии". Я отсканировал, а потом добровольцы переделали. С PDF этот номер легко может не пройти.

Quote

Опять же -- переделать DjVu в PDF значительно проще, чем наоборот. Достаточно просто поставить на комп любой PDF-принтер.

AlexIpp

Дата: Пятница, 06.11.2009, 21:46 | Сообщение # 13

Группа: Администраторы

Сообщений: 579

Репутация: 0

Статус: Offline

Quote (m7876)

http://rghost.ru/589191

Что ж, DJVU - файл получился очень неплохой, я ожидал увидеть нечто иное. В связи с чем просьба - расписать четко по шагам алгоритм его обработки и сборки.
Единственно, два небольших момента:
1) сколько времени ушло на его сборку? Были ли неудачные попытки?
2) все же в некоторых местах (напр., табл. 3, рис.3а; т.9, рис.2 и 5; т.37, фиг.2а и др.) djvu-изображения содержат серьезные искажения, pdf-нет. Кстати, кодировать в pdf легко и без сжатия jpg, в этом случае он будет почти lossless.

На всякий случай еще раз подчеркиваю, что мы не сканируем с помощью ФайнРидера. Мы им распознаем собранные из тиффов pdf-ы, причем версией не ниже 9, которая на выходе дает то же результат по качеству, что был в исходном файле (если опции выставлены правильно)

Quote (mhorn)

Quote (m7876)
Так есть же -- http://djvu-soft.narod.ru/scan/scan_and_share_1_07.htm
добавим ссылку на это дело на страничку про сканирование

у нас там есть ссылка на djvu-soft.narod.ru

Quote (m7876)

извлекать картинки из pdf элементарно просто: вырезаем Акробатом нужные страницы - далее "Файл"-"Сохранить как" - и выбираем сохранение в формате .tiff; разрешение определится автоматически; при необходимости можно выставить иные опции.
И вообще, сырые тиффы при желании заморачиваться и тратить время можно обработать описанным способом в ScanKromsator, а потом собрать не в DJVU, а в PDF. Ничто не мешает.

Сканенные лично мной книги (за последние 1,5 года) на обложке содержат изображение аватары осьминога.
Вот, пример такой книги:
http://rogov.zwz.ru/Manuals....oja.pdf
Если есть замечания по существу - я слушаю. Сразу скажу, что выравниванием текста на страницах и вычищением мусора я вообще не занимаюсь, так как не считаю, что это ограничивает возможности использования книг.

Распознавание с помощью IrfanView - это любопытно. Как это делается?

Я не понял аргумента насчет новой версии софта от LizardTech. Поясните, пожалуйста. О какой программе идет речь? Насколько я понимаю, основной инструмент обработки сканов - пакет Document Express Enterprise - не обновлялся очень давно, с 2004 года, когда вышла версия 5.1.0 build 946.
Вторая по удобству оф. прога - Document Express Editor - с 2005 года (6.0.1 build 1340)
Я ошибаюсь?
Другими дежавюшными программами пользоваться лично мне неудобно.

всё о серпулидах & белемнитах

mhorn

Дата: Пятница, 06.11.2009, 21:55 | Сообщение # 14

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

Quote (m7876)

Из DjVu извлекать -- нет проблем, там каждая страница -- картинка. Можно делать с ней, что хочешь.

а из djvu можно извлекать сразу много картинок, а не по одной? в пдф можно просто "сохранить как" в виде tiff, jpeg-картинок весь файл

Quote (m7876)

Интересно, как из такого файла получился файл в десять раз больше и вдвое хуже? FineReader?

он самый, версия №6. Вот у неё недостатков - много, не поспоришь

Quote (m7876)

Посмотрите, сколько на гигапедию выкладывается

то, что я там ищу по палеонтологии, стратиграфии или по головоногим - ни разу не попадались djvu, и лишь несколько раз попались сканенные самостоятельно книги (вроде Loeblich & Tappan, ссылку на распознанный вариант которых я выкладывал на форуме, или Treatise of invertebrate palaeontology)

Quote (m7876)

Gigapedia -- 70% PDF, но DjVu много и делается все больше.

откуда такие сведения, если не секрет? или в djvu массово сканят по каким-то специфическим разделам науки?

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

m7876

Дата: Суббота, 07.11.2009, 02:46 | Сообщение # 15

Группа: Проверенные

Сообщений: 32

Репутация: 0

Статус: Offline

Quote

Что ж, DJVU - файл получился очень неплохой, я ожидал увидеть нечто иное. В связи с чем просьба - расписать четко по шагам алгоритм его обработки и сборки.

1) Загружаем файлы в ScanTailor, проходим через все положенные пункты, на последнем выбираем "Смешанный" режим и вывод 400 dpi . Запускаем вывод, после вывода проходим еще раз и правим все зоны. Запускаем вывод еще раз. В фотошопе через batch делаем Auto-levels на все файлы.

2) Запускаем в папке с выведенными файлами скрипт. Под виндами он выглядит так:

Code

@ls *.tif *.jpg *.bmp > filelist.tmp
documenttodjvu --verbose --page-range=1- --profile=BW400_with_images --filelist=filelist.tmp 000_400i.djvu
@if exist filelist.tmp del filelist.tmp

Используется профиль "BW400_with_images". Вот как он определен в файле "documenttodjvu.conf":

Code

#@displayName:400 with images
BW400_with_images: scan400
threshold-level=100
shape-filter-level=100
bg-subsample=1
fg-subsample=2
quality=75
pages-per-dict=20

Получаем DjVu.

3) Запускаем DjVu OCR (как выяснилось, я зря это делал -- думал, это обязательное условие, а получилось, что Вы этого не делали), встраиваем текстовый слой.

Все.

Quote

1) сколько времени ушло на его сборку? Были ли неудачные попытки?

Ушло около получаса, но меня отвлекали по работе. С другой стороны, ScanTailor и фотошоп все делали автоматически.

Неудачных попыток не было, были пробы (пара проб в ScanTailor, чтобы определить порог, и проба в фотошопе, чтобы записать скрипт).

Quote

2) все же в некоторых местах (напр., табл. 3, рис.3а; т.9, рис.2 и 5; т.37, фиг.2а и др.) djvu-изображения содержат серьезные искажения, pdf-нет. Кстати, кодировать в pdf легко и без сжатия jpg, в этом случае он будет почти lossless.

Да, Вы правы. Я мог бы сделать DjVu Photo (который lossless), но я хотел показать сильную экономию размера файла без существенной потери качества.

Quote

Это, как я уже говорил, надо проверить. Попиксельно.

Quote

у нас там есть ссылка на djvu-soft.narod.ru

А лучше именно на руководство -- его там не сразу найдешь.

Quote

Вы понимаете, что акробат при этом печатает PDF в TIFF? Это _не_ извлечение "нетронутых" картинок, это ре-интерпретация закодированного в PDF. PDF даже не знает, в каком разрешении у него там картинки. Это по определению, просто такой стандарт. А о самом акробате я писал уже выше. К счастью, есть ghostscript и всякие GUI к нему.

Code

И вообще, сырые тиффы при желании заморачиваться и тратить время можно обработать описанным способом в ScanKromsator, а потом собрать не в DJVU, а в PDF. Ничто не мешает.

Да. Надо разделять подготовку сканов и способы их кодирования, а то мы как-то их тут смешали.

Quote

http://rogov.zwz.ru/Manuals....oja.pdf
Если есть замечания по существу - я слушаю. Сразу скажу, что выравниванием текста на страницах и вычищением мусора я вообще не занимаюсь, так как не считаю, что это ограничивает возможности использования книг.

Однако в этой книге текст выровнен, а мусор частично удален smile Замечание одно -- мигание текстового слоя. Это особенно причудливо выглядит на стр. 28. Прогнозирую также проблемы при печати, а также проблемы с не-акробат читалками PDF, например, под маками и линуксами.

Quote

Распознавание с помощью IrfanView - это любопытно. Как это делается?

Очень просто. Вы ставите с сайта ирфана OCR плагин, и запускаете его на любое открывшееся в ирфане изображение. Единственное (и очень существенное но) -- мне не удалось заствить его распознавать русский (где-то сбой в кодировке, по-видимому). Но английский, немецкий, французский -- без проблем.

Quote

Лизард только временно был "хозяином" DjVu. К счастью, на этапе DjVu Solo удалось код передать в Open Source. Поэтому теперь формат и софт развиваются сообществом. Так произошло и с другими AT&T программами -- Unix и S-PLUS/R.

Quote

Другими дежавюшными программами пользоваться лично мне неудобно.

Что же, на вкус и цвет все фломастеры разные. А мне вот удобно, хотя и не все операции доступны без писания сложных скриптов. Да и documenttodjvu пока лень оставлять, уж больно хорошо работает. Но я надеюсь, что minidjvu скоро допилят, и тогда ничто не будет мешать перейти на свободный софт полностью.

Quote

Да. ddjvu, djvudecode.

Quote

откуда такие сведения, если не секрет? или в djvu массово сканят по каким-то специфическим разделам науки?

Это моя оценка. Просто в последнее время стало появляться все чаще и чаще -- вот была большая серия по диатомовым, например.

Сообщение отредактировал m7876 - Суббота, 07.11.2009, 02:53

AlexIpp

Дата: Суббота, 07.11.2009, 07:00 | Сообщение # 16

Группа: Администраторы

Сообщений: 579

Репутация: 0

Статус: Offline

Quote (m7876)

Я мог бы сделать DjVu Photo (который lossless), но я хотел показать сильную экономию размера файла без существенной потери качества.

только в этом случае DJVU не отличался бы от PDF, причем во многих программах бы прилично тормозил при листании страниц smile

Quote (m7876)

Ушло около получаса, но меня отвлекали по работе. С другой стороны, ScanTailor и фотошоп все делали автоматически.

это многовато.... А PDF я просто собрал из этих картинок за 20 секунд (у меня очень старый, медленный компьютер).

Quote (m7876)

Это, как я уже говорил, надо проверить. Попиксельно.

Проверяли. какой вы недоверчивый smile

Иногда серые и цветные картинки чуть темнеют, но это сложно назвать проблемой

Quote (m7876)

PDF даже не знает, в каком разрешении у него там картинки

там по умолчанию стоит опция "с исходным разрешением". Во-вторых, при оптимизации используется информация о разрешении картинок.

Quote (m7876)

Однако в этой книге текст выровнен, а мусор частично удален

хорошо, что книга вам понравилась, но разочарую - вы ошибаетесь smile

. Все страницы сразу сканировались в ч/б (а фототаблицы в серый) тиффы, из которых Акробатом сразу был собран итоговый файл.
Работа по указанному вами алгоритму c djvu-soft на порядок дольше, а приращение результата - незначительное.
Именно поэтому "уговорить здешних сканировщиков перейти на годами выверенную методику" не получится. Потому что мы умеем ровно класть книгу на сканер и правильно выставлять яркость smile

Если мигание - это единственное замечание, которое у вас ко мне есть, думаю, претензии вроде "размер и качество книг на JURASSIC.RU оставляют желать лучшего" смотрятся нелепо. Согласны?

Quote (m7876)

DjVu Solo

не очень удобная программа..... Не понимаю, за что ее так любят джвю-еры

Quote (m7876)

Вот это, как мне кажется, ключевые слова.
Я думаю, никакого смысла переходить на такой софт (и на DJVU в целом) пока нет. Так как нет единой программы для полной и качественной работы с DJVU-файлами, и при этом - простой и понятной для рядового пользователя. И неизвестно еще, появится ли smile

. Примеров, когда широко анонсированные и востребованные проекты, делавшиеся командами добровольцев, в итоге так не выходили в свет, можно привести неисчислимо много smile

А в случае с DJVU добровольцам еще пахать и пахать biggrin

Для PDF - есть такой софт, причем не только официальный (Adobe Acrobat), но и альтернативные продукты.

всё о серпулидах & белемнитах

m7876

Дата: Суббота, 07.11.2009, 07:46 | Сообщение # 17

Группа: Проверенные

Сообщений: 32

Репутация: 0

Статус: Offline

Quote

это многовато.... А PDF я просто собрал из этих картинок за 20 секунд (у меня очень старый, медленный компьютер).

Ну вот Вам, пожалуйста -- 20 секунд и готов файл DjVu Photo. В два раза меньше Вашего PDF и без потерь качества. И ничего не тормозит. http://rghost.ru/590535
Вы правы, мы в дискуссии смешиваем обработку и кодирование. Предыдущий файл я обрабатывал, этот -- просто кодирую.

Quote

Ну и где же он тормозит?

Quote

Иногда серые и цветные картинки чуть темнеют, но это сложно назвать проблемой

Раз темнеют, то точного соответствия нет smile

Quote

Эта информация вычисляется, но бывают PDF, из которых и ее не вычислишь. Вот Вы встречались с сегментированными PDF? Душераздирающее зрелище.

Quote

хорошо, что книга вам понравилась, но разочарую - вы ошибаетесь smile . Все страницы сразу сканировались в ч/б (а фототаблицы в серый) тиффы, из которых Акробатом сразу был собран итоговый файл.

А, понял. Я, собственно, так же сканирую wink О чем уже писал выше. Просто с чужими сканами и старыми улучшаемыми сканами я такого себе позволить не могу, и запускаю весь описанный процесс. А так я в норме только обрезаю ирфаном, чуть-чуть чищу в фотошопе первые и последние страницы (там много обычно всякого), и все.

Quote

А к Вам у меня и не было претензий. Но вот многие сканы действительно оставляют желать. Теперь я понимаю, что дело было давно и никто тогда ничего не умел wink

Quote

не очень удобная программа..... Не понимаю, за что ее так любят джвю-еры

Она была бесплатная smile

Quote

Для PDF - есть такой софт, причем не только официальный (Adobe Acrobat), но и альтернативные

Софт есть, просто коммерческий. Тот же DEE. А я говорил -- о свободном. Вот какой свободный софт для создания и полноценного редактирования PDF Вы можете назвать? wink

Сообщение отредактировал m7876 - Суббота, 07.11.2009, 09:42

AlexIpp

Дата: Суббота, 07.11.2009, 10:31 | Сообщение # 18

Группа: Администраторы

Сообщений: 579

Репутация: 0

Статус: Offline

Quote (m7876)

Софт есть, просто коммерческий. Тот же DEE. А я говорил -- о свободном. Вот какой свободный софт для создания и полноценного редактирования PDF Вы можете назвать?

DDE - сильно устаревшая и отставшая функционально от Acrobat программа, я уже писал выше.

Не можем назвать. Оф. просмотрщик Acrobat Reader - бесплатный.
А мы используем тоже бесплатный, обработанный умельцами Acrobat Professional 7 и 9.
Но, честно говоря, мне не жалко отдать 400-500$ за полнофункциональную программу, которая обеспечит удобство в работе как мне, так и пользователям.

всё о серпулидах & белемнитах

m7876

Дата: Суббота, 07.11.2009, 13:27 | Сообщение # 19

Группа: Проверенные

Сообщений: 32

Репутация: 0

Статус: Offline

Просмотрщик DjVu -- WinDjView -- тоже бесплатный smile

Quote

400-500$ за полнофункциональную программу

699.99 не хотите? smile (Столько девятый акробат стоит в он-лайн магазине Adobe). Я уже писал ему краткую характеристику выше -- "Занимающим два гига на диске, ворованным (или страшно дорогим), глючным, дырявым, постоянно и неотключаемо лезущим обновляться?"

mhorn

Дата: Суббота, 07.11.2009, 13:44 | Сообщение # 20

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

Quote (m7876)

проходим через все положенные пункты

это какие? я тут попробовал один стремный пдф через эту программу переделать, получилась какая-то хрень, но где что сделал не так - не пойму

Quote (m7876)

Запускаем вывод, после вывода проходим еще раз и правим все зоны

в смысле - ещё раз закидываем те же картинки? или смотрим что вышло не так в проекте и исправляем только это?

Quote (m7876)

Запускаем в папке с выведенными файлами скрипт. Под виндами он выглядит так:

прошу прощения - а как вообще это делается? в смысле, что значит "запускать скрипт" в отношении папки? никогда с этим не сталкивался, не представляю куда, собственно, код вставлять

Quote (m7876)

Запускаем DjVu OCR (как выяснилось, я зря это делал -- думал, это обязательное условие, а получилось, что Вы этого не делали), встраиваем текстовый слой.

судя по моим экспериментам, с FR9 эта хреновина не работает...

Quote (m7876)

А лучше именно на руководство -- его там не сразу найдешь.

это точно. И даже имеющееся руководство, если честно, вызывает у меня некую оторопь и отбивает желание возиться с djvu файлами начисто sad

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

mhorn

Дата: Суббота, 07.11.2009, 14:03 | Сообщение # 21

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

Quote (mhorn)

я тут попробовал один стремный пдф через эту программу переделать, получилась какая-то хрень, но где что сделал не так - не пойму

вот такой вот пример:
этот файл мне вчера прислали по мейлу - pdf, сделанный из сканенных полностью в greyscale картинок с низким разрешением: http://rogov.zwz.ru/==buffer==/Krylov,Mal%60zheva_1967.pdf (52 Mb)
это тот же файл, прогнанный через FR, c добавленным OCR-слоем: http://rogov.zwz.ru/==buffer==/Krylov,Malzeva_1967.pdf (39 Мб)
а это - чудовищная дежавюшка, которая у меня получилась: http://rogov.zwz.ru/==buffer==/Krylov,Mal%60zheva_1967.djvu (около 5 Мб)

можно ли дать какие-нибудь рекомендации, как относительно легко и быстро из таких пдфок делать djvu?

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

AlexIpp

Дата: Суббота, 07.11.2009, 16:18 | Сообщение # 22

Группа: Администраторы

Сообщений: 579

Репутация: 0

Статус: Offline

Честно говоря, у меня нет больше желания продолжать эту дискуссию.
Основные доводы в пользу Акробата по сути опровергнуты не были, вы просто уходите от ответа. Зато мы много спорим о том, сколько стоит Акробат; и совсем или не совсем то же получается на выходе из ФайнРидера. Это - мелочи.

Для пользователя главное - книга есть, она скачивается, читается, картинки извлекаются. Всё. Плюс она распознана.
Для нас главное - сканы легко и быстро обрабатываются; книга редактируется с минимумом затрат сил и времени.
Чего не хватает и чего не так?

всё о серпулидах & белемнитах

m7876

Дата: Воскресенье, 08.11.2009, 00:39 | Сообщение # 23

Группа: Проверенные

Сообщений: 32

Репутация: 0

Статус: Offline

Quote

Честно говоря, у меня нет больше желания продолжать эту дискуссию.

Да, конечно, давайте оставим это. Большое спасибо за комментарии и информацию.

Добавлено (08.11.2009, 00:38)
---------------------------------------------
Приношу извинения всем участникам дискуссии за допущенные нарушения этики ведения беседы. Все остальные вопросы принимаю через личные сообщения.

Добавлено (08.11.2009, 00:39)
---------------------------------------------

Quote (mhorn)

можно ли дать какие-нибудь рекомендации, как относительно легко и быстро из таких пдфок делать djvu?

Сейчас скачаю файл и отвечу Вам личным сообщением.

a1opex

Дата: Понедельник, 09.11.2009, 06:24 | Сообщение # 24

Группа: Проверенные

Сообщений: 70

Репутация: 0

Статус: Offline

Хочется поблагодарить уважаемых спорщиков за оцифровку и распространение книг! А мы, читатели, рады и пдф, и дежавю (долго ли дежавюшку перепечатать в пдф и перераспознать smile

)

Carnivora

mhorn

Дата: Понедельник, 21.12.2009, 23:41 | Сообщение # 25

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

небольшое добавление по формату пдф: как выяснилось, в распознанных пдфах поиск намного быстрее при открытии их Foxit Readerом, а не акробатом. Особенно эта разница заметна при работе с пережатыми пдфами с biodiversitylibrary.org

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

mhorn

Дата: Четверг, 25.02.2010, 21:12 | Сообщение # 26

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

оказалось, что в 10й FR можно напрямую загружать djvu-файлы для распознавания. Правда, возможности сохранения итогового файла в этом формате не предусмотрено
еще обнаружилась необычная особенность данной версии FR: в некоторых (не во всех) случаях названия глав в оглавлении являются гиперссылками, ведущими к соответствующим главам. Но как такого эффекта добиться для всех глав, осталось неясным

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

vladlen666

Дата: Четверг, 01.04.2010, 17:25 | Сообщение # 27

Группа: Проверенные

Сообщений: 13

Репутация: 0

Статус: Offline

Можно вклиниться рядовому потребителю со слабым компьютером (пенек первый 2-х летней давности), и 500 килобитным интернетом. Мой выбор однозначно DJVU. Но ко всем аргументам хочу добавить один, до которого и Алексей и местные форумчане не снизошли, ввиду своей суперпродовинутости.

То что из PDF умельцы, вполне могут сделать приемлемый для чтения вариант книги и размером небольшой (а это первостепенная вещь, для рядовых масс.) я не сомневаюсь. Но в массе своем это требует гораздо больше умений и навыков, чем сделать ту же djvu книгу. В связи с чем DJVU я считаю демократичным форматом. Доступным для легкого и быстрого освоения.

И на счет размера. Вот у вас лежит Рупперт Э.Э., Фокс Р.С., Барнс Р.Д. Зоология беспозвоночных и размеры под 90 мегабайт на книгу. Я просто не представляю как можно удобно читать книгу такого размера на обычном компе. Это жестоко. Надо думать и о рядовых людях. Хотя мне встречались книги и под 5-6 мегабайт на страницу.

Quote (mhorn)

оказалось, что в 10й FR можно напрямую загружать djvu-файлы для распознавания. Правда, возможности сохранения итогового файла в этом формате не предусмотрено

Эту штучку уже давно делаю в 9-й версии? нужно закачивать две маленькие dill-ки и усе.

vladlen666

Дата: Четверг, 01.04.2010, 18:04 | Сообщение # 28

Группа: Проверенные

Сообщений: 13

Репутация: 0

Статус: Offline

Такой вопрос форумчанам
Не подкините ссылок на тему
почему нельзя сканировать Файнридером.
Есть ли проблемы кроме того что он стремиться переворачивать страницы?

В http://djvu-soft.narod.ru/scan/scan_and_share_1_07.htm
кстати как я понял технология связана с нажатием мышки. А в FR при сканировании можно отменить диалог и поставить время между страничками, мне хватает для переворачивания странички 2 секунд + время возвращения сканирующей части (как она там называется) обратно. Очень удобно.

AlexIpp

Дата: Четверг, 01.04.2010, 23:10 | Сообщение # 29

Группа: Администраторы

Сообщений: 579

Репутация: 0

Статус: Offline

не знаю, что имели в виду создатели текста.
Лично я не рекомендую использовать старые версии ФайнРидера, ниже 9-ой - они вносят искривления в изображение.
Плюс, я не помню, можно ли в интерфейсе ФайнРидера настраивать яркость для черно-белых изображений.

В общем, если не лень - пришлите на пробу несколько отсканированных страниц (желательно, чтобы были текстовые + серые картинки), мы подскажем, что и как можно улучшить smile

всё о серпулидах & белемнитах

vladlen666

Дата: Пятница, 02.04.2010, 16:00 | Сообщение # 30

Группа: Проверенные

Сообщений: 13

Репутация: 0

Статус: Offline

Лады сегодня попробую это сделать. До недавнего времени я работал со стандартным мастером работы со сканерами, сохранял в tiff черно-белый в 300dpi по мне вполне приемлемое качество получалось. Дома перешел на FR 9-й, в первую очередь из-за функции отмены диалога при сканирвоании следующей странички. Единственное почему-то никак не могу заставить его не переворачивать страницы с таблицами. И не понравился тот момент что сканы почему-то получаются с разницей в размерах на 10-20 пикслей. Вроде область сканирования одна и та же. После сканирования пробегаюсь глазами по сканам и заменяю плохо сканированный страницы, обычно если книга хорошо ложиться на скан у меня это 10-15 страниц из 300-350. А вот программа для обработки сканов для меня если честно открытие. FR предоставляет такой инструмент, но даже для меня, вполне такого профана в сканировании, он убогий.

vladlen666

Дата: Пятница, 09.04.2010, 02:33 | Сообщение # 31

Группа: Проверенные

Сообщений: 13

Репутация: 0

Статус: Offline

ВОт два файла в черно-белом, разрешение 600dpi, отскнаирвоано с помощью FR 9. Сжатие LZW

http://s45.radikal.ru/i107/1004/7b/2e3c449a0abf.tif

В сером размер получился около 30 мегабайт. А с 300dpi размер 11 мегабайт. И то идругое просто не приемлемо в связи со скоростью работы компьютера.

Кстати на счет глючности PDF, в книге AlexIpp
Черепанов Г.О., Иванов А.О. (2007) Ископаемые высшие позвоночные: Учеб. пособие. 2-е изд., испр. СПб: Изд-во С.-Петерб. ун-та. 202 с.
Отсутствуют иллюстрация на стр. 20.

Сообщение отредактировал vladlen666 - Пятница, 09.04.2010, 02:36

AlexIpp

Дата: Пятница, 09.04.2010, 08:38 | Сообщение # 32

Группа: Администраторы

Сообщений: 579

Репутация: 0

Статус: Offline

Quote (vladlen666)

ВОт два файла в черно-белом, разрешение 600dpi, отскнаирвоано с помощью FR 9. Сжатие LZW

http://s45.radikal.ru/i107/1004/7b/2e3c449a0abf.tif

качество картинок - вполне хорошее, на мой взгляд.
А что с размером не так? Это же тифф, а не пдф...
При переводе в пдф для ч/б картинок лучше использовать сжатие CCITT 4 (места намного меньше), для серых - JPG.

Quote (vladlen666)

Кстати на счет глючности PDF, в книге AlexIpp ...

в книге как раз все в порядке, подпись к рисунку относится к изображению на стр. 19 smile

всё о серпулидах & белемнитах

m7876

Дата: Воскресенье, 11.04.2010, 23:28 | Сообщение # 33

Группа: Проверенные

Сообщений: 32

Репутация: 0

Статус: Offline

Quote (vladlen666)

Вот у вас лежит Рупперт

Есть DjVu 32 Мб _всех_ книг. Если нужен, пишите ЛС.
FR, насколько я понимаю, пользуются многие потому, что там есть пакетное сканирование. Однако оно есть и в IrfanView, и работает там очень хорошо.
На мой взгляд, DjVu не так просто освоить, как PDF. Можно сделать PDF из кучи TIFF всего двумя командами, и никакого акробата не надо, и работает все быстро. Более того, при создании DjVu очень легко навсегда испортить материал. На мой взгляд, главный недостаток формата PDF в том, что он изначально не предназначался быть контейнером растровых изображений. Он был создан совсем с другой целью, а потом распух, чтобы поддерживать как можно больше разного, и при этом стал очень запутанным и громоздким.

vladlen666

Дата: Понедельник, 12.04.2010, 12:22 | Сообщение # 34

Группа: Проверенные

Сообщений: 13

Репутация: 0

Статус: Offline

Quote (m7876)

При переводе в пдф для ч/б картинок лучше использовать сжатие CCITT 4 (места намного меньше), для серых - JPG.

Спасибо попробую. Я вот забыл правда совет использовать 300dpi в сером режиме, а потмо переводит их в ч/б. Н

Quote (m7876)

На мой взгляд, DjVu не так просто освоить, как PDF. Можно сделать PDF из кучи TIFF всего двумя командами

Какими? Извините за вопрос я просто не в курсе, думал что акробатище-динозаврище нужен обязательно.

Quote (m7876)

Более того, при создании DjVu очень легко навсегда испортить материал.

Я не очень понял как испортить. Это только к цветным книгам относиться, и то фото-режима никто не отменял, у меня вот до сих пор на компе атлас в djvu лежит на 180 мгеабайт.

Quote (m7876)

На мой взгляд, главный недостаток формата PDF в том, что он изначально не предназначался быть контейнером растровых изображений.

Это вы верно сказали. Кесореву кесорево, богу божье. PDF хорош когда он является продуктом профессионалов и сделан непосредственно из макета в котором книги или журнала. С другой стороны отмечу единственный недостаток DJVU , то что нельзя комментировать картинки. Но так как оглавление и OCR спокойно внедряются в документ думаю это всего-лишь дело времени. А может это ужер реализовано я просто не знаю об этом. А больше и ничего не нужно. PDF думаю возьмет свое в будущем. И новые книги должны будутпоподать в интернет именно так в PDF, но DJVU будет и останется форматом для старых книг.

m7876

Дата: Понедельник, 12.04.2010, 19:01 | Сообщение # 35

Группа: Проверенные

Сообщений: 32

Репутация: 0

Статус: Offline

Команды такие (скачиваете сначала libtiff):
tiffcp *.tif vse_v_odnom.tif
tiff2pdf -z vse_v_odnom.tif
Сначала делаете многостраничный TIFF, затем из него PDF (zip-компрессия). Получается довольно компактно. А можно еще через IrfanView делать PDF, там вариантов компрессии больше.
===
Испортить очень просто. Достаточно применить к черно-белому документу с мелким шрифтом и разрешением 300 агрессивный профиль сжатия. Тут же возникнет "эффект инь", то есть буквы "и" и "н" частично "перепутаются".
DjVu позволяет вставлять комментарии, просто нормального софта для этого нет.

monday2000

Дата: Вторник, 10.08.2010, 11:17 | Сообщение # 36

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

AlexIpp

Quote

PDF предпочтительнее DJVU по целому ряду причин, в частности:

Большое спасибо за очень ценную критику! smile

Никогда ещё не встречал столь аргументированного подхода.

Я тоже интересуюсь вопросами DjVu. У меня есть свой сайт по этим вопросам ( http://www.djvu-soft.narod.ru/ ) и там же мой форум по этой же теме ( http://www.djvu-scan.ru/forum/ ).

Я полностью согласен с Вашей критикой формата DjVu. Однако, считаю, что указанные недостатки формата DjVu являются преодолимыми. Попробую ответить также по пунктам.

Quote

Это ошибочное заблуждение, очевидно вызванное малой осведомлённостью о возможностях формата DjVu. Существует простой и надёжный способ "не портить картинки" в DjVu - т.н. "метод разделённых сканов", подробнее см. программу DjVu Imager http://www.djvu-soft.narod.ru/scan/djvu_imager.htm .

Quote

2) дежавю почти не используется за рубежом, а мы ориентированы не на русскоязычную аудиторию, а на мировое сообщество в целом. В России многие пользователи тоже не приучены к этому формату.

Да, за рубежом DjVu малопопулярен. Для частичного решения этой проблемы, думаю, следует сделать простой, удобный и бесплатный конвертер DjVu-PDF. Платные есть уже сейчас, но хотелось бы именно бесплатного (это не считая виртуальных PDF-принтеров, которые не назовёшь простым средством). Правда, всё-таки возникает вопрос - а так ли уж надо нам заботиться о зарубежной популярности формата DjVu? Почему бы не подумать в первую очередь о потребностях российского (русскоязычного) пользователя? В России DjVu, думаю, можно будет со временем сделать популярным - тут даже наших сил хватит.

Quote

3) к дежавю сложно найти программы для редактирования и обработки файлов - халява есть только в файлообменных сетях.

Эту проблему в принципе можно разрешить в ближайшие годы - путём создания бесплатного мета-редактора DjVu - аналогичного коммерческой программе LizardTech Document Express Editor v6.0 (см. http://www.djvu-soft.narod.ru/soft/basic.htm ). Кстати - знакома ли Вам эта программа? Она указана и в http://www.djvu-soft.narod.ru/scan/scan_and_share_1_07.htm (инструкции в целом сильно устаревшей).
При этом такая бесплатная программа может быть размещена на sourceforge.net - аналогично windjview.sourceforge.net и scantailor.sourceforge.net (думаю, это в достаточной степени доступно получится).

Quote

4) официальный софт DJVU не развивается уже много лет, и, видимо, собирается скоро исчезнуть совсем; а альтернативных динамично развивающихся программных продуктов нет.

Наверное, тут в основном имеется в виду такая проблема, как проблематичность поиска и нахождения адекватного DjVu-кодировщика. Согласен, это представляет некую проблему. Пока что могу предложить простую и удобную программу DjVu Small v0.4.3 http://www.djvu-soft.narod.ru/soft/basic.htm . Однако, соглашусь с тем, что это не лучшее решение. Думаю, идеальным решением было бы создание свободно-бесплатного DjVu-кодировщика, не уступающего по качеству соответствующим коммерческим аналогам. Это - самая сложная проблема. Пока что могу предложить временное решение - свободно-бесплатный DjVu-(де)кодировщик MiniDjVu Plus http://www.djvu-scan.ru/forum/index.php?topic=52.0 . Шансы есть, что в дальнейшем эта программа будет улучшаться.
"Официальный софт DjVu" как раз недавно продолжил развиваться (после многолетней паузы, которую Вы и имели в виду). Однако, ИМХО это не делает большой погоды - надеяться следует в основном только на самодельные DjVu-программы.

Quote

5) отсутствие внятных программ для распознавания DJVU-файлов. Один DjVuOCR погоды не делает, и альтерантив ему нет. Даже сейчас у этой программы есть проблемы с совместимостью с поздними версиями ФайнРидера, а если завтра энтузиазм у Gencho иссякнет?

Тут я с Вами согласен на 100%. К тому же иссякание энтузиазма Gencho уже, увы, произошло. Но и эту проблему можно решить. Я даже предпринимаю определённые шаги в этом направлении - а именно, активно агитирую ABBYY внедрить в FineReader функционал программы Gencho. И ABBYY уже подтвердили свою заинтересованность в этой задаче, см. http://finereader.abbyy.ru/forum/actualthread.aspx?tid=1011 .

Резервный вариант - использование CuneiForm для DjVu-OCR - пока что выглядит, увы, неперспективным (хотя и на этом направлении все возможные шаги были мною в своё время предприняты - см. http://openocr.org/forum/viewtopic.php?f=2&t=46 ).

Quote

6) По поводу качества... Один из людей, регулярно сканирующих для сайта, Саша Гужов, делает сканы высочайшего качества, и для их хранения использует именно pdf. Вычищать пиксельный мусор и применять алгориты сглаживания букв можно в Акробате и ФайнРидере, там есть такие опции

С этой точки зрения PDF и DjVu ничем не отличаются - и для того, и для другого исходные сырые сканы нужно специальным образом облагораживать. Эта проблема - на контроле. Пока что достигнуто создание такой программы, как scantailor.sourceforge.net .

Quote

7) возможности комментирования, рецензирования у PDF на порядок выше

Проблему признаю. Но что конкретно имеется в виду? Я толком не знаю, что Вы имеете в виду.
Здесь многое можно сделать. Формат DjVu поддерживает метаданные - типа цветных стикеров-наклеек (с текстом). Есть и т.н. "пользовательские аннотации", поддерживаемые WinDjView. В принципе, можно будет добавить в WinDjView иные особые виды метаданных - обратитесь к автору WinDjView тут: http://forum.ru-board.com/topic.cgi?forum=5&bm=1&topic=18322&glp .
Кроме того, как известно, формат DjVu разрешает применять в DjVu-файле любые пользовательские чанки - официальный DjVu-декодер будет их просто игнорировать. Это открывает дорогу к внедрению внутрь DjVu чего угодно - хоть встроенных mp3-файлов (а также любых слоёв и метаданных).

Quote

8) PDF в ряде случаев читается с наладонников и электронными книгами

Эта проблема, понятное дело, не проблема - она будет легко решена (да и уже успешно решается по ходу дела).

Quote

9) в DJVU сложно перевести изначально векторные макеты статей из Word и PageMaker.

Очень даже может быть. Но, согласитесь - это относительно редкая задача. В принципе, для её решения уже есть некоторый софт. Это:

1. http://dev.caminova.jp/beta/office2djvu/ - отличный конвертер DOCX-DjVu (легально-бесплатный, для MS Office 2007).

2. Виртуальный DjVu-принтер (добыть никакая не проблема, см. http://www.djvu-soft.narod.ru/soft/ ).

3. http://djvu.sourceforge.net/gsdjvu.html - схожее решение под Linux (свободно-бесплатное).

Со временем эта задача, возможно, будет как-то дополнительно решаться.

Quote

10) несколько лет назад стали использоваться алгоритмы кодировки изображения в PDF, которые, судя по всему, ничем не отличаются от алгоритмов DJVU (т.е. качество и размер изображения близки). Сегодня эти алгоритмы активно использует Майкрософт - см. книги на archive.org - и умеют некоторые сканеры. И они так же, как и DJVU-программы, умеют необратимо портить фототаблицы

DjVu всё равно продолжит иметь заметные преимущества по сравнению с PDF. Это - скорость, экономичность (по ресурсам), программная простота работы. К примеру - попробуйте-ка на С++ написать программу для склейки нескольких PDF в один. Измучаетесь. А в DjVu - просто берём готовые утилиты для подобных целей. Есть, правда, pdftk - но попробуйте-ка её самостоятельно скомпилировать. Это же просто какой-то монстр - он использует JAVA PDF библиотеку iText, которая искусственно отвязана от Java. (!) Всё это крайне затруднительно для использования. А зато DjVuLibre-консольные утилиты я сам с лёгкостью перекомпилирую при нужде, меняя их функционал, как мне нужно.

Теперь несколько слов о недостатках формата PDF, которые начисто отсутствуют у DjVu.

1. Тормознутость при просмотре.
2. Сложность декодирования PDF -> TIF (часто попадаются такие PDF, которые "ничем не возьмёшь").
3. Отсутствие простой, удобной, хорошо документированной и совершенной программной С++ - библиотеки по работе с форматом PDF.
4. Малое количество свободно-бесплатного софта для работы с PDF. Пример: найдите мне путёвую свободно-бесплатную программу для склейки несколько PDF в один. Это будет или глючить, или сделано в виде виртуального принтера, или опираться на GhostScript.
5. Сложность-малоизвестность работы с PDF-файлами в том же полном Акробате.
6. Хорошо известные проблемы с фонтами PDF.

Если будет желание - приглашаю обсудить все эти проблемы более подробно на моём форуме http://www.djvu-scan.ru/forum/ .

Сообщение отредактировал monday2000 - Вторник, 10.08.2010, 12:52

monday2000

Дата: Среда, 11.08.2010, 15:03 | Сообщение # 37

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

На странице http://jurassic.ru/ebooking.rus.htm указан следующий недостаток формата DjVu:

Quote

(-) отсутствие единой удобной программы для создания, редактирования, распознавания и просмотра файлов DJVU, из-за чего приходится устанавливать набор самостоятельных программ. При этом их суммарные возможности настроек печати, редактирования, комментирования текста, сохранения, конвертации, безопасности и пр. в них очень сильно ограничены по сравнению с Adobe Acrobat - основным инструментом для работы с PDF.

На мой взгляд, неразумно делать именно единую программу для работы с форматом DjVu. Потому что получится "каша" (как если бы скрестить MS Word и MS Excel в единую программу).

Целесообразно сделать 2-3 основные программы, которые в совокупности полностью закрывают все потребности по работе с форматом DjVu. Это могут быть такие программы:

1. (Де)кодировщик (из)в DjVu. Это уже есть: варезный DjVu Small v0.4.3 или свободно-бесплатный MiniDjVu Plus.
2. Метаредактор DjVu. Есть варезная версия - LizardTech Document Express Editor v6.0. Можно сделать свободно-бесплатную версию - причём значительно превосходящую по функционалу LizardTech Document Express Editor v6.0. Это довольно реальная задача. Функции: вставка-удаление страниц, метаданных, OCR-слоя, DjVu-слоёв, дерева-оглавления, раскраска маски и т.п.
3. Просмотрщик DjVu. Это - WinDjView. Он уже есть, и это лучшее из лучших вариантов.
4. DjVu OCR. Это будет в виде ABBYY FineReader с возможностью OCR стороннего DjVu.
5. Кодировщик в DjVu по методу разделённых сканов. Это уже есть: свободно-бесплатный DjVu Imager. В будущем возможно создание ещё более простой в использовании программы, чем DjVu Imager.
6. Программа по облагораживанию сырых сканов перед кодированием их в DjVu (Pdf). Сейчас имеем свободно-бесплатные ScanKromsator и Scan Tailor. В будущем, несомненно, будут новые аналогичные программы - гораздо более продвинутые по качеству и удобству.

И ещё - общий тренд развития самодельных DjVu-программ - это постоянное стремление к максимальному переходу в сторону свободно-бесплатых программ. Пока что это не вполне удаётся - но можно развивать такие программы, как miniDjVu и CuneiForm - чтобы суметь отказаться от коммерческих documenttodjvu и ABBYY FineReader.
Довод

Quote

не совсем правилен.
Формат PDF более популярен исключительно по политическим соображениям. А с технической точки зрения формат DjVu гораздо более совершенен. PDF и DjVu соотносятся как тупой монстр и красивое изящество. В качестве аналога можно сравнить ОС Windows и другие ОС (Mac, OS/2) - которые гораздо лучше, чем Windows (сейчас или когда-то были) - но это вовсе не привело к их доминированию на рынке. Просто формат PDF "пропихивается" на рынок насильно, всей мощью корпорации Adobe - а за DjVu некому так же постоять, в смысле, с такой же мощью.

Сообщение отредактировал monday2000 - Среда, 11.08.2010, 15:07

AlexIpp

Дата: Суббота, 14.08.2010, 03:32 | Сообщение # 38

Группа: Администраторы

Сообщений: 579

Репутация: 0

Статус: Offline

Здравствуйте, monday2000

Рад приветствовать вас на форуме! Хорошо знаю ваши статьи, и в свое время использовал их для того, чтобы научиться сканировать;)
К сожалению, я (как и mhorn) сейчас на конференции в Китае, и пока не имею возможности дать развернутый ответ на ваши сообщения (напишу чуть позже)
Кратко - только по основным моментам.

Quote (monday2000)

всё-таки возникает вопрос - а так ли уж надо нам заботиться о зарубежной популярности формата DjVu? Почему бы не подумать в первую очередь о потребностях российского (русскоязычного) пользователя?

если речь идет о научной литературе, интересной не только российскому, но и мировому сообществу - да, заботиться о зарубежной популярности DJVU необходимо, это ключевой вопрос. Иначе нас не будут читать. А вот учебники и региональный ботанические определители в такой популярности не нуждаются

Quote (monday2000)

Кстати - знакома ли Вам эта программа?

да, это для нас основной инструмент для работы с DJVU
***
резюме по первому посту - согласен, что функционал программ для работы с DJVU не намного меньше, чем у PDF, но! Пока речь идет о целой группе программ для работы с DJVU, многие из которых имеют проблемы с совместимостью. Даже если мы станем сканировать, распознавать и т.п. с помощью всех этих утилит, шансы, что многим из наших коллег покажется удобным устанавливать пакет программ и учиться его использовать, исчезающе малы. Техническая работа с PDF - для исследователя не главное. Нужен один (ну максимум два) интуитивно понятный инструмент для работы, интегрирующий все возможности. Все.

Поверьте, всякие изощрения с разделенными сканами, сканкромсаторами, свободным программированием среди пользоваталей (кто читает книги, а не делает их, а таких подавляющее большинство) мало кому интересны!

До создания такого инструмента DJVU никогда не станет стандартом работы с электронными публикациями.

Можно много говорить о перспективах, но факт остается фактом: используя PDF, пользователи используют наиболее удобный на данный момент инструмент для работы. Используя DJVU, они вынуждены в какой-то мере вступать в борьбу за выживание этого формата и за его идеологию в ущерб удобству. smile

всё о серпулидах & белемнитах

AlexIpp

Дата: Суббота, 14.08.2010, 19:01 | Сообщение # 39

Группа: Администраторы

Сообщений: 579

Репутация: 0

Статус: Offline

Quote (monday2000)

Quote
9) в DJVU сложно перевести изначально векторные макеты статей из Word и PageMaker.

Очень даже может быть. Но, согласитесь - это относительно редкая задача.

Электронные публикации, которые используются научным сообществом, попадают в сеть двумя путями:
1. Сканирование (что в основном делаем мы с вами)
2. электронные версии новых публикуемых статей, продаваемых издателями. См. springerlink.com, elibrary.ru и т.д. и т.п.

Пока не будет простого и удобного способа для перевода их макетов в djvu, причем с сохранением всех векторных объектов, включая и рисунки, и текст, и таблицы, наши зарубежные коллеги будут использовать PDF. И только его.
Особого смысла в переведении векторных макетов статей в растровый DJVU я не вижу. Мгновенно теряется огромный пласт информации.

всё о серпулидах & белемнитах

AlexIpp

Дата: Суббота, 14.08.2010, 19:06 | Сообщение # 40

Группа: Администраторы

Сообщений: 579

Репутация: 0

Статус: Offline

Quote (monday2000)

"Официальный софт DjVu" как раз недавно продолжил развиваться (после многолетней паузы, которую Вы и имели в виду)

только что зашел на сайт lizardtech.com и обнаружил, что теперь на нем не осталось ни одной программы для работы с DJVU! smile

права на нее кто-то перекупил, как я понимаю?

всё о серпулидах & белемнитах

monday2000

Дата: Понедельник, 16.08.2010, 10:25 | Сообщение # 41

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

AlexIpp
Мне, кстати, трудно обсуждать преимущества PDF перед DjVu (или наоборот) потому, что я не представляю себе, как делаются сканированные чисто растровые PDF. Насколько я понимаю, точно также сканируется бумажная книга на сканере, затем полученные сырые сканы облагораживаются, и далее кодируются в PDF (возможно с OCR). Не вижу принципиальных отличий этого процесса от процесса создания DjVu.

Quote

Можно много говорить о перспективах, но факт остается фактом: используя PDF, пользователи используют наиболее удобный на данный момент инструмент для работы.

Вот это мне и непонятно - чем же инструментарий создания чисто растрового PDF проще инструментария создания DjVu?

Quote

Особого смысла в переведении векторных макетов статей в растровый DJVU я не вижу. Мгновенно теряется огромный пласт информации.

Совершенно с Вами согласен. Вопрос уже обсуждался в DjVu-сообществе и было вынесено коллективное мнение, что перевод чисто векторного PDF в DjVu не имеет смысла. (т.е. PDF, полученного путём вёрстки из DOC или Tex и т.п.)

Quote

права на нее кто-то перекупил, как я понимаю?

Да, в прошлом году права на формат DjVu перешли к новой компании - Caminova. Вот их сайт: http://www.caminova.net/en/ . Они уже успели сделать новые версии известного DjVu-софта и даже выложили новый DjVu SDK. Однако, софт этот пока крайне сырой и неудобный, а также не поддерживающий кириллицу (зачастую) - раньше такой проблемы (с кириллицей) отродясь не водилось. Думаю, говоря о формате DjVu, в основном ставку следует делать на самодельный DjVu-софт - а не на фирменный. Это может показаться смешным - но пока что толку гораздо больше от "самодельщиков", чем от официальных производителей.

Quote

да, заботиться о зарубежной популярности DJVU необходимо, это ключевой вопрос.

К сожалению, тут мы бессильны. Всё, что мы можем сделать по этому пункту - это создать удобный конвертер DjVu->PDF. Проблема носит "политический" характер. Просто DjVu - вообще слишком по духу "советский" формат (удивительно, как его не сделали в СССР - наверное, просто не успели), поэтому он органически чужд миру капитализма, smile

и поэтому ТАМ DjVu никогда не приживётся. Ведь DjVu несёт свободу информации - зачем это капиталисту - для него информация - предмет наживы и основа власти (которую DjVu фактически подрывает самим фактом своего существования). DjVu - это сильная штука (типа изобретения пороха). PDF не в силах достойно конкурировать с DjVu, когда речь идёт об электронизации бумажных книг, журналов, газет и т.п. Недаром в Рунете такой бум популярности именно DjVu - а не PDF. Один из самых крупных DjVu-ресурсов (техническая литература) - http://gen.lib.rus.ec/ .

В качестве примера отсталости PDF я могу привести историю библиотеки GNU PDF http://www.gnupdf.org/ - уж сколько времени она развивается - а релиза всё ещё нет. Потому что формат PDF с программной точки зрения безумно сложен (явно избыточно) - потому-то и не могут реализовать в GNU PDF все заморочки PDF в полной мере. Избыточная программная сложность - это яркий признак ущербности формата, не правда ли? (это ясно даже с точки зрения житейской логики, потому что "всё гениальное - просто", и наоборот). Кстати, DjVu с программной точки зрения весьма прост и внутренне-строен.

Quote

Нужен один (ну максимум два) интуитивно понятный инструмент для работы, интегрирующий все возможности. Все.

Конечно, в будущем мы прийдём к чему-то подобному. Правда, в 2 программы вряд ли всё это втиснешь. Потому что слишком уж разнообразен спектр задач. И потом - может быть, удобнее иметь 2 простые программы вместо одной навороченной, включающей в себя функционал обеих программ? Наверное, это дело вкуса.

Тем не менее, пусть это будет и не 2 программы - но в пределах одного десятка. Зато будут самые подробнейшие инструкции в картинках и примерах - как всем этим пользоваться. Тогда Вам и использование десятка простейших программ не покажется сложным. Пример - столовые приборы. Вот есть ложка, вилка, нож. Открывашка для консервов - это всё разные инструменты - но никто не говорит, что ими сложно пользоваться в совокупости. А есть швейцарский нож, у которого выдвижные и ложка, и вилка, и ножик, и открывашка - и ещё куча всего - так разве ж это удобней, чем просто ложка и вилка?

Quote

Совершенно с этим согласен. Но это не потому, что формат DjVu якобы сложен. Это просто "болезни роста" - которые со временем будут преодолены. Я как раз самый последовательный борец за максимальное упрощение процессов любой работы с DjVu. Просто сейчас технологии создания DjVu ещё совсем молоды - они находятся в своего рода "научно-исследовательской" стадии. Со временем всё это ещё сильно "обкатается" и радикально упростится для непосвящённого пользователя.
Кстати - самая главная сложность - это облагораживание сырых сканов, а вовсе не их дежавючение. А облагораживание сырых сканов - это во многом касается и создания растрового сканированного PDF.

Quote

Эти рассуждения мне увы, совершенно непонятны, т.к. я не знаю, как делается сканированный растровый PDF и чем это проще, чем создание DjVu. Расскажите, как делается сканированный растровый PDF, какими программами.

Сообщение отредактировал monday2000 - Понедельник, 16.08.2010, 10:57

AlexIpp

Дата: Суббота, 28.08.2010, 08:45 | Сообщение # 42

Группа: Администраторы

Сообщений: 579

Репутация: 0

Статус: Offline

Quote (monday2000)

Как ни странно, согласен. Но все же, функционал программы для сборки pdf - Adobe Acrobat - несколько шире, чем у DJVU-программ, а главное, интерфейс и управление интуитивно понятны (я говорю про операции сборки файлов, выделения страниц, поворота страниц). И более эстетичны, отточены по стилю под новые версии операционных систем.
Если программа (Adobe Acrobat) предлагает больший набор функций, пусть даже изощренных и ненужных, она будет смотреться более выигрышно и солидно по сравнению с программой с меньшим количеством функций (DJVU Editor) в глазах рядового пользователя. Как супермаркет по сравнению с ларьком. Или Apple iPhone в сравнении с бюджетным сотовым.
Чистая психология&маркетинг, никакой логики smile

. И это - не в пользу формата DJVU. Поэтому люди пока будут выбирать PDF.

Quote (monday2000)

уверен, что с точки зрения развития и популяризации DJVU отказ от работы с векторным изображением - абсолютно недальновидное решение.
Как вы думаете, удобнее использовать один формат, работающий и с растром, и с вектором, или два? smile

Quote (monday2000)

http://www.caminova.net/en/

Заметьте, бесплатной от этого она не стала. Так что остаются все те же старые программы.
Ок, попробую найти взломанные версии.

Quote (monday2000)

Просто DjVu - вообще слишком по духу "советский" формат

ну да, даже Карл Маркс в книге "Капитал" предсказывал его появление )))
мне кажется, вы немного перегибаете палку. Причин популярности DJVU именно у нас только две:

1) замедленное развитие Интернета (в плане скоростей) по сравнению с развитыми странами.
2) на порядок завышенные цены за хостинг в нашей стране.

Поэтому российские граждане вынуждены были экономить каждый килобайт, и искали в свое время для этого любые способы.

Quote (monday2000)

Недаром в Рунете такой бум популярности...

у меня есть ощущение, что пик популярности djvu и эпоха экономии каждого килобайта уже позади - многие мои российские коллеги знать не знают про DJVU, зато активно используют PDF smile

Quote (monday2000)

В качестве примера отсталости PDF я могу привести историю библиотеки GNU PDF http://www.gnupdf.org/ - уж сколько времени она развивается - а релиза всё ещё нет.

да, у меня давно сложилось устойчивое ощущение, что DJVU-формат старается завоевать признание больше среди программистов (а также сканёров), чем среди пользователей biggrin

А потом удивление такое искреннее, а почему это люди предпочитают PDF, ведь DJVU проще, экономнее и удобнее?

Quote (monday2000)

"всё гениальное - просто"

все гениальное может быть кратко сформулировано smile

. Читал недавно презабавную статью про один из физических институтов, физики там говорили, что теорию Эйнштейна понимают в их учреждении от силы человек пять smile

, хотя E=mc2 знает каждый школьник.

Quote (monday2000)

это дела удобства пользователей, я думаю.
Если такая программа для DJVU появится, я обеими руками "за".

Quote (monday2000)

Тем не менее, пусть это будет и не 2 программы - но в пределах одного десятка

спасибо, нам хватит одной:)

Quote (monday2000)

Зато будут самые подробнейшие инструкции в картинках и примерах - как всем этим пользоваться.

жизнь в последние лет десять стала очень информационно насыщенной, если бы все читали подробные инструкции, как вы думаете, было бы введено понятие "интуитивно понятный интерфейс"?
Нужно, чтобы человек впервые открыл программу, безо всяких инструкций тырк-тырк мышкой, через 5 мин. есть желаемый результат. Ничего не испорчено и не вылезли непонятные диалоговые окна, предлагающие черте-что:)

Quote (monday2000)

Это просто "болезни роста" - которые со временем будут преодолены.

все этот так, но что-то долговато софт djvu "растет". Будем надеяться, у Camoniva пойдет быстрее.

Quote (monday2000)

Кстати - самая главная сложность - это облагораживание сырых сканов

кстати, в последних версиях Acrobat появилась масса встроенных функций по этому направлению, и я не сомневаюсь, что в новых версиях мы увидим еще больше. Т.е. это то, над чем Adobe работает интенсивно.

Quote (monday2000)

Quote
Можно много говорить о перспективах, но факт остается фактом: используя PDF, пользователи используют наиболее удобный на данный момент инструмент для работы. Используя DJVU, они вынуждены в какой-то мере вступать в борьбу за выживание этого формата и за его идеологию в ущерб удобству.

создание PDF ничем не проще, чем создание DJVU. Но и не сложнее.
Мне кажется целесообразной ориентация на пользователя. Делая выбор, собирать из сканов PDF или DJVU, я выбираю PDF, т.к. могу быть уверен, что:
1. файл сумеет открыть любой человек из любой страны, независимо от уровня компьютерной грамотности, и ему не придется специально для этого подбирать в инете кучу программ. Возможно, вы не поверите, но в 8 случаях из 10, если скачанный файл сразу не открывается, пользователь не станет тратить на него время и переключится на другие, более интересные дела.
2. при желании даже "чайник" сумеет его отредактировать, как ему хочется.

всё о серпулидах & белемнитах

AlexIpp

Дата: Суббота, 28.08.2010, 11:37 | Сообщение # 43

Группа: Администраторы

Сообщений: 579

Репутация: 0

Статус: Offline

Да, напишу еще кратко про нашу методику сканообработки для PDF.
Она, как и у многих сканеров, выработана в результате многолетних проб и ошибок wink

Я вообще не использую СканКромсатор, а вместо этого стараюсь получать нормальные исходники, которые почти не нуждаются в редактировании.

Выглядит это примерно так.

1. Сканируем книгу в файлы tiff с помощью IrfanView или DigiBook (утилита для сканеров Plustek) с сохранением сразу в файл, без просмотра. Страницы с текстом сканируются в черно-белом режиме со сжатием CCITT4. В превью драйвера сканера важно правильно подобрать режим яркости для ч/б изображений с тем, чтобы максимально уменьшить пиксельный "мусор". Книгу кладем на сканер так, чтобы она была впритык к одному из углов, каждая вторая страница получается повернутой на 180 градусов. Выставляем фиксированный размер области сканирования, страницы по умолчанию получаются одинакового размера.
Для страниц, содержащих текст + полутоновые/цветные изображения, делаем 2 скана - ч/б и серый.

2. Если есть серые картинки, прогоняем их через Фотошоп (опция Blur, сначала калибрую по 1 изображению, потом делаю на остальных с теми же параметрами).
Если на странице был текст + картинки, делаю Blur на "серой"/"цветной" копии, после чего вырезаю кусок с изображением и вставляю его в черно-белый вариант, предварительно переведя его в "оттенки серого/цветной".
Все это на горячих клавишах, и делается очень быстро - в среднем за 5-7 секунд на страницу смешанного содержания.
В Фотошопе также на раз стираются печати библиотек, немного облагораживается обложка и т.п.

3. Сборка PDF с помощью Акробата. В этой программе (версия 7) наиболее удобно (быстро) делать такие операции, как массовый поворот страниц, их перестановка и т.п.

4. Распознавание PDF с помощью FineReader9, сохранение в PDF.

5. Оглавления в книге, иконки страниц - компилируются с помощью Adobe Acrobat.

В принципе, в ряде случаев подготовку книги можно вообще свести к шагам 1 и 3.

PS. Я сейчас только вернулся в Москву, завтра уеду снова, поэтому отвечаю не сразу.

всё о серпулидах & белемнитах

mhorn

Дата: Понедельник, 30.08.2010, 15:52 | Сообщение # 44

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

Quote (monday2000)

Quote (AlexIpp)

Да, напишу еще кратко про нашу методику сканообработки для PDF.

Добавлю к написанному, что можно вообще не использовать Adobe Acrobat, а напрямую закидывать сканированные страницы в FR (т.е. отсканили статью,книгу, выделили все файлы - и в FR), а FR в свою очередь сохранит всё в виде pdfa с текстовым слоем под картинкой

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

a1opex

Дата: Понедельник, 30.08.2010, 17:42 | Сообщение # 45

Группа: Проверенные

Сообщений: 70

Репутация: 0

Статус: Offline

Тоже добавлю несколько слов, может, кому-нибудь пригодится мой опыт.

Quote (AlexIpp)

Если на странице был текст + картинки, делаю Blur на "серой"/"цветной" копии, после чего вырезаю кусок с изображением и вставляю его в черно-белый вариант, предварительно переведя его в "оттенки серого/цветной".

Я так делал до того, как освоил ScanTailor. Теперь страницы с полутоновыми иллюстрациями сканирую в Gray Scale или RGB (если они цветные) один раз и с тем же разрешением, что и черно-белые (текст/линейная графика) - 600 dpi. В скантейлоре для полутоновых страниц задаю вывод в режиме смешанный и обвожу рамку вокруг иллюстрации. Если полутоновая иллюстрация не прямоугольная, а объект неправильной формы на белом фоне, то скантейлор ее, как правило, сам определяет (зависит от качества полиграфии). В режиме "Зоны картинок" (на стадии вывода) можно подредактировать маску, если программа ошибется с выделением полутонового объекта. В результате выводится 8- или 24-битный файл с качеством текста идентичным таковому на черно-белых страницах, а иллюстрация сохраняет качество, заданное при сканировании.

Если оригинал напечатан с низкой линеатурой - визуально это приводит к "точечности" полутоновых иллюстраций и муару - то последние следует немного размыть (функция Blur). Я это делаю это в Corel PHOTO-PAINT, обводя маску вокруг иллюстрации. Там же (или в Фотошопе), можно изменить разрешение страниц с полутонами с 600 до 300 dpi (размер страницы должен оставаться тем же). Эту процедуру можно автоматизировать с помощью "сценария".

Высококачественный PDF-файл отлично распознается последними версиями Акробата, при этом распознанный файл имеет меньший объем, чем после ФайнРидера, и не обнаруживает грязного фона, особенно заметного при прокрутке большого файла. В 9-м Акробате есть функция ClearScan, позволяющая при распознавании текста перевести его в векторный формат (не путем замены готового шрифта, а путем трассировки текста отсканированной книги). На высококачественном скане (600 dpi) эта опция часто позволяет получить просто фантастическое качество при заметном уменьшении объема файла. При этом качество иллюстраций не меняется.

Распознать некачественные сканы (с низким разрешением) с минимумом ошибок может только FineReader.

Carnivora

Сообщение отредактировал a1opex - Понедельник, 30.08.2010, 17:49

AlexIpp

Дата: Понедельник, 30.08.2010, 22:41 | Сообщение # 46

Группа: Администраторы

Сообщений: 579

Репутация: 0

Статус: Offline

Quote (a1opex)

речь идет про опцию ClearScan, видимо (перевод букв в векторную форму со сглаживанием контуров), поскольку в иных случаях размер без потери качества только прирастает.
Эта опция имеет два замеченных критических недостатка, уверен, что они будут исправлены в новых версиях:
1. Качество распознавания низкое, т.к. это OCR-движок Iris, встроенный в Acrobat. Особенно страдают именно двуязычные тексты, т.е. русский+латиница. Попробуйте скопипастить распозанный Acrobat'ом большой текст в Word. Ужас..
2. Иногда по неизвестным причинам навсегда пропадают целые строчки и абзацы из оригинала.

всё о серпулидах & белемнитах

a1opex

Дата: Четверг, 02.09.2010, 18:31 | Сообщение # 47

Группа: Проверенные

Сообщений: 70

Репутация: 0

Статус: Offline

Вопрос о том, как сканировать и в каком формате сохранять файл зависит от качества полиграфии, наличия в публикации полутоновых иллюстраций, важности OCR и т.д. Имеют значение и некоторые дополнительные факторы (например, если планируется рассылать свою публикацию зарубежным коллегам, то DJVU, конечно, лучше избегать).

«Самого лучшего» способа не существует, есть оптимальный для каждого конкретного случая. Если книга большая, при этом не содержит полутонов и может быть отсканирована более-менее качественно, то DJVU вне конкуренции. Если есть страницы с важным текстом вместе с полутоновыми иллюстрациями – лучше остановиться на PDF. Когда качество полиграфии и/или скана очень низкое – только PDF. В некоторых случаях (когда скан идеален, а книга очень большая и с массой полутоновых иллюстраций) оптимальным будет распознать полученный PDF в режиме ClearScan.

Даю ссылку на три варианта 12-страничной статьи, отсканированной в черно-белом режиме с разрешением 600 dpi. Специально взял публикацию на русском, поскольку с его распознаванием бывают проблемы (я не разбираюсь в «движках», но качественно отсканированный английский распознается безупречно и Акробатом и Документ Экспресс Эдитором). Как видно из предложенных примеров, если скан удовлетворительного качества, то и с русским у этих программ неплохо.

В архиве:

1) Iordansky, 2005. Paedomorphosis, neoteny & evolution.pdf
PDF объемом 2770 КB распознан 8-м Акробатом с сохранением растра. Объем 2960 КB.

2) Iordansky, 2005 [ClearScan].pdf
PDF объемом 2770 КB распознан 9-м Акробатом в режиме ClearScan. Объем 640 КB.

3) Iordansky, 2005. Paedomorphosis, neoteny & evolution.djvu
Файл DJVU из того же скана, собран и распознан в Document Express Editor (bitonal, 600 dpi, quasilossless). Объем 780 КB.

P.S. Статья:
Иорданский Н.Н. Педоморфоз, неотения и эволюция // Зоологический журнал. — 2005. — Т. 84, № 10. — С. 1176–1187.

Carnivora

mhorn

Дата: Пятница, 03.09.2010, 17:19 | Сообщение # 48

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

Quote (a1opex)

Clearscan - да, хорошо получилось, не придерешься, а вот djvu с обычными косяками распознавания

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

a1opex

Дата: Пятница, 03.09.2010, 18:56 | Сообщение # 49

Группа: Проверенные

Сообщений: 70

Репутация: 0

Статус: Offline

Quote (mhorn)

а вот djvu с обычными косяками распознавания

У меня больше всего вызывает недоумение то, что Document Express Editor вообще не распознает тект на полутоновых страницах, сохраненных в режиме photo/lossless. Какое-то дурацкое ограничение...

Quote

Clearscan - да, хорошо получилось

Я сначала к этой функции скептически отнесся, встретив в сети несколько кривых "клиасканенных" книг. Потом, поэкспериментировав, понял, что это из-за низкокачественных исходников. Если же применять ее к отличным сканам, то и результат очень приличный. Особенно интересно бывает, скачав книгу >100 MB (из полностью полутонового скана с высоким разрешением), прогнать его через Скантейлор и распознать в ClearScan. Получается файл до 10 МВ и почти издательского качества. В общем, адобовцы молодцы smile

Carnivora

Сообщение отредактировал a1opex - Пятница, 03.09.2010, 19:15

m7876

Дата: Понедельник, 06.09.2010, 08:22 | Сообщение # 50

Группа: Проверенные

Сообщений: 32

Репутация: 0

Статус: Offline

Quote (a1opex)

Даю ссылку на три варианта 12-страничной статьи, отсканированной в черно-белом режиме с разрешением 600 dpi.

Отличный пример!
А вот если сделать из ClearScan PDF DjVu, то его размер -- 150 kb smile

	Пятница, 03.05.2024
Форум Jurassic.ru