Как сканировать (2) - Юрская литература - Планы, идеи и проекты

Дата: Понедельник, 06.09.2010, 10:47 | Сообщение # 51

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

AlexIpp

Quote

Как супермаркет по сравнению с ларьком.

Эта мысль мне ясна. Я с этим совершенно согласен. Но всё же это преодолимая проблема - это же лишь вопрос качества программ, а не качества формата (DjVu или PDF). Можно и программы по работе с DjVu сделать на уровне эргономичности интерфейса не хуже, чем программы по работе с PDF.

Quote

уверен, что с точки зрения развития и популяризации DJVU отказ от работы с векторным изображением - абсолютно недальновидное решение.

DjVu изначально не разрабатывался для работы с векторным изображением. У него другая ниша - оцифровка сканированных изображений (а не сверстанных в вектор документов)

Quote

Как вы думаете, удобнее использовать один формат, работающий и с растром, и с вектором, или два?

Тут мне нечего возразить, пожалуй, Вы правы. Один удобнее, чем два. Единственный довод против "два в одном" в том, что чем выше универсализм формата, тем выше его сложность. Я бы предложил закрепить за PDF исключительно векторные изображения, а за DjVu - исключительно растровые.

Quote

мне кажется, вы немного перегибаете палку. Причин популярности DJVU именно у нас только две:

Но Вы не затронули самый главный вопрос: smile

почему рунетовцы делают DjVu-книги и выкладывают их бесплатно? Нигде на Западе такое явление практически невозможно. Просто у нас иная психология.

Quote

Я вообще не использую СканКромсатор, а вместо этого стараюсь получать нормальные исходники, которые почти не нуждаются в редактировании.

А-а, теперь всё ясно. biggrin

Это же ключевой момент во всех наших рассуждениях (на тему преимуществ-недостатков PDF-DjVu).

Конечно же, в массовом масштабе никто не будет "стараться получить нормальные исходники". Это слишком тяжело, да и совершенно не нужно - т.к. это огромный абсолютно бесполезный труд. Такие софты, как ScanKromsator и Scan Tailor надёжно решают проблему облагораживания сырых сканов произвольного качества в достаточно качественный материал для дежавючения (или для создания PDF).

Quote

Выглядит это примерно так.

Почитал я Вашу методику. М-да, да это же колоссально тяжёлая работа - и зачем ТАК мучаться? Разумнее взамен сканировать "как получится" (без каких-либо ухищрений на стадии сканирования), а потом насканированное облагораживать посредством ScanKromsator или Scan Tailor.

Quote

Нужно, чтобы человек впервые открыл программу, безо всяких инструкций тырк-тырк мышкой, через 5 мин. есть желаемый результат.

Да, в этом вопросе наши с Вами позиции полностью совпадают. Весь смысл моей деятельности - это как раз стремление к подобному идеалу.

Quote

все этот так, но что-то долговато софт djvu "растет".

Просто слишком уж сложна задача сканобработки - что для цели создания DjVu, что для для цели создания PDF. Её очень трудно втиснуть в простую для понимания чайника программу. Вот Scan Tailor - это наиболее яркая попытка решения проблемы - но пока не слишком удачная. В будущем будут и другие такие попытки.

Сообщение отредактировал monday2000 - Понедельник, 06.09.2010, 11:18

Дата: Понедельник, 06.09.2010, 11:10 | Сообщение # 52

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

AlexIpp

Quote

Возможно, вы не поверите, но в 8 случаях из 10, если скачанный файл сразу не открывается, пользователь не станет тратить на него время и переключится на другие, более интересные дела.

Верю на 100%. Думаю, так оно и есть. Правда, не представляю, как решить такую проблему... А почему же PDF-файл у такого пользователя откроется без проблем? Ведь не на каждом же компьютере стоит PDF-просмотрщик. Разве что потому, что "про PDF все знают"...

Quote

2. при желании даже "чайник" сумеет его отредактировать, как ему хочется.

Мне кажется, что потребность "отредактировать, как ему хочется" существует исключительно для векторных документов. Растровые документы - это как бы "консервация на века" в неизменном виде существующих бумажных документов, т.е. там никакое редактирование наоборот не требуется (и даже вредно, там нужна полная аутентичность источнику).

Quote

В превью драйвера сканера важно правильно подобрать режим яркости для ч/б изображений с тем, чтобы максимально уменьшить пиксельный "мусор".

Нереально это выполнить - для произвольной книги. Большая и абсолютно излишняя работа. Scan Tailor автоматом подберёт за Вас адаптивный порог бинаризации (и на каждом скане свой). Кроме того - сколько найдётся книг, где вручную подобрать порог весьма трудно. "Замучаетесь пыль глотать", как говорит Путин. smile

И потом - порой нужно до бинаризации что-то проделать с серыми сканами - например, убрать фон (есть такая фишка в ScanKromsator) или выровнять яркость в Book Restorer http://www.djvu-soft.narod.ru/scan/strange_lighted.htm - причём такие манипуляции с серыми изображеними улучшают качество последующей бинаризации.

Quote

Книгу кладем на сканер так, чтобы она была впритык к одному из углов, каждая вторая страница получается повернутой на 180 градусов.

Это чтобы избежать необходимости в последующем Deskew? Да это сущий кошмар - "Книгу кладем на сканер так, чтобы она была впритык к одному из углов" - это невероятно огромный труд, мучительный кошмар, и абсолютно излишний. Возьмите же Scan Tailor наконец и покончите со своими мучениями.

Quote

Выставляем фиксированный размер области сканирования, страницы по умолчанию получаются одинакового размера.

Жуть какая-то. То же самое - адский труд, абсолютно ненужный. Scan Tailor всё это сделает автоматом и быстро.

Quote

Для страниц, содержащих текст + полутоновые/цветные изображения, делаем 2 скана - ч/б и серый.

Кошмар. А если в книге 600 стр и более? Нет, сканировать нужно ОДИН раз - и в Greyscale (Color, если есть цветное). А потом уже бинаризовывать в Scan Tailor (или Book Restorer).

Quote

2. Если есть серые картинки, прогоняем их через Фотошоп (опция Blur, сначала калибрую по 1 изображению, потом делаю на остальных с теми же параметрами).

Да, Scan Tailor такое делать не умеет. ScanKromsator- наверное, умеет, но вряд ли он удобнее будет, чем фотошоп. biggrin

Quote

Если на странице был текст + картинки, делаю Blur на "серой"/"цветной" копии, после чего вырезаю кусок с изображением и вставляю его в черно-белый вариант, предварительно переведя его в "оттенки серого/цветной".

Это можно делать наполовину в Scan Tailor. Вот об этом почитайте: http://www.djvu-soft.narod.ru/st_zones.htm . А именно, Scan Tailor автоматически делает разбиение Greyscale скана на пару "чёрно-белый текст - серая картинка". А уже полученные серые картинки можете размывать через Blur в фотошопе. А собирать в DjVu всё это можно потом посредством DjVu Imager (это на самом деле очень просто). Ну или же вклеить картинки назад в тексты - и в PDF.

Сообщение отредактировал monday2000 - Понедельник, 06.09.2010, 11:22

Дата: Понедельник, 06.09.2010, 11:14 | Сообщение # 53

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Что такое "ClearScan"? И какой у него принцип действия? Это что, OCR с последующей вставкой векторных шрифтов вместо распознанных растровых? Тогда это будет чревато ошибками и потребуется вычитка...

Дата: Понедельник, 06.09.2010, 12:30 | Сообщение # 54

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

Quote (m7876)

почему рунетовцы делают DjVu-книги и выкладывают их бесплатно? Нигде на Западе такое явление практически невозможно.

нерунетовцы делают pdf-книги и статьи и тоже выкладывают их бесплатно, хотя это и происходит в меньшем объёме чем у нас. Причинами такой ситуации, на мой взгляд, являются как известные проблемы законодательства (на которые мы прилично плюём, усвоив что строгость закона компенсируется его невыполнением и что если надо будет - всё равно найдут за что посадить), так и наличие за пределами России большого количества проектов, направленных как на оцифровку изданий для их бесплатного распространения (причем речь там идет не только о древностях, но и о современных изданиях, в основном образовательных или периодике) или продажи. В последнем случае проекты вроде гигапедии позволяют делиться огромным числом литературы, полученной изначально из платных источников, но также распространяемой бесплатно. У нас же, к сожалению, никаких крупных проектов по оцифровке и размещению чего-бы то ни было в инете, поддерживаемых государством или крупными компаниями, просто не существует, но взамен имеется армия пользователей со сканерами, которые понемногу что-то сканят.

Quote (monday2000)

Да это сущий кошмар - "Книгу кладем на сканер так, чтобы она была впритык к одному из углов" - это невероятно огромный труд, мучительный кошмар, и абсолютно излишний.

Quote (monday2000)

Жуть какая-то. То же самое - адский труд, абсолютно ненужный

Может, это дело привычки, но поверьте - мы не мучаемся. Обычно параллельно со сканеньем книги можно, например, посмотреть какой-нибудь фильм - оба процесса друг другу нисколько не мешают. Настройки для сканенья книги выставить один раз в начале сканирования - дело нехитрое

Quote (monday2000)

Возьмите же Scan Tailor наконец и покончите со своими мучениями.

до скантейлора, к сожалению, всё руки не доходят... Надеюсь, рано или поздно дойдут

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

Дата: Понедельник, 06.09.2010, 14:53 | Сообщение # 55

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

mhorn

Quote

нерунетовцы делают pdf-книги и статьи и тоже выкладывают их бесплатно,

Этот момент мне очень интересен (в общем плане). Что именно они делают? Сканируют книги в растровый PDF? Или же они делают векторный PDF? Я так представлял себе, что они, в основном, берут уже готовые векторные PDF-версии книг, сделанные самими издательствами (может, для продажи в электронном виде?).
Про гигапедию знаю. Но как-то не слышал я, чтобы западники именно сканировали в PDF бумажные книги (кроме совсем уж единичных случаев).

Quote

но взамен имеется армия пользователей со сканерами, которые понемногу что-то сканят.

Я думаю, что для западной психологии отсканировать и выложить книгу - это преступление - и ничего кроме этого. А для рунетовца - это нормально и даже правильно (чисто психологически). Потому что это нормальный поступок с точки зрения человека, вышедшего из советского прошлого нашей страны (а на Западе это всегда рассматривалось не более как преступление).

Quote

Может, это дело привычки, но поверьте - мы не мучаемся.

Но зато тратите неоправданно много усилий и времени на отсканирование одной книги. Это не раз на других форумах обсуждалось и вопрос уже проверенный.

Quote

до скантейлора, к сожалению, всё руки не доходят...

Вообще-то это совсем уж простая в использовании программа. Как раз с интуитивно-ясным интерфейсом. Инструкция к Scan Tailor тут http://www.djvu-soft.narod.ru/st_index.htm (чуть-чуть устарела, самую малость). Другое дело, что Scan Tailor годится только для обработки достаточно качественных сканов (не-поганого качества).

Сообщение отредактировал monday2000 - Понедельник, 06.09.2010, 14:58

Дата: Понедельник, 06.09.2010, 17:12 | Сообщение # 56

Группа: Проверенные

Сообщений: 70

Репутация: 0

Статус: Offline

Quote (monday2000)

Что такое "ClearScan"? И какой у него принцип действия?

http://acrobatusers.com/print/2215

Quote (monday2000)

Это что, OCR с последующей вставкой векторных шрифтов вместо распознанных растровых?

Да, но при этом - что принципиально - векторные шрифты генерируются на основе конкретного текста, а не подбираются из имеющегося набора:

Quote

a custom font is created to match the visual appearance of the pixels

Quote (monday2000)

Тогда это будет чревато ошибками и потребуется вычитка...

Эта функция целесообразна только для высококачественного оригинала, отсканированного с разрешением 600 dpi и, желательно, обработанного Скантейлором. Если скан с низким разрешением, или буквы в самой книге размыты или расчлененны (что встречается в старых советских изданиях), то ни о каком ClearScan не может быть и речи - такую книгу приходится вообще пдфить в grayscale и распознавать в режиме Exact.

Добавлено (06.09.2010, 16:47)
---------------------------------------------

Quote (m7876)

А вот если сделать из ClearScan PDF DjVu, то его размер -- 150 kb

Да, для книг без полутоновых иллюстраций это, наверное, перспективная идея. Но если полутона имеются, мы сталкиваемся с дежавюшной проблемой режима Photo/lossless - гигантским объемом и нераспознаваемостью.

Добавлено (06.09.2010, 17:12)
---------------------------------------------

Quote (monday2000)

Quote

нерунетовцы делают pdf-книги и статьи и тоже выкладывают их бесплатно,

Этот момент мне очень интересен (в общем плане). Что именно они делают? Сканируют книги в растровый PDF?

Да, большинство книг, изданных до 2000-х гг, выкладываются как "растровые PDF". Часть таких книг оцифровывается с коммерческой целью самими издательствами, в качестве электронного переиздания. Они попадают в сеть так же, как и издательские векторные пдфы новых книг wink

Однако основная часть отсканированных книг - это "любительские" сканы, переведенные в пдф. Здесь уже кто на что горазд: от оптимального ч/б растра 600 dpi (и полутонового 300 dpi) до извращений вроде текста в RGB. Встречаются и DJVU, тоже разного качества.

Quote

Или же они делают векторный PDF?

Самодельные векторные пдфы с заменой текста на готовые шрифты - почти ушли в прошлое (вместе с HTML-версиями книг). Недавно стали появляться ClearScan-пдфы, но среди них много не очень удачных. Например, часто клиасканят серый скан - тогда даже при безупречном тексте сохраняется грязный притормаживающий фон. Этого можно было бы избежать, прогнав такой скан через Скантейлор.

Carnivora

Сообщение отредактировал a1opex - Понедельник, 06.09.2010, 18:57

Дата: Понедельник, 06.09.2010, 17:44 | Сообщение # 57

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

Quote (monday2000)

Но как-то не слышал я, чтобы западники именно сканировали в PDF бумажные книги (кроме совсем уж единичных случаев).

как уже ответил уважаемый a1opex - сканируют. Правда, в таких книгах только иногда есть OCR, и они в меньшем количестве выкладываются в сеть напрямую, зато в большом количестве присутствуют в p2p сетях (мы знакомы с одним французом-любителем палеонтологии, который выложил в eMule около 300 архивов по 700 Мб с палеонтологической литературой, из этого числа по крайней мере треть - отсканированное им или такими же как он, все - только в pdf). Много литературы выкладывается на файлообменники, со ссылками, распространяемыми через места, где требуется регистрация - закрытые форумы или всё ту же гигапедию

Quote (monday2000)

Я думаю, что для западной психологии отсканировать и выложить книгу - это преступление - и ничего кроме этого.

нет, всё же много народу выкладывает литературу, и не похоже чтобы они себя считали преступниками. Другое дело, что иногда у выкладывающих статьи и книжки на сайты действительно бывают проблемы с правообладателями, хотя и редко (несколько таких случаев я знаю)
К нашей деятельности на jurassic.ru (в смысле оцифровки и проч.) - отношение у западных "юристов" сугубо положительное. Все, к кому мы обращались - "можно, мол, ваши статьи, что мы тут насканили, выложим?" отвечали согласием

Quote (monday2000)

скорость сканирования книги зависит лишь от скорости сканера и скорости переворачивания страниц. Сканеры у нас быстрые - почему же много времени получается? скорее мало

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

Дата: Понедельник, 06.09.2010, 18:15 | Сообщение # 58

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

mhorn

Quote

нет, всё же много народу выкладывает литературу, и не похоже чтобы они себя считали преступниками.

Понятно. Значит, просто вся эта их деятельность не слишком на виду - поэтому я и не представлял себе её масштабов.

В таком случае (раз уж и западники массово сканируют) есть шанс и их (западников) "подсадить" на DjVu - а почему бы и нет?

Хотя, если допустить, что и западники массово сканируют (пусть в PDF), то тут возникают некие странности:

- Почему же они не создали программы типа Scan Tailor (Scan Kromsator)?
- Почему они напрочь игнорируют DjVu? (достоверно известно из исследования Google-запроса "DjVu" в процентном соотношении по странам мира - тут мы лидеры, см. http://djvu.org/news/index.php?subaction=showfull&id=1198593871 ).
- У нас в Рунете общественное развитие технологий DjVu-книгосканирования, как говорится, "цветёт пышным цветом". А где аналогичные процессы в не-русскоязычном Интернете? (не только в англоязычом). Везде, куда ни посмотри - все любительские технологии книгосоздания - в подавляющем числе русскоязычного происхождения (за исключением собственно форматов DjVu и PDF).

Странные особенности - чем же их можно объяснить? Видимо, у них отношение к любительскому книгосканированию носит какой-то не слишком серьёзный характер (из-за изобилия изначально платных электронных книг, распространяемых затем бесплатно). Но может есть и иные причины?

Quote

В качестве примера могу привести аккуратное укладывание бумажной книги на стекло сканера - с тем, чтобы края страниц книги шли параллельно бокам сканера (чтобы избежать последующего Deskew). Это очень тяжкий труд, и совершенно бессмысленный.

Современные методики подразумевают, что процесс собственно сканирования носит совершенно бездумно-"обезьяний" характер - без всяких там аккуратных укладываний каждой страницы "ровно на сканер" и попадания полезного контента страницы в ограниченную область сканирования. А если книга толстая, и на стекло сканера по-любому ложится с неким изгибом-перекосом? И, как её ни укладывай ровно - она "ровно" никак не ляжет? Или отдельные страницы расклеились и при укладывании их на сканер ложатся наперекосяк?

Самое главное - зачем же делать лишнюю работу? (Даже мотивируя её доводом, дескать, "нам не тяжело"). smile

Сообщение отредактировал monday2000 - Понедельник, 06.09.2010, 18:21

Дата: Понедельник, 06.09.2010, 19:17 | Сообщение # 59

Группа: Администраторы

Сообщений: 579

Репутация: 0

Статус: Offline

Quote (monday2000)

как уже сказал mhorn, и я повторяю, что на наших сканерах книга выравнивается почти "автоматом", по корешку.
А "укладывание" делается за 1 с во время обратного хода сканера.

всё о серпулидах & белемнитах

Дата: Понедельник, 06.09.2010, 19:43 | Сообщение # 60

Группа: Проверенные

Сообщений: 70

Репутация: 0

Статус: Offline

Процесс сканирования и "допечатная" обработка важны при создании как DJVU, так и PDF. Этот вопрос не связан со спором, какой из форматов "лучше" smile

Кстати, Скантейлор очень быстро и аккуратно выравнивает страницы, отсканированные с наклоном. Раньше приходилось делать это вручную или поручать Акробату, распознавая текст в режиме Searchable Image/ 600 dpi.

Видеоинструкция от создателей Скантейлора. В качестве примера взят низкокачественный исходник (отснятый цифровиком). С нормально отсканированными страницами все намного проще.

Carnivora

Дата: Вторник, 07.09.2010, 10:27 | Сообщение # 61

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Любопытная критика формата PDF:

http://tinyurl.com/38hdkop

Цитата оттуда:

Quote

PDF, являющийся одним из лидеров, в качестве основного формата хранения книг оказывается ниже всякой критики.

Там есть битая ссылка на их статью с критикой PDF http://www.the-ebook.org/e107/content.php?article.cat.51 . По-моему, её новый адрес такой:

НЕ В СВОИ САНИ НЕ САДИСЬ (XML vs PDF)

http://www.the-ebook.org/?p=65

Вот ещё статьи по теме:

ADOBE ACROBAT. ЧАСТЬ 1.
http://www.the-ebook.org/?p=66

ADOBE ACROBAT. ЧАСТЬ 2.
http://www.the-ebook.org/?p=67

Все вместе они собраны тут:
http://www.the-ebook.org/?cat=12

Обязательно почитайте ссылки оттуда:

http://www.useit.com/alertbox/20030714.html

http://www.useit.com/alertbox/20010610.html

Сообщение отредактировал monday2000 - Вторник, 07.09.2010, 12:53

Дата: Вторник, 07.09.2010, 11:26 | Сообщение # 62

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Вот ещё одно сравнение форматов PDF и DjVu:

http://rutracker.org/forum/viewtopic.php?t=3141030

С моей точки зрения, указанные там недостатки формата DjVu страдают неточностью. Попробую прокомментировать.

Quote

# Недостатки DjVu
# Качество. При конвертировке из других форматов в DjVu надо считаться с возможной потерей качества;
# Ограниченное использование - DjVu является собственностью компании, и обладает довольно низкой базой пользователей
# Неудобный - отдельные программы или плагины должны быть установлены для создания или чтения файлов (в браузерах)
# Управляемость - документы DjVu не могут быть изменены после создания

Строго говоря, сохранение в формат DjVu далеко не обязательно предполагает потерю качества. В случае чёрно-белого текста возможен lossless-режим сохранения в DjVu. А слой переднего плана FGbz вообще всегда беспотерьно сохраняется (правда, FG44 - с вейвлетным сжатием IW44, но FG44 ИМХО редко используется, я вообще не понимаю, зачем он). Потери всегда происходят (насколько я знаю) в слое заднего фона - за счёт использования вейвлетного сжатия IW44.

Quote

DjVu является собственностью компании

Это правильное утверждение. Конкретно это выливается в тот факт, что право устанавливать спецификацию формата DjVu принадлежит компании-владельцу прав на формат DjVu, а право устанавливать спецификацию формата PDF доступно международной организации по стандартам ISO. Это крупнейший минус DjVu, увы, и довольно серьёзный. Вопрос уже поднимался не раз. Отсюда (наверное) проистекает такое следствие, что файлы DjVu не индексируются поисковиками (наиболее важно - Google'ом) - а PDF - индексируются.

Quote

Неудобный - отдельные программы или плагины должны быть установлены для создания или чтения файлов (в браузерах).

Какой-то странный "недостаток". surprised

Всё то же самое полностью применимо к PDF.

Quote

Управляемость - документы DjVu не могут быть изменены после создания

А это добросовестное заблуждение. smile

Файлы формата DjVu можно редактировать ровно в той же степени, что и файлы формата PDF. Просто такого софта пока ещё нет (практически нет) - который бы редактировал готовые DjVu-файлы - отсюда и такое заблуждение. Исключение составляет (на сегодняшний день) программа djvumake и основанная на ней DjVu Imager (позволяющая менять любой из 3 слоёв DjVu-файла). Но также можно сделать программу, которая будет редактировать маску (скажем, убирая отдельные буквы оттуда), перекодировать задний фон или передний план. Кроме того, уже сейчас доступно т.н. мета-редактирование DjVu-файла - это вставка аннотаций, дерева-оглавления, метаданных, OCR-слоя, опций отображения файла в просмотрщике.

Quote

Преимущества PDF

Популярность - PDF является самым популярным форматом документов для совместного использования и хранения, а также имеет широкий спектр программных решений (бесплатных и коммерческих)

Безопасность - Он имеет лучшие параметры безопасности для сохранения документа в охране от несанкционированного доступа

Стандартизация - PDF имеет ISO стандарт хранения и обмена документами формата (PDF / A)

Fidelity - алгоритм преобразования PDF предлагает оптимальное соотношение качества к размеру, так как он значительно сжимает данные (особенно текст), но без потери качества. Вот поэтому, все производители программного обеспечения и используют хранение своей справочной информации именно в этом формате, который, кроме того, позволяет качественно распечатывать своё содержимое в полиграфии.

Интерактивность - PDF также предлагает поддержку звука, интерактивные формы и JavaScript программ

Рассмотрим подробнее:

Quote

имеет широкий спектр программных решений (бесплатных и коммерческих)

Тут не всё так просто. На удивление, в основном это коммерческие средства. Свободно-бесплатных программ по работе с PDF (да ещё и достаточно удобных) с моей точки зрения удручающе мало. В области DjVu всё с точностью до наоборот.

Quote

Увы, к сожалению, это уже не так. Из-за появления SecureDjVu. Подробнее см. http://www.djvu-soft.narod.ru/scan/secure_djvu.htm .

Quote

Ну, уж в этом-то отношении (оптимальное соотношение качества к размеру) в нише растровых документов (не векторных) DjVu бьёт PDF наголово. smile

Вот ещё было заблуждение якобы "DjVu портит картинки" - однако, как выяснилось, и это не так. DjVu умеет не портить картинки, а портит лишь в силу недостаточного качества некоторых текущих DjVu-программ (не полностью реализующих потенциал формата DjVu - например, documenttodjvu) - отсюда и такое заблуждение.

Quote

который, кроме того, позволяет качественно распечатывать своё содержимое в полиграфии.

Здесь речь идёт о векторной ипостаси PDF (кстати, критикуемой постом выше) - начисто отсутствующей в DjVu. Но и DjVu-документы, полученные из векторных документов, выглядят достаточно прилично. См. пример Cпецификация DjVu http://djvu.org/docs/DjVu3Spec.djvu (456 КБ).

Quote

Интерактивность - PDF также предлагает поддержку звука, интерактивные формы и JavaScript программ

Как ни странно, но формат DjVu в принципе и это допускает! cool

Спецификация формата DjVu допускает применение внутри DjVu-файла произвольных чанков (т.е. компонентов). При этом любой стандартный парсер DjVu обязан просто игнорировать неизвестные чанки (с неизвестным идентификатором). Так что формат DjVu можно как угодно расширить - на пользовательском уровне. Например, вставить MP3-звук в DjVu-файл (но должен быть и специальный просмотрщик DjVu с поддержкой таких расширений).

Сообщение отредактировал monday2000 - Вторник, 07.09.2010, 12:16

Дата: Вторник, 07.09.2010, 12:08 | Сообщение # 63

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Из реальных объективных крупных недостатков DjVu я бы указал следующие:

- Не-стандартизованность формата DjVu комитетом ISO (в отличие от PDF).
- Отсутствие программной DjVu-библиотеки с бесплатной коммерческой лицензией на чтение формата DjVu. Есть либо бесплатная (лицензия), но с открытыми исходниками под GPL (что в коммерческой программе не применишь), либо целиком платный DjVu SDK (и весьма дорогой). Нередко в таких случаях платная лицензия идёт только на запись - а на чтение - бесплатна. Вроде бы ранее был бесплатный DjVu Decode SDK (он есть на моём сайте), но потом он исчез, и сейчас им пользоваться легально нельзя (без разрешения фирмы). Хотя, кто знает - а может, это не так уж и плохо - это затрудняет дельцам задачу наживиться на DjVu (успешно решаемую в случае PDF biggrin ).

Сообщение отредактировал monday2000 - Вторник, 07.09.2010, 12:09

Дата: Вторник, 07.09.2010, 13:01 | Сообщение # 64

Группа: Проверенные

Сообщений: 70

Репутация: 0

Статус: Offline

Quote (monday2000)

Вы не могли бы подсказать, с помощью какой программы и как можно сделать DJVU страниц, содержащих полутоновые иллюстрации и текст так, чтобы сохранялось (или почти не снижалось) качество иллюстраций и при этом:
1) объем файла был существенно меньше объема исходных TIFов;
2) текст на таких страницах мог бы быть распознан.

Я пользовался только Document Express Editor и нашел единственный способ сохранять качество полутоновых иллюстраций - использование режима Photo/lossless. Однако файл получается гигантский и текст в нем не распознается.

Буду очень признателен за совет.

Carnivora

Дата: Вторник, 07.09.2010, 13:32 | Сообщение # 65

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

ещё вопрос про DJVU: а как там с возможностью вставлять закладки, комментарии, выделять текст и проч. в бесплатных версиях?
с pdf это запросто делается бесплатным FoxitReader'ом

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

Дата: Вторник, 07.09.2010, 14:59 | Сообщение # 66

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Quote (a1opex)

Специально для этой задачи существует т.н. "Метод разделённых сканов".
На сегодняшний день это достаточно хорошо отработанная методика. Просто ей всего года 2 от роду - так что не все о ней ещё знают.

Суть технологии в том, что автоматическая DjVu-сегментация на этапе DjVu-кодирования (как в Document Express Editor и Document Express Enterprise), которая и "портит картинки", подменяется предварительной (до DjVu-кодирования) ручной сегментацией (полностью исключающей явление "порчи картинок" - при последующем DjVu-кодировании без сегментации).

Начинать следует с прочтения статьи http://www.djvu-soft.narod.ru/scan/djvu_imager.htm .
Затем прочитайте это: http://tinyurl.com/ycvm85z

Последовательность используемых программ:

1. ScanKromsator (или Scan Tailor, что гораздо лучше, т.к. там есть авто-распознаваемые зоны картинок).
2. Если в п.1 был Scan Tailor, то тогда см. http://tinyurl.com/ycvm85z
3. DjVu Imager http://www.djvu-soft.narod.ru/scan/djvu_imager.htm .

Технология принципиально крайне проста (как пареная репа), но в силу некоторых разногласий между мною и авторами ScanKromsator или Scan Tailor "Метод разделённых сканов" пока, увы, содержит излишние ступени в обработке (в случае использования Scan Tailor).

Так что в плане софта, реализующего на практике "Метод разделённых сканов" ещё пока наблюдается некоторая "каша" (в будущем эта проблема будет решаться) - однако сам по себе метод прост, надёжен и замечателен. Немного терпения - и любой желающий его освоит без проблем.

Quote (mhorn)

ещё вопрос про DJVU: а как там с возможностью вставлять закладки, комментарии, выделять текст и проч. в бесплатных версиях?

Увы, пока никак. Пока для этой цели следует использовать коммерческую программу Document Express Editor v6.0.1 Build 1320 LE http://www.djvu-soft.narod.ru/soft/basic.htm . Аналогичную бесплатную программу ещё нужно будет делать в будущем. Трудность создания такой бесплатной программы - чисто программистская, с точки зрения работы с DjVu проблем нет никаких. Если нужно именно бесплатно, то пока нужно использовать консольную утилиту из DjVuLibre http://djvu.sourceforge.net/doc/man/djvused.html (но в командной строке неудобно работать, удобнее в визуальном режиме в Document Express Editor).

Всё, что умеет делать Document Express Editor, умеет делать и http://djvu.sourceforge.net/doc/man/djvused.html .

Сообщение отредактировал monday2000 - Вторник, 07.09.2010, 15:50

Дата: Вторник, 07.09.2010, 16:08 | Сообщение # 67

Группа: Проверенные

Сообщений: 70

Репутация: 0

Статус: Offline

Quote (monday2000)

Специально для этой задачи существует т.н. "Метод разделённых сканов"

Большое спасибо за ссылки. Не уверен, что я смогу найти время на такие танцы с бубнами... Мне теперь понятно, почему в книгах DJVU страницы с полутоновыми иллюстрациями либо не распознаны, либо иллюстрации испорчены или тупо переведены в ч/б модель.

Мне кажется, что до тех пор, пока качественная оцифровка таких страниц в DJVU-программах не станет столь же легкой, как в Акробате, этот формат не может быть конкурентом PDF в области серьезного использования (документы, научные публикации, etc).

И еще раз спасибо за информацию, практически из первых рук, насколько я понял.

Carnivora

Сообщение отредактировал a1opex - Вторник, 07.09.2010, 16:14

Дата: Вторник, 07.09.2010, 17:32 | Сообщение # 68

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Quote (a1opex)

Не уверен, что я смогу найти время на такие танцы с бубнами...

Да, уж так, увы, получилось, что по вине автора программы Scan Tailor метод разделённых сканов пока кажется громоздким в применении (требуя использование одной лишней программы, функционал которой следовало бы включить в Scan Tailor). Но всё-таки я в ближайшее время напишу статью, где разжую по шагам применение метода разделённых сканов для Scan Tailor. И тогда метод разделённых сканов покажется Вам гораздо проще, чем сейчас.

Quote

Но, как мне кажется, мы уже все разобрались в этом топике, что:

1. для случая растровых электронных книг создание PDF ничуть не проще, чем создание DjVu - поскольку самая главная сложность - это как раз подготовка сырых сканов под кодирование (то ли в DjVu, то ли в PDF) - в случае использования Scan Tailor или ScanKromsator. Ведь так?

2. А эти Ваши (и не только Ваши) ранее описанные в этом топике ухищрения во время сканирования (типа класть книгу на стекло сканера без перекоса, подбирать порог бинаризаци вручную до сканирования) с моей (да и не только моей) точки зрения гораздо более сложны, чем сканобработка в Scan Tailor или ScanKromsator.

Получается, вся проблема в том, что участники данного форума не используют Scan Tailor или ScanKromsator для подготовки сканов под кодирование в PDF, а вместо этого подменяют работу 2-х этих программ ручным трудом - ещё и утверждая при этом, что данный ручной труд предпочтительнее автоматизированной работы (в Scan Tailor или ScanKromsator).

Так что на самом деле проблема вовсе не в том, что труднее сделать - PDF или DjVu. Проблема формулируется так: "использовать или не использовать программы сканобработки" для подготовки сканов под кодирование в PDF (или DjVu - без разницы).

С таким же успехом можно по методике участников данного форума "сканировать с ухищрениями" (чтобы избежать нужды в последующей программной сканобработке) и полученные сканы кодировать в DjVu - а не в PDF. Принципиальной разницы не будет почти никакой (разве что "порча картинок", но и её можно избежать, сделав самодельный DjVu-кодировщик с ручной сегментацией).

Quote

практически из первых рук, насколько я понял.

Я действительно стараюсь отслеживать все значимые DjVu-технологии (по мере своих сил).

Сообщение отредактировал monday2000 - Вторник, 07.09.2010, 17:44

Дата: Вторник, 07.09.2010, 17:58 | Сообщение # 69

Группа: Проверенные

Сообщений: 70

Репутация: 0

Статус: Offline

monday2000,
Полностью с Вами согласен в том, что Scan Tailor просто необходим, если стремиться к качественной оцифровке (с Кромсатором пока не имел дела).

Буду надеяться, что когда-нибудь появится дежавю-мейкер, позволяющий двумя щелчками мыши:
1) решить проблему с полутоновыми иллюстрациями;
2) распознавать текст.

DJVU меня привлекает только малым объемом файлов - можно позволить себе роскошь иметь тысячи книг по самым разным темам. Однако "для дела" пока полноценно можно использовать только DJVU, которые:
1) не содержат полутоновых иллюстраций;
2) имеют безупречный OCR (т.е. на английском языке).

Но это, конечно, просто мое личное мнение. Для кого-то, кто еще сидит на дайл-апе, каждый килобайт может быть на вес золота...

Carnivora

Сообщение отредактировал a1opex - Вторник, 07.09.2010, 18:02

Дата: Вторник, 07.09.2010, 18:25 | Сообщение # 70

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Quote (a1opex)

с Кромсатором пока не имел дела

Это крайне неудобная в использовании программа. Scan Tailor гораздо проще. Но Scan Tailor не умеет обрабатывать сырые сканы низкого качества (а ScanKromsator - умеет).

Quote

Буду надеяться, что когда-нибудь появится дежавю-мейкер, позволяющий двумя щелчками мыши:
1) решить проблему с полутоновыми иллюстрациями;

Это проблема вовсе не проблема DjVu-кодировщика, а проблема качества сканобрабатывающей программы (типа Scan Tailor). Это задача сканобрабатывающей программы - с наибольшим для пользователя удобством создать т.н. "разделённые сканы" (т.е. вручную сегментированную заготовку под DjVu-кодирование).

Уже имея готовый набор разделённых сканов, кодирование их в DjVu даже сегодня не представляет большой трудности (оно 2-х ступенчатое по схеме изложенной в http://www.djvu-soft.narod.ru/scan/djvu_imager.htm ). Можно, в принципе, сделать для этих целей даже и 1-ступенчатую схему DjVu-кодирования (об этом меня давно просит 57an).

Но самое-то муторное - это как раз подготовка готового набора разделённых сканов (в Scan Tailor + ST Split http://www.djvu-scan.ru/forum/index.php?topic=47.0 ). По сравнению с этим сложность 2-х ступенчатого DjVu-кодирования - это так, милый пустячок. smile Почему я сделал 2-х ступенчатое кодирование для метода разделённых сканов, а не 1-ступенчатое? Да потому что так гораздо гибче. В общем, прочитайте хотя бы http://www.djvu-soft.narod.ru/scan/djvu_imager.htm (даже чисто из интереса) - и поймёте, в чём суть.

Quote

2) распознавать текст.

Как я уже говорил, для решения этой проблемы я уже делаю потихоньку попытки уломать ABBYY включить в следующий Файнридер функционал OCR-ения стороннего DjVu, загруженного в Файнридер http://finereader.abbyy.ru/forum/actualthread.aspx?tid=1011 (а ABBYY ещё хочет чего-то больше этого, но чего именно, мне не говорят).

Сообщение отредактировал monday2000 - Вторник, 07.09.2010, 18:26

Дата: Вторник, 07.09.2010, 18:30 | Сообщение # 71

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Прошу мне подсказать:

Есть ли некая свободно-бесплатная программа под Windows - не под Java, не под .NET - чтобы более-менее с удобством вставлять/редактировать в PDF дерево-оглавление? Просто люди интересуются порой.

Бесплатный Foxit Reader, как я понимаю, для этого не годится. Как тут сказано http://ru.wikipedia.org/wiki/Foxit_Reader , у него бывают проблемы с русским (крякозябры), и

Quote

Бесплатная версия позволяет также вносить изменения в документ, но при сохранении включает в него рекламную информацию.

- наверное, и в букмарки вставляется такая рекламная информация?

Дата: Вторник, 07.09.2010, 18:35 | Сообщение # 72

Группа: Проверенные

Сообщений: 70

Репутация: 0

Статус: Offline

Quote (monday2000)

я уже делаю потихоньку попытки уломать ABBYY включить в следующий Файнридер функционал OCR-ения стороннего DjVu, загруженного в Файнридер

А, так это был Ваш пост, я уже читал его. Было бы здорово, если бы ABBYY-шники прислушались.

Спасибо за информацию и удачи в развитии дежавю!

Carnivora

Сообщение отредактировал a1opex - Среда, 08.09.2010, 14:23

Дата: Вторник, 07.09.2010, 21:53 | Сообщение # 73

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

Quote (monday2000)

Любопытная критика формата PDF:
http://tinyurl.com/38hdkop

Quote (monday2000)

НЕ В СВОИ САНИ НЕ САДИСЬ (XML vs PDF)

тут мы всё же обсуждаем научную литературу, для неё html, xml и проч. - это скорее исключение, поскольку читать так оно, может, и проще, а вот по-человечески сослаться - уже никак
то есть всё упирается в тот спор, с которого всё началось: "pdf или djvu"
мне это несколько напоминает известные забавы остро- и тупоконечников, хотя плюсы от данного обсуждения, конечно, есть - оставаясь при своём мнении, мы начинаем лучше понимать что и как с pdf и djvu

Quote (monday2000)

почему же? Foxit вполне годится, сейчас проверил. И с русским языком там ОК

Quote (a1opex)

на мой взгляд, сложность изготовления djvu с OCR слоем по сравнению с pdf c OCR слоем (в последнем случае нужен только FR, и операция делается одним щелчком мыши) является критической, поскольку именно возможность поиска по содержимому - крупнейший плюс электронных книг (впрочем, про это я, кажется, уже упоминал)

поэкспериментировал со ScanTailor'ом, взяв для обработки стрёмно отфотканную книгу
понравилось! monday2000 - спасибо за неоднократные попытки сагитировать на использование этой программы!!!
a1opex - спасибо на ссылку на видеообучалку!

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

Дата: Вторник, 07.09.2010, 22:04 | Сообщение # 74

Группа: Администраторы

Сообщений: 579

Репутация: 0

Статус: Offline

Quote (monday2000)

Получается, вся проблема в том, что участники данного форума не используют Scan Tailor или ScanKromsator

у нас - нет проблем smile

скантейлор попробуем. Но кодировать в джвю лично я пока не собираюсь - прежде всего из-за нераспространенности формата за рубежом.

Quote (mhorn)

является критической, поскольку именно возможность поиска по содержимому - крупнейший плюс электронных книг (впрочем, про это я, кажется, уже упоминал)

согласен на 100%. Небо и земля. Книга без поиска по содержимому - всего лишь копия бумажной версии, с поиском - мощная база данных для научной работы.

всё о серпулидах & белемнитах

Дата: Среда, 08.09.2010, 13:47 | Сообщение # 75

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Foxit Reader, начиная с версии 4.0, стал бесплатным (т.е. freeware вместо shareware) http://www.foxitsoftware.com/announcements/20106295647.html

Дата: Среда, 08.09.2010, 15:01 | Сообщение # 76

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Критика многослойных PDF от автора ScanKromsator:

http://natahaus.info/forums/showpost.php?p=46226&postcount=5

Дата: Среда, 08.09.2010, 16:42 | Сообщение # 77

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Подскажите, какие существуют варианты, чтобы сделать OCR в растровом PDF?

Мне известны Adobe Acrobat Professional и ABBYY Finereader (последний не сохраняет, увы, входящий PDF).

А ещё есть какие-нибудь варианты?

Интересуют также программные PDF-библиотеки с возможностью вставки полученного на стороне OCR-слоя (в виде XML или hOCR) в растровый PDF.

m7876

Дата: Среда, 08.09.2010, 20:47 | Сообщение # 78

Группа: Проверенные

Сообщений: 32

Репутация: 0

Статус: Offline

Попробовал ClearScan на вполне приличном материале -- пропали целые строчки текста. Будьте осторожны!

Дата: Среда, 08.09.2010, 20:52 | Сообщение # 79

Группа: Проверенные

Сообщений: 70

Репутация: 0

Статус: Offline

Quote (m7876)

Попробовал ClearScan на вполне приличном материале -- пропали целые строчки текста.

Можно взглянуть на исходник и результат?

P.S. Кстати, обнаружил в Вашей "Флоре и фауне" настоящий дежавю-шедевр - книгу о кошачьих. И полутона, и OCR - все просто идеально. Ваша работа?

Carnivora

Сообщение отредактировал a1opex - Четверг, 09.09.2010, 02:07

Дата: Среда, 08.09.2010, 21:15 | Сообщение # 80

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

Quote (monday2000)

ABBYY Finereader (последний не сохраняет, увы, входящий PDF).

в каком смысле не сохраняет? внешне полученный файл при желании будет выглядеть ровно также как исходный, только с добавленным OCR-слоем

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

m7876

Дата: Четверг, 09.09.2010, 07:39 | Сообщение # 81

Группа: Проверенные

Сообщений: 32

Репутация: 0

Статус: Offline

Quote (a1opex)

Можно взглянуть на исходник и результат?

Это была книжка Очева, проскакивавшая на палеофоруме. А файлы я уже стер.

Quote

Это Bolega -- автор СканКромсатора. Книжка взята отсюда http://publ.lib.ru/cgi/forum/YaBB.pl?num=1159386761/1979#1979
Может быть, спрОсите его там на форуме, как он делал? Я думаю, что это не метод разделенных сканов, это скорее всего просто очень хорошо подобранные настройки DjVu кодера.

Дата: Четверг, 09.09.2010, 10:34 | Сообщение # 82

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Quote (m7876)

Это Bolega -- автор СканКромсатора.

Может быть, это и не сам bolega делал. Там в книге есть штампик:
http://i078.radikal.ru/1009/6f/a55a964d66a5.jpg
Что-то я сомневаюсь, что сам bolega стал бы такие штампики делать. smile

Quote (m7876)

Я думаю, что это не метод разделенных сканов, это скорее всего просто очень хорошо подобранные настройки DjVu кодера.

Да, это действительно не метод разделенных сканов. Это видно, если в WinDjView посмотреть на любую большую картинку в режиме Вид - Режим - Передний план. На стр. 5 можно будет увидеть мельчайшие цветные клочки, попавшие в передний план - результат автоматической сегментации. Но и метод разделённых сканов тут вполне применим - автоматической сегментация тут явно избыточна, она нужна только для текста поверх картинки.

Quote (mhorn)

Но всё же это уже не будет именно исходный PDF - а вновь сгенерированный. А вот с DjVu проще - там именно в исходный DjVu вставляется OCR-слой.

Кстати, вот вспомнил ещё одно преимущество DjVu перед PDF: у DjVu открываются и просматриваются даже недокаченные файлы. Я вот сейчас скачал только начало книги про кошек - и уже смог просмотреть первые её страницы. А у PDF по спецификации заголовок находится в самом конце файла - так что, чтобы просмотреть PDF, его нужно непременно весь скачать целиком. DjVu, кстати, вообще специально "оптимизирован для Web" изначально (там есть ещё "постраничный просмотр" с индексом-затравкой - т.н. "indirect" режим и прогрессивная загрузка - изображение "проявляется"-обрастает деталями - по мере загрузки, а ещё при просмотре DjVu-страницы в память загружается только сам просматриваемый кусок на экране - а не вся страница целиком - это особенность вейвлетного сжатия, что резко экономит память).

Сообщение отредактировал monday2000 - Четверг, 09.09.2010, 10:43

Дата: Четверг, 09.09.2010, 12:53 | Сообщение # 83

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

Quote (monday2000)

Но всё же это уже не будет именно исходный PDF - а вновь сгенерированный.

а какая разница, если выглядеть будет так же?

Quote (monday2000)

Кстати, вот вспомнил ещё одно преимущество DjVu перед PDF: у DjVu открываются и просматриваются даже недокаченные файлы.

как и малый размер - это плюс, критичный при низкой скорости инета или высокой стоимости трафика

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

Дата: Четверг, 09.09.2010, 17:35 | Сообщение # 84

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Quote (mhorn)

а какая разница, если выглядеть будет так же?

Ну это менее красивое решение. Мало ли зачем захочется сохранить именно входящий PDF-файл. К тому же - нет никаких гарантий, что выходной PDF всегда и во всех случаях будет визуально-идентичным.

Хотя, с другой стороны, раз в PDF нет специального OCR-слоя (а OCR-слой моделируется наложением прозрачного текста на картинку), то, получается, нет никаких гарантий, что в любой PDF можно вставить OCR-слой! smile Так что, может быть, подход ABBYY (с перегенерацией PDF при OCR) даже и самый мудрый.

Кстати - вот он, ещё один минус PDF: отсутствие специального OCR-слоя (отсюда и высокая сложность работы с ним). А в DjVu он есть - то есть специальный OCR-слой (в виде информации в простом текстовом формате). И с ним крайне легко как угодно программно манипулировать - извлекать, вставлять, редактировать, и т.д.

Сообщение отредактировал monday2000 - Четверг, 09.09.2010, 17:37

Дата: Четверг, 09.09.2010, 17:51 | Сообщение # 85

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Несколько слов о методе разделённых сканов.

Он отличается от обычного DjVu-кодирования лишь тем, что при обычном DjVu-кодировании сегментация делается автоматически (а в методе разделённых сканов - вручную). Вот и всё, вот и вся разница. Но, как известно, никакая автоматика пока не в силах переплюнуть ручную работу.

Так что явление "порчи картинок" в DjVu лежит как раз на совести несовершенства автоматической сегментации - которая заметно лажает на картинках (потому-то ручная сегментация в методе разделённых сканов полностью решает проблему "порчи картинок" в DjVu).

А в PDF в принципе сегментация не существует (по крайней мере, в обычных PDF-кодировщиках). Так что, будь в PDF тоже автоматическая сегментация - и там были бы точно такие же косяки (скорее всего).

m7876

Дата: Пятница, 10.09.2010, 03:11 | Сообщение # 86

Группа: Проверенные

Сообщений: 32

Репутация: 0

Статус: Offline

Утилиты создания PDF по умолчанию не применяют высокую компрессию, а утилиты создания DjVu применяют. Вот и вся разница.
А если потом попытаться "уменьшить размер PDF", то достигнуть этого можно в основном за счет увеличения JPEG-компреcсии или применения JPEG2000, что приводит к результату, аналогичному или даже еще худшему, чем "испорченные картинки" в DjVu.
Мне кажется, что если создать DjVu-кодер, который будет все черно-белые файлы сжимать как JB2, а все остальные -- как DjVu Photo (скажем, с качеством 80-95%), то это будет идеальным решением. Такой файл не будет "испорчен", и потом любители всегда смогут его улучшить, применив к фотостраницам нужную сегментацию.

Сообщение отредактировал m7876 - Пятница, 10.09.2010, 03:15

Дата: Пятница, 10.09.2010, 10:39 | Сообщение # 87

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Quote (m7876)

то это будет идеальным решением

За этим ИМХО будущее. Я так думаю, что со временем ручная сегментация вытеснит автоматическую. При этом ручная сегментация наполовину автоматизируется и станет т.ск. "полуавтоматической".

Т.е. пользователь, обрабатывая сырые сканы, будет этап за этапом готовить макет будущего DjVu, состоящий из 3-х слоёв (макет из 3 слоёв). Видимо, это будет такая специальная программа сканобработки, где это будет делаться. При этом пользователь будет интерактивно разбивать (вручную сегментировать) каждый исходный скан на 3 слоя - выбирая для этого наиболее подходящий алгоритм автосегментации (из набора алгоритмов программы), и отслеживая результат (заодно вручную его корректируя при необходимости).

Полученный готовый макет будущего DjVu (где каждый исходный скан разбит на 3 слоя - то ли в виде картинок, то ли ещё как-то) будет просто собираться в DjVu по методу разделённых сканов (и, наверное, в рамках некоего единого специализированного DjVu-кодировщика - а сейчас для этого используется связка DjVu Small + DjVu Imager). В настоящее время всё это делается автоматически - т.е. путём полностью автоматической сегментации (Document Express Professional и Document Express Enterprise) - но это чревато косяками (например, "порча картинок").

Кстати, Метод разделённых сканов в настоящее время пока никак не учитывает DjVu-слой переднего плана - а только маску и задний фон. Это потому, что ещё не дошли руки до этого. Пока что передний план можно создать в уже готовом DjVu моей программой DjVu Pal v1.1 http://www.djvu-soft.narod.ru/soft/djvu_pal_v1_1.rar (472 КБ) (она позволяет раскрасить выборочно буквы в чёрно-белой маске уже готового DjVu-файла любыми желаемыми цветами - получив, например, в итоге блок цветного текста на DjVu-странице).

Сообщение отредактировал monday2000 - Пятница, 10.09.2010, 10:42

Дата: Пятница, 10.09.2010, 12:57 | Сообщение # 88

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Когда сравнивают PDF и DjVu, то нередко говорят: "а размер - это уже не актуально, ну и что, что PDF больше".

Я думаю, что всегда "размер имеет значение". smile Даже как-то странно это обсуждать. Размер - это всегда был, есть и будет показатель эффективности (использования электронных библиотек), который можно выразить в МБ/книгу.

Другое дело, что с введением JBIG2/JPEG2000 размеры PDF стали приближаться к размерам DjVu - об этом я не раз слышал (так ли это на самом деле, точно не знаю). Но у DjVu всё равно останутся другие преимущества перед PDF (естественно, в нише растровых документов) - скорость, простота, Web-ориентированность, экономичность по потреблению памяти.

Дата: Пятница, 10.09.2010, 13:33 | Сообщение # 89

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

Quote (monday2000)

Я думаю, что всегда "размер имеет значение".

имеет, но сложность изготовления OCR-версий djvu (и, как следствие, почти их полное отсутствие в сети - имеющиеся распознанные djvu составляют очень небольшой процент их общего числа, а те что есть - нередко распознаны встроенной в Document express кривой распознавалкой) по сравнению с простотой изготовления таких pdf-ов и, в случае нашего сайта, практически полная неизвестность djvu среди зарубежных коллег в настоящее время определяют политику сайта: если нам присылаю djvu, то мы их размещаем, но сами предпочитаем иметь дело с пдфами

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

Дата: Суббота, 11.09.2010, 02:08 | Сообщение # 90

Группа: Администраторы

Сообщений: 579

Репутация: 0

Статус: Offline

Честно говоря, я не понимаю, какую цель имеет продолжение спора о преимуществах того или иного формата.
monday2000, В чем конкретно вы нас пытаетесь убедить - перейти на DJVU? smile

Я не отрицаю определенных преимуществ DJVU, одно время даже сканировал только в него.
К сожалению, пока не найдется кто-то, кто готов вложить в развитие и раскрутку этого формата миллионы и миллиарды долларов, все аргументы в пользу DJVU так и будут иметь стандартный вид "несложно сделать" и "в скором времени" - это несерьезно.

И простые пользователи будут использовать более громоздкий формат, который им предлагает компания, которая в свой продукт эти миллионы вкладывает, как и в его раскрутку.

А мы работаем - для удобства пользователей, а не за абстрактную идею совершенства формата. smile

Прелюбопытнейшая статья, почитайте:
http://web.rambler.ru/post/webisdead/
В общем, никакого оптимизма по поводу того, что через десяток лет все станут пользоваться исключительно Freeware-контентом и программами, сверстанными программистами-одиночками, лично у меня нет.

всё о серпулидах & белемнитах

Дата: Воскресенье, 12.09.2010, 14:06 | Сообщение # 91

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Quote (AlexIpp)

monday2000, В чем конкретно вы нас пытаетесь убедить - перейти на DJVU?

Ну, не совсем. smile

Я хотел бы обсудить правильность тех или иных доводов сравнения PDF и DjVu с людьми, разбирающимися в PDF.

Quote

все аргументы в пользу DJVU так и будут иметь стандартный вид "несложно сделать" и "в скором времени" - это несерьезно.

Боюсь, что проблема глубже. Скорее всего, на Западе просто никому особо не нужна та функциональность, которую предлагает формат DjVu. Не надо им там массово сканировать бумажные книги. А вот формат PDF на Западе как раз нужен - но только в своей векторной ипостаси - для обмена офисными документами (т.е. векторными, не растровыми). PDF в растровой ипостаси на Западе тоже не особо нужен, видимо. Короче, у них просто нет потребности в растровых документах. И это главная причина не-популярности DjVu там.

Вот если бы Западу были нужны растровые документы - то тогда самый верный способ популяризировать там формат DjVu был бы в том, чтобы сделать и предложить им качественные и самодельные freeware DjVu-программы.

В Рунете, по счастью, всё наоборот - потребность в растровых документах как раз велика. Потому и DjVu с каждым годом в Рунете всё популярней (это я уж точно знаю happy ).

Quote

Прелюбопытнейшая статья, почитайте:
http://web.rambler.ru/post/webisdead/

Спасибо, почитаю. Но это вроде не точно по теме нашего обсуждения.

Quote

В общем, никакого оптимизма по поводу того, что через десяток лет все станут пользоваться исключительно Freeware-контентом и программами, сверстанными программистами-одиночками, лично у меня нет.

Вы затронули интересную тему. Могу сказать: у меня такой оптимизм есть. Более того - я даже нисколько не сомневаюсь, что так и будет (но только в области DjVu-книгосканирования, а не "вообще"). Казалось бы, возникает вопрос: "и кому это надо - бесплатно создавать программы, да ещё и хорошего качества"? "Сейчас же всё только за деньги".
Жизнь показала (как ни странно) ошибочность таких утверждений (вроде "Сейчас же всё только за деньги"). По крайней мере, в области DjVu-книгосканирования. Здесь бесплатно сделано уже многое:
- Отсканированы и задежавючены десятки тысяч книг (около сотни тысяч книг, как минимум, отсканировано в домашних условиях на простом сканере рунетовцами)
- Сделаны такие высококачественные программы, как WinDjView и Scan Tailor (последний плох по общему замыслу, но по качеству высок).
- Замечать существование формата DjVu потихоньку начинает ABBYY.
- Наведён полный порядок в области знаний DjVu-книгосканирования (моими усилиями). Всё чётко разложено по полочкам, имеется предельно детальное понимание "что есть" и "куда идти". То есть - нет больше никакого хаоса в понимании DjVu (а так было, когда я только начинал с DjVu - было полное разброд и шатание в вопросах DjVu).

Так что в Рунете у формата DjVu хорошие перспективы. И это гораздо важнее того, как там Запад относится к DjVu - нужен он ему или нет. DjVu нужен нам - и этого уже вполне достаточно (я, кстати, не страдаю низкопоклонством перед Западом).

Знаете, я даже думаю (на своём DjVu-опыте), что идея о том, что "Сейчас же всё только за деньги" сознательно вбивается нам в голову некими силами. Потому что на самом деле это слишком уж явно не так (что всё только за деньги).

Сообщение отредактировал monday2000 - Воскресенье, 12.09.2010, 14:11

Дата: Воскресенье, 12.09.2010, 14:37 | Сообщение # 92

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

Quote (monday2000)

PDF в растровой ипостаси на Западе тоже не особо нужен, видимо. Короче, у них просто нет потребности в растровых документах. И это главная причина не-популярности DjVu там.

почему же? количество книг, отсканированных и выложенных в инет в рамках масштабных проектов вроде Biodiversity heritage library, Национальной б-ки Франции, японского ci.nii.ac.jp или гугловского проекта (из предоставляющих бесплатный доступ), так и проектов по оцифровке, осуществляемыми издателями (sciencedirect, springer etc - тут уже за деньги), на несколько порядков больше того, что отсканировано нашими любителями
Тем не менее формат, в котором предлагаются эти публикации - pdf
Мне известны несколько крупных исключений - это Biodiversity heritage library и archive.org, где можно выбрать формат (pdf, djvu, txt и т.д.), и проект Геолкома США, где публикации выложены только в djvu. И это - всё.
Все остальные проекты по оцифровке публикаций предлагают в качестве формата только pdf
Так что потребность в оцифрованных документах велика, а число их огромно - но к расцвету djvu за рубежом это, тем не менее, не привело
Я бы предположил, что размер файлов для наших коллег из развитых стран в силу наличия у них шустрого интернета не является критичным, а вот простота работы с пдф по сравнению с djvu и его намного более широкая известность - являются

Quote (monday2000)

Замечать существование формата DjVu потихоньку начинает ABBYY.

да, в FR можно загружать для распознавания djvu-файлы, но вот сохранять в виде djvu напрямую нельзя

Quote (monday2000)

Так что в Рунете у формата DjVu хорошие перспективы

остается пожелать успеха тем энтузиастам, которые занимаются djvu

Quote (monday2000)

это гораздо важнее того, как там Запад относится к DjVu - нужен он ему или нет

я уже писал, что мы работаем не только на отечественную аудиторию. Одной из целей существования сайта с момента его существования была пропаганда отечественных исследований, в первую очередь - путем массового выкладывания их опубликованных результатов в инет.

Quote (monday2000)

DjVu с каждым годом в Рунете всё популярней

в первую очередь - из-за небольшого размера файлов, поскольку со скоростью инета у нас во многих местах дела обстоят не слишком

Quote (monday2000)

идея о том, что "Сейчас же всё только за деньги" сознательно вбивается нам в голову некими силами. Потому что на самом деле это слишком уж явно не так (что всё только за деньги)

Вы правы, но энтузиазм - весьма плохо предсказуемая категория. То он есть, то его нет...
И материальная поддержка как проектам по созданию нового софта, так и проектам по оцифровке была бы нелишней
Не случайно армия росийских сканировщиков при всём энтузиазме отсканила во столько раз меньше книг, чем поддерживаемые государством зарубежные проекты

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

Дата: Воскресенье, 12.09.2010, 15:04 | Сообщение # 93

Группа: Администраторы

Сообщений: 579

Репутация: 0

Статус: Offline

Quote (mhorn)

во-первых, 50% аудитории нашего сайта - это не Россия. Немцы, англичане, американцы и все-все-все скачивают выложенные у нас PDF-ки. Значит, все-таки растровые копии на Западе нужны.
во-вторых, российские компании медленно, но верно перенимают методы работы (в т.ч. документоооборота) западных компаний. Через десяток лет различия вообще исчезнут.

Quote (monday2000)

Quote
В общем, никакого оптимизма по поводу того, что через десяток лет все станут пользоваться исключительно Freeware-контентом и программами, сверстанными программистами-одиночками, лично у меня нет.

Вы затронули интересную тему. Могу сказать: у меня такой оптимизм есть. Более того - я даже нисколько не сомневаюсь, что так и будет

статья, на которую я дал ссылку, как раз и показывает, что простые пользователи постепенно отходят от чистого веб-серфинга и предпочитают то, что им активно предлагают (навязывают)

Quote (monday2000)

- Замечать существование формата DjVu потихоньку начинает ABBYY.

а знаете, чем это закончится для DJVU, если Adobe заинтересуется всерьез? smile

Сценарии:
1. корпорация Adobe перекупает лицензию на оф. джвю-софт, апгрейдит его, пропагандирует, и делает программный код закрытым.
2. корпорация Adobe встраивает в свои программы алгоритмы для работы с djvu, или оптимизирует pdf настолько, что использование бесплатных djvu-программ становится неактуальным.
Программисты-одиночки на голом энтузиазме НИКОГДА не смогут вытеснить (или потеснить) с рынка коммерческую компанию, располагающую активами в миллиарды долларов.
Я работал в иностранной компании и, поверьте, видел и хорошо знаю, как крупные компании, имеющие деньги, работают с конкурентами. А еще - почему в упадке отечесвтенный производитель и когда наконец "поднимется" российская промышленность. Никогда - при сохранении открытости экономики для иностранного капитала и равных условиях для всех участников рынка. Без шансов.

Quote (monday2000)

я кстати, тоже. smile
И при этом, заметьте, не противопоставляю Россию и Запад. Это очень древняя выдумка наших политиканов, а точнее, политиков от духовенства, которая муссируется на протяжении всей российской истории.
Засрали идеей самобытности и уникальности России, а также подспудной мыслью о том, что мы "особенный народ", мозги всем, кому только можно было.

всё о серпулидах & белемнитах

Дата: Понедельник, 13.09.2010, 10:51 | Сообщение # 94

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Quote (mhorn)

Так что потребность в оцифрованных документах велика, а число их огромно - но к расцвету djvu за рубежом это, тем не менее, не привело.

Что ж, это хорошо, что и у них велика. А то, что это не привело к расцвету DjVu - то это, конечно, лишь из-за того, что Adobe насильно проталкивает PDF на рынок - а DjVu в этом отношении не может конкурировать с PDF. Но, заметьте, Вы привели довольно специфические примеры - только онлайн-библиотеки. Это всё-таки не очень объективный показатель - решение об использовании в них PDF принималось фактически 2-3 их директорами лично.

А я имею в виду, что в обычной повседневной западной жизни DjVu (и растровый PDF) не нужны (почти). А у нас - наоборот.
Конечно, изрядная доля вины за происходящее лежит на самой фирме-владельце прав на формат DjVu. Слишком уж вяло, пассивно и нерешительно она себя ведёт. А порой и просто глупо - что отмечают многие.

Quote

Я бы предположил, что размер файлов для наших коллег из развитых стран в силу наличия у них шустрого интернета не является критичным, а вот простота работы с пдф по сравнению с djvu и его намного более широкая известность - являются

Да, это, наверное, так и есть. Только я немного с изумлением слышу о "простота работы с пдф по сравнению с djvu". На самом-то деле всё с точностью до наоборот - работать с PDF (я имею в виду программно) - очень тяжко, а с DjVu программно работать - как раз очень легко. Значит, просто велика сила инерции использования PDF - и вяло на Запад продвигается DjVu.

Quote

2. корпорация Adobe встраивает в свои программы алгоритмы для работы с djvu, или оптимизирует pdf настолько, что использование бесплатных djvu-программ становится неактуальным.

Это выглядит как наиболее вероятное (усовершенствование PDF до уровня DjVu). Вряд ли Adobe станет покупать DjVu.

Quote

Программисты-одиночки на голом энтузиазме НИКОГДА не смогут вытеснить (или потеснить) с рынка коммерческую компанию, располагающую активами в миллиарды долларов.

Мне кажется, Вы немного преувеличиваете и подменяете понятия. Программисты-одиночки не в силах конкурировать с крупными корпорациями, если они работают на коммерческой основе (и в том же секторе рынка). А вот если они работают на бесплатной основе (в том же секторе рынка) - то их продукция ВСЕГДА займёт устойчивую долю рынка. Пример - Linux. И коммерсанты совершенно бессильны этому помешать.
Но в некоторых случаях и программисты-одиночки способны процветать - если они начинают на ещё никем не занятом рынке. Потом они сами вырастают в большие корпорации. Пример - Microsoft, Google, 1C.

Quote

Я работал в иностранной компании и, поверьте, видел и хорошо знаю, как крупные компании, имеющие деньги, работают с конкурентами.

А мы не конкуренты коммерсантам в прямом смысле слова. Мы же работаем на бесплатной основе - а они на платной. Так что с коммерческой точки зрения мы неуязвимы перед ними - наши акции нельзя скупить (их нет), нас трудно засудить (мы везде и нигде), нас нельзя "перебить" более низкими ценами (у нас всё равно всё бесплатное). Так что Ваш опыт работы в иностранной компании здесь неприменим.

Если же Adobe прооптимизирует PDF настолько, что он станет не хуже DjVu (например, формат Adobe MARS) - то мне лично без разницы, я с удовольствием перейду на новый суперформат от Adobe.
Но - почему же это уже не случилось? Я вот сомневаюсь, что PDF когда-нибудь догонит DjVu по реальным достоинствам. Потому что Adobe (и сейчас, и всегда в будущем) помешают всякого рода "политические" и корпоративные соображения, не имеющие ничего общего с реальными потребностями и интересами потребителей.

Я рассуждаю просто: DjVu умрёт только тогда, когда PDF на деле (а не на словах) во всём превзойдёт DjVu. А, раз уж это никогда не случится (что наиболее вероятно), то и DjVu продолжит существование и даже продолжит популяризироваться. Ну и что, что Adobe будет гасить на продвижение PDF миллиарды - здравый смысл всё равно сильней (а по здравому смыслу DjVu объективно лучше растрового PDF по всем показателям).

Quote

Да, начиналось всё именно из-за размера. Но и сейчас я не предпочту PDF вместо DjVu. Потому что, кроме размера, у DjVu есть и иные важные достоинства. А ещё точнее будет сказать, что у растрового PDF нет ни одного принципиального весомого преимущества перед DjVu - а у DjVu таких преимуществ перед растровым PDF масса (я абстрагируюсь от качества существующих PDF и DjVu-софтов, и векторный PDF, естественно, не рассматриваю).

Не очень удобный софт по работе с DjVu - это временное и реально преодолимое препятствие. Для решения этого вопроса вполне достаточно сил 1-2 программистов-энтузиастов (и даже не нужны миллиарды долларов). Вот Вам пример: программа WinDjView. Разве она хоть в чём-то уступает по качеству коммерческим программам? Как раз наоборот - она намного превосходит по качеству официальный броузерный DjVu-плагин (от официальных коммерческих разрабочиков DjVu). Я же вижу, как с каждым годом появляются всё новые и новые самодельные и достаточно качественные DjVu-программы - так что знаю, о чём говорю. C Adobe мы не можем конкурировать - а вот наше влияние на формат DjVu уже сопоставимо на влияние на формат DjVu фирмы-владельца формата DjVu.

Другое дело, что продвинуть на рынок формат сложно - если не иметь миллиарды долларов. С этим я согласен. Рынок, видимо, берёт в использование самую разрекламированную продукцию - а не самую лучшую. Взялся бы, скажем, Microsoft двигать на рынок свой аналог PDF (даже более паскудный, чем PDF) - и они забили бы ногами PDF. smile

Quote

И при этом, заметьте, не противопоставляю Россию и Запад. Это очень древняя выдумка наших политиканов, а точнее, политиков от духовенства, которая муссируется на протяжении всей российской истории.

А я как раз противопоставляю. Запад и Россия - это 2 разные, несовместимые по духу цивилизации. У нас образ мысли разный, разная система ценностей окружающего мира. Отсюда и вековая враждебность и непонимание нас со стороны Запада. Именно поэтому западные усыновители бьют смертным боем приёмных русских детей, а русские жены в Америке в большинстве своём мечтают о разводе с американскими мужьями. Запад нас всегда ненавидел и будет ненавидеть ("просто так", просто потому, что мы есть - и при этом мы не такие, как они - хотя внешне похожи). А русской душе на Западе тошно и паскудно находиться - спросите у любого эмигранта.

Кстати - я бы сказал, что DjVu - это какой-то очень русский по духу формат. Ему следовало, конечно, родиться в СССР (просто не успел, видимо). Вот он случайно появился на свет в США, но, поскольку он оказался слишком "русский", то он там и не нашёл применения. А у нас - как раз наоборот - очень органично "пришёлся ко двору" и был воспринят "на-ура".

Да и, строго говоря - DjVu - это формат лишь формально имеет американское происхождение, реально его ключевые создатели (Леон Боту и Ян ЛеКун) - это уроженцы Франции (и наверное французы).

Сообщение отредактировал monday2000 - Понедельник, 13.09.2010, 11:10

Дата: Понедельник, 13.09.2010, 11:23 | Сообщение # 95

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

Quote (monday2000)

А я имею в виду, что в обычной повседневной западной жизни DjVu (и растровый PDF) не нужны (почти).

в повседневной жизни любого исследователя на Западе растровые пдфы просто необходимы. Другое дело, что многие не умеют нормально работать с инетом (меня поразило в Дании, как один местный аммонитчик пытался найти какую-то статью в стопке ксероксов, когда с той мегаподпиской, которая есть у его института, он бы в 10 секунд скачал бы pdf)

Quote (monday2000)

я немного с изумлением слышу о "простота работы с пдф по сравнению с djvu". На самом-то деле всё с точностью до наоборот - работать с PDF (я имею в виду программно) - очень тяжко, а с DjVu программно работать - как раз очень легко.

в программировании я ничего не понимаю, а рассуждаю как пользователь. И мне как пользователю работать с пдф намного проще

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

Дата: Понедельник, 13.09.2010, 15:38 | Сообщение # 96

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Quote (mhorn)

меня поразило в Дании, как один местный аммонитчик пытался найти какую-то статью в стопке ксероксов

А Вы уверены, что это был именно растровый PDF? Я-то как раз вижу в Интернете исключительно векторные PDF-статьи. Ну вот например:

http://www.graphicon.ru/proceedings/2009/conference/se9/121/121_Paper.pdf

(316 КБ, формат: PDF, язык: русский).

Это типичный пример научной статьи в виде векторного PDF.

Quote

И мне как пользователю работать с пдф намного проще

Только лишь потому, что Вы не используете Scan Tailor при производстве PDF. А также потому, что Вы (по всей видимости) используете PDF как векторный формат (для статей). DjVu годится только для сканирования и оцифровки книг - а для создания в электронном виде научных статей нужен именно векторный формат - то есть, векторный PDF.

А вот именно непосредственная работа с DjVu - там даже сейчас нет ничего особо сложного. Вот скажите мне - в чём для Вас лично состоит сложность работы с форматом DjVu? Желательно поконкретней.

Кодирование в DjVu - это программа DjVu Small. Простая, как пареная репа - на порядок проще, чем Adobe Acrobat Professional.

Декодирование из DjVu - та же самая программа.

Внедрение OCR в DjVu - это ABBYY FineReader 8.0 Professional Portable (т.е. пиратский). Ищется через Яндекс влёт. Плюс простейшая программа DjVu OCR (там всего пару кнопок нажать).

Метод разделённых сканов - да, пока немного мудрёно. Но вообще-то там с точки зрения создания DjVu всё тоже очень просто - в 2 движения руки, грубо говоря. Там лишь сканы в Scan Tailor мудрёно готовятся.

- Внедрение в DjVu пометок, аннотаций. Такой функционал не нужен, если Вы хотите оцифровать бумажную книгу в электронный вид. А вот если Вам нужно делать в электронном документе пометки и аннотации - то это значит, что Вам нужен (скорее всего) векторный формат - а не растровый.
Но и в DjVu можно делать пометки и аннотации - программой Document Express Professional (и там это делается визуально - т.е. просто и наглядно).

Сравнивать форматы PDF и DjVu можно только говоря об оцифровке бумажных книг - и всё. Любая иная электронизация документов может предполагать векторный документ - а не растровый. Так что Вам на самом деле нужен векторный документ - а Вы ругаете DjVu за то, что он для этого не подходит. А он в принципе для этого не создан.

Сообщение отредактировал monday2000 - Понедельник, 13.09.2010, 15:45

Дата: Понедельник, 13.09.2010, 16:47 | Сообщение # 97

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

Quote (monday2000)

А Вы уверены, что это был именно растровый PDF?

то, что продается на сайтах издательств - это преимущественно отсканенные растровые пдфы. Векторные - только те, что были опубликованы в основном после 2000го года и прямо переведены в pdf из издательских программ. А если учесть что ведущие издатели стараются предложить все выпуски того или иного журнала (пусть он издается с начала XIX века - не важно), то пока растровых пдфов в инете сильно больше. И их число только будет расти, поскольку всё идет к тому что скоро отсканят всё что моно

Quote (monday2000)

Только лишь потому, что Вы не используете Scan Tailor при производстве PDF.

нет, при использовании ScanTailor - ровно то же самое. Эта программа не имеет отношения к тому, что мы потом хотим получить (pdf, djvu или ещё что-нить), а только к обработке изображений

Quote (monday2000)

Чтобы сделать из отсканенных страниц пдф, нужна 1 программа (FineReader, у меня в одном компе 9й, в другом 10й), и одно нажатие кнопки. Всё.

Quote (monday2000)

- Внедрение в DjVu пометок, аннотаций. Такой функционал не нужен, если Вы хотите оцифровать бумажную книгу в электронный вид

в случае оцифровки это тоже бывает нужно. Приведу простой пример. Известный английский аммонитчик Сидней Бакмен между 1909 и 1930м годами выпустил несколько десятков выпусков каталога по юрским аммонитам. В сумме это почти 3 тысячи страниц, и чтобы не искать каждый раз ту пару дюжин видов, с которыми я сейчас работаю, мне, разумеется, проще сделать закладки

Quote (monday2000)

Так что Вам на самом деле нужен векторный документ - а Вы ругаете DjVu за то, что он для этого не подходит. А он в принципе для этого не создан.

нет, мне нужен растровый файл с обязательным OCR-слоем, и пдф по ряду причин представляется для этого более предпочтительным

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

Дата: Понедельник, 13.09.2010, 16:49 | Сообщение # 98

Группа: Администраторы

Сообщений: 579

Репутация: 0

Статус: Offline

Quote (monday2000)

А мы не конкуренты коммерсантам в прямом смысле слова. Мы же работаем на бесплатной основе - а они на платной.

именно конкуренты, так как прямо влияете на их доходы. Потому как пользователь, который поетнциально был готов бы заплатить за платный продукт, пользуется бесплатным. Кому это понравится?

Quote (monday2000)

Так что с коммерческой точки зрения мы неуязвимы перед ними - наши акции нельзя скупить (их нет), нас трудно засудить (мы везде и нигде), нас нельзя "перебить" более низкими ценами (у нас всё равно всё бесплатное

может, судить и не будут, но сделать DJVU стандартом для хранения растра никто не даст. И для этого будут использоваться любые средства.

Quote (monday2000)

Рынок, видимо, берёт в использование самую разрекламированную продукцию - а не самую лучшую

ну да, так и есть.

Quote (monday2000)

Запад и Россия -

не буду спорить.
Я понимаю, что такая точка зрения ("русских там ненавидят"), по кр. мере по отношению к США, имеет объективные основания - это плоды агитации среди населения в период "холодной войны". Но чем мы-то в данной ситуации лучше? Я вот лично - не понимаю. Мы что, американцев - любим???

всё о серпулидах & белемнитах

Дата: Понедельник, 13.09.2010, 17:45 | Сообщение # 99

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Quote (AlexIpp)

но сделать DJVU стандартом для хранения растра никто не даст. И для этого будут использоваться любые средства.

Наверное, Вы имеете в виду, что никто не даст сделать DjVu своего рода официальным стандартом для хранения растра (особенно на Западе). И под "любыми средствами" понимается жёсткое конкурентное противодействие со стороны Adobe.
Да, я с этим согласен. Но Adobe никак не сможет противодействовать неофициальной популяризации DjVu в Рунете - в смысле действуя только приёмами жёсткой рыночной борьбы. Точно так же, как Microsoft не в силах полностью уничтожить Linux.

Quote

Но чем мы-то в данной ситуации лучше? Я вот лично - не понимаю.

Вопрос не в том, кто лучше - мы или они. Я просто хочу сказать, что Россия никогда не станет частью Запада. В смысле, западный образ мысли у нас не приживётся никогда - мы всегда продолжим думать по-своему, а они - по-своему. И это никогда не пересечётся. Может, это тоже влияет на разность приверженности к использованию DjVu и PDF? smile

Quote (mhorn)

Но я никак не пойму - ПОЧЕМУ (более предпочтительным)? Если отбросить условно такие причины, как более удобный софт для работы с PDF и популярность PDF на Западе - останутся ли ещё хоть какие-то преимущества PDF перед DjVu (в нише растровых документов)? Объясните, пожалуйста, почему так. (смотреть то надо на сами форматы - а не софт по работе с ними).

Сообщение отредактировал monday2000 - Понедельник, 13.09.2010, 18:11