Как сканировать (3) - Юрская литература - Планы, идеи и проекты

Как сканировать

monday2000

Дата: Понедельник, 13.09.2010, 18:32 | Сообщение # 101

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Quote (mhorn)

я уже писал - мне удобнее и проще работать с пдф

А почему - не говорите.

Quote (mhorn)

эти причины тоже важны

Их важность не абсолютна. Непопулярность DjVu на Западе для Рунета не слишком критична. А удобство софта - дело наживное.

Кстати, тут кто-то задавал вопрос "покажите мне хоть одну большую DjVu онлайн-библиотеку". Вот, пожалуйста:

Library Genesis http://free-books.dontexist.com/ - 250 тыс. скан-книг. Это самый большой коллектор всех рунетовских DjVu-библиотек. Книги там, насколько я понял, содержатся в 2 основных форматах: DjVu и PDF. Из них собственно DjVu по моим личным прикидкам должно быть не менее 100 тыс.

Я тут переделал в DjVu PDF-файл из этого топика - вот этот: http://rogov.zwz.ru/Efimova,Glasunova,1960_Albian.pdf .

Вот полученный DjVu: http://www.onlinedisk.ru/file/513853/ (за минут 10 получено: ScanTailor, DjVu Small, DjvuOCR, Doc Express Editor).

Вот скажите мне, пожалуйста, mhorn, чем полученный DjVu-файл для Вас хуже в плане личного использования (качеством, удобством чтения и т.п.), чем исходный PDF-файл (если не учитывать фактор не-популярности DjVu на Западе)? На большой размер этого DjVu не смотрите - это за счёт ресемплинга с 300 до 600 dpi (по-умолчанию в Scan Tailor) раздулся размер, ресемплинг можно было и не делать. Смотреть DjVu нужно, естественно, в WinDjView.

Сообщение отредактировал monday2000 - Понедельник, 13.09.2010, 18:46

mhorn

Дата: Понедельник, 13.09.2010, 19:08 | Сообщение # 102

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

Quote (monday2000)

А почему - не говорите

как это не говорю??? потому что пдф с OCR-слоем я получаю нажатием одной кнопки в одной программе - и всё.

Quote (monday2000)

за минут 10 получено: ScanTailor, DjVu Small, DjvuOCR, Doc Express Editor

а в случае с djvu - минимум 3 программы (ScanTailor исключаем), так?

Quote (monday2000)

Их важность не абсолютна. Непопулярность DjVu на Западе для Рунета не слишком критична.

ещё раз: наша целевая аудитория находится в основном вне России (посмотрел сейчас статистику за год - российских IP только 13%)
Более того, отечественные "юристы" в основном люди не сильно молодые и про djvu не слышали вообще никогда, тогда как с pdf сталкиваются регулярно

Quote (monday2000)

Вот скажите мне, пожалуйста, mhorn, чем полученный DjVu-файл для Вас хуже в плане личного использования

например тем что его содержимое не индексируется google desktop. Это - сильно критично, поскольку когда статей и книг тысячи, поневоле не вспомнишь что где (особенно если надо, например, посмотреть что-нить про определенный вид, род и т.д.)

встречный вопрос к Вам, monday2000 : чем лучше djvu в плане личного использования? кроме размера - никаких плюсов не вижу

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

mhorn

Дата: Понедельник, 13.09.2010, 19:18 | Сообщение # 103

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

Quote (monday2000)

Library Genesis http://free-books.dontexist.com/ - 250 тыс. скан-книг. Это самый большой коллектор всех рунетовских DjVu-библиотек

спасибо за ссылку! разместим у себя.
а сколько сейчас в интернете отсканированных книг, доступных в формате пдф? минимум на порядок больше
со статьями ситуация ещё более яркая: научные статьи в виде djvu - это редчайшее исключение. А ведь для работы палеонтолога публикации в статьях, как более оперативные, нередко более важны

и ещё один момент: книги, которые в изобилии представлены в djvu в рунете это по большей части справочные и учебные издания, специализированных работ (во всяком случае по геологии и палеонтологии) там немного. То есть студент найдет в виде djvu много нужного, а вот аспирант или специалист - уже мало

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

mhorn

Дата: Понедельник, 13.09.2010, 20:39 | Сообщение # 104

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

Quote (monday2000)

Это самый большой коллектор всех рунетовских DjVu-библиоте

ещё небольшой момент - там и pdf, и djvu. Скажем, по запросу "стратиграфия" выдается 50 с лишним файлов, почти все - пдфы с нашего сайта + несколько djvu, переделанных из этих пдфов
250 тыс. - это и pdf и djvu вместе?

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

monday2000

Дата: Вторник, 14.09.2010, 09:53 | Сообщение # 105

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Quote (mhorn)

а в случае с djvu - минимум 3 программы (ScanTailor исключаем), так?

А почему Вы думаете, что 5 простейших программ (DjVu) сложнее, чем 1 навороченная (PDF - Adobe Acrobat Professional)? Мне как раз удобнее несколько простых, чем наоборот. Но, говоря о достоинствах-недостках форматов, неразумно рассматривать качество софта по работе с этими форматами. Софт - дело наживное, главное - насколько в принципе хорош или плох тот или иной формат.
А если будет надо - даже я в одиночку могу сделать "всё-в-одном" самодельный DjVu-кодировщик (ну кроме OCR). Только я сомневаюсь, что это будет проще.

Quote

Довод о не-популярности DjVu на Западе мне понятен и я с этим согласен. Давайте теперь рассматривать все прочие доводы (т.к. "наша целевая аудитория находится в основном вне России" - это чисто специфика данного форума, остальные рунетовцы в этом могут не нуждаться).

Quote

встречный вопрос к Вам, monday2000 : чем лучше djvu в плане личного использования? кроме размера - никаких плюсов не вижу

Кроме размера, имеется также множество иных плюсов. Вкратце их можно выразить так: формат DjVu - прост и гениален, и заточен именно под оцифровку бумажных книг. А формат PDF - это тупой монстр, настоящий урод (с точки зрения программиста), который изначально был создан исключительно для передачи друг другу векторных документов - а потом его стали тулить ещё и для растровых документов.
Работая с DjVu, испытаваешь восхищение, а работая с PDF - омерзение. Это если "в 2 словах" пытаться объяснить.
Достоинства DjVu: внутренняя простота устройства формата (с точки зрения программиста). Наибольшая возможная скорость рендеринга изображения (DjVu шустрее, чем PDF). Наименьшее потребление оперативной памяти. Начисто отсутствует проблема со шрифтами. DjVu легко всегда декодировать в TIF - а попробуйте-ка всегда декодировать в TIF любой PDF. Даю голову на отсечение - рано или поздно тот или иной PDF породит ошибку при декодировании. Потому что PDF невероятно заморочен внутренне. Он, грубо говоря, формат-урод (нелепое нагромождение чёрт знает чего) - в плане внутреннего устройства. В DjVu легко вставить OCR-слой самому программно - а вот как вставить OCR-слой самому программно в PDF - уму непостижимо.

И ещё DjVu изначально "заточен" под использование в Интернет. Там для этого есть такие фичи:
- Возможность просмотра первых страниц при неполной докачке
- Прогрессивная прорисовка при загрузке (как у JPEG-картинок в броузере).
- Возможность режима с выборочной загрузкой страниц (indirect), когда скачивваешь файл-индекс (несколько килобайт), а уже через него открываешь отдельные (по выбору) страницы многостраничного DjVu, лежащего на сервере.

Ну и в DjVu есть изначально послойная сегментация контента - в PDF это можно сделать - но я пока не видел ни одного такого PDF (а те, что есть, говорят, что это намного хуже DjVu реализовано). Послойная сегментация контента (называтся MRC - Mixed raster content) - это прогресс, это здорово.

Короче, DjVu - это "молодость и прогресс", а PDF - это "старческое уродство и отсталость".

Сообщение отредактировал monday2000 - Вторник, 14.09.2010, 10:13

monday2000

Дата: Вторник, 14.09.2010, 10:27 | Сообщение # 106

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Quote (mhorn)

со статьями ситуация ещё более яркая: научные статьи в виде djvu - это редчайшее исключение.

Да ну я ж Вам говорю: DjVu - не предназначен для статей. DjVu - это ТОЛЬКО для оцифровки бумажных книг. Другими словами, DjVu - это когда у нас есть только бумажный текстовый носитель информации (и никакого шанса заиметь его изначально в электронном виде, что в случае со статьями изначально не так - статью-то ПИШУТ, а значит изначально создают в электронном виде). И этот бумажный текстовый носитель информации (наиболее часто - это книга из библиотеки) нам нужно наименьшей кровью оцифровать - да ещё и так, чтобы полученная цифровая копия обладала максимальной аутентичностью с бумажным оригиналом.
А то, что изначально создают в электронном виде (статьи), имеет векторный характер - поэтому такие вещи наиболее правильно сохранять в векторный PDF.

Вот так - у DjVu только такое единственное и специфическое применение. Иных разумных сфер применения DjVu нет. Потому что что такое DjVu? DjVu - это в первую очередь сегментация (чего в PDF практически нет), а сегментация нужна как раз исключительно для сканов бумажных документов.

Quote

Значит, ещё не успели насканировать. А 5 лет назад (когда я начинал) в Рунете вообще было шаром покати - в плане сканированных книг.

Quote

250 тыс. - это и pdf и djvu вместе?

Ну, я точно не знаю, наверное. Я знаю, что в библиотеке Колхоза было точно не менее 100 тыс. именно DjVu-книг. А ещё же есть Homelab, Mexmat, Medbio, химики и инфаната. Всё это должно быть в составе Library Genesis.

Quote

а сколько сейчас в интернете отсканированных книг, доступных в формате пдф? минимум на порядок больше

Тут многое зависит от отрасли знания. По некоторым наукам я вижу скан-книги исключительно в формате DjVu. В Рунете полно небольших DjVu-библиотек (где только DjVu-книги и почти нет PDF).

Сообщение отредактировал monday2000 - Вторник, 14.09.2010, 10:32

mhorn

Дата: Вторник, 14.09.2010, 11:43 | Сообщение # 107

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

Quote (monday2000)

А формат PDF - это тупой монстр, настоящий урод (с точки зрения программиста)

с точки зрения программиста - возможно. А вот с точки зрения пользователя (а большинство людей, пользующихся екнигами - не программисты, а пользователи) с пдф работать проще. В том числе и потому, что про pdf все знают, а про djvu - нет
Далеко не все готовы осваивать новую программу, если есть хорошо знакомая программа, которая может примерно то же самое

Quote (monday2000)

В DjVu легко вставить OCR-слой самому программно - а вот как вставить OCR-слой самому программно в PDF - уму непостижимо.

для пользователя создать pdf с OCR-слоем проще и быстрее (см. выше), чем такой же djvu. Мы всё же о конечных пользователях говорим, разве нет?

Quote (monday2000)

Да ну я ж Вам говорю: DjVu - не предназначен для статей. DjVu - это ТОЛЬКО для оцифровки бумажных книг. Другими словами, DjVu - это когда у нас есть только бумажный текстовый носитель информации (и никакого шанса заиметь его изначально в электронном виде, что в случае со статьями изначально не так - статью-то ПИШУТ, а значит изначально создают в электронном виде).

Научные статьи и специализированные научные журналы появились во второй половине XVII века (а палеонтологи и прочие биологи-систематики просто обязаны знать всю литературу по своей теме вне зависимости от года публикации; любая ревизия обязательно включает и рассмотрение самых ранних описаний таксонов из интересующей группы). Конечно, те статьи, которые написаны в последнюю дюжину лет, в основном доступны в сети именно в векторной форме (но тоже не все). Но в прошлом тысячелетии научных статей было написано несоизмеримо больше, и макеты готовились не в электронной форме. Что там говорить - я свои курсовые все (т.е. с 1993 по 1996й) писал от руки, потому что ни компа ни машинки в наличии не было. И я писал именно об оцифровке огромного массива статей, вышедших до 2000го года - ВО ВСЕХ случаях, когда они доступны постатейно (а не выпусками журналов целиком, как на archive.org), они размещаются в сети (вне зависимости от того, сканировали их издатели или любители) виде pdf (или в некоторых экзотических случаях - htm и doc). Отдельные оцифрованные статьи в формате djvu - редкость необычайная и у нас, а за пределами рунета не встречающаяся вообще

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

monday2000

Дата: Вторник, 14.09.2010, 14:36 | Сообщение # 108

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Quote (mhorn)

ВО ВСЕХ случаях, когда они доступны постатейно (а не выпусками журналов целиком, как на archive.org), они размещаются в сети (вне зависимости от того, сканировали их издатели или любители) виде pdf

Если будет возможность - дайте, пожалуйста, ссылку на образец - интересно взглянуть.

Quote

для пользователя создать pdf с OCR-слоем проще и быстрее (см. выше), чем такой же djvu.

Вы имеете в виду FineReader? Да, там можно из набора TIF-сканов в рамках одной программы получить готовый PDF - да ещё и с OCR. Но потом-то всё равно полученный PDF открывается в Adobe Acrobat Professional - и дорабатывается уже там. Например, туда вставляют дерево-оглавление (букмарки, outline). Итого - получается все те же 2 программы нужны, чтобы сделать PDF.

Существует даже и программа для создания DjVu с ABBYY-OCR слоем - тоже прямо из исходных TIF. Называется "JRA Publish". Правда, никто и никогда не смог её взломать. smile

А если (и когда) ABBYY встроят функционал распознавания и внедрения OCR-слоя в DjVu в FineReader - то тогда жизнь ещё упростится. Это будет выглядеть так: где-то в сторонних программах создаём DjVu. Затем полученный DjVu открываем в FineReader и распознаём, там же в FineReader внедряем в исходный DjVu полученный OCR-слой - и всё. Трудно? Сложно? По-моему, не особо. Чуть-чуть сложней, чем создать PDF с OCR в FineReader сейчас.

Но я не знаю, как именно ABBYY доработают работу с DjVu в FineReader. Может они вообще это сделают в точности так же, как и работу с PDF. Всё будет зависеть от нас - насколько мы хорошо и убедительно попросим ABBYY. Важность формата DjVu (в принципе) ABBYY для себя уже признала.

Quote

Далеко не все готовы осваивать новую программу, если есть хорошо знакомая программа, которая может примерно то же самое

Это, конечно, понятно.

В то же время из нашего обсуждения я выношу такой вывод, что за исключением 2 факторов (не-популярность на Западе и относительное несовершенство программ по работе с форматом - кстати, во многом надуманное, на деле там уже не осталось ничего принципиально трудного) формат DjVu во всех отношениях лучше, чем растровый (не-векторный) формат PDF. Что и требовалось доказать. Если я не прав - прошу привести мне конкретные доводы против.

Несовершенство программ по работе с форматом (DjVu) - этот недостаток точно будет преодолён.
Не-популярность на Западе (формата DjVu) - этот недостаток для большинства людей, как говорится, "по-барабану". smile Однако, это тем не менее, серьёзная беда - с которой следует систематически бороться. И не сказать, чтобы мы тут вообще ничего не могли сделать. Просто пока такая цель (популяризировать DjVu на Западе) вообще никак явно не ставилась (перед рунетовцами-любителями DjVu).

Сообщение отредактировал monday2000 - Вторник, 14.09.2010, 14:40

mhorn

Дата: Вторник, 14.09.2010, 14:59 | Сообщение # 109

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

Quote (monday2000)

Если будет возможность - дайте, пожалуйста, ссылку на образец - интересно взглянуть

таких примеров - полно. Например, посмотрите pdfы из старых номеров Palaeontology: http://www.palass.org/modules.php?name=backissues (выберете любой номер до 1999го и посмотрите)
(тут статьи отсканены в основном неважно и лишены текстового слоя)

а вот тут (American Museum Novitates) - уже с OCR, и сканы хорошие, напр., выпуски за 1999 год - http://digitallibrary.amnh.org/dspace....s_with=

Quote (monday2000)

Но потом-то всё равно полученный PDF открывается в Adobe Acrobat Professional - и дорабатывается уже там. Например, туда вставляют дерево-оглавление (букмарки, outline). Итого - получается все те же 2 программы нужны, чтобы сделать PDF.

оглавления и проч. нужны не всегда, а вот OCR - всегда. И то, что почти все djvu в рунете лишены текстового слоя (а те что его имеют - частично распознаны встроенной в Document Editor кривой распознавалкой) - огромный минус для популяризации данного формата. Кстати, оглавления и закладки в акробате тоже делать проще

Quote (monday2000)

формат DjVu во всех отношениях лучше, чем растровый (не-векторный) формат PDF. Что и требовалось доказать. Если я не прав - прошу привести мне конкретные доводы против.

для конечного пользователя плюс только один - djvu занимает меньше места. Всё. Если инет быстрый, а диск большой - то это в общем-то по барабану
А минусы (не считая сложности работы с djvu для рядового пользователя) - неиндексируемость содержимого поисковиками в инете и google desktop в компе, тогда как у pdf google распознает и ищет даже файлы, лишенные ocr-слоя

Quote (monday2000)

Несовершенство программ по работе с форматом (DjVu) - этот недостаток точно будет преодолён.

будем ждать

Quote (monday2000)

Не-популярность на Западе (формата DjVu) - этот недостаток для большинства людей, как говорится, "по-барабану"

если не учитывать, что большинство людей всё-таки живёт за пределами России... )))

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

monday2000

Дата: Вторник, 14.09.2010, 16:04 | Сообщение # 110

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Quote (mhorn)

если не учитывать, что большинство людей всё-таки живёт за пределами России... )))

Ну и что, я вот лично живу в России. smile

Quote

И то, что почти все djvu в рунете лишены текстового слоя (а те что его имеют - частично распознаны встроенной в Document Editor кривой распознавалкой)

Это просто Вам, значит, не повезло. А мне вот давно уже кажется, что DjVu без ABBYY-OCR слоя - уже большая редкость. По крайней мере, в Library Genesis, думаю, это так. Для примера вот гляньте на чисто DjVu-библиотечку: http://lord-n.narod.ru/klimat.html .
Но существуют, между прочим, скрипты, которые позволяют полностью автоматически создавать и внедрять ABBYY-OCR слой в большие скопления DjVu-файлов на своём жёстком диске. То есть запустил скрипт - подождал сутки - и в тысячи DjVu-файлов автоматом создался ABBYY-OCR слой. Это как раз на Library Genesis тамими вещами любят заниматься, они на это большие мастаки. smile

Quote

неиндексируемость содержимого поисковиками в инете

Да, есть такое. Но Рунетовские DjVu-библиотеки - почти всегда на полулегальном положении. Они вообще прячутся - а не то, что поисковиками индексироваться. Это действительно проблема - и как её решать, пока неясно.

Quote

и google desktop в компе

Google Desktop как раз умеет - если установить туда DjVu-плагин (их 2 штуки на выбор).

Quote

Кстати, оглавления и закладки в акробате тоже делать проще

Для Djvu имеется целая россыпь мелких программ, автоматизирующих (упрощающих) процедуру создания закладок-оглавления. Вот хотя бы Document Express Professional.

Quote

а вот тут (American Museum Novitates) - уже с OCR, и сканы хорошие, напр., выпуски за 1999 год

Вот скачал для примера оттуда PDF-файл с OCR-слоем: http://digitallibrary.amnh.org/dspace/handle/2246/3014 (2,5 МБ). Качество вроде хорошее. Но сразу видны недостатки:
- Не было сделано Deskew. Страницы получились со слегка перекошенными линиями текста.
- При скроллировании в просмотрщике ощутимо заметное подтормаживание. Текст прокручивается этакими "волнами". Сейчас из интереса попробую переделать этот PDF в DjVu.

monday2000

Дата: Вторник, 14.09.2010, 16:42 | Сообщение # 111

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Вот, пожалуйста, переделанный DjVu (из PDF):

http://www.onlinedisk.ru/file/514369/ (452 КБ)

(Исходный PDF - http://digitallibrary.amnh.org/dspace/handle/2246/3014 (2,5 МБ) )

Инструменты: Scan Tailor, ST Split, DjVu Small, DjVu Imager, ABBYY FineReader 8.0 Portable, DjVuOCR 2.2.
Время: порядка 20 минут максимум (это я ещё сильно загнул, конечно). Причём затраченное время состоит из 2 компонент: время на ручной труд, и пассивное ожидание окончания запущенной обработки.

Можете сравнить (с исходным PDF). Сделано Deskew (в отличие от исходного PDF). Имеется ABBYY-OCR слой. Визуальное качество - на мой взгляд, неотличимо от исходного PDF. Любопытная деталь: на странице номер 5 имеется полутоновая картинка. Из-за неё я делал данный DjVu методом разделённых сканов (а так бы не нужны были ST Split и DjVu Imager) - и вот, обратите внимание: в этом DjVu нет ни малейшего намёка на "порчу картинок"! И качество полутоновой картинки на 5 странице, думаю, Вы не отличите на вид от её PDF-варианта. А ведь можно было бы немного размыть эту картинку в DjVu Imager (по желанию пользователя) - и тогда размер итогового DjVu ещё резко упал бы.

А зато скроллирование какое - ни малейшего торможения (при прокручивании колёсика мыши в WinDjView). А попробуйте так же покрутить колёсиком для исходного PDF: в Adobe Acrobat Reader 9 будут "волны" торможения, а в Foxit Reader 4.0 - "волн не будет", но зато будут "запинки" - скроллирование будет проходить крохотными рывками. А полутоновая картинка на 5 странице - так та вообще - МОРГАЕТ при скроллировании в PDF! cry

В DjVu же - скроллирование файла осуществляется плавно, без рывков и торможений.

Торможение при скроллировании мне лично сильно действует на нервы.

Да, чуть не забыл - размер. smile Размер переделанного DjVu в 5,5 раз меньше размера исходного PDF! surprised И это при (с моей точки зрения) идентичном на вид качестве изображения (только в DjVu - лучше - за счёт Deskew).

P.S. Кстати, то, что западные online-библиотеки используют PDF для растровых документов, ещё не самый характерный признак. Ведь что такое библиотеки? B любой стране - это самые нищие и отсталые заведения, очень инерционные в плане каких-либо инноваций. Вот у них был уже PDF-инструментарий, видимо - и они, естественно, ничего иного уже и не хотят.
Google Books - там какой-то свой формат - не PDF и не DjVu. И их можно понять - они не хотят ни от кого зависеть.

Сообщение отредактировал monday2000 - Вторник, 14.09.2010, 17:07

mhorn

Дата: Вторник, 14.09.2010, 17:11 | Сообщение # 112

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

Quote (monday2000)

проблема в том, что гугль не индексирует и легальные djvu б-ки по содержимому
а уж наши б-ки, где файлы то заархивены, то лежат на обменниках - тут совсем беда

Quote (monday2000)

Google Desktop как раз умеет - если установить туда DjVu-плагин (их 2 штуки на выбор).

можно попросить Вас поместить тут ссылочку где скачать и краткую объяснялку как встроить в google desktop?

Quote (monday2000)

ну, это мелочи по сравнению с тем, что файл вообще есть, OCR есть и всё это влёт находится через google/google scholar

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

monday2000

Дата: Вторник, 14.09.2010, 17:51 | Сообщение # 113

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Quote (mhorn)

можно попросить Вас поместить тут ссылочку где скачать и краткую объяснялку как встроить в google desktop?

К сожалению, вопросами индексирования DjVu практически не владею. Надо сказать, что мне не удалось вообще на пробу воспользоваться DjVu Desktop Search для полнотекстового поиска - даже по, скажем, всем DOC-документам на моём компьютере.
Честно сказать - у меня лично не дошли руки до вопросов индексирования DjVu. Просто столько много более насущных DjVu-задач - что этим некогда было всерьёз заниматься.

Попробуйте Archivarius 3000 - скорее всего, с ним получится (сделать полнотекстовый поиск по DjVu-файлам своего компьютера).

Есть форум на Library Genesis: http://gen.lib.rus.ec/forum/ . К сожалению, с недавних пор почему-то заблокированный. Вот там товарищи собаку съели на вопросах индексирования - и PDF и DjVu.

Но, если хотите - давайте прямо сейчас совместно разберёмся, как подключить DjVu Plugin к Google Desktop Search.

Вот даже картиночка есть, как он работает:
http://desktop.google.com/plugins/i/djvu.html?hl=ru

Вот ещё один плагин:
http://desktop.google.com/plugins/i/djvuindexer.html?hl=ru
Автор - Андрей Жежерун (автор WinDjView)

Вот взгляните:
http://bioinformatics.ru/Misc/Google_searchtips.html
http://alexeevd.narod.ru/misc/soft.htm
http://www.3dnews.ru/software-news/_personalnii_poisk_yandeksa_2_6_0_1030_poisk_na_pk/

Сообщение отредактировал monday2000 - Вторник, 14.09.2010, 18:04

a1opex

Дата: Вторник, 14.09.2010, 20:27 | Сообщение # 114

Группа: Проверенные

Сообщений: 70

Репутация: 0

Статус: Offline

Quote

Присоединяюсь к рекомендации. Поставил где-то полгода назад - теперь просто не представляю, как жил без этой программы. Использую офлайн. Сотни тысяч файлов, включая дежавю, Архивариус перелопачивает за считанные секунды. Очень удобная работа с индексами.

Carnivora

Сообщение отредактировал a1opex - Вторник, 14.09.2010, 23:15

mhorn

Дата: Вторник, 14.09.2010, 23:06 | Сообщение # 115

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

Quote (monday2000)

Вот даже картиночка есть, как он работает:
http://desktop.google.com/plugins/i/djvu.html?hl=ru

спасибо! поставил и то и другое

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

mhorn

Дата: Вторник, 14.09.2010, 23:25 | Сообщение # 116

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

Quote (monday2000)

Визуальное качество - на мой взгляд, неотличимо от исходного PDF.

Quote (monday2000)

А зато скроллирование какое - ни малейшего торможения

Quote (monday2000)

Размер переделанного DjVu в 5,5 раз меньше размера исходного PDF!

вернулись к тому с чего начали - размер как основное преимущество djvu

Quote (monday2000)

Кстати, то, что западные online-библиотеки используют PDF для растровых документов, ещё не самый характерный признак. Ведь что такое библиотеки? B любой стране - это самые нищие и отсталые заведения, очень инерционные в плане каких-либо инноваций.

За любую страну я бы не поручился. Вот почему-то не верится, что Национальная библиотека Франции (http://www.bnf.fr/fr/acc/x.accueil.html), оцифровавшая более миллиона французских книг и периодики (и всё это выложившая на сайт http://gallica.bnf.fr ) нищая или отсталая
те научные библиотеки, которые мне довелось видеть в Англии, Франции и Норвегии тоже такими не выглядели. Везде - компьютеры и такой масштабный доступ по подписке на электронные издания, которого у нас, к сожалению, ни у одного университета или института нет.

Quote (monday2000)

Google Books - там какой-то свой формат - не PDF и не DjVu. И их можно понять - они не хотят ни от кого зависеть

почему свой формат? обычный pdf, с возможностью онлайн-просмотра как на archive.org, только без OCR-слоя, но зато с "фирменной" индексацией по содержимому

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

monday2000

Дата: Среда, 15.09.2010, 10:16 | Сообщение # 117

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Заработал форум http://gen.lib.rus.ec/forum/ . Там спецы по каталогизации PDF и DjVu. Т.е. это форум Library Genesis.

Интересный топик оттуда:
"Поиск по содержимому книг" http://gen.lib.rus.ec/forum/viewtopic.php?f=3&t=14

Сообщение отредактировал monday2000 - Среда, 15.09.2010, 11:44

a1opex

Дата: Пятница, 17.09.2010, 03:14 | Сообщение # 118

Группа: Проверенные

Сообщений: 70

Репутация: 0

Статус: Offline

Продолжаю экспериментировать с ClearScan smile

Недавно делал пдф книги (538 с.), отснятой цифровиком. (Снимал со штатива, но практически в темноте). Обработал файлы в СканТейлоре, собрал и распознал в Акробате – получился пдф объемом 98 МВ (распознавал не в режиме ClearScan, т.к. оригинал весьма посредственный).

А сейчас решил попробовать отклиасканить - и получил не только уменьшение объема в шесть раз, но и более аккуратный сглаженный текст. Затем, следуя совету m7876, сделал из клиаскана дежавю – качество ч/б страниц практически не изменилось, а объем уменьшился еще в 6 раз! Поскольку в книге есть полутоновые иллюстрации с текстом (а я еще не освоил «метод разделенных сканов»), то остановился на варианте клиаскан-пдфа. Радует, что в обоих случаях OCR безупречный (без ФайнРидера: 9-м Акробатом и Документ Экспресс Эдитором).

Кому интересно, см. страничку из книги в архиве:
01_Raff_1996_p_341_raw_photograph.jpg
02_Raff_1996_p_341_ScanTailored+ClearScanned.pdf
03_Raff_1996_p_341_exClearScanned_pdf.djvu

Carnivora

monday2000

Дата: Пятница, 17.09.2010, 10:31 | Сообщение # 119

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Quote (a1opex)

а я еще не освоил «метод разделенных сканов»

Постараюсь в ближайшее время написать статью, описывающую использование метода разделённых сканов применительно для Scan Tailor (а сейчас есть только применительно к ScanKromsator).

После этого использование метода разделенных сканов покажется совсем уж простым.

PS Использование файлообменника http://rghost.ru/ ИМХО нежелательно - там ссылки сдыхают через 30 дней. Лучше onlinedisk.ru - там (вроде бы) файл хранится вечно. Или ifolder.ru - там тоже вечно (но требуется зарегистироваться, чтобы суметь закачать - насколько я знаю).

mhorn

Дата: Пятница, 17.09.2010, 11:09 | Сообщение # 120

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

Quote (monday2000)

Постараюсь в ближайшее время написать статью, описывающую использование метода разделённых сканов применительно для Scan Tailor

ждём!

Quote (monday2000)

Использование файлообменника http://rghost.ru/ ИМХО нежелательно - там ссылки сдыхают через 30 дней.

ссылки сдыхают через месяц после последнего скачивания. Зато и для закачивающего, и для скачивающего пользоваться rghost быстрее и проще

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

AlexIpp

Дата: Воскресенье, 19.09.2010, 13:24 | Сообщение # 121

Группа: Администраторы

Сообщений: 579

Репутация: 0

Статус: Offline

Я тоже поюзал ScanTeilor smile

Программа понравилась, однако далеко не панацея в обработке сканов.
Минусы у нее вот такие:
(-) обработку Фотошопом она в принципе не заменяет, так как у нее нет функции размазывания (Blur). Без использования этой опции качество изображений из старых книг страдает очень сильно.
(-) очень глючное определение областей изображений на страницах смешанного содержания, если контуры изображений сложные. Сделать две копии страницы, серую и ч/б и обработать Фотошопом - как это ни странно, быстрее!
(-) невозможность работать с несколькими рядами иконок страниц. Кстати, это критический недостаток всех программ DJVU. Напр., в книге идут ф/т и объяснения через страницу, а я хочу выделить и выбрать сразу все 150 штук фототаблиц и задать для них какие-то параметры) При некоторых операциях это архиважно.
(-) довольно медленно работает (на всех "уровнях загрузки системы"), при этом заметно подгружая компьютер.

Резюме - я бы стал использовать эту программу для:
- переделки старых ну очень объемных сканов PDF (бинаризации кривосканеных сканов в оттенках серого)
- книг, снятых фотоаппаратом
- старых книг, у которых разные страницы имеют сильно различающуюся степень яркости.
- обработки книг, в которых более 30-40 страниц смешанного содержания.

И все. Остальное (испр. перекоса, правильный порог бинаризации) в 99% случаев легче сделать с помощью сканера. А ориентацию - Акробатом.
Сканируйте аккуратнее, и эти опции будут для вас неактуальны.

всё о серпулидах & белемнитах

mhorn

Дата: Понедельник, 20.09.2010, 11:24 | Сообщение # 122

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

Quote (AlexIpp)

(-) очень глючное определение областей изображений на страницах смешанного содержания, если контуры изображений сложные. Сделать две копии страницы, серую и ч/б и обработать Фотошопом - как это ни странно, быстрее!

а мне показалось - нормально, уж точно лучше чем FR определяет

Quote (AlexIpp)

(-) невозможность работать с несколькими рядами иконок страниц. Кстати, это критический недостаток всех программ DJVU. Напр., в книге идут ф/т и объяснения через страницу, а я хочу выделить и выбрать сразу все 150 штук фототаблиц и задать для них какие-то параметры) При некоторых операциях это архиважно.

это и впрямь проблема. Тут можно или задать всё вручную, выделяя с нажатым Ctrl фототаблицы это можно сделать - но вручную, или выделить как смешанное содержание и фототаблицы и объяснения к ним

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

AlexIpp

Дата: Вторник, 21.09.2010, 08:20 | Сообщение # 123

Группа: Администраторы

Сообщений: 579

Репутация: 0

Статус: Offline

Quote (mhorn)

Тут можно или задать всё вручную, выделяя с нажатым Ctrl фототаблицы это можно сделать - но вручную

вот именно. Меня всегда это бесило в djvu-редакторах smile

Массовый поворот страниц в толстой книге - просто издевательство над пользователем. При этом, после выбора штук так 100-ти можно случайно нажать мышкой "не туда", и все выделение будет сброшено.
Выстраивание иконок в два и более рядов - одна из тех, которая делает работу в Акробате для создателя (даже не для пользователя) электронных книг намного быстрее и удобнее, чем в джвю-редакторах.
Да и вообще, выбор диапазонов страниц в djvu явно хромает. Мне кажется, это тот недостаток, который легко исправить.

всё о серпулидах & белемнитах

monday2000

Дата: Вторник, 21.09.2010, 09:55 | Сообщение # 124

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Quote (AlexIpp)

(-) обработку Фотошопом она в принципе не заменяет, так как у нее нет функции размазывания (Blur). Без использования этой опции качество изображений из старых книг страдает очень сильно.

Если использовать метод разделённых сканов - тогда нет нужды делать Blur. Точнее, если есть нужда сделать размытие картинок, то для этого в программе DjVu Imager есть 2 параметра, применение которых во время DjVu-кодирования даёт эффект, аналогичный Blur.

А если уж нужен именно Blur - то разделив тексты от фотоизображений в методе разделённых сканов, далее можно отдельно картинки обработать через Blur в любой сторонней программе. Яснее это будет, когда я подготовлю статью об использовании Scan Tailor в методе разделённых сканов.

Quote

(-) очень глючное определение областей изображений на страницах смешанного содержания, если контуры изображений сложные.

Зато там есть ещё ручные зоны - которыми можно подправить результат автоматического распознавания картинок (которое является вообще уникальной фичей).

Quote

а мне показалось - нормально, уж точно лучше чем FR определяет

Несравненно лучше.

Quote (AlexIpp)

а я хочу выделить и выбрать сразу все 150 штук фототаблиц и задать для них какие-то параметры)

Scan Tailor пока вообще не предназначен для таких задач. Пока что такие задачи следует решать за пределами Scan Tailor (после разделения текстов и изображений в Scan Tailor). Но в любом случае, Scan Tailor способен сделать хотя бы предварительную обработку - что весьма немаловажно.

Сообщение отредактировал monday2000 - Вторник, 21.09.2010, 09:57

m7876

Дата: Пятница, 01.10.2010, 21:25 | Сообщение # 125

Группа: Проверенные

Сообщений: 32

Репутация: 0

Статус: Offline

Выяснилось, что утилита ocrodjvu отлично добавляет OCR в готовый DjVu-файл. Она может использовать для этого cuneiform, у которого (в его multilang версии) есть опция "ruseng" для обработки смешанных текстов из кириллицы и латиницы (что нам и нужно обычно). Вот как это делается:
$ ./ocrodjvu --engine cuneiform --language ruseng --in-place --pages 5-476 flora_sssr1946_12.djvu
442 страницы занимает сделать 20 минут.
Результат:

Утилита еще не до конца отлажена, но ее автор очень быстро исправляет ошибки.

Сообщение отредактировал m7876 - Пятница, 01.10.2010, 21:27

monday2000

Дата: Среда, 06.10.2010, 11:59 | Сообщение # 126

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Quote (m7876)

Выяснилось, что утилита ocrodjvu отлично добавляет OCR в готовый DjVu-файл.

Насколько я знаю, всё это работает только под Linux? Хотелось бы и под Windows - но пока вроде бы никак.

monday2000

Дата: Среда, 13.10.2010, 10:48 | Сообщение # 127

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Я обновил свою статью "Использование DjVu Imager" http://www.djvu-soft.narod.ru/scan/djvu_imager.htm .

Я добавил туда описание как использовать Scan Tailor совместно с DjVu Imager (включая использование ST Split).

monday2000

Дата: Понедельник, 18.10.2010, 13:59 | Сообщение # 128

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Quote (mhorn)

Quote (monday2000)
Постараюсь в ближайшее время написать статью, описывающую использование метода разделённых сканов применительно для Scan Tailor
ждём!

Статья "Использование DjVu Imager" http://www.djvu-soft.narod.ru/scan/djvu_imager.htm - это как раз то самое обещанное.

monday2000

Дата: Среда, 20.10.2010, 09:56 | Сообщение # 129

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

Я написал новую статью:

Сравнение форматов DjVu и PDF

http://www.djvu-soft.narod.ru/scan/djvu_vs_pdf.htm

Как раз по результатам обсуждения в данном топике.

Сообщение отредактировал monday2000 - Среда, 20.10.2010, 09:57

catty

Дата: Четверг, 02.12.2010, 17:14 | Сообщение # 130

Группа: Проверенные

Сообщений: 78

Репутация: 0

Статус: Offline

http://www.ocronline.com/

OCR Online: бесплатное распознавание текста. Сервис OCROnline позволяет бесплатно распознавать текст из изображений JPG, PNG, GIF, TIFF и файлов в формате PDF. Файлы должны быть не более 10 Мб и содержать не более 100 страниц. Поддерживается более 150 языков. На выходе вы можете получить файл в формате DOC, PDF, RTF или TXT. Разумеется, данный сервис нельзя рекомендовать для серьезных OCR-работ, но как палочка-выручалочка при разовой необходимости вполне сгодится, поэтому однозначно заслуживает место в закладках. На всякий случай.

Описание взято с сайта лайфхакер (lifehacker.ru).

monday2000

Дата: Вторник, 14.12.2010, 12:56 | Сообщение # 131

Группа: Пользователи

Сообщений: 42

Репутация: 0

Статус: Offline

А вот ещё одна Web-распознавалка - создаёт OCR-PDF на базе CuneiForm:

http://www.watchocr.com/

mhorn

Дата: Среда, 07.09.2011, 18:38 | Сообщение # 132

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

недавно появился 11й FineReader
в нем, среди прочего, появилась возможность сохранять распознанные файлы в формате djvu

кроме того, вышла очередная версия проги Google books downloader:
http://www.gbooksdownloader.com/

она сохраняет в виде jpeg или pdf те публикации, которые доступны для полного просмотра, но не для скачивания

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

Alexgor

Дата: Суббота, 10.09.2011, 16:09 | Сообщение # 133

Группа: Проверенные

Сообщений: 36

Репутация: 0

Статус: Offline

Google books downloader отличная вещь, но без ложки дёгтя не обошлось. На стадии конвертирования в пдф выскакивает неизвестная ошибка. Приходится сохранять в джипеги и собирать акробатом, но это всё мелочь, спасибо.

mhorn

Дата: Суббота, 10.09.2011, 17:09 | Сообщение # 134

Admin

Группа: Администраторы

Сообщений: 3615

Репутация: 0

Статус: Offline

Quote (Alexgor)

На стадии конвертирования в пдф выскакивает неизвестная ошибка. Приходится сохранять в джипеги и собирать акробатом

у меня то же самое, но jpeg'и - тоже неплохо

верхнеюрские и нижнемеловые аммониты и всё что с ними связано

	Суббота, 01.02.2025
Форум Jurassic.ru