Показать сообщение отдельно
Старый 03.01.2010, 19:54   #1
Jacky
Администратор
Jack of Shadows
 
Аватар для Jacky
 
Регистрация: 13.05.2002
Адрес: Москва
Сообщений: 7,533
По умолчанию Удаление водяных знаков с диссертаций из РГБ

Хочу поднять такую вот тему. Не секрет, что многие диссертации и авторефераты, полученные через ВЧЗ и другими путями, имеют темно-серый "водяной знак" на каждой странице. Читать такое просто неудобно, поскольку размеры, цвет и расположение этой надписи... Ну в общем, кто видел, тот знает.

Посему предлагаю обменяться опытом по способам удаления этого вредительства.

Далее предлагаю свой алгоритм. Сразу скажу, что он не претендует на получение идеальных результатов, так что, если кто-то имеет более эффективную и быструю методику, поделитесь с общественностью.

В процессе работы нам понадобится акробат и фотошоп. Версии и локализации этих программ могут быть разными, так что я даю общую канву, а со своими конкретными программами разбирайтесь самостоятельно. Итак.

1. Разбираем файл pdf на странички в формате tif.
В Adobe Acrobat (не Adobe Reader) открываем исходный файл, далее File - Save As и в диалоге сохранения выбираем тип файла TIFF. Сразу указываем отдельную пустую папку для сохранения, там появится большое количество файлов по количеству страниц диссертации.

2. Удаляем надпись по диагонали страницы.
Нужно учесть, что, поскольку эта надпись не одноцветная, а с плавным размытием по краям, полностью мы ее на этом шаге не уберем, но сильно уменьшим заметность.
В Adobe Photoshop для этого воспользуемся функцией замены цвета (Изображение - Коррекция - Заменить цвет). Там ставим разброс на 32, пипеткой выбираем цвет надписи, которую мы собираемся убрать и внизу выводим яркость на максимум. С этими параметрами можете поиграть, подстраивая "под себя". Но поскольку эту операцию пришлось бы проделать много раз подряд для каждой страницы диссертации отдельно, напрашивается использование макроса. Вот тут уже готовый макрос (действие, операция, action -- разные переводы в зависимости от версии фотошопа): http://dl.dropbox.com/u/10681053/aspirantura/diss.zip
Грузим его в свой фотошоп через панель Actions, далее идем Файл - Автоматизация - Пакетная обработка. Выбираем набор diss и операцию Диссертация pdf чистка, задаем папку с исходными файлами (то, что было подготовлено в шаге 1) и выходную папку. Имена файлов удобно указать в формате "порядковый номер 3 цифры". Всё, запускаем на выполнение и ждем, пока фотошоп усердно трудится. Отработка одной страницы у меня примерно 1 секунда, но, наверное, что-то будет зависеть и от мощности вашей машины. Результатом должен стать набор почищенных pdf с именами типа 001.pdf и далее с шагом в единицу.

3. Объединяем всё в один pdf файл.
Снова запускаем Adobe Acrobat и в меню File - Combine Files в диалоге выбираем Add Folders и указываем папку с результатами работы фотошопа из шага 2. Далее ничего не меняя жмем Next и Create и сохраняем Save получившийся файл. В принципе, если вас устраивает результат, на этом можно остановиться. Но есть два нюанса: во-первых, остатки надписи по диагонали останутся (слабый контур), и во-вторых размер файла будет довольно большой, где-то мегабайт под 50 или даже больше. Поэтому можно выполнить еще одну операцию.

4. Уменьшение размера файла и дополнительная чистка.
Там же в Adobe Acrobat выбираем Document - Optimize Scanned PDF и в диалоге передвигаем верхний ползунок на пару делений вправо. С этой настройкой можно поиграть. Чем левее положение ползунка, тем меньше будет файл, но текст при этом будет размытый и плохо читаемый, с грязью вокруг букв. Запускаем на выполнение и ждем, пока оптимизатор выполнит свою задачу. Сохраняем результат. Итоговый файл должен получиться примерно 10-20 мб, кроме того, остатки надписи по диагонали тоже должны были практически исчезнуть.

Всё.
---------
Рано или поздно, так или иначе...
Jacky вне форума   Ответить с цитированием
Реклама