Портал аспирантов

Портал аспирантов (http://www.aspirantura.spb.ru/forum/index.php)
-   Software (программное обеспечение) (http://www.aspirantura.spb.ru/forum/forumdisplay.php?f=107)
-   -   Удаление водяных знаков с диссертаций из РГБ (http://www.aspirantura.spb.ru/forum/showthread.php?t=4919)

Jacky 03.01.2010 19:54

Удаление водяных знаков с диссертаций из РГБ
 
Хочу поднять такую вот тему. Не секрет, что многие диссертации и авторефераты, полученные через ВЧЗ и другими путями, имеют темно-серый "водяной знак" на каждой странице. Читать такое просто неудобно, поскольку размеры, цвет и расположение этой надписи... Ну в общем, кто видел, тот знает.

Посему предлагаю обменяться опытом по способам удаления этого вредительства.

Далее предлагаю свой алгоритм. Сразу скажу, что он не претендует на получение идеальных результатов, так что, если кто-то имеет более эффективную и быструю методику, поделитесь с общественностью.

В процессе работы нам понадобится акробат и фотошоп. Версии и локализации этих программ могут быть разными, так что я даю общую канву, а со своими конкретными программами разбирайтесь самостоятельно. Итак.

1. Разбираем файл pdf на странички в формате tif.
В Adobe Acrobat (не Adobe Reader) открываем исходный файл, далее File - Save As и в диалоге сохранения выбираем тип файла TIFF. Сразу указываем отдельную пустую папку для сохранения, там появится большое количество файлов по количеству страниц диссертации.

2. Удаляем надпись по диагонали страницы.
Нужно учесть, что, поскольку эта надпись не одноцветная, а с плавным размытием по краям, полностью мы ее на этом шаге не уберем, но сильно уменьшим заметность.
В Adobe Photoshop для этого воспользуемся функцией замены цвета (Изображение - Коррекция - Заменить цвет). Там ставим разброс на 32, пипеткой выбираем цвет надписи, которую мы собираемся убрать и внизу выводим яркость на максимум. С этими параметрами можете поиграть, подстраивая "под себя". Но поскольку эту операцию пришлось бы проделать много раз подряд для каждой страницы диссертации отдельно, напрашивается использование макроса. Вот тут уже готовый макрос (действие, операция, action -- разные переводы в зависимости от версии фотошопа): http://dl.dropbox.com/u/10681053/aspirantura/diss.zip
Грузим его в свой фотошоп через панель Actions, далее идем Файл - Автоматизация - Пакетная обработка. Выбираем набор diss и операцию Диссертация pdf чистка, задаем папку с исходными файлами (то, что было подготовлено в шаге 1) и выходную папку. Имена файлов удобно указать в формате "порядковый номер 3 цифры". Всё, запускаем на выполнение и ждем, пока фотошоп усердно трудится. Отработка одной страницы у меня примерно 1 секунда, но, наверное, что-то будет зависеть и от мощности вашей машины. Результатом должен стать набор почищенных pdf с именами типа 001.pdf и далее с шагом в единицу.

3. Объединяем всё в один pdf файл.
Снова запускаем Adobe Acrobat и в меню File - Combine Files в диалоге выбираем Add Folders и указываем папку с результатами работы фотошопа из шага 2. Далее ничего не меняя жмем Next и Create и сохраняем Save получившийся файл. В принципе, если вас устраивает результат, на этом можно остановиться. Но есть два нюанса: во-первых, остатки надписи по диагонали останутся (слабый контур), и во-вторых размер файла будет довольно большой, где-то мегабайт под 50 или даже больше. Поэтому можно выполнить еще одну операцию.

4. Уменьшение размера файла и дополнительная чистка.
Там же в Adobe Acrobat выбираем Document - Optimize Scanned PDF и в диалоге передвигаем верхний ползунок на пару делений вправо. С этой настройкой можно поиграть. Чем левее положение ползунка, тем меньше будет файл, но текст при этом будет размытый и плохо читаемый, с грязью вокруг букв. Запускаем на выполнение и ждем, пока оптимизатор выполнит свою задачу. Сохраняем результат. Итоговый файл должен получиться примерно 10-20 мб, кроме того, остатки надписи по диагонали тоже должны были практически исчезнуть.

Всё.

Vica3 03.01.2010 21:43

Очень полезный алгоритм! Будем пробовать:)
Еще раз - спасибо!

nill 04.02.2010 21:41

На диссерах, которые я получал с "кошки" (http://www.dissercat.com) не было никаких вотермарков, более того, там была текстовая (!) подложка под PDF-ом

Jacky 04.02.2010 22:00

Как же уже надоели эти ссылки "между делом" на очередной сайт по продаже диссертаций в первом же сообщении после регистрации. Ну не было у вас водяных знаков, радуйтесь. Мануал сделан для тех, у кого водяные знаки были.

nill 05.02.2010 21:06

хз, мне кажется эт не "между делом" -- хочешь заказать и чистить -- закажи и чисти, хочешь заказать и не чистить -- закажи и не чисти, делов-то

вы меня раззадорили тем, что я мол агент империализма, в качестве бонуса (и про "очередных") кину в главную тему мини-обзор всей этой кухни, по сути там 3 поставщика (ну или возможно 4)

Ink 05.02.2010 21:09

Цитата:

всей этой кухни
а вы откуда в курсе этой кухни? Поваром подрабатываете?

nill 05.02.2010 21:44

Цитата:

Сообщение от Ink (Сообщение 76873)
а вы откуда в курсе этой кухни? Поваром подрабатываете?

я разбираюсь немного в теме "интернет бизнеса" и "интернет маркетинга", и дал свой взгляд на этот, гм, рынок
мне кажется это волне себе интересно

а почему вы так оперативно саггрились? держите какую-то из этих точек? :rolleyes:

Ink 05.02.2010 21:51

Цитата:

Сообщение от nill (Сообщение 76883)
а почему вы так оперативно саггрились? держите какую-то из этих точек? :rolleyes:

:D:D:D

Vica3 06.02.2010 09:19

Цитата:

Сообщение от nill (Сообщение 76872)
хочешь заказать и чистить -- закажи и чисти, хочешь заказать и не чистить -- закажи и не чисти,

однако переплачивать за чистку - нафиг нафиг.. денег жалко, и лишних нема..

Lutatovsky 08.09.2012 09:54

А можно посмотреть образечик PDF файла с водяными знаками? Если это действительно PDF, то показ водяных знаков там можно просто отключить без всех этих TIFFов и Фотошопов.


Текущее время: 01:36. Часовой пояс GMT +3.

Powered by vBulletin® Version 3.8.8
Copyright ©2000 - 2024, vBulletin Solutions, Inc. Перевод: zCarot
© 2001—2024, «Аспирантура. Портал аспирантов»