PDA

Просмотр полной версии : Удаление водяных знаков с диссертаций из РГБ


Jacky
03.01.2010, 19:54
Хочу поднять такую вот тему. Не секрет, что многие диссертации и авторефераты, полученные через ВЧЗ и другими путями, имеют темно-серый "водяной знак" на каждой странице. Читать такое просто неудобно, поскольку размеры, цвет и расположение этой надписи... Ну в общем, кто видел, тот знает.

Посему предлагаю обменяться опытом по способам удаления этого вредительства.

Далее предлагаю свой алгоритм. Сразу скажу, что он не претендует на получение идеальных результатов, так что, если кто-то имеет более эффективную и быструю методику, поделитесь с общественностью.

В процессе работы нам понадобится акробат и фотошоп. Версии и локализации этих программ могут быть разными, так что я даю общую канву, а со своими конкретными программами разбирайтесь самостоятельно. Итак.

1. Разбираем файл pdf на странички в формате tif.
В Adobe Acrobat (не Adobe Reader) открываем исходный файл, далее File - Save As и в диалоге сохранения выбираем тип файла TIFF. Сразу указываем отдельную пустую папку для сохранения, там появится большое количество файлов по количеству страниц диссертации.

2. Удаляем надпись по диагонали страницы.
Нужно учесть, что, поскольку эта надпись не одноцветная, а с плавным размытием по краям, полностью мы ее на этом шаге не уберем, но сильно уменьшим заметность.
В Adobe Photoshop для этого воспользуемся функцией замены цвета (Изображение - Коррекция - Заменить цвет). Там ставим разброс на 32, пипеткой выбираем цвет надписи, которую мы собираемся убрать и внизу выводим яркость на максимум. С этими параметрами можете поиграть, подстраивая "под себя". Но поскольку эту операцию пришлось бы проделать много раз подряд для каждой страницы диссертации отдельно, напрашивается использование макроса. Вот тут уже готовый макрос (действие, операция, action -- разные переводы в зависимости от версии фотошопа): http://dl.dropbox.com/u/10681053/aspirantura/diss.zip
Грузим его в свой фотошоп через панель Actions, далее идем Файл - Автоматизация - Пакетная обработка. Выбираем набор diss и операцию Диссертация pdf чистка, задаем папку с исходными файлами (то, что было подготовлено в шаге 1) и выходную папку. Имена файлов удобно указать в формате "порядковый номер 3 цифры". Всё, запускаем на выполнение и ждем, пока фотошоп усердно трудится. Отработка одной страницы у меня примерно 1 секунда, но, наверное, что-то будет зависеть и от мощности вашей машины. Результатом должен стать набор почищенных pdf с именами типа 001.pdf и далее с шагом в единицу.

3. Объединяем всё в один pdf файл.
Снова запускаем Adobe Acrobat и в меню File - Combine Files в диалоге выбираем Add Folders и указываем папку с результатами работы фотошопа из шага 2. Далее ничего не меняя жмем Next и Create и сохраняем Save получившийся файл. В принципе, если вас устраивает результат, на этом можно остановиться. Но есть два нюанса: во-первых, остатки надписи по диагонали останутся (слабый контур), и во-вторых размер файла будет довольно большой, где-то мегабайт под 50 или даже больше. Поэтому можно выполнить еще одну операцию.

4. Уменьшение размера файла и дополнительная чистка.
Там же в Adobe Acrobat выбираем Document - Optimize Scanned PDF и в диалоге передвигаем верхний ползунок на пару делений вправо. С этой настройкой можно поиграть. Чем левее положение ползунка, тем меньше будет файл, но текст при этом будет размытый и плохо читаемый, с грязью вокруг букв. Запускаем на выполнение и ждем, пока оптимизатор выполнит свою задачу. Сохраняем результат. Итоговый файл должен получиться примерно 10-20 мб, кроме того, остатки надписи по диагонали тоже должны были практически исчезнуть.

Всё.

Vica3
03.01.2010, 21:43
Очень полезный алгоритм! Будем пробовать:)
Еще раз - спасибо!

nill
04.02.2010, 21:41
На диссерах, которые я получал с "кошки" (http://www.dissercat.com) не было никаких вотермарков, более того, там была текстовая (!) подложка под PDF-ом

Jacky
04.02.2010, 22:00
Как же уже надоели эти ссылки "между делом" на очередной сайт по продаже диссертаций в первом же сообщении после регистрации. Ну не было у вас водяных знаков, радуйтесь. Мануал сделан для тех, у кого водяные знаки были.

nill
05.02.2010, 21:06
хз, мне кажется эт не "между делом" -- хочешь заказать и чистить -- закажи и чисти, хочешь заказать и не чистить -- закажи и не чисти, делов-то

вы меня раззадорили тем, что я мол агент империализма, в качестве бонуса (и про "очередных") кину в главную тему мини-обзор всей этой кухни, по сути там 3 поставщика (ну или возможно 4)

Ink
05.02.2010, 21:09
всей этой кухни а вы откуда в курсе этой кухни? Поваром подрабатываете?

nill
05.02.2010, 21:44
а вы откуда в курсе этой кухни? Поваром подрабатываете?

я разбираюсь немного в теме "интернет бизнеса" и "интернет маркетинга", и дал свой взгляд на этот, гм, рынок
мне кажется это волне себе интересно

а почему вы так оперативно саггрились? держите какую-то из этих точек? :rolleyes:

Ink
05.02.2010, 21:51
а почему вы так оперативно саггрились? держите какую-то из этих точек? :rolleyes:
:D:D:D

Vica3
06.02.2010, 09:19
хочешь заказать и чистить -- закажи и чисти, хочешь заказать и не чистить -- закажи и не чисти,
однако переплачивать за чистку - нафиг нафиг.. денег жалко, и лишних нема..

Lutatovsky
08.09.2012, 09:54
А можно посмотреть образечик PDF файла с водяными знаками? Если это действительно PDF, то показ водяных знаков там можно просто отключить без всех этих TIFFов и Фотошопов.

cmom
08.09.2012, 13:22
погуглите сам документ с водным знаком, любой

Lutatovsky
09.09.2012, 16:03
Меня интересует не любой документ, а именно из РГБ. Водяные знаки можно внедрить в документ 1001 способом. Но судя, по тому, что я прочитал на этом форуме, в РГБ их добавляют в виде PDF-слоя. Если это действительно так, то его можно просто отключить и не морочится с Фотошопом. Заодно можно и текстовый слой включить - можно будет копипастить текст из прямо документа.

Vica3
09.09.2012, 16:07
Lutatovsky, скиньте мне в личку почту - я Вам перешлю желаемое)))

МЮрий
27.01.2013, 22:32
Коллеги, а кто еще как борется с этой напастью.
Водяные знаки попались в виде нумерации страниц, причем в pdf их не видно, но при распознавании Файнридером в Ворде проявляется эта нумерация и как с ней бороться пока не понимаю.
Попробовал 6 разных pdf2doc - фуфло. Не понимает русский язык текста.

Lutatovsky
28.01.2013, 00:46
В Файнридере выключите опцию "Сохранять колонтитулы" и он перестанет подхватывать номера страниц

МЮрий
28.01.2013, 01:54
Lutatovsky, спасибо, попробую.

докторенок
28.01.2013, 12:58
А мне водяные знаки не мешают, читать вполне удобно (особенно если сравнить с рукописным протоколом допроса, составленным в каком-нибудь 1868 году), копировать я все равно не копирую, за исключением небольших цитат, но это и от руки можно набить, как с книги.

МЮрий
28.01.2013, 13:54
Действительно косяк был в файнридере. Убрал галочку и пропали в ворде водяные знаки.

Karandash
11.04.2013, 23:50
Lutatovsky, доброго времени суток! Прочитал Ваш пост и стало очень любопытно узнать сработал ли Ваш метод?
Меня интересует не любой документ, а именно из РГБ. Водяные знаки можно внедрить в документ 1001 способом. Но судя, по тому, что я прочитал на этом форуме, в РГБ их добавляют в виде PDF-слоя. Если это действительно так, то его можно просто отключить и не морочится с Фотошопом. Заодно можно и текстовый слой включить - можно будет копипастить текст из прямо документа.
С уважением!

Vica3
12.04.2013, 09:56
Karandash, его метод сработал. Опробовано на кошках. В роли кошки выступала Вика.:Ъ Качество подтверждено электроникой:))

Lutatovsky
12.04.2013, 12:58
Lutatovsky, доброго времени суток! Прочитал Ваш пост и стало очень любопытно узнать сработал ли Ваш метод?
Посмотрите в личных сообщениях.

Rosich
25.04.2013, 13:55
Попробовал 6 разных pdf2doc - фуфло. Не понимает русский язык текста.

Wondershare PDF Converter прекрасно справляется с русским текстом, в частности, конвертирует мануалы по автомобилям из PDF в docx без потери форматирования и изображений

Lutatovsky
25.04.2013, 16:27
Распознавайте PDF Файнридером и сохраняйте в DOC. У меня такая методика дает самый лучший результат для перевода из PDF в DOC

Vica3
25.04.2013, 16:28
Lutatovsky, согласна

Анна А.
26.04.2013, 22:33
Я пользуюсь АВВYY PDF Transformerом, нормально

yegorov-p
08.09.2015, 15:53
Подниму тему =)
На самом деле, странно, что Вы все всё так усложняете. Можно просто перевести страницу в серые тона, после чего найти все пиксели светлее примерно 240. Это и будут водяные знаки.

kravets
18.10.2015, 08:05
... не туда