Показать сообщение отдельно
Старый 20.12.2013, 15:42   #1
Hogfather
Platinum Member
 
Аватар для Hogfather
 
Регистрация: 22.07.2010
Адрес: Санкт-Петербург
Сообщений: 3,304
По умолчанию Конвертеры из Word и PDF в обычный (plain) текст

При машинной обработке текстов имеет смысл все перевести в txt, а уже потом развлекаться. Несколько бесплатных конвертеров для пакетной обработки файлов (под Windows).

Итак, antiword. Преобразует из Word в txt и не только
http://www.winfield.demon.nl/
Если в командной строке в каталоге, в котором находятся файлы Word выполнить команду
Код:
for %i in (*.doc) do c:\antiword\antiword -m UTF-8 %i > %i.txt
То все файлы .doc преобразуются в файлы с "двойным" расширением .doc.txt

PDF в текст преобразует команда pdf2text из пакета poppler. По ссылке исходники, которые хороши для знатных пингвиноводов, а обывателю с Windows они не очень годятся. К счастью, есть добрые люди, которые откомпилировали и собрали это все под Windows.
http://manifestwebdesign.com/2013/01...ls-on-windows/

Аналогично, команда
Код:
for %i in (*.pdf) do c:\antipdf\pdftotext %i
преобразует все файлы pdf в текстовые файлы.

Оригиналы сохраняются и там и там.
---------
DNF is not an option
Hogfather вне форума   Ответить с цитированием
Реклама