При машинной обработке текстов имеет смысл все перевести в txt, а уже потом развлекаться. Несколько бесплатных конвертеров для пакетной обработки файлов (под Windows).
Итак,
antiword. Преобразует из Word в txt и не только
http://www.winfield.demon.nl/
Если в командной строке в каталоге, в котором находятся файлы Word выполнить команду
Код:
for %i in (*.doc) do c:\antiword\antiword -m UTF-8 %i > %i.txt
То все файлы .doc преобразуются в файлы с "двойным" расширением .doc.txt
PDF в текст преобразует команда pdf2text из пакета
poppler. По ссылке исходники, которые хороши для знатных пингвиноводов, а обывателю с Windows они не очень годятся. К счастью, есть добрые люди, которые откомпилировали и собрали это все под Windows.
http://manifestwebdesign.com/2013/01...ls-on-windows/
Аналогично, команда
Код:
for %i in (*.pdf) do c:\antipdf\pdftotext %i
преобразует все файлы pdf в текстовые файлы.
Оригиналы сохраняются и там и там.