Hogfather
20.12.2013, 15:42
При машинной обработке текстов имеет смысл все перевести в txt, а уже потом развлекаться. Несколько бесплатных конвертеров для пакетной обработки файлов (под Windows).
Итак, antiword. Преобразует из Word в txt и не только
http://www.winfield.demon.nl/
Если в командной строке в каталоге, в котором находятся файлы Word выполнить команду
for %i in (*.doc) do c:\antiword\antiword -m UTF-8 %i > %i.txt
То все файлы .doc преобразуются в файлы с "двойным" расширением .doc.txt
PDF в текст преобразует команда pdf2text из пакета poppler (http://poppler.freedesktop.org/releases.html). По ссылке исходники, которые хороши для знатных пингвиноводов, а обывателю с Windows они не очень годятся. К счастью, есть добрые люди, которые откомпилировали и собрали это все под Windows.
http://manifestwebdesign.com/2013/01/09/xpdf-and-poppler-utils-on-windows/
Аналогично, команда
for %i in (*.pdf) do c:\antipdf\pdftotext %i
преобразует все файлы pdf в текстовые файлы.
Оригиналы сохраняются и там и там.
Итак, antiword. Преобразует из Word в txt и не только
http://www.winfield.demon.nl/
Если в командной строке в каталоге, в котором находятся файлы Word выполнить команду
for %i in (*.doc) do c:\antiword\antiword -m UTF-8 %i > %i.txt
То все файлы .doc преобразуются в файлы с "двойным" расширением .doc.txt
PDF в текст преобразует команда pdf2text из пакета poppler (http://poppler.freedesktop.org/releases.html). По ссылке исходники, которые хороши для знатных пингвиноводов, а обывателю с Windows они не очень годятся. К счастью, есть добрые люди, которые откомпилировали и собрали это все под Windows.
http://manifestwebdesign.com/2013/01/09/xpdf-and-poppler-utils-on-windows/
Аналогично, команда
for %i in (*.pdf) do c:\antipdf\pdftotext %i
преобразует все файлы pdf в текстовые файлы.
Оригиналы сохраняются и там и там.