Конвертеры из Word и PDF в обычный (plain) текст
При машинной обработке текстов имеет смысл все перевести в txt, а уже потом развлекаться. Несколько бесплатных конвертеров для пакетной обработки файлов (под Windows).
Итак, antiword. Преобразует из Word в txt и не только http://www.winfield.demon.nl/ Если в командной строке в каталоге, в котором находятся файлы Word выполнить команду Код:
for %i in (*.doc) do c:\antiword\antiword -m UTF-8 %i > %i.txt PDF в текст преобразует команда pdf2text из пакета poppler. По ссылке исходники, которые хороши для знатных пингвиноводов, а обывателю с Windows они не очень годятся. К счастью, есть добрые люди, которые откомпилировали и собрали это все под Windows. http://manifestwebdesign.com/2013/01...ls-on-windows/ Аналогично, команда Код:
for %i in (*.pdf) do c:\antipdf\pdftotext %i Оригиналы сохраняются и там и там. |
Спасибо! Единственное, периодически возникает простой вопрос - за что на работе деньги платят? :rolleyes:
|
Цитата:
привели бы пару примеров (желательно скрины до и после), чтобы было понятно о чем речь. |
Цитата:
2) Копирование цитат в LaTex 3) Пересборка документа с помощью pandoc или LaTex. 4) Машинная обработка текста с целью "выдергивания" нужной информации, например библиографии или определений Мало ли зачем может понадобится. Цитата:
|
для наглядности
не понял, а чем cntrl+c / cntrl+v не подходит? конечно если pdf сканированием документов образовывался, там будут неправильно распознанные символы |
Цитата:
|
Текущее время: 19:02. Часовой пояс GMT +3. |
Powered by vBulletin® Version 3.8.8
Copyright ©2000 - 2024, vBulletin Solutions, Inc. Перевод: zCarot
© 2001—2024, «Аспирантура. Портал аспирантов»