|  |  | 
|  20.12.2013, 15:42 | #1 | 
| Platinum Member Регистрация: 22.07.2010 Адрес: Санкт-Петербург 
					Сообщений: 3,304
				 |  Конвертеры из Word и PDF в обычный (plain) текст 
			
			При машинной обработке текстов имеет смысл все перевести в txt, а уже потом развлекаться. Несколько бесплатных конвертеров для пакетной обработки файлов (под Windows). Итак, antiword. Преобразует из Word в txt и не только http://www.winfield.demon.nl/ Если в командной строке в каталоге, в котором находятся файлы Word выполнить команду Код: for %i in (*.doc) do c:\antiword\antiword -m UTF-8 %i > %i.txt PDF в текст преобразует команда pdf2text из пакета poppler. По ссылке исходники, которые хороши для знатных пингвиноводов, а обывателю с Windows они не очень годятся. К счастью, есть добрые люди, которые откомпилировали и собрали это все под Windows. http://manifestwebdesign.com/2013/01...ls-on-windows/ Аналогично, команда Код: for %i in (*.pdf) do c:\antipdf\pdftotext %i Оригиналы сохраняются и там и там. | 
| --------- DNF is not an option | |
|   |   | 
| Реклама | |
|  | |
|  20.12.2013, 15:54 | #2 | 
| Platinum Member Регистрация: 12.03.2010 Адрес: Воронеж 
					Сообщений: 11,910
				 |   
			
			Спасибо! Единственное, периодически возникает простой вопрос - за что на работе деньги платят?    | 
| --------- Обычно пуська. Но иногда кое-кому доводится увидеть льва в год тигра... "Экономика и менеджмент систем управления" - новый cписок ВАК | |
|   |   | 
|  25.12.2013, 18:42 | #3 | 
| Full Member Регистрация: 03.06.2011 
					Сообщений: 193
				 |   | 
|   |   | 
|  25.12.2013, 18:59 | #4 | 
| Platinum Member Регистрация: 22.07.2010 Адрес: Санкт-Петербург 
					Сообщений: 3,304
				 |   
			
			1) Анализ текстов, если занимаетесь лингвистическими исследованиями 2) Копирование цитат в LaTex 3) Пересборка документа с помощью pandoc или LaTex. 4) Машинная обработка текста с целью "выдергивания" нужной информации, например библиографии или определений Мало ли зачем может понадобится. Примеры привел. А скрин нотепада Вам зачем? | 
| --------- DNF is not an option | |
|   |   | 
|  25.12.2013, 19:13 | #5 | 
| Full Member Регистрация: 03.06.2011 
					Сообщений: 193
				 |   
			
			для наглядности не понял, а чем cntrl+c / cntrl+v не подходит? конечно если pdf сканированием документов образовывался, там будут неправильно распознанные символы | 
|   |   | 
|  25.12.2013, 19:49 | #6 | 
| Администратор Jack of Shadows Регистрация: 13.05.2002 Адрес: Москва 
					Сообщений: 7,534
				 |   | 
| --------- Рано или поздно, так или иначе... | |
|   |   |