Показать сообщение отдельно
Старый 12.02.2016, 09:25   #10
Hogfather
Platinum Member
 
Аватар для Hogfather
 
Регистрация: 22.07.2010
Адрес: Санкт-Петербург
Сообщений: 3,281
По умолчанию

На самом деле задачка оказалась весьма интересная. В документе присутствовало 2 вида "электронной борьбы" с антиплагиатом. Представьте себе документ на 200 страниц, содержащий 2 (два) миллиона знаков. Поделили? Ну, и для полноты ощущений представьте, что еще каждое слово разбито форматированием на несколько частей.
Xml фаил (document.xml), находящийся в архиве (для тех кто не в курсе, docx можно распаковать в папку) занимает 80 Мб. Это без рисунков, если что, рисунки и вложения распиханы по папочкам.
1. Word 2016 для Win и MacOS не открывают исходник
2. Word 2013 для Win не открывает исходник
3. Как обычно выручил LibreOffice 5, но при замене албанских символов на машине без SSD диска виснет и вылетает по таймауту.
4. Etxt Антиплагиат разбиение слова форматированием игнорирует, в то же время оригинальность "до обработки" составляла 33%, оригинальность "после обработки" 18%. Антиплагиат.ру тупо показывает оригинальность 86%. Как говорится, хозяйке на заметку.

Отсюда возникает простенькая задачка, на которую сейчас, увы, совсем нет времени.
Небольшой скрипт на Perl, который в document.xml будет удалять все албанские символы и непонятное форматирование. Посмотрим, если такую ерунду увижу весной у студентов, то точно не поленюсь и напишу.
---------
DNF is not an option
Hogfather вне форума   Ответить с цитированием
Реклама