Портал аспирантов

Портал аспирантов (http://www.aspirantura.spb.ru/forum/index.php)
-   Software (программное обеспечение) (http://www.aspirantura.spb.ru/forum/forumdisplay.php?f=107)
-   -   левые символы (http://www.aspirantura.spb.ru/forum/showthread.php?t=14134)

МЮрий 11.02.2016 22:07

левые символы
 
Прислали мне на проверку текст.
С виду (в Ворде 2010) проблем нет, только в некоторых местах нахожу оборванные фразы. Попросил пионэра вычитать текст, а он говорит, что у него все нормально. Задумался и скопировал текст в блокнот. И вместо "Федерация" читаю "Фе де рация".
Т.е. имеем принудительно добавленные скрытые пробелы.
Вопрос - как их в явном виде показать в Ворде или в нем же удалить. Наверное у этого пустого символа есть код, но как его средствами ворда увидеть и удалить по всему тексту?
p.s. Было бы только в некоторых словах удалил бы руками, но в 100 страницах текста их по десятку на строку.
p.s.s. Показать и удалить символы надо обязательно, т.к. у пионэра папа дохтур (вместе работаем) и возможный наезд надо встретить 100 страницами по морде.

Hogfather 11.02.2016 22:20

МЮрий, в почту. Кажется я знаю как.

Джульетта из Вероны 11.02.2016 22:28

Как вариант-сохранить текст в PDF, потом через Акробат - снова в Word. Это если просто удалить. Если показать-иногда через антиплагиат показывает...
Hogfather, а можно и мне в личку? :o

Hogfather 11.02.2016 22:31

Все просто: http://apavlov.ru/obhod-antiplagiat-2/

МЮрий 11.02.2016 23:12

Цитата:

Сообщение от Hogfather (Сообщение 569548)
http://apavlov.ru/obhod-antiplagiat-2/

Спасибо. сейчас попробую причесать текст.

kravets 11.02.2016 23:14

Цитата:

Сообщение от МЮрий (Сообщение 569545)
Вопрос - как их в явном виде показать в Ворде или в нем же удалить

Нажать в меню кнопочку "Пи" (Непечатаемые знаки). Выделить. В меню поиска и замены вставить в поле поиска, оставив поле замены пустым. "Заменить все".

4gost 11.02.2016 23:29

Цитата:

Сообщение от Hogfather (Сообщение 569548)

чего только не придумают...

Twuk 12.02.2016 00:06

Цитата:

Сообщение от Hogfather (Сообщение 569548)
Все просто

Цитата:

Сообщение от 4gost (Сообщение 569551)
чего только не придумают...

Года два уже студиозам предлагаю "сделку" с рефреном "если вы обойдете антиплагиат в тексте и я этого не замечу, потом расскажете как -- зачет автоматом" Пока не никто не подходил. Хороших оригинальных текстов так же не приносят, поэтому версию о том что знают, но не говорят, отвергаем.

Спасибо, теперь еще один вариант известен.

4gost 12.02.2016 08:57

Цитата:

Сообщение от Twuk (Сообщение 569553)
теперь еще один вариант известен.

там у этого товарища по соседству есть еще две заметки на эту же тему. Если не видели - взгляните и на них

Hogfather 12.02.2016 09:25

На самом деле задачка оказалась весьма интересная. В документе присутствовало 2 вида "электронной борьбы" с антиплагиатом. Представьте себе документ на 200 страниц, содержащий 2 (два) миллиона знаков. Поделили? Ну, и для полноты ощущений представьте, что еще каждое слово разбито форматированием на несколько частей.
Xml фаил (document.xml), находящийся в архиве (для тех кто не в курсе, docx можно распаковать в папку) занимает 80 Мб. Это без рисунков, если что, рисунки и вложения распиханы по папочкам.
1. Word 2016 для Win и MacOS не открывают исходник
2. Word 2013 для Win не открывает исходник
3. Как обычно выручил LibreOffice 5, но при замене албанских символов на машине без SSD диска виснет и вылетает по таймауту.
4. Etxt Антиплагиат разбиение слова форматированием игнорирует, в то же время оригинальность "до обработки" составляла 33%, оригинальность "после обработки" 18%. Антиплагиат.ру тупо показывает оригинальность 86%. Как говорится, хозяйке на заметку.

Отсюда возникает простенькая задачка, на которую сейчас, увы, совсем нет времени.
Небольшой скрипт на Perl, который в document.xml будет удалять все албанские символы и непонятное форматирование. Посмотрим, если такую ерунду увижу весной у студентов, то точно не поленюсь и напишу.

МЮрий 12.02.2016 14:39

В дополнение к ответу Hogfather:
1) MSWord 2010 файл открывает и размерчик у него под 9Мб. Файл почти не листается, т.к. Ворд подвисает.
2) Немного выручила отправка файла на Гугл почту. При открытии письма Гугл предлагает открыть файл в своем редакторе и вот она первая победа - файл теряет в размере до 2Мб. И по крайней мере начинает листаться. Что в нем вырезалось - загадка.
3) Пи - естественно ни чего не показывает, но встав курсором на конец абзаца (сразу после точки) нажатием Шифта и стрелочки двигаемся до конца не видимой части.
Эту не видимую хрень вставляем в заменить (поле заменить на что оставляем пустым). В итоге еще около 4000 замен (стираний) этой не видимой хрени. Ворд уже почти летает.
4) осталось не видимое разбиение слов
Цитата:

Сообщение от Hogfather (Сообщение 569566)
Небольшой скрипт на Perl

мне не под силу, но будем стараться далее, может на просторах Интернету это уже кто-то делал, но, по крайней мере, с текстом уже как-то можно работать.


Hogfather, спасибо.

svetl@n@ 14.02.2016 21:24

А как изначально делается это принудительное разбиение слов? Мне студентка тоже принесла такую статью. Божилась, что ничего с текстом не делала...((((
Благо объем статьи небольшой. Etxt показал хорошую уникальность, но ошибки тоже показал, позволил заподозрить неладное. Удалила все пробелы в словах механически после переноса текста из Etxt обратно в word, студентке дала задание обработать остаток статьи и потом проверить на антиплагиат. Прошло 2 недели, про статью она больше не заикается...)))))


Текущее время: 08:39. Часовой пояс GMT +3.

Powered by vBulletin® Version 3.8.8
Copyright ©2000 - 2024, vBulletin Solutions, Inc. Перевод: zCarot
© 2001—2024, «Аспирантура. Портал аспирантов»