Загальне
Бочаров Б.П., Анисимов А.М., Воеводина М.Ю.
Харьковский национальный университет городского хозяйства
ОЧИСТКА КУРСА ОТ МУСОРА WORD
На момент написания доклада на сайте дистанционного обучения Харьковского национального университета городского хозяйства находилось 1002 курса и 18954 пользователя. Хранить и обрабатывать такой объем информации достаточно сложно, причем технические и организационные проблемы постоянно возрастают. В этих условиях нет альтернативы улучшению качества курсов и устранению явных недостатков и ошибок.
Одна из таких явных ошибок - вставка информации с помощью копипаста из WORD. Огромное количество паразитных тегов, попадающих в курс, может заставить глючить любой браузер и нарушить информационную структуру курса. Особенно неприятно для Moodle вставка мегабайтной картинки в формате base64. В этом случае (неоднократно проверено на практике) пропадает возможность редактировать курс, восстановить ее можно только удалением огромного текста непосредственно из таблицы MySQL.
На ранней стадии внедрения Moodle мы отнеслись к этой проблеме достаточно беспечно, поэтому у нас в настоящий момент есть множество работающих курсов, содержащих (возможно) мусор Word. К сожалению, нам пришлось нарушить правило «Работает - не трогай».
Мы проверяем на наличие мусора все новые курсы, которые создаются преподавателями в процессе изучения курса «Теория и практика работы в Moodle» (см. http://2013.moodlemoot.in.ua/course/view.php?id=25). Кроме того, проверка на наличие мусора Word (вернее, отсутствие этого мусора) является одним из основных критериев аттестации дистанционных курсов в нашем университете.
В докладе представлена программа поиска мусора Word в курсе Moodle. Программа анализирует файл moodle.xml из резервной копии курса и выводит найденные паразитные тэги в файл HTML.
В результате выполнения программы формируется html-файл crXXXXX.html (XXXXX - идентификатор курса).
Для каждой найденной порции мусора выводится следующая информация.
1. Номер по порядку.
2. Тэги XML - служебная информация, которая может помочь локализировать ошибку. В настоящее время алгоритм локализации не разработан. Не исключено, что он и не нужен, потому что преподаватель лучше любой программы знает свой курс и легко может определить ошибку по следующему полю.
3. Что видно - в этом поле выводится мусор так, как он виден в курсе. По этому полю можно найти этот мусор и удалить его.
4. Что на самом деле - здесь показано, что Moodle записал в свою базу.К докладу приложен файл Word_test.zip, в котором представлена полная версия программы поиска мусора Word в курсе Moodle.
Рекомендация.
Для обработки информации используется универсальная программа работы с текстовыми файлами (интерпретатор GAWK). Эта программа была перекомпилирована для Windows (из исходных кодов Linux) еще в прошлом веке и может не понимать сложные и длинные полные имена файлов (например, C:Администратор/Мои документы/Мусор WORD/ moodle.xml).
Рекомендуем создать папку непосредственно на жестком диске (например, c:\word_test) и распаковать в эту папку файлы из архива