Несколько лет назад приходилось работать со сложным ETL процессом, на одном из шагов которого требовалось определить, есть ли в документе Word изображения или другие, нетекстовые вложения. Производилось все вручную, на глаз, по размеру файла. Скорость выполнения процесса всех устраивала и никому не приходило в голову, погуглить автоматизацию этого унылого процесса. Сегодня решил посмотреть на эти дела, вооружившись новым опытом.
Оказывается документ docx представляет собой обычный zip архив, и его содержимое можно посмотреть с помощью команды:
uzip -l файлИзображения находятся в папке /media, следовательно:
uzip -l файл | find "/media"А файлы .doc преспокойно конвертируются в .docx c помощью Пакета обеспечения совместимости Microsoft Office для форматов файлов Word, Excel и PowerPoint.
А лапти из 5 отдела ООУ наверное до сих пор перебирают файлики своими кривыми ручками.
Комментарии
Отправить комментарий