вторник, 7 июля 2015 г.

50 самых распространенных файловых форматов в электронном хранилище Национальной Библиотеки Голландии


Данная заметка Йохана ван дер Книйфа (Johan van der Knijff – на фото) была опубликована 29 апреля 2015 года на блоге KB Research («Научные исследования Национальной Библиотеки Голландии»). Приводится с сокращениями.

Текущая версия системы, поддерживающей электронное хранилище Национальной Библиотеки (  e-Depot, https://www.kb.nl/en/organisation/research-expertise/long-term-usability-of-digital-resources/the-e-depot-project-cycle) пока что не включает в себя каких-либо инструментов для автоматизированной идентификации файловых форматов. Наша предыдущая система DIAS также не имела такой функциональной возможности. Как следствие, информация о файловых форматах, присутствующих в наших электронных коллекциях, в значительной степени основана на заполненных издателем метаданных и на расширениях имён файлов, которые не обязательно правильные.

Кроме того, ранее проведенный анализ выявил ряд достаточно распространенных расширений файлов, которые непросто связать с определенным форматом. Одним из последствий этой ситуации являлось то, что мы не могли с уверенностью сказать (оставляя в стороне очевидно широко распространенные форматы), в какой степени пользователи были способны просматривать контент электронного хранилища на компьютерах, установленных в наших читальных залах.

Чтобы получить более четкое представление о форматах в нашей коллекции, мы провели анализ «топ 50» самых распространенных расширений файлов в нашем хранилище e-Depot: какие форматы соответствуют этим расширениям, можно ли их автоматически идентифицировать, и можем ли мы отображать их в наших читальных залах? В данном посте обобщены основные результаты этой работы.

Подсчет числа файлов с различными расширениями

В качестве первого шага, мы составили список всех уникальных расширений, с указанием числа таких файлов в нашем хранилище. Важно отметить, что мы охватили все файлы в файловой системе, включая как основные файлы, так и дополнительный контент и (оригинальные) файлы метаданных. Приведенная ниже диаграмма показывает количество файлов для каждого расширения. Данные отсортированы в порядке убывания (обратите внимание на то, что вертикальная ось имеет логарифмическую шкалу):

Было выявлено 1163 уникальных расширения. Сюрпризом стало то, что .gif оказалось самым распространенным расширением, в хранилище имеется 34 миллиона таких файлов. В общей сложности, 10 наиболее распространенным расширениям (gif, xml, jpg, sml, pdf, raw, tif, oa3, doc, htm) соответствует 99% всех файлов в электронном хранилище. Существует длинный «хвост» расширений, которые встречаются у менее чем 10 файлов, и они составляют более половины всех уникальных расширений ...

Полный список слишком длинный, чтобы включить его в это сообщение целиком, но Вы можете познакомиться с ним по адресу: https://gist.github.com/bitsgalore/21028de28b7f05066585#file-extensionskbdm-md

Йохан ван дер Книйф (Johan van der Knijff)

Источник: блог «KB Research»
http://blog.kbresearch.nl/2015/04/29/top-50-file-formats-in-the-kb-e-depot/ 

Комментариев нет:

Отправка комментария