Данная заметка Даффа Джонсона была опубликована 10 марта 2014 года на его блоге под заголовком «98% файлов в домене .com – это HTML, но 38% файлов в доме .gov - это PDF-файлы!». Приведена с небольшими сокращениями. Частично использован материал другой заметки на ту же тему, опубликованной 17 февраля 2014 года.
В течение нескольких лет я отслеживаю относительную популярность файловых форматов электронных документов – на рис.1 приведены данные по состоянию на февраль 2014 года (см. http://duff-johnson.com/2014/02/17/the-8-most-popular-document-formats-on-the-web/ ).
Рис.1. Доля PDF среди документных файловых форматов в Интернете (без учёта HTML-файлов) в 2011-2014 годах
Заодно я обратил внимание на то, что в домене .com (и, по крайней мере, в некоторых доменах верхнего ряда стран), как правило, гораздо более высок процент HTML файлов по сравнению с доменами .gov, .edu и .org .
Давайте начнем учитывать файлы формата HTML
Трудно отрицать, что HTML-файлы могут выполнять роль документов. Конечно, большая часть таких файлов играют на веб-сайтах вспомогательную роль, но некоторые из них -. возможно, многие – в той же степени документы, как и файлы форматов .XLS или .RTF. Давайте оставим (пока что) в стороне тот факт, что для отображения одного «документа» может потребоваться множество HTML-страниц.
Рис.2. Преобладание HTML-файлов в различных интернет-доменах (в процентах от общего числа «текстовых» файлов форматов HTML, PDF, DOC, DOCX, PPT, PPTX, XLS, XLSX, RTF, ODP, ODT, ODS, EPUB)
Итак, новое исследование включает в себя .HTML (и .HTM) –файлы. Встает, однако, вопрос о том, как отсеивать вспомогательные файлы?
Давайте посмотрим на 3 домена верхнего уровня
В плане распространенности форматов текстовых документов, интернет в целом - это более чем на 98% HTML, и в этом нет ничего удивительного.
В то же время, страницы, например, входа в систему - это не то, что мы обычно считаем документами. В значительном числе случаев (количество которых сложно оценить) HTML-файлы документами не являются. С другой стороны, (почти) все размещённые на веб-серверах для публичного доступа PDF- и DOCX-файлы выложены там для того, чтобы выполнять функции документов.
Рис.3. Диаграмма, отражающая распространенность файловых форматов в некоммерческих доменах .org, .gov и .edu (категория “Open XML” охватывает все офисные форматы Microsoft, а “ODx” – все вариации семейства офисных форматов ODF – Н.Х.)
Поскольку я пытаюсь понять, как организации используют файловые форматы для размещения своих документов, то решение ограничить область обследования некоммерческими доменами верхнего уровня было (достаточно грубой) попытка с моей стороны сфокусировать внимание на «институциональных» сайтах, которых предположительно должны выкладывать больше «документного» контента. Оказалось, что в этих доменах доля не-HTML контента намного больше по сравнению с коммерческими доменами.
Ясно, в первую очередь то, что только HTML, PDF и различные форматы семейства Open XML (эти файлы обычно создаются приложениями Microsoft Word, Excel и PowerPoint) имеют сколько-нибудь заметную долю от общего объема документных файлов. Отмечу, например, что Google смог отыскать лишь 4 (да, четыре!) EPUB-файла во всём домене .gov.
Дафф Джонсон (Duff Johnson)
Мой комментарий: Замечу, что полученные Джонсом результаты хорошо коррелируют с моими собственными данными, которые я собираю как для интернета в целом, так и для Рунета (см., например, http://rusrim.blogspot.ru/2013/07/blog-post_16.html ).
Источник: блог Даффа Джонсона
http://duff-johnson.com/2014/03/10/98-percent-of-dot-com-is-html-but-38-percent-of-dot-gov-is-pdf/
http://duff-johnson.com/2014/02/17/the-8-most-popular-document-formats-on-the-web/
Комментариев нет:
Отправить комментарий