вторник, 16 июля 2013 г.

Статистика распространенности файловых форматов в Интернете


Данный пост я решила написать после участия в заседании Экспертного совета по электронному документообороту при Минкомсвязи, где среди прочего обсуждался вопрос о том, в каком же формате нужно вести межведомственное электронное взаимодействие.

С моей точки зрения, объективным индикатором распространенности и популярности тех или иных форматов служит статистика распространенности форматов в Интернете. Я с 2007 года регулярно собираю данные о том, в каких форматах в мировом и российском Интернете выкладываются текстовые и графические файлы. Некоторые из этих результатов представлены на рис.1 – 5.

На рис.1 и 2 показано распределение по форматам файлов, выложенных в мировом и российском Интернете, по состоянию на ноябрь 2007 года. В мировом интернете доминировал формат PDF, а в российском - форматы DOC и PDF. Файлы в форматах ODF и OOXML в тот период присутствовали в незначительном количестве.

Рис.1. Распределение выложенных в мировом Интернете файлов по форматам, ноябрь 2007 года (Данные собраны с помощью поиска в Google)

Рис.2. Распределение выложенных в российском Интернете файлов по форматам, ноябрь 2007 года.

Аналогичные данные на июль 2013 года показаны на рис. 3-5:

Рис.3. Распределение выложенных в мировом Интернете файлов по форматам, июль 2013 года.

Рис.4. Распределение выложенных в российском сегменте Интернета .RU файлов по форматам, июль 2013 года

Рис.5. Распределение выложенных в российском сегменте Интернета .РФ файлов по форматам, июль 2013 года

Из этих данных видно, что формат PDF по-прежнему доминирует в мировом Интернете. Интересно, что он также преобладает в сегменте .РФ, который пока в основном используется российскими государственными органами. В сегменте .RU формат PDF делит «пальму первенства» с форматом DOC.

Формат OOXML (.DOCX, .PPTX, .XLSX) сумел завоевать заметную долю среди представленных в Интернете форматов, причем наиболее широко он представлен в российском Интернет-пространстве. Формат ODF (.ODF, .ODT, .ODP, .ODG, .ODC, .SXW) оказался в этом отношении менее удачлив, и в Интернете он представлен пока слабо.

Сохраняется являющаяся особенностью России любовь к «почти открытому» формату .RTF.

Как мне кажется, для обеспечения удобства граждан и поддержки честной конкуренции на рынке программного обеспечения, желательно, чтобы государственные органы принимали электронные документы от физических и юридических лиц как в открытых форматах (в т.ч. в ODF), так и в наиболее распространенных на данный момент форматах, включая старые форматы Майкрософт (.DOC, .XLS, .PPT), формат RTF и т.д.

Эти особенности стоит учесть и при планировании деятельности государственных электронных архивов, которые в скором времени – как ни тормозит решение этого вопроса Правительство РФ и подчиненные ему ведомства – все же придётся создать.

13 комментариев:

  1. Не известны методики сбора и обработки информации для графиков. Несолидно и статья получилась ни о чем. Так и я могу нарисовать любой график.

    >>>Как мне кажется, для обеспечения удобства
    >>>граждан и поддержки честной конкуренции
    >>>на рынке программного обеспечения, желательно,
    >>>чтобы государственные органы принимали
    >>>электронные документы от физических
    >>>и юридических лиц как в открытых форматах
    >>>(в т.ч. в ODF), так и в наиболее
    >>>распространенных на данный момент форматах,
    >>>включая старые форматы Майкрософт
    >>>(.DOC, .XLS, .PPT), формат RTF и т.д.

    1)Ну ведь это надо же, а!... Оказывается форматы от M$ завоевали свое место под солнцем в результате тяжелой и не равной борьбы с конкурентами.
    2)Я еще не видел ни одного государственного органа, который принимает документы в формате odf, все больше старые и новые "стандарты" от M$. Так что их (гос. органы)придется обязать принимать документы в т. ч. и в стандарте odf.
    3)Все это отмазка и лазейка для любителей госзакупок, коим M$ всегда являлось. Сделают де-юре стандартом ooxml сохранится необходимость закупок лицензий M$, а на развитие отечественного ПО на базе odf нашим чинушам можно будет забить, т. к. M$ за всех уже подумала

    ОтветитьУдалить
  2. "Не известны методики сбора и обработки информации для графиков." - Методика, вообще-то, очевидна любому ИТ-специалисту :) Используется запрос в Google "filetype:xxx" или "filetype:xxx site:yyy". Можете предложить что-то лучше? - Предлагайте! :)

    "Так и я могу нарисовать любой график" - Что-то я в этом сомневаюсь! :)

    "Все это отмазка и лазейка для любителей госзакупок, коим M$ всегда являлось." - А про коррупционное протаскивание открытого ПО в ряде регионов Вы не слышали? Уверена, найдутся желающие наварить денежку и на протаскивании самого распространенного открытого формата - PDF.

    ОтветитьУдалить
  3. >>>Используется запрос в Google "filetype:xxx" или "filetype:xxx site:yyy"
    Гугль как статистический инструмент? O_O. Это что-то новое.

    >>>- А про коррупционное протаскивание открытого ПО в ряде регионов Вы не слышали?
    Нет, запрос в Гугле ни чего не дал. :-)) или вы это про удачные переходы германских IT-шников на СПО?


    Стандарты от M$ стали стандартами в результате всеобщей IT-безграмотности и начхательства на стандарты вообще. M$ "продавливает в массы" свой недоделанный продукт, смотрит сквозь пальцы на его "пиратское" распространение, неистово демпингует. Ждет, пока у птички клювик увязнет. Потом начинает предъявлять свои права гос-ву и в очередной раз требовать борьбы с "пиратством".

    >>>Уверена, найдутся желающие наварить денежку и на протаскивании самого распространенного открытого формата - PDF.
    А как же. Adobe уже побежала за ложкой.

    ОтветитьУдалить
    Ответы
    1. "Гугль как статистический инструмент? O_O. Это что-то новое." - Интересно, в каком ВУЗе Вы получали образование и по какой специальности? :) Троллить, уважаемый, может каждый, а Вы вот предложите собственный инструмент. Слабо, а?

      "А про коррупционное протаскивание открытого ПО в ряде регионов Вы не слышали?
      - Нет, запрос в Гугле ни чего не дал." - Узковат, однако, Ваш круг источников информации. Что, и Ваши друзья-Майкрософтофобы об этом тоже не слышали?

      "Стандарты от M$ стали стандартами в результате всеобщей IT-безграмотности" - Это Ваша личная (IMHO предвзятая) точка зрения. Выживают только удачные стандарты, и если OOXML распространяется (несмотря на кампанию против него, которая кое-где велась, а в отдельных местах до сих пор ведется на государственном и региональном уровне), то этим всё сказано.

      "M$ ...неистово демпингует" - Как?! Ещё "вчера" нас убеждали в необоримой дешевизне использования ODF и открытого ПО! :) А если серьёзно, то это здорово: пусть теперь и другая сторона демпингует, а мы, потребители, от этого немножко выиграем :)

      "Adobe уже побежала за ложкой." - Наивный Вы человек... Найдутся люди с русскими фамилиями...

      Удалить
    2. Не, бОлее распространённый формат - это PHP !!!
      Результатов: примерно 10 900 000 000

      Удалить
    3. и HTML - Результатов: примерно 18 050 000 000

      Удалить
    4. Вы и правда думаете, что офисные документы кто-то пишет на PHP? Ну-ну...

      Удалить
  4. "МИНИСТЕРСТВО ЭКОНОМИЧЕСКОГО РАЗВИТИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
    N 646

    ФЕДЕРАЛЬНОЕ КАЗНАЧЕЙСТВО
    N 21н

    ПРИКАЗ
    от 14 декабря 2010 года

    ОБ УТВЕРЖДЕНИИ ПОЛОЖЕНИЯ
    О ПОЛЬЗОВАНИИ ОФИЦИАЛЬНЫМ САЙТОМ РОССИЙСКОЙ ФЕДЕРАЦИИ
    В СЕТИ "ИНТЕРНЕТ" ДЛЯ РАЗМЕЩЕНИЯ ИНФОРМАЦИИ О РАЗМЕЩЕНИИ
    ЗАКАЗОВ НА ПОСТАВКИ ТОВАРОВ, ВЫПОЛНЕНИЕ РАБОТ, ОКАЗАНИЕ
    УСЛУГ И О ТРЕБОВАНИЯХ К ТЕХНОЛОГИЧЕСКИМ, ПРОГРАММНЫМ,
    ЛИНГВИСТИЧЕСКИМ, ПРАВОВЫМ И ОРГАНИЗАЦИОННЫМ СРЕДСТВАМ
    ОБЕСПЕЧЕНИЯ ПОЛЬЗОВАНИЯ УКАЗАННЫМ САЙТОМ

    7. Программное обеспечение и технологические средства ведения официального сайта должны обеспечивать доступ пользователей для ознакомления с информацией, размещенной на официальном сайте, на основе распространенных веб-обозревателей. При этом не должна предусматриваться установка на компьютеры пользователей специально созданных для просмотра официального сайта программных и технологических средств."

    Хот что делайте, а формат DOC. при помощи названного вэб-обозревателя не открыть, в отлbчае например от PDF

    ОтветитьУдалить
  5. Анонимный писал(а): "DOC. при помощи названного вэб-обозревателя не открыть"

    Для справки: Ни PDF, ни ODT без установки дополнительного ПО невозможно посмотреть ни в одном из браузеров.

    Читать нормативные документы нужно целиком, а не только то, что нравится. Сказано, что не должны требоваться средства, "специально созданные для просмотра официального сайта" - и, соответственно, вполне допустимо пользоваться известными существующими средствами (да хоть Google Docs), специально для данного сайта не создававшимися :)

    ОтветитьУдалить
  6. "документооборот Минкомсвязи" в Гугле тоже оказывается индексируется!???

    ОтветитьУдалить
    Ответы
    1. Я лишь хочу указать на то, что "Статистика распространенности файловых форматов в ИНТЕРНЕТе" к "электронному документообороту ... в каком же формате нужно вести МЕЖВЕДОМСТВЕННОЕ электронное взаимодействие" отношения НИКАКОГО не имеет!!!

      Удалить
    2. Если подходить к межведомственному документообороту по принципу "что хочу, то и ворочу, и плевать мне, будет это кому-то удобно или нет" - то Вы, конечно, правы. Однако умные руководители стараются организовывать межведомственное взаимодействие так, чтобы никого на уши не ставить - в частности, учитывают, какие форматы привыкли использовать сами государственные органы, и какие форматы они используют при взаимодействии с населением и организациями.

      В одночасье перевести даже госорганы на какой-то один формат не удастся (у кого-то нет программного обеспечения, кому-то он вообще не подходит), не говоря уже о гражданах...

      Кстати, как Вы думаете, какие форматы преобладают в наших государственных органах? Рискнете произнести вслух? :)

      Удалить
    3. Зачем рисковать, если ответ очевиден - до недавнего времени пиратские Windows + Word/Excel = doc/xls

      Удалить