четверг, 15 июля 2021 г.

Хранение данных в «Интернет Архиве»

Данный пост д-ра Дэвида Розенталя (David Rosenthal – на фото) была опубликован на его блоге (DSHR's Blog) 25 марта 2021 года.

«Интернет-Архив» (Internet Archive, https://archive.org/ ) - замечательное учреждение, которое играет всё более важную роль во время пандемии. На протяжении многих лет он входит в число 300 самых популярных веб-сайтов мира, и в настоящее время занимает в этом списке 209-е место, обеспечивая исходящую пропускную способность почти 60 Гбит/с на доступ к своей коллекции, включающей почти пол-триллиона заархивированных веб-страниц и много другого контента (см. https://www.alexa.com/siteinfo/archive.org ). «Интернет-Архив» делает это при бюджете менее 20 миллионов долларов в год (см. https://projects.propublica.org/nonprofits/organizations/943242767 ), обеспечивая при этом  доступность на уровне 99,98%.

Руководитель группы базой инфраструктуры Джона Эдвардс (Jonah Edwards) выступил перед персоналом «Интернет-Архива» с докладом об инфраструктуре хранения организации (см. https://archive.org/details/jonah-edwards-presentation ).

Среди основных моментов этого доклада были следующие сведения:

  • 750 серверов, возраст некоторых достигает 9 лет;

  • 1300 виртуальных машин;

  • 30 тысяч устройств хранения;

  • 20 тысяч вращающихся дисков (при «парном» хранении - paired storage), используется смесь дисков ёмкостью 4,8,12,16 терабайт, и около 40% всего объёма байтов приходится на диски ёмкостью 16 Тб;

  • почти 200 петабайт хранимой информации;

  • темпы увеличения объёма архива более 25% в год;

  • добавление 10–12 петабайт первичных данных в квартал;

  • для хранения копии архива требуется 15 стоек с жёсткими дисками емкостью 16 Тб;

  • на данный момент используется ~ 75 стоек;

  • в настоящее время обеспечивается пропускная способность около 55 Гб/с, в ближайшее время планируется выйти на уровень ~ 80 Гб/с.

Эдвардс отметил, что основными причинами отключений являются:

  • обрывы оптоволокна;

  • проблемы с качеством электроснабжения;

  • перебои с подачей электроэнергии.

Забегая вперед, Эдвардс задал вопросом: «Является ли модель парного хранения подходящей»? В настоящее время у неё есть следующие ограничения:

  • элементы архива - это каталоги на жёстком диске;

  • базовая единица хранения – жёсткий диск;

  • жёсткие диски реплицируются по центрам обработки данных;

  • доступ к контенту предоставляется с использованием всех (= обеих?) копий.

Большая проблема с отношением к диску как к единице хранения при «парном» хранении заключается в том, что, когда диск выходит из строя, новый член пары должен быть создан путем считывания всего контента с «хорошего» члена пары и записи его целиком на нового члена. Этот процесс требует времени, в течение которого исправный член пары находится под высокой нагрузкой и, следовательно, может столкнуться с «коррелированным отказом» (см. пост https://blog.dshr.org/2021/03/correlated-failures.html ). Новый член пары будет в начале своей жизни, поэтому он будет подвержен риску «детской смертности», - хотя справедливости ради следует сказать, что производители жёстких дисков уделили много внимания снижению детской смертности (см. пост https://blog.dshr.org/2017/10/storage-failures-in-field.html ). Эдвардс отметил, что более новые диски в достаточной степени быстрее 8-терабайтных дисков, что позволяет снизить риск, - однако по мере того, как диски становятся более ёмкими, для решения данной проблемы потребуются изменения в архитектуре.

Ещё одна проблема заключается в том, что серверы в стойках «Интернет-Архива» обеспечивают как необходимое место хранения, так и обработку. Процессоры становятся быстрее, но не настолько, чтобы не отставать от увеличения плотности жёстких дисков. Увеличение объема хранения данных в расчёте на сервер и на стойку также увеличивает потребность в полосе пропускания для каждой стойки.

Дэвид Розенталь (David Rosenthal)


Источник: DSHR's Blog
https://blog.dshr.org/2021/03/internet-archive-storage.html

Комментариев нет:

Отправить комментарий