«Интернет-Архив» (Internet Archive, https://archive.org/ ) - замечательное учреждение, которое играет всё более важную роль во время пандемии. На протяжении многих лет он входит в число 300 самых популярных веб-сайтов мира, и в настоящее время занимает в этом списке 209-е место, обеспечивая исходящую пропускную способность почти 60 Гбит/с на доступ к своей коллекции, включающей почти пол-триллиона заархивированных веб-страниц и много другого контента (см. https://www.alexa.com/siteinfo/archive.org ). «Интернет-Архив» делает это при бюджете менее 20 миллионов долларов в год (см. https://projects.propublica.org/nonprofits/organizations/943242767 ), обеспечивая при этом доступность на уровне 99,98%.
Руководитель группы базой инфраструктуры Джона Эдвардс (Jonah Edwards) выступил перед персоналом «Интернет-Архива» с докладом об инфраструктуре хранения организации (см. https://archive.org/details/jonah-edwards-presentation ).
Среди основных моментов этого доклада были следующие сведения:
- 750 серверов, возраст некоторых достигает 9 лет;
- 1300 виртуальных машин;
- 30 тысяч устройств хранения;
- 20 тысяч вращающихся дисков (при «парном» хранении - paired storage), используется смесь дисков ёмкостью 4,8,12,16 терабайт, и около 40% всего объёма байтов приходится на диски ёмкостью 16 Тб;
- почти 200 петабайт хранимой информации;
- темпы увеличения объёма архива более 25% в год;
- добавление 10–12 петабайт первичных данных в квартал;
- для хранения копии архива требуется 15 стоек с жёсткими дисками емкостью 16 Тб;
- на данный момент используется ~ 75 стоек;
- в настоящее время обеспечивается пропускная способность около 55 Гб/с, в ближайшее время планируется выйти на уровень ~ 80 Гб/с.
Эдвардс отметил, что основными причинами отключений являются:
- обрывы оптоволокна;
- проблемы с качеством электроснабжения;
- перебои с подачей электроэнергии.
Забегая вперед, Эдвардс задал вопросом: «Является ли модель парного хранения подходящей»? В настоящее время у неё есть следующие ограничения:
- элементы архива - это каталоги на жёстком диске;
- базовая единица хранения – жёсткий диск;
- жёсткие диски реплицируются по центрам обработки данных;
- доступ к контенту предоставляется с использованием всех (= обеих?) копий.
Большая проблема с отношением к диску как к единице хранения при «парном» хранении заключается в том, что, когда диск выходит из строя, новый член пары должен быть создан путем считывания всего контента с «хорошего» члена пары и записи его целиком на нового члена. Этот процесс требует времени, в течение которого исправный член пары находится под высокой нагрузкой и, следовательно, может столкнуться с «коррелированным отказом» (см. пост https://blog.dshr.org/2021/03/correlated-failures.html ). Новый член пары будет в начале своей жизни, поэтому он будет подвержен риску «детской смертности», - хотя справедливости ради следует сказать, что производители жёстких дисков уделили много внимания снижению детской смертности (см. пост https://blog.dshr.org/2017/10/storage-failures-in-field.html ). Эдвардс отметил, что более новые диски в достаточной степени быстрее 8-терабайтных дисков, что позволяет снизить риск, - однако по мере того, как диски становятся более ёмкими, для решения данной проблемы потребуются изменения в архитектуре.
Ещё одна проблема заключается в том, что серверы в стойках «Интернет-Архива» обеспечивают как необходимое место хранения, так и обработку. Процессоры становятся быстрее, но не настолько, чтобы не отставать от увеличения плотности жёстких дисков. Увеличение объема хранения данных в расчёте на сервер и на стойку также увеличивает потребность в полосе пропускания для каждой стойки.
Дэвид Розенталь (David Rosenthal)
Источник: DSHR's Blog
https://blog.dshr.org/2021/03/internet-archive-storage.html
Комментариев нет:
Отправить комментарий