пятница, 11 января 2013 г.

Библиотека Конгресса США начала формирование доступного для исследователей архива, содержащего 170 миллиардов твит-сообщений


Заметка журналиста Дениэла Тердимана (Daniel Terdiman – на фото) была опубликована на сайте CNET News 4 января 2013 года.

Потребовалось четыре года на создание первых 21 миллиарда твит-сообщений. Сейчас пользователи Твиттера генерируют почти полмиллиарда твитов в день, и Библиотека Конгресса США собирается все их заархивировать и проиндексировать.

4 января 2013 года Библиотека Конгресса США сообщила о том, что она наладила устойчивый защищённый процесс сбора и обеспечения сохранности всего потока поступающих твитов, и что начата работа над организацией и формированием пригодного для проведения исследовательской работы архива на основе более чем 170 млрд. твит-сообщений.

В соответствии с соглашением, заключенным в 2010 году между Библиотекой Конгресса и компанией Twitter, владелец микроблог-системы предоставляет Библиотеке весь поток  публичных твит-сообщений, начиная с 21 миллиарда твитов, созданных в период с 2006 по апрель 2010 года, к которым добавились созданные впоследствии ещё 150 млрд. сообщений.

В заявлении о текущем состоянии проекта (см. http://blogs.loc.gov/loc/2013/01/update-on-the-twitter-archive-at-the-library-of-congress/ ), Библиотека сообщила, что:
Для Библиотеки Конгресса Twitter представляет собой новый вид коллекции, который, однако, важен для неё с точки зрения выполнения своей миссии. По мере того, как общество начинает использовать социальные сети в качестве основного метода общения и творческого самовыражения, социальные сети дополняют, а в некоторых случаях заменяют письма, дневники, периодические издания и другие источники, регулярно собираемые научно-исследовательскими библиотеками.

Хотя до сих пор Библиотека занималась накоплением материала и стабилизацией архива твитов и не предлагала доступ к нему для исследователей, мы, тем не менее, получили около 400 запросов от исследователей из различных стран мира. Представляющие интерес для исследователей темы варьируются от повторяющихся закономерностей роста гражданской журналистики и активности выборных должностных лиц до, например, отслеживания объёмов вакцинации и прогнозирования активности на фондовом рынке.
Библиотека Конгресса так до конца и не разъяснила, каким образом будет использоваться текущий архив, но опубликовала «белую книгу» (см.  http://www.loc.gov/today/pr/2013/files/twitter_report_2013jan.pdf ) с описанием проекта.

Этот проект, конечно, отличается от недавно анонсированной инициативы компании Twitter, предусматривающей предоставление каждому пользователю микроблога доступа к его полной твиттер-истории. Эта работа уже ведется, хотя к настоящему моменту лишь некоторые пользователи получили такой доступ.

Интересно отметить, что Библиотека Конгресса в своей «белой книге» сообщила о том, что суммарный объём двух полных копий архива, включающего 170 миллиардов твитов,  составляет около 133 терабайт (т.е. на каждый заархивированный твит вместе с его метаданными в среднем приходится 390 байт, что в 2,8 раза превышает максимальную длину собственно твита – Н.Х.). Каждый твит сопровождают около 50 полей метаданных.

Дениэл Тердиман  (Daniel Terdiman)

Мой комментарий: В «белой книге» Библиотеки Конгресса о процессе архивации твитов сказано следующее:
Хотя Библиотека регулярно принимает на хранение электронный контент, поток твит-сообщений стал первой коллекцией, которая пополняется в непрерывном режиме. Для передачи данных Твиттера Библиотека использовала техническую инфраструктуру и workflow-процессы, подготовленные ранее для работы с другим электронным контентом.

Библиотека использует полностью автоматизированный процесс принятия новых данных. Программный агент Gnip получает твиты от компании Twitter в виде потока информации в реальном времени. Gnip организует поток твитов, формируя файлы из сообщений, полученных за очередной час, и в течение дня загружает эти файлы на защищенный сервер, с которого Библиотека затем их забирает.

Когда очередной файл сформирован, Библиотека загружает его во временное пространство на сервере, проверяет материалы на полноту и отсутствие сбоев при передаче, собирает статистику о количестве твитов в каждом таком файле, копирует файл на ленту и удаляет его из временного пространства на сервере.

Техническая инфраструктура для архива твитов поддерживает общепринятую в Библиотеке практику мониторинга и управления электронным контентом в составе коллекций. Для обеспечения долговременной сохранности Библиотека использует библиотеки картриджей с магнитной лентой. В интересах обеспечения защищённости и сохранности файлы копируются в два географически удаленных друг от друга ленточных архива.

Объем ежедневно получаемых Библиотекой твитов вырос со 140 млн. в феврале 2011 года до почти полумиллиарда твитов в день в октябре 2012 года.
В то же время Библиотека столкнулась с серьёзными проблемами при обеспечении доступа к архиву:
Твиттер-архив представляет собой новый тип коллекций. Коллекция твитов не только очень велика по объёму, но она также ежедневно пополняется быстро увеличивающимися темпами. Также велико разнообразие твитов, учитывая различия между оригинальными твитами; повторами (ретвитами) средствами Твиттера; ретвитами, отмеченными в качестве таковых вручную; твитами, содержащими гиперссылки или графические образы; и прочими вариациями…

Библиотека пока не представляет исследователям доступ к архиву. В настоящее время выполнение одного поиска по архиву фиксированного объёма 2006-2010 годов с использованием систем Библиотеки может занять до 24 часов. Это неподходящая ситуация для открытия доступа для исследователей, поскольку в подобных условиях возможности поиска крайне ограничены.

Библиотека провела оценку существующих программных и аппаратных решений, позволяющих разделять большие наборы данных на сегменты и вести по сегментам параллельный поиск, и за счет этого сокращающих время поиска (т.н. «распределенных и параллельных вычислений»). Для достижения значительного сокращения времени поиска, однако, потребуется обширная инфраструктура из сотен, если не тысяч, серверов. Такой подход экономически неоправдан и непрактичен для государственного учреждения…

Совершенно очевидно, что технологии, обеспечивающие исследователям доступ к большим наборам данных, не столь развиты, как технологии, поддерживающие создание и распространение этих данных. Даже в организациях частного сектора еще не внедрены экономически эффективные коммерческие решения такого рода из-за сложности данной задачи и требований к ресурсам.
Источник: сайт CNET News
http://news.cnet.com/8301-1023_3-57562210-93/library-of-congress-digs-in-to-full-archive-of-170-billion-tweets/

Комментариев нет:

Отправить комментарий