четверг, 13 июня 2019 г.

Дэвид Розенталь: Обзор технологии хранения данных в ДНК


Заметка д-ра Дэвида Розенталя (David Rosenthal – на фото, см. также https://www.lockss.org/contact-us/dshr/ ) была опубликована на его блоге (DSHR's Blog) 16 мая 2019 года.

Луис Сезе (Luis Ceze), Джефф Нивала (Jeff Nivala) и Карин Штраус (Karin Strauss) из Вашингтонского университета и исследовательской группы Microsoft опубликовали захватывающий обзор истории и современного состояния молекулярного хранения цифровых данных с использованием ДНК (Molecular digital data storage using DNA, https://doi.org/10.1038/s41576-019-0125-3 ). В аннотации на статью сказано:
«Молекулярное хранение данных является привлекательной альтернативой для целей плотного и долговечного хранения информации, которое крайне необходимо для преодоления растущего разрыва между производством информации и возможностями для хранения данных. ДНК является ярким примером эффективного архивного хранения данных в молекулярной форме.

В настоящем обзоре мы даём обзор самого процесса, текущего положения дел в этой области и проблем, которые необходимо решить для массового внедрения данной технологии.

Мы также даём обзор области систем молекулярной памяти in vivo (в живом организме – Н.Х.), которые записывают и хранят информацию в ДНК живых клеток, и которые, вместе с хранением данных в ДНК in vitro (вне живого организма, в культуре клеток – Н.Х.), принадлежат к расширяющейся области пересечения компьютерных систем и биотехнологий.»
Обзор включает в себя обширную библиографию.

На данном этапе развития технологии крайне полезно иметь авторитетный обзор этой области, особенно для борьбы с ажиотажем, который, по-видимому, всегда возникает вокруг хранения данных в ДНК. Специалисты совместной исследовательской группы Вашингтонского университета и Microsoft (UW/MSFT) по своей квалификации лучше, чем кто-либо, подходят для подготовки такого обзора.

Некоторые, возможно, считают, что я в своих постах преувеличивал сложность продвижения продукта для хранения данных в ДНК на рынок, когда писал (см. https://blog.dshr.org/2018/02/dnas-niche-in-storage-market.html ):
«Инженеры, перед Вами стоит вызов за менее чем 10 лет увеличить скорость синтеза в четверть триллиона раз при одновременном снижении стоимости в пятьдесят триллионов раз, при этом расходуя не более 24 миллионов долларов в год.» (1 триллион = 10**12 – Н.Х.)
Одна из вещей, относительно которых группа UW/MSFT всегда была впечатляюще реалистичной, - это масштаб технологических проблем, с которыми они сталкиваются. Они более-менее согласны с моей оценкой, когда пишут (см. https://doi.org/10.1038/s41576-019-0125-3 ):
«Текущая результирующая пропускная способность при записи данных в систему хранения на основе ДНК, скорее всего, будет порядка нескольких килобайт в секунду.

По нашим оценкам, система, способная через 10 лет конкурировать с популярными облачными системами архивного хранения, должна будет обеспечивать пропускную способность при записи и чтении, измеряемую гигабайтами в секунду. Это разрыв на 6 порядков в части синтеза и примерно на 2–3 порядка в части расшифровки последовательности генов (sequencing).

Что касается разницы в затратах, то стоимость хранения на ленте в 2016 году составляла около 16 долларов США за терабайт, и ежегодно снижается примерно на 10% в год. Затраты на синтез ДНК, как правило, не раскрываются, но ведущий аналитик отрасли Роберт Карлсон (Robert Carlson) оценивает стоимость синтеза массива приблизительно в 0,0001 долл. США за базовую аминокислоту, что в итоге составляет 800 млн. долл. США за терабайт – т.е. на 7–8 порядков выше, чем у ленты.»
К сожалению, чтобы вытеснить ленту с рынка, недостаточно обеспечить конкурентоспособную стоимость записи по сравнению с лентой. ДНК-хранение должно быть значительно дешевле.

Обзор в академическом журнале - не место для маркетингового анализа, который я провел в своей публикации «Ниша ДНК-решений на рынке хранения» (DNA's Niche in the Storage Market, https://blog.dshr.org/2018/02/dnas-niche-in-storage-market.html ), поэтому следующие три придирки - это именно придирки.

Во-первых, Сезе и соавторы не учитывают самый важный фактор стоимости, когда пишут:
«Плотность, долговечность и расходы на энергию в состоянии покоя являются основными факторами для архивного хранения, целью которого является хранение огромных объемов данных для использования в будущем в долговременной перспективе.»
Одной из фундаментальных экономических проблем, которую я не обсуждал в статье «Архивные носители информации – не самый процветающий бизнес» (Archival Media: Not A Good Business, https://blog.dshr.org/2018/03/archival-media-not-good-business.html , перевод на русский язык см. https://rusrim.blogspot.com/2018/03/blog-post_15.html - Н.Х.),  является барьер, связанный с эпидемией ориентации общества на краткосрочную перспективу (short-termism, см. https://blog.dshr.org/2014/07/discounting-far-future.html ).

Как показала наша работа над экономическими моделями долговременного хранения (The Economics of Long-Term Digital Storage, http://www.lockss.org/locksswp/wp-content/uploads/2012/09/unesco2012.pdf ), долговечные носители информации, требующие высоких капитальных затрат и затрат на запись, но с низкими эксплуатационными расходами, - находятся в крайне невыгодном положении по сравнению с недолговечными носителями с низкими капитальными затратами, но более высокими эксплуатационными расходами (включая затраты на регулярную миграцию на носители следующего поколения).

Во многом именно из-за данного барьера лента занимает столь небольшую часть общего рынка средств и систем хранения. В приведенной выше цитате авторам следовало включить «капитальные затраты на систему».

Во-вторых, стоимость роботизированного жидкостного оборудования для записи и чтения в системах ДНК-хранения, вероятно, будет оставаться довольно высокой. Как и в случае с «холодным» Blu-Ray-хранилищем Facebook (см. https://blog.dshr.org/2014/09/more-on-facebooks-cold-storage.html ), эти расходы необходимо амортизировать посредством хранения большого объема данных. Таким образом, с экономической точки зрения ДНК-хранение, вероятно, лучше всего подойдёт для систем масштаба центров обработки данных, что делает маркетинговые проблемы еще более сложными, потому таких потенциальных клиентов очень немного. Все они намного крупнее любого поставщика устройств хранения данных и, ввиду этого, способны отжимать маржу поставщика устройств, как  они это делают на рынках жестких дисков и флеш-памяти (см. https://blog.dshr.org/2019/05/demand-is-even-less-insatiable-than-it.html ).

В-третьих, Сезе и соавторы пишут (см. https://doi.org/10.1038/s41576-019-0125-3 ):
«Использование ДНК для хранения данных обеспечивает плотность до 10**18 байт на кубический мм, что примерно на шесть порядков плотнее, чем у самых плотных носителей информации, доступных сегодня.»
В своей заметке «Ниша технологий на основе ДНК на рынке хранения информации» (DNA's Niche in the Storage Market, https://blog.dshr.org/2018/02/dnas-niche-in-storage-market.html ) я сравнил плотность ДНК-носителя с плотностью жёсткого диска:
«Современные жёсткие диски хранят 1,75 ТБ пользовательских данных на пластину в магнитном слое толщиной 20 нм с каждой стороны. Пластина диаметром 95 мм имеет в центре отверстие диаметром 25 мм, поэтому объем слоя, который фактически содержит данные, равен π * (95**2-25**2) * 40 * 10**(-6) ≅ 1 кубический мм. Этот том содержит 1,4 * 10**13 используемых битов, соответственно, каждый бит занимает около 7 * 10**(-14) кубических мм.»
Таким образом, реально нужно сопоставлять 1,25 * 10-(19) мм**3 / бит против 7 * 10**(-14) мм**3 / бит, таким образом, разница составляет около 5,6 * 10**5. Различие в шесть порядков возможно, но оно вводит в заблуждение по двум причинам. Во-первых, сравнивается максимальная теоретически возможная плотность ДНК-носителя с реальной плотностью жёстких дисков 2018 года в массовом производстве. Во-вторых, как я писал в том же посте ( https://blog.dshr.org/2018/02/dnas-niche-in-storage-market.html ), плотность устройств хранения намного ниже, чем плотность «первичной» среды хранения. Для жесткого диска:
«Накладные расходы на упаковку, окружающую первичные биты, примерно в полмиллиона раз больше, чем на сами биты. Если бы эти издержки можно было устранить, мы могли бы хранить 7 экзабайт в накопителе 3,5-дюймового формата.

В системе ДНК-хранения будут аналогичные накладные расходы.»
Насколько большими окажутся накладные расходы на упаковку, зависит от ряда вопросов проектирования системы, которые еще предстоит решить, но в конечном итоги системы ДНК-хранения вряд ли будут в миллион раз плотнее, чем их конкуренты.

Дэвид Розенталь (David Rosenthal)

Источник: DSHR's Blog
https://blog.dshr.org/2019/05/review-of-data-storage-in-dna.html

Комментариев нет:

Отправить комментарий