Все знания человечества поместятся в 10 тоннах ДНК
Эта молекула может хранить не только генетическую информацию, но и любую другую. Израильские ученые вместе с европейскими коллегами хотят создать на основе ДНК идеальный метод хранения данных: компактный, надежный и дешевый. Группа исследователей из Техниона под руководством профессоров Эйтана Яакоби и Зоара Яхини с факультета компьютерных наук получила в рамках этой работы грант Евросоюза в размере 4 миллионов евро.
Наш цифровой век характеризуется производством огромных объемов информации, которую нужно где-то хранить. Все, что сегодня содержится в облачных хранилищах – а это тексты, изображения, видео- и аудиофайлы, требует огромных энергетических затрат. Нынешние хранилища информации только называются облачными, на самом же деле это вполне материальные дата-фермы. Во всем мире их уже более 10 тысяч, они занимают внушительные площади – до 150 футбольных полей на одно такое хранилище.

Стоимость создания и поддержания работы дата-фермы более скромных размеров обходится в сотни миллионов долларов. Кроме того, дата-фермы наносят серьезный ущерб окружающей среде. В 2020 году на эту сферу пришлось около 4% выбросов парниковых газов, что соответствует вреду, наносимому всей авиационной отраслью.
- Читайте также:
- Amazon до 2037 года инвестирует около 7,2 млрд долларов в облачные сервисы в Израиле
- Воскресить сумчатого волка и понять историю коронавируса
- Наши воспоминания в интернете под угрозой?
Неудивительно, что ученые во всем мире озаботились поисками новых способов и форм хранения информации. Собственно, такие формы существуют в природе, нужно только придумать, как их использовать. Речь идет об идеальной единице хранения огромных объемов информации – молекуле ДНК, не требующей энергетических затрат и способной сохраняться в течение очень долгого времени, исчисляемого миллионами лет.
Это подтверждается обнаружением древней ДНК в окаменелостях. К тому же методы сохранения информации остаются неизменными, поэтому отпадает необходимость каждые несколько лет перегружать ее на новые носители – то, что мы вынуждены делать сегодня из-за развития технологий.
На языке генетики
Профессор Яакоби – специалист по теории информации. Он уверен, что в природе существуют оптимально действующие механизмы для ее хранения с помощью ДНК. «Плотность хранения информации в ДНК на восемь-девять порядков превышает таковую у жестких дисков, – сказал он изданию «ХаАрец». – Эта система также гораздо более долговечна: если жесткий диск начинает давать сбои примерно через десять лет, то ДНК можно прочитать даже спустя миллионы лет. Она неизменна. Если у вас до сих пор хранятся видеокассеты и компакт-диски, вы больше не можете использовать записанную на них информацию. В Голливуде есть склады кинолент, и всякий раз, когда вы переходите на новые технологии, вам приходится заново загружать всю содержащуюся на них информацию».
Если ученые научатся эффективно кодировать цифровую информацию на ДНК, будет решена одна из самых острых проблем. «Нам предстоит долгий путь, – продолжил Яакоби, – но мы четко понимаем, что нужно сделать. Если все сработает хорошо, потенциал безграничен».
Вся цифровая информация в мире записывается с помощью двух символов: единицы и нуля. В свою очередь код ДНК состоит из четырех нуклеотидов, которые обозначаются буквами А (аденин), С (цитозин), G (гуанин) и Т (тимин), несущими в себе информацию об организме. Мы могли бы перевести цифровой файл из нулей и единиц в код ДНК очень просто – достаточно каждую из четырех возможных комбинаций символов двоичного кода (00, 11, 01 и 10) заменить на один из четырех нуклеотидов.
В ДНК мы имеем дело с химическими соединениями, поэтому физические преобразования можно произвести с помощью специального «ДНК-принтера». Яакоби объясняет, что он напоминает обычный принтер, «только вместо печатающих головок, у каждой из которых есть свой цвет, например синий или красный, в случае ДНК-принтера есть печатающая головка А, головка С и так далее».
Принтер склеивает нуклеотиды один за другим – так создается цепочка. Одна из проблем, с которой сталкиваются исследователи, заключается в том, что существующие принтеры способны создавать цепочки длиной около 200 букв генетического кода. Для сравнения: одна цепочка ДНК в организме человека может включать 250 миллионов нуклеотидов. Принтер печатает короткие цепочки, а потом соединяет их в большую. Но чем длиннее запись, тем это становится сложнее.
Цепочки из 200 оснований имеют крошечный размер, приблизительно нанометр (то есть одна миллиардная метра). Когда мы конвертируем отдельную картинку из цифрового кода в ДНК, то получаем миллионы очень маленьких полос. Еще одна проблема исследователей – как прочесть весь этот набор полос в правильном порядке.
По словам Яакоби, в мире уже действуют несколько компаний, которые ищут решения для хранения ДНК. Ученый считает, что в ближайшие лет пять появится коммерческий продукт (например, будут использовать чип, в котором будут ячейки для размещения крошечных полос ДНК), но он будет очень дорогим.
Израильская группа поставила своей задачей разработку способов производства более длинных и дешевых полос. Само по себе чтение ДНК – несложный и недорогой процесс благодаря исследованиям ДНК человека в рамках молекулярной биологии и появлению различных методов секвенирования. Просто до сих пор не возникало необходимости крупномасштабного производства ДНК. «Сейчас такая необходимость возникла в контексте хранения информации, и речь идет об огромных объемах», – объясняет Яакоби.
Дополнить природу
Профессор Зоар Яхини считает, что чем больше используется базовых строительных блоков, тем эффективнее становится код. Язык из четырех нуклеотидов уже дает значительно больше возможностей, чем цифровой язык нулей и единиц. Но можно увеличить алфавит, создавая новые, не используемые в ДНК нуклеотиды. Например, сделать новую букву из фрагментов аденина и цитозина. Этот метод Яхини описал в своей публикации в журнале Nature Biotechnology.
Можно пойти и дальше – делать новые буквы генетического кода из элементов трех существующих. «Это позволяет довести число вариантов до сотен», – считает Яхини.
Правда, есть нюанс: существующие на сегодняшний день принтеры не поддерживают такие комбинации. И вот здесь слово берут другие участники международного исследования. Мюнхенская группа специализируется на синтезе, они умеют смешивать тройные «строительные блоки» и соединять их в последовательности.
Команды из Цюриха и Делфта заняты решением других задач. Они умеют интегрировать синтетическую ДНК в другие субстанции. В будущем вполне реально создать медицинскую карту, которую можно будет проглотить с утренним кофе.
«Если закодировать синтетическую ДНК в съедобной субстанции, то такую медкарту можно будет периодически проглатывать, и тогда она навсегда останется внутри вашего тела и будет всегда доступна для прочтения в случае необходимости», – объясняет Яхини.
Сегодня ученые способны расположить на одном участке площади в 200 раз больше молекул, чем всего три года назад. Но стоимость полос ДНК все еще высока, а считывание информации требует времени. Цифровой файл, как известно, можно прочесть сразу, а ДНК необходимо секвенировать. Однако с учетом развития технологий и необходимости долгосрочного хранения альтернативы кодированию ДНК нет, убежден профессор Яхини. Уже сегодня это направление становится коммерчески жизнеспособным, если поставлена задача сохранения информацию на века.
Магнитный носитель требует энергии и нуждается в охлаждении, и, хотя стоимость размещения информации на носителе ДНК выше в начале процесса (пока – примерно в 50 раз), через несколько лет она уравновешивается более низкой стоимостью хранения. И большей надежностью.
«Если вспыхнет пожар, ДНК не будет уничтожена, в отличие от серверной комнаты. Мы можем прочесть даже ДНК динозавров, живших миллионы лет до нас», – констатирует профессор Яхини.
Еще одно преимущество – компактность. По подсчетам ученых, вся имеющаяся на сегодня у человечества информация может хранится всего на 10 тоннах ДНК.
В.Р. Гидон Лев, «ХаАрец». Фото: Depositphotos.com √
Будьте всегда в курсе главных событий:
