Британские ученые сообщили об очередном успехе в использовании ДНК в качестве носителя и хранилища данных. Им удалось закодировать в ее цепочки запись знаменитой речи Мартина Лютера Кинга "У меня есть мечта", несколько фотографий - и те же шекспировские сонеты - а затем успешно секвенировать ДНК и считать текстовые, аудио- и видеоданные.
Это не первый такой случай - в прошлом году мы рассказывали о том, как ученым удалось закодировать в ДНК (а затем прочесть) целую научную монографию ("Генетическая память"). Уже тогда была продемонстрирована поразительная на фоне современных носителей плотность информации, которую обещают ДНК-носители, - 700 терабит на грамм собственного веса, в миллионы раз больше, чем у жестких дисков.
Новая же работа Ника Голдмана (Nick Goldman) и Эвана Бёрни (Ewan Birney) стала существенным усовершенствованием технологии - им удалось увеличить показатель плотности еще втрое, до 2,2 петабайт на грамм. При такой плотности хранения данных грамм ДНК может вместить 2,2 млн Гбит информации - количество, которое потребует 480 тыс. DVD-дисков!
Такие заоблачные объемы требуются человечеству уже сегодня. С ними приходится работать в рамках многих масштабных проектов - например, исследования на Большом адронном коллайдере ежегодно позволяют собирать 15 петабайт данных. Для таких масштабов и средства хранения и архивации требуются масштабные. Пока что для этих целей пользуются старыми добрыми магнитными пленками, которые то и дело приходится перезаписывать, поскольку они деградируют со временем.
В отличие от них, ДНК при минимальном объеме требует и минимального "ухода": высушенный стерильный порошок достаточно держать в сухости и на холоде - и он пролежит тысячелетиями. Вопрос лишь в том, чтобы сделать такую систему удобной, несложной и не громоздкой. В том, наконец, чтобы переломить привычное восприятия ДНК, далекое от IT-решений.
Процесс начинается с кодирования информации в виде двоичного кода из нулей и единиц. Эти данные затем переводятся в троичный формат, что обеспечивает большую устойчивость информации к случайным ошибкам. В сочетании с многократным повторением записанной информации и использованием специальных алгоритмов это позволяет добиться 100-процентной точности при сохранении и считывании данных.
На следующем шаге троичный код превращается в последовательность нуклеотидов будущей нити ДНК - аденинов, гуанинов, цитозинов и тиминов. Наконец, в соответствии с этой схемой синтезируется ДНК.
Схема достаточно проста, однако синтез ДНК (запись данных) и ее секвенирование (чтение) впоследствии остаются пока слишком дорогостоящими процедурами. По последней оценке ученых, такой подход окупит себя лишь для архива, который должен беречь информацию лет 600 и больше. Впрочем, технологии работы с ДНК совершенствуются непрерывно, и стоимость таких базовых задач, как синтез и секвенирование, быстро падает. Возможно, она достигнет приемлемого уровня уже в ближайшие годы.
С другой стороны, у ДНК как у носителя информации для электроники есть масса недостатков. В нее пока исключительно трудно внести исправления - и просто невозможно "стереть" один блок данных и записать вместо него другой. Никак нельзя и считать блоки по отдельности - придется работать со всей молекулой. В общем, даже при существенном падении цены вряд ли "ДНК-память" найдет применение в обычных компьютерах, которыми мы будем пользоваться в будущем