/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F891ab041a4cb1b2939fc436d1f1aa6ad.jpg)
Ученые в 3200 раз повысили скорость чтения данных, сохраненных на ДНК — 10 минут вместо нескольких дней
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F1f23107d6406d82c41d9c66944d7a085.png)
Исследователи Израильского технологического института (Technion) разработали метод на основе ИИ, который ускоряет поиск данных, сохраненных в ДНК, на три порядка и одновременно улучшает точность.
Молекула ДНК отвечает за сохранение генетического кода живых организмов и состоит из последовательности особых органических соединений — нуклеотидов. Они классифицируются по четырем типам, обозначенным буквами A, C, G и T. В отличие от традиционных вычислений, где данные кодируются только двумя цифрами (0 и 1), хранение в ДНК базируется на последовательностях из четырех букв, что значительно увеличивает количество возможных комбинаций.
Размещение данных в ДНК может дать действительно длительное хранение информации (сотни тысяч лет) и плотность данных в 100 млн раз большую, чем имеющееся цифровое хранение. Для хранения данных по этой технологии нужен синтез ДНК — создание молекул ДНК на основе последовательностей, кодирующих информацию. Чтобы прочитать сохраненные данные, требуется секвенирование ДНКМетод определения первичной структуры неразветвленных биополимеров, как ДНК. Также этим термином называют определение первичной структуры других типов данных..
Хранение информации на ДНК связано с несколькими технологическими проблемами. Синтез и секвенирование являются длительными процессами, подверженными ошибкам удаления, вставки и замены. Из-за ограничений процесса синтеза создается несколько копий каждой молекулы ДНК, кодирующей данные. Эти копии хранятся вместе, без какого-либо порядка. Во время секвенирования возникает много ошибочных копий этих молекул — большинство из них содержат ошибки, а некоторые полностью исчезают.
Новое исследование, опубликованный в журнале Nature Machine Intelligence, представляет комплексное вычислительное решение для поиска и исправления ошибок в сложных системах хранения на основе ДНК. Используя усовершенствованные алгоритмы и методы кодирования, исследователи продемонстрировали, что их решение сокращает время поиска и чтения данных с нескольких дней до 10 минут.
Разработанный в Technion метод DNAformer базируется на модели трансформера, обученной на смоделированных данных, генерируемых с помощью симулятора, который также был разработан в Technion. Метод реконструирует точные последовательности ДНК из ошибочных копий. Он включает специальный код исправления ошибок, адаптированный для ДНК.
Механизм дополнительного запаса безопасности обнаруживает наиболее шумные последовательности ДНК (нежелательные сигналы или ошибки, возникающие во время процесса секвенирования, которые могут мешать точной интерпретации данных) и применяет алгоритмические инструменты для более эффективной обработки. В конце процесса данные переводятся в цифровую информацию.
Новый метод позволяет считывать 100 МБ данных со скоростью, которая в 3200 раз превышает самый точный существующий метод, без потери точности. По сравнению с ранее известными быстрыми методами, DNAformer также улучшает точность до 40%. Это было продемонстрировано на наборе данных размером 3,1 МБ, который включал 24-секундную аудиозапись слов астронавта Нила Армстронга на Луне, письменный текст обсуждения преимущества ДНК как перспективного метода хранения данных, случайные данные.
Исследователи планируют разработать индивидуальные версии DNAformer, адаптированные к различным потребностям. Они подчеркивают, что их технология является масштабируемой и адаптируемой, то есть ее можно оптимизировать для крупномасштабных программ хранения данных, в ответ на требования рынка.
Источник: TechXplore
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F1f23107d6406d82c41d9c66944d7a085.png)

