2016 УДК 004.421 ПАРАЛЛЕЛЬНЫЙ АЛГОРИТМ ФИЛЬТРАЦИИ ПОВТОРОВ В ДАННЫХ NGS ILLUMINA* 3Иркутский национальный исследовательский технический университет В статье рассматривается подход предобработки фрагментов (ридов), полученных по А. <...> В.Н. Сукачева СО РАН NGS технологии, позволяющий значительно сократить объем входных данных, используемых в сборке больших геномов. <...> Разработан параллельный вероятностный алгоритм фильтрации, позволяющий значительно сократить результирующее время de Novo сборки генома с минимальной потерей кодирующей информации. <...> Реализация алгоритма направлена на достижение максимального быстродействия. <...> Корректность работы алгоритма и программы тестировалась на модельном растении Arabidopsis Thaliana [6], чья длина генома составляет около 140 млн пар нуклеотидных оснований (п.н.о.) <...> Верификация проводилась методом выравнивания ридов РНК на полученную сборку. <...> В результате работы программы достигнуто значительное (более 20 %) сокращение исходных данных NGS с потерей кодирующей информации в пределах 0,005 %, при уменьшении времени работы геномного ассемблера SPAdes более чем в 2 раза. <...> В последнее время произошел технологический прорыв в методах определения последовательностей ДНК в биоматериале. <...> Устройства, называемые секвенаторами нового поколения (NGS), выдают в результате своей работе очень большое количество коротких фрагментов нуклеотидов, называемых ридами (прочтениями). <...> Среди алгоритмов ассемблирования различают ассемблирование на основании сходства с уже известным геномом родственного вида, либо ассемблирование без привлечения дополнительной информации, которое называется ассемблированием de Novo. <...> Для геномов хвойных, имеющих значительный размер, который составляет от 12 до 30 Gb и содержащих до 82 % повторяющихся элементов (повторов), de Исследование выполнено в рамках проекта «Геномные исследования основных бореальных лесообразующих хвойных видов и их наиболее опасных патогенов в Российской Федерации <...>