Реферат: Визуализация генов: методы и проблемы
Поскольку наши способности генерирования последовательностей данных продолжают расти, анализ данных, генерирование данных является лимитирующей стадией в области геномики.
Здесь мы предлагаем руководство по визуализации данных, геномные средства, которые облегчают анализирование задач и позволяют исследовать, изучать, толковать и управлять своими данными, а в некоторых случаях выполнять вычисления мгновенно. Мы будем обсуждать графические методы, предназначенные для анализа de novo последовательностей и считывания выравнивания, геномного просмотра в будущем. Изучение геномов в значительной степени позволило говорить о геномике, как о цифровой науки, и сделало возможным с появлением технологии секвенирования, выявлять геномные последовательности для нуклеотидного анализа. Появление обширных данных о геномной последовательности ресурсов открыло новый интерфейс компьютерной науки, которая используется в таких областях как биоинформатика и предоставляет возможности решения биологических задач с помощью вычислений. Последние инновации в области технологии секвенирования обеспечивают беспрецедентную способность для генерации данных. Сейчас более чем когда-либо нам необходимы интуитивные и оперативные данные исследований для анализа.
Хотя множество геномных анализов для данных задач могут быть выполнены с помощью автоматических процессов, но некоторые действия еще по-прежнему требуют человеческих суждений и часто с ограниченной скоростью. Визуализация может усилить наши способности рассуждать о сложности данных, тем самым повышая эффективность ручного анализа.
В некоторых случаях, соответствующее изображение дает очевидное решение.
Учитывая важность человеческих интерпретаций в особенности на ранних этапах гипотезы поколений биологических исследований, визуальные средства могут также стать ценным дополнением к автоматизированным вычислительным методам и позволяют получать нам научное понимание о крупных геномных наборах данных. Визуальные и автоматизированные подходы являются особенно мощным средством, когда используются в сочетании, например, пользователь может легко контролировать и проводить расчеты по этим данным, многократно их, уточняя и анализируя.
Одна из проблем при разработки визуальных средств состоит в принятии решения графического представления по существу, т.е. как данные кодируются по цветам, форме или преобразованы на различных уровнях. Выбор представления может либо помогать, либо мешать возможностям для пользователей к интерпретации данных и в идеале должен быть разработан так, чтобы облегчить анализ задачи. Например, перестройку генома можно более легко представить как дуги на кругу, чем на линии. Геномные данные, взятые, с различных источников при использовании различных методов сопровождаются экспериментальными погрешностями. Важно, что визуально представлены и зафиксированы эти технические неопределенности и любые несоответствия.
Существует также значительное биологическое различие между индивидуумами, которые необходимо отличать от технических изменений описанных выше. К дополнению к задачам выбора соответствующего визуального представления, некоторые виды первичных данных не представлены из-за чрезмерных требований хранения в сети и позволяют в режиме реального времени взаимодействовать с большими наборами данных, которые являются нетривиальными.
Этот обзор приводит примеры трех основных пользовательских задач:1)анализ последовательности данных, как в контексте сборки заново и рессеквенирование экспериментов; 2)просмотр аннотаций и сопоставление экспериментальных данных со ссылкой геномов, и наконец, 3)сравнения последовательностей из разных организмов или отдельных индивидуумов.
Методы визуализации в этих областях находятся на разных стадиях развития, и мы будем обсуждать их преимущества и недостатки. Одним из важных моментов является то, что область геномики быстро развивается. Хотя мы пытались обеспечить руководство по методам в этой области, но вполне вероятно, что новые инструменты и форматы данных появятся, в самом ближайшем будущем и мы обсудим некоторые из соответствующих проблем. Мы призываем читателей, принять во внимание ресурсы онлайн, такие как SEQanswer , где описаны наиболее современные средства развития.
Визуализация секвенирования данных
Интерпретация первичных данных из машинного секвенирования начинается с автоматизированной обработки данных. База вызова и качество расчетов следует в случае последовательной сборки геномов или считывания регулировки по ссылке в случае рессеквенирования. Последние инновации в технологии секвенирования сопровождались ростом новой сборки и согласованию программ, чтобы справится с более короткими длинами считывания и большим числом операций считывания (для обзоров см.раб.1,2), но стандартов не было достигнуто. Для некоторых задач анализ визуальной проверки ценен в толковании и проверке автоматизированных мероприятий, им можно управлять с помощью как биологического, так и алгоритмического пути.
Например, выявление автоматизированного однонуклеотидного полиморфизма на основе данных секвенирования остается незавершенным, и визуальный осмотр используется до сих пор для оценки отдельных случаев и для биологических результатов и технических наблюдений, которые могут быть использованы для улучшения прогнозирования алгоритма. В этом разделе говорится о сообщениях, которые освещают графические средства для анализа последовательности.
Визуализация выравнивания
Анализ узлов и считывания выравнивания часто предусматривает анализ последовательности собственно считывания, а все средства, перечисленные в таблице 1, обеспечивают осмотр унифицированных считываний основ. Считывание последовательности, как правило, предоставлено в виде строки, происходит горизонтально слева направо и укладывается вертикально. В случае ассемблирования, пользователь может сканировать считыванием из стека соответствующего столбца.
Основное свойство часто идентифицируется с градацией серого и основывается на противоречии с согласованием, придающим особое значение цветам. Некоторые инструменты минимизировали визуальные помехи, в стеке считывания выделяя только противоречия и скрывая все последовательные пары оснований (например, программа интегративной геномики, Национальный центр биотехнологической информации, просмотр программы архива ассамблеи, выравнивание текста в программе просмотра SAM tools). Большинство средств, построенных до появления следующего поколения последовательности, продолжают оказывать поддержку визуализации основных первичных данных для Сэнгер считывания отдельных следов просмотра. Например, в популярной программе Consed «след» окна может быть запущен из «соответствующего окна» и движение курсора синхронизируется. Этот режим позволяет пользователю проверять позиции конфликтующих баз и выявляет источник неопределенности в рамках первичных следов напрямую.
В значительной степени NGS данные изменились настолько, что пользователь сможет оценить неопределенность основных консенсусов. Например, Consed позволяет пользователю проверять недоработанную Рош 454 последовательности данных, а в случае Illumina и AppliedBiosystems обеспечивает надежность информации, в случае если нет недоработанных следов считывания, а есть только данные в виде изображения (Подробная информация об этих технологиях секвенирования рассматривается в другом месте). Consed и аналогичные программы не отображают первичные изображения данных, в частности потому, что их большие размеры делают их слишком дорогими для того, чтобы хранить их в сети, а также медленно отображаются на экране
Однако высокая скорость считывания, граничащая с генерированием NGS часто, облегчает, возможность пристально изучать какое-либо считывание. Пользователь может обнаруживать или вычислять одно подозрительное основание на протяжении одного считывания , сравнивать с соответствующим основанием в других считываниях выравнивания размещенных в других местах.
Устройство вывода автоматического секвенирования собирает незавершенные программы и повторяет место считывания, считывая на расстоянии.
Следующий шаг «завершения» включает в себя исключение пробелов, исправление неправильно собранных и возможность исправления ошибок согласованных основных компонентов. Специализированная обработка программного обеспечения упрощает этот процесс за счет автоматизации и позволяет пользователю выполнять вышеперечисленные задачи. В некоторых случаях автоматической обработки достаточно, например, в исполнении Autofinish, так как эта программа, рассматривает выход собраний программ и предлагает введение лабораторных данных (например, специфических праймеров для ПЦР).
Тем не менее, в других ситуациях ручной проверки и редактирования необходимо к дополнению по автоматизации пробелов Consed и коммерчески доступных Sequencher (ген кодирующая корпорация) и Lasergene (DNASTAR) широко использовать обрабатывающие программы, которые предоставляют богатые функциональные возможности редактирования и отслеживания истории и позволяют пользователю отдельно, вручную присоединяться к соседнему, что отличает их от статистического выравнивания программ просмотра, которые нельзя редактировать (таблица 1).
В большинстве последовательностей протоколов диапазон размеров фрагментов генома неизвестно. Последовательность считывания, получена из разных концов одного и того же источника геномного фрагмента («математической пары»), поэтому предполагаем интервал («вставить размер») и полагаем ориентацию (1 верхняя нить считывания и одна нижняя нить считывания). Одна из пар, которая нарушают эти пространственные ограничения, может быть использована для выявления несобранных, а одна из последовательных пар может быть использована для их присоединения.
Consed собрание программ просмотра «изображает одну из пары как цветные линии, охватывающие соседние, изображая последние горизонтально ориентированными блоками. Этот дисплей визуально разделяет «последовательные» пары (те, которые предполагаемого размера и ориентации) путем построения их выше или ниже наборов генов считывания, которые связаны друг с другом перекрыванием их последовательностей, что позволяет выявить неправильную сборку (рисунок1а). Одно из преимуществ этого метода, является то, что он позволяет вести интерактивную фильтрацию отображаемых данных (наборов генов считывания, аналогичных последовательностей и т.д.). Несмотря на это у фильтрации есть одно ограничение, это то, что изображение может быстро портится, так как число пар увеличивается.
Например, в Consed иногда желательно отключать изображения всех согласованных пар внутреннего набора генов считывания, так как их количество перегружает изображение.
В дополнении к одной из пар последовательности сходство может быть использовано для выявления всевозможных генов считывания и для проверки выхода «окно сравнения наборов генов считывания». Аналогичные функции существуют и в других обрабатывающих программах обеспечения, например Gap4 присоединенный редактор наборов генов считывания. Эти предоставленные последовательности дополняющие обзор показывают, как Gap4 использует точечные графики, изображающие каждую из осей, которые указывают на позиции вдоль длины наборов генов считывания, и разделяет точки в местах совместимости выше границ подобной последовательности.
Пользователь может интерактивно исследовать последовательность взаимосвязи между различными наборами генов считывания и просматривать результаты поисковых операций, таких как «найти, повтор». Собрание изображений Consed может отображать выход утилита сравнения называемого «пара крестов», используя для этого связывание областей с подобной последовательностью между пользователем наборов генов считывания
Различные цвета означают такие функции как направление повторяющиеся из интернированных повторов. Одним из преимуществ просмотра сходства последовательностей в сборке изображения является возможность интегрирования считывания участков, которые могут выявлять неожиданно высокие регионы действия и часто указывают на аналогичные последовательности, которые были ошибочно разрушены и собраны в одну. Пользователь может выбрать для изучения последовательности сходства на основном уровне, и снова нажимая, изучает, то, что лежит в основе сообщения. Существуют также автономные инструменты функций, относящиеся например к Miropeats, широко используемые для ранних геномных проектов секвенирования.
UNIXC – оболочки, которые генерируют статистические картинки с использованием дуговых изображений для обозначения различных повторов.
Следующее поколение средств изображения последовательностей
Индивидуальное секвенирование геномов стало возможным и положило начало геномному проекту 1,000.Эти данные дают беспрецедентную возможность для характеристики видов человеческих генотипов, а также дают новое поколение вычислительных методов с появлением результата вычисления.
В некоторых случаях визуальная инспекция может способствовать оценки и интерпретации считывания согласованных методов и генетической изменчивости обнаружения вывода данных.
Ассемблирование изображает средства обладающими необходимыми функциями, но построенными по данным Сэнгер и первоначально существенно лучше считывающим обьем технологий NGS. Некоторые из этих средств в настоящее время модернизированы, для решения более сложных наборов данных существует Consed и обновленная Gap5, также разработана новая волна инструментов с учетом целей.
Например, Eagle View, Map View, IGV (таблица 1). В отличие от программного обеспечения эти средства, в первую очередь данные программ просмотра не предоставляют функции редактирования. Из-за их акцента на просмотре многие программы обеспечивают более гибкие возможности, а масштабирование позволяет пользователю свободно уменьшать изображение. Имеющаяся в продаже КГО геномика Workbench является особенно удобной для пользователя и включает в себя собственно считывание согласованных программ, которые могут быть запущены через GUL.
--> ЧИТАТЬ ПОЛНОСТЬЮ <--