Браузърът на UCSC генома е на 25 години

Браузърът на UCSC генома е на 25 години

Джим Кент знаеше едно или две на кодирането. Vateran от първите дни на личния ИТ, Кент е разработил софтуер за компютри Amiga, Atari и IBM през 80 -те години, включително инструменти за пионер за компютърна анимация.

През 2000 г. Кент направи скока в биоинформатика, разработвайки компютърната геномна навигационна система, която ще стане известна като браузър на генома на Калифорнийския университет Санта Крус (UCSC). Но очакванията му бяха осеяни с опита му в индустрията. “Бях наистина свикнал със софтуер, продължил около три години”, каза Кент. Последното му творение, прогнозира той, няма да направи резултати по различен начин.

“Това не се случи”, заяви генетикът Дейвид Хауслер, научен директор на UCSC Genomics Institute, който управлява навигатора на генома. Този месец се навършват 25 години от браузъра, който се превърна в съществен ресурс за биолозите по целия свят. Всеки ден повече от 7000 уникални потребители се ангажират със сайта, който е домакин на данните на генома на хора, мишки и повече от 100 други видове и животински вируси и позволява на изследователите да анотират и поставят под въпрос тези последователности по безброй начин.

Сравнителният геномист Майкъл Хилър от университета Гьоте във Франкфурт, Германия, се основава на навигатора да изучава моделите на промяна на генома чрез животински видове, за да идентифицира подписите на еволюцията. “Гледането на навигатора на генома е голяма част от това, което ние и другите членове на лабораторията правим ежедневно”, каза той. Той дори включи инструмента в курс, който преподава. “Това е едно от упражненията”, каза той.

С постоянен поток от актуализации и инструменти за пояснение, генерирани от потребителя, браузърът на генома не показва признаци на забавяне. „Уебсайтът е отнел своя живот“, обяснява Макс Хейуслер, основен изследовател на проекта. Но както при много научни проекти, базирани в Съединените щати през 2025 г., истинската заплаха за дълголетието му идва от затягането на въжетата на фондовите пазари, с масивни съкращения и преструктуриране в Националните здравни институти на САЩ (NIH), застрашаващи този съществен ресурс.

Вървя на пода

Започна с проекта за човешки геном. Haussler се присъедини към усилията в края на 1999 г., с цел разработване на софтуер, който може да идентифицира и коментира гените на новопроведения геном. Но имаше проблем. “Много бързо ми стана ясно, че този проблем с сглобяването на човешкия геном от малки парчета секвентирана ДНК е изключително труден и те нямаха сериозен план да го направят”, спомня си Хауслер. Той се обърна към Кент, квалифициран кодер, който завърши докторат в UCSC, фокусиран върху развитието на закрито, браузър на генома, за да картографира експресията на гените в модела на зелено Caenorhabditis elegans.

В хрупкав неистово програмиране, продължило няколко седмици през 2000 г., Кент разработи Gigassembler – 10 000 реда код, който Haussler описва като „асемблерът, който спаси деня“. Той позволи на проекта за човешки геном да завърши първия си проект навреме за официалното му разкриване на 26 юни 2000 г.

Джим Кент на компютъра си.

Boinformatian Jim Kent, който помогна за разработването на браузъра на генома на UCSC.Кредит: Дон Харис / UC Santa Cruz Photo Services

Първоначалният интерес на Кент беше главно прагматичен. „Исках да получа навигатора на човешкия геном, за да мога да разкрия монтажа си по -лесно“, казва той. Но когато той и Хауслер стартираха първата итерация на браузъра на генома на UCSC на 7 юли 2000 г., това беше незабавен успех. Научната общност колективно изтегли приблизително половин -тераоктет данни през първите 24 часа от операцията на браузъра, изчислява екипа – невероятно количество по това време.

Тогава геномът беше завършен само около 90% и чрез практикуване на пропуски, но светът най -накрая разполагаше с прозорец, на разположение свободно, за да го спре. „Простият факт на преминаване към визия на браузъра на поясненията на ранните гени или първите компании за клониране беше като магнит“, обяснява Барбара Уолд, молекулярен биолог в Калифорнийския технологичен институт в Пасадена. „Това привлече всички към потребителската общност.“ Преди всичко, браузърът е установил и цели „маркери на мили“, които изследователите биха могли да използват за картографиране на открития и варианти в отделните геноми.

Иън Холмс, компютърен биолог в Калифорнийския университет в Бъркли, също приписва Кент и екипа на UCSC, за да нормализират идеята, че геномните данни трябва да бъдат безплатни и лесни за взаимодействие и повторна употреба. „Идеята, че всичко трябва да бъде достъпно в мрежата, а не в офис приложения, все още беше изключително радикална идея“, каза Холмс. „Те измислиха един тон файлови формати и съхранение на данни означава, че днес използваме до голяма степен.“

Сенатор Том Харкин, който държи компактдиска.

Сенаторът Том Харкин (демократ) помогна за получаването на финансиране на проекта за човешки геном, който успя да сглоби последователността, използвайки кода на екипа на браузъра на генома на UCSC.Кредит: NHGRI / NIH

През следващите години браузърът на генома актуализира своите карти с най -новите данни от проекта за човешки геном, както и други популярни видове модела, включително мишка и плъх. Кент също въведе решаваща функция въз основа на опита си с Entronement: възможността потребителите да генерират и споделят персонализирани „песни“, които избирателно дразнят ключовите характеристики на генома. Парчетата са интерактивни визуални пътни карти, представени до генома, които проследяват местоположението на важни характеристики като регулаторни елементи и варианти на гени, свързани с болестта. „Бяхме изпреварили всички с тази функция и мисля, че това наистина е причината да се окажем толкова много в средата на екосистемата“, обяснява Кент.

Усилията отнеха инерция рано благодарение на адхезията на основните международни консорциуми като проекта „Енциклопедия на ДНК елементи“ (Encode). Кодирането беше фокусирано върху функционалните модели, които населяват 98,5% от човешкия геном, които не съдържат последователности от гени, кодиращи протеини. Haussler казва, че списъкът на персонализираните песни на браузъра на генома “е бил значително” по време на работата на екипа за кодиране, което позволява на потребителите да визуализират многото промотори, усилватели и РНК кодиране за непротеини, които консорциумът е открил.

Устойчив ресурс

Въпреки това, тъмното тъмно предсказване на Кент от продължителността на живота на навигатора не беше неразумно – подобни истории са типични в академичния свят. “Представете си, ако Microsoft Office изчезне на всеки три години”, обяснява Хейуслер. “Такъв е случаят с повечето пакети за биоинформатика-лофата.” Завършилите студенти и докторантурите напредват и тази платформа застоя, дори ако се натрупват нови данни, докато някой друг не бъде принуден да разработи заместител.

И данните редовно се стичаха. “Няма повече срещи на Белия дом, когато публикувате геном”, каза Хейуслер, като се позовава на обявяването на първия проект за човешки геном. “Сега имаме един на ден, дори десет на ден.” И не само геномите, но и новите слоеве от информация, които хората искат да картографират по -горе, като транскрипти на РНК с пълна дължина и епигенетични сигнали, които играят централна роля в регулирането на ген. В същото време основата на потребителите на инструмента се увеличава редовно.

Способността на браузъра на генома на UCSC да оцелее и приветства този растеж отчасти се дължи на ранното решение за изграждане на екип от специализирани програмисти и инженери. Много от тях бяха опитни ветерани от Силиконовата долина, впечатлени от амбициите на навигатора и историята за намаляващ произход. “По някакъв начин смазах защитата на докторат (от Кент)”, обяснява Анджи Хинрихс, бивш дизайнер на микрочипове, който имаше опит в минималната биология, но въпреки това, доброволен за екипа на браузъра на генома в началото на 2002 г.. И тогава през май, когато се наеха, успях да отправят искания. ” Това ще бъде едно от първите нови наемания на екип, който набъбна около 30 души в своя пик.

Излезте от Locus de Hérisson Sonique от номома на UCSC генома.

Изход на браузъра на генома на UCSC, показващ информация за хората Шх Джийн, който участва в ембрионалното развитие.Кредит: Perez et al. Базата данни на браузъра на генома на UCSC: Актуализация на 2025. Търсене на нуклеинови киселини 2025 PMID

Достъпът до достъпна и мощна ИТ инфраструктура също няма вреда. “В началото той вероятно изглежда имаше много 32 процесора, а сега нашата машина за разработка през 192 г.”, каза Хинрихс. Самите данни, както и кодът за изпълнение на браузъра, пребивават на таблици в мащаба на петактите, които включват множество твърди дискове в солидното супер празно състояние, добавя тя.

Кодовата база на браузъра на генома премина само от 10 000 реда до повече от три милиона, казва Haussler. Но неговата основна архитектура не се е променила много от 25 години. Хинрихс казва: “В кухнята има много готвачи и той стана малко разхвърлян, но основната структура беше толкова чиста, че наистина работи и винаги можем да се развием там. Аз признавам Джим Кент за това.”

От гледна точка на Кент тази издръжливост се дължи на акцента му върху създаването на модулен код, който може да бъде модифициран, без да се намалява цялата сграда, както и специализиран тестов орган. “Имахме качествен застрахователен екип, който имаше около половината от размера на екипа за разработка на софтуер”, каза той. “Мисля, че не трябваше да архивираме предишна версия.”

Екипът обаче трябваше да намери по -ефективни начини за управление на данни. През 2011 г., например, той представи формата „Hub Hub“ като решение с все по -големи и сложни персонализирани песни, които външните лаборатории разработиха за анотация на генома. Последващите центрове включват набори от сравнително компактни двоични файлове, които са хоствани от създателите на самите данни, а не в UCSC. Данните се разпространяват при поискване и „Форматите на файловете на Джим са проектирани така, че да можете да скочите между тях“, обяснява Haeussler. Възможността за бърз и избирателен достъп до съответните части на отдалечените хоствани данни сведе до минимум количеството, което трябва да циркулира между потребителя и браузъра на генома. Това поддържа скоростта на производителността, дори ако броят на песните се увеличава. “Имаме хиляди лаборатории, които ги правят, но повечето от тях никога не виждат”, казва Хейуслер.

И през 2023 г. екипът стартира инициативата Genark (Genome Archive) за адаптиране към безкрайния приток на нови последователности на генома (Х. Клаусън и др. Биол геном. 24217; 2023). Тази система прави проста за браузъра на генома да избира наскоро изтеглени геноми от базата данни за сглобяване, хоствана от Американския национален информационен център за биотехнологии (NCBI), което позволява на изследователите да разгледат и анотират тези геноми. Понастоящем Genark е домакин на повече от 6000 генома, вариращи от бактерии до примати.

Нещо за всеки

Leave a Reply

Your email address will not be published. Required fields are marked *