3Д моделирање на протеински молекули

Универзитет Свети Кирил и Методиј - Скопје Електротехнички факултет Скопје Дипломска Работа 3Д моделирање на протеински молекули Ментор: Изработил: проф. д-р. Данчо Давчев Весна Прчковска 325/01 Јуни, 2006

People are DNA's way of making more DNA - Edward O. Wilson, 1975 2

Содржина: 1. Вовед 4 1.1. Проектот Човечки Геном и поголемите откритија во генетиката кон крајот на дваесеттиот век 5 2. Протеини 13 2.1. Градба на протеините 13 2.2. Секвенционирање на протеини 18 2.3. Методи за предвидување на структурата на протеините 24 3. Визуелизација на протеини 27 3.1. Историјат на визуелизацијата на протеини 27 4. Проблемот на прикажувач на протеини 38 4.1. PDB (Protein Data Bank) формат 42 5. Реализација на прикажувач на протеини 48 5.1. Анализа и дизајн на прикажувачот на протеини 48 5.2. Имплементација на визуелизаторот Simple Protein Viewer 53 6. Споредба на различни системи за прикажување на протеини 59 6.1. RasMol 60 6.2. Quick PDB 62 6.3. Swiss-PdbViewer 63 6.4. Prototype Protein Viewer 66 6.5. Преглед и споредба на карактеристиките на прикажувачите на протеини 68 7. Заклучок 70 3

1. Вовед Во оваа дипломска работа ќе биде разгледуван проблемот на прикажувач на протеини. Резултатите добиени од Проектот Човечки Геном кон крајот на дваесеттиот век ги разбранува научните води посебно во областа на генетиката, биохемијата и биоинформатиката. Почетоците на визуелизација на протеините датираат уште од средината на дваесеттиот век кога беа откриени структурите на првите макромолекули. Поради исклучителното значење на протеините за животот општо, неопходно е проучувањето на нивната функција и улога во живите организми. Три-димензионалната просторна форма која ја имаат протеините е клучна при одредување на нивната функција, па затоа визуелизирањето на протеините е исклучително значајно. Развојот на техниките на тродимензионална визуелизација, како и наглото паѓање на цените на висококвалитетниот графички хардвер, денес на обичните персонални компјутери дозволуваат неверојатни тродимензионални реалновременски презентации. Тука ние како електроинженери и програмери 4

можеме да дадеме клучен придонес во развојот на биолошките научни дисциплини и разбирањето на функционирањето на животот општо. Ова беше инспирација да започнам еден проект кој се разви во дипломска работа и ги опфати сите прашања и проблеми со кои се соочува секој развивач на софтвер за визуелизација на протеини. Simple Protein Viewer е само еден од мнштвото пакети за визуелизација на протеини, кој се надевам дека еден ден ќе се развие многу подлабоко и ќе даде свој придонес во науката 1.1. Проектот Човечки Геном и поголемите откритија во генетиката кон крајот на дваесеттиот век Формално започнат во 1990 од страна на владата на U.S., проектот Човечки Геном (Human Genome Project) траеше цели 13 години, координиран од стана на U.S. Department of Energy и National Institutes of Health. На почетокот беше планирано овој проект да трае 15 години, брзите технички откритија како што се: брзите WAN мрежи, Интернетот и општиот развој на информатиката го забрзаа финализирањето на овој проект за 2003 година. Целите на самиот проект беа [1]: да се идентификуваат околу 20 000-25 000 гени во човечката ДНК; да се одредат секвенците на 3 билијони хемиски основни парови кои ја сочинуваат ДНК; да се складира добиената информација во бази на податоци; да се подобрат алатките за анализа на податоците; да се префрлат технологиите поврзани со проектот во приватен сектор; да се одредат етичките, правните и социјалните прашања кои може да се појават поради проектот. За да се остварат овие цели, истражувачите исто така ја проучуваа генетската мапа на неколку нечовечки организми. Тука е вклучена и најчестата човечка цревна бактерија Escherichia coli, овошната мушичка и лабораториските глувци. 5

На 26 јуни 2000, членовите на проектот објавија дека успеале во секвенционирањето на работниот дел од човечкиот геном. Поради огромните податоци кои се генерираа од проектот Човечки Геном, се појави потреба за анализирање, складирање и поврзување на целата таа информација на едно место. Денес базите на генетски информации се јавно достапни на веб страната на NCBI како интегрирани информации на едно место, геномичка информација која претставува инфраструктура за биомедицинските истражувачи ширум светот. Во центарот се развиени [2]: 1. Aлaтки за Рударење на Податоци (Data Minnig): Пребарување на текстуални изрази: - Entrez: овозможува интегриран пристап до нуклеотидни и протеински секвенци од над 100 000 огранизми, заедно со три-димензионалната протеинска структура, информација за генетско мапирање и PubMed MEDLINE. - LinkOut: служба за регистрирање која креира линкови од конкретни натписи, весници или биолошки податоци во Entrez кон ресурси од надворешни веб страни. - Cubby: му дозволува на Entrez да складира и ажурира пребарувања и да ги образботува нивните LinkOut линкови и да вклучува или исклучува дополнителни линкови кон провајдерите. - Citation Matcher: овозможува пронаоѓање на PubMed ID или MEDLINE UID на било кој натпис во базата на податоци PubMed. Пребарување на слични секвенци - BLAST: алатка за споредба на генетски или протеински секвенци со соодветни секвенци во јавните бази. 6

- BLink: ги прикажува резултатите од BLAST пребарувањата кои се направени за секоја протеинска секвенца во базата Entrez Protein. Класификација - Taxonomy Browser: алатка за пребарување на базата NCBI Taxonomy. - Taxonomy BLAST: ги групира погодоците добиени со BLAST според изворниот организам според класификациите во базата NCBI Taxonomy. - TaxTable: ги сумира податоците добиени со BLAST Taxonomy, и ја прикажува врската на организмот со други организми преку обоено-кодиран граф. - ProtTable: ги сумира кодираните региони на протеините во геномот. - TaxPlot: овозможува поглед на сличностите на геномот на три различни начини. - Sequin: алатка за поднесување на податоци која вклучува и ORF Finder, прегледувач/едитор за порамнување, и линк кон PowerBLAST - Bankit: WWW алатка за поднесување на една или повеќе секвенци. 2. Алатки за анализа на секвенци: Clusters of Orthologous Groups (COGs): систем од фамилии на гени добиени од комплетни геноми 7

Gene Expression Omnibus (GEO): Стовариште за експресија на гени и online ресурси за обнова на податоците за експресија на гени од било кој организам или вештачки извор HomoloGene: споредува нуклеотидна секвенца со парови на организми за да ги открие наводно сличните гени. Conserved Domain Database (CDD): колекција на порамнувања на секвенци и профили кои ги претставуваат протеинските домени вклучени во молекуларната еволуција Mammalian Gene Collection (MGC): нов напор на NIH да генерира ресурси на комплементарна ДНК (cdna) со целосна должина ORF Finder: алатка за графичка анализа која ги пронаоѓа сите отворени рамки за читање од селектираните со минимална големина во корисничката секвенца или од секвенцата која веќе се наоѓа во базата VecScreen: алатка за пронаоѓање на сегменти од нуклео-ацидна секвенца која може да биде вектор, поврзувач или адаптер која потекнува од пред употребата на алатки за анализа на секвенци или поднесување. 3. Алатки за прикажување на 3Д структура и пребарување по сличност CD-Search: Conserved Domain Search Service (CD-Search) може да се употребува за идентификување на зачуваните домени присутни во протеинска секвенца Cn3D: прегледувач на три-димензионалната структура и порамнувањето на секвенци за NCBI бази Domain Architecture Retrieval Tool: ги прикажува функционалните домени кои го чинат протеинот и ги излистува протеините со слична доменска архитектура 8

VAST Search: сервис за структурно-структурна сличност. Ги споредува 3Д координатите на ново откриена протеинска структура со оние во веќе постоечка MMDB/PDB база Threading: алгоритми за препознавање на завиткувањето кај протеините Секвенцирањето на човечкиот геном го зачнува почетокот на една нова возбудлива ера од науката. Како интернационален лидер во биоинформатиката, NCBI има активна улога во понатамошното дешифрирање на човечкиот геном. Истражувачите кои работата во NCBI дизајнираат и развиваат, а исто така работат и оперираат над голем број единствени и моќни бази на податоци кои биле незаменливи за проектот. Истражувачите во NCBI исто така развиваат и збогатуваат софтверски алатки кои ќе го овозможат откривањето на нови гени. Овие алатки се исто така јавни, и се користат од страна на NCBI за составување, анотација и анализа на човечката геномна секвенца, како и геномската секвенца на други модели на организми. Овие софистицирани алатки им овозможуваат на истражувачите складирање, организирање, анализирање и интергрирање на огромни количина на различни податоци, како што се ДНК и протеински секвенци, генски и хромозомски мапи и протеински структури. Информациите добиени од овие студии им овозможија на истражувачите да направат нови поврзувања меѓу привидно различните податоци и да ги обликуваат биолошки значителните поледи на овие податоци. Сега, кога го имаме геномот и брз пристап до неговите информации, пред Биоинформатиката застанува вистинската задача, анотацијата, односно означувањето на биолошки важните делови од геномот. Анотацијата, всушност се состои од две задачи. Првата е правилно да се постават познатите гени во геномскиот контекст, односно да се пронајде каде тие се наоѓаат, а втората е предикција на предходно непознати гени, врз база на составената генетска секвенца. 9

Сите овие настани ќе влијаат на развојот на постгеномската Биоинформатика, која денес веќе има бројна примена во медицината, биотехнологијата, земјоделството итн... Следниве области на истражување се интегрирани компоненти на Биоинформатиката [3]: 1.Пресметувања во Биологијата (Computational Biology): развојот и примената на аналитички и теоретски методи, математичко моделирање и компјутерска симулација над биолошки, бихевиористички и социјални системи. 2.Геномика (Genomics): Геномиката го претставува секој обид да се анализира или спореди целиот генетички комплемент на еден вид или видови. Ваквото споредување е возможно со споредување на повеќе и помалку претставителните подмножества на гени во геномите. 3. Протеомика (Proteomics): Протеомиката претставува научна дисциплина за протеините нивната локација, структура и функција. Таа е идентификација, карактеризација и квантификација на сите протеини вклучени во конкретни премини, органели, клетки, ткива, органи и организми кои се истражуваат со цел да се добие точна и разбирлива информација за конкретниот систем. Протеомиката е наука за функциите на сите експресивни протеини. Оваа наука не ги опфаќа само сите протеини во дадена клетка туку и цело множество на сите изоформи и модификации на протеините, нивните интеракции, структурниот опис на протеините и нивните комплекси од повисок ред и поради сето тоа скоро с`е што е постгеномско. 4.Фармакогеномика (Pharmacogenomics): Фармакогеномиката претставува примена на геномички пристапи и технологии за идентификација на лекарства. Накратко: Фармакогеномиката претставува користење на генетичка информација за да се предвиди дали одреден лек би помогнал во процесот на оздравување на пациентот или би ја влошил неговата состојба. Проучува како гените влијаат на реагирањето на луѓето на лекарствата, почнувајќи од човечката популација, завршувајќи на молекуларно ниво. 5.Фармакогенетика: Фармакогенетиката се занимава со тоа како акциите кон, и реакциите од одредени лекарства се различни и зависат од гените на пациентот. 10

6.Хемоинформатика, Хемиска Информатика, Хемометрика: компјутерски-помогнато складирање, истражување и анализа на хемиска информација. Примена на статистичка анализа на хемиските податоци и дизајнирање на хемиски експерименти и симулации. 7.Структурална Геномика и Структурална Биоинформатика: се однесува на анализа на макромолекуларната структура, посебно на протеините, со употреба на алатки за пресметување и теоретски рамки. Една од целите на Структуралната Геномика е проширувањето на идеата за геномите, односно остварување на три-димензионални структурални модели за сите досега познати фамилии на протеини. 8.Компаративна Геномика: наука за човечката генетика со споредување на модели на организми како што се глувците, овошната мушичка и бактеријата E. coli. 9.Биофизика: интердисциплинарно поле каде се применуваат техники од физичките науки за да се разбере биолошката структура и функција. 10.Биомедицинска Информатика / Медицинска Информатика: дисциплина која брзо се развива, и е дефинирана како истражување, откривање и имплементација на структурите и алгоритмите кои би ја подобриле комуникацијата, разбирањето и менаџирањето на медицинската информација. 11.Математичка Биологија: Математичката Биологија исто така опфаќа биолошки проблеми, но методите кои ги користи за проучување на истите не мора да се нумерички, и не мора да се имплементираат софтверски ниту хардверски. Вклучува работи од теоретски интерест кои не мора да се алгоритамски, ниту од молекуларна природа и не мора да се корисни при анализа на собраните податоци. 12.Пресметување во Хемијата (Computational Chemistry): гранка од теоретската хемија чија што цел е да се создадат ефикасни компјутерски програми кои ќе ги пресметуваат својствата на молекулите. 13.Функционална Геномика: поле од Молекуларната Биологија кое се обидува да ги искористи масовните податоци кои се произведуваат при 11

проектите за секвенционирање на геномот, за опишување на функцијата на истиот. 14.Фармакоинформатика: се занимава со аспектите од Биоинформатиката кои ги опфаќаат откритијата на лекарства. 15.Предвидување In silico ADME-Tox: откривањето на лекарства е комплексен и ризичен процес, кој се обидува да ја пронајде најефикасната молекула која нема токсични ефекти но истовремено се вклопува во посакуваниот фармакокинетички профил. 16.Агроинформатика/Агрикултурна Информатика: Агроинформатиката е насочена кон аспектите на Биоинформатиката кои ги истражуваат геномите на растенијата. 12

2. Протеини 2.1. Градба на протеините Протеините се основни градбени единки на животот. Ензимите, молекуларни машини одговорни за практично сите хемиски трансформации за кои е способна ќелијата, се протеини. Поголем дел од структурата на ќелијата е протеинска. Остатокот од структурата (претежно шеќери и липиди) е составен од ензими, кои се еден вид на протеини. Човекот има ред на величина од 100000 различни протеини. Особините и взаемната интеракција на овие 100000 протеини н`е прават тоа што сме [4]. Протеините се полимери составени од различни линеарни комбинации од 20 амино киселини или да бидиме попрецизни аминокиселински остатоци [5]. Секојa амино киселина се состои од централен јаглероден атом (алфа C или C alpha ) и една амино група (NH 2 ), еден водороден атом (H) и една карбоксилна група (COOH) и страничен синџир радикал (R) кој е поврзан со C alpha. Протеинските конститутивни амино киселини се разликуваат меѓу себе во радикалор (R i ) и имаат различни физичко-хемиски карактеристики. Како што претходно кажавме 13

протеините се изградени од 20 различни амино киселини. Пептидната врска се формира преку ковалентно врзување на јаглеродниот атом од карбоксилната група на едната од амино киселините со азотен атом од амино групата на другата аминокиселина со процесот на дехидратација (слика 1): слика 1. Поврзување на две амино киселини преку пептидна врска Полипептиден синџир е синџир од аминокиселински остатоци поврзани меѓу себе преку пептидни врски. Скелетот на полипептидот се добива со повторување на секвенца од три атоми во секој од остатоците во синџирот: амид N, алфа јаглерод C alpha и карбонил C. Ротацијата во синџирот се случува околу врските на скелетот, додека пак пептидната врска најчесто е нефлексибилна (слика 2). Постоењето на амино група (N-Terminal) на едниот крај на синџирот и карбокси група (C-Terminal) на другиот крај ја формира насоката на синџирот. Според конвенциите почетокот на полипептидот е N-Terminal-от. слика 2. Агли на торзија на скелетот Овие тополошки линеарни полимери (пептиди и полипептиди) се извиткуваат сами во себе за да изградат форма карактеристична за секој протеин 14

посебно, и оваа форма заедно со хемиските карактеристики на секоја аминокиселина во неа ја одредуваат функцијата на протеинот [6]. Што одлучува за редоследот на амино киселините во протеинот? Централната догма (The Central Dogma) на Молекуларната Биологија, објаснува како генетската информација која ја наследуваме од нашите родители е складирана во ДНК, и дека таа информација се користи за создавање идентични копии на таа ДНК и се пренесува од ДНК во РНК и од РНК во протеин. ДНК е линеарен полимер од 4 нуклеотиди деоксиаденозин монофосфат (А), деокситимидин монофосфат (Т), деоксигуанозин монофосфат (Г) и деоксицитидин монофосфат (Ц). РНК е многу сличен полимер на ДНК, со тоа што деокситимидинот е заменет со деоксиуридин (У) [7]. Особина и на ДНК и на РНК е тоа што линеарните полимери можат меѓусебно да се спаруваат. Во таквите двојни полимери (познати и како двоен хеликс поради формата која ја добиваат) Г се спарува со Ц, а А со Т, односно У. Едната нишка од ДНК може да послужи како калап за создвање на комплементарната нишка на него, и оваа комплементарна, подоцна за создавање на оригиналната. слика 3. Структура на ДНК 15

Ова е основа за репликацијата на ДНК и со тоа основа на целата генетика. Слична техника на градба преку калапи се користи и во транскрипцијата од ДНК во РНК. Но, конверзијата на РНК во протеин е знатно посложена. Целиот процес на синтеза на протеини може да се подели во две фази: 1. Транскрипција: Пред да започне синтезата на протеинот, се поизведува одговарачката РНК молекула со РНК транскрипција. Како примерок од РНК полимеразата се користи една нишка од двојниот хеликс на ДНК, за да се синтетизира месенџер РНК (messenger RNA mrna). Оваа мрнк мигрира од јадрото во цитоплазмата. Во текот на овој чекор, мрнк поминува низ различни типови на созревање вклучувајќи го и оној наречен спојување (splicing) каде се елиминираат некодирачките секвенци. Кодирачката мрнк секвенца може да се опише како единица од три нуклеотиди наречена кодон (слика 4). слика 4. Приказ на кодон 2. Транслација: Рибозомот (посебна органела на ќелијата ) се врзува со мрнк на почетниот кодон (AUG) кој може да го препознае само иницијаторот трнк (слика 5). Рибозомот продолжува во следната фаза на синтеза на протеинот наречена елонгација. Во текот на оваа фаза, комплекси на амино киселини поврзани со трнк секвенцијално се врзуваат со соодветниот кодон во мрнк со помош на комплементарни базни парови заедно со антикодонот на трнк. Рибозомот се движи од кодон кон кодон долж трнк. Аминокиселините се додаваат една по една, транслирани во полипептидни секвенци кои ги диригира ДНК и претставени преку мрнк. На крајот, фактор за ослободување се врзува со СТОП кодонот, и со тоа се завршува транслацијата и се ослободува целиот полипептид од 16

рибозомот. Една конкретна аминокиселина може да одговара на повеќе од еден кодон. При синтезата на протеини доаѓа до преведување на кодови составени од по три нуклеотиди (кодони) во една аминокиселина, процес за кој претходно видовме дека се реализира во рибизомите. Четирите нуклеотиди, читани во вакви триплети прават азбука од 64 различни можни кодови, повеќе од доволно за мапирање на дваесетте амино киселини. Мапирањето оди така што една аминокиселина може да биде енкодирана од 1 до 6 различни триплетии три од овие 64 триплети се СТОП триплети, односно означуваат крај на пептината секвенца. Таму каде повеќе триплети се користат за мапирање на иста аминокиселина, различните кодони се јавуваат со различна фреквенција, наречена употребеност на кодонот ( codone usage ). Овој фактор варира помеѓу различните видови. слика 5. Синтеза на протеини 17

Фактот што ДНК нуклеотидите треба да се читаат три по три за да опишат протеинска секвенца повлекува за последица дека ДНК има три можни рамки на читање, зависно од тоа дали ќе почнеме да читаме од нуклеотидот еден, два или три. Двете нишки на ДНК може да се копираат во РНК за подоцна да се преведат во протеини. Така добиваме дека всушност имаме 6 различни рамки на читање. Можно е хемиски да се одреди секвенцата на амино киселини во протеинот. Сепак, денес е многу полесно да се одреди секвенцата на нуклеотиди во ДНК. Бидејќи секвенцата на амино киселини во протеинот може да се одреди од ДНК секвенцата што ја енкодира, многу протеински секвенци се извлечени од ДНК секвенците. Анализата на секвенци е всушност, процес на донесување заклучоци од познатите секвенци на протеини, ДНК и РНК. 2.2. Секвенционирање на протеини Иако е теоретски точно дека ако ја имаме протеинската секвенца можеме да заклучуваме за особините на протеинот, денешната биологија не е многу успешна во спроведувањето на ова во пракса. Денешната анализа на секвенци е не многу успешен компромис меѓу она што се сака и она што се може. Како што е кажано погоре, тешкотијата во секвенционирањето на протеини, е во тоа што повеќето протеински секвенци се познати само како нивни аналогии во ДНК. За жал, ќелискиот пат од ДНК, преку РНК, во протеин има одредени својства, кои го комплицираат заклучувањето на протеинската секвенца врз база на ДНК секвенцата: Многу протеини се енкодирани во секое парче ДНК, и така соочен со ДНК секвенцата, биологот мора да открие каде кодот за одреден протеин започнува и каде завршува. Овој проблем станува уште поголем кога се земе во предвид дека човечкиот геном содржи многу повеќе ДНК одколку што е потребно за енкодирање на сите протеини. Значи, голема е веројатноста некоја секвенца да не енкодира ништо. 18

Секвенците на ДНК кои енкодираат протеини не се континуални, туку многу често се поделени во блокови ексони. Многу од овие проблеми можат да се надминат со секвенционирање на РНК наместо ДНК, бидејќи содржи многу помалку нус-материјал и одделните ексони се споени во една континуална нишка. Но, ова не е решение, бидејќи постојат ситуации каде анализата на РНК е невозможна. Иако многу поголем дел од РНК енкодира протеини, ова не е случај со секоја РНК. Како прво, РНК има некодирачки региони, кои напати се поголеми и од кодирачките. Второ, не секоја РНК служи за енкодирање на протеини. Рибозомната (ррнк), транспортната (трнк) и структурната РНК од мали рибонуклеопротеини (снрнк) се примери за некодирачки РНК. Не постои комплетно решение за одредување на енкодираниот протеин од ДНК секвенцата, затоа што не зависи само од секвенцата. Сепак, со комбинирање на различни пресметковни пристапи и нешто лабораториска биологија, во многу специфични случаи ова е успеано. Овој проблем, во секој случај, останува еден од најважните во молекуларната биологија. Штом се одреди протеинската секвенца, одредувањето на структурата и на функцијата на истиот претставуваат многу поголем проблем. Како што е кажано погоре, структурата протеинот ја добива со извиткување на протеинот сам во себе, и во некои случаи, со здружување на повеќе пептидни ланци. Извиткувањето настанува околу секоја пептидна врска меѓу конституентните мономери, како и меѓу врските помеѓу ланците (дисулфидни, хидрогенски и сл.). За несреќа по молекуларните биолози, а за среќа по животот општо, бројот на комбинации кои се јавуваат со вакво извиткување е потенцијално бесконечен. За да се справат со овој проблем, молекуларните биолози ги поделиле структурните особености на протеините на повеќе нивоа. - Првото ниво, наречено примарна структура, се однесува само на секвенцата на амино киселини. Првата протеинска молекула на која е определена секвенцата е инсулинот во 1954 година. Во денешно време позната е примарната структура на повеќе протеини како што се: рибонуклеазата, миоглобинот, хемоглобинот, 19

цитохромот C, папаинот, трипсиногенот, трипсинот, лизозимот и др. Примарната структура кај протеинот се отварува преку ковалентните врски на пептидната група а кај некои протеини преку ковалентинте врски на дисулфидните мостови. - Секундарната структура главно се формира преку хидрогенските врски помеѓу атомите кои се наоѓаат на скелетот. Така наречените случајни намотки, клопчињата, и превиткувања немаат стабилна секундарна структура. Постојат два типа на стабилна секундарна структура: алфа хеликс и бета конформација. Пред неколку децении се открило дека полипептидните ланци некогаш се извиткуваат во правилни форми, односно во форми заеднички за многу полипептиди. Алфа хеликс (alpha helix): хеликсот се јавува кога CO групата на аминокиселината (n) се поврзе преку хидрогенска врска со NH групата на аминокиселината (n + 4) оддалечена за четири амино киселини од неа. Најчесто алфа хелиските се составени од хидрофобни амино киселини, бидејќи хидрогенските врски се најјаки кај нив. слика 6. Алфа хеликс Бета конформација (beta sheet): се извиткува напред и назад во цик-цак форма. Имаме паралелни и антипаралелни бета структури. Кај антипаралелните 20

бета конформации, аминокиселината (n) е во хидрогенска врска со аминокиселината (n + 3). слика 7. Антипаралелна бета конформација Има и други примери на секундарна структура во кои пептидот може да западне, но има и пептиди кои не запаѓаат во ниедна од овие структури. Сепак, повеќето од долгите протеински нишки се извиткуваат во разни правилни секундарни структури на многу сегменти. Опишаниве секундарни структури се сите многу прости и правилни. Има и други структури кои се наоѓаат често, а кои се покомплексни од овие. Еден пример е helix-loop-helix мотивот наоѓан често во протеините ангажирани околу транскрипцијата. Овие структури ги викаме суперсекундарни. - Кога ќе се загледате во пептиден ланец ќе забележите дека тој се состои од секундарни структури, можеби понекоја суперсекундарна и некои навидум случајни структури. Оваа поглобално разгледувана структура се вика терциерна. Терциерната структура се однесува на тоа како полипептидниот синџир е свиткан во три димензии во просторот за да се формира компактна цврсто замоткана структура на глобуларните протеини [4]. 21

слика 8. Синџирот B од протеинот киназа C. Хеликсите се визуелизирани со траки (ribbons) а проширените нишки од β конформацијата со просторни стрелки - Конечно, многу биолошки протеини се составени од повеќе ланци. Начинот на кој овие ланци се спојуваат меѓусебно го нарекуваме кватерна структура. Таа уште се дефинира и како степен на полимеризација на протеинските единици и ги опфаќа нековалентните врски меѓу олигомерните единици. Затоа во хемиска смисла кватерната структура е над молекуларно ниво на организираност. Во биолошка смисла таа структура, составена од повеќе протеински молекули, е молекуларна структрура, затоа што само во таа форма протеинот ја изразува својата биолошка функција [4]. 22

слика 9. Кватерна структура на протеинот киназа C (на сликата се прикажани и двата синџири A и B од овој протеин, кои ја формираат кватерната структура) Оваа сложена номенклатура е развиена бидејќи проблемот на разбирањето на протеинската стуктура е толку тежок и важен. Важноста произлегува од два поврзани фактора: - Првиот е дека фунцијата на протеинот е апсолутно зависна од неговата структура. Всушност, најлесен начин некој протеин да ја загуби својата функција е да му се измени формата. Овој процес го викаме денатурализација и го постигнуваме со промена на температура, хемискиот состав на околината, па и со механичко дејствување. Примери се варењето или матењето на јајцето, со што неговата белка ја менува бојата. - Вториот фактор е тоа што многу тешко може експериментално да се добие структурата на протеинот. За илустрација, до денес ја знаеме примарната структура на многу протеини (околу 30000), а терциерната структура на само 500. Очигледно, од големо значење би ни било ако терциерната структура би можела да се одреди 23

од примарната. Не е претерано да се каже дека способноста за точно предвидување на протеинската структура, а со тоа и на фунцијата на истиот, би направила револуција во медицината, хемијата и екологијата. 2.3. Методи за предвидување на структурата на протеините Познавањето на три-димензионалната структура на протеинот ни помага да ја разбериме неговата функицја и обезбедува начини за планирање на експерименти и моделирање на лекарства. За одредување на структурата на протеините, неопходни се експериментални методи кои користат рентгенска кристалографија и NMR спектроскопиjа. Brookhaven Protein Data Bank (PDB) e складиште на овие структури [8]. Датотеките кои во себе вклучуваат координати на атомите се погодни за визуелизација која ја извршуваат графичките прегледувачи на молекули како што е RasMol. PDB исто така може да се пребарува по секвенци со упити, на пример со алгоритамот BLAST вграден во веб страната на NCBI со полипептид како упит. Сепак, експерименталните методи се технички многу тешки и скапи и се зголемува празнината во бројот на секвенционирани протеини и веќе познати структури. Затоа од огромна важност е градење на модели на протеини. Ако на почетокот in vitro протеинот го исправиме и потоа го отпуштиме тој повторно ќе се извитка во истата три-димензионална структура која ја имал претходно. Затоа различните методи за предвидување се базираат на оваа претпоставка: три-димензионалната структура на протеинот е одредена со неговата примарна структура [9]. Денешните истражувања на полето на предвидувањето на терциерната структура користи три основни пристапи, пристап базиран на хомологија (компаративно моделирање), пристап со предвидување на секундарната структура (предвидување на извиткувањето) и ab initio пристап. - Пристапот базиран на хомологија се труди да ја одреди терциерната структура на протеинот преку споредба на примарната структура со 24

примарната структура на слични протеини со позната терциерна структура. Уште се вика и comparative protein modeling, knowledge based modeling и homology modeling. Ова е макотрпен, но поприлично успешен пристап. За жал, тој бара постоење на сличен протеин со позната структура. Процесот во основа се состои од следниве чекори: Најди соодветна калап секвенца Спореди го калапот со целната секвенца Состави скелет на протеинот Генерирај ги страничните ланци Детекцијата на соодветни калап секвенци се врши преку BLAST пребарување на секвенците во PDB (Brookhaven Protein Data Bank) базата на протеински структури добиени преку рендгенска кристалографија. Сите секвенци со корелираност поголема од одредена прагова вредност се сметаат за кандидат калапи. - Пристапот базиран на предикција на секундарните структури се покажува доста добар кај ланци составени од многу правилни алфа и бета структури, меѓу кои има кратки спојни интервали (loops и turns). Од инженерска гледна точка, овие методи се доста интересни бидејќи се базирани на теорија на информации. Тоа им дозволило да развијат доста добар систем за валидација на резултатите, со што корисниците можат да добијат и квалитативна проценка на веродостојноста на резултатите. - Ab initio пристапот се обидува да ја одреди структурата преку симулации, при што ја минимизира слободната енергија. Ова се прави со примена на Монте-Карло методи или невронски мрежи. Методиве се сеуште неразвиени, но се доста интересни не само како посебни софтверски задачи, туку и поради фактот што не бараат некоја претходно позната структура или слично. Конечно, дури и кога би ја имале терциерната структура, сеуште нема систематска техника за откривање на функционалните својства на протеинот. Тоа, денес во глобала се сведува на тоа да биологот седи пред некоја алатка за 25

визуелизација на протеински структури, и врз база на тоа што го гледа дава претпоставки за соодветната функција. 26

3. Визуелизација на протеини 3.1. Историјат на визуелизацијата на протеини 3.1.1. Жичани модели Визуелизацијата на макромолекулите започнува во втората половина на дваесеттиот век. Првите модели на макромолекули се всушност физички модели. Kendrew и неговите соработници во 1958 изградија месингени модели на миоглобин на скала 5cm/ Ångstrom, како последица на откривањето на првата структура на макромолекула во кристалографијата [10]. Моделите беа изградени и прицврстени со 2500 вертикални прачки распоредени така да можат да исполнат една коцка со страна од 2 метра. Обоени спојници беа закачени на прачките за да ја прикажат електронската густина, и да го држат моделот прицврстен. Густината на прачките го правеше целиот модел нејасен и тежок за составување. А неговата големина го направи гломазен и проблематичен за поместување. Во кон крајот на шеесеттите, Fred Richards и неговите соработници додека ја истражуваа структурата на рибонуклеазата, изградија оптички компаратор кој ја 27

подобруваше и убрзуваше изработката на модели според стилот на Kendrew [11]. Електронските густини од кристалографските резултати се печатеа со помош на компјутери на хартија, и контурните линии на електронска густина се добиваа со поврзување на броевите на хартијата со слични вредности. Овие контурни линии потоа беа поставувани на транспаренти плочи ( 90 x 90 cm). Плочите потоа беа поставувани вертикално, на еднакви растојанија, и на тој начин креираа тридимензионална мапа на електронска густина. Полу-сребрени огледала се поставуваа за да ја сумираат електронската мапа над моделот од прачки. Како што се пронаоѓаше структурата на поголемите молекули, така размерот се редуцираше на 2.5cm/ Å, а потоа и на 1.0 cm/ Å. 3.1.2. Физички Сферни и точкасти модели Откако Kendrew ја пронајде структурата на миоглобинот, со неговата група изградија физички сферен и точкаст модел. Дваесет и девет од овие модели беа продадени на истражувачите ширум светот во 1960, произведени од Beevers Miniature Models, кои сеуште нудат различни протеински модели и денес, вклучувајќи и произволни протеини (слика 10). Byron Rubin, додека работеше како кристалограф заедно со Jane Richardson во раните седумдесетти, измисли машина за свиткување на жици која работеше на принцип на следење на скелетот на протеинот Во 1970, компјутерската визуелизација на макромолекулите сеуште не беше широко распространета меѓу кристалографите. Моделите на Kendrew се градеа со жици според проекциите на мапата за електронска густина, од изо-контурите поставени на стаклените плочи. Овие модели беа големи и гломазни. Малите модели добиени со свиткувачот на Byron беа едноставни за манипулација и лесно подвижни и затоа најдобри во тоа време (слика 11). 28

слика 10. Сферен и точкаст модел на миоглобин направен од A. A. Barker, Cambridge слика 11. Жичен модел на дел од I доменот на CD11a (од 1LFA.PDB), алфа/бета домен од молекула на leukocyte integrin adhesion. Алфа хеликсот е декориран со црвени намотки, додека пак бета жичките се декорирани жолто.конструиран е од Tim Herman во 1997. 29

Еден пример кој укажува на огромното значење на моделите добиени со свиткувачот на Byron е научната конференција во средината на седумдесеттите. Во тоа време беше откриена структурата на помалку од дваесет протеини. David Davies го изработи моделот на имуноглобулинот, додека пак Jane и David Richardson го изработија жичаниот модел на супероксид дисмутазата. Додека се споредуваа овие физички модели на конференцијата, научниците увидоа дека овие два протеина имаат слични закривувања, иако имаа само 9% поклопување на секвенци. Овој инцидент беше првото признавање на она што е денес познато како домен на суперфамилијата на имуноглобулинот, односно на протеини кои се неповрзани преку секвенца. Ова откритие беше објавено во труд со наслов Сличност на три-имензионалната структура помеѓу доменот на имуноглобулинот и под-единиците на бакарот, и цинк супероксид дисмутазата. Свиткувачот на Byron беше употребуван се до 1990. Tim Herman од Медицинскиот Колеџ во Wisconsin е еден од неговите последни големи обожаватели и корисници. Настрана од важноста што ја имаа овие модели зашто беа првите опипливи модели кои ја прикажуваа структурата на протеините, уште една нивна голема позитивна особина е што се тресат и вибрираат кога нежно се допираат, и на тој начин симулираат термичко движење. Многу често корисниците на компјутерските модели не го земаат во предвид фактот дека протеинските молекули во живите системи континуирано се превиткуваат поради термичкото движење. 3.1.3. Молекуларни скулптури Набрзо после реализацијата на својата идеа за градење на модели на макромолекули со Свиткувачот на жици, Byron Rubin забележа дека машините кои се користат во продавниците Midas Muffler за изработка на автомобилски ауспуси работат на истиот принцип, но на поголема скала. Тој соработуваше со локалната продавница за да изработи скулптура на скелетот на рубредоксин која беше околу 1.5m висока и изработена од чист челик за ауспух. Оваа скулптура победи на 30

натпреварот Chandler на University of North Carolina во1973, и оттогаш стои во холот на зградата на Paul M. Gross Chemistry Building на Duke University, Durham NC USA. Кон средината на деведесеттите, Rubin престана да создава скулптури како што е моделот на трака (Ribbon model) на протеинот колагеназа прикажан на слика 12. слика 12. Скулптура на човечка нетрофил колагеназа од Byron Rubin на изложбата на Smithsonian Institution, Washington DC USA Постојат и скулптори како што е Bathsheba Grossman кој прави ласерски кристали во кои макромолекулите се претставени со ситни ласерски индуцирани фрактури внатре во стаклен блок (слика 13). слика 13. Ласерска скулптура на дупли хеликс на ДНА 31

3.1.4. Компјутерска репрезентација 3.1.4.1. Најрани компјутерски репрезентации, 1960-1970 Уште во далечната 1964, Cyrus Levinthal и неговите соработници од MIT развија систем кој прикажуваше ротирачки жичани (Sticks) модели на макромолекуларни структури кои се прикажуваа на осцилоскоп (слика 14). слика 14. Графички приказ на жичен модел добиен со осцилоскоп Во 1965, Carroll K. Johnson, од Oak Ridge National Laboratory, ја изработи ORTEP програмата која прикажуваше стереоскопски слики на структури на молекули и кристали со pen-plotter. Во средината на седумдесеттите структурата на протеините почна да се одредува со кристалографска постапка и почнаа истите целосно да се визуелизираат со компјутери (без градење на физички модели) од страна на David и Jane Richardson и нивните соработници. Тие употребуваа посебен компјутер (density-fitting) за таа намена наречен GRIP. Во доцните седумдесетти, с`е повеќе и повеќе кристалографи започнаа да ги градат своите модели на протеини со новите алатки за компјутерска визуелизација. Една од најголемите предности беше што компјутерот ги чуваше информациите за атомските координати, додека пак кај физичкиот модел на Kendrew тие мораа да се мерат рачно, атом по атом. 32

Во 1970 Thomas K. Porter, разви компјутерски алгоритми за просторноисполнети репрезентации со сенки (shaded spacefilled). Овие откритија направија револуција во визуелизацијата на макромолекулите, но им беа достапни само на ограничен број на специјалисти кои има пристап кон најмоќните компјутери на тоа време. DCTR (Division of Computer Research and Technology) сметаа дека е премногу скапо да објават компјутерски-генериран атлас, со слики во боја од просторни молекули. Пресврт се случи кога се појавија ефтините cardboard прегледувачи за стерео слајдови, кои можат да соберат пар од 35 милиметарски слајда на 2 x 2 инчнен држач. слика 15. Стерео слајд добиен со TAMS проекција Се добиваа задоволителни стерео проекции со користење на конвенционални проектори на слајдови со поларизирачки филтри, и за секој набљудувач задолжително поларизирани очила. Во 1980 беше објавена TAMS единица за учење, во која беа вклучени делови за пептидните врски, алфа хеликс, бета структурите, тернарните структури, кватернарните структури, простетичните групи и актвивните делови. TAMS единицата содржеше 116 стерео парови на слајдови во боја кои ги прикажуваа овие делови (слика 15). Имаше и студент кој го набљудуваше прикажувањето ( Taylor Merechant), а беа прикажувани 7 пара на слики за секој од наведените делови, прикажувајќи подмножество од 49 слики за сите 116 стерео парови. На секоја слика и беше придружен параграф со опис, и прашање за истиот параграф. 33

Слики од слајдовите се прикажуваа со помош на бафер за рамки кој имаше 1 бајт меморија (256 бои) за секој пиксел на CRT монитор. На почеток трошоците за прикажување на сликите изнесуваа $65,000 но неколку години подоцна цената опадна на $12,000. На почеток конвенцијата за боите на атомите беше следнава: C=црна, N=сина, H=бела, O=црвена, S=зелена. (Кај RasMol CPK боите се слични со тоа што C=сива и S=жолта). 3.1.4.2. Компјутерите на Evans и Sutherland: 1980-1990 Во текот на осумдесеттите, најпопуларниот компјутерски систем кој го користеа кристалографите беше произведен од Evans&Sutherland. Овие компјутери, кои чинеа околу $250,000 во 1985, ја прикажуваа мапата на електронска густина и овозможуваа секвенцата на аминокиселината да биде рачно филтрирана преку мапата. Екранот во боја прикажуваше жичано (Sticks) рендерирање на аминокиселинските синџири, и можеше реално-временски да се ротира. Овие системи користеа скалабилна векторска графика. Брзото ротирање се постигнуваше со помош на три хардверски матрични множачи (еден за секоја димензија X, Y, и Z) Софтверскиот пакет кој најчесто се користеше на E&S компјутерите беше FRODO (кој денес еволуира во Turbo-FRODO). FRODO беше првично напишан од T. Alwyn Jones. Подоцна тимот воден од Jones ја напиша програмата O, која стана посебно популарна кај кристалографите во деведесеттите. 3.1.4.3. Kinemages на David и Jane Richardson David и Jane Richardson беа пионери во компјутерските графички репрезентации на молекуларната структура во текот на осумдесеттите, со серии на програми кои ги развиваа на Duke University. Во доцните осумдесетти ваквиот развој доведе до појава на програмата наречена CHAOS напишана во програмскиот јазик PS300 function-net на Evans и Sutherland [12]. 34

слика 16. Анимација во MAGE за транзиција deoxy во carbonmonoxy на heme во hemoglobin-от Во 1992, Richardson го опиша kinemage (добиен од kinetic image кинетичка слика), заедно со програмите за поддршка MAGE и PREKIN. Според зафатот со кој неговата имплементација се прошири на Macintosh, ова стана првата програма која ја спои молекуларната визуелизација со голем број на научници, предавачи и студенти. Програмите беа опишани во водечкиот натпис на првото издание на весникот Protein Science (рано во 1992), и самата програма беше ставена на дискета и се продаваше заедно со весникот. Во натписот исто така беа опишани инструкциите за употреба на програмата PREKIN заедно со MAGE за создавање на нови kinemages. Во следните пет години повеќе од илјада kinemages беа креирани и ги придружуваа натписите во Protein Science. Голем дел од нив беа креирани и едитирани од Jane Richardson. 3.1.4.4. RasMol на Roger Sayle Во 1989 година, уште како студент на додипломски студии на Imperial College, Roger Sayle се интересираше за проблемот на перцепција на длабочината на цврсти објекти при нивна компјутерска репрезентација. Неговата цел беше да напише shadowing програма (Ray-trаcing алгоритам) која ќе биде доволно брза за да можат да се ротираат слики кои имаат 3Д ефект со сенка. Тој успеа да го напише вториот 35

најбрз алгоритам во светот за програма со засенчени сфери. Но во тој стадиум на компјутерската графика, потребен беше посебен компјутер со паралелен процесор со цел нормално да се извршува неговата програма. Во 1990, Roger започна да студира компјутерска наука на University of Edinburgh, каде продолжи да ја развива својата програма под раководство на кристалографот Andrew Coulson. Бидејќи за понатамошните подобрувања на овој shadowing алгоритам интер-процесорската комуникација кај компјутерите со паралелни процесори стануваше ограничена, Roger започна да го имплементира својот алгоритам на едно-процесорска машина под Unix, а подоцна и под Windows и Macintosh. Roger ја разви својата програма во комплетен систем за молекуларна визуелизација, и до 1993 година, широко се употребуваше за едукативни цели и разни истражувања за пишување на публикации. Откако се здоби со титулата PhD во Јуни 1993, Roger ја сподели бесплатно својата програма со светската научна заедница. Во Јануари 1994, Roger се вработи во Glaxo Wellcome, која го поддржуваше понатамошниот развој на RasMol freeware, вклучувајќи ја и првата верзија за Macintosh. Roger прекина активно да работи на јавните верзии на RasMol во 1997 година, но во 1999, Herbert Bernstein ja произведе RasMol верзија 2.7. Името RasMol е добиено од Raster ( мрежата на пиксели на компјутерскиот екран) и Molecules. Roger тврди дека неговите иницијали R.A.S. се чиста коинциденција. Roger својот source code на RasMol во програмскиот јазик C јавно го објави на интернет, и со тоа им дозволи на другите да го адаптираат неговиот алгоритам за најразлични потреби. Такви производи се на пример MDL's Chemscape Chime и Molecular Simulations' WebLab. RasMol е широко распространет низ светот. Тешко е да се претпостави бројот на корисници, но многу веројатно тој број надминува еден милион. RasMol е посебно популарен меѓу студентите, и на оние места каде ресурсите не дозволуваат скап софтвер за молекуларна графика. 36

3.1.4.5. Chime на MDL, 1996 Bryan van Vliet и Tim Maffet од MDL Information Systems, Inc. го проширија развојот на Chime (Chemical mime), визуелизатор во форма на додаток (plug-in) на Netscape Navigator. Chime користи адаптација на рендерирањето и комадниот јазик на RasMol. За потребите на Chime, околу 16 000 лини од кодот на RasMol се конвертирани во C++. На ова MDL додадоа повеќе од 80 000 свој код за да ја добијат Chime version 1.0. Franklin Adler, Jean Holt, и други соработници ја завршија верзијата Chime 2.0. Chime 1.0 беше објавен доцна попладнето на 31.12.1997, додека пак Chime 2.0 беше објавен на 03.10.1998. Комбинацијата од Navigator + Chime донесе многу предности над RasMol осебно за едукативна репрезентација на хемиски структури. Во 1997, разни автори ги развија презентациите базирани на Chime на триесетина молекули и ги објавија на интернет. Како последица на тоа беше развиен посебен Chime интерфејс кој може да прикаже било каква молекула и да примени посебни инструкции над неа, односно обезбедена е командна линија слично како кај RasMol, со која во Chime се овозможуваат најразлични операции над молекулите. 37

4. Проблемот на прикажувач на протеини Просторната структура на протеините е многу сложена. И не само тоа, туку е и во тесна врска со функцијата на поединиот протеин. Големата флексибилност и огромниот број на можни комбинации и финални констелации, ги направи полипептидите идеално средство на природата за конструкција на молекуларни машини. Оттаму, можноста некако да се визуелизира структурата на протеините би била од голема важност како во кристалографијата и едукацијата, така и во самиот процес на идентификација и подоброто разбирање на фунцијата на протеинот. При градба на еден прикажувач на протеини, треба да се обрати внимание на неколку прашања: До која длабочина ќе се оди при исцртувањето на макромолекулата, односно, дали ќе се исцртуваат самите атоми или само посебните амино киселини или конечно, само типските секундарни структури? 38

Каков тип на интеракција прикажувачот ќе му дозволи на корисникот, односно дали прикажаниот протеин ќе може да се сече, селектира по делови, каков би бил корисничкиот влез за посебни ротирања и транслирања на протеинот и сл. Дали прикажувачот ќе биде пасивен или ќе вклучува и одредени симулации (мутации и сл)? Одржување на односот брзина / квалитет, односно избор на целна група на кориснички машини; дали прикажувачот е наменет за скапи графички станици и истражувачки центри или за обични корисници со релативно скромни хардверски ресурси? Избор на технологија за изработка на прикажувачот, поточно избор на програмски јазик, избор на пакет или библиотеки за тродимензионално рендерирање, припрема за евентуална интеграција со други технологии (Интернет и сл.), како и оставање можност за натамошна инкременталност и преискористување (reuse). Од каде ќе се црпат информациите за изгледот и хемискиот состав на протеинот? Одговорот на првото прашање зависи од конкретната примена на прикажувачот. Во кристалографијата од интерес е хемискиот состав и просторната поставеност на атомите во макромолекулот, и тука најпогодно е да се цртаат самите атоми (слика 17). слика 17. Визуелизација на протеини од гледна точка на кристалографија (модел на сфери и цилиндри Ball and Stick ) 39

Во симулациите и во истражувањето на градбата на протеинот по мономери, најпогодно е исцртувањето по амино киселини (слика 18). слика 18..Визуелизација на протеини од гледна точка на проучување на градбата Во проучувањето на функцијата на протеинот, најдобро би било да се издвојат типските секундарни структури, кои и се сметаат за активни делови на протеинот. Денес постојат дури и предлози (guidelines) за тоа како овие прикажувачи да ги исцртуваат секундарните структури (преку траки ribbons и цилиндри слика 19). слика 19. Поглед на траки (Ribbon View) 40

По однос на второто прашање, денешните визуелни оперативни системи преку мноштвото на контроли и прозори и автоматизираната интеракција со периферните уреди даваат голема слобода во градбата на интерфејсот кој соодветствува на саканата корисничка интеракција. Денес се градат и активни прикажувачи, кои даваат и одредени симулаторски можности, како на пример можност на замена или отстранување на одредени секвенци. Изборот на целна група на кориснички машини е, исто така интересно прашање. Развојот на техниките на тродимензионална визуелизација, како и наглото паѓање на цените на висококвалитетниот графички хардвер, денес на обичните персонални компјутери дозволуваат неверојатни тродимензионални реалновременски презентации. Сепак, за задржување на реалновременскиот карактер на сите машини при цртање на сложени макромолекули, најбезбедно би било да не се користат скапи техники на рендерирање. Од друга страна пак некогаш исцртуваме неподвижни сцени-слики (still images), и од поголема важност ни е изгледот. Во такви ситуации можеме да користиме скапи нереалновременски техники, како ray tracing (слика 20). слика 20. Ray tracing слика При избор на технологија за изработка на прикажувачот од важност е исто така и намената на истиот. На пример доколку би се користело за прикажување на 41

Web, погодно би било да се изработи во некоја од технологиите кои лесно се интегрираат со овој сервис, како што се ActiveX (Microsoft), PlugIn (Netscape), Java (Sun). По однос на рендерирањето, погодно е да се користи некој стандарден 3Д интерфејс, како OpenGL, DirectX или Java3D. Во врска со последното, и мислам најинтересното прашање постојат два различни стандардни формати за чување на информации за макромолекули: PDB(Protein Data Bank) и mmcif(macromolecular Crystallographic Information File). Ќе го опишеме само првиот формат на чување на податоци поради тоа што е релевантен за апликацијата која подоцна ќе ја разгледуваме. 4.1. PDB (Protein Data Bank) формат Проблемот на визуелизација на макромолекули е тесно поврзан со проблемот на складирање на информациите за просторната и хемиската градба на макромолекулите. Овој проблем првпат е разгледуван во седумдесетите. Тогаш се развиени и првите формати на датотеки за дескрипција на кристалографијата на големите молекули. PDB форматот е развиван од Research Collaboratory for Structural Bioinformatics (RCSB), и денес е практично, стандард за опис на протеинските макромолекули. Сите познати протеински структури се сочувани во овој формат, и него го користат сите прикажувачи, како и истражувачки центри за анализа на секвенци и слично. PDB документите се јавно достапни на сајтот на RCSB [8]. Овој формат на чување на податоци е иклучително значаен во истажувачката дејност на биохемичарите и биоинформатичарите. За тоа сведочат следниве податоци добиени од официјалната веб на RCSB: Во PDB архивата има повеќе од 17 500 записи; Има околу 100 000 симнувања на датотеки дневно; Има 7 целосно огледални страници (mirror sites) ширум светот (45 GB/site). 42

Во суштина, форматот е многу едноставна, ASCII базирана дадтотека. Постојат многу готови програмски пакети и библиотеки за поедноставена манипулација, парсирање и запишување во него. Секоја датотека може да се подели на повеќе линии, кои завршуваат со endof-line индикатор. Секоја линија се состои од 80 колони. Секоја линија е самоидентифицирачка. Првите шест колони од секоја линија содржат име на записот, кое мора да е едно од предефинираните множество на имиња. Датотеката може да се разгледува и како колекција од типови на записи (record types). Секој тип на запис може да се состои од една или повеќе линии. Секој тип на запис натаму се дели на полиња. Сите записи мора да се појавуваат во дефиниран редослед. Задолжителните (mandatory) типови ги има во секоја датотека. Дури и ако немаме податоци за нив, нивните имиња мора да фигурираат во датотеката со NULL индикатори. Под одредени услови и опционите (optional) типови стануваат задолжителни. Типовите на записи фино се поделени по секции (sections): табела 1. Опис на типови на запис кај PDB форматот Секција Опис Типови на запис OBSLTE, TITLE, CAVEAT, COMPND, Сумарни дескриптивни Title SOURCE, KEYWDS, записи EXPDTA, AUTHOR, REVDAT, SPRSDE, JRNL Remark Библиографија и сл. REMARKs 1, 2, 3 and others Primary Structure Heterogen Secondary Structure Connectivity Annotation Пептина секвенца и споредба со базите на секвенци Опис на нестандардни (хетерогени) атомски групи Опис на секундарни структури Слаби хемиски врски (водородна, солна, бисулфидна и сл.) DBREF, SEQADV, SEQRES MODRES HET, HETNAM, HETSYN, FORMUL HELIX, SHEET, TURN SSBOND, LINK, HYDBND, SLTBRG, CISPEP 43

Miscellaneous Features Својства на SITE макромолекулата Crystallographic Опис на CRYST1 кристалографската ќелија Операции на ORIGXn, SCALEn, Coordinate координатни MTRIXn, TVECT Transformations трансформации MODEL, ATOM, Coordinate Податоци за SIGATM, ANISOU, координатите на атомите SIGUIJ, TER, HETATM, ENDMDL Connectivity Хемиска валентност CONECT Сумарни информации, Bookkeeping информации за крај на MASTER, END фајлот Секој тип на податок може да се прикаже во табела, која ја содржи поделеноста на записот на полиња по број на колона, дефиниран тип на податок, име на поле и опис. Секоја неспецифицирана колона мора да се остави празна. Еве ги и можните типови на податоци по полиња: табела 2. Можни типови на податоци по полиња Тип на поидаток Опис AChar Алфабетски карактер Atom Име на атом (следи припремени правила за номенклатура) Character Секој неконтролен ASCII карактер Continuation Поле од два карактри кое е или празно или содржи двоцифрен број кој го брои продолжувачкиот запис Date Поле од девет карактери со дата во формат дд-ммм-гг (не е отпорна на милениумската бубачка) IDCode Идентификатор од 4 карактери, првиот е нумерички, другите 3 алфабетски. Ако првиот карактер е 0, фајлот не содржи координатни податоци Integer Целобројни броеви 44

Token Секвенца од карактери без празни места List Стринг составен од подстрингови поделени со запирки LString Стринг чии празни места се важни и треба да се запазат Lstring(n) LString со точно n карактери Real(n,m) Реален број со формат (n,m) Record name Име на полето со 6 карактери Residue name Една од стандарните амино киселини или нуклеински киселини (имаат припремени правила за номенклатура), или некоја хетероген атомска група, опишана во Heterogen секција Slist Стринг составен од подстрингови поделени со ; Specification Стринг составен од Token и соодветна вредност Specification list Секевнца од Specification поделени со ; String Секвенца од карактери. Празните места се игнорираат при читање String(n) String со точно n карактери SymOP 4 до 6 карактери кои со точно одреден формат опишуваат некоја операција на симетрија Ќе разгледаме еден пример на опис на тип запис, конкретно записот ATOM : табела 3. Опис на тип на запис ATOM Колони Тип податок Име на поле Дефиниција 1 6 Record name "ATOM " 7 11 Integer serial Сериски број на атомот 13 16 Atom name Име на атомот 17 Character altloc Локациски индикатор 18 20 Residue name resname Име на мономерот 45

22 Character chainid Идентификатор на синџирот 23 26 Integer resseq Секвенциски број на мономерот 27 AChar icode Код за внес на мономер 31 38 Real(8.3) X Ортогонална координата X во ангстроми 39 46 Real(8.3) Y Ортогонална координата Y во ангстроми 47 54 Real(8.3) Z Ортогонална координата Z во ангстроми 55 60 Real(6.2) Occupancy 61 66 Real(6.2) tempfactor Температурен фактор 73 76 LString(4) segid Сегментен идентификатор 77 78 LString(2) Element Симбол на елементот 79 80 LString(2) Charge Полнеж Конечно самите внесови за овој тип на запис во датотеката ќе бидат вакви: 1 2 3 4 5 6 7 123456789012345678901234567890123456789012345678901234567890123456789012345678 ATOM 145 N VAL A 25 32.433 16.336 57.540 1.00 11.92 A1 N ATOM 146 CA VAL A 25 31.132 16.439 58.160 1.00 11.85 A1 C ATOM 147 C VAL A 25 30.447 15.105 58.363 1.00 12.34 A1 C ATOM 148 O VAL A 25 29.520 15.059 59.174 1.00 15.65 A1 O ATOM 149 CB AVAL A 25 30.385 17.437 57.230 0.28 13.88 A1 C ATOM 150 CB BVAL A 25 30.166 17.399 57.373 0.72 15.41 A1 C ATOM 151 CG1AVAL A 25 28.870 17.401 57.336 0.28 12.64 A1 C ATOM 152 CG1BVAL A 25 30.805 18.788 57.449 0.72 15.11 A1 C ATOM 153 CG2AVAL A 25 30.835 18.826 57.661 0.28 13.58 A1 C ATOM 154 CG2BVAL A 25 29.909 16.996 55.922 0.72 13.25 A1 C Првите две редици се дадени само за илустрација во која колона кој запис започнува. PDB форматот вака опишан испаѓа многу едноставен и погоден за брза конструкција на модули за програмско парсирање и обработка, како општи, така и со специфична задача. Меѓутоа, форматот има и многу ограничувања. Лесно се 46

приметува ограниченоста на типовите на податоци по број на колони, и затвореноста на системот, односно немањето можност за дефинирање на нови типови на записи (освен со ревизија на стандардот). 47

5. Реализација на прикажувач на протеини 5.1. Анализа и дизајн на прикажувачот на протеини На слика 21 е прикажана архитектурата на нашиот прикажувач Simple Protein Viewer. Сликата сама по себе е доволно дескриптивна и го опишува целиот процес на визуелиација на протеините кај овој прикажувач. Класата Protein е парсер на PDB датотеката во која се наоѓаат информациите за атомите, врските и амино киселинските остатоци кои треба да ги визуелизираме. Структурата на PDB датотеката е дадена во претходното поглавје во кое детално беше опишано како е организирана истата, и кои информации можат да се исцрпат од неа. Паресерот ги ажурира сите шест класи: Atom, Connection, HetAtm, Residue, ResSeq, SecondaryStructure. Рендерерот ProteinGLViewer ги зема информациите од овие класи, врши реално-временско рендерирање и ги прикажува резултатите на екранот преку графичкиот кориснички интерфејс. 48

слика 21. Архитектура на прикажувачот Simple Protein Viewer Од Use-Case дијаграмот на Simple Protein Viewer прикажан на слика 22, се гледа фукционалноста на целата апликација. Корисникот може да отвори протеинска молекула и потоа да изврши различни манипулации над неа, како што се: разни ротации, зумирање, селектирање, сокривање и прикажување на поедини атоми и амино киселини итн... Самата молекула може да се прегледува во некој од следниве погледи: Sticks, Residue View, Spacefill, и Ball and Stick. Погледот на молекулата понатаму може да се експортира во вид на слика во некој од следниве формати JPG, BMP и GIF. За прикажувачот има и картко 49

упатство за работа во кое се опишани неговите функции и начинот на користење на истите. Од самата архитектура се гледа дека се работи за апликација која е добро кориснички ориентирана и едноставна за употреба. Има ефективен PDB парсер, брзи податочни структури како и ефикасно реално-временско рендерирање во OpenGl. слика 22. Use-Case дијаграм на прикажувачот Simple Protein Viewer 50

слика 23. Дијаграм на активности на прикажувачот Simple Protein Viewer Од дијаграмот на активности прикажан на слика 23, се гледа секвенцата на извршување на акциите при користење на апликацијата. Самиот тек на 51

активностите започува со отворање на молекулата, па откако ќе се извршат потребните манипулации над неа или само ќе се разгледа истата можеме да ја експортираме или да ја затвориме апликацијата. Објектниот модел на прикажувачот до некаде го следи моделот на самите протеини. Имплементиран е преку осум С++ класи прикажани на класниот дијаграм на слика 24: слика 24. Класен дијаграм на Simple Protein Viewer Atom класата ги чува информациите за поедините атоми Connection класата ги чува информациите за ковалентните врски меѓу атомите HetAtm класата ги чува информациите за хетерогените групи Residue класата е носител на информациите за амино киселините 52

ResSeq носител на информациите за поедини синџири од амино киселини SecondaryStructure носител на информациите за секундарните структури Protein е класа контејнер на сите претходни класи и парсер за PDB фајлови ProteinGLViewer наследува од претходната и е задолжена за иницијализација и рендирање преку OpenGL Зависностите на класите една од друга се прикажани на класниот дијаграм на слика 24. 5.2. Имплементација на визуелизаторот Simple Protein Viewer На слика 25 е прикажан Deployment дијаграмот на нашиот визуелизатор. Можеме да забележиме како Графичкиот Кориснички Интерфејс за да ја прикаже молекулата мора да пристапи до ActiveX контролата, а за да нашата апликација работи мора на машината на која работиме да има инсталирано MS.NET Framework 2, што е и логично зашто апликацијата е целосно направена во Microsoft Visual Studio 2005. Прикажувачот Simple Protein Viewer е имплементиран како ActiveX динамичка библиотека. Библиотеката е испрограмирана во јазикот С++, поради одличната скалабилност која ја има овој објектно-ориентиран програмски јазик и поради поддршката на сите SDK (Software Development Kit) пакети потребни за ваков проект (пакети за тродимензионално рендирање OpenGL, пакети за работа со прозорски интерфејси, пакети за интернет комуникација и слично WinInet ). 53

слика 25. Deployment диагран на Simple Protein Viewer Во рамки на дипломската работа е изработена и генеричка COM Container апликација во C# (Microsoft Visual Studio 2005) PDBGUI.exe во која се илустрирани практично сите можности на интерфејсот на оваа контрола: Интерфејост на апликацијата е составен од следниве делови: Апликациско мени кое се состои од следниве под-менија: - File менито служи за отворање на нова молекула или PDB датотека која сакаме да ја разгледуваме. - Со помош на Show менито можеме да избереме неколку од различните погледи на молекулата: 1. Sticks поглед на скелетот на молекулата и ковалентинте врски од кои е составена (слика 26); 54

2. Residue - нишки и синџири на амино-киселини исцртани со триаголници и цртички за пептидните врски (слика 27); 3. Spacefill просторен поглед на целата молекула, овој поглед е посебно погоден ако сакаме да ја разгледуваме површината на молекулата (surface view) (слика 28); 4. Ball and Stick поглед на молекулата по атоми и ковалентни врски меѓу нив (слика 29). слика 26. Sticks поглед на протеинска молекула во прикажувачот Simple Protein Viewer 55

слика 27. Поглед на протеинот по амино киселински остатоци слика 28. Spacefill погледн на протеин прикажан во Simple Protein Viewer 56

слика 29. Ball and Stick поглед на протеин кај Simple Protein Viewer - Ако сакаме да ја експортираме молекулата во вид на слика во некој од следниве формати: BMP, JPG или GIF, го користиме Export менито слика 30. Легенда на обоеност на поедините атоми слика - Legend менито служи за прикажување/сокривање на легендата на обоеност на атомите со која прегледот на молекулата станува поедноставен и 57

поразбирлив, односно ваквиот дизајн на графичкиот кориснички интерфејс го прави овој прикажувач посебно погоден за едукативни цели и за корисници - почетници кои ја учат структурата на протеините (слика 30). На активниот дел на формата (десно), може да се разгледува молекулата, да се ротира (лево влечење со глувчето) или да се променува размерот (десно влечење со глувчето). На левата страна на формата се наоѓаат два лист прозорца за селектирање, листање и маскирање на атомите кои ги разгледуваме. Со кликање на било кој од записите во листата се селектира синџирот, како и пооделните остатоци во синџирот. Кога ќе избереме поглед на амино киселини, можеме да ги гледаме нивните остатоци (residues) како сиви триаголници, и пептидните врски како сиви линии. Кога се селектираат тие се обојуваат бело. Исто така и секундарните структури се обоени, и тоа на следниов начин: Help менито се состои од дел во кој се наоѓа корисничкото упатство (Manual) во кој се опишани начините на користење на апликацијата и нејзините можности, и About каде има информација за верзијата на програмата и програмерот кој ја изработил. доле десно.. Името на секоја отворена молекула е прикажано на апликацискиот прозорец 58

6. Споредба на различни системи за прикажување на протеини Денес постојат повеќе интересни системи за визуелизација, како и за визуелна симулација со протеини. Подоле се излистани само некои од веќе постоечките визуелизатори на протеини: Како најинтересни, кои и подетално ќе ги опишеме може да се издвојат: RasMol Quick PDB Swiss Pdb Viewer Prototype Protein Viewer 59

Biodesigner CACTVS Chemdraw net Plugin Chemical2vmd Chime Chimera Cn3D CONSCRIPT Dino Flex FlexV Garlic Gdis gopenmol GRASP Hyperactive Molecules Using Chemical MIME ICMLite ImageMagick INTERCHEM modelling software Jmol JMV JMVS Kinemage MacMolecule 2 and PCMolecule 2 Maestro Marvin Applets and JavaBeans Mercury MindTool MOLEKEL MOLMOL MolPov MolScript MolView and MolView Lite MSP NIH Image O Qmol QTree ORTEX POV-Ray 100 PovChem Prototype Protein Viewer Protein Explorer PSI88 PyMOL Quck PDB RasMol Raster3D Ribbons DNA Movies RNA Movies RnaViz RnaViz Spock Swiss-PdbViewer Tachyon VEGA Viewmol VMD WebLab ViewerLite WebMol WinMGM XMol Ќе разгледаме некои од нив за потоа да можеме да извршиме споредување со нашиов прикажувач на протеини. 6.1. RasMol Кога зборувавме за историјатот на компјутерската визуелизација на протеини многу често беше споменуван овој прикажувач кој воедно е и првиот јавно достапен компјутерски визуелизатор на протеини [13]. 60

Основни карактеристики: Многу едноставна програма за прегледување на молекули со ограничен капацитет за манипулација, и едноставна за употреба Пионер во freeware програмите за визуелизација Работи како инсталирана stand alone апликација Source code-от му е јавно достапен Работи на Mac, Windows, Linux, SGI и на повеќето UNIX платформи слика 31. Графички интерфејс на RasMol 61

6.2. Quick PDB Quick PDB е независен проект развиван од Shindyalov и Bourne. Изработен е како Java Applet (неговиот source code е јавно достапен), и денес се користи првенствено на сајтот на RCSB, за брза визуелизација на PDB фајлови. Основни карактеристики: Мал по големина и со тоа брз за инсталација преку интернет; Изработен како аплет, со тоа е мултиплатформски и лесен за интеграција со Web страни слика 32 Quick PDB Интересен и лесен интерфејс, со можност за селекција на секвенци по редослед и по карактеристики, за издвојување на секундарните структури Релативно штуро исцртување на протеините (аминокиселините се цртаат со по две цртички), но завидно брзо и полезно 62

Нема можност за исцртување по атоми, туку само по аминокиселини Како извор на информации користи PDB фајлови 6.3. Swiss-PdbViewer Swiss-PdbViewer е развиван од Glaxo Experimental Research. Во моментов е веројатно најдобриот и најкористениот прикажувач/симулатор. Затоа и ќе посветиме повеќе внимание на него. 6.3.1. Опис Swiss-PdbViewer е апликација која овозможува преку едноставен интерфејс, анализа дури и на повеќе протеини истовремено. Благодарение на интуитивната графика и интерфејсот на менито, едноставно е да се прикажат и пресметаат аминоацидни мутации, H-синџири, агли и растојанија помеѓу атоми [14]. Уште повеќе, Swiss-PdbViewer цврсто е поврзан со серверот за автоматско моделирање на хомологија, Swiss-Model, заедно со Swiss Institute of Bioinformatics (SIB) во соработка со GlaxoSmithKline R&D и Structural Bioinformatics Group во Biozentrum во Basel. Работата со овие две програми, во голема мера ја редуцира работата потребна за генерирање на модели, на тој начин што е можно да се вметне протеинската примарна секвенца во 3Д примерок (template) и да се добие моментално повратен одговор за тоа како добро ќе биде примен соодветниот протеин од референтната структура, пред да се поднесе барање за да се изградат синџирите кои недостасуваат и да се преработи пакувањето на страничните синџири. Swiss-PdbViewer може исто така да чита мапи за електронска густина и овозможува најразновидни алатки за градење внатре во густината. Како додаток се интегрирани најразлични алатки за моделирање и команди документи со што може да се генерираат пакети за минимизација на енергијата. 63

И за крај, како специјаен додаток, може да се генерираат POV-Ray сцени од моменталниот модел, со цел да се направат неверојатно квалитетни слики со помош на следење на заци ray-tracing. 6.3.2. Инсталација За да работи Swiss-PdbViewer потребни се следните хардверски и ОС побарувања: Pentium Windows 95/98/NT/2000/XP/ME OpenGL Инсталацијата е едноставна: spdbv37sp5.zip е self-extracting архива. Со нејзино активирање Swiss-PdbViewer самиот се инсталира. Доколку сакате да градите самостојни (standalone) модели потребен ви е Swiss Pdb- Viewer Loop Database, кој мора да се ископира во "_stuff_" директориумот на Swiss Pdb-Viewer. SPDBV (v3.6) може да пребарува секвенци од Proposite моделот. За таа цел мора да се ископира "prosite.dat" во директориумот "usrstuff". Доколку сакате да правите слики со следење на зраци (ray-tracing), треба да го инсталирате Pov-Ray. Основни карактеристики: Подеднакво добро работи и со двата основни формати за чување на протеински информации (PDB(Protein Data Bank) и mmcif(macromolecular Crystallographic Information File) Има богат и професионално изведен интерфејс чии опции можат да се вклучуваат или исклучуваат по потреба Номинално исцртува атоми и ковалентни врски меѓу нив, но по желба можеме да вклучиме и погледи со Ribbon рендерирање, рендерирање по аминокиселини и сл. Совршено брзо ги извршува операциите на селекција, боење, детекција на слаби (нековалентни) врски и сл. 64

Поддржува одредени можости за симулација, првенствено преку аплицирање на торзија врз поедини пептидни врски и преку мутација со замена на аминокиселини Има и сопствен скрипт јазик за автоматизирање на симулациите и погледите Има и можност за експортирање во PovRay 3D формат, кој подоцна можеме да го изрендираме во висококвалитетна raytraced слика. Денес овој експорт се користи дури и во компјутерската графика и дизајн поради интересните форми кои се добиваат од протеините слика 33. Swiss-Pdb Viewer 65

6.4. Prototype Protein Viewer Prototype Protein Viewer се развива во IBM Research. Иако моменталната верзија му е 1.01, може да се рече дека е сеуште е во развој и мора да се справува со многу недостатоци кои ги има. Меѓутоа, имајќи предвид кој стои зад продуктов, за очекување е да испадне нешто интересно од него [15]. 6.4.1. Опис Prototype Protein Viewer (PPV) е апликација која овозможува интерактивно разгледување на линкирани 2Д и 3Д репрезентации на биомолекуларни структури. Оваа апликација ги искористува предностите на графичките способности на персоналните компјутери. PPV може да лоадира едноставни PDB датотеки за интерактивно разгледување на статичката структура, и може да импортира траекторни датотеки, кои содржат во себе многу временски чекори од молекуларната симулација. PPV овозможува истражување на биомолекуларни структури со голем степен на интерактивност, користејќи ги удобностите на графичкиот хардвер. PPV ги истакнува линкираните 2Д и 3Д погледи од една иста структура, кои заедно овозможуваат проникнување (insight) кое не би може да се забележи ако се разгледуваат двата модели одделно. Оваа апликација исто така служи и како алтернативни видео клипчиња од молекуларните динамички траектории, кои честопати се презентирани како едноставни апликации кои не дозволуваат ротација или зголемување на размерот во текот на прикажувањето. PPV овозможува да се пуштаат клиповите на траекториите, со целосна корисничка интеракција на типични компјутери или лаптопи, што резултира во поголемо разбирање на молекуларниот систем како што истиот се развива. 3Д графиката на PPV е целосно напишана во DirectX. 66

слика 34. Основен изглед на PPV Основни карактеристики: Малку чудно е што користи DirectX за цртање, додека сите други го користат индустрискиот стандард, OpenGL Иритирачки спор Исто, користи строго PDB фајлови Интересен интерфејс, со можност за исцртување по атоми, аминокиселини и по секундарни структури (ribbon based) Можност за селекција по аминокиселини, како од прозорецот долу (ја прикажува примарната структура), така и со дирекно кликнување врз протеинот Преку квадратот горе-десно (практично, тоа е матрица на дистанци), може да ја одбележи и пресмета далечината меѓу две аминокиселини Сериозна мана му претставува тоа што не се снаоѓа со протеини составени од повеќе синџири, а такви ги има многу 67

слика 35. Анимација во PPV 6.5. Преглед и споредба на карактеристиките на прикажувачите на протеини Претходно ги разгледавме и детално опишавме карактеристикита на некои од најраспространетите и најдобрите професионални пакети за прегледување и истражување на формата и фукнцијата на протеините Го опишавме и нашиот Simple Protein Viewer, неговата функционалност и начин на работа. Сумаризираните резултати се дадени во табела 4. 68