UniProt
UniProt | |
Kategória |
|
Licenc | Creative Commons Attribution-NoDerivs |
Az UniProt weboldala |
A UniProt szabadon elérhető fehérjeszekvencia- és -funkciósinformáció-adatbázis, sok bejegyzése genomszekvenálási projektekből származik. Sok információt tartalmaz a fehérjék biológiai funkciójáról a szakirodalomban. A UniProt-konzorcium tartja fenn, mely két európai bioinformatikai szervezetből és egy Washington, DC-ben (Amerikai Egyesült Államok) működő alapítványból áll.
A UniProt-konzorcium
[szerkesztés]A UniProt-konzorcium tagjai az Európai Bioinformatikai Intézet (EBI), a Svájci Bioinformatikai Intézet (SIB) és a Protein Information Resource (PIR). A Wellcome Trust Genome Campusben (Hinxton, Egyesült Királyság) lévő EBI számos bioinformatikai erőforrást és szolgáltatást nyújt. A Genfben működő SIB tartja fenn az ExPASy (Expert Protein Analysis System) szervereit, melyek a proteomikai eszközök és adatbázisok központi erőforrása. A National Biomedical Research Foundation (NBRF) által a Georgetowni Egyetem Orvosi Központjában működtetett PIR a legrégebbi fehérjeszekvencia-adatbázisnak, Margaret Dayhoff először 1965-ben kiadott Atlas of Protein Sequence and Structure-jének utódja.[1] 2002-ben az EBI, a SIB és a PIR megalapították a UniProt-konzorciumot.[2]
A UniProt-adatbázis alapjai
[szerkesztés]A konzorcium tagjai a fehérjeadatbázis-fenntartásában és jelölésében szerepet játszik. 2003-ig az EBI és a SIB a Swiss-Prot és TrEMBL adatbázisokat, míg a PIR a Protein Sequence Database-t (PIR-PSD) működtette.[3][4][5] Ezen adatbázisok együtt léteztek eltérő fehérjeszekvencia-lefedettséggel és jelölési prioritásokkal.
A Swiss-Protot 1986-ban hozta létre Amos Bairoch doktori munkája során, a Svájci Bioinformatikai Intézet fejlesztette, később az Európai Bioinformatikai Intézetnél dolgozó Rolf Apweiler fejlesztette tovább.[6][7][8] A Swiss-Prot célja megbízható fehérjeszekvenciák biztosítása magas szintű jelöléssel (például a fehérje funkciójának, doménszerkezetének, poszttranszlációs módosulásainak, változatainak stb. leírásával), minél kisebb redundancia és minél nagyobb integráció mellett. Felismerve, hogy a szekvenciaadat a Swiss-Prot által kezelhetőnél gyorsabban keletkezett, létrehozták a TrEMBL-t (Translated EMBL Nucleotide Sequence Data Library) az automatikus jelölésekhez a Swiss-Protban nem szereplő fehérjéknek. Közben a PIR kezelte a PIR-PSD-t és kapcsolódó adatbázisait, például az iProClasst, mely szekvenciák és családok adatbázisa.
A konzorcium tagjai a UniProtot 2003 decemberében indították el.[9]
Szerveződés
[szerkesztés]A UniProt 4 magadatbázist tartalmaz, ezek a UniProtKB (részei a Swiss-Prot és a TrEMBL), a UniParc, a UniRef és a Proteome.
UniProtKB
[szerkesztés]A UniProt-tudásbázis (UniProtKB) részben szakértők által ellenőrzött fehérje-adatbázis, mely két részből áll, ezek a UniProtKB/Swiss-Prot (ellenőrzött, kézzel jelölt bejegyzésekkel) és a UniProtKB/TrEMBL (ellenőrizetlen, automatikusan jelölt bejegyzésekkel).[10] A UniProtKB/Swiss-Prot 2023_05 verziója 570 420 szekvenciát tartalmaz 206 321 560 aminosavval, 295 467 hivatkozásból. A UniProtKB/TrEMBL 2023_05 kiadása 251 131 639 szekvenciát tartalmaz, 88 223 298 202 aminosavval.[11]
UniProtKB/Swiss-Prot
[szerkesztés]A UniProtKB/Swiss-Prot kézzel ellenőrzött, nem redundáns fehérjeszekvecia-adatbázis. Tudományos irodalomból és biokurátor által kiértékelt számítógépes analízisből áll. Célja egy adott fehérjéről való összes ismert információ bemutatása. A jelölés gyakran van ellenőrizve a tudományos irodalomnak megfelelően. A kézi jelölés a fehérjeszekvencia és a tudományos irodalom részletes elemzését tartalmazza.[12]
Azonos gén és faj szekvenciái azonos bejegyzésbe kerülnek. A szekvenciák különbségei azonosítva, okuk (például alternatív splicing, természetes variáció, nem megfelelő iniciációs helyek, nem megfelelő exonhatár, kereteltolódás vagy azonosítatlan konfliktus) dokumentálva van. Számos szekvenciaelemző eszköz használatos a UniProtKB/Swiss-Prot-bejegyzések jelölésére. A számítógépes előrejelzések elemzése, a releváns eredmények kiválasztása kézzel történik. Előrejelzések például a poszttranszlációs módosulások, a transzmembrán domének, a topológia, a jelzőpeptidek, a doménazonosítás és a fehérjecsalád-besorolás.[12][13]
A releváns publikációk kereső adatbázisok, például a PubMed révén azonosíthatók. A tanulmányok teljes szövegét olvassák, információit kivonják, és a bejegyzéshez adják. A tudományos irodalomból származó jelölés például:[9][12][13]
- Fehérje- és génnevek
- Funkció
- Enzimspecifikus információ, például katalitikus aktivitás, kofaktorok, katalitikus csoportok.
- Sejten belüli hely
- Fehérje-fehérje kölcsönhatások
- Expressziós minta
- A fontos domének és helyek elhelyezkedése és szerepe
- Ion-, szubsztrát- és kofaktorkötő helyek
- Fehérjeváltozatok természetes változatokkal, RNS-szerkesztéssel, alternatív splicinggal, proteolitikus feldolgozással és poszttranszlációs módosulással
A jelölt elemek minőség-ellenőrzésen mennek át a UniProtKB/Swiss-Protba kerülés előtt. Új adat elérhetővé válásakor a bejegyzések frissülnek.
UniProtKB/TrEMBL
[szerkesztés]A UniProtKB/TrEMBL magas minőségű számítógépesen elemzett rekordokat tartalmaz, automatikus jelöléssel. A megnövekedett adatáramlás miatt jött létre, mivel a kézi jelölési folyamat nem volt kiszélesíthető minden elérhető fehérjeszekvencia bevételére.[9] A jelölt kódoló szekvenciák az EMBL-Bank/GenBank/DDBJ nukleotidszekvencia-adatbázisban automatikusan feldolgozásra kerülnek és bekerülnek a UniProtKB/TrEMBL-be. A UniProtKB/TrEMBL tartalmaz még a PDB-ből és génelőrejelzésből, például Ensemblből, RefSeqből és CCDS-ből származó fehérjéket is.[14] 2021. július 22. óta tartalmaz az AlphaFold által előrejelzett harmadlagos és az Alphafold-multimer által előrejelzett negyedleges szerkezeteket is.[15][16]
UniParc
[szerkesztés]A UniProt Archive (UniParc) nem redundáns adatbázis az összes nyilvánosan elérheő fehérjeszekvencia-adatbázisból származó fehérjeszekvenciával.[17] A fehérjék számos eltérő forrásadatbázisban létezhetnek különböző példányokban egy adatbázisban. A redundancia elkerülése végett a UniParc minden szekvenciát egyszer tárol. Az azonos szekvenciák egybe tartoznak, függetlenül attól, mely fajhoz tartoznak. Minden szekvenciához stabil, egyedi azonosító (UPI) tartozik, lehetővé téve azonos fehérje eltérő forrásadatbázisokból való azonosítását. A UniParc jelöletlen fehérjeszekvenciákat tartalmaz. Az adatbázis-kereszthivatkozások lehetővé teszik a fehérjéről szóló további információ szerzését a forrásadatbázisokból. Ha a szekvenciaadat megváltozik a forrásban, ezt a UniParc követi, és a változások története archiválásra kerül.
Forrásadatbázisok
[szerkesztés]Jelenleg az alábbi nyilvános adatbázisokból tartalmaz a UniParc szekvenciákat:
- INSDC EMBL-Bank/DDBJ/GenBank nukleotidszekvencia-adatbázisok
- Ensembl
- Európai Szabadalmi Hivatal (EPO)
- FlyBase
- H-Invitational-adatbázis (H-Inv)
- International Protein Index (IPI)
- Japán Szabadalmi Hivatal (JPO)
- Protein Information Resource (PIR-PSD)
- Protein Data Bank (PDB)
- Protein Research Foundation (PRF)[18]
- RefSeq
- Saccharomyces Genome Database (SGD)
- The Arabidopsis Information Resource (TAIR)
- TROME[19]
- US Patent Office (USPTO)
- UniProtKB/Swiss-Prot, UniProtKB/Swiss-Prot protein isoforms, UniProtKB/TrEMBL
- Vertebrate and Genome Annotation Database (VEGA)
- WormBase
UniRef
[szerkesztés]A UniProt Reference Clusters (UniRef) 3 UniProtKB- és UniParc-rekordokból álló fehérjeszekvencia-csoportokból álló adatbázisból áll.[20] A UniRef100 adatbázis azonos szekvenciákat és szekvenciarészeket egy UniRef-bejegyzésbe tesz. Egy fehérje szekvenciája, az egyesült elemek hozzáférési száma és a megfelelő UniProtKB- és UniParc-rekordok hivatkozásai találhatók meg. A UniRef100-szekvenciák a CD-HIT algoritmussal vannak csoportosítva a UniRef90-hez és UniRef50-hez.[20][21] Ezek a leghosszabb szekvenciához legalább 90%-ban, illetve 50%-ban hasonló szekvenciákat csoportosítanak. A csoportosítás csökkenti az adatbázisméretet, lehetővé téve gyorsabb szekvenciakereséseket.
Támogatás
[szerkesztés]A UniProtot a National Human Genome Research Institute, a National Institutes of Health (NIH), az Európai Bizottság, a svájci kormány (az oktatási és tudományos minisztériumon keresztül), a NIC-caBIG és az amerikai védelmi minisztérium támogatják.[10]
Jegyzetek
[szerkesztés]- ↑ Dayhoff, Margaret O. Atlas of protein sequence and structure. Silver Spring, Md: National Biomedical Research Foundation (1965)
- ↑ 2002 Release: NHGRI Funds Global Protein Database. National Human Genome Research Institute (NHGRI) . [2015. szeptember 24-i dátummal az eredetiből archiválva]. (Hozzáférés: 2018. április 14.)
- ↑ O'Donovan, C. (2002). „High-quality protein knowledge resource: SWISS-PROT and TrEMBL”. Briefings in Bioinformatics 3 (3), 275–284. o. DOI:10.1093/bib/3.3.275. PMID 12230036.
- ↑ Wu, C. H. (2003). „The Protein Information Resource”. Nucleic Acids Research 31 (1), 345–347. o. DOI:10.1093/nar/gkg040. PMID 12520019. PMC 165487.
- ↑ Boeckmann, B. (2003). „The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003”. Nucleic Acids Research 31 (1), 365–370. o. DOI:10.1093/nar/gkg095. PMID 12520024. PMC 165542.
- ↑ Bairoch, A. (1996). „The SWISS-PROT protein sequence data bank and its new supplement TREMBL”. Nucleic Acids Research 24 (1), 21–25. o. DOI:10.1093/nar/24.1.21. PMID 8594581. PMC 145613.
- ↑ Bairoch, A. (2000). „Serendipity in bioinformatics, the tribulations of a Swiss bioinformatician through exciting times!”. Bioinformatics 16 (1), 48–64. o. DOI:10.1093/bioinformatics/16.1.48. PMID 10812477.
- ↑ Séverine Altairac (2006. augusztus). „Naissance d’une banque de données: Interview du prof. Amos Bairoch”. Protéines à la Une. ISSN 1660-9824.
- ↑ a b c (2004) „Protein sequence databases”. Current Opinion in Chemical Biology 8 (1), 76–80. o. DOI:10.1016/j.cbpa.2003.12.004. PMID 15036160.
- ↑ a b (2009) „The Universal Protein Resource (UniProt) in 2010”. Nucleic Acids Research 38 (Database issue), D142–D148. o, Kiadó: UniProt. DOI:10.1093/nar/gkp846. PMID 19843607. PMC 2808944.
- ↑ UniProtKB/Swiss-Prot Release 2023_05 statistics. web.expasy.org . (Hozzáférés: 2023. március 31.)
- ↑ a b c How do we manually annotate a UniProtKB entry?. www.uniprot.org . (Hozzáférés: 2018. április 14.)
- ↑ a b Apweiler, R. (2004). „UniProt: The Universal Protein knowledgebase”. Nucleic Acids Research 32 (90001), 115D–1119. o. DOI:10.1093/nar/gkh131. PMID 14681372. PMC 308865.
- ↑ Where do the UniProtKB protein sequences come from?. www.uniprot.org . (Hozzáférés: 2018. április 14.)
- ↑ Humphreys, Ian R. (2021). „Computed structures of core eukaryotic protein complexes”. Science 374 (6573), eabm4805. o. DOI:10.1126/science.abm4805. PMID 34762488. PMC 7612107.
- ↑ Putting the power of AlphaFold into the world's hands. Deepmind . (Hozzáférés: 2021. július 24.)
- ↑ Leinonen, R. (2004). „UniProt archive”. Bioinformatics 20 (17), 3236–3237. o. DOI:10.1093/bioinformatics/bth191. PMID 15044231.
- ↑ Protein Research Foundation
- ↑ TROME[halott link]
- ↑ a b Suzek, B. E. (2007). „UniRef: Comprehensive and non-redundant UniProt reference clusters”. Bioinformatics 23 (10), 1282–1288. o. DOI:10.1093/bioinformatics/btm098. PMID 17379688.
- ↑ (2001) „Clustering of highly homologous sequences to reduce the size of large protein databases”. Bioinformatics 17 (3), 282–283. o. DOI:10.1093/bioinformatics/17.3.282. PMID 11294794.