UniProt

	UniProt
Kategória	biológiai adatbázis; internetes adatbázis; adatkönyvtár; gráfadatbázis; ELIXIR Core Data Resource;
Licenc	Creative Commons Attribution-NoDerivs
	Az UniProt weboldala

Nem tévesztendő össze a következővel: UniPro.

A UniProt szabadon elérhető fehérjeszekvencia- és -funkciósinformáció-adatbázis, sok bejegyzése genomszekvenálási projektekből származik. Sok információt tartalmaz a fehérjék biológiai funkciójáról a szakirodalomban. A UniProt-konzorcium tartja fenn, mely két európai bioinformatikai szervezetből és egy Washington, DC-ben (Amerikai Egyesült Államok) működő alapítványból áll.

A UniProt-konzorcium

A UniProt-konzorcium tagjai az Európai Bioinformatikai Intézet (EBI), a Svájci Bioinformatikai Intézet (SIB) és a Protein Information Resource (PIR). A Wellcome Trust Genome Campusben (Hinxton, Egyesült Királyság) lévő EBI számos bioinformatikai erőforrást és szolgáltatást nyújt. A Genfben működő SIB tartja fenn az ExPASy (Expert Protein Analysis System) szervereit, melyek a proteomikai eszközök és adatbázisok központi erőforrása. A National Biomedical Research Foundation (NBRF) által a Georgetowni Egyetem Orvosi Központjában működtetett PIR a legrégebbi fehérjeszekvencia-adatbázisnak, Margaret Dayhoff először 1965-ben kiadott Atlas of Protein Sequence and Structure-jének utódja.^[1] 2002-ben az EBI, a SIB és a PIR megalapították a UniProt-konzorciumot.^[2]

A UniProt-adatbázis alapjai

A konzorcium tagjai a fehérjeadatbázis-fenntartásában és jelölésében szerepet játszik. 2003-ig az EBI és a SIB a Swiss-Prot és TrEMBL adatbázisokat, míg a PIR a Protein Sequence Database-t (PIR-PSD) működtette.^[3]^[4]^[5] Ezen adatbázisok együtt léteztek eltérő fehérjeszekvencia-lefedettséggel és jelölési prioritásokkal.

A Swiss-Protot 1986-ban hozta létre Amos Bairoch doktori munkája során, a Svájci Bioinformatikai Intézet fejlesztette, később az Európai Bioinformatikai Intézetnél dolgozó Rolf Apweiler fejlesztette tovább.^[6]^[7]^[8] A Swiss-Prot célja megbízható fehérjeszekvenciák biztosítása magas szintű jelöléssel (például a fehérje funkciójának, doménszerkezetének, poszttranszlációs módosulásainak, változatainak stb. leírásával), minél kisebb redundancia és minél nagyobb integráció mellett. Felismerve, hogy a szekvenciaadat a Swiss-Prot által kezelhetőnél gyorsabban keletkezett, létrehozták a TrEMBL-t (Translated EMBL Nucleotide Sequence Data Library) az automatikus jelölésekhez a Swiss-Protban nem szereplő fehérjéknek. Közben a PIR kezelte a PIR-PSD-t és kapcsolódó adatbázisait, például az iProClasst, mely szekvenciák és családok adatbázisa.

A konzorcium tagjai a UniProtot 2003 decemberében indították el.^[9]

Szerveződés

A UniProt 4 magadatbázist tartalmaz, ezek a UniProtKB (részei a Swiss-Prot és a TrEMBL), a UniParc, a UniRef és a Proteome.

UniProtKB

A UniProt-tudásbázis (UniProtKB) részben szakértők által ellenőrzött fehérje-adatbázis, mely két részből áll, ezek a UniProtKB/Swiss-Prot (ellenőrzött, kézzel jelölt bejegyzésekkel) és a UniProtKB/TrEMBL (ellenőrizetlen, automatikusan jelölt bejegyzésekkel).^[10] A UniProtKB/Swiss-Prot 2023_05 verziója 570 420 szekvenciát tartalmaz 206 321 560 aminosavval, 295 467 hivatkozásból. A UniProtKB/TrEMBL 2023_05 kiadása 251 131 639 szekvenciát tartalmaz, 88 223 298 202 aminosavval.^[11]

UniProtKB/Swiss-Prot

A UniProtKB/Swiss-Prot kézzel ellenőrzött, nem redundáns fehérjeszekvecia-adatbázis. Tudományos irodalomból és biokurátor által kiértékelt számítógépes analízisből áll. Célja egy adott fehérjéről való összes ismert információ bemutatása. A jelölés gyakran van ellenőrizve a tudományos irodalomnak megfelelően. A kézi jelölés a fehérjeszekvencia és a tudományos irodalom részletes elemzését tartalmazza.^[12]

Azonos gén és faj szekvenciái azonos bejegyzésbe kerülnek. A szekvenciák különbségei azonosítva, okuk (például alternatív splicing, természetes variáció, nem megfelelő iniciációs helyek, nem megfelelő exonhatár, kereteltolódás vagy azonosítatlan konfliktus) dokumentálva van. Számos szekvenciaelemző eszköz használatos a UniProtKB/Swiss-Prot-bejegyzések jelölésére. A számítógépes előrejelzések elemzése, a releváns eredmények kiválasztása kézzel történik. Előrejelzések például a poszttranszlációs módosulások, a transzmembrán domének, a topológia, a jelzőpeptidek, a doménazonosítás és a fehérjecsalád-besorolás.^[12]^[13]

A releváns publikációk kereső adatbázisok, például a PubMed révén azonosíthatók. A tanulmányok teljes szövegét olvassák, információit kivonják, és a bejegyzéshez adják. A tudományos irodalomból származó jelölés például:^[9]^[12]^[13]

Fehérje- és génnevek
Funkció
Enzimspecifikus információ, például katalitikus aktivitás, kofaktorok, katalitikus csoportok.
Sejten belüli hely
Fehérje-fehérje kölcsönhatások
Expressziós minta
A fontos domének és helyek elhelyezkedése és szerepe
Ion-, szubsztrát- és kofaktorkötő helyek
Fehérjeváltozatok természetes változatokkal, RNS-szerkesztéssel, alternatív splicinggal, proteolitikus feldolgozással és poszttranszlációs módosulással

A jelölt elemek minőség-ellenőrzésen mennek át a UniProtKB/Swiss-Protba kerülés előtt. Új adat elérhetővé válásakor a bejegyzések frissülnek.

UniProtKB/TrEMBL

A UniProtKB/TrEMBL magas minőségű számítógépesen elemzett rekordokat tartalmaz, automatikus jelöléssel. A megnövekedett adatáramlás miatt jött létre, mivel a kézi jelölési folyamat nem volt kiszélesíthető minden elérhető fehérjeszekvencia bevételére.^[9] A jelölt kódoló szekvenciák az EMBL-Bank/GenBank/DDBJ nukleotidszekvencia-adatbázisban automatikusan feldolgozásra kerülnek és bekerülnek a UniProtKB/TrEMBL-be. A UniProtKB/TrEMBL tartalmaz még a PDB-ből és génelőrejelzésből, például Ensemblből, RefSeqből és CCDS-ből származó fehérjéket is.^[14] 2021. július 22. óta tartalmaz az AlphaFold által előrejelzett harmadlagos és az Alphafold-multimer által előrejelzett negyedleges szerkezeteket is.^[15]^[16]

UniParc

A UniProt Archive (UniParc) nem redundáns adatbázis az összes nyilvánosan elérheő fehérjeszekvencia-adatbázisból származó fehérjeszekvenciával.^[17] A fehérjék számos eltérő forrásadatbázisban létezhetnek különböző példányokban egy adatbázisban. A redundancia elkerülése végett a UniParc minden szekvenciát egyszer tárol. Az azonos szekvenciák egybe tartoznak, függetlenül attól, mely fajhoz tartoznak. Minden szekvenciához stabil, egyedi azonosító (UPI) tartozik, lehetővé téve azonos fehérje eltérő forrásadatbázisokból való azonosítását. A UniParc jelöletlen fehérjeszekvenciákat tartalmaz. Az adatbázis-kereszthivatkozások lehetővé teszik a fehérjéről szóló további információ szerzését a forrásadatbázisokból. Ha a szekvenciaadat megváltozik a forrásban, ezt a UniParc követi, és a változások története archiválásra kerül.

Forrásadatbázisok

Jelenleg az alábbi nyilvános adatbázisokból tartalmaz a UniParc szekvenciákat:

INSDC EMBL-Bank/DDBJ/GenBank nukleotidszekvencia-adatbázisok
Ensembl
Európai Szabadalmi Hivatal (EPO)
FlyBase
H-Invitational-adatbázis (H-Inv)
International Protein Index (IPI)
Japán Szabadalmi Hivatal (JPO)
Protein Information Resource (PIR-PSD)
Protein Data Bank (PDB)
Protein Research Foundation (PRF)^[18]
RefSeq
Saccharomyces Genome Database (SGD)
The Arabidopsis Information Resource (TAIR)
TROME^[19]
US Patent Office (USPTO)
UniProtKB/Swiss-Prot, UniProtKB/Swiss-Prot protein isoforms, UniProtKB/TrEMBL
Vertebrate and Genome Annotation Database (VEGA)
WormBase

UniRef

A UniProt Reference Clusters (UniRef) 3 UniProtKB- és UniParc-rekordokból álló fehérjeszekvencia-csoportokból álló adatbázisból áll.^[20] A UniRef100 adatbázis azonos szekvenciákat és szekvenciarészeket egy UniRef-bejegyzésbe tesz. Egy fehérje szekvenciája, az egyesült elemek hozzáférési száma és a megfelelő UniProtKB- és UniParc-rekordok hivatkozásai találhatók meg. A UniRef100-szekvenciák a CD-HIT algoritmussal vannak csoportosítva a UniRef90-hez és UniRef50-hez.^[20]^[21] Ezek a leghosszabb szekvenciához legalább 90%-ban, illetve 50%-ban hasonló szekvenciákat csoportosítanak. A csoportosítás csökkenti az adatbázisméretet, lehetővé téve gyorsabb szekvenciakereséseket.

Támogatás

A UniProtot a National Human Genome Research Institute, a National Institutes of Health (NIH), az Európai Bizottság, a svájci kormány (az oktatási és tudományos minisztériumon keresztül), a NIC-caBIG és az amerikai védelmi minisztérium támogatják.^[10]

Jegyzetek

↑ Dayhoff, Margaret O. Atlas of protein sequence and structure. Silver Spring, Md: National Biomedical Research Foundation (1965)
↑ 2002 Release: NHGRI Funds Global Protein Database. National Human Genome Research Institute (NHGRI) . [2015. szeptember 24-i dátummal az eredetiből archiválva]. (Hozzáférés: 2018. április 14.)
↑ O'Donovan, C. (2002). „High-quality protein knowledge resource: SWISS-PROT and TrEMBL”. Briefings in Bioinformatics 3 (3), 275–284. o. DOI:10.1093/bib/3.3.275. PMID 12230036.
↑ Wu, C. H. (2003). „The Protein Information Resource”. Nucleic Acids Research 31 (1), 345–347. o. DOI:10.1093/nar/gkg040. PMID 12520019. PMC 165487.
↑ Boeckmann, B. (2003). „The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003”. Nucleic Acids Research 31 (1), 365–370. o. DOI:10.1093/nar/gkg095. PMID 12520024. PMC 165542.
↑ Bairoch, A. (1996). „The SWISS-PROT protein sequence data bank and its new supplement TREMBL”. Nucleic Acids Research 24 (1), 21–25. o. DOI:10.1093/nar/24.1.21. PMID 8594581. PMC 145613.
↑ Bairoch, A. (2000). „Serendipity in bioinformatics, the tribulations of a Swiss bioinformatician through exciting times!”. Bioinformatics 16 (1), 48–64. o. DOI:10.1093/bioinformatics/16.1.48. PMID 10812477.
↑ Séverine Altairac (2006. augusztus). „Naissance d’une banque de données: Interview du prof. Amos Bairoch”. Protéines à la Une. ISSN 1660-9824.
↑ ^a ^b ^c (2004) „Protein sequence databases”. Current Opinion in Chemical Biology 8 (1), 76–80. o. DOI:10.1016/j.cbpa.2003.12.004. PMID 15036160.
↑ ^a ^b (2009) „The Universal Protein Resource (UniProt) in 2010”. Nucleic Acids Research 38 (Database issue), D142–D148. o, Kiadó: UniProt. DOI:10.1093/nar/gkp846. PMID 19843607. PMC 2808944.
↑ UniProtKB/Swiss-Prot Release 2023_05 statistics. web.expasy.org . (Hozzáférés: 2023. március 31.)
↑ ^a ^b ^c How do we manually annotate a UniProtKB entry?. www.uniprot.org . (Hozzáférés: 2018. április 14.)
↑ ^a ^b Apweiler, R. (2004). „UniProt: The Universal Protein knowledgebase”. Nucleic Acids Research 32 (90001), 115D–1119. o. DOI:10.1093/nar/gkh131. PMID 14681372. PMC 308865.
↑ Where do the UniProtKB protein sequences come from?. www.uniprot.org . (Hozzáférés: 2018. április 14.)
↑ Humphreys, Ian R. (2021). „Computed structures of core eukaryotic protein complexes”. Science 374 (6573), eabm4805. o. DOI:10.1126/science.abm4805. PMID 34762488. PMC 7612107.
↑ Putting the power of AlphaFold into the world's hands. Deepmind . (Hozzáférés: 2021. július 24.)
↑ Leinonen, R. (2004). „UniProt archive”. Bioinformatics 20 (17), 3236–3237. o. DOI:10.1093/bioinformatics/bth191. PMID 15044231.
↑ Protein Research Foundation
↑ TROME^{[halott link]}
↑ ^a ^b Suzek, B. E. (2007). „UniRef: Comprehensive and non-redundant UniProt reference clusters”. Bioinformatics 23 (10), 1282–1288. o. DOI:10.1093/bioinformatics/btm098. PMID 17379688.
↑ (2001) „Clustering of highly homologous sequences to reduce the size of large protein databases”. Bioinformatics 17 (3), 282–283. o. DOI:10.1093/bioinformatics/17.3.282. PMID 11294794.

További információk

[dayhoff-1] Dayhoff, Margaret O. Atlas of protein sequence and structure. Silver Spring, Md: National Biomedical Research Foundation (1965)

[2] 2002 Release: NHGRI Funds Global Protein Database. National Human Genome Research Institute (NHGRI) . [2015. szeptember 24-i dátummal az eredetiből archiválva]. (Hozzáférés: 2018. április 14.)

[pmid12230036-3] O'Donovan, C. (2002). „High-quality protein knowledge resource: SWISS-PROT and TrEMBL”. Briefings in Bioinformatics 3 (3), 275–284. o. DOI:10.1093/bib/3.3.275. PMID 12230036.

[pmid12520019-4] Wu, C. H. (2003). „The Protein Information Resource”. Nucleic Acids Research 31 (1), 345–347. o. DOI:10.1093/nar/gkg040. PMID 12520019. PMC 165487.

[pmid12520024-5] Boeckmann, B. (2003). „The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003”. Nucleic Acids Research 31 (1), 365–370. o. DOI:10.1093/nar/gkg095. PMID 12520024. PMC 165542.

[6] Bairoch, A. (1996). „The SWISS-PROT protein sequence data bank and its new supplement TREMBL”. Nucleic Acids Research 24 (1), 21–25. o. DOI:10.1093/nar/24.1.21. PMID 8594581. PMC 145613.

[Bairoch2000-7] Bairoch, A. (2000). „Serendipity in bioinformatics, the tribulations of a Swiss bioinformatician through exciting times!”. Bioinformatics 16 (1), 48–64. o. DOI:10.1093/bioinformatics/16.1.48. PMID 10812477.

[8] Séverine Altairac (2006. augusztus). „Naissance d’une banque de données: Interview du prof. Amos Bairoch”. Protéines à la Une. ISSN 1660-9824.

[pmid15036160-9] (2004) „Protein sequence databases”. Current Opinion in Chemical Biology 8 (1), 76–80. o. DOI:10.1016/j.cbpa.2003.12.004. PMID 15036160.

[pmid19843607-10] (2009) „The Universal Protein Resource (UniProt) in 2010”. Nucleic Acids Research 38 (Database issue), D142–D148. o, Kiadó: UniProt. DOI:10.1093/nar/gkp846. PMID 19843607. PMC 2808944.

[SPstats-11] UniProtKB/Swiss-Prot Release 2023_05 statistics. web.expasy.org . (Hozzáférés: 2023. március 31.)

[faq45-12] How do we manually annotate a UniProtKB entry?. www.uniprot.org . (Hozzáférés: 2018. április 14.)

[pmid14681372-13] Apweiler, R. (2004). „UniProt: The Universal Protein knowledgebase”. Nucleic Acids Research 32 (90001), 115D–1119. o. DOI:10.1093/nar/gkh131. PMID 14681372. PMC 308865.

[faq37-14] Where do the UniProtKB protein sequences come from?. www.uniprot.org . (Hozzáférés: 2018. április 14.)

[15] Humphreys, Ian R. (2021). „Computed structures of core eukaryotic protein complexes”. Science 374 (6573), eabm4805. o. DOI:10.1126/science.abm4805. PMID 34762488. PMC 7612107.

[16] Putting the power of AlphaFold into the world's hands. Deepmind . (Hozzáférés: 2021. július 24.)

[pmid15044231-17] Leinonen, R. (2004). „UniProt archive”. Bioinformatics 20 (17), 3236–3237. o. DOI:10.1093/bioinformatics/bth191. PMID 15044231.

[18] Protein Research Foundation

[19] TROME^{[halott link]}

[pmid17379688-20] Suzek, B. E. (2007). „UniRef: Comprehensive and non-redundant UniProt reference clusters”. Bioinformatics 23 (10), 1282–1288. o. DOI:10.1093/bioinformatics/btm098. PMID 17379688.

[pmid11294794-21] (2001) „Clustering of highly homologous sequences to reduce the size of large protein databases”. Bioinformatics 17 (3), 282–283. o. DOI:10.1093/bioinformatics/17.3.282. PMID 11294794.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]