Curs 3
Curs 3
Curs 3
1. Introducere
În teoria probabilității și în domeniile conexe, un proces stochastic sau aleator este un obiect
matematic definit de obicei ca o colecție de variabile aleatoare (random). Din punct de vedere
istoric, variabilele aleatoare au fost asociate sau indexate printr-un set de numere, de obicei
văzute ca puncte în timp, oferind interpretarea unui proces stochastic reprezentând valori
numerice ale unui sistem care se schimbă aleatoriu în timp, cum ar fi creșterea unei populații
bacteriene, un curent electric care fluctuează datorită zgomotului termic sau mișcării unei
molecule de gaz.
Procesele stochastice sunt folosite pe scară largă ca modele matematice ale sistemelor și
fenomenelor care se potrivesc variaţiilor în mod aleatoriu. Acestea au aplicații în multe
discipline, inclusiv în științe precum biologie, chimie, ecologie, neuroscience, fizică, precum și
domeniile tehnologiei și ingineriei, cum ar fi prelucrarea imaginilor, procesarea semnalelor,
teoria informațiilor, știința calculatoarelor, criptografia și telecomunicațiile.
Un lanț Markov este un model stochastic care descrie o succesiune de posibile evenimente în
care probabilitatea fiecărui eveniment depinde numai de starea atinsă în precedentul eveniment.
2. Lanţuri Markov
Pentru un lanţ Markov, procesul stohastic poate fi descris prin secvenţa de stări discrete pe
care pe care o parcurge sistemul: X(1), X(2), ....X(k)... unde X(k) reprezintă starea sistemului
după k paşi (X(k) este numită variabilă aleatoare discretă), iar k este argumentul şi reprezintă
momentele discrete de timp la care pot avea loc tranziţiile dintr-o stare în alta. Se consideră un
sistem care poate avea un număr finit de stări Si, i=1...n, adică X (k ) {Si | i 1 n}, k n .
Se notează cu pi(k) probabilitatea ca sistemul să se afle în starea Si după exact k paşi şi cu pij
probabilitatea ca de trecere din starea i în starea j (SiSj). Toate probabilităţile se reunesc într-o
matrice de tranziţie patrată nn, P ( pij )i, j 1...n , suma elementelor pe fiecare linie e 1.
p11 p12 ... p1n
P p21 p22 ... p2 n
... ... ...
pn1 pn 2 ... pnn
Ploaie Uscat
Ploaie 0.3 0.7
P( A ) 1 P( A)
Exemplu:
Două stări:presiune atmosferică ‘nivel scăzut‘ şi ‘nivel ridicat‘cu notaţiile ‘L‘ şi ‘H‘,
din engleză Low şi High
Două observaţii: ‘Ploaie‘ şi ‘Uscat‘ cu notaţiile ‘R‘ şi ‘D‘, din engleză Rain şi Dry
Probabilităţi de tranziţie P(‘L‘ |‘L‘) = 0.3, P(‘H‘ |‘L‘) = 0.7, P(‘L‘ |‘H‘) = 0.2,
P(‘H‘ |‘H‘) = 0.8
Probabilităţi de observaţie: P(‘R‘ |‘L‘) = 0.6, P(‘D‘ |‘L‘) = 0.4, P(‘R‘ |‘H‘) = 0.4,
P(‘D‘ |‘H‘) = 0.6.
Probabilităţi iniţiale: P(‘L‘)= 0.4 şi P(‘H‘) = 0.6.
În total, în partea dreaptă sunt patru termeni, şi pentru primul calculul este:
O=o1o2...ok este notaţia pentru o secvenţă de observaţii ok{v1, v2, ..., vM}
P(cggt) = P(c)P(g|c)P(g|g)P(t|g)
Exemplul 2:
În chimie, metilarea reprezintă procesul chimic de adiție a unei grupe alchilice de tip metil la un
substrat sau de substituție a unui atom sau grupe de atomi cu o grupă metil. Metilarea este un tip
particular de alchilare, fiind cel mai simplu proces de acest tip.
Dinucleotidele CG sunt mai rare în genomul eucariot decât se așteaptă având în vedere
probabilitățile independente ale C, G
Descoperirea de Insule CpG în secvenţe genetice este o problemă de rezolvat.
La mamifere, regiunile bogate în dinucleotide CpG sunt numite insule CpG; în genomul uman
cel puțin 60% din regiunile promotoare ale genelor care codifică proteine sunt asociate cu o
insulă CpG.
Studiul insulelor CpG in secvenţele ADN; estimarea maximului Likelihood a parametrilor
folosind date reale („+”-creştere, „-„-descreştere)
Stări „ascunse”
Potrivire - match (M)
Inserare în x (X)
Inserare în y (Y)
Se notează d penalizare de gap, e – penalizare exitinsa de gap (cumva mai mică decât d,
permițând ca inserțiile și stergerile lungi să fie mai puțin penalizate decât gap/urile deschise d),
(g)=-d-(g-1)∙e, g- număr de gap-uri.
În figură în stânga este automatul iar în dreapta modelul probabilistic. δ = probabilitatea pentru
primul gap, = probabilitatea pentru gap-ul extins.
Probabilități de emisie
, inițializare
Versiunea completă a modelului este
Pentru găsirea celei mai bune secvențe, se păstrează pointeri și matricea de drum invers, ca și în
algoritmii de alinere a secvenței local și global.
Exemplul 8: Se consideră secvenţele: S1=HEAGAWGHEE, S2=PAWHEAE. Să se determine o
aliniere optimă a acestor secvenţe.
În urma studiilor de laborator şi a altor algoritmi de aliniere globală sau locală se cunosc 6 tipuri
de aliniere. Ne punem întrebarea care din acestă varintă este optimă?
Motivații