GOR법

GOR method

GOR 방법(Garnier-Osguthorpe-Robson의 줄임말)은 단백질[1]2차 구조를 예측하기 위한 정보 이론 기반의 방법이다.이것은 1970년대 후반에 단순한 Chou-Fasman 방법 직후에 개발되었다.Chou-Fasman과 마찬가지로 GOR 방법은 X선 결정학에 의해 해결된 알려진 단백질 3차 구조의 경험적 연구에서 도출된 확률 매개변수에 기초한다.그러나 Chou-Fasman과 달리, GOR 방법은 특정 2차 구조를 형성하기 위한 개별 아미노산의 성향뿐만 아니라 아미노산이 2차 구조를 형성할 조건부 확률도 고려한다.따라서 이 방법은 [2]분석에서 본질적으로 베이지안이다.

방법

GOR 방법은 염기서열을 분석하여 17-아미노산 염기서열 창을 기준으로 각 위치에서 알파나선, 베타시트, 또는 랜덤 코일 2차 구조를 예측합니다.이 방법의 원래 설명에는 크기가 17×20인 4개의 점수 행렬이 포함되었으며, 여기서 열은 로그 오드 점수에 해당하며, 이는 17-잔류 시퀀스의 각 위치에서 특정 아미노산을 찾을 확률을 반영한다.네 개의 행렬은 중심, 아홉 번째 아미노산이 헬리컬, 시트, 턴 또는 코일 형태일 확률을 반영합니다.이 방법의 후속 개정에서는 턴 매트릭스가 제거되었는데, 이는 턴 영역의 시퀀스 변동성이 높기 때문입니다(특히 큰 창 위).이 방법은 영역을 헬리컬로 분류하기 위해 알파 헬리크로 점수를 매길 수 있는 최소 4개의 연속 잔류물과 베타 [3]시트의 최소 2개의 연속 잔류물을 요구하는 최선의 방법으로 간주되었다.

알고리즘.

GOR 방법의 수학과 알고리즘은 주로 분자생물학 저널과 생화학 [4][5]저널에 보고된 롭슨과 동료들의 이전 일련의 연구를 기반으로 했다.후자는 조건부 정보 측정의 관점에서 정보 이론 확장을 설명한다.GOR 논문의 제목에서 "단순"이라는 단어를 사용한 것은 위의 방법들이 1970년대 초 단백질 과학에서 다소 생소하게 여겨져 다소 위압적인 증거와 기술을 제공했다는 사실을 반영했다; 베이즈 방법들조차도 당시에는 생소하고 논란이 많았다.GOR 방법에서 살아남은 이러한 초기 연구의 중요한 특징은 1970년대 초반의 희박한 단백질 배열 데이터를 예상 정보 측정으로 처리했다는 것이다.즉, 실제 빈도(관측치 수)가 주어졌을 때 타당한 정보의 분포를 고려한 베이지안 기반의 기대치가 측정값이다.이와 유사한 분포에 대한 통합으로 인한 기대 측정값은 이제 불완전한 제타 함수 z(s, n) = 1 + (1/3)+ss (1/4)s + … (1/n)s와 같은 "불완전한" 또는 확장된 제타 함수로 구성된 것으로 볼 수 있다.GOR 메서드는 s=1을 사용했습니다.또한 GOR 방법 및 이전 방법에서는 H와 마찬가지로 H와 마찬가지로 H의 반대 상태, 즉 ~H에 대한 측정값을 뺐다.따라서 이 방법은 로그 예측 오즈의 제타 함수 추정치를 사용하는 것으로 볼 수 있습니다.조정 가능한 의사결정 상수도 적용될 수 있는데, 이는 의사결정 이론 접근법을 의미한다. GOR 방법은 다른 단백질 등급에 대한 예측을 최적화하기 위해 의사결정 상수를 사용할 수 있도록 했다.GOR 방법의 발표 시점에는 단백질 배열 데이터가 풍부해졌기 때문에, 적어도 그 당시 고려된 용어에서는 정보 확장을 위한 기대 정보 척도가 덜 중요했다.그러면 s=1의 경우 주파수가 증가함에 따라 z(s,s,expected frequency) - z(s,expected frequency)의 자연 로그에 접근합니다(expected frequency/expected frequency).그러나 이 측정치(의 다른 값 사용 포함)는 정보 확장 시 보다 복잡한 용어의 데이터가 불가피하게 [6]희박한 고차원 데이터를 사용하는 이후의 보다 일반적인 애플리케이션에서 여전히 중요하다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Garnier, J.; Gibrat, J. F.; Robson, B. (1996). "GOR method for predicting protein secondary structure from amino acid sequence". Methods Enzymol. 266: 540–53. doi:10.1016/S0076-6879(96)66034-0. PMID 8743705.
  2. ^ Garnier, J.; Osguthorpe, D. J.; Robson, B. (1978). "Analysis of the accuracy and implications of simple methods for predicting the secondary structure of globular proteins". J Mol Biol. 120 (1): 97–120. doi:10.1016/0022-2836(78)90297-8. PMID 642007.
  3. ^ Mount, D. M. (2004). Bioinformatics: Sequence and Genome Analysis. Vol. 2. Cold Spring Harbor Laboratory Press. ISBN 0-87969-712-1.
  4. ^ Robson, B.; Pain, R. H. (1971). "Analysis of the Code Relating Sequence to Conformation in Globular Proteins: Possible Implications for the Mechanism of Formation of Helical Regions". J. Mol. Biol. 58 (1): 237–256. doi:10.1016/0022-2836(78)90297-8. PMID 642007.
  5. ^ Robson, B. (1974). "Analysis of the Code Relating Sequence to Conformation in Globular Proteins: Theory and Application of Expected Information". The Biochemical Journal. 141 (3): 853–867. doi:10.1042/bj1410853. PMC 1168191. PMID 4463965.
  6. ^ 예: