국제 화학 식별자

International Chemical Identifier
인치
개발자InChI 트러스트
초기 릴리즈2005년 4월 15일 (2005-04-15)[1][2]
안정된 릴리스
1.06 / 2020년 12월 15일, 19개월 전(2020-12-15)
운영 체제Microsoft Windows 및 Unix와 유사
플랫폼IA-32x86-64
이용가능기간:영어
면허증.IUPAC / InChI 트러스트 라이선스
웹 사이트www.inchi-trust.org

IUPAC International Chemical Identifier(InChI /ɪntii// IN-chee 또는 /ˈkiki// ING-kee)는 화학 물질의 텍스트 식별자로, 분자 정보를 인코딩하고 데이터베이스와 웹에서 이러한 정보를 쉽게 검색할 수 있도록 설계되었다.2000년부터 2005년까지 IUPAC(International Union of Pure and Applied Chemistry)와 NIST(National Institute of Standards and Technology)가 개발한 이 형식과 알고리즘은 비특허입니다.

식별자는 원자와 결합 연결성, 호변이성 정보, 동위원소 정보, 입체 화학 및 전자 전하 [3]정보 등 정보 층의 관점에서 화학 물질을 설명한다.모든 레이어를 제공할 필요는 없습니다.예를 들어, 그 타입의 정보가 특정 어플리케이션에 관련되지 않는 경우는, 호변이성 레이어를 생략할 수 있습니다.InChI 알고리즘은 입력 구조 정보를 정규화(용장 정보 제거), 정규화(각 원자마다 고유 번호 라벨을 생성) 및 시리얼화(문자열 부여)의 3단계 프로세스에서 고유한 InChI 식별자로 변환합니다.

InChI는 3가지 점에서 널리 사용되는 CAS 레지스트리 번호와 다릅니다.첫째, 자유롭게 사용할 수 있고 독점적이지 않은 번호입니다.두 번째, 구조적인 정보로부터 계산할 수 있어 조직에 의해 할당될 필요가 없습니다.세 번째, InChI의 대부분의 정보는 (실천을 통해) 사람이 판독할 수 있습니다.따라서 InChis는 IUPAC 이름의 일반적이고 극도로 정형화된 버전과 유사하다고 볼 수 있습니다.이들은 단순한 SMIES 표기법보다 더 많은 정보를 표현할 수 있으며 모든 구조에는 데이터베이스 애플리케이션에서 중요한 고유한 InChI 문자열이 있다는 점에서 다릅니다.원자의 3차원 좌표에 대한 정보는 InChI에 표시되지 않으며, 이를 위해 PDB와 같은 형식을 사용할 수 있습니다.

InChIKey는 해시 InChI로 불리기도 하며, 인간이 이해할 수 없는 InChI의 고정 길이(27자)를 압축한 디지털 표현입니다.InChIKey 규격은 2007년 9월에 발표되었는데, 이는 전신 InChI에 [4]문제가 있었기 때문이다.InChi와 달리 InCh는IKey는 특이하지 않습니다.충돌은 매우 드문 것으로 계산될 수 있지만 발생합니다.[5]

2009년 1월에 InChI 소프트웨어의 1.02 버전이 출시되었습니다.이를 통해 표준 InChI를 생성할 수 있는 수단이 제공되었으며, InChI 문자열의 입체화학 및 호변이성 계층을 처리할 때 사용자가 선택할 수 있는 옵션이 허용되지 않습니다.표준 InChIKey는 표준 InChI 문자열의 해시 버전입니다.표준 InChI는 다양한 그룹에 의해 생성된 InChI 문자열과 키의 비교를 단순화하고 이후 데이터베이스 및 웹 리소스 등의 다양한 소스를 통해 액세스합니다.

IUPAC가 회원인 비영리 단체 InChI Trust는 2010년부터 이 표준의 지속적인 개발을 지원해 왔다.현재 소프트웨어 버전은 1.06이며 2020년 [6]12월에 출시되었습니다.1.04 이전에는 오픈소스 LGPL [7]라이선스로 소프트웨어를 자유롭게 사용할 수 있었지만 현재는 IUPAC-InChI Trust [8]License라는 커스텀 라이선스를 사용하고 있습니다.

시대

쌍방향 구조에 대해 다른 InChI를 생성하지 않도록 InChI를 생성하기 전에 입력 화학 구조를 정규화하여 이른바 코어 모구조로 환원한다.여기에는 결합 순서 변경, 공식 전하 재배치, 양성자 추가 및 제거가 포함될 수 있습니다.다른 입력 구조는 동일한 결과를 얻을 수 있습니다. 예를 들어, 아세트산과 아세트산 모두 동일한 코어 모구조인 아세트산을 제공할 수 있습니다.코어 부모 구조는 둘 이상의 구성요소로 구성되며, 이 경우 InChI의 서브레이어는 보통 세미콜론(화학식 서브레이어의 주기)으로 구분된 각 구성요소의 서브레이어로 구성됩니다.이것이 일어날 수 있는 한 가지 방법은 정규화 중에 모든 금속 원자가 분리되는 것입니다. 예를 들어, 테트라에틸 납용 InChI는 납용과 에틸기용 [3]4개의 구성 요소 5개로 구성됩니다.

InChI의 첫 번째 주요 층은 이러한 핵심 모구조를 참조하며 화학식, 결합 순서가 없는 비수소 연결(non-hydrogen connectivity)을 제공한다./c서브레이어) 및 수소 연결(/h서브레이어)/q전하층의 일부는 전하와/p전하층의 부분은 원래의 구조를 재생하기 위해 얼마나 많은 양성자(양성자 이온)를 추가 또는 제거해야 하는지를 나타냅니다.존재하는 경우, 서브레이어를 가진 입체화학층/b,/t,/m그리고./s, 입체화학적 정보와 동위원소 층을 제공합니다./i(서브레이어를 포함할 수 있습니다)./h,/b,/t,/m그리고./s)는 동위원소 정보를 제공합니다.이들은 [3]표준 InChI에서 발생할 수 있는 유일한 레이어입니다.

사용자가 정확한 호변이성체를 지정하고자 하는 경우 고정 수소층/f다양한 서브레이어를 추가할 수 있습니다.단, 표준 InChI에서는 이 작업을 수행할 수 없기 때문에 서로 다른 tameter는 동일한 표준 InChI를 가집니다(예를 들어, alanine은 뉴트럴 또는 zwitterionic 형식으로 입력하든 동일한 표준 InChI를 제공합니다).마지막으로 비표준이 재접속되었습니다./r층을 추가할 수 있어 금속 원자에 대한 결합을 끊지 않고 생성된 새로운 InChI를 효과적으로 제공할 수 있습니다.여기에는 다음과 같은 다양한 서브레이어가 포함될 수 있습니다./f를 클릭합니다.[3]

포맷 및 레이어

InChI 형식
인터넷 미디어 유형
화학/x-inchi
포맷의 종류화학 파일 형식

모든 InChI는 문자열 "로 시작합니다.InChI=" 뒤에 버전 번호가 붙습니다.현재1InChI가 표준인 경우 그 뒤에 문자가 붙습니다.S완전히 표준화된 InChI 맛으로 구조 세부 사항에 대한 동일한 주의 수준과 도면 인식에 대한 동일한 규약을 유지하는 표준 InChI는 완전히 표준화된 InChI 맛입니다.나머지 정보는 일련의 계층 및 하위 계층으로 구성되며, 각 계층은 하나의 특정 유형의 정보를 제공합니다.계층과 하위 계층은 구분 기호 "로 구분됩니다./(주층의 화학식 하위층을 제외하고) 특징적인 접두사 문자로 시작합니다.중요한 서브레이어가 있는 6개의 레이어는 다음과 같습니다.

  1. 메인 레이어
    • 화학식(프리픽스 없음).이것은 모든 InChI에서 발생할 필요가 있는 유일한 서브레이어입니다.InChI 전체에서 사용되는 숫자는 수소 원자를 제외한 공식의 원소 순서로 지정됩니다.예를 들어 "/C10H16N5O13P3"은 1~10번 원자가 탄소, 11~15번 원자가 니트로겐, 16~28번 산소가겐, 29~31번 원자가 [9]인임을 의미한다.
    • ATOM 접속(프리픽스: ")c(수소를 제외한) 화학식 내의 원자는 순서대로 번호가 매겨진다.이 소층은 어떤 원자가 어떤 원자와 어떤 원자와 어떤 다른 원자와 결합되어 있는지를 기술한다.
    • 수소 원자(프리픽스: ")h"). 수소 원자가 몇 개씩 다른 원자에 연결되어 있는지를 기술합니다.
  2. 충전층
    • 차지 서브레이어(표준: ")q")
    • 양성자 서브레이어(프로톤: ")p" "의 경우")
  3. 입체 화학층
    • 이중 결합과 쿠뮬렌(cumulene: "b")
    • 원자와 알렌의 사면체 입체 화학(원자:"t", "m")
    • 입체 화학 정보의 유형(예: " ")s")
  4. 동위원소 레이어(프리픽스:"i", "h" 및 "b", "t", "m", "s동위원소 입체 화학의 경우)
  5. 고정 H층(프리픽스: ")f" ; atom connection을 제외한 위의 레이어 유형 중 일부 또는 전부를 포함합니다.끝이 "로 끝날 수 있습니다.o"서브레이어, 표준 InCh에 포함되지 않음i
  6. 재접속된 레이어(프리픽스: "r"; 재접속된 금속 원자를 가진 구조의 InChI 전체를 포함하며 표준 InCh에는 포함되지 않습니다.i

딜리미터 프리픽스 형식은 사용자가 와일드카드 검색을 사용하여 특정 레이어에서만 일치하는 식별자를 쉽게 찾을 수 있다는 장점이 있습니다.

구조식 표준 InChI
InChI=1S/C2H6O/c1-2-3/h3H,2H2,1H3
InChI=1S/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2/t2-,5+/m0/s1

인치케이

27자의 축약된 InChIKey는 완전한 InChI(SHA-256 알고리즘 사용)의 해시 버전으로, 화학 화합물의 [4]웹 검색을 쉽게 할 수 있도록 설계되었습니다.표준 InChIKey는 표준 InChi의 해시화된 부품입니다.2007년까지 웹의 대부분의 화학 구조는 GIF 파일로 표시되었으며, GIF 파일은 화학 성분을 검색할 수 없다.전체 InChi는 검색하기에 너무 길어서 InCh는 검색하기가 쉽지 않았습니다.IKey가 개발되었습니다.두 개의 다른 분자가 같은 InCh를 가질 가능성은 매우 작지만 0이 아니다.IKey, 하지만 처음 14자만 복제될 확률은 각각 10억 개의 고유한 구조를 가진 75개의 데이터베이스에서 단 하나의 복제로 추정됩니다.현재 모든 데이터베이스가 5천만 개 미만의 구조를 가지고 있기 때문에, 현재 이러한 복제는 거의 없을 것으로 보입니다.최근의 연구는 실험적인 충돌 속도가 이론적인 [10]예상과 일치한다는 충돌 속도를 더 광범위하게 연구한다.

InChIKey는 현재 하이픈으로 구분된 세 부분으로 구성되어 있습니다. 각각 14, 10 및 1개의 문자로 구성됩니다.XXXXXXXXXXXXXX-YYYYYYYYFV-P첫 번째 14 문자는 접속 정보의 SHA-256 해시(메인 레이어 및/qInChi의 충전층의 서브레이어).두 번째 부분은 InChI의 나머지 레이어의 해시에 의해 생성된8개의 문자로 구성되어 있습니다.이것은 InCh의 종류를 나타내는 단일 문자입니다.IKey (S표준 및N비표준) 및 사용되는 InChI 버전을 나타내는 문자(현재는A(버전 1의 경우)마지막으로, 끝의 단일 문자는 핵심 부모 구조의 양성자화를 나타냅니다./p전하층의 서브레이어(N양성자화 없이O,P, ...양자가 추가되어야 하는지 여부 및M,L, ...을(를)[11][3] 삭제할 필요가 있는지 여부를 확인합니다.

모르핀 구조

모르핀은 오른쪽에 보이는 구조를 가지고 있다.모르핀의 표준 InChI는InChI=1S/C17H19NO3/c1-18-7-6-17-10-3-5-13(20)16(17)21-15-12(19)4-2-9(14(15)17)8-11(10)18/h2-5,10-11,13,16,19-20H,6-8H2,1H3/t10-,11+,13-,16-,17-/m0/s1및 표준 InCh모르핀의 IKey는BQJCRHHNABKAKU-KBQPJGBKSA-N를 클릭합니다.[12]

InChI 리졸바

InCh에서 InChI를 재구성할 수 없으므로IKey, InChIKey는 원래 구조로 돌아가기 위해 항상 원래 InChi에 링크해야 합니다.InChI Resolvers는 이러한 링크를 만들기 위한 룩업 서비스 역할을 하며, 국립 암 연구소, 유럽 생물 정보 연구소UniChem 서비스 및 PubChem에서 프로토타입 서비스를 이용할 수 있습니다.ChemSpider는 해체된 2015년 [13]7월까지 해결사를 보유하고 있었다.

이름.

이 포맷은 원래 IChI(IUPAC Chemical Identifier)로 불리다가 2004년 7월에 IUPAC-NIST Chemical Identifier(IUPAC-NIST Chemical Identifier)로 이름이 변경되었으며, 2004년 11월에 IUPAC의 상표인 InChI(I)로 다시 이름이 변경되었습니다.

계속적인 발전

InChI 규격의 과학적 방향은 IUPAC Division VII 소위원회에서, 규격의 확대를 조사·정의하는 서브그룹의 자금 조달은 IUPAC와 InChI Trust에서 모두 실시한다.InChI Trust는 InChI의 개발, 테스트 및 문서화에 자금을 제공합니다.중합체 및 혼합물, 마쿠시 구조, 반응[14]유기 금속학을 다루기 위해 현재 확장이 정의되고 있으며, 중분류 VII 소위원회가 승인하면 알고리즘에 추가된다.

소프트웨어

InChI Trust는 InChI, InCh를 생성하는 소프트웨어를 개발했습니다.IKey 및 기타 식별자.이 소프트웨어의 릴리스 이력은 [15]다음과 같습니다.

소프트웨어 및 버전 날짜. 면허증. 평.
인치 대 1 2005년 4월
InChI v. 1.01 2006년 8월
InChI 대 1.02beta 사건 2007년 9월 LGPL 2.1 InCh 추가IKey 기능
InChI v. 1.02 2009년 1월 LGPL 2.1 InCh 포맷 변경아이케이
표준 InChI를 도입합니다.
InChI v. 1.03 2010년 6월 LGPL 2.1
InChI v. 1.03 소스 코드 문서 2011년 3월
InChI v. 1.04 2011년 9월 IUPAC/InChI Trust InChI 라이선스 1.0 신규 라이선스
105~112 요소에 대한 지원이 추가되었습니다.
CML 지원이 삭제되었습니다.
InChI 대 1.05 2017년 1월 IUPAC/InChI Trust InChI 라이선스 1.0 113-118 요소에 대한 지원이 추가되었습니다.
실험용 폴리머 서포트.
실험적인 대규모 분자 지지.
RInChI 대 1.00 2017년 3월 IUPAC/InChI Trust InChI 라이센스 1.0 및 BSD 스타일 반응 InChis를 [14]계산합니다.
InChI v. 1.06 2020년 12월 IUPAC/InChI Trust InChI 라이선스 1.0 폴리머 서포트 개정.

도입

InChI는 ChemSpider, ChEMBL, Golm Metaborome Database, OpenPHACTS[16]PubChem을 비롯한 크고 작은 데이터베이스에 채택되었습니다.그러나 채택은 간단하지 않으며, 많은 데이터베이스는 화학 구조와 화학 구조가 포함하는 InChI 사이에 불일치를 보여 데이터베이스 [17]연결에 문제가 있다.

「 」를 참조해 주세요.

주 및 참고 자료

  1. ^ "IUPAC International Chemical Identifier Project Page". IUPAC. Archived from the original on 27 May 2012. Retrieved 5 December 2012.
  2. ^ Heller, S.; McNaught, A.; Stein, S.; Tchekhovskoi, D.; Pletnev, I. (2013). "InChI - the worldwide chemical structure identifier standard". Journal of Cheminformatics. 5 (1): 7. doi:10.1186/1758-2946-5-7. PMC 3599061. PMID 23343401.
  3. ^ a b c d e Heller, S.R.; McNaught, A.; Pletnev, I.; Stein, S.; Tchekhovskoi, D. (2015). "InChI, the IUPAC International Chemical Identifier". Journal of Cheminformatics. 7: 23. doi:10.1186/s13321-015-0068-4. PMC 4486400. PMID 26136848.
  4. ^ a b "The IUPAC International Chemical Identifier (InChI)". IUPAC. 5 September 2007. Archived from the original on October 30, 2007. Retrieved 2007-09-18.
  5. ^ E.L. Willighagen (17 September 2011). "InChIKey collision: the DIY copy/pastables". Retrieved 2012-11-06.
  6. ^ Goodman, Jonathan M.; Pletnev, Igor; Thiessen, Paul; Bolton, Evan; Heller, Stephen R. (December 2021). "InChI version 1.06: now more than 99.99% reliable". Journal of Cheminformatics. 13 (1): 40. doi:10.1186/s13321-021-00517-z. PMC 8147039. PMID 34030732.
  7. ^ McNaught, Alan (2006). "The IUPAC International Chemical Identifier:InChl". Chemistry International. Vol. 28, no. 6. IUPAC. Retrieved 2007-09-18.
  8. ^ http://www.inchi-trust.org/download/104/LICENCE.pdf[베어 URL PDF]
  9. ^ Heller, Stephen R.; McNaught, Alan; Pletnev, Igor; Stein, Stephen; Tchekhovskoi, Dmitrii (2015). "InChI, the IUPAC International Chemical Identifier". Journal of Cheminformatics. 7: 23. doi:10.1186/s13321-015-0068-4. PMC 4486400. PMID 26136848.
  10. ^ Pletnev, I.; Erin, A.; McNaught, A.; Blinov, K.; Tchekhovskoi, D.; Heller, S. (2012). "InChIKey collision resistance: An experimental testing". Journal of Cheminformatics. 4 (1): 39. doi:10.1186/1758-2946-4-39. PMC 3558395. PMID 23256896.
  11. ^ "Technical FAQ - InChI Trust". inchi-trust.org. Retrieved 8 Jan 2021.
  12. ^ "InChI=1/C17H19NO3/c1-18..." Chemspider. Retrieved 2007-09-18.
  13. ^ InChi Resolver, 2015년 7월 27일
  14. ^ a b Grethe, Guenter; Blanke, Gerd; Kraut, Hans; Goodman, Jonathan M. (9 May 2018). "International chemical identifier for reactions (RInChI)". Journal of Cheminformatics. 10 (1): 45. doi:10.1186/s13321-018-0277-8. PMC 4015173. PMID 24152584.
  15. ^ 2021년 1월 8일에 접속된 InChI 소프트웨어 다운로드.
  16. ^ Warr, W.A. (2015). "Many InChIs and quite some feat". Journal of Computer-Aided Molecular Design. 29 (8): 681–694. Bibcode:2015JCAMD..29..681W. doi:10.1007/s10822-015-9854-3. PMID 26081259. S2CID 31786997.
  17. ^ Akhondi, S. A.; Kors, J. A.; Muresan, S. (2012). "Consistency of systematic chemical identifiers within and between small-molecule databases". Journal of Cheminformatics. 4 (1): 35. doi:10.1186/1758-2946-4-35. PMC 3539895. PMID 23237381.

외부 링크