분당서울대병원과 마크로젠은 18일 총 1779명에 이르는 동북아시아인 참조 유전체 데이터베이스(Northeast Asian Reference Database, NARD)를 공개했다. 이번 연구 결과는 최근 오픈 액세스 저널인 ‘유전체 의학(Genome Medicine, 영향력 지수 10.886)’ 온라인판(https://genomemedicine.biomedcentral.com/articles/10.1186/s13073-019-0677-z)에 게재됐다.
이번 유전체 데이터베이스에는 한국인 850명을 포함한 몽골인 384명, 일본인 396명, 중국인 91명, 홍콩인 58명 등 총 1779명의 전장 유전체 분석(Whole-genome Sequencing, WGS) 정보와 유전변이 정보가 포함돼 있다. 한국, 몽골, 일본, 중국 등 동북아시아 4개국을 대표할 수 있는 참조 유전체 데이터베이스 중 최대 규모라는게 회사측의 설명이다.
참조 유전체(Reference Database)는 수천명에서 수만명에 이르는 사람들의 전장 유전체 염기서열 정보로 구성된 데이터베이스로, 전장 유전체 연관성 분석(Genome-wide Association Study, GWAS) 연구에서 사용된다. 하지만 동북아시아인을 위한 참조 유전체 데이터베이스는 턱없이 부족한 실정이다.
현재까지 세계에서 가장 큰 참조 유전체 데이터베이스로 알려진 하플로타입 레퍼런스 컨소시엄(Haplotype Reference Consortium, HRC)에서 구축한 데이터베이스는 대부분 유럽인종으로 구성돼 있으며 동북아시아인의 비중은 약 1%에 불과하다.
연구팀은 이번에 구축한 동북아시아 최대 규모의 참조 유전체 데이터베이스가 결실값 예측기법(참조 유전체를 활용해 유전변이 정보를 통계적으로 유추해낼 수 있는 기법)의 정확도를 향상할 뿐만 아니라, 나아가 다중유전자위험점수(Polygenic Risk Score, PRS) 기반의 질병 예측에 중요한 역할을 할 것으로 예상하고 있다. 다중유전자위험지수는 특정질환에 영향을 미치는 수백개 유전자의 위치 및 해당 질환의 위험성을 수치화해 발병 위험을 예측하는 방법이다.
새롭게 구축한 동북아시아인 참조 유전체 데이터베이스는 ‘NARD 임퓨테이션(https://nard.macrogen.com/)’ 사이트를 통해 누구나 자유롭게 이용할 수 있다.
서정선 분당서울대병원 석좌교수는 “이번 연구를 통해 동북아시아인의 유전적 특성을 확인했을 뿐만 아니라 전 세계적으로 독보적인 정확도를 자랑하는 참조 유전체 데이터베이스를 구축하는 데 성공했다”며 “현재 1만명 규모의 동북아시아인 2차 참조 유전체 데이터베이스 분석이 마무리돼 내년 초 추가로 공개할 예정이며, 이를 통해 동북아시아인 질병 관련 유전자 발굴 및 질병 예측에 크게 기여할 수 있을 것으로 기대한다”고 밝혔다.