Conservation Data를 활용한
AI 변이 병원성 예측기
왜 변이 병원성 예측기가 필요할까요?
Exome 또는 Genome 시퀀싱을 활용해 유전체를 분석하면 Exome으로는 약 10만 개, Genome으로는 약 오백만 개에 달하는 변이를 확인할 수 있습니다. 하지만 확인된 변이의 대다수는 질환 유발 여부에 대해 알려진 근거가 부족합니다.
따라서 변이 해석의 근거를 보완하기 위해 병원성 '예측'이 필요합니다. 이를 효율화하기 위해 Artificial Intelligence(AI) 기술을 활용한 여러 변이 병원성 예측기가 시중에 개발되어 활용되고 있습니다.
쓰리빌리언은 시중의 예측기보다 변이의 예측과 분류 성능이 뛰어난 3Cnet을 개발해 진단에 활용하고 있습니다.
최근 Version 2로 업데이트된 3Cnet은 Version 1보다 평가 가능한 변이 종류가 확장되어 Start-loss, Stop-gain, Stop-loss, In-frame deletion, Frameshift, In-frame insertion, Delins, Duplication, 5' Extension, 3' Extension 변이 등, 99.99% 변이의 병원성을 예측할 수 있게 되었습니다.
3Cnet은 무엇이 다른가요?
- 1. Clinical Data
- ClinVar 데이터베이스의 병원성, 비병원성 변이 정보
- 2. Common Variants
- GnomAD 데이터베이스의 common variants
- 3. Conservation Data
- UniRef 데이터베이스의 evolutionary constraints를 반영한 변이 정보
3Cnet은 clinical data, common variant data, conservation data 세 종류의 데이터를 같이 학습함으로써 알고리즘이 어느 한쪽에 편향될 가능성을 최대한 배제했습니다. 그래서 3Cnet은 다른 변이 병원성 예측기 보다 2.2배 더 높은 감도로 변이를 병원성으로 예측할 수 있습니다.
*‘Top-k 리콜’은 예측 점수를 사용하여 상위 랭킹 변이 중 실제 질병 유발 변이를 결정할 확률을 의미합니다.