등록한 구조 평가하기

등록한 표적 단백질 구조의 가상 실험에 대한 적합성을 평가하고 추후 가상 실험 결과들을 해석 지표를 설정하기 위한 단계입니다.

  • 표적 단백질에 대한 활성 분자들의 실험값과 등록한 단백질 구조를 기반으로 한 AI 예측값 사이의 상관 분석을 통해 두 가지 중요한 정보를 얻을 수 있습니다.

  1. 등록한 구조를 기반으로 계산한 AI 예측값의 신뢰성 평가

  2. 추후 하이퍼 바인딩을 통해 유효한 분자를 선택할 때 참고할 기준값 제시

  • 첫 번째 항목은 분자의 구조적 변화에 따른 활성값의 변화를 AI가 정량적으로 얼마나 잘 표현하는지 보여줍니다. 특히 hit to lead optimization과 같이 활성 개선을 위한 약물 구조 변화의 방향성 설정이 중요한 연구에 주의해야 할 항목입니다.

  • 두 번째 항목은 가상탐색 기반의 유효물질 도출 과정에서 실험을 위한 후보 물질구조 선택의 기준이 되는 값입니다. 높은 활성과 낮은 활성의 분자 구조를 분리할 수 있는 적정 기준 값을 제시합니다.

지금부터 상관 분석 과정을 설명 드리도록 하겠습니다. 해당 튜토리얼에서는 PDB ID 4Z3V를 가지고 진행합니다.

  • 위 그림과 같이 1번 [ N ] 아이콘을 눌러 단백질 구조를 활성화 한 후 진행합니다.

  • 참고로 결합 부위 설정을 위한 리간드는 [ A-4L6-705 ](2번)를 선택하였으며, 박스 규격은 3번과 같이 기본 설정값을 사용하였습니다.

Correlation 데이터 수집

  • 상관 분석을 진행하기 위해서는 표적 단백질에 대한 활성 분자들의 실험값과 구조를 입력해야 합니다. 사용할 데이터는 아래와 같습니다. 분자 등록 방법은 분자 등록하기에서 확인하실 수 있습니다.

분자 ID
SMILES
IC50 (nM)

Hit

NC(=O)c1nnc2ccccc2c1N

3540

7

Cn1cc(-c2cccc3c(N)c(C(N)=O)nnc23)cn1

240

8

Cc1ccncc1-c1cccc2c(N)c(C(N)=O)nnc12

100

10

NC(=O)c1nnc2c(-c3ccc4cn[nH]c4c3)cccc2c1N

12

11

Cc1cc2cn[nH]c2cc1-c1cccc2c(N)c(C(N)=O)nnc12

3.9

분자가 많을수록 평가의 정확도가 높아지기 때문에 실험값이 알려진 분자들을 최대한 많이 등록해주시기 바랍니다 (최소 5개의 분자는 등록해주시길 권장합니다).

  • 분자 등록을 하면 아래와 같이 분자 목록이 생성되는 것을 알 수 있습니다.

  • 아래 그림과 같이 각 분자의 실험값을 입력하고 하이퍼 바인딩 아이콘을 클릭하여 결합 에너지를 예측을 실행합니다.

  • 모든 분자에 대한 하이퍼 바인딩이 완료되면 [ Protein Structure ] -> [ Correlation ]에서 결과를 확인할 수 있습니다.

  • [ Correlation ] 탭에서는 위 그림과 같이 AI 예측값과 (X축) 실험값 (Y축) 사이의 산포도를 확인할 수 있습니다.

  • AI가 예측하는 값은 단백질과 리간드의 결합 에너지(kcal/mol)입니다. 결합 에너지는 IC50가 아닌 pIC50와 상관성을 가집니다. 따라서 [ 실험값 Log Scale ]을 클릭하여 Y축을 로그 단위로 전환해 줍니다.

결과 해석에 앞서 위 그림을 보며 [ Correlation ]에서 제공하는 값들을 설명하도록 하겠습니다:

  1. 상관성 그래프를 이루는 실험값의 종류. IC50 혹은 EC50.

  2. 실험값을 나타내는 축(µM). 낮을 수록 활성이 좋음.

  3. AI 예측값을 나타내는 축(kcal/mol). 값이 음수일 수록 더 결합력이 높음.

  4. 각 분자의 정보 (그래프 각데이터 점에 마우스 커서를 올려 확인)

  5. 상관 분석 해석. 5a/5b 영역을 클릭한 후 끌어서 기준선을 변경할 수 있음.

  6. 실험값과 예측값의 결정 계수 R2 값

Correlation 데이터 해석

  • 상관성 그래프에서 R2 값은 결정 계수로, AI 예측값이 실험값을 얼만큼 잘 설명지를 나타내는 계수입니다. 이 값은 0~1 사이에서 존재하며, 1에 가까울 수록 실험값을 더 잘 설명할 수 있다고 볼 수 있습니다.

  • 예제에서 R2값은 0.88로, AI 예측값이 실험값을 매우 잘 설명하고 있음을 알 수 있습니다. 연구 목적에 따라 적정한 R2 값을 확보한 후 진행하시는 것을 추천합니다.

  • 추가적으로, 위 그래프에선 해석을 위한 기준선이 그어져 있는 것을 볼 수있는데 (X축 -7.1 kcal/mol, Y축 0.1 µM) 이 구분선으로 나뉘는 사분면으로 데이터를 보다 더 심도있게 해석할 수 있습니다.

  • 1사분면, 3사분면에 위치한 데이터들은 실험값과 예측값이 일치하는 값(TP; True positive)으로 볼 수 있으며, 2사분면은 실제 활성은 낮지만 예측값이 높게 나온 데이터(FP; False positive), 4사분면은 실제 활성은 높지만 예측값은 낮게 나온 데이터(FN; False negative)입니다.

  • 이 중 가장 주의해야 할 데이터는 2사분면에 있는 FP입니다. 가상탐색의 목표가 거대한 화합물 라이브러리에서 (수십만~수억 개) 소수의 활성 가능성이 높은 분자를 선택하는 것이기 때문에 이러한 FP를 최소화하는 것이 매우 중요합니다.

  • 2사분면에 데이터가 많이 분포되어 있다면 활성이 없는 분자 구조를 선택할 가능성이 높아지게 됩니다. 따라서 해석 기준선은 FP 데이터를 최소화하는 값으로 설정하는 것이 좋습니다.

  • 기준선을 설정하게 되면 추후 계산할 예측값에 대한 하한선을 정할 수 있게 됩니다. 예를 들어 위 그림의 경우, 분자에 대한 하이퍼 바인딩을 진행하여 나오는 AI 예측값이 -7.1 kcal/mol보다 낮게(좋게) 나오는 경우 해당 분자는 66.7%의 확률로 IC50 실험값이 0.1 µM일 것이라 알 수 있으므로, 예측값 중 -7.1 kcal/mol보다 좋게 나오는 분자들을 중심으로 결과를 확인하면 되겠습니다.

이상 상관 분석을 통한 등록 구조 평가에 대한 튜토리얼을 마치도록 하겠습니다.

Last updated