등록한 구조 평가하기

등록한 표적 단백질 구조의 가상 실험에 대한 적합성을 평가하고 추후 가상 실험 결과들을 해석 지표를 설정하기 위한 단계입니다.

Last updated 1 year ago

등록한 구조 평가하기

등록한 표적 단백질 구조의 가상 실험에 대한 적합성을 평가하고 추후 가상 실험 결과들을 해석 지표를 설정하기 위한 단계입니다.

표적 단백질에 대한 활성 분자들의 실험값과 등록한 단백질 구조를 기반으로 한 AI 예측값 사이의 상관 분석을 통해 두 가지 중요한 정보를 얻을 수 있습니다.

등록한 구조를 기반으로 계산한 AI 예측값의 신뢰성 평가
추후 하이퍼 바인딩을 통해 유효한 분자를 선택할 때 참고할 기준값 제시

첫 번째 항목은 분자의 구조적 변화에 따른 활성값의 변화를 AI가 정량적으로 얼마나 잘 표현하는지 보여줍니다. 특히 hit to lead optimization과 같이 활성 개선을 위한 약물 구조 변화의 방향성 설정이 중요한 연구에 주의해야 할 항목입니다.
두 번째 항목은 가상탐색 기반의 유효물질 도출 과정에서 실험을 위한 후보 물질구조 선택의 기준이 되는 값입니다. 높은 활성과 낮은 활성의 분자 구조를 분리할 수 있는 적정 기준 값을 제시합니다.

지금부터 상관 분석 과정을 설명 드리도록 하겠습니다. 해당 튜토리얼에서는 PDB ID 4Z3V를 가지고 진행합니다.

위 그림과 같이 1번 [ N ] 아이콘을 눌러 단백질 구조를 활성화 한 후 진행합니다.
참고로 결합 부위 설정을 위한 리간드는 [ A-4L6-705 ](2번)를 선택하였으며, 박스 규격은 3번과 같이 기본 설정값을 사용하였습니다.

Correlation 데이터 수집

상관 분석을 진행하기 위해서는 표적 단백질에 대한 활성 분자들의 실험값과 구조를 입력해야 합니다. 사용할 데이터는 아래와 같습니다. 분자 등록 방법은 분자 등록하기에서 확인하실 수 있습니다.

분자 ID

SMILES

IC50 (nM)

Hit

NC(=O)c1nnc2ccccc2c1N

3540

Cn1cc(-c2cccc3c(N)c(C(N)=O)nnc23)cn1

240

Cc1ccncc1-c1cccc2c(N)c(C(N)=O)nnc12

100

NC(=O)c1nnc2c(-c3ccc4cn[nH]c4c3)cccc2c1N

Cc1cc2cn[nH]c2cc1-c1cccc2c(N)c(C(N)=O)nnc12

3.9

분자가 많을수록 평가의 정확도가 높아지기 때문에 실험값이 알려진 분자들을 최대한 많이 등록해주시기 바랍니다 (최소 5개의 분자는 등록해주시길 권장합니다).

분자 등록을 하면 아래와 같이 분자 목록이 생성되는 것을 알 수 있습니다.

아래 그림과 같이 각 분자의 실험값을 입력하고 하이퍼 바인딩 아이콘을 클릭하여 결합 에너지를 예측을 실행합니다.

모든 분자에 대한 하이퍼 바인딩이 완료되면 [ Protein Structure ] -> [ Correlation ]에서 결과를 확인할 수 있습니다.

[ Correlation ] 탭에서는 위 그림과 같이 AI 예측값과 (X축) 실험값 (Y축) 사이의 산포도를 확인할 수 있습니다.
AI가 예측하는 값은 단백질과 리간드의 결합 에너지(kcal/mol)입니다. 결합 에너지는 IC50가 아닌 pIC50와 상관성을 가집니다. 따라서 [ 실험값 Log Scale ]을 클릭하여 Y축을 로그 단위로 전환해 줍니다.

결과 해석에 앞서 위 그림을 보며 [ Correlation ]에서 제공하는 값들을 설명하도록 하겠습니다:

상관성 그래프를 이루는 실험값의 종류. IC50 혹은 EC50.
실험값을 나타내는 축(µM). 낮을 수록 활성이 좋음.
AI 예측값을 나타내는 축(kcal/mol). 값이 음수일 수록 더 결합력이 높음.
각 분자의 정보 (그래프 각데이터 점에 마우스 커서를 올려 확인)
상관 분석 해석. 5a/5b 영역을 클릭한 후 끌어서 기준선을 변경할 수 있음.
실험값과 예측값의 결정 계수 R2 값

현재 R2값은 IC50/EC50를 구분하지 않고 모든 [ Ref. Molecule ] 데이터에 대해 계산합니다. 실험값 입력 시 IC50나 EC50 중 하나로 통일된 데이터로만 진행해주시길 바랍니다. 해당 부분은 추후 개선할 예정입니다.

실험값 입력시 단위를 nM 또는 µM로 통일해 주시기 바랍니다. 서로 다른 단위의 동시 사용은 결과 해석에 있어 오류의 원인이 됩니다. 해당 부분은 추후 개선할 예정입니다.

Correlation 데이터 해석

상관성 그래프에서 R2 값은 결정 계수로, AI 예측값이 실험값을 얼만큼 잘 설명지를 나타내는 계수입니다. 이 값은 0~1 사이에서 존재하며, 1에 가까울 수록 실험값을 더 잘 설명할 수 있다고 볼 수 있습니다.
예제에서 R2값은 0.88로, AI 예측값이 실험값을 매우 잘 설명하고 있음을 알 수 있습니다. 연구 목적에 따라 적정한 R2 값을 확보한 후 진행하시는 것을 추천합니다.
추가적으로, 위 그래프에선 해석을 위한 기준선이 그어져 있는 것을 볼 수있는데 (X축 -7.1 kcal/mol, Y축 0.1 µM) 이 구분선으로 나뉘는 사분면으로 데이터를 보다 더 심도있게 해석할 수 있습니다.
1사분면, 3사분면에 위치한 데이터들은 실험값과 예측값이 일치하는 값(TP; True positive)으로 볼 수 있으며, 2사분면은 실제 활성은 낮지만 예측값이 높게 나온 데이터(FP; False positive), 4사분면은 실제 활성은 높지만 예측값은 낮게 나온 데이터(FN; False negative)입니다.
이 중 가장 주의해야 할 데이터는 2사분면에 있는 FP입니다. 가상탐색의 목표가 거대한 화합물 라이브러리에서 (수십만~수억 개) 소수의 활성 가능성이 높은 분자를 선택하는 것이기 때문에 이러한 FP를 최소화하는 것이 매우 중요합니다.
2사분면에 데이터가 많이 분포되어 있다면 활성이 없는 분자 구조를 선택할 가능성이 높아지게 됩니다. 따라서 해석 기준선은 FP 데이터를 최소화하는 값으로 설정하는 것이 좋습니다.
기준선을 설정하게 되면 추후 계산할 예측값에 대한 하한선을 정할 수 있게 됩니다. 예를 들어 위 그림의 경우, 분자에 대한 하이퍼 바인딩을 진행하여 나오는 AI 예측값이 -7.1 kcal/mol보다 낮게(좋게) 나오는 경우 해당 분자는 66.7%의 확률로 IC50 실험값이 0.1 µM일 것이라 알 수 있으므로, 예측값 중 -7.1 kcal/mol보다 좋게 나오는 분자들을 중심으로 결과를 확인하면 되겠습니다.

이상 상관 분석을 통한 등록 구조 평가에 대한 튜토리얼을 마치도록 하겠습니다.

Last updated 1 year ago

표적 단백질에 대한 활성 분자들의 실험값과 등록한 단백질 구조를 기반으로 한 AI 예측값 사이의 상관 분석을 통해 두 가지 중요한 정보를 얻을 수 있습니다.

등록한 구조를 기반으로 계산한 AI 예측값의 신뢰성 평가
추후 하이퍼 바인딩을 통해 유효한 분자를 선택할 때 참고할 기준값 제시

첫 번째 항목은 분자의 구조적 변화에 따른 활성값의 변화를 AI가 정량적으로 얼마나 잘 표현하는지 보여줍니다. 특히 hit to lead optimization과 같이 활성 개선을 위한 약물 구조 변화의 방향성 설정이 중요한 연구에 주의해야 할 항목입니다.
두 번째 항목은 가상탐색 기반의 유효물질 도출 과정에서 실험을 위한 후보 물질구조 선택의 기준이 되는 값입니다. 높은 활성과 낮은 활성의 분자 구조를 분리할 수 있는 적정 기준 값을 제시합니다.

지금부터 상관 분석 과정을 설명 드리도록 하겠습니다. 해당 튜토리얼에서는 PDB ID 4Z3V를 가지고 진행합니다.

위 그림과 같이 1번 [ N ] 아이콘을 눌러 단백질 구조를 활성화 한 후 진행합니다.
참고로 결합 부위 설정을 위한 리간드는 [ A-4L6-705 ](2번)를 선택하였으며, 박스 규격은 3번과 같이 기본 설정값을 사용하였습니다.

Correlation 데이터 수집

상관 분석을 진행하기 위해서는 표적 단백질에 대한 활성 분자들의 실험값과 구조를 입력해야 합니다. 사용할 데이터는 아래와 같습니다. 분자 등록 방법은 분자 등록하기에서 확인하실 수 있습니다.

분자 ID

SMILES

IC50 (nM)

Hit

NC(=O)c1nnc2ccccc2c1N

3540

Cn1cc(-c2cccc3c(N)c(C(N)=O)nnc23)cn1

240

Cc1ccncc1-c1cccc2c(N)c(C(N)=O)nnc12

100

NC(=O)c1nnc2c(-c3ccc4cn[nH]c4c3)cccc2c1N

Cc1cc2cn[nH]c2cc1-c1cccc2c(N)c(C(N)=O)nnc12

3.9

분자 등록을 하면 아래와 같이 분자 목록이 생성되는 것을 알 수 있습니다.

아래 그림과 같이 각 분자의 실험값을 입력하고 하이퍼 바인딩 아이콘을 클릭하여 결합 에너지를 예측을 실행합니다.

모든 분자에 대한 하이퍼 바인딩이 완료되면 [ Protein Structure ] -> [ Correlation ]에서 결과를 확인할 수 있습니다.

[ Correlation ] 탭에서는 위 그림과 같이 AI 예측값과 (X축) 실험값 (Y축) 사이의 산포도를 확인할 수 있습니다.
AI가 예측하는 값은 단백질과 리간드의 결합 에너지(kcal/mol)입니다. 결합 에너지는 IC50가 아닌 pIC50와 상관성을 가집니다. 따라서 [ 실험값 Log Scale ]을 클릭하여 Y축을 로그 단위로 전환해 줍니다.

결과 해석에 앞서 위 그림을 보며 [ Correlation ]에서 제공하는 값들을 설명하도록 하겠습니다:

상관성 그래프를 이루는 실험값의 종류. IC50 혹은 EC50.
실험값을 나타내는 축(µM). 낮을 수록 활성이 좋음.
AI 예측값을 나타내는 축(kcal/mol). 값이 음수일 수록 더 결합력이 높음.
각 분자의 정보 (그래프 각데이터 점에 마우스 커서를 올려 확인)
상관 분석 해석. 5a/5b 영역을 클릭한 후 끌어서 기준선을 변경할 수 있음.
실험값과 예측값의 결정 계수 R2 값

Correlation 데이터 해석

상관성 그래프에서 R2 값은 결정 계수로, AI 예측값이 실험값을 얼만큼 잘 설명지를 나타내는 계수입니다. 이 값은 0~1 사이에서 존재하며, 1에 가까울 수록 실험값을 더 잘 설명할 수 있다고 볼 수 있습니다.
예제에서 R2값은 0.88로, AI 예측값이 실험값을 매우 잘 설명하고 있음을 알 수 있습니다. 연구 목적에 따라 적정한 R2 값을 확보한 후 진행하시는 것을 추천합니다.
추가적으로, 위 그래프에선 해석을 위한 기준선이 그어져 있는 것을 볼 수있는데 (X축 -7.1 kcal/mol, Y축 0.1 µM) 이 구분선으로 나뉘는 사분면으로 데이터를 보다 더 심도있게 해석할 수 있습니다.
1사분면, 3사분면에 위치한 데이터들은 실험값과 예측값이 일치하는 값(TP; True positive)으로 볼 수 있으며, 2사분면은 실제 활성은 낮지만 예측값이 높게 나온 데이터(FP; False positive), 4사분면은 실제 활성은 높지만 예측값은 낮게 나온 데이터(FN; False negative)입니다.
이 중 가장 주의해야 할 데이터는 2사분면에 있는 FP입니다. 가상탐색의 목표가 거대한 화합물 라이브러리에서 (수십만~수억 개) 소수의 활성 가능성이 높은 분자를 선택하는 것이기 때문에 이러한 FP를 최소화하는 것이 매우 중요합니다.
2사분면에 데이터가 많이 분포되어 있다면 활성이 없는 분자 구조를 선택할 가능성이 높아지게 됩니다. 따라서 해석 기준선은 FP 데이터를 최소화하는 값으로 설정하는 것이 좋습니다.
기준선을 설정하게 되면 추후 계산할 예측값에 대한 하한선을 정할 수 있게 됩니다. 예를 들어 위 그림의 경우, 분자에 대한 하이퍼 바인딩을 진행하여 나오는 AI 예측값이 -7.1 kcal/mol보다 낮게(좋게) 나오는 경우 해당 분자는 66.7%의 확률로 IC50 실험값이 0.1 µM일 것이라 알 수 있으므로, 예측값 중 -7.1 kcal/mol보다 좋게 나오는 분자들을 중심으로 결과를 확인하면 되겠습니다.

이상 상관 분석을 통한 등록 구조 평가에 대한 튜토리얼을 마치도록 하겠습니다.