12.07.2015 Views

3장 실험계획(Experimental Design).hwp

3장 실험계획(Experimental Design).hwp

3장 실험계획(Experimental Design).hwp

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

1 -제3장 실험계획3.1 소개○ 실험은 실험대상에 대해서 어떤 처리를 가한 후 나타나는 반응값을 얻는 과정.○ 실험에서 반응값에 영향을 주는 실험의 조건들을 인자(요인,factor)라고 하며, 각 인자의실험조건을 인자의 수준(level) 또는 처리(treatment) 라고 한다.3.1.1 실험계획의 목표○ 어떤 요인이 반응에 유의한 영향을 주는가를 파악하고 그 영향이 양적으로 어느 정도 큰가를 알아내거나, 유의한 영향을 미치는 원인들이 어떠한 조건을 가질 때 가장 바람직한 반응을 얻을 수 있는 가를 알아낸 것 등도 실험을 디자인 하는 목적.3.1.2 실험계획법의 기본원리(1) 랜덤화의 원리○ 실험에 사용되는 인자 외에 기타요인들의 영향으로 인해 실험결과에 편의가 발생되지 않도록 하는 방안.○ 실험에서 고려하는 모든 배치에 실험자의 자의적 판단이 포함되어서는 안 된다.(2) 반복의 원리○ 동일 요인 수준에서 두 번 이상 실험할 때, 반복실험이라 부른다.○ 반복을 함으로써 오차항의 자유도를 크게 해 줄 수 있으며, 오차분산을 정확하게 추정하여 실험결과의 신뢰성을 높일 수 있다.(3) 블록화의 원리○ 실험의 환경을 될 수 있는 한 균일한 부분으로 쪼개어 여러 블록으로 만든 후에 블록 내에서 각 인자의 영향을 조사하는 것이 바람직.○ 실험전체를 시간적 혹은 공간적으로 분할하여 블록을 만들어 주면 각 블록 내에서는 실험 환경이 균일하게 되어 변동을 줄일 수 있으므로 정도가 더 좋은 결과를 얻을 수 있다.(4) 교락의 원리○ 구할 필요가 없는 2인자 이상의 교호작용을 블록과 교락시키는 방법으로 검출 할 필요가 없는 요인이 블록의 효과와 혼재하게 됨으로써 적은 실험의 회수로 원하는 검정을 할 수있다. 즉 이 원리를 이용하여 실험의 효율을 높일 수 있다.


2 -(5) 직교화의 원리○ 요인 간에 직교성을 갖도록 실험 계획하여 데이터를 구하면 같은 실험횟수라도 검출력이더 좋은 검정을 할 수 있고, 정도가 더 높은 추정을 할 수 있다.3.1.3 실험계획법의 분류(1) 요인배치법○ 인자의 각 수준의 모든 조합에 대해서 실험을 행하는 것으로 실험순서는 랜덤하게 정한다.○ 인자의 수에 따라서 인자가 하나인 경우는 일원배치법, 인자가 둘인 경우에 이원배치법이라고 한다.○ 인자의 수가 개 있고 각 인자가 다같이 2수준의 경우에는 형 요인배치법, 3수준인경우는 형 요인배치법이라고 한다.(2) 일부실시법○ 불필요한 교호작용이나 고차의 교호작용은 구하지 않고 각 인자의 조합 중에서 일부만선택하여 실험을 실시하는 방법을 일부실시법 이라한다.○ 일부실시법에서는 불필요한 교호작용을 중요한 요인들과 교락 시켜 주는 것이 보통이다.(3) 불완비 블록계획법○ 같은 실험 환경(혹은 블록)에서 비교하고자 하는 요인수준의 조합이 모두 들어 있지 않은 실험계획법을 불완비 블록계획법이라고 한다.○ 수준수와 블록수가 많을 때 실험회수를 줄이기 위하여 사용되어진다.


3 -예3.1>비료1 비료2 비료3 비료4< 요인배치법>비료1 비료1 비료1 비료1비료2 비료2 비료2 비료2비료3 비료3 비료3 비료3비료4 비료4 비료4 비료4비료1 비료4 비료3 비료2비료3 비료2 비료1 비료4비료2 비료1 비료4 비료3비료4 비료3 비료2 비료1< 완전랜덤화 블록 설계법>비료1 비료4 비료3 비료2비료2 비료3 비료1 비료4< 불완비 블록계획법>


4 -3.2 마이크로어레이 실험계획- 마이크로어레이 실험을 통해서 나온 자료를 이용하여 각 유전자의 발현정도를 객관적으로 판단 할 수 있어야 하며, 각 처리의 효과 차이를 검출할 수 있는 자료 구조가 되어야 한다.3.2.1 마이크로어레이 실험 목적- 유의한 유전자의 발굴 작업은 마이크로어레이 실험을 통해서 얻을 수 있는 가장 기본적인 결과.- 유의성 검정에는 여러 처리간의 비교를 통해 유전자의 발현 정도를 판별하는 유의성 검정을 할 수 있다. (서로 다른 조직에서 추출한 유전자의 비교, 정상 세포에서 얻은 조직과암 세포에서 얻은 조직의 비교, 서로 다른 시점에서 얻은 조직의 비교 등)- 관측된 유전자들의 발현 정도를 이용하여 반응 값에 대한 예측 혹은 비슷한 성질을 갖는유전자들을 그룹화 하여 이전에 밝혀지지 않은 새로운 형태의 질병을 발견할 수 있음.- 마이크로어레이 실험을 통하여 다양한 실험 결과를 도출할 수 있기 때문에 마이크로어레이 실험은 실험자가 원하는 목적을 가장 잘 설명할 수 있도록 계획되어야 한다.3.2.2 마이크로어레이 실험의 구성- 실험의 대상은 처리를 받은 사람, 동물 및 세포 등이 되며, 이때 처리라 함은 실험에서비교하고자 하는 인자의 수준이 된다. (성별, 약의 투여여부, 세포의 종류 등)- 세포의 분화과정을 연구하는 경우에는 실험을 관측하게 되는 시점이 중요한 처리가 된다.- 약의 투약여부에 따라서 어떤 유전자가 발현정도가 유의한지 검색하는 것이 목적이 될수 있음.- 마이크로어레이 실험을 구성 할 때는 염료(dye)의 효과, 슬라이드 내에서 동일 유전자를반복하여 프린트 한 경우에 반응값의 변동 정도 및 슬라이드 간의 반복 실험에 있어서 동일유전자의 슬라이드간의 변동 정도 등을 고려해야 함.3.2.3 변동요인 (sources of variation)(1) 생물학적 변동 (Biological variation) 요인- 실험대상의 생물학적 특성에 기인한 변동성을 말하며, 연구목적에 해당하는 변동임.: 실험대상을 각 개체별로 볼 때나, 비슷한 성질을 묶어서 하나의 요인으로 볼 경우에 기인한다.- 유전적인 요인이나 환경적인 요인 등에 의해서 변동이 발생할 수 있으므로 사전에 실험조건을 주의 깊게 설정해야 한다.(2) 기술적 변동 (technical variation) 요인- 동일한 실험을 반복적으로 행할 때에도 변동이 발생.: 이를 줄이기 위해서는 실험자의 숙련도와 명확한 실험과정의 정립이 필요하다.


5 -- 염료의 부착과정과 혼성화 과정 등에서도 변동이 발생하며, 이미지 분석에서 발현 강도를추출하는 과정에서도 변동성이 내재되어 있다.(3) 측정오차- 하나의 슬라이드에서 유전자의 발현강도를 한 번만 관측할 경우에는 오차 추정의 정확도를 보증하기가 상당히 어려워진다.: 이를 보강하기 위해서 반복 실험이 필수적이다.3.2.4 반복실험(1) 기술적 반복실험1 다중스팟 (multiple spots) : 슬라이드 내의 변동 추정 가능- 동일한 유전자를 같은 슬라이드 내에서 반복해서 스팟팅 할 수 있다. 이 경우에 동일 유전자가 찍히는 위치는 랜덤하게 결정되어져야 한다.- 만약 동일 유전자를 하나의 핀으로만 찍게 되면 유전자의 효과와 핀의 효과가 혼동되게나타나게 될 수 있다.2 다중 슬라이드 (multiple slides) : 슬라이드 간 변동 추정 가능- 동일한 슬라이드를 반복해서 실험한다.- 변동에 영향을 줄 수 있는 다른 실험 조건들을 모두 동일하게 조절해야 한다.(2) 실험 단위의 반복1 동일한 생물학적 표본 (biological source)- 한 실험대상에서 뽑은 표본을 이용하여 반복적으로 여러 개의 마이크로어레이 실험을할 수 있다.- 한 개체에서 뽑은 조직을 반복 회수만큼 계속 실험에 사용하는 경우이다.- 가장 쉽게 생각할 수 있는 방법이나, 개인의 특성에 따라서 발생하는 개체 변동은 설명할 수가 없음.2 다른 생물학적 표본- 다른 실험 대상에서 뽑은 표본을 이용하여 반복실험을 할 수 있다.- 서로 다른 개체에서 추출한 조직을 실험에 사용하는 경우나, 동일 개체라도 서로 다른조직을 추출하여 실험을 반복해 주는 경우이다.3.3 마이크로어레이 실험계획법의 종류3.3.1 그래프 표현법마이크로어레이 실험은 하나의 슬라이드에 두 개의 처리가 실시되는 특별한 형태를 띔.: 슬라이드가 블록이 되고 블록내의 처리의 수준은 2가 된다. (Kerr and Churchill,


6 -2001b)- 그래프 표현법은 디자인의 설정을 손쉽게 도와줄 수 있으며, 디자인의 성질을 쉽게 평가할 수 있다. 또한 부수적으로 디자인의 이름을 결정짓기도 한다. 대조군 를 Cy5로 처리군(T)를 Cy3로 부착후 합성한 실험상자는 처리를 나타내며, 화살표는 한 번의 실험을 나타내는데 한 장의 슬라이드와 같다.화살표의 시작점은 Cy5가 되고 화살표가 가리키는 쪽은 Cy3가 된다.는 대조그룹에 Cy5를 처리그룹에 Cy3를 처리한 실험을 표시한 것임.대조군(C)과 처리군(T)의 발현강도를 각각 log(C)와 log(T)로 표현하면 다음과 같이 나타낼수 있다.log log where, : 전체 평균 : 각각 Cy5와 Cy3의 염료 효과 : 대조군과 처리군의 효과 : 독립적인 오차항특정 유전자의 상대적인 발현정도는 log(T/C)로 나타낼 수 있으며, (3.1)을 이용하면 다음과 같이 나타낼 수 있다.log where : 각 처리군과 대조군 사이의 효과의 차이와 염료의 효과차가 서로 교락되어 있음. 의 실험을 4회 반복한 실험


7 -은 그림에서 설명한 실험을 4번 반복한 것이며, 따라서 슬라이드는 4장이된다.이 실험의 상대적인 발현정도는 다음과 같다.log log log log log : 그림의 실험보다는 효과의 차이를 보다 더 정밀하게 추정할 수 있으나 처리효과와염료효과가 교락되어 있음. Dye swap 디자인의 예과 같이 화살이 반대 방향을 가리키는 실험을 dye swap 디자인이라고 부르며,실험할 때 염료를 바꾸어서 혼성화 시킨다.: a 슬라이드는 대조군에 Cy5, 처리군에 Cy3를 처리한 실험이며, b 슬라이드는 대조군에Cy3, 처리군에 Cy5를 처리한 실험이다.- 각 유전자의 발현 정도에서 염료의 효과를 제거할 수 있게 되리라 기대할 수 있음.발현정도를 슬라이드에 따라서 각각 log log 라고 하면log log log 로 나타낼 수 있다.과 의 실험을 할 때 주의할 점은 실험에 사용하는 표본을 생물학적으로 동일한 것을 사용할 것인지의 여부이다.3.3.2 기준계획 (reference design)기준계획 : 하나의 기준을 이용하여 여러 가지 처리간의 실험을 비교하는 실험계획사용을 고려할 수 있는 상황 : 여러 가지 처리군을 비교기준시점에서 변화해가는 과정 조사장점 : 해석이 간편, 실험과 분석방법 용이 ⇨ 실험의 확장성 측면에서 사용이 용이단점 : 한 슬라이드로부터 기준채널 이외에 실제 표본에 대해서는 한 채널의 값만 사용⇨ 실험회수가 많아져서 비효율적


8 -처리 1( )과 처리 2( )의 효과의 차이를 알고 싶은 경우log log log 을 계산하여 분석log log log log 여기서 dye swap 계획과 기준계획실험 : 처리군과 비교군의 효과를 비교실험의 제약 조건 : 총 실험회수를 2회로 한정고려할 수 있는 실험계획 : 과


9 -Yang and Speed (2002a)가정 : 모든 로그비 분산이 으로 동일모든 다른 슬라이드 사이는 독립 : log log log ⇨ log : log log log⇨ log dye swap 디자인이 선호Yang and Speed (2002b)직접 설계법 (direct design) : 하나의 슬라이드에서 비교하기 위해 설계하는 방법, 간접 설계법 (indirect design) : 공통인 기준에서의 차이서의 차이를 이용하여 처리효과를 다른 슬라이드를 사용하여 비교하는 방법 , 가정 : 기술적 반복이 있는 경우 실험 간에 독립이 아님.인자들 간에도 공분산이 있음.다음과 같은 표현식 고려 log log log : 유전자, 과 ′ : 기술적 반복을 통한 기준 표본 : 모든 인자의 산포 : 같은 실험에 사용된 인자사이에 공분산 : 다른 실험에서 같은 수준의 인자사이에 공분산 : 같은 실험도 아니고 다른 처리를 나타내는 인자사이에 공분산의 실험에서 발현정도를 추정하는 경우


10 -공분산 행렬 Cov ′ ′ log log log ′ ′ 의 경우 log 가 항상 보다 크지 않음(Yang and Speed ,2002b).3.3.3 고리계획 (loop design)고리계획 : 각기 서로 다른 표본들과 염료를 바꿔가면서 실험하는 방법비교하고자 하는 대상이 적을 경우에 효율적인 방법단점 : 하나라도 결측치가 생기는 경우에 다른 실험에서 얻은 결과만을 가지고는 분석이 어려움발현정도의 측정형태 : log , log , log , log 및log


11 -처리 1( )과 처리 2( )의 효과의 차이를 알고 싶은 경우log 을 분석에 사용간접 계산log log log log log 3.3.4 요인 배치법 (factorial design)Glnek와 Solomon (2002) : 마이크로어레이 실험에서 요인배치법 고려 형 요인배치법인자가 2개, 각인자의 수준수는 2.A : 표본을 나타내는 인자,인자의 수준 (0, a) : 서로 다른 cell lineB : 시간을 나타내는 인자,인자의 수준 (0, b) : 0=0시간, b=24시간실험조건00(C)a0(A)0b(B)ab(AB)로그 발현강도E(log(C))=E(log(A))= E(log(B))= E(log(AB))= 표 3.1 형 요인 배치법에서 유전자의 표현법 : 대조집단인 00(C)의 모수 : A의 주효과, 실험조건 a0(A)와 00(C)사이의 차이시점 0에서 두 cell line의 차이 : A의 주효과, 실험조건 기준 cell line에서 두 관측 시점의 차이 : 인자 A와 인자 B의 교호작용= (ab-0b) - (a0-00)두 cell line의 차이가 시간에 따라서 어떻게 변하는지를 볼 수 있는 모수실험조건 Cy5 Cy3 로그비a 00(C) a0(A) b 00(C) 0b(B) c 00(C) ab(AB) d 0b(B) ab(AB) e a0(A) ab(AB) f a0(A) 0b(B) 표 3.2 의 실험 디자인


12 -실험을 세 번만 할 수 있는 경우에서 실험번호 a, b 및 c를 선택 ⇨ 알고 싶은 모수 ( ) 추정그림 3.13 의 실험에서 주효과와 교호작용을 추정하기 위하여 몇 개의 실험을 일부 실시한 실험. 이 실험은 기준계획과 같게 된다.실험을 네 번만 할 수 있는 경우


13 -3.4 실험계획의 선택예3.4 )처리군이 A,B,C 세 개인 경우, 기준 표본도 사용가능, 슬라이드 내의 모든 유전자의 로그비의 분산은 동일하며, 모든 슬라이드는 서로 독립이라고 가정한다.1 실험계획1 : 기준계획으로 간접 설계법A B CR이 실험은 슬라이드가 세 개가 필요하다. log(A/R), log(B/R) 과 log(C/R)은 모두 동일한분산 ,1,을 갖는다고 가정.처리A 와 처리B의 차이는 log(A/B)=log(A/R)-log(B/R) 로 표현되며 Var(log(A/B))=2.2 실험계획2 : 실험계획1의 실험을 2번씩 반복하여 본다.


14 -A B C2 2 2R이 실험은 슬라이드가 6개가 필요.log(A/B)=(log(A 1 /R 1 )-log(A 2 /R 2 )-log(B 1 /R 1 )-log(B 2 /R 2 ))/2 로 표현할 수 있으며,Var(log(A/B))=1 이 된다. 실험횟수는 2배가 되지만 추정량의 분산은 반으로 줄게 된다.가능하다면 단순 반복실험을 하지 말고 dye swap을 해주는 것도 고려해볼 사항.3 실험계획3 : 세 개의 처리군에 대해서 고리계획을 생각. 이 방법은 기준 표본을 필요로하지 않는 직접 비교법이다.AbCacB이 실험은 슬라이드가 세 개가 필요하다. 이때 log(A/B)를 구하는 방법은 실험 a에서log(A/B)를 직접구하거나, 실험 b와 c를 이용하여 log(A/B)=-log(C/A)-log(B/C)와 같이 구할 수 있다. 따라서 Var(log(A/B))=0.75가 된다.이 예제에서는 실험계획3이 실험의 개수가 3개이고 분산이 작으므로 가장 권장 될 수 있는 방법이다. 다만 각 슬라이드에서 사용하는 생물학적 표본이 동일한 경우에는 위의 분산계산이 적용될 수 없으므로 유의해야 한다.실험계획2와 3의 분산의 계산은 표본이 서로 다른다는 가정하에서 유도된 것이다. 따라서각 표본으로부터 슬라이드를 한개씩밖에 얻지 못하는 경우에는 디자인 1과 2의 선택을 고려해야 한다.예3.5)관측시점이 T1, T2, T3 및 T4 인 실험을 고려해 보자.


15 -1 실험계획1 : T1을 기준 표본으로 사용T1 T2 T3 T42 실험계획2 : 순차적으로 직접 비교T1 T2 T3 T43 실험계획3 : 기준디자인T1 T2 T3 T4R4 실험계획4 : 실험계획1에서 T2와 T3간의 실험을 추가T1 T2 T3 T45 실험계획5 : 고리계획T4T1T3T26 실험계획6 : 혼합계획


16 -T1 T2 T3 T4위의 실험계획들을 예제3.4 에서와 같은 비교를 위하여 추정되는 양들의 분산을 표3.3에서정리하였다. 예3.4과 같이, 모든 유전자의 로그비의 분산은 동일하다고 가정하였다.실험계획 슬라이드수 T1/T2 T2/T3 T3/T4 T1/T3 T2/T4 T1/T4 average1 3 1 2 2 1 2 1 1.52 3 1 1 1 2 2 3 1.673 4 2 2 2 2 2 2 24 4 0.67 0.67 1.67 0.67 1.67 1 1.065 4 0.75 0.75 0.75 1 1 0.75 0.836 4 1 0.75 1 0.75 0.75 0.75 0.83주의할 점은 실험계획1,2 및 3 은 각각의 시점에서 표본을 하나씩만 얻은 것을 보고 나머지 것은 실험에 사용되는 표본들을 각 시점에서 반복으로 얻었다고 가정한다.평균분산은 실험계획5 와6이 가장 작다. 이 두 실험계획 중에서 실험자의 관심이 T1과T2의 비교에 있었다면, 실험계획5를 선택한다. 비슷한 이유로 T1과 T3의 비교가 관심이라면 실험계획6을 선택하는 것이 좋다. 실험계획4는 평균분산이 이 두 실험계획보다 작으며,T1과 T2의 비교, T2와 T3 및 T1과 T3의 비교가 관심일 경우에는 가장 선호할 수 있는방법이다. 다만,T3와 T4의 비교나 T2와T4의 비교가 관심인 경우에는 실험계획5나 6을 고려하는 것이 바람직하다.3.5 실험시 고려사항3.5.1 실험 횟수유전자의 발현강도를 알기 위해서 실시하는 단일 실험은 많은 변동요인을 포함하고 있다.유의한 유전자를 찾기 위해서는 한번의 실험만으로는 불충분하기 때문에 반복 실험이 필요하다.Black and Doerge (2002)- 통계량의 표본오차와 검정력의 관계를 이용한 실험회수를 결정하는 방법을 고 려.- 모형의 정의 A : 어레이의 주효과, : 어레이


17 -D : 염료의 주효과, j : 염료T : 처리의 주효과, k : 처리G : 유전자의 주효과, : 유전자AG, TG : 어레이와 유전자, 처리와 유전자의 교호작용 : 휘도의 로그값, m : 유전자의 반복수- 가설 : 특정 유전자의 처리 효과가 있는가? ′ ′ - 검정통계량 ′ ′ ′ ′ ′ r: the number of times each gene검정력의 계산을 위해 모델에서의 잔차의 분포를 정규분포( )로 가정- Bonferroni 방법을 이용한 기각역 ∼ p : 동시검정에 사용되는 가설의 수- m-fold change 방법을 고려한 검정력 함수 log ∼ log Pan et al. (2002)- 표본크기와 검정력과의 관계를 계산할 때 발현강도를 엄밀하게 추정하는 것이 중요함.- 정규혼합분포 (normal mixture distribution)에 기초하여 접근.- 검정력함수는 실제 유전자 발현정도의 변동계수 차인 d와 제 1종 오류 의 함 수로 나타냄.


18 -3.5.2 풀링(Pooling)- 실험개체에서 추출한 표본을 합치는 것을 풀링이라고 함.(1) Complete pooling : 같은 처리군에서 얻은 모든 표본을 합치는 방법.- 칩간의 변동성을 구분하지 못하므로 통계적 접근 방법으로 바람직하지 않음.(2) Sub-pooling : 같은 처리군에서 얻은 표본을 부분적으로 합치는 방법.Peng et al. (2003) : 두 표본 t-검정의 검정력을 살펴봄

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!