16.09.2015 Views

BÁO CÁO TỔNG HỢP

tại dây - Việt Nam

tại dây - Việt Nam

SHOW MORE
SHOW LESS
  • No tags were found...

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Câu hỏi thứ nhất liên quan đến lựa chọn đặc tính và câu hỏi còn lại liên quan đến<br />

bài toán phân loại. Về mặt phương pháp luận, FDA có thể được mô tả như sau: giả sử<br />

có một tập các vector số liệu x bao hàm K yếu tố (hay là các vector K chiều) và chúng<br />

ta mong muốn phân loại các vector dữ liệu này vào 2 nhóm dựa trên các yếu tố vector<br />

riêng lẻ x k . Nếu các nhóm đã được chỉ định trước, thì bài toán trở thành quá trình phân<br />

loại các vector dữ liệu vào trong các nhóm. Do vậy, để phân loại một vector quan trắc<br />

vào trong các nhóm nói trên, cần thiết phải có một tập số liệu phụ thuộc trong đó các<br />

vector x k đã được gán cho từng nhóm cụ thể. Việc tìm ra các nguyên tắc/tiêu chuẩn để<br />

gán vector dữ liệu x vào trong các nhóm cho trước chính là mục tiêu của phương pháp<br />

FDA và sau khi đã tìm ra được các tiêu chuẩn phân biệt, thì FDA có thể được sử dụng<br />

như một phương pháp dự báo.<br />

Giả sử trong ma trận quan trắc x có n 1 vector quan trắc thuộc vào nhóm 1 và n 2<br />

quan trắc thuộc vào nhóm 2. Hay nói cách khác, ma trận ban đầu x có thể tách thành 2<br />

ma trận con tương ứng là X 1 có kích thước là (n 1 × K) và ma trận X 2 có kích thước là<br />

(n 2 × K). Mục tiêu của FDA là tìm được một hàm tuyến tính của K nhân tố (hay còn<br />

gọi là hàm riêng biệt) sao cho một vector quan trắc K chiều y nào đó sẽ được phân loại<br />

một cách chính xác vào nhóm 1 hoặc nhóm 2. Để tìm ra hàm riêng biệt, trước hết cần<br />

tính 2 vector trung bình đặc trưng cho 2 nhóm theo công thức như sau:<br />

ng<br />

⎡⎡ 1 ⎤⎤<br />

⎢⎢ ∑ xi<br />

,1 ⎥⎥<br />

⎢⎢ ng<br />

i=<br />

1 ⎥⎥<br />

n<br />

⎢⎢<br />

g<br />

⎥⎥<br />

1<br />

1<br />

T<br />

x = [ ] 1 = ⎢⎢ ∑ i,2<br />

⎥⎥<br />

g<br />

X<br />

x<br />

g<br />

, g = 1,2<br />

⎢⎢ n<br />

(5.2.14)<br />

i=<br />

1<br />

n<br />

g ⎥⎥<br />

g<br />

⎢⎢ ... ⎥⎥<br />

⎢⎢<br />

ng<br />

1 ⎥⎥<br />

⎢⎢ ∑ xi<br />

, K ⎥⎥<br />

⎢⎢⎣⎣<br />

ng<br />

i=<br />

1 ⎥⎥⎦⎦<br />

ở đây 1 là vector đơn vị có kích thước (n × 1) với n = n 1 + n 2, ký hiệu mũ T mô<br />

tả ma trận chuyển vị. Việc tính toán trung bình trong công thức (5.2.10) được tính toán<br />

riêng biệt cho từng nhóm. FDA giả thiết ma trận phương sai-hiệp biến (co-variance<br />

matrix, về sau gọi tắt là ma trận hiệp biến) trong 2 nhóm là như nhau. Giả thiết này có<br />

nghĩa 2 vector trung bình của 2 nhóm có thể khác nhau nhưng bản chất phân tán của<br />

các điểm dữ liệu quanh vector trung bình như nhau. Dựa trên các ma trận quan trắc X 1<br />

và X 2 , các ma trận hiệp biến S 1 và S 2 sẽ được tính theo các công thức sau:<br />

1<br />

[ Xʹ′<br />

] = [ X ] − [ 1][ X ], g = 1,2<br />

g<br />

g<br />

n<br />

g<br />

1 T<br />

[ S ] [ Xʹ′<br />

] [ Xʹ′<br />

], g = 1,2<br />

g<br />

=<br />

g g<br />

ng<br />

−1<br />

g<br />

(5.2.15)<br />

(5.2.16)<br />

trong đó Xʹ′<br />

g<br />

là ma trận trung tâm/dị thường của nhóm thứ g có kích thước (n g x<br />

K) và 1 là ma trận đơn vị có kích thước (n g x n g ). Do bản chất phân tán của 2 ma trận<br />

S 1 và S 2 được giả thiết là như nhau, hai ma trận này sẽ được lấy trung bình để thu được<br />

một ước lượng chung về sự phân tán của dữ liệu xung quanh các vector trung bình của<br />

chúng. Cụ thể:<br />

197

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!