10.07.2015 Views

С.П. Шарый - Институт вычислительных технологий СО РАН

С.П. Шарый - Институт вычислительных технологий СО РАН

С.П. Шарый - Институт вычислительных технологий СО РАН

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

260 3. Численные методы линейной алгебрыили явление. <strong>П</strong>редположим для определённости, что набор параметров(свойств, признаков и т. п.) рассматриваемого объекта характеризуетсявектор-строкой из n чисел, и мы имеем m штук таких векторов,относящихся, к примеру, к отдельным измерениям. <strong>П</strong>олученные данныеобразуют вещественную m × n-матрицу, которую мы обозначимчерез A.Нередко возникает необходимость сжатия данных, т. е. уменьшениячисла n параметров объекта с тем, чтобы оставшиеся p признаков,p ≤ n, всё-таки «достаточно наиболее полно» описывали всю совокупностьнакопленной об объекте информации, содержащейся в матрицеA. Метод главных компонент является одним из способов решенияпоставленного вопроса, который в формализованном виде принимаетследующую форму: существует ли в R n ортонормированный базис{e 1 ,e 2 ,...,e p }, p < n, в котором рассматриваемые нами данные, содержащиесяв матрице A, будут представлены в наиболее экономичной(удобной, красивой и т. п.) форме?В качестве меры «близости» матриц мы можем брать различныерасстояния, получая различные постановки задач. Одним из практическинаиболее важных является расстояние, порождённое фробениусовойнормой матриц, которое имеет ясный вероятностно-статистическийсмысл: оно совпадает с так называемой выборочной дисперсией набораданных. Для фробениусовой нормы матриц математическая задачаставится следующим образом. Нужно найти такой ортонормированныйбазис {e 1 , e 2 , . . . , e p } в R n , p ≤ n, что квадратичное отклонение исходныхвекторов данных A i: = (a i1 ,a i2 , . . . , a in ) ⊤ от их приближенийX (i) = ∑ pj=1 x ije j в этом базисе было бы наименьшим возможным длявсех i = 1,2,...,m.Описанная выше процедура обработки матрицы данных называетсяметодом главных компонент в случае применения к матрице данных,которая центрирована путём вычитания из каждого столбца его среднегозначения. <strong>П</strong>ри этом компонентами называются правые сингулярныевекторыv k , а масштабированные левые сингулярные векторыσ k u kносят название долей. Метод главных компонент обычно описывают втерминах собственных чисел и собственных векторов так называемойковариацонной матрицы A ⊤ A, но подход, основанный на сингулярномразложении, часто лучше с вычислительной точки зрения.Другая ситуация, в которой часто прибегают к методу главных компоненти которая не связана с необходимостью сжатия данных, — этожелание выделить из данных наиболее значимые факторы, т. е. комби-

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!