ש×פ×ר ×××× ×¤×¨×××¨× ×ק×××× ××ת×ת ש××¢ ×קצ××× × ××××× - SIPL - ×××× ×××
ש×פ×ר ×××× ×¤×¨×××¨× ×ק×××× ××ת×ת ש××¢ ×קצ××× × ××××× - SIPL - ×××× ×××
ש×פ×ר ×××× ×¤×¨×××¨× ×ק×××× ××ת×ת ש××¢ ×קצ××× × ××××× - SIPL - ×××× ×××
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
נספח ד'<br />
בניית המילון<br />
המילון הוא מעין מדגם מייצג של מאגר שלם של וקטורים. ככל שהמאגר יהיה גדול יותר כך<br />
יתקבלו תוצאות טובות יותר, המייצגות תחום רחב יותר. וקטור מייצג נקרא מילה. מאחר וכמות<br />
המילים מוגבלת יש צורך למצות את המאגר בצורה הטובה ביותר על מנת שהייצוג יהיה יעיל.<br />
מספר הוקטורים במדגם הוא כ- 300,000 וקטורים.<br />
המילון נבנה על פי אלגוריתם LBG המתואר בהרחבה ב- [28].<br />
האלגוריתם פועל במספר שלבים.<br />
השלב הראשוני מאותחל ע"י מילה אחת מייצגת עבור כלל<br />
וקטורי המדגם. המילה המייצגת היא הממוצע של כל מדגם הוקטורים, כמתואר ע"י:<br />
w<br />
1<br />
=<br />
1<br />
L<br />
L<br />
∑ X i<br />
i=<br />
1<br />
(D-1)<br />
כאשר w מתאר מילת ייצוג, L הוא גודל המדגם (כ-<br />
300,000 וקטורים)<br />
ו-<br />
X i מסמן את הוקטור<br />
i במדגם. ה-<br />
במעבר משלב לשלב מוכפלים מספר המילים (רמות הייצוג) המרכיבות את המילון, ע"י פיצול כל<br />
רמת ייצוג לשתי רמות ייצוג לפי:<br />
w 2 i−<br />
1<br />
= wi<br />
ε<br />
+ ε<br />
(D-2)<br />
w 2i<br />
= w i<br />
−<br />
כלומר , בשלב השני ישנם 2 רמות ייצוג, בשלב השלישי 4 רמות, וכך הלאה.<br />
השלב האחרון הוא השלב בו מספר המילים המייצגות שווה לגודל המילון, כפי שתוכנן. בכל שלב<br />
יש מספר איטרציות, המביאות את המילים לייצוג האופטימלי של כל וקטורי המדגם, מהבחינה<br />
של מינימום שגיאה ריבועית (מרחק). בכל איטרציה, המילים (רמות הייצוג) מקבצות סביבם את<br />
הוקטורים הקרובים ביותר אליהם מבחינת שגיאה ריבועית, המתואר,<br />
R =<br />
( − ) 2<br />
w i<br />
X k<br />
(D-3)<br />
הרכבת הקבוצות (בתוך מאגר הוקטורים) מתרחשת לאחר חישוב המרחקים של כל וקטור במאגר<br />
מכל רמות הייצוג. לאחר הרכבת הקבוצות ניתן לחשב רמות ייצוג חדשות שהן הממוצע של כל<br />
קבוצה.<br />
ניתן לחשב את העיוות<br />
(השגיאה)<br />
של המילון החדש שנוצר ע"י מיצוע של השגיאות<br />
הריבועיות בין כל וקטור במאגר הוקטורים לבין מילת הייצוג שלו (הקרובה אליו).<br />
- 125 -