לקט מו"פ מאי 2015
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
39<br />
מחשבים מסוגלים, אחרי אימון, לזהות קול אדם מסויים מתוך רעש<br />
רקע<br />
, MIT TECHNOLOGY REVIEW 29 בא<strong>פ</strong>ריל <strong>2015</strong><br />
.49<br />
Deep Learning Machine Solves the Cocktail Party Problem<br />
http://www.technologyreview.com/view/537101/deep-learning-machine-solves-thecocktail-party-problem/<br />
שיטה חדשה <strong>פ</strong>ותרת את "בעיית מסיבת הקוקטייל" ומקנה למחשבים יכולת לזהות קול של אינדיבידואל<br />
אחד מסויים מתוך קולות רקע.<br />
לבני אדם יש יכולת מרשימה להתמקד ולסנן קולו של אדם אחד מתוך קהל ורעש רקע. הצלחתם של בני<br />
האדם מרשימה כ<strong>פ</strong>ליים כאשר אנו מבינים שמחשבים מתקשים לרכוש יכולת דומה. נכון להיום, בני אדם<br />
מנצחים את המכונות בקלות בתחום זה. עתה נראה שאנשי מדעי המחשב מתחילים ל<strong>פ</strong>צח את האתגר<br />
באמצעות שימוש במערכות עצבים מלאכותיות networks( )deep neural לה<strong>פ</strong>רדת קולות אנושיים<br />
מרעש הרקע.<br />
אנדרו סימ<strong>פ</strong>סון ועמיתיו <strong>פ</strong>תחו את המחקר עם מאגר של שירים. השירים חולקו מראש לסדרה של<br />
ערוצי שמע נ<strong>פ</strong>רדים עבור כל שיר, כאשר כל ערוץ הכיל כלי או קול נ<strong>פ</strong>רד. החוקרים השתמשו גם בגרסה<br />
של השירים בה אוחדו כל הערוצים ביחד עבור כל שיר. הם חילקו כל ערוץ למקטעים של עשרים שניות,<br />
ויצרו ס<strong>פ</strong>קטרוגרמה הממחישה כיצד תדרי הקול משתנים ל<strong>פ</strong>י הזמן עבור כל מקטע וכל שיר שלם.<br />
התוצאה הייתה סוג של טביעת אצבעות ייחודית עבור כל כלי, קול ושיר. עתה נותר רק האתגר לה<strong>פ</strong>ריד<br />
בין 'טביעות האצבעות' של השירים השונים כאשר הן מעורבבות זו בזו באותה השמעה.<br />
סימ<strong>פ</strong>סון ועמיתיו אימנו רשתות עצבים מלאכותיות לבצע משימה זו בדיוק. הם השתמשו בחמישים<br />
מהשירים לאימון הרשת, והשאירו לעצמם 13 שירים עליהם יבחנו את המכונה. בסך הכל, הם השתמשו<br />
ביותר מ- 20,000 ס<strong>פ</strong>קטרוגרמות למטרות האימון.<br />
רשתות עצבים מלאכותיות שונות מאלגוריתמים רגילים: אין צורך לתכנת אותן למשימה מסוימת, אלא<br />
לס<strong>פ</strong>ק להן קלט מסוים, ולבחון כיצד רשת העצבים המלאכותית משתנה בהתאם לקלט, מעבדת אותו<br />
ומייצרת <strong>פ</strong>לט מתאים. הרשת מזהה בעצמה את ה<strong>פ</strong>רמטרים המתאימים לביצוע המשימה, באמצעות<br />
הרצה של דגימות מבחן רבות דרך הרשת. החוקרים <strong>פ</strong>עלו בהתאם במקרה זה: הם סי<strong>פ</strong>קו לרשת<br />
העצבים את הס<strong>פ</strong>קטרוגרמות בהן כל הערוצים עורבבו יחד, וצי<strong>פ</strong>ו ממנה לה<strong>פ</strong>יק כ<strong>פ</strong>לט את<br />
הס<strong>פ</strong>קטרוגרמה הקולית בלבד.<br />
התוצאות היו מרשימות: מהרגע שמערכת העצבים המלאכותית זיהתה כיצד 'נשמע' קול, היא הצליחה<br />
לה<strong>פ</strong>ריד גם קולות אחרים מתוך אוסף של ערוצים. עדיין לא מדובר ב<strong>פ</strong>תרון מלא של בעיית "מסיבת<br />
הקוקטייל", אך זוהי התקדמות מרשימה, במיוחד בהתחשב בעובדה שמערכות אלו אינן מחייבות תכנות<br />
מחדש לכל מטרה, אלא אימון בלבד.<br />
מערכות מסוג זה עשויות להיות בעלות חשיבות למערכת הביטחון במקרים רבים ושונים: ניתן יהיה<br />
להשתמש בהן לה<strong>פ</strong>רדת וסינון קולות של אינדיבידואלים מתוך ה<strong>פ</strong>גנה המונית, ל<strong>פ</strong>ענוח וה<strong>פ</strong>רדה של<br />
קולות אנשים המדברים סימולטנית בטל<strong>פ</strong>ון, וא<strong>פ</strong>ילו במכשירי שמיעה או ציתות שיהיו מסוגלים להתמקד<br />
באו<strong>פ</strong>ן אוטומטי רק בקולות המעניינים את המאזין.<br />
63