27.06.2016 Views

לקט מו"פ מאי 2015

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

39<br />

מחשבים מסוגלים,‏ אחרי אימון,‏ לזהות קול אדם מסויים מתוך רעש<br />

רקע<br />

, MIT TECHNOLOGY REVIEW 29 בא<strong>פ</strong>ריל <strong>2015</strong><br />

.49<br />

Deep Learning Machine Solves the Cocktail Party Problem<br />

http://www.technologyreview.com/view/537101/deep-learning-machine-solves-thecocktail-party-problem/<br />

שיטה חדשה <strong>פ</strong>ותרת את ‏"בעיית מסיבת הקוקטייל"‏ ומקנה למחשבים יכולת לזהות קול של אינדיבידואל<br />

אחד מסויים מתוך קולות רקע.‏<br />

לבני אדם יש יכולת מרשימה להתמקד ולסנן קולו של אדם אחד מתוך קהל ורעש רקע.‏ הצלחתם של בני<br />

האדם מרשימה כ<strong>פ</strong>ליים כאשר אנו מבינים שמחשבים מתקשים לרכוש יכולת דומה.‏ נכון להיום,‏ בני אדם<br />

מנצחים את המכונות בקלות בתחום זה.‏ עתה נראה שאנשי מדעי המחשב מתחילים ל<strong>פ</strong>צח את האתגר<br />

באמצעות שימוש במערכות עצבים מלאכותיות networks( )deep neural לה<strong>פ</strong>רדת קולות אנושיים<br />

מרעש הרקע.‏<br />

אנדרו סימ<strong>פ</strong>סון ועמיתיו <strong>פ</strong>תחו את המחקר עם מאגר של שירים.‏ השירים חולקו מראש לסדרה של<br />

ערוצי שמע נ<strong>פ</strong>רדים עבור כל שיר,‏ כאשר כל ערוץ הכיל כלי או קול נ<strong>פ</strong>רד.‏ החוקרים השתמשו גם בגרסה<br />

של השירים בה אוחדו כל הערוצים ביחד עבור כל שיר.‏ הם חילקו כל ערוץ למקטעים של עשרים שניות,‏<br />

ויצרו ס<strong>פ</strong>קטרוגרמה הממחישה כיצד תדרי הקול משתנים ל<strong>פ</strong>י הזמן עבור כל מקטע וכל שיר שלם.‏<br />

התוצאה הייתה סוג של טביעת אצבעות ייחודית עבור כל כלי,‏ קול ושיר.‏ עתה נותר רק האתגר לה<strong>פ</strong>ריד<br />

בין ‏'טביעות האצבעות'‏ של השירים השונים כאשר הן מעורבבות זו בזו באותה השמעה.‏<br />

סימ<strong>פ</strong>סון ועמיתיו אימנו רשתות עצבים מלאכותיות לבצע משימה זו בדיוק.‏ הם השתמשו בחמישים<br />

מהשירים לאימון הרשת,‏ והשאירו לעצמם 13 שירים עליהם יבחנו את המכונה.‏ בסך הכל,‏ הם השתמשו<br />

ביותר מ-‏ 20,000 ס<strong>פ</strong>קטרוגרמות למטרות האימון.‏<br />

רשתות עצבים מלאכותיות שונות מאלגוריתמים רגילים:‏ אין צורך לתכנת אותן למשימה מסוימת,‏ אלא<br />

לס<strong>פ</strong>ק להן קלט מסוים,‏ ולבחון כיצד רשת העצבים המלאכותית משתנה בהתאם לקלט,‏ מעבדת אותו<br />

ומייצרת <strong>פ</strong>לט מתאים.‏ הרשת מזהה בעצמה את ה<strong>פ</strong>רמטרים המתאימים לביצוע המשימה,‏ באמצעות<br />

הרצה של דגימות מבחן רבות דרך הרשת.‏ החוקרים <strong>פ</strong>עלו בהתאם במקרה זה:‏ הם סי<strong>פ</strong>קו לרשת<br />

העצבים את הס<strong>פ</strong>קטרוגרמות בהן כל הערוצים עורבבו יחד,‏ וצי<strong>פ</strong>ו ממנה לה<strong>פ</strong>יק כ<strong>פ</strong>לט את<br />

הס<strong>פ</strong>קטרוגרמה הקולית בלבד.‏<br />

התוצאות היו מרשימות:‏ מהרגע שמערכת העצבים המלאכותית זיהתה כיצד ‏'נשמע'‏ קול,‏ היא הצליחה<br />

לה<strong>פ</strong>ריד גם קולות אחרים מתוך אוסף של ערוצים.‏ עדיין לא מדובר ב<strong>פ</strong>תרון מלא של בעיית ‏"מסיבת<br />

הקוקטייל",‏ אך זוהי התקדמות מרשימה,‏ במיוחד בהתחשב בעובדה שמערכות אלו אינן מחייבות תכנות<br />

מחדש לכל מטרה,‏ אלא אימון בלבד.‏<br />

מערכות מסוג זה עשויות להיות בעלות חשיבות למערכת הביטחון במקרים רבים ושונים:‏ ניתן יהיה<br />

להשתמש בהן לה<strong>פ</strong>רדת וסינון קולות של אינדיבידואלים מתוך ה<strong>פ</strong>גנה המונית,‏ ל<strong>פ</strong>ענוח וה<strong>פ</strong>רדה של<br />

קולות אנשים המדברים סימולטנית בטל<strong>פ</strong>ון,‏ וא<strong>פ</strong>ילו במכשירי שמיעה או ציתות שיהיו מסוגלים להתמקד<br />

באו<strong>פ</strong>ן אוטומטי רק בקולות המעניינים את המאזין.‏<br />

63

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!