23.02.2015 Views

ÌȯȄ‡ ÌȉÂχ ¨‰Ú˙Ù‰ ‰Ú˙Ù‰ ø‰Ê ˙‡ ·˙Î ÈÓ - אוניברסיטת בר אילן

ÌȯȄ‡ ÌȉÂχ ¨‰Ú˙Ù‰ ‰Ú˙Ù‰ ø‰Ê ˙‡ ·˙Î ÈÓ - אוניברסיטת בר אילן

ÌȯȄ‡ ÌȉÂχ ¨‰Ú˙Ù‰ ‰Ú˙Ù‰ ø‰Ê ˙‡ ·˙Î ÈÓ - אוניברסיטת בר אילן

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

ÔÏȇ–¯· ˙ËÈÒ¯·Èapple‡ ȯ˜ÁÓÓ<br />

ÔÏȇ–¯· ˙ËÈÒ¯·Èapple‡ ȯ˜ÁÓÓ<br />

˙¯‚· ¨‰ÈÓÈΠÌȯÓÂÁ ˙Ò„apple‰Ó ‡È‰ ÔÓ¯appleÈÈϘ ‰‚χ<br />

‰¯·Á· ¯˜ÁÓ ÁÂ˙ÈÙ ˙˜ÏÁÓ· ÌÂÈÎ ˙„·ÂÚ ÆÔÂÈappleÎˉ<br />

˙ÂÈÒ„apple‰ ˜ÈËÒÏÙ ˙·Âί˙ ¯ÂˆÈÈÏ Ï‡¯˘È· ‰ÏÈ·ÂÓ<br />

‰Ù˘ ‰˘˜ ˙ÈÏ‚apple‡<br />

כדי לזהות מהי שפת האֵם של הכותב,‏ יש צורך בבניית ‏"מילון<br />

טעויות נפוצות"‏ בטקסטים באנגלית שכתבו אנשים בעלי<br />

שפות אם שונות.‏ לשם בניית בסיס נתונים נלקחו טקסטים<br />

מ-‏ .(International Corpus of Learner English) ELCI קבוצת<br />

המחברים של מסמכי הסימוכין הכילה מעל 200 סטודנטים<br />

מחמש מדינות ‏(ספרד,‏ רוסיה,‏ צרפת,‏ צ'כיה ובולגריה),‏ אשר<br />

האנגלית אינה שפת האם שלהם ושכולם כתבו חיבורים באותו<br />

נושא.‏ לאחר בניית בסיס הנתונים לקבוצת שייכות של המוצא<br />

הלינגוויסטי,‏ נעשה מיון טקסטים חדשים בתוך הקבוצה נעשה<br />

בדרך זהה לסיווג של מסמכים לקבוצות שייכות אחרות.‏<br />

ההבדלים בכתיבה בשפה האנגלית בין אנשים ממוצא<br />

שונה נובעים מחוקי דקדוק,‏ מצורת הדיבור,‏ מביטויי לשון<br />

שימושיים ועוד.‏ הרקע הלשוני השונה מתבטא בסימני זיהוי<br />

בולטים בכתיבה,‏ סימנים אשר מאפשרים לבצע קביעת מוצא<br />

המחבר במידת דיוק גבוהה.‏ המילים וצירופי לשון שמופיעים<br />

בטקסט הכתוב והשוני הזה הופך לסימני היכר עבור כל קבוצה<br />

לינגוויסטית בעת בדיקת הטקסט.‏<br />

מהמחקר עולה כי דוברי רוסית,‏ צ'כית ובולגרית נוטים<br />

לדלג על ה"א הידיעה (the) וכן גם על ,a, an מפני שתוויות<br />

אלו אינן קיימות בקבוצת השפות הסלאביות.‏ כמו כן,‏ דוברי<br />

רוסית מרבים להשתמש במילים כמו ;over, every, can, can't<br />

הצרפתים נוטים להמציא מילים חדשות שהסיומת שלהן<br />

היא - ly ואוהבים את המילה .indeed המאפיין הבולט אצל<br />

הספרדים הוא שימוש רב במילים כמו because, although<br />

והשמטת הצורה .to במקום לכתוב to go הם יסתפקו<br />

ב-‏ .go דוברי רומנית עושים טעויות פוֹנֶטִיות.‏ למשל,‏ בהרבה<br />

מהמקרים נעשה שימוש באות 'O' במקומות הלא נכונים,‏ כמו<br />

.author במקום outhor<br />

נראה,‏ אם כן,‏ כי מודל הזיהוי מתמקד במילים הקטנות,‏<br />

והן שעושות את ההבדל הגדול.‏ כינויי גוף,‏ מילות יחס,‏ מילות<br />

קישור ‏(כמו ‏'אבל',‏ ‏'גם')‏ שכיחויות של צורות מורפולוגיות<br />

כמו תחיליות וסופיות של מילים.‏ בכל אלה נעשה שימוש<br />

באופן אוטומטי,‏ שהמחבר אינו מודע לו כשהוא כותב,‏ למרות<br />

השימוש המודע במילים גרנדיוזיות בכוונה תחילה.‏<br />

ייתכן שבעתיד ניתן יהיה להשתמש בשיטה למחקרי<br />

פסיכולוגיה שונים.‏ על כל פנים,‏ קופל ושלר אינם מחפשים<br />

סיבות להבדלי הכתיבה,‏ אלא משתמשים בהבדלים<br />

הקיימים בפועל לצורך זיהוי מאפייני המחבר ללא שימוש<br />

במאגר שמות נתונים ומסתפקים במחקר המתמקד בתחום<br />

המחשבים והמתמטיקה בלבד.‏ לתוצאות המחקר דרישה<br />

גבוהה בכל הענפים,‏ הצמאים למידע רלוונטי לתחום<br />

עיסוקיהם.‏ ❖<br />

לקריאה נוספת:‏<br />

Genkin, A., Lewis, D.D., and Madigan, D. (2006).<br />

Large-scale Bayesian logistic regression for text<br />

categorization. Technometrics Vol. 49 ( 3), pp. 291-<br />

304(14), 2007.<br />

Madigan, D., Genkin, A., Lewis, D.D., and Fradkin,<br />

D. (2005). Bayesian multinomial logistic regression<br />

for author identification. Proceedings of MaxEnt<br />

2005, Vol. 803, pp. 509-516.<br />

Mosteller Frederick, David L. Wallace (1964),<br />

Inference and Disputed Authorship: the Federalist.<br />

Moshe Koppel, Jonathan Schler, Shlomo Argamon,<br />

Eran Messeri (2006), Authorship Attribution with<br />

Thousands of Candidate Authors, Proceedings of the<br />

29th annual international ACM SIGIR conference<br />

Moshe Koppel Shlomo Argamon, Anat Rachel<br />

Shimoni (2003), Automatically Categorizing Written<br />

Texts by Author Gender, Literary and Linguistic<br />

Computing, Vol. 17 (4), 2003.<br />

Argamon, S., Koppel, M., Pennebaker, J.W., &<br />

Schler, J (2007). Automatically profiling the author<br />

of an anonymous text. Communications of the<br />

Association for Computing Machinery (CACM).<br />

51<br />

‡ÈÏÈÏ‚<br />

¯·Ó·Âapple<br />

≤∞∞∏

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!