ÃïÃââ¡ ÃÃâ°ÃÃ⡠¨â°ÃËÃâ° â°ÃËÃⰠøâ°Ã Ë⡠·Ëà Ãà - ××× ××רס××ת ×ר ××××
ÃïÃââ¡ ÃÃâ°ÃÃ⡠¨â°ÃËÃâ° â°ÃËÃⰠøâ°Ã Ë⡠·Ëà Ãà - ××× ××רס××ת ×ר ××××
ÃïÃââ¡ ÃÃâ°ÃÃ⡠¨â°ÃËÃâ° â°ÃËÃⰠøâ°Ã Ë⡠·Ëà Ãà - ××× ××רס××ת ×ר ××××
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
ÔÏȇ–¯· ˙ËÈÒ¯·Èapple‡ ȯ˜ÁÓÓ<br />
ÔÏȇ–¯· ˙ËÈÒ¯·Èapple‡ ȯ˜ÁÓÓ<br />
˙¯‚· ¨‰ÈÓÈΠÌȯÓÂÁ ˙Ò„apple‰Ó ‡È‰ ÔÓ¯appleÈÈϘ ‰‚χ<br />
‰¯·Á· ¯˜ÁÓ ÁÂ˙ÈÙ ˙˜ÏÁÓ· ÌÂÈÎ ˙„·ÂÚ ÆÔÂÈappleÎˉ<br />
˙ÂÈÒ„apple‰ ˜ÈËÒÏÙ ˙·Âί˙ ¯ÂˆÈÈÏ Ï‡¯˘È· ‰ÏÈ·ÂÓ<br />
‰Ù˘ ‰˘˜ ˙ÈÏ‚apple‡<br />
כדי לזהות מהי שפת האֵם של הכותב, יש צורך בבניית "מילון<br />
טעויות נפוצות" בטקסטים באנגלית שכתבו אנשים בעלי<br />
שפות אם שונות. לשם בניית בסיס נתונים נלקחו טקסטים<br />
מ- .(International Corpus of Learner English) ELCI קבוצת<br />
המחברים של מסמכי הסימוכין הכילה מעל 200 סטודנטים<br />
מחמש מדינות (ספרד, רוסיה, צרפת, צ'כיה ובולגריה), אשר<br />
האנגלית אינה שפת האם שלהם ושכולם כתבו חיבורים באותו<br />
נושא. לאחר בניית בסיס הנתונים לקבוצת שייכות של המוצא<br />
הלינגוויסטי, נעשה מיון טקסטים חדשים בתוך הקבוצה נעשה<br />
בדרך זהה לסיווג של מסמכים לקבוצות שייכות אחרות.<br />
ההבדלים בכתיבה בשפה האנגלית בין אנשים ממוצא<br />
שונה נובעים מחוקי דקדוק, מצורת הדיבור, מביטויי לשון<br />
שימושיים ועוד. הרקע הלשוני השונה מתבטא בסימני זיהוי<br />
בולטים בכתיבה, סימנים אשר מאפשרים לבצע קביעת מוצא<br />
המחבר במידת דיוק גבוהה. המילים וצירופי לשון שמופיעים<br />
בטקסט הכתוב והשוני הזה הופך לסימני היכר עבור כל קבוצה<br />
לינגוויסטית בעת בדיקת הטקסט.<br />
מהמחקר עולה כי דוברי רוסית, צ'כית ובולגרית נוטים<br />
לדלג על ה"א הידיעה (the) וכן גם על ,a, an מפני שתוויות<br />
אלו אינן קיימות בקבוצת השפות הסלאביות. כמו כן, דוברי<br />
רוסית מרבים להשתמש במילים כמו ;over, every, can, can't<br />
הצרפתים נוטים להמציא מילים חדשות שהסיומת שלהן<br />
היא - ly ואוהבים את המילה .indeed המאפיין הבולט אצל<br />
הספרדים הוא שימוש רב במילים כמו because, although<br />
והשמטת הצורה .to במקום לכתוב to go הם יסתפקו<br />
ב- .go דוברי רומנית עושים טעויות פוֹנֶטִיות. למשל, בהרבה<br />
מהמקרים נעשה שימוש באות 'O' במקומות הלא נכונים, כמו<br />
.author במקום outhor<br />
נראה, אם כן, כי מודל הזיהוי מתמקד במילים הקטנות,<br />
והן שעושות את ההבדל הגדול. כינויי גוף, מילות יחס, מילות<br />
קישור (כמו 'אבל', 'גם') שכיחויות של צורות מורפולוגיות<br />
כמו תחיליות וסופיות של מילים. בכל אלה נעשה שימוש<br />
באופן אוטומטי, שהמחבר אינו מודע לו כשהוא כותב, למרות<br />
השימוש המודע במילים גרנדיוזיות בכוונה תחילה.<br />
ייתכן שבעתיד ניתן יהיה להשתמש בשיטה למחקרי<br />
פסיכולוגיה שונים. על כל פנים, קופל ושלר אינם מחפשים<br />
סיבות להבדלי הכתיבה, אלא משתמשים בהבדלים<br />
הקיימים בפועל לצורך זיהוי מאפייני המחבר ללא שימוש<br />
במאגר שמות נתונים ומסתפקים במחקר המתמקד בתחום<br />
המחשבים והמתמטיקה בלבד. לתוצאות המחקר דרישה<br />
גבוהה בכל הענפים, הצמאים למידע רלוונטי לתחום<br />
עיסוקיהם. ❖<br />
לקריאה נוספת:<br />
Genkin, A., Lewis, D.D., and Madigan, D. (2006).<br />
Large-scale Bayesian logistic regression for text<br />
categorization. Technometrics Vol. 49 ( 3), pp. 291-<br />
304(14), 2007.<br />
Madigan, D., Genkin, A., Lewis, D.D., and Fradkin,<br />
D. (2005). Bayesian multinomial logistic regression<br />
for author identification. Proceedings of MaxEnt<br />
2005, Vol. 803, pp. 509-516.<br />
Mosteller Frederick, David L. Wallace (1964),<br />
Inference and Disputed Authorship: the Federalist.<br />
Moshe Koppel, Jonathan Schler, Shlomo Argamon,<br />
Eran Messeri (2006), Authorship Attribution with<br />
Thousands of Candidate Authors, Proceedings of the<br />
29th annual international ACM SIGIR conference<br />
Moshe Koppel Shlomo Argamon, Anat Rachel<br />
Shimoni (2003), Automatically Categorizing Written<br />
Texts by Author Gender, Literary and Linguistic<br />
Computing, Vol. 17 (4), 2003.<br />
Argamon, S., Koppel, M., Pennebaker, J.W., &<br />
Schler, J (2007). Automatically profiling the author<br />
of an anonymous text. Communications of the<br />
Association for Computing Machinery (CACM).<br />
51<br />
‡ÈÏÈÏ‚<br />
¯·Ó·Âapple<br />
≤∞∞∏