ÃÃÂ¯Ãââ¡ ÃÃâ°ÃÃâ¡ Â¨â°ÃËÃâ° â°ÃËÃâ° Ã¸â°Ã Ëâ¡ Â·ËÃ ÃÃ - ××× ×××¨×¡×××ª ××¨ ××××

More documents

Recommendations

Info

ÔÏÈ‡–¯· ˙ËÈÒ¯·ÈappleÂ‡ È¯˜ÁÓÓ ÔÏÈ‡–¯· ˙ËÈÒ¯·ÈappleÂ‡ È¯˜ÁÓÓ ˙¯‚Â· ¨‰ÈÓÈÎÂ ÌÈ¯ÓÂÁ ˙Ò„apple‰Ó ‡È‰ ÔÓ¯appleÈÈÏ˜ ‰‚ÏÂ‡ ‰¯·Á· ¯˜ÁÓÂ ÁÂ˙ÈÙ ˙˜ÏÁÓ· ÌÂÈÎ ˙„·ÂÚ ÆÔÂÈappleÎË‰ ˙ÂÈÒ„apple‰ ˜ÈËÒÏÙ ˙Â·ÂÎ¯˙ ¯ÂˆÈÈÏ Ï‡¯˘È· ‰ÏÈ·ÂÓ ‰Ù˘ ‰˘˜ ˙ÈÏ‚apple‡ כדי לזהות מהי שפת האֵם של הכותב,‏ יש צורך בבניית ‏"מילון טעויות נפוצות"‏ בטקסטים באנגלית שכתבו אנשים בעלי שפות אם שונות.‏ לשם בניית בסיס נתונים נלקחו טקסטים מ-‏ .(International Corpus of Learner English) ELCI קבוצת המחברים של מסמכי הסימוכין הכילה מעל 200 סטודנטים מחמש מדינות ‏(ספרד,‏ רוסיה,‏ צרפת,‏ צ'כיה ובולגריה),‏ אשר האנגלית אינה שפת האם שלהם ושכולם כתבו חיבורים באותו נושא.‏ לאחר בניית בסיס הנתונים לקבוצת שייכות של המוצא הלינגוויסטי,‏ נעשה מיון טקסטים חדשים בתוך הקבוצה נעשה בדרך זהה לסיווג של מסמכים לקבוצות שייכות אחרות.‏ ההבדלים בכתיבה בשפה האנגלית בין אנשים ממוצא שונה נובעים מחוקי דקדוק,‏ מצורת הדיבור,‏ מביטויי לשון שימושיים ועוד.‏ הרקע הלשוני השונה מתבטא בסימני זיהוי בולטים בכתיבה,‏ סימנים אשר מאפשרים לבצע קביעת מוצא המחבר במידת דיוק גבוהה.‏ המילים וצירופי לשון שמופיעים בטקסט הכתוב והשוני הזה הופך לסימני היכר עבור כל קבוצה לינגוויסטית בעת בדיקת הטקסט.‏ מהמחקר עולה כי דוברי רוסית,‏ צ'כית ובולגרית נוטים לדלג על ה"א הידיעה (the) וכן גם על ,a, an מפני שתוויות אלו אינן קיימות בקבוצת השפות הסלאביות.‏ כמו כן,‏ דוברי רוסית מרבים להשתמש במילים כמו ;over, every, can, can't הצרפתים נוטים להמציא מילים חדשות שהסיומת שלהן היא - ly ואוהבים את המילה .indeed המאפיין הבולט אצל הספרדים הוא שימוש רב במילים כמו because, although והשמטת הצורה .to במקום לכתוב to go הם יסתפקו ב-‏ .go דוברי רומנית עושים טעויות פוֹנֶטִיות.‏ למשל,‏ בהרבה מהמקרים נעשה שימוש באות 'O' במקומות הלא נכונים,‏ כמו .author במקום outhor נראה,‏ אם כן,‏ כי מודל הזיהוי מתמקד במילים הקטנות,‏ והן שעושות את ההבדל הגדול.‏ כינויי גוף,‏ מילות יחס,‏ מילות קישור ‏(כמו ‏'אבל',‏ ‏'גם')‏ שכיחויות של צורות מורפולוגיות כמו תחיליות וסופיות של מילים.‏ בכל אלה נעשה שימוש באופן אוטומטי,‏ שהמחבר אינו מודע לו כשהוא כותב,‏ למרות השימוש המודע במילים גרנדיוזיות בכוונה תחילה.‏ ייתכן שבעתיד ניתן יהיה להשתמש בשיטה למחקרי פסיכולוגיה שונים.‏ על כל פנים,‏ קופל ושלר אינם מחפשים סיבות להבדלי הכתיבה,‏ אלא משתמשים בהבדלים הקיימים בפועל לצורך זיהוי מאפייני המחבר ללא שימוש במאגר שמות נתונים ומסתפקים במחקר המתמקד בתחום המחשבים והמתמטיקה בלבד.‏ לתוצאות המחקר דרישה גבוהה בכל הענפים,‏ הצמאים למידע רלוונטי לתחום עיסוקיהם.‏ ❖ לקריאה נוספת:‏ Genkin, A., Lewis, D.D., and Madigan, D. (2006). Large-scale Bayesian logistic regression for text categorization. Technometrics Vol. 49 ( 3), pp. 291- 304(14), 2007. Madigan, D., Genkin, A., Lewis, D.D., and Fradkin, D. (2005). Bayesian multinomial logistic regression for author identification. Proceedings of MaxEnt 2005, Vol. 803, pp. 509-516. Mosteller Frederick, David L. Wallace (1964), Inference and Disputed Authorship: the Federalist. Moshe Koppel, Jonathan Schler, Shlomo Argamon, Eran Messeri (2006), Authorship Attribution with Thousands of Candidate Authors, Proceedings of the 29th annual international ACM SIGIR conference Moshe Koppel Shlomo Argamon, Anat Rachel Shimoni (2003), Automatically Categorizing Written Texts by Author Gender, Literary and Linguistic Computing, Vol. 17 (4), 2003. Argamon, S., Koppel, M., Pennebaker, J.W., & Schler, J (2007). Automatically profiling the author of an anonymous text. Communications of the Association for Computing Machinery (CACM). 51 Â‡ÈÏÈÏ‚ ¯·Ó·Âapple ≤∞∞∏
º º [ ≤±≠‰ ‰‡Ó‰ Ï˘ ÌÈ˘Ï· ] המסמך ומחברו.‏ חלק מהמאפיינים המיוצגים בווקטור הם מילים בודדות שקביעת שכיחותן פשוטה.‏ אבל ישנם מאפיינים מורכבים יותר.‏ למשל,‏ סוג אחד של מאפיינים כולל חלקי דיבור פרטניים ביותר.‏ כדי למדוד שכיחותם של מאפיינים כאלה נבנה עץ,‏ ששורשיו הם אבני היסוד של השפה:‏ מילים המייצגות שמות עצם,‏ פעלים,‏ צירופי לשון,‏ מילות יחס,‏ שמות תואר וכדומה.‏ כל ענף בעץ מהווה תת-קבוצה לשונית,‏ כל צומת בענף מתייחס לקבוצת המילים ספציפית המייצגת תת-‏ קבוצה לשונית לפי ההקשר למשמעות המילה,‏ וכל עלה הוא מילת מפתח ספציפית ‏(איור 2). ההבדלים הסגנוניים שמצאו קופל ושלר בין כתיבה גברית לנשית מחקירת עשרות אלפי טקסטים מבלוגים ומכילים מעל 7000 מילים למחבר,‏ מראים כי הנשים עושות שימוש רב בכינויי גוף ובמילות השלילה.‏ מילים כגון:‏ me, ,I you, she, him, my, not he, non, nor מאפיינות את הכתיבה הנשית.‏ ¨ÌÈÈËÒÈÂÂ‚appleÈÏ≠ÂÈˆÂÒ ÌÈ¯˜ÁÓÏ „Â‚Èapple· È„È ÏÚ Èapple„È ÔÙÂ‡· Âapple·apple Ì¯Â·Ú ÌÈÏ„ÂÓ‰˘ ÔÙÂ‡· Ï„ÂÓ‰ ˙ÈÈapple· ˙È˘Úapple Ô‡Î ¨¯˜ÂÁ‰ ÏÚ ÏÚÙÂÓ‰ Ì˙È¯Â‚Ï‡ ˙ÂÚˆÓ‡· ÈËÓÂËÂ‡ ÌÈÚÂ„È ¯·ÁÓ ÈappleÈÈÙ‡Ó ÏÚ· ËÒ˜Ë לעומת זאת,‏ גברים מרבים להשתמש בספציפיקציות.‏ המילים שמופיעות יותר אצל גברים הן:‏ the, those, these גם השימוש במילות היחס נבדל בין נשים לגברים.‏ נשים מרבות להשתמש במילים כמו for או ,with ולעומתן הגברים עושים שימוש רב יותר במילים כמו of, as ובמספרים.‏ כמו כן התברר כי הנשים משתמשות יותר ב"שפת הבלוגים"‏ ‏(קיצורים וצירופי אותיות כמו lol ,haha ,ur ובחידושי לשון אחרים)‏ והגברים מצרפים היפר-קישורים בשכיחות גבוהה יותר.‏ אותם ממצאים לינגוויסטיים הנצפים אצל הגברים לעומת נשים,‏ נצפים גם אצל הבלוגיסטים המבוגרים יותר ‏(מעל גיל 30) לעומת הצעירים:‏ המבוגרים מצרפים יותר קישורים,‏ דהיינו משתמשים בשפה ‏"גברית",‏ ואילו הצעירים משתמשים יותר בשפת הבלוגים,‏ דהיינו השפה ה"נשית".‏ סימני היכר נוספים של הבלוגיסטים הצעירים שימוש מרובה של מילות קישור והשמטת הגרשיים:‏ .Im, so, thats, dont, cant יש לציין,‏ כי לא נצפו הבדלים סגנוניים רבים בקרב בני 20 לעומת בני 30. במקרה זה הושג דיוק הזיהוי בבחינת תוכן הכתיבה,‏ כלומר שימוש במילים המייחדות קבוצת גיל מסוימת.‏ כך,‏ בני ה-‏ 20 השתמשו במילים כמו apartment, office, eating, tv, job, work, bar וקבוצת המבוגרים מהם בעשור ומעלה השתמשו לרוב במילים דוגמת .years, wife, husband, family, children, daughter 50 Â‡ÈÏÈÏ‚ ¯·Ó·Âapple ≤∞∞∏
Page 1 and 2: ≤∞∞∏ ¯·Ó·Âapple ˇ ±
Page 4 and 5: 72 44 מדורים ‰appleÂ˘‡
Page 6 and 7: בראש ובראשונה כשגנ
Page 8 and 9: GettyImages / ˜apple·ß‚ÓÈ‡
Page 10 and 11: º º במילים אחרות - א
Page 12 and 13: º º ∫¯ÂÁ˘ Æ˙ÂÏ˙˘‰·
Page 14 and 15: הנדסה סביבתית לקיר
Page 16 and 17: על חיידקים,‏ האוכל
Page 18 and 19: - - www.ysa.biu.ac.il
Page 20 and 21: הסופר והפוליטיקאי
Page 22 and 23: ˙ÏÚÂ˙ È¯ˆÂÓÂ ‰ÈÓÂap
Page 24 and 25: º º כנראה,‏ שהמיתוס
Page 26 and 27: סגאסית יוצאות מגדר
Page 28 and 29: º º ‰ÈÈÁÓ È¯ÂÊ‡Â ‰
Page 30 and 31: Æ˙ÏÈ‡ ¨‚„¯Ú ˙¯·Á
Page 32 and 33: מסלול ישיר לתואר שנ
Page 34 and 35: º º הביולוג הנודע,‏
Page 36 and 37: º º Æ„È¯„Ó ¨Â„¯Ù Ô
Page 38 and 39: Æ„È¯„Ó ¨Â„¯Ù ÔÂ‡
Page 40 and 41: º º ‰Ë˘Ù‰Â ‰È„Â‰
Page 43 and 44: º º [ ‰Î· ÌÈ‰ÂÏ‡˘Î
Page 45 and 46: ø¯·ÁÓ‰ ÈÓ ≤±≠‰ ‰
Page 47 and 48: º º [ ≤±≠‰ ‰‡Ó‰ Ï
Page 49: º º [ ≤±≠‰ ‰‡Ó‰ Ï
Page 53 and 54: ˙ÂÈ˘È‡‰ ‰apple·ÓÂ ˙
Page 55 and 56: º º [ ˙ÂÈ˘È‡‰ ‰apple·
Page 57 and 58: º º [ ˙ÂÈ˘È‡‰ ‰apple·
Page 59 and 60: ÏÂ„‚ Ë˜Ù‡ ¨˙ÂappleË
Page 61 and 62: º º [ ÏÂ„‚ Ë˜Ù‡ ¨˙Â
Page 63 and 64: º º [ ÏÂ„‚ Ë˜Ù‡ ¨˙Â
Page 65 and 66: ÊÙ ÈÊÂÚ ˇ ¯ÙÒ ˙¯È˜Ò
Page 67 and 68: º º ÏÏÁ ÔÓÊ ¯ÙÒ ˙¯È˜
Page 69 and 70: Ô¯Ï‡ ÏÎÈÓ ˇ ¯ÙÒ ˙¯È
Page 71 and 72: º º ÏÏÁ ÔÓÊ ¯ÙÒ ˙¯È˜
Page 73 and 74: ÈappleÈÓÈapple· Ï‡¯˘È ˇ
Page 75 and 76: º º ÈappleÈÓÈapple· Ï‡¯
Page 77 and 78: º º ÈappleÈÓÈapple· Ï‡¯
Page 79 and 80: ıÈ·Â˜¯·-ÔÂ˘È„ ÌÈ¯Ó
Page 81 and 82: ¯·appleÚ ÏË ˇ ÏÏÁ ÔÓÊ
Page 83: º º ÏÏÁ ÔÓÊ ÏÏÁ ÔÓÊ
Page 88 and 89: Â˙ÂÚÓ˘ÓÂ ÁÂ¯ ˙ÂÚÂ·
Page 90 and 91: º º Ò¯Â‚˙Â¯Ù ‰ÊÂÁ
Page 94 and 95: הנה,‏ לדוגמה,‏ רשי
Page 96 and 97: ולכן:‏ ו-‏ = 36 +x+6 ו-
Page 98 and 99: º º ÏÏÁ ÔÓÊ Ú„ÓÂ ‰˜
Page 100:
Louis Breguet, pioneer in aeronauti
show all

ÃÃÂ¯Ãââ¡ ÃÃâ°ÃÃâ¡ Â¨â°ÃËÃâ° â°ÃËÃâ° Ã¸â°Ã Ëâ¡ Â·ËÃ ÃÃ - ××× ×××¨×¡×××ª ××¨ ××××

Create successful ePaper yourself

Delete template?

Save as template?

ÃÃÂ¯Ãââ¡ ÃÃâ°ÃÃâ¡ Â¨â°ÃËÃâ° â°ÃËÃâ° Ã¸â°Ã Ëâ¡ Â·ËÃ ÃÃ - ××× ×××¨×¡×××ª ××¨ ××××