Feeds:
פוסטים
תגובות

Posts Tagged ‘טקסט’

מדי פעם צצה הטענה ש"העברית היא אם כל הלשונות". הטענה הזו נסמכת על האמונה התמה והנחושה שסיפורי המקרא, כולל קורות אדם הראשון, נוח וממשיכיו אינם מיתוסים אלא תיעוד היסטורי. במסגרת האמונה הזו גם סיפור מגדל בבל היה וגם נברא, ומכאן שבימי קדם שלטה שפה אחת בעולם, עברית כמובן, ולאחר מגדל בבל השפות 'נבללו', העברית התפזרה בגירסאות שונות ברחבי העולם, וכל השפות עלי אדמות הן צאצאיה החוקיים.

לאמונה הזו, למותר לציין, אין ידיים ורגליים לא במדע הלשון, לא בידע המצטבר שלנו על התפתחות השפות, לא בהיגיון הפשוט, וכמו שאומרת הפרסומת: לא. פשוט לא. אלא שלצד האמונה לקחו על עצמם כמה אנשים חרוצים להוכיח את תקפותה באמצעים שהם מגדירים מדעיים. ההוכחה לכאורה נשענת רובה ככולה על דמיון בין מילים עבריות למילים משפות שונות. דמיון בין מילים הוא תופעה מוכרת ונפוצה. מילים משפות שונות דומות זו לזו כמעט תמיד – במקרה. כדי להוכיח קשר של ממש בין מילים דומות ואפילו זהות יש להציג מסלול סביר של השפעה. ברור לכל שהדמיון ולמעשה הזהות בין 'סנדל' ו'בסיס', הקיימות גם בעברית וגם באנגלית, אינו מקרי, אלא נובע מההשפעה היוונית הישירה על העברית בתקופת הכיבוש היווני, ועל האנגלית כשפה הודו-אירופית. ברור לכל שהדמיון בין מילים בעברית ובערבית השמיות אינו מקרי. ידוע על פי המחקר שהמילה העברית קָנֶה והמילה האנגלית cane דומות כי מקור שתיהן באכדית. הגמל העברי והגמל האירופי מקורם בגמל השמי הקדום. 'יין' העברית לצד wine האנגלי ומילים דומות בשפות רבות מקורן בהודית עתיקה.

אף אחת מהדוגמאות האלה אינה מצביעה על השפעתה של העברית. על השפעה זו נכתב כאן לאחרונה, אך היא מאוחרת הרבה יותר ומוגבלת למדי. ובכל זאת נכתבו טקסטים שלמים כדי להוכיח שהעברית היא אם השפות. בשנת 1989 פירסם יצחק מוסזון עבודה מקיפה ובה הביא דוגמאות רבות של דמיון בין מילים עבריות רבות מן המקרא  למילים בלשונות אחרות. המחקר זכה ללא מעט אוהדים, אף כי פחות מאלה המאמינים שכדור הארץ שטוח. אחת מהן כתבה לי: "העובדה שעשרות אלפי מילים בכל שפות העולם דומות יותר מדי לעברית מצריכה להתייחס לטענה הזאת ברצינות. לדוגמא: יגון ו-agony;  לבן ו-albino; נושן ו-ancient; עתיק ו-antique. האות השמינית חי"ת והספרה eight;  עין ו-eye;  פירות ו-fruit; גרעין ו-grain; חלול ו-hollow; ידיעה ו-idea; ילד ו-lad, שומר העברי וסמוראי היפני, ועוד". אוהד נוסף נחרץ יותר: "היכול להיות ויכוח כי earth בא מהמילה ארץ? הדוגמאות ממש זועקות לשמים!  theoria מהמילה תורה. chaise  (בצרפתית כסא) מהמלה כס. table (שולחן) מהמלה טבלה, ועוד אלפי דוגמאות של מונחים ומושגים בסיסיים".

מאמין נוסף מרחיב את תחולת ממצאיו של מוסזון למקומות נידחים: "מוסזון מצא שחלק מהמילים העבריות חדרו לאנגלית דרך שפה אמצעית כגון להגים אינדיאניים, שפת ילידי הוואי, צרפתית ועוד. גינזה, רובע העסקים במרכז טוקיו,  מקורו בגנזך, שפירושו אוצר המלך בעברית הקדומה. סקאנק הבואש מקורו במילה האינדיאנית צחנח, שיבוש של צחנה. לוייתן הוא leviathan. דורמיר הצרפתית, לישון, מקורה בשורש רד"ם העברי. ועוד: source הוא שורש, camel הוא גמל, aura היא אורה, side הוא צד, wine הוא יין ומקורו עברי,   evilהוא אוויל (במובן רע, רוע), suffix הוא סוף". באבוריג'ינית, מוסיף המאמין הנלהב בעקבות מוסזון, שפת ילידי אוסטרליה, דורוכו פירושה דרך. "האבוריג'ינים היו מנותקים דורות רבים משאר המין האנושי, ואין הסבר מדעי טבעי כיצד חדרו לשפתם מילים בעברית אלא אם כן נקבל שהעברית היא אם הלשונות, ובשפה זו דיברו בזמן הקדום של העולם, אך בגלל חוצפתם של בוני מגדל בבל כלפי ה', ה' בלל את שפתם, והפיצם בכל העולם. שפות היסוד של בוני מגדל בבל היו כולן פשוט שיבושים של העברית".

מוסזון, מוסיף הכותב, "מסיק שהעברית היא מדע מדויק", וכל מילה מבטאת רעיון, ואינה אוסף מקרי של הגאים כמו שבשפות אחרות. למשל, 'כלב' שווה 'כולו לב'. על פני הכלב יותר מאשר חיות אחרות ניתן לראות באופן בולט האם הוא שמח, עצוב, רגוע או כועס".

ספר נוסף בכיוון דומה הוא "שפת כל הארץ", מאת עמנואל גרנצ'ז. שלא כמו ספרים קודמים בנושא שהצטיינו בדמיון פורה בלבד, גרנצ'ז מלווה את ממצאיו בעיון בספרי מחקר רבים, והוא נחרץ פחות. בכך מסתכמות המילים הטובות, וכל קשר בין עיוניו של גרנצ'ז לטקסט שהנפיק מקרי בהחלט. גרנצ'ז תוהה למשל על הקשר בין 'שורש' לבין source, או בין 'סגור' ל-secure. כך בין  'נוגה', שפירושה אור, לבין nox הלטינית שפירושה לילה.

הקוראים שנשבו בקסם התיאוריה, והחוקרים מטעם עצמם מוסזון, גרנצ'ז ואחרים, חייבים להחליט אם עמדתם נשענת על  הבלשנות ההיסטורית, או שהם מתייחסים אליה רק אם היא נוחה לאמונה הדתית. ערבוב השתיים אינו אפשרי. הדוגמאות שמביא מוסזון הן ממש מגדל בבל של עניינים לשוניים בלתי קשורים. חלק מהמילים העבריות הן תלמודיות ומקורן ביוונית. 'טבלה' התלמודית ו-table האנגלית אכן באו מאותו מקור לטיני-יווני: tabula. גמל ויין אכן מקבילות כאמור למילים בעברית, אבל העברית אינה מקורן. לוייתן העברית הגיעה לשפות אירופה באמצעות תרגומי התנ"ך.  fruit לעומת זאת התגלגלה מהפועל הלטיני frui, שפירושו ליהנות, בעוד 'פרי' קשור לשורש השמי הנפוץ פרה, הקשור להתרבות המינים בטבע, וממנו נגזרו גם 'פרו ורבו' ו'פריון'. idea  פירושה מחשבה ומקורה מיוונית: idein, לראות, שום קשר ל'ידיעה', מן השורש השמי העתיק יד"ע או וד"ע. 

מוסזון  מתעלם מהמבנים השונים של השפות. כך נו"ן במילה "אלבינו" היא חלק מסופית –ִינו, בעוד ב'לבן' מופיעה נ' שורשית. suffix נולדה מחיבור לטיני של שתי מילים: sub+figere, תַת+להדק, שום קשר ל'סוף'. antique  בנויה מ-ante (לפני)+הסיומת que, בעוד 'עתיק' נגזרת מהשורש השמי עת"ק וכאן ק' היא שורשית. והרשימה חלקית.   

גם חיבורי המשמעות המובאים בשמו של מוסזון רופפים מאוד בדרך כלל. 'אוויל' איננו רשע, ו-evil איננו שוטה. המילה האנגלית  agony (סבל) נולדה מהמילה היוונית agon שפירושה תחרות, בעוד 'יגון' העברית מתקשרת ל'וג'י' הערבית שפירושה כאב. על הקישור בין רובע גינזה שבטוקיו ל'גנזך' אין להכביר מילים. באותה מידה אפשר לומר ששמו של רובע הארלם בניו יורק נקבע במקרא, והוא רובע "הערלים", מפני שיש בו פשיעה רבה. האבוריג'ינים ישמחו לדעת שבזכות מילה אחת באחת מעשרות השפות שלהם הדומה במקצת למילה עברית הם זכו לתואר צאצאי בוני מגדל בבל.  ובאשר לכלב, סופרי המקרא אהבו כלבים הרבה פחות מאשר מר מוסזון, והוא נחשב בדרך כלל יצור נקלה ובזוי. בכל מקרה בעניין 'כולו לב' מדובר במדרש לשון מפותל ולא ב'עובדה מדעית'. הטענה שהעברית היא 'מדע מדויק' (כלומר, מין פיזיקה או מתמטיקה לשונית-תאולוגית) לעומת יתר השפות היא כבר קשקוש מוחלט.

אין רע באמונות, גם אם הן חסרות כל בסיס עובדתי. זה טיבה של אמונה. יש רע במניפולציה של העובדות ושל התהליך המדעי בשירות האמונה. המניפולציה האמונית-פסאודו מדעית של שוחרי העברית כאם כל השפות נמצאת במקום הרע הזה.

עוד רשימות, מאמרים ותשובות של ד"ר רוביק רוזנטל באתר הזירה הלשונית, http://www.ruvik.co.il

Read Full Post »

אלפי מילים בתנ"ך משרתות אותנו כדוברי עברית. הדרך שעשו המילים לאורך אלפי השנים של טקסטים יהודיים אינה אחידה. מילים רבות משמשות באותה משמעות, אך רבות אחרות עברו תהליכים שונים. הרחיבו את משמעותן, לעיתים דווקא צמצמו את משמעותן, במקרים אחרים זכו לפרשנויות ולשימושים חדשים.

קבוצה לא קטנה של מילים עברה שינוי משמעות של ממש. דוגמאות לכך הן 'אקדח', שהיא אבן יקרה ובן יהודה החליט להפוך אותה לכלי נשק; או סיפורה המרתק של המילה 'חשמל', שהפכה מאור זוהר לתופעה פיזיקלית ששינתה את פני החברה והכלכלה. לעיתים יש תחנות בדרך, בלשון חכמים או בלשון ימי הביניים, לעיתים מתרחשת קפיצה ישירה מן התנ"ך לעברית החדשה.

אנחנו מתמוגגים מנחת, או סתם 'מתמוגגים', כלומר, השמחה שלנו עולה על גדותינו. 'התמוגג' הוא מהשורש 'מוג', שממנו גזורה המילה 'נמוג', נעלם, נמס. התמוגג פירושו נמס, וזו הדרך להבין את הפסוק "והטיפו ההרים עסיס, וכל הגבעות תתמוגגנה", שגם זכה למנגינה קצבית. הגבעות נמסות אך מלאות שמחה ותחושת שפע, וכך זכה הפועל להתמוגג למשמעות השמחה וההתרגשות. 'נמס' הוא דימוי רגשי המתאר התרגשות והתפעלות.

המילה 'כרכרה' מופיעה פעם אחת במקרא, בפסוק מפרק ישעיהו: "והביאו את כל אחיכם מכל הגויים מנחה לה' בסוסים וברכב ובצבים ובפרדים ובכרכרות על הר קודשי ירושלים". רש"י סבור שמדובר "בשיר משחקים ומכרכרים", שהרי גם דוד המלך כרכר ופיזז. לרד"ק ולאבן עזרא הסבר אחר: מדובר בגמל מסוג מיוחד, גמל זריז, או כדברי רד"ק "הם הגמלים או שאר בהמה שהם קלים בהליכתם עד שמרוב מרוצתם ידמה שהם מרקדים, לפיכך נקראו כרכרות". סופרי התחייה, מכל מקום, קשרו את הכרכרה לעגלת נוסעים רתומה לסוסים, וילדי ישראל נחשפים אליה בסיפור סינדרלה.

מהיכן הגיע אלינו מזג האוויר? המילה 'מזג' מופיעה פעם אחת בתנ"ך, בשיר השירים: "שררך אגן הסהר, אל יחסר המזג". 'מֶזֶג' פירושה שם תערובת משקאות, ומכאן גם הפועל למזוג. 'מזג' נדדה מן המקרא ללשון חכמים ופירושה היה אופיו של דבר מה. המחשבה היהודית בימי הביניים קשרה את המילה למחשבה המדעית היוונית-אריסטוטלית, שהשפיעה גם על התרבות הערבית. מזג האוויר הוא אם כך אופיו של האוויר, ובמקרה הזה, ערבוב מאפיינים של האוויר כגון חום וקור, לחות ויובש.

בפרשת משפטים נכתב: "אם במחתרת יימצא הגנב, והוכה ומת ואין לו דמים". מחתרת היא מרתף, מקום מסתור שבו מסתתר הפושע או מי שרוצה להיחבא, מקלט שחתרו באדמה. גם סופרי התחייה השתמשו במילה, אבל היא זכתה למשמעות המוכרת היום: ארגון חתרני הפועל במסתרים. השימוש הזה נעשה ככל הנראה על ידי אנשי המחתרות עצמן, אצ"ל ולח"י, וההוכחה בשיר של מפקד לח"י אברהם יאיר שטרן: "חיים אנחנו במחתרת!/ בטחב אפילת מרתף/ שם מנורה תבאש חיוורת/ רצפה יַשׂחה מטר סוחף".

בנחמיה פרק ג' נכתב בדיון בעניינים ארכיטקטוניים: "עד המקצוע ועד הפינה".  מקצוע הוא מונח מתחום הבניין, ומשמעותו זווית או פינה. לאלה נקשרים גם המקצוּעה והפועל להקציע. איך הפכה המילה הזו למשמעות משלח יד, או מקצוע לימודי? במסכת ברכות נכתב: "הרוצה שיתחכם יעסוק בדיני ממונות, שאין לך מקצוע בתורה יותר מהן, שהן כמעין נובע". במדרש מופיע הביטוי "מקצועֵי תורה". יוצרי השפה התלמודית שאבו את דימוי הפינה והעבירו אותו לתחום הלימוד כשכוונתם לפינה או זווית מסוימת בעולם הדעת ובעולם התורה. ועל כך כתב ביאליק: "אין לך מקצוע של הרגש והמחשבה שלא נגעה בו האגדה". משמעות 'מקצוע' כמשלח היד נוצרה גם היא בימי תחיית הלשון. כפי שיש מקצועות לימוד – יש מקצועות עבודה, ועל כך אמר דוד בן גוריון ב-1928: "בכל מקצוע שבו עובדים פועלים בני אומות שונות, מתאגדים העובדים בהתאחדות מקצועית בין- לאומית".

מהיכן הגיע אלינו הסלסול, המאפיין הבולט של המוזיקה המזרחית? בעניין זה יש חידה. המקור הראשון מבחינת סדר הזמנים הוא בספר משלי: "ראשית חוכמה קנה חוכמה, ובכל קניינך קנה בינה. סַלְסְלֵהָ ותרוממך – תכבדך כי תחבקנה". מן הפסוק ברור ש'לסלסל' פירושו לכבד ולרומם. ואולם התלמוד מספר לנו על שיער מסולסל, שהוא בעצם שיער מתולתל, ומכאן הגיע אלינו  הסלסול התמידי. הפרשנים נוטים להניח שסלסול השיער הוא המשמעות המקורית של 'סלסול', והוא גם משמש דימוי לסלסול הצליל. במדרש נאמר כי שיר השירים הוא "המסולסל שבשירים", כלומר, המרומם והנכבד שבהם. מה אם כן קודם למה? סלסול הצליל או הכבוד והרוממות? אחד העם, מכל מקום, תבע מאתנו: "סלסלו את המחשבה".

החל משנות החמישים החלו להופיע בעיתונות הישראלית תיאורים של  'נשים מעכסות'. בשנת 1960 כותבת רחל חלפי במעריב על "תהלוכה של ברווזות מעכסות כדי לנעוץ בהן מבט", וצבי לביא מתאר מאוחר יותר הצגה של חנוך לוין: " חתיכות מעכסות ושתלטניות כמו רות שחש". מעכסת היא מי שמנענעת את ישבנה בנענועי פיתוי, ובנוסח מחוזות הסלנג: מענטזת. במקור המקראי, בספר ישעיהו, המעכסת היא מי שמשמיעה בהליכתה את קול שקשוק תכשיטי הרגליים שלה, העכסים: "הלוך וטפוף תלכנה, וברגליהן תעכסנה". הליכת הרגליים המשקשקות נתפסה כהליכת פיתוי, ומכאן המעבר לנשים המעכסות של זמננו. הפועל הנרדף 'לענטז' התגלגל מן הפועל הערבי עַנְטַז שפירושו השתולל, התייהר, התחצף וכדומה. משמע, פעולת הענטוז נתפסת כפעולה פרובוקטיבית, שנועדה לגרות, ממש כמו העיכוס. ברקע, אך לא כחלק של המילה, מהדהדת המילה הערבית הבוטה טיז.

"אמא, הוא מרביץ לי" מיילל הילד העברי. חידה. במקורות "להרביץ" פירושו להשכיב על הארץ את הצאן והבקר. הביטוי התלמודי "הרביץ תורה" נולד כיוון שלומדי התורה רובצים על הארץ כצאן לפני הרועה. "הרביץ מכות" נולד בעברית הישראלית, והוא גלגול של "הרביץ תורה" התלמודי, שנתפס כ"העניק תורה" או "חילק תורה", ומכאן "חילק מכות".

גלגול מרגש נועד למילה הנפוצה "רֶגֶש". גם לרגש הופעה בודדת בתנ"ך, בספר תהילים: "אשר יחדיו נמתיק סוד בבית האלוהים, נהלך ברגש". ההקשר מעיד שמדובר דווקא בדיבור בקול רם, ברעש והמולה, וזאת גם על פי פסוק אחר בתהילים: "למה רגשו גויים, ולאומים יהגו ריק". בלשון חכמים נמצא סוכן השינוי: הפועל 'להרגיש'. בלשון חכמים נאמר: "אין השוטה נפגע, ואין בשר המת מרגיש באזמל". כלומר: רגש אינו רק קול הפונה אל חוש השמיעה, אלא מה שפונה לכל החושים. במדרש שמות רבה צעד הפועל צעד נוסף: "הלב מרגיש בצרה שהוא מצר": חושי הגוף וחושי הנפש התלכדו לפועל אחד. בשלב הבא זכתה המילה רגש למשמעות 'חוש', בביטוי 'חמשת הרגשים' של יהודה הלוי ואחרים. מכאן, בעקבות שימושי 'מרגיש' התנחלה המילה רגש במחוזות הנפש. המרחק בין החושים לרגשות אינו רב כל-כך, ועל כך מעידה האנגלית, שבה to feel פירושו גם להרגיש בחוש פיזי, וגם לחוש רגש פנימי.

אחרונה בשרשרת הדוגמאות היא המילה  החשובה כל כך 'תרבות'. גם היא, איך לא, מופיעה במקרא פעם אחת, בצירוף "תרבות אנשים חטאים". הפרשנות לפסוק היא שמדובר בחברה שרובה (תרבותה) אנשים חוטאים. בלשון חכמים החל השינוי בשימוש במילה, ממילת כמות והעצמה למילת תוכן, והיא זוכה לשימושים רבים במשמעות דרכי התנהגות. במשנה מיוחס הצירוף "בני תרבות" במסגרת דיני נזיקין למי שניתן לאלפו, ומכאן שאינו יכול להיות מוּעד. במסכת נידה מופיע הביטוי 'תרבות רעה' המזכיר את הצירוף המקראי, אך משמעותו כאן התנהגות לא ראויה. מכאן התגלגלה משמעות המילה עד לעברית החדשה: מדרכי התנהגות ונורמות, למכלול המאפיינים והתוצרים של חברה מסוימת, במשמעות culture או civilization.

עוד רשימות, מאמרים ותשובות של ד"ר רוביק רוזנטל באתר הזירה הלשונית, http://www.ruvik.co.il

Read Full Post »

האם חיפשתם פעם הודעת דוא"ל בתיבה שלכם, או קובץ בתיקיית מסמכים במחשב? חיפוש כזה מתבסס גם על אמצעים לשוניים – על מילה או מילים מסוימות המופיעות בטקסט. ארגונים וחֲבָרות צריכים להתמודד עם כמויות עצומות של טקסטים: התכתבויות בדוא"ל, מסמכים שונים, ארכיונים ממוחשבים ועוד. כדי למצוא את כל התוצאות הרלוונטיות הם זקוקים למנועי חיפוש משוכללים. חיפוש מילות מפתח במאגר טקסטים הוא אתגר בכל שפה, ועל אחת כמה וכמה בעברית.

כידוע, 'עברית שפה קשה'. כמו בשפות שמיות אחרות, לרוב המילים בעברית יש נטיות רבות, ובייחוד לפעלים, הנוטים בכל הזמנים. כמעט לכל פועל יש לפחות 27 נטיות בסיסיות. חלק מהפעלים גם מאפשרים צירוף כינוי מושא חבור (שמע – 'שמעתיו', אהב – 'אהבתיה'), וזה מגדיל פי כמה וכמה את מספר הנטיות שלהם. בתחילת רוב המילים יכולות להצטרף גם אותיות השימוש, הידועות בראשי התיבות מש"ה וכל"ב: הבית, בבית, כשהלך. למילים רבות יש כתיב מלא וחסר, ובמילים לועזיות יש גם חלופות כתיב, כמו 'מוסיקה' ו'מוזיקה'. כל אלה מובילים להערכה שהעברית מורכבת מכ-70 מיליון צורות – מספר גדול בהרבה מאשר מספר הצורות האפשריות באנגלית ובמרבית השפות הנפוצות בעולם.

כמו כן, הכתיב הלא מנוקד בעברית אינו בהכרח מורה כיצד יש להגות כל מילה ומילה. לכן הרבה מילים נכתבות אותו דבר בלי ניקוד, גם בכתיב מלא, אך נהגות אחרת, כגון: סֵפֶר, סַפָּר, סָפַר (פועל) וסְפָר; כלומר, מילים רבות בעברית הן רב-משמעיות.

כאשר מחפשים במילון רב-מילים רצף אותיות רב-משמעי, מערכת הניתוח הדקדוקי של מילון רב-מילים מזהה את כל האפשרויות, כמו במילה 'שמנו' שדנתי בה בעבר. יתר על כן, רב-מילים מזהה גם כל צורת נטייה בצירוף כל אותיות השימוש האפשריות, לדוגמה: חיפוש 'לכשתלכנה' מוביל לפועל הָלַךְ;  'וכשבבתיהם' מוביל לשם העצם בַּיִת.

אם אתם משתמשים קבועים במילון רב-מילים, אולי כבר שמתם לב שמילון זה מזהה כל צורה עברית ומנתח אותה. גם במילון מורפיקס הקלדת רוב הצורות האלה בעברית תפנה לתרגום לאנגלית. תכונה זו משמעותית לא רק למילון, אלא גם לחיפוש במידע ארגוני.

במונחים בלשניים הדבר נקרא חיפוש מורפולוגי – חיפוש כל הנטיות של מילה כלשהי. לדוגמה, בחיפוש שם העצם 'איש' במנוע חיפוש רגיל, תתקבל רק הצורה כפי שהוקלדה: 'איש'. לעומת זאת, חיפוש מורפולוגי של מילה זו יחזיר את מגוון הנטיות שלה הקיימות בטקסט בצירוף כל אותיות השימוש האפשריות: כשלאיש, האנשים, לאנשֵי, ואנשיו וכיו"ב. בחיפוש מורפולוגי של הפועל 'ישב' יתקבלו נטיות מגוונות המצויות בטקסט בצירוף אותיות שימוש: כשישבתם, לכשתשבנה, יושבֵי,  וישב, שְבוּ, בשבתו  ועוד ועוד. גם צירופי מילים נכללים בחיפוש המורפולוגי. לדוגמה, מילות החיפוש 'יום הולדת' יובילו גם לתוצאות של 'יום ההולדת', 'ביום הולדתה', 'ימי הולדת' וכן הלאה.

ריבוי התוצאות הזה מתקבל בחיפוש המורפולוגי הבסיסי (מצומצם) של מלינגו. אנו מציעים גם חיפוש מורפולוגי מורחב לפי 'משפחת המילים' של מילת החיפוש. משפחת מילים כוללת את כל המילים שנגזרו מאותו שורש ויש ביניהן קשר סמנטי הדוק. למשל, נניח שחברת ביטוח רוצה למצוא בדוא"ל הארגוני שלה את כל המילים מהמשפחה של 'פיצוי'. החיפוש הבסיסי יזהה גם את כל הנטיות, כמו 'יפצוהו' (יפצו אותו) וגם צורות כתיב חסר כמו 'פצוי', 'פצויים'. החיפוש המורחב יציג גם את כל המילים מהשורש פצ"י שקשורות במשמעות למילה זו: את כל הנטיות האפשריות של הפעלים פִּצָּה ופֻּצָּה (פיצו אותו), אך לא את הפועל פָּצָה (פֶּה), שנגזר מאותו שורש אך אין לו אותה משמעות, ולכן הוא אינו שייך ל'משפחה' הזו. יתר על כן, חיפוש כזה גם לא יציג את המילה (השאולה מאיטלקית) פִּיצָה, שבמקרה נכתבת בכתיב מלא (ללא ניקוד) בדיוק כמו הפועל 'פִּצָּה'. מנגנון החיפוש מזהה רק את המילים המבוקשות בעזרת ניתוח ההקשר שבו מופיעה המילה. לכן, כאשר שאילתת החיפוש כוללת את המילה פיצוי, והחיפוש הוא מורחב, יתקבלו תוצאות שבהן משפטים כמו "הביטוח פיצה את הלקוח", אבל לא יתקבלו משפטים כמו "הלקוח קנה פיצה".המערכת יודעת להבחין שבמקרה הראשון מדובר בפועל שקשור ב'פיצוי', אבל במקרה השני מדובר בשם העצם 'פיצה' ולא בפועל. כך החיפוש המורפולוגי מאתר את כל המילים הרלוונטיות לפי משמעותן בהקשר נתון.

אם ברצונכם לדעת עוד על החיפוש המורפולוגי של מלינגו על פי הקשר המילה בטקסט, היכנסו לדף הזה: http://www.melingo.com/text-analysis/cs/.

 

נגה פורת / חיפוש שורשים

Read Full Post »