Feeds:
פוסטים
תגובות

Posts Tagged ‘צורת נטייה’

האם חיפשתם פעם הודעת דוא"ל בתיבה שלכם, או קובץ בתיקיית מסמכים במחשב? חיפוש כזה מתבסס גם על אמצעים לשוניים – על מילה או מילים מסוימות המופיעות בטקסט. ארגונים וחֲבָרות צריכים להתמודד עם כמויות עצומות של טקסטים: התכתבויות בדוא"ל, מסמכים שונים, ארכיונים ממוחשבים ועוד. כדי למצוא את כל התוצאות הרלוונטיות הם זקוקים למנועי חיפוש משוכללים. חיפוש מילות מפתח במאגר טקסטים הוא אתגר בכל שפה, ועל אחת כמה וכמה בעברית.

כידוע, 'עברית שפה קשה'. כמו בשפות שמיות אחרות, לרוב המילים בעברית יש נטיות רבות, ובייחוד לפעלים, הנוטים בכל הזמנים. כמעט לכל פועל יש לפחות 27 נטיות בסיסיות. חלק מהפעלים גם מאפשרים צירוף כינוי מושא חבור (שמע – 'שמעתיו', אהב – 'אהבתיה'), וזה מגדיל פי כמה וכמה את מספר הנטיות שלהם. בתחילת רוב המילים יכולות להצטרף גם אותיות השימוש, הידועות בראשי התיבות מש"ה וכל"ב: הבית, בבית, כשהלך. למילים רבות יש כתיב מלא וחסר, ובמילים לועזיות יש גם חלופות כתיב, כמו 'מוסיקה' ו'מוזיקה'. כל אלה מובילים להערכה שהעברית מורכבת מכ-70 מיליון צורות – מספר גדול בהרבה מאשר מספר הצורות האפשריות באנגלית ובמרבית השפות הנפוצות בעולם.

כמו כן, הכתיב הלא מנוקד בעברית אינו בהכרח מורה כיצד יש להגות כל מילה ומילה. לכן הרבה מילים נכתבות אותו דבר בלי ניקוד, גם בכתיב מלא, אך נהגות אחרת, כגון: סֵפֶר, סַפָּר, סָפַר (פועל) וסְפָר; כלומר, מילים רבות בעברית הן רב-משמעיות.

כאשר מחפשים במילון רב-מילים רצף אותיות רב-משמעי, מערכת הניתוח הדקדוקי של מילון רב-מילים מזהה את כל האפשרויות, כמו במילה 'שמנו' שדנתי בה בעבר. יתר על כן, רב-מילים מזהה גם כל צורת נטייה בצירוף כל אותיות השימוש האפשריות, לדוגמה: חיפוש 'לכשתלכנה' מוביל לפועל הָלַךְ;  'וכשבבתיהם' מוביל לשם העצם בַּיִת.

אם אתם משתמשים קבועים במילון רב-מילים, אולי כבר שמתם לב שמילון זה מזהה כל צורה עברית ומנתח אותה. גם במילון מורפיקס הקלדת רוב הצורות האלה בעברית תפנה לתרגום לאנגלית. תכונה זו משמעותית לא רק למילון, אלא גם לחיפוש במידע ארגוני.

במונחים בלשניים הדבר נקרא חיפוש מורפולוגי – חיפוש כל הנטיות של מילה כלשהי. לדוגמה, בחיפוש שם העצם 'איש' במנוע חיפוש רגיל, תתקבל רק הצורה כפי שהוקלדה: 'איש'. לעומת זאת, חיפוש מורפולוגי של מילה זו יחזיר את מגוון הנטיות שלה הקיימות בטקסט בצירוף כל אותיות השימוש האפשריות: כשלאיש, האנשים, לאנשֵי, ואנשיו וכיו"ב. בחיפוש מורפולוגי של הפועל 'ישב' יתקבלו נטיות מגוונות המצויות בטקסט בצירוף אותיות שימוש: כשישבתם, לכשתשבנה, יושבֵי,  וישב, שְבוּ, בשבתו  ועוד ועוד. גם צירופי מילים נכללים בחיפוש המורפולוגי. לדוגמה, מילות החיפוש 'יום הולדת' יובילו גם לתוצאות של 'יום ההולדת', 'ביום הולדתה', 'ימי הולדת' וכן הלאה.

ריבוי התוצאות הזה מתקבל בחיפוש המורפולוגי הבסיסי (מצומצם) של מלינגו. אנו מציעים גם חיפוש מורפולוגי מורחב לפי 'משפחת המילים' של מילת החיפוש. משפחת מילים כוללת את כל המילים שנגזרו מאותו שורש ויש ביניהן קשר סמנטי הדוק. למשל, נניח שחברת ביטוח רוצה למצוא בדוא"ל הארגוני שלה את כל המילים מהמשפחה של 'פיצוי'. החיפוש הבסיסי יזהה גם את כל הנטיות, כמו 'יפצוהו' (יפצו אותו) וגם צורות כתיב חסר כמו 'פצוי', 'פצויים'. החיפוש המורחב יציג גם את כל המילים מהשורש פצ"י שקשורות במשמעות למילה זו: את כל הנטיות האפשריות של הפעלים פִּצָּה ופֻּצָּה (פיצו אותו), אך לא את הפועל פָּצָה (פֶּה), שנגזר מאותו שורש אך אין לו אותה משמעות, ולכן הוא אינו שייך ל'משפחה' הזו. יתר על כן, חיפוש כזה גם לא יציג את המילה (השאולה מאיטלקית) פִּיצָה, שבמקרה נכתבת בכתיב מלא (ללא ניקוד) בדיוק כמו הפועל 'פִּצָּה'. מנגנון החיפוש מזהה רק את המילים המבוקשות בעזרת ניתוח ההקשר שבו מופיעה המילה. לכן, כאשר שאילתת החיפוש כוללת את המילה פיצוי, והחיפוש הוא מורחב, יתקבלו תוצאות שבהן משפטים כמו "הביטוח פיצה את הלקוח", אבל לא יתקבלו משפטים כמו "הלקוח קנה פיצה".המערכת יודעת להבחין שבמקרה הראשון מדובר בפועל שקשור ב'פיצוי', אבל במקרה השני מדובר בשם העצם 'פיצה' ולא בפועל. כך החיפוש המורפולוגי מאתר את כל המילים הרלוונטיות לפי משמעותן בהקשר נתון.

אם ברצונכם לדעת עוד על החיפוש המורפולוגי של מלינגו על פי הקשר המילה בטקסט, היכנסו לדף הזה: http://www.melingo.com/text-analysis/cs/.

 

נגה פורת / חיפוש שורשים

Read Full Post »

אחת המילים הבסיסיות ביותר בעברית היא 'שֶל'. גם האתר שבו כתובים דברים אלה נקרא "בלוג השפה העברית של מילון רב-מילים". מעניין לגלות שמילה זו נוצרה בעקבות תהליך היסטורי של שינוי שיטתי בטקסט המקורי.
תהליך זה קשור בהבדל בין כתבי היד המוקדמים של המשנה, לבין מהדורות הדפוס שיצאו לאחר דורות רבים. כתבי היד עברו מדור לדור בשרשרת של העתקות, ועם הזמן נטו המעתיקים לשנות ולתקן חלק מהמילים כראות עיניהם. כשהחלו להדפיס את המשנה, התבססו המדפיסים על גרסאות ערוכות של כתבי היד; גרסאות אלה היו שונות מהטקסט המקורי מבחינה לשונית. בעקבות אחד השינויים השיטתיים האלה נוצרה המילה 'של'.
מילה זו מורכבת משתי אותיות יחס: שֶ (ש' הזיקה) ו-לְ (ל' היחס). ש' הזיקה היא חלופה של המילה 'אשר'. הצירוף של שתי אותיות היחס המיר את הצירוף 'אשר ל': "שיר השירים אֲשֶׁר לִשְׁלֹמֹה" (שיר השירים א, א); "כְּנַף-הַמְּעִיל אֲשֶׁר-לְשָׁאוּל" (שמואל א, כ"ד, ד) . ל' היחס מציינת שייכות  ,ומילת הזיקה 'אשר' מציינת למי שייך האובייקט – כנף המעיל אשר שייכת לשאול. רצף האותיות ש+ל מופיע פעם אחת במקרא באותה משמעות: " מִטָּתוֹ שֶׁלִּשְׁלֹמֹה" (שיר השירים ג, ז).
גם בכתבי היד המהימנים של המשנה האותיות  'של' מופיעות כשהן צמודות למילה, למשל: "מסמר שֶלְּאֶבֶן" (כלים י"ב ה), "בחרסו שֶלַּתַּנּוּר" (פסחים ז, ב), "ידו שֶלֶּעָנִי" (שבת א, א); ואילו בדפוסים נכתב: "מסמר של אבן", "בחרסו של תנור", "ידו של עני" וכן הלאה. בכל אחת מהדוגמאות האלה ל' היחס מנוקדת בצורה אחרת, בהתאם לשאלה האם המילה הבאה אחריה מיודעת ולפי האות הבאה אחריה (רגילה או גרונית). בחלק מנוסחי סידור התפילה נשתמרה הצורה בברכת הדלקת הנרות בחנוכה: "להדליק נר שֶלַּחֲנֻכָּה" (ל' מנוקדת בפתח בגלל ניקוד האות שאחריה בחטף-פתח).

בתהליך העתקת כתבי היד, נטו המעתיקים לכתוב את האותיות 'של' כמילה נפרדת לפני המילה הבאה, ובהמשך נשתרשה צורה זו בדפוסי המשנה. עם הזמן הלכה ההגייה בעקבות הכתיב; רצף האותיות שהפך למילה לא נהגה עוד שֶלְּ, שֶלִּ או שֶלַּ, אלא 'שֶל'.
תהליך זה מסביר את השאלה מדוע אומרים 'ריבונו של עולם' ולא 'ריבונו של העולם'. הצורה המקורית בכתבי חז"ל הייתה ריבונו שֶלָּעולם. כידוע, כש-ל' היחס צמודה למילה מיודעת, ה' הידיעה נושלת. אחרי תהליך ההפרדה המלאכותי של המילה 'של' מהמילה הבאה אחריה, נוצרה הצורה "ריבונו של עולם".

צורות הנטייה 'שלי', 'שלך', 'שלו' וכו' לא נגזרו מהמילה 'של', אלא מצירוף ש' הזיקה ונטיית ל' היחס. נטייה זו מופיעה במקרא רק פעמיים, שתיהן באותו צירוף בשיר השירים: "כַּרְמִי שֶׁלִּי" (א, ו; ח, י"ב). במקרים אחרים מופיע הצירוף 'אשר'+נטיית ל' היחס: "הַחֶלְקָה אֲשֶׁר-לִי" (שמואל ב, י"ד, ל"א). שאר צורות הנטייה מופיעות בלשון חז"ל וברובדי הלשון המאוחרים יותר.

בעברית החדשה זכתה המילה 'של' לחיים משל עצמה. בין היתר, היא מופיעה בביטויי סלנג כמו 'יופי של…, 'מותק של…' ' ו'שיגעון של…'.  לאחרונה חדר ללשון הדיבור הביטוי 'סוג של' (מֵעֵין, בערך), תרגום שאילה של kind of או sort of. כמו בביטויים המקבילים באנגלית, יש המשתמשים בביטוי זה כתשובה לשאלה, ללא השלמה אחרי המילה 'של', לדוגמה: "תגיד, יש לך חברה? – סוג של". הטהרנים אינם אוהבים את השימוש בביטוי זה, אך דוברי העברית בשלהם.

המקרה המוזר של המילה שֶל

Read Full Post »

%d בלוגרים אהבו את זה: