Posted in נגה פורת, tagged אותיות השימוש, ארגונים, ארכיון, בלשני, דוא"ל, חברות, חיפוש, טקסט, כינוי, כתיב חסר, כתיב מלא, לכשתלכנה, מאגר, מונח, מורפולוגי, מורפיקס, מזהה, מחשב, מידע ארגוני, מילון, מילים, מילת מפתח, מלינגו, מנוע חיפוש, מנוקד, מסמכים, משמעות, נטיות, ניתוח, ניתוח דקדוקי, ניתוח ההקשר, סֵפֶר, סַפָּר, סָפַר, עברית, עברית שפה קשה, על פי ההקשר, פועל, פיצוי, פעלים, צורת נטייה, צירוף, קובץ, רב-מילים, רב-משמעיות, שורשים, שמנו, שפה, תיקייה on אוגוסט 4, 2016|
3 Comments »
האם חיפשתם פעם הודעת דוא"ל בתיבה שלכם, או קובץ בתיקיית מסמכים במחשב? חיפוש כזה מתבסס גם על אמצעים לשוניים – על מילה או מילים מסוימות המופיעות בטקסט. ארגונים וחֲבָרות צריכים להתמודד עם כמויות עצומות של טקסטים: התכתבויות בדוא"ל, מסמכים שונים, ארכיונים ממוחשבים ועוד. כדי למצוא את כל התוצאות הרלוונטיות הם זקוקים למנועי חיפוש משוכללים. חיפוש מילות מפתח במאגר טקסטים הוא אתגר בכל שפה, ועל אחת כמה וכמה בעברית.
כידוע, 'עברית שפה קשה'. כמו בשפות שמיות אחרות, לרוב המילים בעברית יש נטיות רבות, ובייחוד לפעלים, הנוטים בכל הזמנים. כמעט לכל פועל יש לפחות 27 נטיות בסיסיות. חלק מהפעלים גם מאפשרים צירוף כינוי מושא חבור (שמע – 'שמעתיו', אהב – 'אהבתיה'), וזה מגדיל פי כמה וכמה את מספר הנטיות שלהם. בתחילת רוב המילים יכולות להצטרף גם אותיות השימוש, הידועות בראשי התיבות מש"ה וכל"ב: הבית, בבית, כשהלך. למילים רבות יש כתיב מלא וחסר, ובמילים לועזיות יש גם חלופות כתיב, כמו 'מוסיקה' ו'מוזיקה'. כל אלה מובילים להערכה שהעברית מורכבת מכ-70 מיליון צורות – מספר גדול בהרבה מאשר מספר הצורות האפשריות באנגלית ובמרבית השפות הנפוצות בעולם.
כמו כן, הכתיב הלא מנוקד בעברית אינו בהכרח מורה כיצד יש להגות כל מילה ומילה. לכן הרבה מילים נכתבות אותו דבר בלי ניקוד, גם בכתיב מלא, אך נהגות אחרת, כגון: סֵפֶר, סַפָּר, סָפַר (פועל) וסְפָר; כלומר, מילים רבות בעברית הן רב-משמעיות.
כאשר מחפשים במילון רב-מילים רצף אותיות רב-משמעי, מערכת הניתוח הדקדוקי של מילון רב-מילים מזהה את כל האפשרויות, כמו במילה 'שמנו' שדנתי בה בעבר. יתר על כן, רב-מילים מזהה גם כל צורת נטייה בצירוף כל אותיות השימוש האפשריות, לדוגמה: חיפוש 'לכשתלכנה' מוביל לפועל הָלַךְ; 'וכשבבתיהם' מוביל לשם העצם בַּיִת.
אם אתם משתמשים קבועים במילון רב-מילים, אולי כבר שמתם לב שמילון זה מזהה כל צורה עברית ומנתח אותה. גם במילון מורפיקס הקלדת רוב הצורות האלה בעברית תפנה לתרגום לאנגלית. תכונה זו משמעותית לא רק למילון, אלא גם לחיפוש במידע ארגוני.
במונחים בלשניים הדבר נקרא חיפוש מורפולוגי – חיפוש כל הנטיות של מילה כלשהי. לדוגמה, בחיפוש שם העצם 'איש' במנוע חיפוש רגיל, תתקבל רק הצורה כפי שהוקלדה: 'איש'. לעומת זאת, חיפוש מורפולוגי של מילה זו יחזיר את מגוון הנטיות שלה הקיימות בטקסט בצירוף כל אותיות השימוש האפשריות: כשלאיש, האנשים, לאנשֵי, ואנשיו וכיו"ב. בחיפוש מורפולוגי של הפועל 'ישב' יתקבלו נטיות מגוונות המצויות בטקסט בצירוף אותיות שימוש: כשישבתם, לכשתשבנה, יושבֵי, וישב, שְבוּ, בשבתו ועוד ועוד. גם צירופי מילים נכללים בחיפוש המורפולוגי. לדוגמה, מילות החיפוש 'יום הולדת' יובילו גם לתוצאות של 'יום ההולדת', 'ביום הולדתה', 'ימי הולדת' וכן הלאה.
ריבוי התוצאות הזה מתקבל בחיפוש המורפולוגי הבסיסי (מצומצם) של מלינגו. אנו מציעים גם חיפוש מורפולוגי מורחב לפי 'משפחת המילים' של מילת החיפוש. משפחת מילים כוללת את כל המילים שנגזרו מאותו שורש ויש ביניהן קשר סמנטי הדוק. למשל, נניח שחברת ביטוח רוצה למצוא בדוא"ל הארגוני שלה את כל המילים מהמשפחה של 'פיצוי'. החיפוש הבסיסי יזהה גם את כל הנטיות, כמו 'יפצוהו' (יפצו אותו) וגם צורות כתיב חסר כמו 'פצוי', 'פצויים'. החיפוש המורחב יציג גם את כל המילים מהשורש פצ"י שקשורות במשמעות למילה זו: את כל הנטיות האפשריות של הפעלים פִּצָּה ופֻּצָּה (פיצו אותו), אך לא את הפועל פָּצָה (פֶּה), שנגזר מאותו שורש אך אין לו אותה משמעות, ולכן הוא אינו שייך ל'משפחה' הזו. יתר על כן, חיפוש כזה גם לא יציג את המילה (השאולה מאיטלקית) פִּיצָה, שבמקרה נכתבת בכתיב מלא (ללא ניקוד) בדיוק כמו הפועל 'פִּצָּה'. מנגנון החיפוש מזהה רק את המילים המבוקשות בעזרת ניתוח ההקשר שבו מופיעה המילה. לכן, כאשר שאילתת החיפוש כוללת את המילה פיצוי, והחיפוש הוא מורחב, יתקבלו תוצאות שבהן משפטים כמו "הביטוח פיצה את הלקוח", אבל לא יתקבלו משפטים כמו "הלקוח קנה פיצה".המערכת יודעת להבחין שבמקרה הראשון מדובר בפועל שקשור ב'פיצוי', אבל במקרה השני מדובר בשם העצם 'פיצה' ולא בפועל. כך החיפוש המורפולוגי מאתר את כל המילים הרלוונטיות לפי משמעותן בהקשר נתון.
אם ברצונכם לדעת עוד על החיפוש המורפולוגי של מלינגו על פי הקשר המילה בטקסט, היכנסו לדף הזה: http://www.melingo.com/text-analysis/cs/.

Read Full Post »
Posted in רוביק רוזנטל, tagged account, compter, computare, computer, conter, count, raconteur, recount, to tell, כתיבת ספרים, לְסַפֵּר, לחשב, לסכם, לספור, לתת דין וחשבון, מְסַפֵּר, מִסְפָּר, מנה שנית, מנייה, מספריים, סְפָר, סֵפֶר, סַפְּרוּ לנו, סַפָּר, סָפַר, סופר, סופרי סת"ם, סיפור, סיפר, ספ"ר, ספירה, ספירת העומר, ספר מחדש, ספרי חשבונות, ספרים, עזרא הסופר, תיאר on יוני 11, 2015|
11 Comments »
רק הסתיימה ספירת העומר, וכבר אנו בעיצומו של שבוע הספר העברי. שתי מילים אלה נגזרות מהשורש ספ"ר, שורש נפוץ בעברית שיש לו משמעויות רבות. מחוץ להקשר, רצף האותיות 'ספר' יכול להתפרש בצורות שונות: סֵפֶר, סַפָּר, סָפַר, סְפָר ועוד. הרצף 'מספר' יכול להתפרש, בין היתר, גם כ'מִסְפָּר' וגם כ'מְסַפֵּר'. האם יש קשר בין המשמעויות השונות האלה?
אמנם, לא כל המשמעויות של שורש זה קשורות זו לזו. המובן של חיתוך וגזירה, המקשר בין המילים סַפָּר, מספריים ועוד, אינו קשור לשאר המובנים של השורש ספ"ר; וגם המילה סְפָר (גבול) אינה קשורה למובנים אחרים. ואולם, יש קשר היסטורי בין המובן של ספירה ומנייה לבין המובן של סיפור וכתיבת ספרים.
קשר דומה מתקיים גם בשפות אירופאיות. לפועל to tell, 'סיפר' באנגלית, יש גם משמעות של 'סָפַר, מנה'. גם לפועל הקרוב recount, שמשמעותו הראשונה היא 'סיפר, תיאר' יש משמעות נוספת: 'ספר מחדש, מנה שנית'. בצרפתית המילה compter פירושה 'לספור' ו-conter (וגם raconter) – לְסַפֵּר. לשתי מילים אלה בצרפתית, כמו גם ל-count (לספור), account (לתת דין וחשבון) ו-recount באנגלית, יש מקור משותף בפועל הלטיני computare – 'לספור, לחשב, לסכם'. לימים התגלגלה מפועל לטיני זה גם המילה computer (מחשב).
מה הסיבה לקשר זה? מילון בן-יהודה מציע את ההסבר הזה לפועל 'סיפר': "הגיד את כל הנעשה אחד אחד כמו מונה". לפי סברה אחרת, בימי קדם נהגו לכתוב באמצעות חקיקת האותיות בלוחות אבן, כפי שניתן לספור ימים (או אובייקטים אחרים) באמצעות חריתת חריצים על קיר. אפשר להעלות גם הסברים נוספים: גם הספירה וגם הסיפור או כתיבת הספר כרוכים ביכולת לשונית בעל פה או בכתב.
כדי לרדת לעומק העניין יש לבדוק את משמעות המילה סופר בתולדות העברית. בתקופת המקרא הקדומה הסופרים היו הפקידים היחידים בחצר המלך שידעו קרוא וכתוב, ולכן כתבו את איגרותיו של המלך והקריאו לו מסמכים (האיגרות והמסמכים נקראו אף הם 'ספרים' בתקופה זו). לעיתים מונו פקידים אלה על ספירת כסף, למשל: "וַיְהִי כִּרְאוֹתָם כִּי-רַב הַכֶּסֶף בָּאָרוֹן וַיַּעַל סֹפֵר הַמֶּלֶךְ וְהַכֹּהֵן הַגָּדוֹל וַיָּצֻרוּ וַיִּמְנוּ אֶת-הַכֶּסֶף הַנִּמְצָא בֵית-ה'" (מלכים ב', י"ב, פס' י"א). כיום המילה ספרים משמשת גם במובן 'ספרי חשבונות', תיעוד רשמי של הכנסות והוצאות.
במקרא מופיע גם הביטוי "סֹפֵר שַׂר הַצָּבָא הַמַּצְבִּא אֶת-עַם הָאָרֶץ" (ירמיהו נ"ב, פס' כ"ה), ופירושו לפי רש"י: "שהיה יודע מנין של כל עיר ועיר כמה אנשים מוציאה לצבא", כלומר: מי שערך מִפְקָד בקרב אנשי העיר וספר כמה מהם לגייס לצבא. גם במקום אחר נכתב על 'סופר' שפקד את החיילים: "וַיְהִי לְעֻזִּיָּהוּ חַיִל עֹשֵׂה מִלְחָמָה יוֹצְאֵי צָבָא לִגְדוּד בְּמִסְפַּר פְּקֻדָּתָם בְּיַד יעואל הַסּוֹפֵר" (דברי הימים ב', כ"ו, פס' י"א).
לאחר מכן, בתקופת הבית השני, שימשה המילה 'סופר' ככינוי לחכם מחכמי התורה הקדומים, ממניחי היסודות של התורה שבעל-פה, שחידשו תקנות והלכות וקבעו נוסחי ברכות ותפילות. הראשון שנקרא כך היה עזרא הסופר: "לְעֶזְרָא הַכֹּהֵן הַסֹּפֵר, סֹפֵר דִּבְרֵי מִצְוֹת-יְהוָה וְחֻקָּיו עַל-יִשְׂרָאֵל" (עזרא ז', פס' י"א). חז"ל ייחסו לחכמים אלה את שמירת נוסח התורה המקורי בדיוקו: "לפיכך נקראו ראשונים [=חכמי התורה הראשונים] סופרים, שהיו סופרים כל האותיות שבתורה" (קידושין ל ע"א). עד לימינו סופרי סת"ם אכן סופרים בדיוק את כל המילים ואת כל האותיות בספרי התורה, בתפילין ובמזוזות שהם כותבים.
יש לכם הערות והארות על דברים אלה? סַפְּרוּ לנו!

Read Full Post »