חדשות ואירועים

HIT לעזרת המחלקה לזיהוי פלילי של משטרת ישראל

HIT לעזרת המחלקה לזיהוי פלילי של משטרת ישראל


סטודנטים לתואר ראשון במחלקה למדעי המחשב ב-HIT פיתחו עבור המחלקה לזיהוי פלילי במשטרת ישראל תוכנה המסוגלת להבין כתב יד אנושי בעברית ולתרגם אותו לטקסט מוקלד.

אישה חותמת על טופס בטלפון

הפרויקט נכתב בשפת פייתון ובוצע על ידי הסטודנטים תומר פריאל ושרון שרטילוב, בהנחייתו של ד"ר יהונתן שלר, ראש המחלקה למדעי מחשב ב-HIT.


עד היום, כדי להזין מסמכים למחשבי מעבדת המסמכים של המחלקה לזיהוי פלילי, שוטרים היו נדרשים להזין את תוכן המסמך על גבי מקלדת באופן ידני. כעת ובזכות הפיתוח של HIT, מלאכת הזנת המסמכים תיהפך ותיעשה בצורה אוטומטית.


האלגוריתם שפותח יודע לזהות שורות ולחלקן למילים ולאותיות וכמו כן לזהות את כתב היד, כאשר בעתיד יוכל לזהות את כתב ידו של הכותב על גבי מספר מסמכים שונים.


הסטודנטים מיפו תבניות של אותיות, מילים ומשפטים בעברית באמצעות ספריית מידע רלוונטית שסופקה על ידי מעבדת המסמכים של המחלקה לזיהוי פלילי במשטרה ו"לימדו" את המחשב באמצעות למידת מכונה ובינה מלאכותית. לאחר שלב למידת המכונה הם ניסו את האלגוריתם על מסמכים ועשו את ההתאמות הנדרשות על מנת שהאלגוריתם יוכל להתממשק ולעבוד עם מערכת מעבדת המסמכים של המחלקה לזיהוי פלילי (מז"פ).


ד"ר יהונתן שלר: "זאת זכות גדולה עבורנו לעשות פרויקט כה משמעותי למשטרת ישראל ואנחנו מודים לה על ההזדמנות הזו. טכנולוגיות המסוגלות לזהות כתב יד ולהמירו לטקסט על גבי מחשב קיימות מזה מספר שנים לשפות רבות אך לא בעברית. זאת בגלל העובדה שהשפה העברית נחשבת לזניחה במושגים עולמיים מבחינת מספר דוברי השפה. פיענוח כתב יד נחשב קשה עבור מחשבים משום שלכל אחד מאיתנו יש כתב יד אופייני וייחודי לו. יתרה מכך, מילה שכתובה פעמיים על ידי אותו כותב אינה זהה, אלא כל אחת כתובה בצורה ייחודית לה, למרות שלעין האנושית המילים נראות זהות, בפועל מדובר בפיענוח ממוחשב ושונה באופן משמעותי ממילה למילה. בפרויקט שלנו היה לנו היה צורך ללמד את המחשב את האותיות י', ו', ן', נ', ך', כיוון שהן מאוד דומות, כמו כן האותיות ה', ק' מורכבות יותר מסימן אחד והיינו צריכים ללמד את המחשב לזהותן כאותיות הנכונות ולא כשתי אותיות נפרדות. כל אלו הצריכו מאיתנו חשיבה מאומצת כדי לפתח את הפרויקט המשמעותי הזה".



פורסם: 16/12/2021