طراحی روشی بمنظور دانشی نمودن اسناد کاغذی و تصویری فارسی(تبدیل تصویر به متون قابل ویرایش) با استفاده از پایش نمودار Projection profile |
کد مقاله : 1092-KNM |
نویسندگان |
محمد شفیعی *1، فریبرز خاکپور2، مرتضی فرج خدا3 1تهران-مهرآباد جنوبی-شهرک توحید-بلوک 22 -طبقه 3 -واحد3 2قرارگاه پدافند هوایی خاتم الانبیاء(ص). معاون فاوا 3قرارگاه پدافند هوایی خاتم-معاونت فاوا |
چکیده مقاله |
یکی از منبع غنی دانش، اسناد و دست نوشتهها میباشد. دیجیتالی نمودن این اسناد می تواند منبع غنی از اطلاعات را در اختیار ما قراردهد. بهبود برنامه های تبدیل تص ویر به متن می تواند ما رادر پیشبرد اهدافمان در استخراج دانش کمک نماید. هدف این مقاله، ارائه روشی برای تقسیمبندی یک سند دستنویس به خطوط مجزا از یکدیگر است. جداسازی و استخراج خط، اولین و مهمترین مرحله پیشپردازش برای آنالیز و بازیابی تصویر یک سند است. هنگامیکه یک خط جداسازی شد، (خط ایزوله شده) برای مراحل جداسازی کلمه، شناسایی آن، بازیابی زیرکلمات و حروف و سایر مراحلی که برای آنالیز یک سند مورد نیاز است، تحت بررسی قرار میگیرد. بنابراین استخراج صحیح خطوط، بمنظور درست انجام شدن سایر مراحل، دارای اهمیت فراوانی است. در این رساله، ابتدا خط کرسی از یک خط با روش ورژن هموار شده نمودار منحنی طرح، تشخیص داده شده و سپس برای جداسازی کامل خط، به بررسی و نسبت دادن المانهای موجود بین دو خط مجاور، به یکی از خطوط فوقانی یا پایینی پرداخته میشود، تا بدین ترتیب خط، جداسازی و استخراج گردد. یکی از مراحل اساسی که در این رساله برای استخراج خط کرسی و تخصیص مؤلفههای بین خطوط، مورد استفاده است، بکارگیری مدل مارکوف مخفی است. نتایج بدست آمده برای جداسازی خطوط به روش گفته شده، در زبان فارسی 97.75 درصد و برای سایر زبانها 98.25 بدست آمده است. |
کلیدواژه ها |
اسناد دست نویس، جداسازی خط، خط کرسی، بین خطوط، مؤلفه های پیوسته، مدل مارکوف مخفی |
وضعیت: پذیرفته شده |