طراحی روشی بمنظور دانشی نمودن اسناد کاغذی و تصویری فارسی(تبدیل تصویر به متون قابل ویرایش) با استفاده از پایش نمودار Projection profile
کد مقاله : 1092-KNM
نویسندگان
محمد شفیعی *1، فریبرز خاکپور2، مرتضی فرج خدا3
1تهران-مهرآباد جنوبی-شهرک توحید-بلوک 22 -طبقه 3 -واحد3
2قرارگاه پدافند هوایی خاتم الانبیاء(ص). معاون فاوا
3قرارگاه پدافند هوایی خاتم-معاونت فاوا
چکیده مقاله
یکی از منبع غنی دانش، اسناد و دست نوشته‌ها می‌باشد. دیجیتالی نمودن این اسناد می تواند منبع غنی از اطلاعات را در اختیار ما قراردهد. بهبود برنامه های تبدیل تص ویر به متن می تواند ما رادر پیشبرد اهدافمان در استخراج دانش کمک نماید. هدف این مقاله، ارائه روشی برای تقسیم‌بندی یک سند دست‌نویس به خطوط مجزا از یکدیگر است. جداسازی و استخراج خط، اولین و مهمترین مرحله پیش‌پردازش برای آنالیز و بازیابی تصویر یک سند است. هنگامی‌که یک خط جداسازی شد، (خط ایزوله شده) برای مراحل جداسازی کلمه، شناسایی آن، بازیابی زیرکلمات و حروف و سایر مراحلی که برای آنالیز یک سند مورد نیاز است، تحت بررسی قرار می‌گیرد. بنابراین استخراج صحیح خطوط، بمنظور درست انجام شدن سایر مراحل، دارای اهمیت فراوانی است. در این رساله، ابتدا خط کرسی از یک خط با روش ورژن هموار شده نمودار منحنی طرح، تشخیص داده شده و سپس برای جداسازی کامل خط، به بررسی و نسبت دادن المان‌های موجود بین دو خط مجاور، به یکی از خطوط فوقانی یا پایینی پرداخته می‌شود، تا بدین ترتیب خط، جداسازی و استخراج گردد. یکی از مراحل اساسی که در این رساله برای استخراج خط کرسی و تخصیص مؤلفه‌های بین خطوط، مورد استفاده است، بکارگیری مدل مارکوف مخفی است. نتایج بدست آمده برای جداسازی خطوط به روش گفته شده، در زبان فارسی 97.75 درصد و برای سایر زبان‌ها 98.25 بدست آمده است.
کلیدواژه ها
اسناد دست نویس، جداسازی خط، خط کرسی، بین خطوط، مؤلفه های پیوسته، مدل مارکوف مخفی
وضعیت: پذیرفته شده