دانلود مقاله سیستمهای مدرن اطلاعاتی و بازنشانی خودکار الگوها

سیستمهای مدرن اطلاعاتی و بازنشانی خودکار الگوها

نوع فایل:ورد

تعداد صفحات:62

اندازه فایل:2.12مگابایت

– مقدمه

پيدايش علوم و فنون جديد، جوامع بشري را با شكلهاي مختلفي از اطلاعات روبرو نموده است. سطح توسعة يك جامعه را مي توان با مقدار اطلاعات و دانش توليد شده در آن ارزيابي كرد. توليد فزايندة اطلاعات به شكلهاي مختلف صورت مي گيرد و با درجات متفاوتي از پيچيدگي همراه ميباشد. در نتيجه نياز به سيستمهاي پردازش اطلاعات بصورت روزافزون افزايش مي يابد. يكي از مسائل مهم در طراحي سيستمهاي مدرن اطلاعاتي، بازشناسي خودكار الگوها است.

1-1- شناسايي الگو[1]

شناسايي الگو، شاخه اي از هوش مصنوعي[2] است كه با طبقه بندي و توصيف مشاهدات سروكار دارد.شناسايي الگو به ما كمك ميكند داده ها (الگوها) را با تكيه بر دانش قبلي يا اطلاعات آماري استخراج شده از الگوها، طبقه بندي نماييم. الگوهايي كه مي بايست طبقه بندي شوند، معمولاً گروهي از سنجش ها يامشاهدات هستند كه مجموعه نقاطي را در يك فضاي چند بعدي مناسب تعريف مي نمايند.يك سيستم شناسايي الگوي كامل متشكل است از يك حسگر[3] ،كه مشاهداتي را كه مي بايست توصيف يا طبقه بندي شوند جمع آوري مي نمايد، يك سازوكار براي استخراج ويژگي ها[4] كه اطلاعات عددي يا نمادين را از مشاهدات، محاسبه مي كند، (اين اطلاعات عددي را با يك بردار بنام بردار ويژگيها نمايش مي دهند)؛ ويك نظام طبقه بندي يا توصيف كه وظيفه اصلي طبقه بندي يا توصيف الگوها را با تكيه بر ويژگي هاي استخراج شده عهده داراست.

شکل 1-1 نمودار بلوكي يك سيستم شناسايي الگو را نشان مي دهد. همانطوري كه از پيكان هاي برگشتي مشخص است، اين بلوك ها لزوماً مستقل نيستند و بسته به نتايج حاصله گاهي لازم است كه

بلوك هاي اوليه مجدداً طراحي گردند تا راندمان كلي سيستم بهبود يابد.

شکل1-1-نمودار بلوكي يك سيستم شناسايي الگو

نظام كلاسه بندي يا توصيف معمولا مبتني بر وجود يك مجموعه از الگوهايي است كه قبلا كلاسه بندي يا توصيف شده اند. اين مجموعة الگوها را مجموعة آموزشي [5]و قانون يادگيري منتج شده را قانون يادگيري باسرپرستي(با نظارت)[6] مي نامند همچنين يادگيري ميتواند بصورت بدون نظارت[7] باشد و اين در حالي است كه الگوهايي از قبل به سيستم داده نشده اند و در مقابل، سيستم خود براساس قواعد آماري الگوها، كلاسها را پايه گذاري ميكند.

1-2- كاربردهاي بازشناسي الگو

بازشناسي الگو در بسياري از زمينه ها نقش كاربردي دارد . بازشناسي حروف، بازشناسي نويسنده، تصديق امضاء ، طبقه بندي اثر انگشت و بازشناسي گفتار نمونه هايي از اين كاربردها هستند. شناسايي الگو براي تحليل داده هاي پزشكي نيز بكار گرفته شده است. براي مثال تفسير الكتروكارديوگرام، تحليل تصاوير و طبقه بندي كروموزمها را ميتوان نام برد. نمونه هاي ديگري از اين كاربردها شامل طبقه بندي x اشعه مناطق زراعي، مطالعه آلودگي آبها، آشكار كردن منابع زيرزميني و پيش بيني آب و هواست. در اين نوع كاربردها، تصاوير ارسال شده از ماهواره و تصاويرهوايي به كمك روشهاي بازشناسي الگو تفسير مي شوند. بازرسي تصويري و بازشناسي قطعات ماشيني، از كاربردهاي صنعتي شناسايي الگو هستند. تحليل بافت، آشكارسازي هدف در سيگنالهاي برگشتي رادار يا سونار[8]، طبقه بندي امواج زلزله و تشخيص ذرات شيميائي كاربردهاي ديگري ازبازشناسي الگو مي باشند.

1-3- طرح پژوهش

در چند دهة گذشته مسألة بازشناسي الگوهاي نوشتاري شامل حروف، ارقام و ساير نمادهاي متداول دراسناد مكتوب شده به زبانهاي مختلف، توسط گروههاي مختلفي از محققين مورد مطالعه و بررسي قرار گرفته است. نتيجة اين تحقيقات منجر به پيدايش مجموعه اي از روشهاي سريع و تا حدزيادي مطمئن بمنظور وارد نمودن اطلاعات موجود دراسناد، مدارك، كتابها و ساير مكتوبات چاپي يا تايپ موسوم بهOCR شده و حتي دستنويس[9] به داخل كامپيوتر شده است. مسئلة بازشناسي حروف الفباي فارسي سابقه اي نه چندان طولاني به همراه دارد. نخستين گزارشهاي رسمي منتشر شده از تلاشهاي انجام گرفته در اين راه، مربوط به ساليان نخست دهة 1980 ميلادي است.

به رغم فراگيري نسبي كاربرد الفباي فارسي در ميان ملل مختلف قارة آسيا،بررسيهاي انجام شده در خصوص يافتن روشهايي براي بازشناسي حروف اين الفبا بسيار محدود بوده است. بواسطة وجود تفاوتهاي اساسي بين نحوة نگارش كلمات فارسي و كلمات لاتين نظيرچسبيده بودن حروف سازندة يك كلمه به يكديگر و تغيير شكل حروف بر اساس موقعيت نسبي قرارگيري آن در يك كلمة فارسي، امكان اعمال مستقيم روشهاي متداول در بازشناسي حروف انگليسي بمنظور شناسايي حروف تشكيل دهندة كلمات فارسي وجود ندارد.

اكثر كارهاي انجام شده در زمينه« اُْسي آر » در رابطه با متون لاتين، چيني و ژاپني بوده است » نرم افزارهاي تجاري « اُْسي آر » لاتين در سالهاي اخير پيشرفت كيفي قابل ملاحظه اي داشته اند. اما« اُْسي آر » فارسي با وجود حجم نسبتاً وسيع تحقيقات دانشگاهي و نياز شديد بازار تجاري به آن، هنوز هم از جايگاه مورد نظر فاصله بسياري دارد و تاكنون هيچ سيستم « اُْسي آر » كارآمدي كه ازنظر دقت و كيفيت محيط نرم افزاري، قابل مقايسه با سيستم هاي « اُْسي آر » لاتين باشد، عرضه نگرديده است. در نتيجه ضرورت انجام تحقيقات بيشتر در زمينه متون فارسي و عربي كاملاً احساس مي شود.

هدف از انجام اين پروژه آزمايش توانايي تكنيك آناليز اجزاي اصلي جهت استخراج ويژگيهاي مربوط به ارقام فارسي و كاربرد آن جهت شناسايي است كه اين امر در فصل آخر محقق شده است. اميد است انجام اين پروژه افقهايي نو را در مبحث آناليز اسناد[10] بگشايد.

فصل دوم- مروري بر سيتمهاي OCR

2-1-بخشهاي مختلف سيستمهاي ocr

در ادامه ماهيت سيستمهاي ocr، تاريخچه وبخشهاي مختلف آن مورد بررسي قرار ميگيرد.

2-1-1- بازشناسي نوري حروف[11]

اصطلاح « اُْسي آر »به تكنيك هايي اطلاق مي شود كه در تصاوير اسكن يا فكس شده، نواحي متني را تشخيص مي دهند و سپس اين نواحي(تصويري) را به متن قابل ويرايش تبديل مي نمايند .با دستگاهي به نام اسكنر مي توان تصوير يك صفحه كاغذ را به صورت يك فايل گرافيكي(تصويري)، به رايانه ارسال و در آن ذخيره نمود. بدين ترتيب كاربر م يتواند با يك نر م افزار مناسب نمايش دهنده تصاوير، تصوير صفحه اسكن شده را بر روي نمايشگر رايانه خود ملاحظه نمايد يا آن را چاپ كند؛ اما قادر نخواهد بود كه متن موجود در تصوير سند را ويرايش كند يا آن را مورد جستجو قرار دهد . يك نرم افزار « اُْسي آر » تصوير اسكن شده را ميخواند، محتويات آن (شامل متن، خطوط، تصاوير، جداول، …)را شناسايي مي نمايد، و سپس آن را به يك قالب قابل ويرايش(در واژ ه پردازها) تبديل مي كند. امروزه بيشتر دستگاههاي اسكنر به نرم افزارهاي « اُْسي آر » مجهز گرديده اند و قادرند متن موجود در يك سند اسكن شده را تشخيص دهند و آن را با همان نحوه قالب بندي، ستون بندي، جدول بندي ونوع فونت مطابق با سند كاغذي اصلي، در قالب يك فايل متني با قالب بندي مناسب ذخيره نمايند.