ايتنا - تهیه نرم‌افزار درخت‌بانک نحوی جملات فارسی

ایتنا- هدف از طرح فعلي نوشتن نرم‌افزاری بود که بتواند با دقت قابل‌قبولي متون پيکره را در قالب يک نظريه زبان‌شناختي تجزيه و تحليل نحوی کند تا از ميزان کار دستی به ميزان زيادی بکاهد.

نرم‌افزار توليد درخت بانك پيكره متني زبان فارسي به عنوان يكي از زيرساخت‌هاي مدل‌سازی نحو جملات زبان فارسی جهت توليد و توسعه نرم‌افزارهای کاربردی پردازش متون و گفتار فارسی با همکاری دبیرخانه شورای عالی اطلاع‌رسانی و آزمایشگاه زبان‌شناسی دانشگاه تهران تهیه شد.

به گزارش ایتنا به نقل از واحد ارتباطات دبیرخانه شورای عالی اطلاع‌رسانی، با توجه به اهمیت توسعه خط و زبان فارسی در محيط رايانه‌ای و مورد توجه قرار گرفتن آن در برنامه‌های راهبردی کشور از جمله سند چشم‌انداز بيست‌ساله و نقشه جامع علمي کشور، توليد زيرساخت‌ها و نرم‌افزارهايي که بتوانند اين موضوع را تحقق بخشند، حائز اهميت فراوان است.

در اين میان يکي از اين زيرساخت‌ها، درخت‌بانک گروه‌های نحوی متون فارسی است تا امکان تعبیر و تفسیر جملات زبان فارسی در سطح نحو را برای توليد و توسعه نرم‌افزارهای کاربردی پردازش متون و گفتار فارسی در محيط رايانه‌ای ايجاد كند.

با توجه به اين که در سال ۱۳۸۴ بخشي از زيرساخت‌های موردنظر در چارچوب طرح دادگان ملي زبان فارسي در دبيرخانه شورای عالي اطلاع‌رساني پيش‌بينی و طراحي شد و در سال ۱۳۸۶ در جهت استانداردسازی بخشی از اين دادگان تحت عنوان "پيکره متني زبان فارسي" گام اوليه برداشته شد، توليد درخت‌بانک متون اين پيکره در دستور کار کارگروه خط و زبان فارسی در دبيرخانه قرار گرفت.

هدف از طرح فعلي نوشتن نرم‌افزاری بود که بتواند با دقت قابل‌قبولي متون پيکره را در قالب يک نظريه زبان‌شناختي تجزيه و تحليل نحوی کند تا از ميزان کار دستی به ميزان زيادی بکاهد.

مسئله اصلی استخراج قواعد دستوری زبان نوشتاری فارسی است که با استفاده از سيستم برچسب‌های نحوی-معنايي پيکره متني زبان فارسی به دست مي‌آيد.

دستاوردهای اين طرح نرم‌افزاری است که متون پیکره متنی زبان فارسی را تقطیع، کلمات چندقطعه‌اي را استخراج و قطعه‌های چندواحدی را شناسایی می‌کند و در نهایت گروه‌بندی نحوی اجزای تشکیل‌دهنده جملات را با بررسی برچسب‌های اجزای کلام پیکره انجام می‌دهد. برای صحت‌سنجی و بررسی چالش‌های موجود در تولید نرم‌افزار خودکار درخت‌بانک نحوی جملات فارسی اصلاح دستی درخت‌بانک یکصد پرونده متني کم حجم نیز صورت گرفته است.

این نرم‌افزار اكنون توسط شورا در اختيار پژوهشكده پردازش هوشمند علائم قرار گرفته و به زودي بصورت رايگان به متقاضيان ارائه خواهد شد. در ضمن متقاضیان استفاده از این نرم‌افزار نیاز به فايل‌هاي پیکره متنی زبان فارسی به عنوان ورودي و محتواي نرم‌افزار دارند كه بر اساس تفاهم‌نامه‌ دبيرخانه شوراي عالي اطلاع‌رساني با پژوهشكده پردازش هوشمند علائم كه گردآورنده اصلي فايل‌هاي پيكره متني است، فايل‌هاي مذكور با تخفيف ويژه به مراكز علمي و دانشگاه‌ها ارائه مي‌شود. بديهي است خروجي اين نرم‌افزار، همان درخت بانك نحوي جملات پيكره متني زبان فارسي خواهد بود.

گفتني است اجزای نظام تولید درخت‌بانک نحوی جملات فارسی و تحلیل نتایج نيز در قالب دو گزارش تشریح شده است كه در آينده در قالب كتابي به چاپ خواهد رسيد.