ایتنا- هدف از طرح فعلي نوشتن نرمافزاری بود که بتواند با دقت قابلقبولي متون پيکره را در قالب يک نظريه زبانشناختي تجزيه و تحليل نحوی کند تا از ميزان کار دستی به ميزان زيادی بکاهد.
به همت دبيرخانه شوراي عالي اطلاعرساني
تهیه نرمافزار درختبانک نحوی جملات فارسی
سايت خبری ايتنا , 22 اسفند 1390 ساعت 11:11
ایتنا- هدف از طرح فعلي نوشتن نرمافزاری بود که بتواند با دقت قابلقبولي متون پيکره را در قالب يک نظريه زبانشناختي تجزيه و تحليل نحوی کند تا از ميزان کار دستی به ميزان زيادی بکاهد.
نرمافزار توليد درخت بانك پيكره متني زبان فارسي به عنوان يكي از زيرساختهاي مدلسازی نحو جملات زبان فارسی جهت توليد و توسعه نرمافزارهای کاربردی پردازش متون و گفتار فارسی با همکاری دبیرخانه شورای عالی اطلاعرسانی و آزمایشگاه زبانشناسی دانشگاه تهران تهیه شد.
به گزارش ایتنا به نقل از واحد ارتباطات دبیرخانه شورای عالی اطلاعرسانی، با توجه به اهمیت توسعه خط و زبان فارسی در محيط رايانهای و مورد توجه قرار گرفتن آن در برنامههای راهبردی کشور از جمله سند چشمانداز بيستساله و نقشه جامع علمي کشور، توليد زيرساختها و نرمافزارهايي که بتوانند اين موضوع را تحقق بخشند، حائز اهميت فراوان است.
در اين میان يکي از اين زيرساختها، درختبانک گروههای نحوی متون فارسی است تا امکان تعبیر و تفسیر جملات زبان فارسی در سطح نحو را برای توليد و توسعه نرمافزارهای کاربردی پردازش متون و گفتار فارسی در محيط رايانهای ايجاد كند.
با توجه به اين که در سال ۱۳۸۴ بخشي از زيرساختهای موردنظر در چارچوب طرح دادگان ملي زبان فارسي در دبيرخانه شورای عالي اطلاعرساني پيشبينی و طراحي شد و در سال ۱۳۸۶ در جهت استانداردسازی بخشی از اين دادگان تحت عنوان "پيکره متني زبان فارسي" گام اوليه برداشته شد، توليد درختبانک متون اين پيکره در دستور کار کارگروه خط و زبان فارسی در دبيرخانه قرار گرفت.
هدف از طرح فعلي نوشتن نرمافزاری بود که بتواند با دقت قابلقبولي متون پيکره را در قالب يک نظريه زبانشناختي تجزيه و تحليل نحوی کند تا از ميزان کار دستی به ميزان زيادی بکاهد.
مسئله اصلی استخراج قواعد دستوری زبان نوشتاری فارسی است که با استفاده از سيستم برچسبهای نحوی-معنايي پيکره متني زبان فارسی به دست ميآيد.
دستاوردهای اين طرح نرمافزاری است که متون پیکره متنی زبان فارسی را تقطیع، کلمات چندقطعهاي را استخراج و قطعههای چندواحدی را شناسایی میکند و در نهایت گروهبندی نحوی اجزای تشکیلدهنده جملات را با بررسی برچسبهای اجزای کلام پیکره انجام میدهد. برای صحتسنجی و بررسی چالشهای موجود در تولید نرمافزار خودکار درختبانک نحوی جملات فارسی اصلاح دستی درختبانک یکصد پرونده متني کم حجم نیز صورت گرفته است.
این نرمافزار اكنون توسط شورا در اختيار پژوهشكده پردازش هوشمند علائم قرار گرفته و به زودي بصورت رايگان به متقاضيان ارائه خواهد شد. در ضمن متقاضیان استفاده از این نرمافزار نیاز به فايلهاي پیکره متنی زبان فارسی به عنوان ورودي و محتواي نرمافزار دارند كه بر اساس تفاهمنامه دبيرخانه شوراي عالي اطلاعرساني با پژوهشكده پردازش هوشمند علائم كه گردآورنده اصلي فايلهاي پيكره متني است، فايلهاي مذكور با تخفيف ويژه به مراكز علمي و دانشگاهها ارائه ميشود. بديهي است خروجي اين نرمافزار، همان درخت بانك نحوي جملات پيكره متني زبان فارسي خواهد بود.
گفتني است اجزای نظام تولید درختبانک نحوی جملات فارسی و تحلیل نتایج نيز در قالب دو گزارش تشریح شده است كه در آينده در قالب كتابي به چاپ خواهد رسيد.
کد مطلب: 21557
آدرس مطلب: https://www.itna.ir/report/21557/تهیه-نرم-افزار-درخت-بانک-نحوی-جملات-فارسی