مروری بر روش های طبقه بندی متون بین زبانی
- سال انتشار: 1397
- محل انتشار: دومین کنفرانس ملی کامپیوتر، فناوری اطلاعات و کاربردهای هوش مصنوعی
- کد COI اختصاصی: CEITCONF02_114
- زبان مقاله: فارسی
- تعداد مشاهده: 691
نویسندگان
دانشجوی کارشناسی ارشد، ایران، ارومیه، دانشگاه صنعتی ارومیه، دانشکده مهندسی فناوری اطلاعات و کامپیوتر
استادیار، ایران، ارومیه، دانشگاه صنعتی ارومیه، دانشکده مهندسی فناوری اطلاعات و کامپیوتر
چکیده
طبقه بندی متون بین زبانی (CLTC)، همان کارکرد طبقه بندی اسناد متنی به زبان های مختلف در علم طبقه بندی دسته هاست. این مقاله ابتدا رویکرد CLTC را مطرح می کند که یک مدل تقطیر را ایجاد کرده تا یک چارچوب پیشنهادی برای مقایسه مدل را توسعه دهد. در این روش با استفاده از پیش بینی های احتمالی نرم در اسناد مربوط به زبان های غنی و در یک مجموعه موازی از اسناد، طبقه بندی ها بصورت موفقیت آمیز برای زبان های جدید بررسی می شوند. همچنین تکنیک انطباق ویژگی برای کاهش یافتن عدم تطابق تقطیر بکار می رود. این رویکرد، مزایا یا عملکرد قابل مقایسه ای با دیگر روش های مدرن دارد. همچنین مشکل طبقه بندی بین زبانی متن را از آن جهت بررسی می کنیم که در اسناد در زبان های مختلف بایستی با توجه به درخت طبقه بندی مشابه، دسته بندی شوند. ما راه حل های مقرون به صرفه و کاربردی را برای طبقه بندی بین زبانی متن خودکار توصیف می کنیم. هم در مورد تعدادی از نمونه های آموزشی که برای هر زبان جدید در دسترس هستند و هم برای برخی از زبان هایی که هیچ نمونه ی آموزشی در دسترسی ندارند. نتایج تجربی طبقه بندی دوزبانه مجموعه ILO با استفاده از آموزش دوزبانی، ترجمه واژگان و ترجمه مبتنی بر پروفایل بدست آمده است. همانطور که می دانیم، بیشتر موتورهای جستجوی سازمانی، طبقه بندی های داده کاوی را برای دسته بندی اسناد بکار می گیرند. همراه با جهانی شدن از بعد اقتصادی، بسیاری از شرکت ها در صدد فعال سازی شعبات خارجی خود هستند. این شعبات از زبان های محلی در اسناد و ایمیل ها استفاده می کنند. زمانی که یک روش طبقه بندی به منظور طبقه بندی این اسناد به زبان دیگر تلاش می کند، مدل پیشین فراگرفته تک زبانی دیگر کار نخواهد کرد. بهترین راه حل، ترجمه این اسناد از زبانی به زبان دیگر بوسیله مترجم ماشینی است اما ایراد این راه حل، عدم دقت ترجمه ماشینی است و همچنین این کار از نظر اقتصادی مناسب نیست. رویکرد دیگر، ترجمه ویژگی بدست آمده از یک زبان به زبان دیگر و استفاده از آن ها به منظور طبقه بندی زبان دیگر است. این رویکرد مناسب است اما با عدم دقت ترجمه و خلاء فرهنگی زبانی روبرو می شود. در این مقاله در تلاشیم تا روش جدیدی دیگری را نیز ارایه کنیم که با مدل ترجمه و ترجمه اسناد مطابقت داشته باشد. این روش مزایای بهتری از نظر کارکرد بین ترجمه اسناد و روش های ترجمه مدل ارایه می نماید. در ادامه برآنیم تا روش های مذکور در طبقه بندی متون بین زبانی را بررسی کرده و ویژگی های این روش ها را بررسی و مقایسه می کنیم.کلیدواژه ها
برچسب گذاری، ترجمه ماشینی، روش ترجمه سند، روش ترجمه مدل، روش تقطیر، طبقه بندی بین زبانیمقالات مرتبط جدید
- مرور سیستماتیک کاربرد هوش مصنوعی در موسیقی
- In-silico Analyses for Finding Potential Key Genes and Pathways Associated with Guillain-Barré Syndrome Using Computational Tools
- OCD Severity Based on EEG Signals
- Investigating the (non) -Impact of Customizing Knowledge Bases of Artificial Intelligence -Driven Robot on Language for Specific Purposes Learning
- The Need for Telehealth and Tele-Educationon in Optimizing Measles Surveillance and Reducing Healthcare Costs
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.