بررسی روش های کشف و مقایسه الگوهای پرس و جو های مکرر در اسناد XML

  • سال انتشار: 1394
  • محل انتشار: اولین همایش چشم انداز تکنولوژی کامپیوتر و شبکه در ۲۰۳۰
  • کد COI اختصاصی: MAYCOMP01_063
  • زبان مقاله: فارسی
  • تعداد مشاهده: 700
دانلود فایل این مقاله

نویسندگان

فاطمه دورانی

دانشجوی کارشناسی ارشد گروه کامپیوتر، واحد میبد، دانشگاه های آزاد اسلامی، میبد ، ایران

محمدجواد کارگر

عضو هیأت علمی گروه کامپیوتر، واحد میبد، دانشگاه های آزاد اسلامی ، میبد، ایران

چکیده

کشف الگوهای پنهان و ارزشمند از درون حجم وسیعی از داده های خام، اخیراً توجه بسیاری از محققان را به خود جلب کرده است. اغلب روش های کاوش قوانین انجمنی در مرحله اول کار خود کلیه اقلام پرتکرار را از بین تمام اقلام موجود در داده ها جستجو می کنند که این امر نیازمند خواندن مکرر کل داده ها از حافظه است. بنیان اصلی پردازش و بهینه سازی الگوهای مکرر پرس و جوهای XML بر مبنای ساختار درختی آن بنا شده است و این بدان معنی است که ساختار و محتوا در این سندها در کنار یکدیگر هستند. با افزایش چشمگیر اسناد XML اهمیت پردازش بهبود پرس و جوهای XML بیشتر به چشم می خورد. الگوریتم های زیادی برای کشف قوانین انجمنی تاکنون ارائه شده اند. بخش عمده و نسبتا زمانگیر در اکثر الگوریتم های موجود از جمله سه روش مد نظر در این پروژه (TOP-K , FP-Growth , Apriori)، جستجوی اقلام پر تکرار است. برای بهینه سازی این فرایند الگوریتم های پیشنهاد شده رویکردهای متفاوتی دارند. تلاش بسیاری از روشها بر کاهش تعداد دفعات مراجعه به حافظه جهت خواندن داده ها است .برای این منظور، بعضی روش ها با یافتن راه های مستقیم جهت به دست آوردن پشتیبانی بعضی از اقلام، از مراجعات بیهوده به حافظه خودداری می کنند. از کاراترین روشهای موجود، روش های Apriori و FP-Growth و TOP-K می باشد. در این مقاله سعی بر این شده تا با بررسی سه روش کشف الگوهای پرسوجوی مکرر، آنها را از لحاظ سه معیار اصلی سرعت، حافظه و زمان اجرا بررسی نماییم و یک مقایسه کلی درباره الگوهای پرسوجوی مکرر مطرح شده در اسناد XML داشته باشیم. نتایج حاصل از تحقیق نشان می دهد که الگوریتم Top-k در اکثر موارد بسته به پیمایش نسبت به دو الگوریتم دیگر از لحاظ معیارهای ذکر شده عملکرد بهتری دارد.

کلیدواژه ها

اسناد XML، قواعد انجمنی ،الگوهای پرتکرار

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.