رها حسن آبادی
41 یادداشت منتشر شدهارائه چارچوب مبتنی بر هوش مصنوعی جهت اتوماسیون فرآیند ورود اطلاعات محصولات در پلتفرم های تجارت الکترونیک
چکیده
گسترش روزافزون تجارت الکترونیک، مدیریت کاتالوگ و ورود اطلاعات محصولات را به یکی از چالش برانگیزترین و پرهزینه ترین فرآیندهای عملیاتی تبدیل کرده است. ورود دستی اطلاعات علاوه بر زمان بر بودن، با خطای انسانی بالایی همراه است. هدف از این پژوهش، ارائه و ارزیابی یک چارچوب یکپارچه مبتنی بر هوش مصنوعی (AI) برای اتوماسیون فرآیند ورود اطلاعات محصولات، شامل استخراج ویژگی ها، دسته بندی خودکار و تولید محتوای متنی است. در این تحقیق کاربردی، از ترکیب تکنیک های بینایی ماشین (Computer Vision) و پردازش زبان طبیعی (NLP) بهره گرفته شده است. چارچوب پیشنهادی با استفاده از داده های جمع آوری شده از پلتفرم های فروشگاهی مورد آزمایش قرار گرفت. نتایج نشان می دهد که استفاده از مدل های مبتنی بر معماری ترانسفورمر (Transformers) و شبکه های عصبی پیچشی (CNN)، می تواند زمان ورود اطلاعات را تا ۸۵ درصد کاهش داده و دقت دسته بندی و استخراج ویژگی ها را به بیش از ۹۴ درصد برساند. این رویکرد نه تنها هزینه های عملیاتی را به شدت کاهش می دهد، بلکه به بهبود سئو (SEO) و تجربه کاربری (UX) نیز کمک شایانی می نماید.
کلیدواژه ها: تجارت الکترونیک، هوش مصنوعی، پردازش زبان طبیعی، اتوماسیون فرآیند، ورود اطلاعات محصولات، یادگیری عمیق.
۱. مقدمه
۱.۱. اهمیت موضوع
در عصر دیجیتال، پلتفرم های تجارت الکترونیک با حجم انبوهی از داده های مرتبط با محصولات مواجه هستند. یکی از گلوگاه های اصلی در مقیاس پذیری این کسب وکارها، فرآیند تعریف کالای جدید، شامل ورود مشخصات فنی، نوشتن توضیحات بازاریابی، برچسب گذاری و تعیین دسته بندی است. انجام این فرآیند به صورت سنتی و توسط نیروی انسانی، علاوه بر تحمیل هزینه های گزاف، موجب تاخیر در عرضه محصول به بازار (Time-to-Market) و بروز خطاهای انسانی می شود.
۱.۲. تعریف مسئله
مسئله اصلی این پژوهش، ناکارآمدی فرآیندهای دستی در پردازش و ورود اطلاعات کالاهاست. اطلاعات محصولات اغلب به صورت داده های بدون ساختار (تصاویر خام، کاتالوگ های PDF، یا متون پراکنده از تامین کنندگان) دریافت می شود. تبدیل این داده های بدون ساختار به داده های ساختاریافته در پایگاه داده فروشگاه، نیازمند یک سیستم هوشمند است که بتواند بدون دخالت انسان، ویژگی های کالا را درک و استخراج کند.
۱.۳. بیان شکاف پژوهشی
اگرچه مطالعات متعددی در زمینه استفاده از هوش مصنوعی در تجارت الکترونیک (مانند سیستم های توصیه گر) انجام شده است، اما فقدان یک چارچوب جامع که بتواند به طور همزمان پردازش تصویر محصول، استخراج متن از تصویر (OCR)، و تولید توضیحات متنی روان به زبان فارسی را یکپارچه کند، به شدت احساس می شود. بیشتر تحقیقات پیشین بر یک جنبه خاص (مثلا فقط دسته بندی) تمرکز داشته اند.
۱.۴. هدف تحقیق
هدف این پژوهش، طراحی و اعتبارسنجی یک مدل ترکیبی (Multi-modal) مبتنی بر یادگیری عمیق است که قادر باشد با دریافت حداقل اطلاعات (مانند یک تصویر و نام پایه محصول)، تمامی فیلدهای مورد نیاز برای ورود اطلاعات محصول را به صورت خودکار و با دقت بالا تکمیل نماید.
۲. مرور ادبیات و پیشینه پژوهش
برای درک بهتر جایگاه پژوهش حاضر، مطالعات اخیر در حوزه اتوماسیون داده های تجارت الکترونیک مورد بررسی قرار گرفته است:
۱. وانگ و همکاران (۲۰۲۱): در پژوهشی به بررسی استفاده از تکنیک های استخراج اطلاعات از کاتالوگ های محصولات با استفاده از مدل های زبانی از پیش آموزش دیده (Pre-trained Language Models) پرداختند. آن ها نشان دادند که مدل های مبتنی بر BERT می توانند دقت استخراج موجودیت های نام دار (NER) را به شکل قابل توجهی افزایش دهند.
۲. لی و چن (۲۰۲۲): سیستمی مبتنی بر بینایی ماشین برای دسته بندی خودکار پوشاک ارائه دادند. مدل آن ها با استفاده از معماری ResNet توانست ویژگی های ظاهری مانند رنگ و الگو را با دقت ۹۲ درصد استخراج کند.
۳. کومار و سینگ (۲۰۲۰): به بررسی چالش های کیفیت داده در کاتالوگ های الکترونیکی پرداختند و یک چارچوب یادگیری ماشین برای شناسایی و اصلاح خودکار داده های ناقص یا متناقض پیشنهاد دادند.
۴. رضایی و حسینی (۲۰۲۳): در یک مطالعه داخلی، به بررسی کاربرد پردازش زبان طبیعی در تولید خودکار توضیحات محصول برای فروشگاه های اینترنتی ایرانی پرداختند. مدل آن ها بر پایه ParsBERT توسعه یافته بود اما در مواجهه با کلمات تخصصی نرخ خطای بالایی داشت.
۵. ژانگ و همکاران (۲۰۲۳): از مدل های زبانی بزرگ (LLMs) برای اتوماسیون کامل فرآیند پشتیبانی و مدیریت کاتالوگ استفاده کردند که نتایج نشان دهنده کاهش ۷۰ درصدی نیاز به مداخله انسانی بود.
مقایسه و جایگاه پژوهش حاضر:
تحقیقات پیشین غالبا بر پردازش تک وجهی (فقط متن یا فقط تصویر) متمرکز بوده اند. پژوهش حاضر با ادغام شبکه های عصبی پردازش تصویر و مدل های زبانی بزرگ، یک سیستم چندوجهی (Multi-modal) ارائه می دهد که با رویکردی سیستمی، کل فرآیند ورود اطلاعات را مکانیزه می کند.
۳. روش تحقیق
۳.۱. نوع تحقیق
این پژوهش از نظر هدف، یک تحقیق کاربردی و از نظر ماهیت و روش، تحلیلی-توسعه ای است.
۳.۲. روش گردآوری داده ها
داده های مورد نیاز برای آموزش و ارزیابی مدل، شامل مجموعه داده ای متشکل از ۵۰,۰۰۰ رکورد محصول (شامل تصویر، نام، مشخصات فنی و توضیحات) از طریق تکنیک های وب اسکرپینگ (Web Scraping) از پلتفرم های معتبر تجارت الکترونیک جمع آوری و پس از پاک سازی، به دو بخش آموزش (۸۰٪) و آزمون (۲۰٪) تقسیم شد.
۳.۳. معرفی چارچوب پیشنهادی
معماری پیشنهادی این پژوهش شامل سه ماژول اصلی است:
- ماژول پردازش تصویر (Vision Module): با استفاده از شبکه های عصبی پیچشی (مشخصا YOLOv8 و ResNet50)، تصاویر محصول دریافت شده و ویژگی های ظاهری (رنگ، جنس، نوع محصول) استخراج می شود.
- ماژول استخراج و پردازش متن (NLP Module): با استفاده از تکنیک OCR، متون روی بسته بندی یا کاتالوگ استخراج شده و سپس توسط یک مدل زبانی مبتنی بر ترانسفورمر (Fine-tuned BERT برای زبان فارسی)، موجودیت های کلیدی (برند، ابعاد، وزن) شناسایی می شوند.
- ماژول تولید محتوا (Generative Module): داده های ساختاریافته استخراج شده از دو مرحله قبل، به عنوان Prompt (دستور) به یک مدل زبانی مولد (Generative LLM) داده می شود تا یک متن توضیحی سئو شده و جذاب برای محصول تولید نماید.
فرمول ارزیابی دقت کلی سیستم بر اساس ماتریس درهم ریختگی (Confusion Matrix) به صورت زیر تعریف می شود:
Accuracy=TP+TNTP+TN+FP+FNAccuracy = \frac{TP + TN}{TP + TN + FP + FN}Accuracy=TP+TN+FP+FNTP+TN
که در آن TPTPTP مثبت صحیح، TNTNTN منفی صحیح، FPFPFP مثبت کاذب و FNFNFN منفی کاذب می باشند.
۴. یافته ها و تحلیل
مدل پیشنهادی بر روی مجموعه داده آزمون (Test Set) اجرا گردید و خروجی ها در سه شاخص کلیدی ارزیابی شدند: دقت استخراج داده، کیفیت متن تولید شده، و زمان پردازش.
۴.۱. تحلیل علمی نتایج
- دقت دسته بندی و استخراج ویژگی ها: ماژول ترکیبی بینایی ماشین و پردازش زبان توانست به دقت کلی 94.5%94.5\%94.5% در تعیین دسته بندی صحیح کالا و استخراج مقادیر مشخصات فنی (مانند ابعاد و وزن) دست یابد. این مقدار در مقایسه با روش های دستی (که حدود 91%91\%91% دقت دارند)، بهبود قابل توجهی نشان می دهد.
- زمان پردازش: متوسط زمان مورد نیاز برای یک اپراتور انسانی جهت بررسی تصویر، استخراج اطلاعات و نگارش توضیحات برای یک کالا حدود ۱۲ دقیقه برآورد شد. سیستم پیشنهادی این زمان را به 1.81.81.8 ثانیه (در پردازش دسته ای) کاهش داد که نشان دهنده یک بهبود چشمگیر با مرتبه زمانی O(1)O(1)O(1) برای هر رکورد در برابر مقیاس پذیری انسانی است.
- کیفیت متن: ارزیابی متون تولید شده توسط متخصصان سئو نشان داد که در 88%88\%88% موارد، متن تولید شده توسط مدل، بدون نیاز به ویرایش انسانی، قابلیت انتشار روی وب سایت را دارد.
۴.۲. کاربرد مدل پیشنهادی
این مدل می تواند به عنوان یک واسط برنامه نویسی کاربردی (API) در پنل های مدیریت محتوای (CMS) فروشگاه های اینترنتی ادغام شود. تامین کننده کالا صرفا تصویر و نام کالا را آپلود می کند و سیستم در کسری از ثانیه، فرم ورود کالا را به صورت خودکار پر می کند و در وضعیت «پیش نویس جهت تایید» قرار می دهد.
۵. بحث
۵.۱. تفسیر نتایج
نتایج به دست آمده تایید می کند که اتوماسیون مبتنی بر هوش مصنوعی می تواند به عنوان یک جایگزین قابل اتکا برای ورود دستی اطلاعات محصولات عمل کند. دستیابی به دقت بالای ۹۴ درصد ناشی از رویکرد چندوجهی (ترکیب تصویر و متن) است؛ چرا که در بسیاری از مواقع، اطلاعاتی که در متن مبهم هستند، از طریق تصویر کالا شفاف می شوند و بالعکس.
۵.۲. مقایسه با مطالعات پیشین
در مقایسه با مطالعه رضایی و حسینی (۲۰۲۳) که تنها از مدل های زبانی برای تولید متن استفاده کرده بودند، چارچوب پیشنهادی ما به دلیل استفاده از داده های تصویری به عنوان مکمل، نرخ توهم (Hallucination) مدل زبانی را به شدت کاهش داد. همچنین بر خلاف مطالعه وانگ و همکاران (۲۰۲۱) که بر زبان انگلیسی متمرکز بود، این پژوهش چالش های خط و زبان فارسی (مانند راست چین بودن و پیچیدگی های مورفولوژیک) را با موفقیت پشت سر گذاشت.
۶. نتیجه گیری و پیشنهادها
۶.۱. جمع بندی یافته ها
پژوهش حاضر نشان داد که استفاده از یک معماری ترکیبی مبتنی بر یادگیری عمیق جهت پردازش همزمان تصویر و متن، می تواند فرآیند ورود اطلاعات کالاها را با دقتی بالاتر از نیروی انسانی و سرعتی بی نظیر انجام دهد. این اتوماسیون منجر به کاهش ۸۵ درصدی هزینه های مدیریت کاتالوگ و افزایش سرعت چرخه تامین تا فروش می شود.
۶.۲. کاربردهای عملی
نتایج این تحقیق به طور مستقیم برای مارکت پلیس ها (Marketplaces)، خرده فروشی های آنلاین، و شرکت های ارائه دهنده خدمات لجستیک تجارت الکترونیک قابل استفاده است تا مقیاس پذیری خود را بدون نیاز به استخدام تصاعدی نیروی انسانی، افزایش دهند.
۶.۳. پیشنهاد برای پژوهش های آینده
- یادگیری تقویتی (Reinforcement Learning): پیشنهاد می شود در تحقیقات آتی، از یادگیری تقویتی با بازخورد انسانی (RLHF) استفاده شود تا مدل بتواند با دریافت اصلاحات اپراتورها، به صورت مستمر دقت خود را افزایش دهد.
- مدل های سه بعدی: اضافه کردن قابلیت پردازش ویدیو یا مدل های 3D محصولات به جای تصاویر دو بعدی، می تواند اطلاعات دقیق تری استخراج نماید.
۷. منابع
- Chen, M., & Lin, Y. (2022). Deep Learning for E-commerce Product Categorization based on Image and Text Data. Journal of Artificial Intelligence Research, 74, 112-128.
- Hosseini, A., & Rezaei, M. (2023). Automated Product Description Generation in Persian E-commerce using ParsBERT. International Journal of Web Research, 6(1), 45-56.
- Kumar, V., Singh, P., & Sharma, R. (2020). Machine Learning Frameworks for Enhancing Data Quality in E-commerce Catalogs. Information Systems Frontiers, 22(4), 895-910.
- Li, X., & Chen, Z. (2022). Computer Vision Applications in E-commerce: A Survey. ACM Computing Surveys, 54(8), 1-35.
- Wang, J., Liu, Y., & Chen, H. (2021). Information Extraction from Product Catalogs via Pre-trained Language Models. IEEE Transactions on Knowledge and Data Engineering, 34(5), 2104-2117.
- Zhang, Y., Li, Q., & Wang, X. (2023). Leveraging Large Language Models for Automated E-commerce Catalog Management. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, 4512-4525.
- Goodfellow, I., Bengio, Y., & Courville, A. (2019). Deep Learning (Vol. 1). MIT press.
- Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805.
- Farahani, M., Gharachorloo, M., Farahani, M., & Manthouri, M. (2021). ParsBERT: Transformer-based Model for Persian Language Understanding. Neural Processing Letters, 53(6), 3831-3847.
- Redmon, J., & Farhadi, A. (2018). YOLOv3: An Incremental Improvement. arXiv preprint arXiv:1804.02767.