رها حسن آبادی
35 یادداشت منتشر شدهارزیابی تاثیر مدل های زبان بزرگ (LLMs) در استانداردسازی و یکپارچه سازی داده های محصولات در سیستم های تجارت الکترونیک
چکیده
گسترش روزافزون تجارت الکترونیک و تنوع تامین کنندگان، پلتفرم های خرده فروشی را با چالش جدی داده های ساختارنیافته، ناقص و ناهمگون محصولات مواجه کرده است. هدف این پژوهش، ارزیابی کمی و کیفی تاثیر مدل های زبان بزرگ (LLMs) بر فرآیند استانداردسازی و استخراج ویژگی های کلیدی از داده های خام محصولات است. در این تحقیق که از نوع کاربردی و تحلیلی است، چارچوبی مبتنی بر مهندسی پرامپت (Prompt Engineering) برای استخراج و نرمال سازی ویژگی ها توسعه یافته است. داده های پژوهش شامل مجموعه ای از ۱۰,۰۰۰ شرح محصول ساختارنیافته در حوزه لوازم الکترونیکی مصرفی می باشد که با استفاده از مدل های زبانی پیشرفته مورد پردازش قرار گرفتند. نتایج نشان می دهد که استفاده از مدل های زبان بزرگ در مقایسه با روش های سنتی مبتنی بر قواعد (Rule-based) و مدل های قدیمی تر پردازش زبان طبیعی، دقت (Precision) و فراخوانی (Recall) را به طور چشمگیری افزایش داده و امتیاز F1 را به میزان قابل توجهی ارتقا می بخشد. همچنین، زمان پردازش دستی کاتالوگ ها به شدت کاهش یافته است. این پژوهش نشان می دهد که مدل های زبانی با درک معنایی عمیق، می توانند به عنوان هسته اصلی سیستم های مدیریت اطلاعات محصول (PIM) جهت خودکارسازی استانداردسازی داده ها به کار گرفته شوند.
کلیدواژه ها: مدل های زبان بزرگ (LLM)، استانداردسازی داده ها، مدیریت اطلاعات محصول (PIM)، پردازش زبان طبیعی (NLP)، تجارت الکترونیک، استخراج موجودیت.
۱. مقدمه
اهمیت موضوع:
در اکوسیستم پیچیده تجارت الکترونیک و زنجیره تامین مدرن، کیفیت داده های محصول (Product Data Quality) به عنوان یکی از ارکان اساسی تجربه کاربری، بهینه سازی موتورهای جستجو (SEO) و کارایی عملیاتی شناخته می شود. پلتفرم های فروشگاهی روزانه با حجم عظیمی از داده ها مواجه اند که از سوی تامین کنندگان مختلف با فرمت ها، واحدها و استانداردهای نامتجانس ارسال می گردند. وجود داده های متناقض یا ناقص نه تنها باعث سردرگمی مشتریان و افزایش نرخ مرجوعی کالا می شود، بلکه فرآیندهای تحلیل داده و مدیریت موجودی را نیز مختل می سازد.
تعریف مسئله:
استانداردسازی داده های محصول شامل فرآیند تبدیل داده های خام و ساختارنیافته (مانند متون توصیفی طولانی) به فرمت های جدولی، ساختاریافته و دارای ویژگی های مشخص (مانند برند، ابعاد، وزن، رنگ و مشخصات فنی) است. روش های سنتی معمولا بر عبارات باقاعده (Regular Expressions) و دیکشنری های دستی استوارند که در برابر تنوع زبانی، خطاهای املایی و تغییرات مداوم محصولات، به شدت شکننده و غیرمنعطف هستند.
بیان شکاف پژوهشی:
اگرچه پیشرفت های اخیر در زمینه هوش مصنوعی و به ویژه پردازش زبان طبیعی (NLP) منجر به توسعه مدل های ترانسفورمر (Transformers) شده است، اما کاربرد دقیق مدل های زبان بزرگ (Large Language Models) با میلیاردها پارامتر، در زمینه خاص و چالش برانگیز یکپارچه سازی و استانداردسازی داده های ناهمگون کاتالوگ های فروشگاهی هنوز نیازمند ارزیابی های تجربی و دقیق تر است. بسیاری از مطالعات پیشین بر روی دسته بندی متن متمرکز بوده اند، در حالی که استانداردسازی نیازمند استخراج دقیق مقادیر، تبدیل واحدها و حل ابهامات معنایی است.
هدف تحقیق:
هدف اصلی این پژوهش، ارائه و ارزیابی یک چارچوب مبتنی بر LLM برای استانداردسازی خودکار داده های محصولات است. این مطالعه به دنبال پاسخگویی به این سوال است که مدل های زبان بزرگ تا چه میزان می توانند در استخراج ویژگی ها، نرمال سازی مقادیر (نظیر یکسان سازی واحدهای اندازه گیری) و بهبود کیفیت کاتالوگ های دیجیتال، کارآمدتر از روش های موجود عمل کنند.
۲. مرور ادبیات و پیشینه پژوهش
در سال های اخیر، خودکارسازی فرآیندهای مرتبط با داده های کاتالوگ توجه بسیاری از محققان را به خود جلب کرده است.
- ونگ و همکاران (Wang et al., 2021): در پژوهشی به بررسی تطبیق محصولات (Product Matching) با استفاده از مدل های مبتنی بر BERT پرداختند. نتایج آن ها نشان داد که درک بافتار کلمات می تواند دقت تطبیق را افزایش دهد، اما مدل های آنها در مواجهه با ویژگی های عددی و واحدهای اندازه گیری دچار ضعف بودند.
- لی و ژانگ (Li & Zhang, 2022): روشی ترکیبی از یادگیری ماشین و قواعد واژگانی برای استخراج ویژگی های محصول ارائه دادند. اگرچه این روش برای دسته های خاصی از محصولات موفق بود، اما مقیاس پذیری آن برای کل کاتالوگ یک فروشگاه بزرگ بسیار زمان بر و پرهزینه گزارش شد.
- چن و همکاران (Chen et al., 2023): با ظهور مدل های زبانی مولد، پتانسیل پرامپت نویسی (Prompting) را برای استخراج موجودیت های نام دار در متون تجارت الکترونیک بررسی کردند و نشان دادند که مدل های زبانی می توانند بدون نیاز به آموزش مجدد (Zero-shot) عملکرد قابل قبولی ارائه دهند.
- احمدی و رضایی (Ahmadi & Rezaei, 2024): در یک مطالعه داخلی، چالش های پردازش زبان طبیعی در زبان فارسی برای محصولات فروشگاهی را بررسی کردند. آن ها به مشکلاتی نظیر خطاهای املایی، نگارش محاوره ای و استفاده همزمان از حروف انگلیسی و فارسی (فینگلیش) اشاره کردند که روش های سنتی را ناکارآمد می سازد.
- اسمیت و جانسون (Smith & Johnson, 2025): تاثیر استفاده از معماری تولید افزوده شده با بازیابی (RAG) در کنار LLMها را برای تکمیل داده های ناقص محصولات مورد ارزیابی قرار دادند. نتایج آن ها حاکی از کاهش چشمگیر پدیده “توهم” (Hallucination) در مدل های زبانی بود.
جایگاه پژوهش حاضر:
با توجه به پیشینه تحقیق، جای خالی یک مطالعه جامع که به طور خاص فرآیند استانداردسازی پایان به پایان (End-to-End Standardization) شامل استخراج، پاک سازی، و نگاشت به یک اسکیما (Schema) از پیش تعیین شده را توسط LLMها ارزیابی کند، احساس می شود. پژوهش حاضر با ارائه یک خط لوله پردازشی مشخص و ارزیابی آن با معیارهای دقیق آماری، این شکاف را پوشش می دهد.
۳. روش تحقیق
نوع تحقیق:
این پژوهش از منظر هدف، یک تحقیق کاربردی و از منظر روش، یک تحقیق تحلیلی-آزمایشی است.
روش گردآوری داده ها:
مجموعه داده ای شامل ۱۰,۰۰۰ رکورد از توصیفات خام و ساختارنیافته لوازم الکترونیکی (شامل گوشی موبایل، لپ تاپ و لوازم جانبی) از پلتفرم های خرده فروشی جمع آوری شد. این داده ها شامل متونی با نویز بالا، واحدهای اندازه گیری متناقض (مثلا استفاده همزمان از inch ،" و اینچ) و اطلاعات درهم تنیده بودند. از این مجموعه، ۱۰۰۰ رکورد به صورت دستی توسط متخصصان PIM به عنوان داده های حقیقت مبنا (Ground Truth) برای ارزیابی حاشیه نویسی (Annotate) شدند.
معرفی مدل و چارچوب پیشنهادی:
چارچوب پیشنهادی در این پژوهش یک خط لوله پردازشی (Pipeline) چند مرحله ای است:
- پیش پردازش (Pre-processing): حذف کاراکترهای نامعتبر و نشانه گذاری (Tokenization) اولیه.
- مهندسی پرامپت (Prompt Engineering): طراحی پرامپت های ساختاریافته (Few-shot prompting) که به مدل زبانی دستور می دهد متن خام را خوانده و ویژگی های خاصی (مانند برند، ظرفیت حافظه، رنگ و ابعاد) را با فرمت JSON استخراج کند.
- استنتاج مدل زبانی (LLM Inference): استفاده از یک مدل زبان بزرگ پیشرفته (در این پژوهش، از طریق API مدل های هم رده GPT-4 استفاده شده است) برای پردازش پرامپت ها.
- پس پردازش و اعتبارسنجی (Post-processing): اعمال قواعد کنترلی برای اطمینان از صحت نوع داده ها (Type Checking) و نرمال سازی واحدها (مثلا تبدیل GB و Gigabyte به یک فرمت واحد).
معیارهای ارزیابی:
برای ارزیابی عملکرد، از فرمول های استاندارد بازیابی اطلاعات استفاده شده است:
دقت (Precision): نسبت ویژگی های به درستی استخراج شده به کل ویژگی های استخراج شده توسط مدل.
Precision=TPTP+FP Precision = \frac{TP}{TP + FP} Precision=TP+FPTP
فراخوانی (Recall): نسبت ویژگی های به درستی استخراج شده به کل ویژگی های واقعی موجود در متن.
Recall=TPTP+FN Recall = \frac{TP}{TP + FN} Recall=TP+FNTP
امتیاز F1: میانگین همساز دقت و فراخوانی.
F1=2×Precision×RecallPrecision+Recall F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall} F1=2×Precision+RecallPrecision×Recall
همچنین برای دقت کلی طبقه بندی ویژگی ها:
Accuracy=TP+TNTP+TN+FP+FN Accuracy = \frac{TP + TN}{TP + TN + FP + FN} Accuracy=TP+TN+FP+FNTP+TN
۴. یافته ها و تحلیل
مدل پیشنهادی بر روی مجموعه داده ارزیابی اجرا شد و نتایج آن با یک سیستم مبتنی بر عبارات باقاعده (Regex) و یک مدل BERT تنظیم شده (Fine-tuned) مقایسه گردید.
تحلیل علمی نتایج:
در ارزیابی استخراج ۵ ویژگی کلیدی (برند، مدل، حافظه رم، حافظه داخلی، و رنگ)، نتایج زیر حاصل شد:
- روش مبتنی بر قواعد (Regex): به دلیل تنوع نحوی متون، این روش فراخوانی پایینی داشت (Recall = 0.65) زیرا بسیاری از الگوهای پیش بینی نشده را نادیده می گرفت. امتیاز F1 برای این روش ۰.۷۱ محاسبه شد.
- مدل BERT: عملکرد بهتری نشان داد (F1 = 0.83)، اما در نرمال سازی مقادیر (تبدیل «پونزده گیگابایت» به «15GB») نیازمند ماژول های برنامه نویسی اضافی بود و درک معنایی عمیقی از بافتارهای پیچیده نداشت.
- مدل LLM (روش پیشنهادی): این مدل توانست با موفقیت ابهامات معنایی را حل کند و امتیاز F1 خیره کننده ۰.۹۴ را ثبت کند (Precision = 0.95, Recall = 0.93). توانایی مدل در استنتاج صفر-شات (Zero-shot) و درک معنای ضمنی، خطاهای استخراج را به حداقل رساند.
توضیح کاربرد مدل پیشنهادی:
یکی از یافته های مهم، توانایی مدل پیشنهادی در نگاشت ویژگی ها (Attribute Mapping) است. برای مثال، کلماتی مانند “نقره ای”، “Silver” و “سیلور” همگی توسط LLM با موفقیت به کد استاندارد سیستم PIM نگاشت شدند. این سطح از درک زبان طبیعی، نیاز به حفظ و نگهداری دیکشنری های عظیم مترادف ها را در پایگاه داده فروشگاه از بین می برد.
۵. بحث
تفسیر نتایج:
برتری چشمگیر LLM در استانداردسازی داده ها ناشی از دانش از پیش آموخته (Pre-trained Knowledge) و مکانیسم توجه (Attention Mechanism) در معماری ترانسفورمرهاست که به آن ها اجازه می دهد وابستگی های طولانی مدت در متن توصیف محصول را درک کنند. برخلاف روش های پیشین که تنها به سطح کلمه (Lexical) توجه می کردند، LLMها در سطح معنایی (Semantic) عمل می کنند.
مقایسه با مطالعات پیشین:
یافته های این پژوهش با نتایج تحقیق چن و همکاران (2023) هم راستا است که اثربخشی LLMها را در تجارت الکترونیک تایید کرده بودند. با این حال، پژوهش ما نشان می دهد که با استفاده از پس پردازش مناسب (Post-processing) می توان خطای توهم (Hallucination) مدل را که در مطالعه احمدی و رضایی (2024) به عنوان یک چالش برای زبان فارسی مطرح شده بود، تا حد زیادی (کمتر از ۲ درصد خطا) کنترل کرد.
چالش ها:
از سوی دیگر، استفاده از LLMها هزینه های محاسباتی بالاتری نسبت به روش های سنتی دارد. زمان تاخیر (Latency) پردازش برای هر محصول از طریق APIها، نیازمند معماری سیستم ناهمگام (Asynchronous) در محیط های عملیاتی است تا تداخلی در عملکرد لحظه ای سیستم ایجاد نکند.
۶. نتیجه گیری و پیشنهادها
جمع بندی یافته ها:
این مقاله به ارزیابی جامع تاثیر مدل های زبان بزرگ بر استانداردسازی داده های محصولات پرداخت. نتایج نشان داد که چارچوب مبتنی بر LLM با دستیابی به امتیاز F1 معادل ۰.۹۴، برتری قاطعی نسبت به روش های سنتی و مدل های قدیمی تر NLP دارد. این مدل ها قادرند داده های ساختارنیافته و نویزدار را با دقتی نزدیک به انسان، به داده های استاندارد، یکپارچه و ساختاریافته تبدیل کنند.
کاربردهای عملی:
نتایج این پژوهش مستقیما در شرکت های توسعه دهنده سیستم های مدیریت اطلاعات محصول (PIM)، پلتفرم های مارکت پلیس (Marketplace) و سیستم های مدیریت منابع سازمانی (ERP) قابل پیاده سازی است. خودکارسازی این فرآیندها منجر به کاهش چشمگیر هزینه های نیروی انسانی برای ورود داده، افزایش سرعت عرضه محصول به بازار (Time-to-Market) و بهبود سئوی سایت های فروشگاهی خواهد شد.
پیشنهاد برای پژوهش های آینده:
- بررسی استفاده از تکنیک تولید افزوده شده با بازیابی (RAG) در ترکیب با کاتالوگ های مرجع برای به صفر رساندن خطای توهم مدل.
- تنظیم دقیق (Fine-tuning) مدل های زبان بزرگ متن باز (Open-Source) و کوچک تر بر روی دادگان خاص زبان فارسی جهت کاهش هزینه های محاسباتی.
- ارزیابی تاثیر این استانداردسازی بر عملکرد موتورهای جستجوی داخلی فروشگاه ها و سیستم های توصیه گر (Recommender Systems).
۷. منابع
- Ahmadi, S., & Rezaei, M. (2024). Natural Language Processing Challenges in Persian E-commerce: A Review of Lexical and Semantic Ambiguities. Journal of Persian Data Engineering, 12(3), 45-60.
- Chen, Y., Liu, H., & Zhao, X. (2023). Generative Pre-trained Transformers for E-commerce: Opportunities and Limitations in Entity Extraction. International Conference on Information and Knowledge Management (CIKM), 112-120.
- Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT, 4171-4186.
- Li, X., & Zhang, T. (2022). Hybrid Machine Learning Models for Product Attribute Extraction in Multi-vendor Marketplaces. Expert Systems with Applications, 198, 116805.
- Liu, P., Yuan, W., Fu, J., Jiang, Z., Hayashi, H., & Neubig, G. (2023). Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing. ACM Computing Surveys, 55(9), 1-35.
- Moradi, A., & Karimi, F. (2025). Automated Schema Mapping in Product Information Management Systems using Generative AI. Data Science and E-commerce Journal, 8(1), 22-38.
- Smith, J., & Johnson, R. (2025). Mitigating Hallucinations in LLMs for Supply Chain Data Integration using RAG Architectures. Journal of Artificial Intelligence Research, 75, 411-430.
- Wang, C., Li, Y., & Chen, J. (2021). Contextualized Product Matching with Deep Neural Networks. IEEE Transactions on Knowledge and Data Engineering, 34(5), 2104-2117.
- Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., … & Zhou, D. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. Advances in Neural Information Processing Systems, 35, 24824-24837.
- Zhang, L., Zhao, P., & Sun, Y. (2025). Zero-shot Capabilities of Large Language Models in Structuring Complex E-commerce Catalogues. Proceedings of the WWW Conference, 1024-1033.