انقلاب هوش مصنوعی با Gemini ۲.۵: گوگل در I/O ۲۰۲۵ از مدل های پیشرفته خود

31 خرداد 1404 - خواندن 12 دقیقه - 1044 بازدید

انقلاب هوش مصنوعی با Gemini 2.5: گوگل در I/O 2025 از مدل های پیشرفته خود

صدیقه حسن زهی

پژوهشگر و دانشجوی کارشناسی ارشد. رشته حقوق تجارت بین الملل دانشگاه بین المللی تهران، ایران

ناصر حسن زهی

Researcher ID: (598646)

پژوهشگر و دانش آموخته مقطع دکتری مدیریت آموزشی دانشگاه شهید بهشتی ایران عضو بنیاد نخبگان پژوهشی


پیشگفتار


 در کنفرانس توسعه دهندگان گوگل I/O 2025 که در تاریخ ۲۰ می ۲۰۲۵ برگزار شد، گوگل از به روزرسانی های خیره کننده ای برای مدل های هوش مصنوعی Gemini 2.5 خود رونمایی کرد که نوید بخش تحولی در دنیای فناوری است. این مدل ها، به ویژه Gemini 2.5 Pro و Gemini 2.5 Flash، با قابلیت های پیشرفته در زمینه های برنامه نویسی، آموزش، استدلال پیچیده و حتی ساخت اپلیکیشن های وب تعاملی، مرزهای هوش مصنوعی را جا به جا کرده اند. در این خبر، به بررسی مهم ترین ویژگی های اعلام شده در این رویداد می پردازیم که نشان دهنده تعهد گوگل به پیشبرد فناوری هوش مصنوعی مسئولانه و خلاقانه است.Gemini 2.5 Pro: پیشتاز در آموزش و استدلالمدل Gemini 2.5 Pro ، عملکردی بی نظیر در درک متون طولانی و ویدئوها ارائه می دهد. این مدل با ادغام LearnLM، مجموعه ای از مدل های طراحی شده با همکاری کارشناسان آموزشی، به عنوان برترین مدل برای یادگیری شناخته شده است. در ارزیابی های انجام شده توسط کارشناسان، Gemini 2.5 Pro در مقایسه با سایر مدل های پیشرو، در تمامی پنج اصل علم یادگیری که برای ساخت سیستم های هوش مصنوعی آموزشی استفاده می شود، عملکرد بهتری داشته است. این قابلیت، آن را به ابزاری ایده آل برای پلتفرم های آموزشی و برنامه های یادگیری تبدیل کرده است.علاوه بر این، گوگل حالت آزمایشی Deep Think را معرفی کرد که با استفاده از تکنیک های جدید تحقیقاتی، توانایی مدل را در بررسی چندین فرضیه قبل از پاسخ گویی تقویت می کند. این حالت در آزمون USAMO 2025، یکی از سخت ترین معیارهای ریاضی، امتیازی چشمگیر کسب کرده و نشان دهنده پیشرفت قابل توجه در استدلال پیشرفته است.Gemini 2.5 Flash: سرعت و کارایی برای همهمدل Gemini 2.5 Flash، که اکنون در اپلیکیشن Gemini برای همه کاربران در دسترس است، با تمرکز بر پاسخ گویی سریع و کارایی بالا طراحی شده است. این مدل از ماه ژوئن ۲۰۲۵ در Google AI Studio برای توسعه دهندگان و در Vertex AI برای شرکت ها عرضه خواهد شد. به روزرسانی های اخیر این مدل، آن را به گزینه ای ایده آل برای توسعه دهندگان تبدیل کرده که به دنبال ساخت اپلیکیشن های وب تعاملی و غنی هستند.Gemini 2.5 Flash در جدول رتبه بندی برنامه نویسی WebDev Arena با امتیاز ELO 1415 پیشتاز است و در تمام معیارهای LMArena، که ترجیحات انسانی را ارزیابی می کند، رتبه اول را کسب کرده است. این مدل با قابلیت بودجه تفکر (thinking budgets) به توسعه دهندگان امکان می دهد تا تعادل بین هزینه، کیفیت و تاخیر را کنترل کنند.قابلیت های جدید: شفافیت و تعامل پیشرفته

یکی از نوآوری های کلیدی معرفی شده در I/O 2025، ویژگی Thought Summaries در API Gemini و Vertex AI است. این قابلیت، فرآیند تفکر مدل را به صورت ساختاریافته با سرفصل ها و جزئیات کلیدی ارائه می دهد، که درک و رفع اشکال تعاملات با مدل را برای توسعه دهندگان و کاربران آسان تر می کند. این شفافیت به ویژه برای برنامه های پیچیده ای که نیاز به دقت بالا دارند، ارزشمند است.علاوه بر این، Live API گوگل اکنون نسخه پیش نمایش ورودی صوتی-تصویری و خروجی صوتی بومی را ارائه می دهد که امکان ایجاد مکالمات طبیعی تر را فراهم می کند. کاربران می توانند تن صدا، لهجه و سبک گفتار مدل را تنظیم کنند، مثلا از آن بخواهند داستان را با صدایی دراماتیک روایت کند. قابلیت هایی مانند گفت وگوی عاطفی (Affective Dialogue)، که احساسات کاربر را تشخیص می دهد، و پاسخ گویی هوشمند در برابر نویزهای پس زمینه، تجربه کاربری را به سطح جدیدی ارتقا داده اند.کاربردهای خلاقانه و مسئولانهگوگل در I/O 2025 نشان داد که چگونه Gemini 2.5 می تواند در زمینه های خلاقانه مانند توسعه بازی های ویدیویی و ساخت اپلیکیشن های وب بدرخشد. این مدل قادر است با دریافت یک خط دستور، کد اجرایی برای یک بازی ویدیویی تولید کند و در معیار SWE-Bench Verified، استاندارد صنعت برای ارزیابی کدگذاری، امتیاز ۶۳.۸٪ را کسب کرده است.گوگل همچنین بر تعهد خود به توسعه هوش مصنوعی مسئولانه تاکید کرد. به روزرسانی های امنیتی Gemini 2.5 آن را به یکی از امن ترین مدل های این شرکت تبدیل کرده است. جزئیات بیشتر در این زمینه در وبلاگ Google DeepMind و کارت مدل به روزشده Gemini 2.5 Pro در دسترس است.دسترسی و آیندهGemini 2.5 Pro Experimental هم اکنون برای توسعه دهندگان در Google AI Studio و برای کاربران Gemini Advanced از طریق منوی انتخاب مدل در دسترس است. این مدل در هفته های آینده در Vertex AI نیز عرضه خواهد شد. Gemini 2.5 Flash نیز به زودی برای عموم کاربران و شرکت ها در دسترس قرار می گیرد.گوگل با دریافت بازخورد کاربران و توسعه دهندگان، به بهبود سریع این مدل ها ادامه می دهد تا آن ها را به ابزاری مفیدتر و قدرتمندتر تبدیل کند. این پیشرفت ها نه تنها تجربه کاربری را بهبود می بخشند، بلکه راه را برای کاربردهای نوآورانه در آموزش، برنامه نویسی و خلاقیت هموار می کنند.📷 نتیجه گیریرونمایی از Gemini 2.5 در Google I/O 2025 نقطه عطفی در مسیر پیشرفت هوش مصنوعی است. با قابلیت هایی مانند استدلال پیشرفته، پشتیبانی چندرسانه ای و شفافیت در فرآیند تفکر، این مدل ها آماده اند تا نحوه تعامل ما با فناوری را بازتعریف کنند. از آموزش گرفته تا توسعه نرم افزار و خلق محتوای خلاقانه، Gemini 2.5 نشان دهنده تعهد گوگل به ساخت هوش مصنوعی است که نه تنها قدرتمند، بلکه مفید، امن و دسترس پذیر برای همه است. آینده هوش مصنوعی با Gemini 2.5 روشن تر از همیشه به نظر می رسد. در کنفرانس سالانه توسعه دهندگان گوگل (I/O 2025)، جمینای (Gemini) بدون شک ستاره اصلی رویداد بود. گوگل با معرفی مجموعه ای از به روزرسانی های گسترده و قابلیت های پیشگامانه، چشم انداز خود را برای تبدیل جمینای به شخصی ترین، قدرتمندترین و پیش فعال ترین دستیار هوش مصنوعی جهان به نمایش گذاشت. این آپدیت ها شامل قابلیت های تعاملی زنده، مدل های تولید تصویر و ویدیوی پیشرفته، ابزارهای پژوهشی عمیق تر و پلن های اشتراکی جدیدی است که تجربه کاربری را در تمام سطوح بازتعریف می کند.تعامل زنده و چندرسانه ای: چشم و گوش جدید جمیناییکی از بزرگ ترین و هیجان انگیزترین رونمایی ها، عرضه عمومی و رایگان قابلیت Gemini Live برای تمام کاربران اندروید و iOS بود. این ویژگی به کاربران اجازه می دهد تا با استفاده از دوربین گوشی خود، هر چیزی را به جمینای نشان دهند و به صورت صوتی و زنده با آن گفتگو کنند. این قابلیت، مرزهای تعامل متنی را از بین برده و به کاربران امکان می دهد تا برای حل مشکلات فنی (مانند تعمیر یک وسیله)، دریافت مشاوره خرید یا هر وظیفه بصری دیگری، کمک آنی و تصویری دریافت کنند. طبق آمار گوگل، مکالمات در حالت Live به طور متوسط پنج برابر طولانی تر از مکالمات متنی است که نشان دهنده جذابیت و کارایی بالای آن است. در هفته های آینده، این قابلیت با اپلیکیشن های کلیدی گوگل مانند Calendar، Maps، Tasks و Keep یکپارچه تر خواهد شد تا به یک دستیار واقعی در برنامه ریزی های روزمره تبدیل شود.در کنار تعامل زنده، گوگل از دو مدل تولید محتوای چندرسانه ای جدید و قدرتمند خود رونمایی کرد. مدل Imagen 4 که اکنون در اپلیکیشن جمینای تعبیه شده، به دلیل کیفیت خیره کننده تصاویر، جزئیات واقع گرایانه و توانایی بسیار بهتر در رندر کردن متن و تایپوگرافی در داخل تصاویر شناخته می شود. این مدل برای طراحی های حرفه ای، گرافیک های شبکه های اجتماعی و دعوت نامه ها ابزاری ایده آل است.شگفت انگیز تر از آن، مدل Veo 3 بود؛ یک مدل تولید ویدیوی پیشرفته که برای اولین بار در جهان از قابلیت تولید بومی صدا پشتیبانی می کند. کاربران می توانند با یک دستور متنی ساده، نه تنها یک صحنه ویدیویی، بلکه افکت های صوتی، صداهای پس زمینه محیطی و حتی دیالوگ بین شخصیت ها را نیز تولید کنند. این قابلیت تجربه ای کاملا فراگیر و سینمایی ایجاد می کند و در حال حاضر برای مشترکین پلن Google AI Ultra در دسترس است. ابزارهای پژوهشی و خلاقیت بی حد و مرزگوگل با به روزرسانی ابزارهای Deep Research و Canvas، قدرت تحلیل و خلاقیت را به سطح جدیدی رسانده است. قابلیت Deep Research اکنون به کاربران اجازه می دهد تا منابع خصوصی خود مانند فایل های PDF و تصاویر را آپلود کرده و آن ها را با داده های عمومی وب ترکیب کنند. این ویژگی به یک پژوهشگر بازار امکان می دهد تا گزارش های فروش داخلی خود را با روندهای بازار جهانی مقایسه کند یا به یک محقق دانشگاهی کمک می کند تا مقالات کمیاب را به مرور ادبیات خود اضافه نماید. به زودی، امکان اتصال به گوگل درایو و جیمیل نیز برای دسترسی آسان تر به اطلاعات شخصی فراهم خواهد شد.ابزار Canvas که به عنوان یک فضای خلاقیت در جمینای توصیف می شود، با قدرت مدل های جدید Gemini 2.5، هوشمندتر و کارآمدتر شده است. کاربران می توانند اینفوگرافیک های تعاملی، آزمون های آموزشی و حتی پادکست های صوتی (Audio Overviews) به ۴۵ زبان زنده دنیا تولید کنند. اما نقطه اوج قدرت این ابزار، توانایی آن در تبدیل ایده های پیچیده به کد های برنامه نویسی کاربردی با سرعت و دقت بالاست؛ مفهومی که از آن با عنوان "Vibe coding" یاد می شود و موانع ورود به دنیای نرم افزار را به شدت کاهش می دهد.

یکپارچه سازی، دسترس پذیری و پلن های جدیدگوگل با ادغام جمینای در مرورگر کروم (برای مشترکین Pro و Ultra در آمریکا)، گام مهمی در جهت حضور همیشگی این دستیار برداشته است. این قابلیت به کاربران اجازه می دهد تا در حین وب گردی، به سرعت اطلاعات پیچیده را خلاصه یا سوالات خود را مطرح کنند. همچنین، با معرفی آزمون های تعاملی برای دانشجویان و ارائه یک سال اشتراک رایگان پلن Google AI Pro به دانشجویان کالج در آمریکا، برزیل، ژاپن، اندونزی و بریتانیا، گوگل سرمایه گذاری ویژه ای روی بخش آموزش کرده است.در نهایت، گوگل ساختار اشتراک های خود را با معرفی دو پلن جدید بازنگری کرد:(Google AI Pro ($19.99/month: این پلن جایگزین Gemini Advanced شده و مجموعه ای از ابزارهای هوش مصنوعی پیشرفته با محدودیت های استفاده بالاتر را ارائه می دهد. (Google AI Ultra ($249.99/month: این پلن پریمیوم برای پیشگامان و کاربران حرفه ای طراحی شده و بالاترین محدودیت استفاده، قوی ترین مدل ها (مانند Veo 3) و دسترسی زودهنگام به قابلیت های آزمایشی را فراهم می کند. مهم ترین ویژگی انحصاری این پلن، دسترسی به Agent Mode است؛ یک قابلیت آزمایشی که در آن کاربر فقط هدف نهایی را اعلام می کند و جمینای به طور هوشمند تمام مراحل پیچیده، از جمله وب گردی زنده و تحقیق عمیق را برای رسیدن به آن هدف، مدیریت و اجرا می کند. این به روزرسانی ها در مجموع نشان می دهند که جمینای از یک چت بات ساده فراتر رفته و در حال تبدیل شدن به یک پلتفرم هوشمند یکپارچه است که در تمام جنبه های زندگی دیجیتال کاربران حضور خواهد داشت.