المنشور

多模态生成的行业「黑药丸」:扩散模型只是渲染外壳,智能灵魂全在语言

币界网
币界网
币界网消息,AI姨在Latent Space播客中指出,当前的视频与图像生成模型并非真正理解物理世界,扩散模型本质上只是一个不具备物理认知能力的像素级渲染器。以英伟达Cosmos模型为例,负责画面渲染的核心扩散模型仅有7b参数,而真正的智能中枢是由大语言模型(LLM)担任的提示词重写器。最终视频的逻辑质量与匹配度,几乎完全取决于语言模型对提示词的重写质量,而非扩散模型本身。这种视觉与语言的解耦预示着人机交互将迎来彻底重构。

إخلاء المسؤولية: يُقدَّم محتوى OKX Orbit لأغراض إرشادية فقط. اعرف المزيد

الردود

لا تعليقات حتى الآن. كُن أول من يرد!

Related Flash News

Blockbeatsمنذ 10 دقائق

تقنية الفوتونيات السيليكون Spectrum-X الإيثرنت من Nvidia الآن في الإنتاج الكامل، وتوفر كفاءة طاقة شبكة تفوق خمسة أضعاف أجهزة الإرسال والاستقبال التقليدية

Odailyمنذ 2 ساعتَين

دفعت قطاعات الذكاء الاصطناعي والطاقة المؤشرات الثلاثة الرئيسية إلى مستويات جديدة، حيث تصدرت عقود الأسهم الأمريكية المتعلقة ببوابة الصناعة من حيث حجم التداول

Blockbeatsمنذ 4 ساعاتٍ

تدعي "أسطورة الأسهم الجديدة" سيرينيتي أن SIVE تواجه تطورا إيجابيا حاسما آخر، حيث شكلت شراكة استراتيجية مع GFS لدخول سوق البصريات القابلة للشحن

Blockbeatsمنذ 6 ساعاتٍ

تقرير بحثي آخر نظرة عامة على قطاع الذكاء الاصطناعي في الولايات المتحدة: لا يزال التخزين/الذاكرة هو المحور الأقوى، حيث ترفع المؤسسات بشكل جماعي أسعارها المستهدفة

币界网منذ 6 ساعاتٍ

0x76fe... 12fd: أكبر مركز يفتح مراجعة في الصباح، يهيمن عليه ثيران الحيتان

币界网منذ 7 ساعاتٍ

حاسوب OpenAI العملاق من فئة الجيجاوات يبدأ البناء: تصل التكلفة إلى 50 مليار دولار، لكن الطلب على قوة الحوسبة لا يزال ناقصا حتى مع انخفاض الأسعار

Blockbeatsمنذ 7 ساعاتٍ

اليوم الأول لسهم بينانس في الولايات المتحدة: عشاق العملات الرقمية يفضلون أسهم نانو، حجم تداول 600 مليون يتراكم الأموال التي تواجه 'مشاكل غير محدودة في الأسهم'

Odailyمنذ 7 ساعاتٍ

جنسن هوانغ: من المتوقع أن تصبح مارفيل الشركة القادمة ذات القيمة السوقية التي تبلغ قيمتها تريليون دولار

TechFlowمنذ 14 ساعة

التقى رئيس مجموعة SK تشي تاي-وون بجنسن هوانغ في تايبيه، مؤكدا تعميق التعاون بين الأسواق البريطانية

Odailyمنذ 20 ساعة

ارتفع سعر سهم آي بي إم بعد إعجاب فيديو ترامب قبل ستة أشهر