Великий огляд Nvidia RTX 4090 Founders Edition
PC Gamer опублікував великий огляд RTX 4090, яка на даний момент є вершиною лінійки Ada Lovelace.
Кілька років тому, під час презентації відеокарт Ampere RTX 30, я написав другу щось на кшталт "це настільки великий прорив, що цієї продуктивності вистачить на добрий десяток років". Тоді я озирався на свою 1060 6GB, яка дозволяла грати практично у все на адекватних налаштуваннях і працювала уже не один рік. Мені здалось, що покупка RTX 3070 забезпечить мені щонайменше 5 років ігор на високих налаштуваннях. А верхівка лінійки - RTX 3080Ti/3090/3090Ti, які в ігрових завданнях відрізняються не так суттєво, на мою думку була вершиною розвитку технологій.
Нещодавно пройшла презентація Ada Lovelace - RTX 40. Хоча відеокартам виділили значно менше часу, ніж демонстрації нових технологій, я сидів з відчуттям, ніби моя SUPRIM 3070 в один момент стала "затичкою". Усі презентаційні матеріали показували приріст продуктивності 2х, 3х, понад 4х, а я все сильніше втискався в крісло.
Звісно, як адекватна людина, я чудово розумію, що крім мене існує багато користувачів, які досі сидять на GTX 10 лінійці відеокарт. Хтось встиг отримати трасування променів в лінійці RTX 20, а я вичекав, і моя RTX 3070 досі здатна показувати хороший результат в іграх. Та і презентовані нові відеокарти це вершина лінійки, яка все ще буде недоступною для більшості користувачів через високу ціну.
З іншого боку, весь цей феноменальний приріст продуктивності досягається переважно за рахунок більш розвинутого штучного інтелекту, збільшення кількості тензорних ядер та роботи додаткових алгоритмів. Тобто "реальна" продуктивність відеокарти без DLSS 3.0 може бути нижчою, ніж ті показники, якими хвалилась Nvidia. Тут і виникає цілком логічне прагнення дізнатися - що ж насправді може RTX 4090, та чи варто викидати на смітник свою 3070 і бігти в магазин за оновленням.
Дизайн, архітектура та характеристики Nvidia RTX 4090
Для початку варто розібратися з основними характеристиками, щоб сформувати чітку відповідь на питання, за рахунок чого така продуктивність, чому вистачає такого охолодження, чому такі габарити тощо.
Розпочнемо огляд з дизайну. Звісно, у вендорів він може відрізнятися, як і продуктивність самої відеокарти, але як показала практика 30-ї лінійки відеокарт, зміни не можна назвати суттєвими, в більшості випадків використовуються референсні схеми побудови плат, а охолодження у виконанні вендорів може бути як кращим, так і гіршим. Тому для оцінки і варто брати Founders Edition, як еталон.
Дизайн Nvidia RTX 4090
На перший погляд здається, що перед нами все та ж RTX 3090/3090Ti, проте це не так. Розміри 3090/3090Ti 336 mm x 140 mm x 61 mm (3 слоти) і є аналогічними з 4090. Зміни торкнулися переважно дизайну. Змінився колір та розміри граней, бокова вставка та кулер, який втратив 2 лопаті в новому поколінні.
Мало чим змінилися і плати відеокарт. У 3090 була додаткова контактна площадка під SLI, а також чіпи пам'яті, розпаяні на тиловій стороні плати. У 3090Ti та 4090 немає SLI, а банки пам'яті розпаяні на одній стороні.
Тому, в цілому, перед нами дизайн минулого покоління, який Nvidia вирішила лише злегка освіжити та не витрачати коштів на створення нового. Карта хоч і виглядає, як її попередники, але все одно лишається достатньо красивою, щоб бути бажаною у більшості ПК. А якщо згадати досвід минулих років, то і там дизайн між декількома сусідніми поколіннями мінявся не відчутно.
Архітектура Nvidia RTX 4090 Founders Edition
Графічний монстр базується на першому відеочіпі Ada Lovelace у цій лінійці - AD-102.
Проте цей чіп - не повна версія AD-102. Важко уявити, але навіть в такого гіганта продуктивності є відключені блоки. Імовірно, такий хід компанія зробила через намір в подальшому випустити 4090Ti, або ж на виробництві доволі багато чипів виготовлялись з забракованими блоками, які довелось відключати. Навіть неповний AD-102 містить у собі 16384 CUDA ядра, в 128 потокових мультипроцесорах (SM). У порівнянні з флагманом Ampere GA102, яким оснащувалась RTX 3090Ti, це на 52% більше.
Повний чіп AD-102 складається з 18432 ядер CUDA і 144 SM. Це 144 RT-ядра 3-покоління та 576 тензорних ядер четвертої генерації. Саме такими, імовірно, будуть характеристики RTX 4090Ti (або ж компанія повернеться до назви Titan), адже виготовляли зовсім інший чіп компанії обійдеться надто дорого.
Хоча чутки йшли про захмарні 48 гігабайт GDDR6x, проте в реальності нас чекає всього половина - 24GB, які забезпечують пропускну здатність 1008Гб/с та працюють на швидкості 21 Гбіт/с.
GeForce RTX 4090 | GeForce RTX 3090 Ti | |
Літографія | TSMC 4N | Samsung 8N |
CUDA-ядра | 16,432 | 10,752 |
SM | 128 | 84 |
Тензорні ядра | 128 | 84 |
RT-ядра | 512 | 336 |
ROPs | 176 | 112 |
Тактова частота | 2,520MHz | 1,860MHz |
Об'єм пам'яті | 24GB GDDR6X | 24GB GDDR6X |
Швидкість пам'яті | 21Gbps | 21Gbps |
Пропускна здатність пам'яті | 1,008GB/s | 1,008GB/s |
Кеш L1 та L2 | 16,384KB | 73,728KB | 10,752KB | 6,144KB |
Транзистори | 76.3 мільярди | 28.3 мільярди |
Площа кристала | 608.5mm² | 628.5mm² |
TGP | 450W | 450W |
Ціна | $1,599 | £1,699 | $1,999 | £1,999 |
Будова мультипроцесорів не сильно змінилась у порівнянні з Ampere. Кожен SM використовує ті самі 64 виділені блоки FP32, але з вторинними блоками з 64 одиниць, які можуть розділятися між обчисленнями з плаваючою комою та цілочисельними, як буде необхідно. Все як було з Ampere.
Ви зможете побачити схожість архітектур з точки зору растеризації, дивлячись на відносну різницю в продуктивності між RTX 3090 і RTX 4090. Якщо проігнорувати трасування променів та масштабування, то ми отримаємо відповідний приріст продуктивності, щ буде трохи вищим. Простими словами, якщо не задіювати RT та Тензорні ядра, і проводити тест без DLSS та трасування променів, то різниця між RTX 3090 та RTX 4090 уже не буде настільки відчутною. Проте приріст все одно відчутний і досягається за рахунок відмінностей.
Однією з найбільших відмінностей став техпроцес, відповідно до якого виготовлялись чіпи Ada Lovelace. На зміну 8N Samsung, який використовувався в чіпах Ampere, прийшов TSMC-built 4N, який дозволив при тій же споживаній потужності видавати вдвічі більшу продуктивність. Також завдяки меншому техпроцесу вдалось вмістити тепловиділення в 450W.
Крім цього менший техпроцес дозволив реалізувати суттєве збільшення тактової частоти. При заявленій частоті 2520 МГц, оглядачам з PCGamer взалось розігнати свою відеокарту до 2716 МГц, що майже на 1ГГц швидше за RTX 3090 (1,860MHz).
Інженерам Nvidia вдалося вмістити в AD-102 76.3 мільярда транзисторів, порівняно з 28.3 мільярдами у GA-102. При цьому площа кристала збільшилась всього на 20мм2 порівняно з попереднім флагманом (628мм2 проти 608мм2). Для довідки, чіп TU102 RTX 2080 Ti мав 754 мм² і містив лише 18,6 мільярда 12-нм транзисторів, з чого ми можемо лише дивуватися, як інженерам Nvidia вдається "фарширувати" кремній транзисторами.
Якщо порівнювати AD-102 з процесором Nvidia Hopper H100, то перший поступається лише трохи, адже Хоппер складається з 80 мільярдів транзисторів на площі 814мм2. З цього можна зробити висновок, що AD-102 обходиться доволі дорого у виробництві. Імовірно, компанія отримає значно більше прибутку від продажу "простіших" та слабших відеокарт 4060/70, де виробництво чіпа буде дешевшим. Зменшити вартість виробництва можна і використовуючи чиплетну архітектуру, проте поки що Nvidia дотримується "однокристальної" стратегії.
Варто згадати і приріст кешу. Попереднє покоління GA102 містило 6144КБ спільного L2 кешу, а в Ada Lovelace цей показник вдалось збільшити в 16 разів, до 98304КБ L2 в повному SM AD 102.
Чіп 4090 має трішки менший об'єм кешу L2 - 73728КБ. Обсяг кешу L1, який припадає на один блок SM не змінився. Проте змінилась сама кількість SM, що означає ріст і цього показника у порівнянні з Ampere.
Покращені технології RTX та DLSS 3.0
Проте геймери одним раструванням не обійдуться. Звісно, колись трасування променів на масштабування зображення за допомогою штучного інтелекту в реальному часі буквально "рвало дахи" усій спільноті. А тепер RTX та DLSS широко використовуються навіть у невеликих проектах. До слова, навіть деякі модифікації на старенькі ігри NFS, TES тощо використовують RTX. Тому важливо розібратися, який результат може забезпечити AD102 у цих завданнях.
Тут також відбулися значні зміни в потоковому мультипроцесорі. Слід звернути увагу на суттєві зміни, яких зазнали RT-ядра третього покоління. Попередні RT-ядра містили пару пару спеціалізованих модулів — Box Intersection Engine і Triangle Intersection Engine — які знімали значну частину робочого навантаження RT з решти SM під час обчислення алгоритму ієрархії обмежувального об’єму (BVH) у процесі трасування променів.
Ada представляє ще два дискретних блоки, щоб розвантажити ще більше роботи з SM: Opacity Micromap Engine і Displaced Micro-Mesh Engine. Перший суттєво прискорює обчислення під час роботи з прозорими елементами в сцені, а другий призначений для розбиття геометрично складних об’єктів, щоб скоротити час, необхідний для проходження всього обчислення BVH.
До цього додається те, що Nvidia називає «такою ж великою інновацією для графічних процесорів, якою нестандартне виконання було для центральних процесорів у 1990-х роках». Переупорядкування виконання шейдерів (SER) було створено для перемикання робочого навантаження затінення, дозволяючи чіпам Ada значно підвищити ефективність графічного конвеєра, коли справа доходить до трасування променів шляхом перепланування завдань на льоту.
Над схожою технологією працює Intel у своїх відеокартах Alchemist, і має більші успіхи, адже їх алгоритм не потребує участі розробників під час налаштування. Nvidia у свою чергу уже працює з Microsoft та іншими компаніями, що відмовитись від потреби спеціального API для інтеграції SER у код гри та додати цю функцію в стандартні графічні API, такі як DirectX 12 і Vulkan.
Тепер гравці зможуть просто намазувати кадри на хліб, та розкидати ними на право і на ліво, адже в гру вступає DLSS 3.0. Ця технологія дозволяє не лише масштабувати картинку з меншої роздільності до більшої, а й створювати додаткові кадри за допомогою потужного штучного інтелекту. ШІ передбачає на основі попередніх кадрів, яким буде наступний і створює його, додаючи в загальний відеопотік.
При цьому використовуються розширені апаратні блоки всередині тензорних ядер четвертого покоління, які називають блоками оптичного потоку, що дозволяють виконувати всі ці обчислення під час польоту. Потім ШІ використовує переваги нейронної мережі, щоб отримати всі дані з попередніх кадрів, векторів руху в сцені та блоку оптичного потоку разом, щоб створити абсолютно новий кадр, який також може включати трасування променів і ефекти постобробки.
Працюючи в поєднанні з масштабуванням DLSS (тепер воно називається DLSS Super Resolution), Nvidia заявляє, що за певних обставин ШІ генеруватиме три чверті початкового кадру за допомогою масштабування, а потім весь другий кадр за допомогою генерації кадрів. Тоді це означає, що загалом ШІ створює сім восьмих усіх відображених пікселів.
Тести Nvidia RTX 4090 в іграх, програмах та бенчмарках
Коли у відеокарти увімкнені всі ці чудові технології, такі як DLSS, RTX, Frame Generation - все виглядає чудово. В такому випадку RTX 3090 та RTX 3090Ti просто нервово покурюють десь в кутку, а спільнота не розуміє, на що тратила гроші минулого року.
А які результати будуть на "сухому кремнію" без усіх цих покращень? Тестувальники PCGamer провели низку тестів в синтетиці та іграх і дізналися на що здатна відеокарта в різних завданнях.
Проте одне відомо зараз. Якщо ви увімкнете стареньку гру, без обмеження максимальної кількості кадрів, то вас очікують дві проблеми. По перше, навіть в 4к генерується стільки кадрів, що "вузьким горлом" часто стає процесор. А якщо ви підкріпили систему хорошим процесором, то вас очікує всього 4к 120FPS, адже це максимум, який можуть видати порти відеокарти на монітор. Так-так. Ніяких 4к 144Гц. Вам доведеться попросити ваш монітор почекати наступного покоління.
Тести Nvidia RTX 4090 в синтетичних бенчмарках
Оцінка 3DMark Time Spy Extreme вдвічі вища, ніж у великого ядра Ampere, а ще до того, як у грі з’явиться трасування променів або DLSS, "необроблений кремній" також пропонує вдвічі вищу частоту кадрів 4K у Cyberpunk 2077.
Ось якими були результати тестування в 3D Mark:
RTX 4090 в 3D Mark Time Spy Exteme: (оцінка продуктивності в іграх)
3D Mark Port Royal (Оцінка трасування променів)
Судячи з графіків RTX 4090 справді потужна у всіх планах і значно випереджає конкурентів. Єдине, що варто зауважити, що всюди її порівнюють з RTX 3090 та не беруть до уваги Ti версію, яка дещо скорочує розрив. Це тому, що нас очікує майбутня 4090Ti, яка і "тягатиметься" з своїм аналогом з минулого покоління.
Тести Nvidia RTX 4090 в іграх
RTX 4090 - відеокарта не лише для робочих завдань, але й для ентузіастів, у яких в кишені будуть вільні 1600 вічнозелених, які можна витрати на таку обновку для свого ПК. З огляду на усі покращення, які більше спрямовані на геймінг, можна припустити, що у Nvidia це розуміли. Тому варто дізнатися і результати ігрових тестів.
Приріст продуктивності порівняно з попереднім поколінням часто значно нижчий, якщо ви дивитесь на відносну ігрову продуктивність в 1080p або навіть 1440p. У Far Cry 6 із такою роздільною здатністю RTX 4090 лише на 3% швидша за RTX 3090, а в 1080p і 4K дельта становить лише сім кадрів на секунду.
Фактично, при 1080p і 1440p RX 6950 XT насправді є швидшою ігровою картою. Звісно, це не є тенденцією, але такі випадки трапляються часто. У всьому винна специфіка оптимізації ігор, або її відсутність взагалі.
Продуктивність 4090 в 1440p (2к):
У 4K підвищення продуктивності з покоління в покоління є досить вражаючим. Ігноруючи обмежену ігрову продуктивність Far Cry 6, ви бачите щонайменше на 61% вищу продуктивність порівняно з RTX 3090. Це добре поєднується зі збільшенням спеціального апаратного забезпечення для растеризації, підвищеною тактовою частотою та більшим обсягом кешу. Додайте деякі контрольні показники з увімкненим трасуванням променів, і ви зможете побачити на 91% вищу частоту кадрів у 4K.
Тести RTX 4090 в 4К:
Тести покращеної технології DLSS 3.0 на RTX 4090
Але растеризація є лише частиною сучасних ігор; апскейлінг тепер є невід’ємною частиною продуктивності GPU. Тести ігор проводились з вимкненим DLSS, інакше неможливо порівняти "голу" продуктивність відеокарт.
Однак важливо побачити, що може дати масштабування, особливо з чимось таким потенційно кардинальним, як DLSS 3 із генерацією кадрів. І завдяки графічно важкій грі, як-от Cyberpunk 2077, у яку можна грати з налаштуваннями 4K RT Ultra із частотою кадрів 147 кадрів/с, легко побачити потенціал, який вона пропонує.
Ви спостерігаєте підвищення продуктивності порівняно з RTX 3090 Ti, коли ця карта працює в режимі продуктивності DLSS 4K Cyberpunk 2077, приблизно на 145%. Якщо просто поглянути на RTX 4090 окремо, порівняно з її продуктивністю sans-DLSS, ми бачимо приріст продуктивності на 250%. Цей показник менший для F1 22, де є певне обмеження ЦП — навіть із Core i9 12900K, — але ви все одно побачите збільшення продуктивності до 51% у порівнянні з RTX 3090 Ti із увімкненим DLSS.
Тести RTX 4090 DLSS:
Знову ж таки, якщо ви просто запустите RTX 4090 без масштабування порівняно з увімкненою 4K, ви побачите збільшення частоти кадрів на 150%.
На MS Flight Sim, протестованому зі збіркою раннього доступу, що підтримує DLSS 3, ця неймовірно пов’язана з процесором гра добре реагує на генерацію кадрів. Фактично, оскільки гра настільки обмежена ЦП, немає фактичної різниці між запуском із увімкненим DLSS чи без нього, якщо у вас не запущено генерацію кадрів. Але коли ви працюєте з цими штучними покращеннями, ви побачите легке подвоєння продуктивності, на 113% вище в тестуванні.
Ось порівняння графіки в Нативному 4К, 4К з DLSS та 4К з DLSS та генерацією кадрів.
Для самітної гри Frame Generation - дуже бажана технологія. Вона допомагає усунути розмиття та недоліки зображення, спровоковані DLSS.
Проте доведеться добряче зачекати, поки цю технологію впровадять у більшість відомих ігор. Розробникам потрібен час, щоб скористатися новою магією масштабування, якою б простою, за словами Nvidia, вона не була. Вона також обмежена графічним процесором Ada Lovelace, що означає потребу покупки RTX 4090 за 1600 доларів США на момент запуску, а потім RTX 4080 за 1200 доларів США в листопаді.
Іншими словами, Frame Generation не буде доступним для переважної більшості геймерів, доки Nvidia не вирішить, що хоче продавати деякі дійсно доступні графічні процесори Ada. Ті, які, ймовірно, можуть отримати більше вигоди від такого підвищення продуктивності.
Температурні тести RTX 4090
А що із споживанням? Воно досягло майже 500W без "розгону", проте, дивуватися тут нічому, адже показники близькі до RTX 3090Ti. Враховуючи збільшення продуктивності Ada Lovelace, ріст споживання можна вважати і зовсім незначним. Все це досягається в тому числі і завдяки переходу на менший техпроцес TSMC 4N.
Збільшення частоти кадрів також означає, що з точки зору продуктивності на ват RTX 4090 є найефективнішим сучасним графічним процесором на ринку. Доволі дивно говорити таке про карту, яка спочатку, за чутками, була більше схожа на варіант TGP на 600 Вт.
Чи варто купляти Nvidia RTX 4090
Безумовно, вершина лінійки Ada Lovelace - гідне та вражаюче продовження історії розвитку відеокарт Nvidia. Проте, перед цим усі ми споглядати бум майнінгу, та сутички геймерів і майнерів в намаганнях отримати такі омріяні оновлення для свого комп'ютера та нарешті пограти в ігри з трасуванням променів та ультра-налаштуваннями.
Проте чергова епоха майнінгу завершилась так само стрімко, як і почалась. Ми перейшли в так-званий період крипто-зими, а майнери почали масово продавати своє "залізо" на вторинному ринку. Для Nvidia це означало колосальні втрати прибутку, адже навіщо йти в магазин та віддавати 700 доларів за те, що можна купити в непоганому стані на вторинному ринку за вдвічі нижчою ціною.
Саме тому в компанії виникла необхідність "заманити" геймерів новою продуктивністю, якої не було раніше. Ada Lovelace - дійсно потужна, але хто куплятиме відеокарту за 1600 вічнозелених (а в наших реаліях і всі 2000)? І чи втратила актуальність лінійка RTX 30? На мою думку, аж ніяк. Ринок досі наповнений відеокартами Ampere, які нарешті отримали адекватні цінники. Звісно, розробники можуть додавати до майбутніх ігор підтримку нових технологій Nvidia, які працюватимуть лише з Ada, але ігнорувати колосальну аудиторію власників відеокарт Ampere не вийде, адже гру з завищеними системними вимогами банально купить менше користувачів.
Що стосується DLSS 3.0 та Frame Generation - це дійсно сильні та потужні технології, які дозволяють буквально творити магію із зображенням. Проте, досі невідомо, чи немає можливості додати хоча б часткову підтримку цих технологій в відеокарти RTX 30, і варто трохи почекати.
Також очікуванню сприяє і те, що нам досі не показали усю лінійку відеокарт. RTX 4060 планується лише в наступному році, і досі невідомо, наскільки потужною буде вона.
Крім цього увагу варто звернути і на нові стандарти енергоспоживання відеокарт, які відтепер потребують якісних блоків живлення, а краще і взагалі блоків, створених за новим стандартом ATX 3.0.
Тому поки порадити до покупки RTX 4090 можна лише ентузіастам, або тим, хто використовує її для роботи. Іншим варто просто почекати, або ще міцніше полюбити свою відеокарту Ampere.
Ось таким був огляд RTX 4090. А своїми думками ви можете поділитися в коментарях.