Heim / Mobiles Betriebssystem / nvidia gpu boost 2.0 technologie. Grafikkarten. Screenshot-Plattform für Ansel-Spiele

nvidia gpu boost 2.0 technologie. Grafikkarten. Screenshot-Plattform für Ansel-Spiele

GPU-Boost 2.0

Mit der NVIDIA GeForce GTX 680 Grafikkarte haben wir ein wichtiges neues Feature: GPU Boost. Und die neue NVIDIA GeForce GTX Titan geht noch einen Schritt weiter, indem sie diese Funktion auf GPU Boost 2.0 erweitert. Die erste Version von GPU Boost 1.0 konzentrierte sich auf den maximalen Stromverbrauch, der in den anspruchsvollsten modernen Spielen erreicht wird. Dabei spielte die GPU-Temperatur keine besondere Rolle, außer vielleicht, wenn sie in die Nähe der kritischen Schwelle kam. Die maximale Taktfrequenz wurde anhand der relativen Spannung bestimmt. Der Nachteil lag auf der Hand: GPU Boost 1.0 konnte Situationen nicht verhindern, in denen es auch bei unkritischen Spannungen zu einem übermäßigen Temperaturanstieg kam.

NVIDIA GeForce GTX Titan – GPU-Boost 2.0

Die GeForce GTX Titan hat bereits zwei Parameter ausgewertet: Spannung und Temperatur. Das heißt, die relative Spannung (Vref) ist bereits auf der Grundlage dieser zwei Parameter bestimmt. Natürlich bleibt die Abhängigkeit von einzelnen GPUs bestehen, da es Unterschiede in der Chipproduktion gibt, sodass sich jede Grafikkarte von der anderen unterscheidet. Aber NVIDIA weist darauf hin, dass das Hinzufügen von Temperatur technisch gesehen eine durchschnittlich 3-7 Prozent höhere Boost-Übertaktung ermöglichte. Die GPU-Boost-2.0-Technologie könnte theoretisch auf ältere Grafikkarten portiert werden, was aber eher unwahrscheinlich ist.

NVIDIA GeForce GTX Titan – GPU-Boost 2.0

Schauen wir uns GPU Boost 2.0 genauer an. Utilities wie EVGA Precision Tool oder MSI Afterburner unterstützen bereits GPU Boost 2.0. Wir haben das EVGA Precision Tool in der Version 4.0 verwendet.

NVIDIA GeForce GTX Titan – GPU-Boost 2.0

GPU Boost 2.0 ist temperaturbewusst, und bei niedrigen Temperaturen kann die Technologie die Leistung deutlich steigern. Die Zieltemperatur (Tsoll) ist standardmäßig auf 80 °C eingestellt.

NVIDIA GeForce GTX Titan – GPU-Boost 2.0

Die GPU-Boost-2.0-Technologie enthält alle Features, die wir aus der ersten Technologiegeneration kennen, ermöglicht aber gleichzeitig zusätzlich die Einstellung einer höheren Spannung und damit höherer Taktfrequenzen. Für Übertakter ist es möglich, die Einstellungen zu ändern. Sie können die GPU-Überspannung aktivieren, aber seien Sie sich der potenziellen Verkürzung der Lebensdauer der Grafikkarte bewusst.

NVIDIA GeForce GTX Titan – GPU-Boost 2.0

Overclocker können Vref und Vmax erhöhen (OverVoltaging). Viele Benutzer wollten dies auf dem GK104, aber NVIDIA hat eine solche Möglichkeit weder Benutzern noch Herstellern anvertraut. Und die von uns getestete EVGA GTX 680 Classified Grafikkarte (Test und Review) ist nur ein großartiges Beispiel. Bei dieser Grafikkarte ermöglichte ein spezielles EVGA-Evbot-Modul den Benutzern die Kontrolle über Spannungen. Aber NVIDIA forderte EVGA dringend auf, zusätzliche Hardware von ihren Grafikkarten zu entfernen. Im Fall von GPU Boost 2.0 und OverVoltaging hat NVIDIA selbst einen Schritt in diese Richtung gemacht. So können Grafikkartenhersteller mehrere Modelle der GeForce GTX Titan herausbringen, etwa Standardversionen und werkseitig übertaktete Versionen. Die Aktivierung von OverVoltaging erfolgt über den VBIOS-Schalter (d. h. explizit für den Benutzer, damit er sich der möglichen Folgen bewusst ist).

ParameterBedeutung
Chip-CodenameGP104
Produktionstechnologie16-nm-FinFET
Anzahl der Transistoren7,2 Milliarden
Kernbereich314 mm²
Die Architektur
DirectX-Hardwareunterstützung
Speicherbus
1607 (1733)MHz
Rechenblöcke20 Streaming-Multiprozessoren einschließlich 2560 IEEE 754-2008 Gleitkomma-Skalar-ALUs;
Blöcke texturieren160 Texturadressierungs- und Filtereinheiten mit Unterstützung für FP16- und FP32-Komponenten in Texturen und Unterstützung für trilineare und anisotrope Filterung für alle Texturformate
Unterstützung überwachen
Spezifikationen der GeForce GTX 1080-Referenzgrafik
ParameterBedeutung
Kernfrequenz1607 (1733)MHz
2560
Anzahl der Texturblöcke160
Anzahl der Mischblöcke64
Effektive Speicherfrequenz10000 (4×2500) MHz
SpeichertypGDDR5X
Speicherbus256-Bit
Speichergröße8GB
320GB/Sek
etwa 9 Teraflops
103 Gigapixel/s
257 Gigabyte/s
ReifenPCI-Express 3.0
Anschlüsse
Energieverbrauchbis 180 W
Extra-EssenEin 8-Pin-Anschluss
2
Empfohlener Preis$599-699 (USA), RUB 54990 (Russland)

Das neue Modell der Grafikkarte GeForce GTX 1080 erhielt einen logischen Namen für die erste Lösung der neuen GeForce-Serie - sie unterscheidet sich von ihrem direkten Vorgänger nur durch eine geänderte Generationsnummer. Die Neuheit ersetzt nicht nur die Top-End-Lösungen in der aktuellen Linie des Unternehmens, sondern wurde auch für einige Zeit zum Flaggschiff der neuen Serie, bis die Titan X auf noch leistungsstärkeren GPUs veröffentlicht wurde. Darunter in der Hierarchie befindet sich auch das bereits angekündigte Modell GeForce GTX 1070, basierend auf einer abgespeckten Version des GP104-Chips, das wir weiter unten betrachten werden.

Die empfohlenen Preise für Nvidias neue Grafikkarte betragen 599 US-Dollar bzw. 699 US-Dollar für die reguläre und die Founders Edition (siehe unten), was ein ziemlich guter Deal ist, wenn man bedenkt, dass die GTX 1080 nicht nur vor der GTX 980 Ti, sondern auch vor der Titan X liegt. Heute ist das neue Produkt ohne Frage die leistungsstärkste Lösung auf dem Single-Chip-Grafikkartenmarkt und gleichzeitig günstiger als die leistungsstärksten Grafikkarten der vorherigen Generation. Bislang hat die GeForce GTX 1080 praktisch keinen Konkurrenten von AMD, sodass Nvidia einen für sie passenden Preis durchsetzen konnte.

Die fragliche Grafikkarte basiert auf dem GP104-Chip, der über einen 256-Bit-Speicherbus verfügt, aber der neue Typ von GDDR5X-Speicher arbeitet mit einer sehr hohen effektiven Frequenz von 10 GHz, was eine hohe Spitzenbandbreite von 320 GB / s ergibt - was fast auf Augenhöhe mit der GTX 980 Ti mit 384-Bit-Bus liegt. Die auf einer Grafikkarte mit einem solchen Bus installierte Speichermenge könnte 4 oder 8 GB betragen, aber es wäre dumm, unter modernen Bedingungen eine kleinere Menge für eine so leistungsstarke Lösung festzulegen, sodass die GTX 1080 8 GB Speicher erhielt, und diese Menge reicht aus, um beliebige 3D-Anwendungen mit beliebigen Qualitätseinstellungen über mehrere Jahre hinweg zu betreiben.

Das PCB der GeForce GTX 1080 unterscheidet sich verständlicherweise deutlich von den bisherigen PCBs des Unternehmens. Der Wert der typischen Leistungsaufnahme für Neulinge liegt bei 180 Watt – etwas höher als bei der GTX 980, aber deutlich niedriger als bei den schwächeren Titan X und GTX 980 Ti. Das Referenzboard verfügt über die üblichen Anschlüsse zum Anschluss von Bildausgabegeräten: einmal Dual-Link DVI, einmal HDMI und drei DisplayPort.

Referenzdesign der Founders Edition

Bereits mit der Ankündigung der GeForce GTX 1080 Anfang Mai wurde eine Sonderedition der Grafikkarte namens Founders Edition angekündigt, die einen höheren Preis hat als reguläre Grafikkarten der Partner des Unternehmens. Tatsächlich ist diese Edition das Referenzdesign der Karte und des Kühlsystems und wird von Nvidia selbst produziert. Man kann zu solchen Optionen für Grafikkarten unterschiedlich stehen, aber das von den Ingenieuren des Unternehmens entwickelte und mit hochwertigen Komponenten gefertigte Referenzdesign hat seine Fans.

Aber ob sie für eine Grafikkarte von Nvidia selbst mehrere tausend Rubel mehr bezahlen, ist eine Frage, die nur die Praxis beantworten kann. Auf jeden Fall werden zunächst die Referenz-Grafikkarten von Nvidia zu einem erhöhten Preis im Angebot erscheinen, und es gibt nicht viel Auswahl - das passiert bei jeder Ankündigung, aber die Referenz-GeForce GTX 1080 ist darin anders Es ist geplant, es in dieser Form während seiner gesamten Lebensdauer zu verkaufen, bis zur Veröffentlichung von Lösungen der nächsten Generation.

Nvidia glaubt, dass diese Ausgabe sogar gegenüber den besten Werken von Partnern ihre Vorzüge hat. Das Zwei-Slot-Design des Kühlers macht es beispielsweise einfach, sowohl Gaming-PCs mit relativ kleinem Formfaktor als auch Multi-Chip-Videosysteme auf Basis dieser leistungsstarken Grafikkarte zusammenzubauen (auch trotz des nicht empfohlenen Drei- und Vier-Chip-Modus). von der Firma). Die GeForce GTX 1080 Founders Edition hat einige Vorteile in Form eines effizienten Kühlers mit einer Verdunstungskammer und einem Lüfter, der erhitzte Luft aus dem Gehäuse drückt – dies ist die erste derartige Lösung von Nvidia, die weniger als 250 Watt Leistung verbraucht.

Im Vergleich zu früheren Referenzproduktdesigns des Unternehmens wurde der Stromkreis von vierphasig auf fünfphasig aufgerüstet. Nvidia spricht auch über die verbesserten Komponenten, auf denen das neue Produkt basiert, elektrisches Rauschen wurde ebenfalls reduziert, um die Spannungsstabilität und das Übertaktungspotential zu verbessern. Als Ergebnis aller Verbesserungen hat sich die Energieeffizienz des Referenzboards im Vergleich zur GeForce GTX 980 um 6 % erhöht.

Und um sich von den „normalen“ Modellen der GeForce GTX 1080 auch äußerlich abzuheben, wurde für die Founders Edition ein ungewöhnliches „chopped“ Gehäusedesign entwickelt. Was aber wohl auch zu der komplizierteren Formgebung von Verdampfungskammer und Kühler geführt hat (siehe Foto), was wohl einer der Gründe dafür war, für eine solche Sonderedition 100 Dollar Aufpreis zu bezahlen. Wir wiederholen, dass Käufer zu Beginn des Verkaufs keine große Auswahl haben werden, aber in Zukunft wird es möglich sein, sowohl eine Lösung mit ihrem eigenen Design von einem der Partner des Unternehmens als auch eine von Nvidia selbst durchgeführte Lösung zu wählen.

Neue Generation der Pascal-Grafikarchitektur

Die Grafikkarte GeForce GTX 1080 ist die erste Lösung des Unternehmens, die auf dem GP104-Chip basiert, der zur neuen Generation von Nvidias Pascal-Grafikarchitektur gehört. Obwohl die neue Architektur auf den in Maxwell erarbeiteten Lösungen basiert, weist sie auch wichtige funktionale Unterschiede auf, auf die wir später noch eingehen werden. Die wichtigste Veränderung aus globaler Sicht war das Neue technologischer Prozess Die, auf der die neue GPU hergestellt wird.

Durch den Einsatz der 16-nm-FinFET-Prozesstechnologie bei der Produktion von GP104-GPUs in den Fabriken des taiwanesischen Unternehmens TSMC konnte die Komplexität des Chips bei relativ geringer Fläche und geringen Kosten erheblich gesteigert werden. Vergleichen Sie die Anzahl der Transistoren und die Fläche der Chips GP104 und GM204 - sie liegen in der Nähe (der Chip der Neuheit ist sogar physisch kleiner), aber der Chip der Pascal-Architektur hat eine deutlich größere Anzahl von Transistoren und dementsprechend , Ausführungseinheiten, einschließlich derjenigen, die neue Funktionalität bereitstellen.

Aus architektonischer Sicht ist das erste Gaming-Pascal ähnlichen Lösungen der Maxwell-Architektur sehr ähnlich, obwohl es einige Unterschiede gibt. Wie Maxwell werden Prozessoren mit Pascal-Architektur unterschiedliche Konfigurationen von Graphics Processing Clusters (GPCs), Streaming Multiprocessors (SMs) und Speichercontrollern haben. Der SM-Multiprozessor ist ein hochgradig paralleler Multiprozessor, der Warps (Warps, Gruppen von 32 Befehlsströmen) auf CUDA-Kernen und anderen Ausführungseinheiten im Multiprozessor plant und ausführt. Detaillierte Informationen zum Design all dieser Blöcke finden Sie in unseren Testberichten zu früheren Nvidia-Lösungen.

Jeder der SM-Multiprozessoren ist mit der PolyMorph Engine gekoppelt, die Textur-Sampling, Tessellierung, Transformation, Vertex-Attributeinstellung und Perspektivenkorrektur übernimmt. Im Gegensatz zu den bisherigen Lösungen des Unternehmens enthält die PolyMorph Engine im GP104-Chip auch einen neuen Simultaneous Multi-Projection-Block, auf den wir weiter unten eingehen werden. Die Kombination des SM-Multiprozessors mit einer Polymorph-Engine wird bei Nvidia traditionell als TPC - Texture Processor Cluster bezeichnet.

Insgesamt enthält der GP104-Chip in der GeForce GTX 1080 vier GPC-Cluster und 20 SM-Multiprozessoren sowie acht Speichercontroller kombiniert mit 64 ROPs. Jeder GPC-Cluster verfügt über eine dedizierte Rasterisierungs-Engine und umfasst fünf SMs. Jeder Multiprozessor wiederum besteht aus 128 CUDA-Kernen, 256 KB Registerdatei, 96 KB Shared Memory, 48 KB L1-Cache und acht TMU-Textureinheiten. Das heißt, insgesamt enthält GP104 2560 CUDA-Kerne und 160 TMU-Einheiten.

Außerdem enthält der Grafikprozessor, auf dem die GeForce GTX 1080 basiert, acht 32-Bit-Speichercontroller (im Gegensatz zu den zuvor verwendeten 64-Bit-Speichercontrollern), was uns einen endgültigen 256-Bit-Speicherbus gibt. Acht ROPs und 256 KB L2-Cache sind an jeden der Speichercontroller gebunden. Das heißt, insgesamt enthält der GP104-Chip 64 ROPs und 2048 KB L2-Cache.

Dank architektonischer Optimierungen und einer neuen Prozesstechnologie wurde der erste Gaming-Pascal zur energieeffizientesten GPU aller Zeiten. Darüber hinaus trägt sowohl einer der fortschrittlichsten technologischen Prozesse, der 16-nm-FinFET, als auch die in Pascal durchgeführten Architekturoptimierungen im Vergleich zu Maxwell dazu bei. Nvidia konnte beim Umstieg auf eine neue Prozesstechnologie die Taktrate noch stärker steigern als erwartet. Der GP104 läuft mit einer höheren Frequenz als ein hypothetischer GM204, der im 16-nm-Verfahren hergestellt wurde. Dazu mussten die Nvidia-Ingenieure alle Engpässe bisheriger Lösungen, die eine Übertaktung ab einem bestimmten Schwellenwert verhindern, sorgfältig prüfen und optimieren. Infolgedessen läuft die neue GeForce GTX 1080 mit über 40 % höheren Taktraten als die GeForce GTX 980. Aber das ist noch nicht alles, was es mit den GPU-Taktänderungen auf sich hat.

GPU-Boost-3.0-Technologie

Wie wir von früheren Nvidia-Grafikkarten wissen, verwenden sie in ihren GPUs die GPU-Boost-Hardwaretechnologie, die darauf ausgelegt ist, die Betriebstaktgeschwindigkeit der GPU in Modi zu erhöhen, in denen sie ihre Leistungsaufnahme und ihre thermischen Grenzen noch nicht erreicht hat. Im Laufe der Jahre hat dieser Algorithmus viele Änderungen erfahren, und die dritte Generation dieser Technologie wird bereits im Videochip der Pascal-Architektur verwendet - GPU Boost 3.0, dessen Hauptinnovation eine feinere Einstellung der Turbofrequenzen in Abhängigkeit von der Spannung ist.

Wenn Sie sich erinnern, wie es funktioniert vorherige Versionen Technologie, dann ist die Differenz zwischen der Grundfrequenz (garantiert Mindestwert Frequenz, unter die die GPU zumindest in Spielen nicht fällt) und die Turbo-Frequenz wurde behoben. Das heißt, die Turbofrequenz war immer an eine bestimmte Menge von Megahertz über Basis. GPU Boost 3.0 führte die Möglichkeit ein, Turbo-Frequenz-Offsets für jede Spannung separat einzustellen. Der einfachste Weg, dies zu verstehen, ist mit einer Illustration:

Links ist der GPU-Boost der zweiten Version, rechts der dritte, der in Pascal erschien. Die feste Differenz zwischen den Basis- und Turbofrequenzen erlaubte es nicht, die vollen Fähigkeiten der GPU zu offenbaren, in einigen Fällen konnten GPUs früherer Generationen schneller arbeiten Spannung einstellen, aber eine feste Überschreitung der Turbofrequenz ließ dies nicht zu. In GPU Boost 3.0 erschien diese Funktion, und die Turbofrequenz kann für jeden der einzelnen Spannungswerte eingestellt werden, wodurch der gesamte Saft vollständig aus der GPU gepresst wird.

Praktische Dienstprogramme sind erforderlich, um das Übertakten zu verwalten und die Turbo-Frequenzkurve einzustellen. Nvidia selbst tut dies nicht, hilft aber seinen Partnern bei der Erstellung solcher Dienstprogramme, um das Übertakten zu erleichtern (natürlich innerhalb angemessener Grenzen). Zum Beispiel neu Funktionalität GPU Boost 3.0 wurde bereits in EVGA Precision XOC enthüllt, das einen dedizierten Übertaktungsscanner enthält, der automatisch die nichtlineare Differenz zwischen Grundfrequenz und Turbofrequenz bei unterschiedlichen Spannungen findet und einstellt, indem er einen integrierten Leistungs- und Stabilitätstest durchführt. Als Ergebnis erhält der Benutzer eine Turbo-Frequenzkurve, die perfekt zu den Fähigkeiten eines bestimmten Chips passt. Welches übrigens beliebig modifiziert werden kann manueller Modus.

Wie Sie im Screenshot des Utilitys sehen können, gibt es neben Informationen zur GPU und dem System auch Einstellungen zum Übertakten: Power Target (bestimmt den typischen Stromverbrauch beim Übertakten, in Prozent des Standards), GPU Temp Target (maximal zulässige Kerntemperatur), GPU Clock Offset (Überschreiten der Basisfrequenz für alle Spannungswerte), Memory Offset (Überschreiten der Frequenz des Videospeichers über den Standardwert), Overvoltage (zusätzliche Möglichkeit, die Spannung zu erhöhen).

Das Precision XOC-Dienstprogramm umfasst drei Übertaktungsmodi: Basic, Linear und Manual. Im Hauptmodus können Sie einen einzelnen Übertaktungswert (feste Turbofrequenz) über den Basiswert setzen, wie es bei früheren GPUs der Fall war. Im linearen Modus können Sie eine lineare Frequenzänderung von den minimalen zu den maximalen Spannungswerten für die GPU einstellen. Nun, im manuellen Modus können Sie für jeden Spannungspunkt im Diagramm eindeutige GPU-Frequenzwerte festlegen.

Das Dienstprogramm enthält auch einen speziellen Scanner zum automatischen Übertakten. Sie können entweder Ihre eigenen Frequenzpegel einstellen oder das Precision XOC-Dienstprogramm die GPU bei allen Spannungen scannen lassen und vollautomatisch die stabilsten Frequenzen für jeden Punkt auf der Spannungs- und Frequenzkurve finden. Während des Scanvorgangs erhöht Precision XOC schrittweise die Frequenz der GPU und überprüft ihren Betrieb auf Stabilität oder Artefakte, um eine ideale Frequenz- und Spannungskurve zu erstellen, die für jeden spezifischen Chip einzigartig ist.

Dieser Scanner kann an Ihre eigenen Anforderungen angepasst werden, indem das Zeitintervall zum Testen jedes Spannungswerts, die minimale und maximale zu testende Frequenz und deren Schritt eingestellt werden. Es ist klar, dass es besser wäre, einen kleinen Schritt und eine angemessene Testdauer festzulegen, um stabile Ergebnisse zu erzielen. Während des Tests kann ein instabiler Betrieb des Videotreibers und des Systems beobachtet werden, aber wenn der Scanner nicht einfriert, stellt er den Betrieb wieder her und findet weiterhin die optimalen Frequenzen.

Neuer Typ von Videospeicher GDDR5X und verbesserte Komprimierung

Die Leistung der GPU ist also erheblich gewachsen, und der Speicherbus ist nur 256 Bit geblieben - wird die Speicherbandbreite die Gesamtleistung einschränken und was kann dagegen getan werden? Es scheint, dass die Herstellung des vielversprechenden HBM der zweiten Generation noch zu teuer ist, sodass nach anderen Optionen gesucht werden musste. Seit der Einführung von GDDR5-Speicher im Jahr 2009 haben Nvidia-Ingenieure die Möglichkeiten der Verwendung neuer Speichertypen erforscht. Infolgedessen haben Entwicklungen zur Einführung eines neuen Speicherstandards GDDR5X geführt - dem bisher komplexesten und fortschrittlichsten Standard mit einer Übertragungsrate von 10 Gbit / s.

Nvidia gibt ein interessantes Beispiel dafür, wie schnell das ist. Zwischen den übertragenen Bits vergehen nur 100 Pikosekunden – während dieser Zeit legt ein Lichtstrahl eine Strecke von nur einem Zoll (etwa 2,5 cm) zurück. Und bei Verwendung von GDDR5X-Speicher müssen die Datenempfangsschaltkreise den Wert des übertragenen Bits in weniger als der Hälfte dieser Zeit auswählen, bevor das nächste gesendet wird - nur damit Sie verstehen, was moderne Technologie erreicht hat.

Um diese Geschwindigkeit zu erreichen, war die Entwicklung einer neuen E/A-Systemarchitektur erforderlich, die mehrere Jahre gemeinsamer Entwicklung mit Speicherchipherstellern erforderte. Neben der erhöhten Datenübertragungsrate hat sich auch die Energieeffizienz erhöht – GDDR5X-Speicherchips verwenden eine niedrigere Spannung von 1,35 V und werden mit neuen Technologien hergestellt, was den gleichen Stromverbrauch bei einer um 43 % höheren Frequenz ergibt.

Die Ingenieure des Unternehmens mussten die Datenübertragungsleitungen zwischen dem GPU-Kern und den Speicherchips überarbeiten und mehr darauf achten, Signalverlust und Signalverschlechterung auf dem gesamten Weg vom Speicher zur GPU und zurück zu verhindern. In der obigen Abbildung wird das erfasste Signal also als großes symmetrisches „Auge“ angezeigt, was auf eine gute Optimierung der gesamten Schaltung und die relative Leichtigkeit der Erfassung von Daten aus dem Signal hinweist. Darüber hinaus haben die oben beschriebenen Änderungen nicht nur zu der Möglichkeit geführt, GDDR5X mit 10 GHz zu verwenden, sondern sollten auch dazu beitragen, eine hohe Speicherbandbreite für zukünftige Produkte mit dem bekannteren GDDR5-Speicher zu erhalten.

Nun, wir haben durch die Verwendung des neuen Speichers eine Steigerung der Speicherbandbreite um mehr als 40 % erreicht. Aber reicht das nicht? Um die Effizienz der Speicherbandbreite weiter zu steigern, hat Nvidia die fortschrittliche Datenkomprimierung, die in früheren Architekturen eingeführt wurde, weiter verbessert. Das Speichersubsystem in der GeForce GTX 1080 verwendet verbesserte und mehrere neue verlustfreie Datenkomprimierungstechniken, die entwickelt wurden, um die Bandbreitenanforderungen zu reduzieren – bereits die vierte Generation der On-Chip-Komprimierung.

Algorithmen zur Datenkomprimierung im Speicher bringen gleich mehrere positive Aspekte mit sich. Die Komprimierung reduziert die in den Speicher geschriebene Datenmenge, das gleiche gilt für Daten, die vom Videospeicher in den L2-Cache übertragen werden, was die Effizienz der Verwendung des L2-Cache verbessert, da eine komprimierte Kachel (ein Block mit mehreren Framebuffer-Pixeln) eine kleinere Größe als hat eine unkomprimierte. Es reduziert auch die Datenmenge, die zwischen verschiedenen Punkten wie dem TMU-Texturmodul und dem Framebuffer gesendet wird.

Die Datenkomprimierungspipeline in der GPU verwendet mehrere Algorithmen, die abhängig von der "Komprimierbarkeit" der Daten bestimmt werden - der beste verfügbare Algorithmus wird für sie ausgewählt. Einer der wichtigsten ist der Delta-Farbkompressionsalgorithmus. Diese Komprimierungsmethode codiert die Daten als Differenz zwischen aufeinanderfolgenden Werten anstelle der Daten selbst. Die GPU berechnet die Differenz der Farbwerte zwischen den Pixeln in einem Block (Kachel) und speichert den Block als eine durchschnittliche Farbe für den gesamten Block plus Daten über die Differenz der Werte für jedes Pixel. Für Grafikdaten ist diese Methode meist gut geeignet, da sich die Farbe innerhalb kleiner Kacheln für alle Pixel oft nicht zu sehr unterscheidet.

Die GP104-GPU in der GeForce GTX 1080 unterstützt mehr Komprimierungsalgorithmen als frühere Maxwell-Chips. Somit ist der 2:1-Komprimierungsalgorithmus effizienter geworden, und zusätzlich sind zwei neue Algorithmen erschienen: ein 4:1-Komprimierungsmodus, geeignet für Fälle, in denen der Unterschied im Farbwert der Pixel eines Blocks sehr groß ist klein und einen 8:1-Modus, der eine konstante 4:1-Komprimierung von 2×2-Pixelblöcken mit einer 2x-Delta-Komprimierung zwischen den Blöcken kombiniert. Wenn eine Komprimierung überhaupt nicht möglich ist, wird sie nicht verwendet.

Letzteres kommt in der Realität jedoch sehr selten vor. Das geht aus Beispiel-Screenshots aus dem Spiel Project CARS hervor, die Nvidia zitiert, um die erhöhte Komprimierungsrate in Pascal zu veranschaulichen. In den Abbildungen wurden die Framebuffer-Kacheln, die die GPU komprimieren konnte, magenta schattiert, und diejenigen, die nicht verlustfrei komprimiert werden konnten, blieben in der ursprünglichen Farbe (oben - Maxwell, unten - Pascal).

Wie Sie sehen können, funktionieren die neuen Komprimierungsalgorithmen in GP104 wirklich viel besser als in Maxwell. Obwohl die alte Architektur auch die meisten Kacheln in der Szene komprimieren konnte, unterliegen viel Gras und Bäume an den Rändern sowie Autoteile nicht den alten Komprimierungsalgorithmen. Aber mit der Einbeziehung neuer Techniken in Pascal blieb eine sehr kleine Anzahl von Bildbereichen unkomprimiert - eine verbesserte Effizienz ist offensichtlich.

Durch Verbesserungen bei der Datenkomprimierung ist die GeForce GTX 1080 in der Lage, die pro Frame gesendete Datenmenge deutlich zu reduzieren. In Zahlen ausgedrückt spart die verbesserte Komprimierung zusätzlich 20 % der effektiven Speicherbandbreite ein. Zusätzlich zu der um mehr als 40 % höheren Speicherbandbreite der GeForce GTX 1080 im Vergleich zur GTX 980 durch die Verwendung von GDDR5X-Speicher ergibt dies insgesamt eine etwa 70 %ige Steigerung der effektiven Speicherbandbreite im Vergleich zum Modell der vorherigen Generation.

Unterstützung für Async Compute

Die meisten modernen Spiele verwenden neben Grafiken auch komplexe Berechnungen. Beispielsweise können Berechnungen bei der Berechnung des Verhaltens physikalischer Körper nicht vor oder nach grafischen Berechnungen durchgeführt werden, sondern gleichzeitig mit ihnen, da sie nicht aufeinander bezogen sind und nicht innerhalb desselben Rahmens voneinander abhängen. Ein weiteres Beispiel ist die Nachbearbeitung bereits gerenderter Frames und die Verarbeitung von Audiodaten, die auch parallel zum Rendern erfolgen kann.

Ein weiteres klares Beispiel für die Verwendung der Funktionalität ist die Asynchronous Time Warp-Technik, die in VR-Systemen verwendet wird, um das Ausgabebild entsprechend der Kopfbewegung des Spielers unmittelbar vor der Ausgabe zu ändern und das Rendern des nächsten Bildes zu unterbrechen. Ein solches asynchrones Laden von GPU-Kapazitäten ermöglicht es, die Effizienz der Verwendung seiner Ausführungseinheiten zu steigern.

Diese Workloads erstellen zwei neue GPU-Nutzungsszenarien. Die erste davon umfasst überlappende Lasten, da viele Arten von Aufgaben die Fähigkeiten von GPUs nicht vollständig nutzen und einige Ressourcen im Leerlauf sind. In solchen Fällen können Sie einfach zwei verschiedene Aufgaben auf derselben GPU ausführen und ihre Ausführungseinheiten trennen, um eine effizientere Nutzung zu erreichen – zum Beispiel PhysX-Effekte, die in Verbindung mit dem 3D-Rendering des Frames ausgeführt werden.

Um die Leistung dieses Szenarios zu verbessern, hat die Pascal-Architektur einen dynamischen Lastenausgleich eingeführt. In der vorherigen Maxwell-Architektur wurden überlappende Workloads als statische Verteilung von GPU-Ressourcen zwischen Grafik und Rechenleistung implementiert. Dieser Ansatz ist effektiv, sofern das Gleichgewicht zwischen den beiden Arbeitslasten in etwa der Aufteilung der Ressourcen entspricht und die Aufgaben zeitlich gleich lang ablaufen. Wenn nicht-grafische Berechnungen länger dauern als grafische Berechnungen und beide auf den Abschluss der gemeinsamen Arbeit warten, bleibt ein Teil der GPU für die verbleibende Zeit im Leerlauf, was zu einer Verringerung der Gesamtleistung führt und alle Vorteile zunichte macht. Das dynamische Hardware-Load-Balancing hingegen ermöglicht es Ihnen, die freigewordenen GPU-Ressourcen zu nutzen, sobald sie verfügbar sind – zum Verständnis geben wir eine Illustration.

Es gibt auch Aufgaben, die zeitkritisch sind, und dies ist das zweite Szenario für asynchrones Computing. Beispielsweise muss die Ausführung des asynchronen Zeitverzerrungsalgorithmus in VR vor dem Ausscannen abgeschlossen sein, oder der Frame wird verworfen. In einem solchen Fall muss die GPU eine sehr schnelle Aufgabenunterbrechung und den Wechsel zu einer anderen Aufgabe unterstützen, um eine weniger kritische Aufgabe von der Ausführung auf der GPU zu entfernen und ihre Ressourcen für kritische Aufgaben freizugeben – dies wird als Vorkaufsrecht bezeichnet.

Ein einzelner Renderbefehl von einer Spiel-Engine kann Hunderte von Zeichenaufrufen enthalten, jeder Zeichenaufruf wiederum enthält Hunderte von gerenderten Dreiecken, von denen jedes Hunderte von zu berechnenden und zu zeichnenden Pixeln enthält. Der herkömmliche GPU-Ansatz verwendet nur eine Task-Unterbrechung auf hoher Ebene, und die Grafikpipeline muss warten, bis die gesamte Arbeit abgeschlossen ist, bevor sie die Tasks wechselt, was zu einer sehr hohen Latenz führt.

Um dies zu beheben, führte die Pascal-Architektur zunächst die Möglichkeit ein, eine Aufgabe auf Pixelebene zu unterbrechen – Pixel Level Preemption. Pascal-GPU-Ausführungseinheiten können den Fortschritt von Rendering-Aufgaben ständig überwachen, und wenn ein Interrupt angefordert wird, können sie die Ausführung stoppen und den Kontext für eine spätere Fertigstellung speichern, indem sie schnell zu einer anderen Aufgabe wechseln.

Interrupt und Toggle auf Thread-Ebene für Rechenoperationen funktionieren ähnlich wie Interrupts auf Pixel-Ebene für Grafik-Computing. Computer-Workloads bestehen aus mehreren Grids, die jeweils mehrere Threads enthalten. Wenn eine Unterbrechungsanforderung empfangen wird, beenden die auf dem Multiprozessor laufenden Threads ihre Ausführung. Andere Blöcke speichern ihren eigenen Zustand, um in Zukunft vom selben Punkt aus fortzufahren, und die GPU wechselt zu einer anderen Aufgabe. Der gesamte Taskwechselprozess dauert weniger als 100 Mikrosekunden, nachdem die laufenden Threads beendet wurden.

Bei Gaming-Workloads gibt die Kombination von Interrupts auf Pixelebene für Grafiken und Interrupts auf Threadebene für Rechenaufgaben den GPUs der Pascal-Architektur die Möglichkeit, schnell zwischen Aufgaben mit minimalem Zeitverlust zu wechseln. Und für Rechenaufgaben auf CUDA ist es auch möglich, mit minimaler Granularität zu unterbrechen – auf Befehlsebene. In diesem Modus stoppen alle Threads die Ausführung gleichzeitig und wechseln sofort zu einer anderen Aufgabe. Dieser Ansatz erfordert das Speichern von mehr Informationen über den Zustand aller Register jedes Threads, aber in einigen Fällen von nicht-grafischen Berechnungen ist dies durchaus gerechtfertigt.

Die Pascal-Architektur wurde um die Verwendung von schnellem Interrupt- und Task-Umschalten in grafischen und rechnerischen Aufgaben erweitert, sodass grafische und nicht grafische Aufgaben auf der Ebene einzelner Anweisungen und nicht ganzer Threads unterbrochen werden konnten, wie dies bei Maxwell und Kepler der Fall war . Diese Technologien können die asynchrone Ausführung verschiedener GPU-Arbeitslasten verbessern und die Reaktionsfähigkeit verbessern, wenn mehrere Aufgaben gleichzeitig ausgeführt werden. Auf der Nvidia-Veranstaltung demonstrierten sie die Arbeit asynchroner Berechnungen am Beispiel der Berechnung physikalischer Effekte. Wenn die Leistung ohne asynchrone Berechnungen auf dem Niveau von 77-79 FPS lag, stieg die Bildrate unter Einbeziehung dieser Funktionen auf 93-94 FPS.

Eine der Möglichkeiten, diese Funktionalität in Spielen einzusetzen, haben wir bereits exemplarisch in Form von asynchroner Zeitverzerrung in VR dargestellt. Die Abbildung zeigt den Betrieb dieser Technologie mit traditioneller Unterbrechung (Preemption) und schnell. Im ersten Fall wird versucht, den Vorgang der asynchronen Zeitverzerrung so spät wie möglich durchzuführen, jedoch vor Beginn der Aktualisierung des Bildes auf dem Display. Aber die Arbeit des Algorithmus muss einige Millisekunden früher an die Ausführung in der GPU übergeben werden, da es ohne eine schnelle Unterbrechung keine Möglichkeit gibt, die Arbeit genau zum richtigen Zeitpunkt auszuführen, und die GPU für einige Zeit im Leerlauf ist.

Im Fall einer präzisen Unterbrechung auf Pixel- und Thread-Ebene (rechts dargestellt) bietet diese Funktion eine größere Genauigkeit bei der Bestimmung des Unterbrechungszeitpunkts, und asynchrones Time Warping kann viel später mit dem Vertrauen auf den Abschluss der Arbeit vor dem gestartet werden Die Aktualisierung der Informationen auf dem Display beginnt. Und im ersten Fall einige Zeit im Leerlauf, kann die GPU mit zusätzlicher Grafikarbeit belastet werden.

Simultane Multi-Projektionstechnologie

Die neue GPU GP104 unterstützt jetzt neue Technologie Multiprojektion (Simultaneous Multi-Projection – SMP), die es der GPU ermöglicht, Daten auf modernen Bildgebungssystemen effizienter zu rendern. SMP ermöglicht es dem Videochip, Daten gleichzeitig in mehreren Projektionen anzuzeigen, was die Einführung eines neuen Hardwareblocks in der GPU als Teil der PolyMorph-Engine am Ende der geometrischen Pipeline vor dem Rasterisierungsblock erforderte. Dieser Block ist für das Arbeiten mit mehreren Projektionen für einen einzelnen Geometriestream verantwortlich.

Die Multi-Projektions-Engine verarbeitet geometrische Daten gleichzeitig für 16 vorkonfigurierte Projektionen, die den Projektionspunkt (Kameras) kombinieren, diese Projektionen können unabhängig voneinander gedreht oder geneigt werden. Da jedes geometrische Grundelement gleichzeitig in mehreren Projektionen erscheinen kann, stellt die SMP-Engine diese Funktionalität bereit, sodass die Anwendung den Videochip anweisen kann, die Geometrie bis zu 32 Mal (16 Projektionen in zwei Projektionszentren) ohne zusätzliche Verarbeitung zu replizieren.

Der gesamte Verarbeitungsprozess ist hardwarebeschleunigt, und da die Multiprojektion nach der Geometrie-Engine arbeitet, müssen nicht alle Stufen der Geometrieverarbeitung mehrmals wiederholt werden. Die eingesparten Ressourcen sind wichtig, wenn die Rendering-Geschwindigkeit durch die Geometrieverarbeitungsleistung begrenzt ist, wie z. B. Tessellation, wenn dieselbe geometrische Arbeit mehrmals für jede Projektion ausgeführt wird. Dementsprechend kann Multiprojektion im Spitzenfall den Bedarf an Geometrieverarbeitung um das bis zu 32-fache reduzieren.

Aber warum ist das alles nötig? Es gibt mehrere gute Beispiele, bei denen Multiprojektionstechnologie nützlich sein kann. Zum Beispiel ein Multi-Monitor-System mit drei Displays, die in einem Winkel zueinander nahe genug am Benutzer montiert sind (Surround-Konfiguration). In einer typischen Situation wird die Szene in einer Projektion gerendert, was zu geometrischen Verzerrungen und falschem Geometrie-Rendering führt. Der richtige Weg sind drei verschiedene Projektionen für jeden der Monitore, je nach Winkel, in dem sie sich befinden.

Mit einer Grafikkarte auf einem Chip mit Pascal-Architektur kann dies in einem Geometriedurchgang erfolgen, wobei drei verschiedene Projektionen für jeweils einen anderen Monitor angegeben werden. Und der Nutzer wird somit in der Lage sein, den Winkel, in dem die Monitore zueinander stehen, nicht nur physisch, sondern auch virtuell zu verändern – indem er die Projektionen für die seitlichen Monitore dreht, um die richtige Perspektive in der 3D-Szene mit zu bekommen einen deutlich größeren Betrachtungswinkel (FOV). Es stimmt, hier gibt es eine Einschränkung – für eine solche Unterstützung muss die Anwendung in der Lage sein, die Szene mit einem breiten FOV zu rendern und spezielle SMP-API-Aufrufe zu verwenden, um es einzustellen. Das heißt, Sie können dies nicht in jedem Spiel tun, Sie benötigen spezielle Unterstützung.

Ohnehin sind die Zeiten einer Einzelprojektion auf einem einzigen Flachbildschirm vorbei, mittlerweile gibt es viele Multi-Monitor-Konfigurationen und gebogene Displays, die diese Technik ebenfalls nutzen können. Ganz zu schweigen von Virtual-Reality-Systemen, die spezielle Linsen zwischen den Bildschirmen und den Augen des Benutzers verwenden, die neue Techniken zum Projizieren eines 3D-Bildes in ein 2D-Bild erfordern. Viele dieser Technologien und Techniken befinden sich noch in der frühen Entwicklung, die Hauptsache ist, dass ältere GPUs nicht mehr als eine planare Projektion effektiv nutzen können. Sie erfordern mehrere Rendering-Durchgänge, mehrere Verarbeitungen derselben Geometrie und so weiter.

Maxwell-Chips hatten eine begrenzte Unterstützung für Multi-Resolution, um die Effizienz zu steigern, aber Pascals SMP kann viel mehr. Maxwell konnte die Projektion für Cube-Mapping oder unterschiedliche Projektionsauflösungen um 90 Grad drehen, aber dies war nur in einem begrenzten Bereich von Anwendungen wie VXGI nützlich.

Weitere Möglichkeiten zur Verwendung von SMP sind das Rendern mit unterschiedlichen Auflösungen und das Single-Pass-Stereo-Rendering. Beispielsweise kann in Spielen das Rendern mit unterschiedlichen Auflösungen (Multi-Res Shading) zur Leistungsoptimierung eingesetzt werden. Bei Anwendung wird in der Mitte des Frames eine höhere Auflösung verwendet und an der Peripherie reduziert, um eine schnellere Rendergeschwindigkeit zu erreichen.

Single-Pass-Stereo-Rendering wird in VR verwendet, es wurde bereits zum VRWorks-Paket hinzugefügt und verwendet die Multiprojektionsfunktion, um den Umfang der beim VR-Rendering erforderlichen geometrischen Arbeit zu reduzieren. Wenn diese Funktion verwendet wird, verarbeitet die GeForce GTX 1080-GPU die Szenengeometrie nur einmal und generiert zwei Projektionen für jedes Auge gleichzeitig, wodurch die geometrische Belastung der GPU um die Hälfte reduziert und auch die Verluste durch den Treiber und das Betriebssystem reduziert werden.

Eine noch fortschrittlichere Technik zur Verbesserung der Effizienz des VR-Renderings ist Lens Matched Shading, das mehrere Projektionen verwendet, um die beim VR-Rendering erforderlichen geometrischen Verzerrungen zu simulieren. Diese Methode verwendet Multiprojektion, um eine 3D-Szene auf eine Oberfläche zu rendern, die der objektivangepassten Oberfläche beim Rendern für die VR-Headset-Ausgabe nahe kommt, wodurch viele zusätzliche Pixel an der Peripherie vermieden werden, die verworfen würden. Der einfachste Weg, das Wesentliche der Methode zu verstehen, ist die Veranschaulichung - vier leicht erweiterte Projektionen werden vor jedem Auge verwendet (in Pascal können Sie 16 Projektionen für jedes Auge verwenden - um eine gekrümmte Linse genauer zu simulieren) anstelle von einer:

Dieser Ansatz kann viel Leistung sparen. Beispielsweise hat ein typisches Oculus Rift-Bild pro Auge 1,1 Megapixel. Aber aufgrund der unterschiedlichen Projektionen hat das Originalbild zum Rendern 2,1 Megapixel – 86 % mehr als nötig! Die Verwendung von Multiprojektion, die in der Pascal-Architektur implementiert ist, ermöglicht es, die Auflösung des gerenderten Bildes auf 1,4 Megapixel zu reduzieren, eine 1,5-fache Einsparung bei der Pzu erzielen und auch Speicherbandbreite zu sparen.

Und zusammen mit einer zweifachen Einsparung bei der Geomedurch Single-Pass-Stereo-Rendering kann der GeForce GTX 1080-Grafikprozessor eine deutliche Steigerung der VR-Rendering-Leistung bieten, die sehr hohe Anforderungen an die Geomestellt, und noch mehr Pixelverarbeitung.

Verbesserungen bei der Videoausgabe und den Verarbeitungsblöcken

Neben Leistung und neuen Funktionen im Zusammenhang mit 3D-Rendering ist es notwendig, ein gutes Niveau der Bildausgabe sowie der Videodekodierung und -kodierung aufrechtzuerhalten. Und der erste Grafikprozessor mit Pascal-Architektur enttäuschte nicht – er unterstützt alle modernen Standards in diesem Sinne, einschließlich der Hardware-Decodierung des HEVC-Formats, das zum Anzeigen von 4K-Videos auf einem PC erforderlich ist. Auch zukünftige Besitzer von GeForce GTX 1080-Grafikkarten können bald 4K-Videos von Netflix und anderen Anbietern auf ihren Systemen streamen.

In Bezug auf die Displayausgabe unterstützt die GeForce GTX 1080 HDMI 2.0b mit HDCP 2.2 sowie DisplayPort. Bisher wurde die Version DP 1.2 zertifiziert, aber die GPU ist bereit für die Zertifizierung für neuere Versionen des Standards: DP 1.3 Ready und DP 1.4 Ready. Letzteres ermöglicht die Anzeige von 4K-Bildschirmen mit 120 Hz und von 5K- und 8K-Bildschirmen mit 60 Hz mit einem Paar DisplayPort 1.3-Kabel. Wenn für die GTX 980 die maximal unterstützte Auflösung 5120 x 3200 bei 60 Hz betrug, dann ist sie für das neue GTX 1080-Modell auf 7680 x 4320 bei denselben 60 Hz angewachsen. Die Referenz GeForce GTX 1080 hat drei DisplayPort-Ausgänge, einen HDMI 2.0b und einen digitalen Dual-Link DVI.

Das neue Modell der Nvidia-Grafikkarte erhielt außerdem einen verbesserten Block zum Decodieren und Codieren von Videodaten. Damit erfüllt der GP104-Chip die hohen Standards von PlayReady 3.0 (SL3000) für die Streaming-Videowiedergabe, wodurch Sie sicher sein können, dass die Wiedergabe hochwertiger Inhalte von namhaften Anbietern wie Netflix in höchster Qualität und energieeffizient erfolgt . Details zur Unterstützung verschiedener Videoformate beim Kodieren und Dekodieren finden Sie in der Tabelle, das neue Produkt unterscheidet sich deutlich von bisherigen Lösungen zum Besseren:

Aber eine noch interessantere Neuerung ist die Unterstützung der sogenannten High Dynamic Range (HDR)-Displays, die auf dem Markt weit verbreitet sein werden. Fernseher sind bereits 2016 auf dem Markt (wobei vier Millionen HDR-Fernseher in nur einem Jahr verkauft werden sollen) und Monitore im nächsten Jahr. HDR ist der größte Durchbruch in der Display-Technologie seit Jahren und liefert doppelt so viele Farbtöne (75 % sichtbares Spektrum gegenüber 33 % bei RGB), hellere Displays (1000 Nits) mit höherem Kontrastverhältnis (10000:1) und satten Farben.

Das Aufkommen der Fähigkeit, Inhalte mit einem größeren Helligkeitsunterschied und satteren und gesättigteren Farben abzuspielen, wird das Bild auf dem Bildschirm näher an die Realität bringen, die schwarze Farbe wird tiefer, das helle Licht wird blenden, genau wie in der realen Welt . Dementsprechend sehen Benutzer im Vergleich zu Standardmonitoren und -fernsehern mehr Details in hellen und dunklen Bildbereichen.

Um HDR-Displays zu unterstützen, hat die GeForce GTX 1080 alles, was Sie brauchen – 12-Bit-Farbausgabe, Unterstützung für die Standards BT.2020 und SMPTE 2084 und HDMI 2.0b 10/12-Bit-4K-HDR-Ausgabe Maxwell. Darüber hinaus hat Pascal Unterstützung für die Dekodierung des HEVC-Formats in 4K-Auflösung bei 60 Hz und 10- oder 12-Bit-Farbe hinzugefügt, das für HDR-Videos verwendet wird, sowie für die Kodierung desselben Formats mit denselben Parametern, jedoch nur in 10 -Bit für HDR-Videoaufnahme oder -Streaming. Außerdem ist die Neuheit bereit für die DisplayPort 1.4-Standardisierung für die HDR-Datenübertragung über diesen Anschluss.

Um solche Daten vom Heim-PC auf eine SHIELD-Spielekonsole zu übertragen, die 10-Bit-HEVC spielen kann, wird in Zukunft möglicherweise HDR-Videokodierung benötigt. Das heißt, der Benutzer kann das Spiel von einem PC im HDR-Format übertragen. Warte, wo bekomme ich Spiele mit solcher Unterstützung? Nvidia arbeitet ständig mit Spieleentwicklern zusammen, um diese Unterstützung zu implementieren, und gibt ihnen alles, was sie brauchen (Treiberunterstützung, Codebeispiele usw.), um HDR-Bilder korrekt wiederzugeben, die mit vorhandenen Displays kompatibel sind.

Zum Zeitpunkt der Veröffentlichung der Grafikkarte, der GeForce GTX 1080, unterstützten Spiele wie Obduction, The Witness, Lawbreakers, Rise of the Tomb Raider, Paragon, The Talos Principle und Shadow Warrior 2 die HDR-Ausgabe, aber diese Liste ist es voraussichtlich in naher Zukunft aufgefüllt werden.

Änderungen am Multi-Chip-SLI-Rendering

Es gab auch einige Änderungen in Bezug auf die proprietäre SLI-Multi-Chip-Rendering-Technologie, obwohl niemand damit gerechnet hatte. SLI wird von PC-Gaming-Enthusiasten verwendet, um die Leistung entweder extrem zu steigern, indem sie die leistungsstärksten Single-Chip-Grafikkarten im Tandem betreiben, oder um sehr hohe Bildraten zu erzielen, indem sie sich auf ein paar Mittelklasse-Lösungen beschränken, die manchmal billiger sind als ein Top-End (umstrittene Entscheidung, aber sie tun es). Bei 4K-Monitoren haben Spieler fast keine andere Wahl, als ein paar Grafikkarten zu installieren, da selbst Top-Modelle unter solchen Bedingungen oft kein komfortables Spiel mit maximalen Einstellungen bieten können.

Eine der wichtigen Komponenten von Nvidia SLI sind Bridges, die Grafikkarten zu einem gemeinsamen Video-Subsystem verbinden und dazu dienen, einen digitalen Kanal für die Datenübertragung zwischen ihnen zu organisieren. GeForce-Grafikkarten verfügen traditionell über duale SLI-Anschlüsse, die dazu dienten, zwei oder vier Grafikkarten in 3-Wege- und 4-Wege-SLI-Konfigurationen zu verbinden. Jede der Grafikkarten musste mit jeder der Grafikkarten verbunden werden, da alle GPUs die von ihnen gerenderten Frames an die Haupt-GPU sendeten, weshalb auf jeder der Platinen zwei Schnittstellen benötigt wurden.

Beginnend mit der GeForce GTX 1080 verfügen alle auf der Pascal-Architektur basierenden Nvidia-Grafikkarten über zwei miteinander verbundene SLI-Schnittstellen, um die Leistung der Datenübertragung zwischen Grafikkarten zu steigern, und dieser neue Dual-Channel-SLI-Modus verbessert die Leistung und den Komfort bei der Anzeige visueller Informationen sehr hochauflösende Displays oder Multi-Monitor-Systeme.

Für diesen Modus wurden auch neue Bridges namens SLI HB benötigt. Sie kombinieren ein Paar GeForce GTX 1080-Grafikkarten über zwei SLI-Kanäle gleichzeitig, obwohl die neuen Grafikkarten auch mit älteren Bridges kompatibel sind. Für Auflösungen von 1920×1080 und 2560×1440 Pixel bei einer Bildwiederholfrequenz von 60 Hz können Standard-Bridges verwendet werden, aber in anspruchsvolleren Modi (4K-, 5K- und Multi-Monitor-Systeme) werden nur neue Bridges in Bezug auf bessere Ergebnisse liefern von reibungslosen Rahmenwechsel, obwohl die alten funktionieren, aber etwas schlechter.

Auch bei Verwendung von SLI-HB-Bridges läuft die Datenschnittstelle der GeForce GTX 1080 mit 650 MHz, verglichen mit 400 MHz für herkömmliche SLI-Bridges auf älteren GPUs. Außerdem steht bei einigen der zähen alten Bridges auch mit Videochips der Pascal-Architektur eine höhere Datenübertragungsrate zur Verfügung. Mit einer Erhöhung der Datenübertragungsrate zwischen der GPU über eine verdoppelte SLI-Schnittstelle mit erhöhter Betriebsfrequenz wird im Vergleich zu früheren Lösungen auch eine flüssigere Anzeige von Frames auf dem Bildschirm bereitgestellt:

Es sollte auch beachtet werden, dass die Unterstützung für Multi-Chip-Rendering in DirectX 12 etwas anders ist als das, was vorher üblich war. BEI letzte Version Graphics API hat Microsoft viele Änderungen im Zusammenhang mit dem Betrieb solcher Videosysteme vorgenommen. Softwareentwicklern stehen in DX12 zwei Multi-GPU-Optionen zur Verfügung: Multi Display Adapter (MDA) und Linked Display Adapter (LDA) Modi.

Darüber hinaus hat der LDA-Modus zwei Formen: Implizites LDA (das Nvidia für SLI verwendet) und Explizites LDA (wenn der Spieleentwickler die Aufgabe übernimmt, das Multi-Chip-Rendering zu verwalten. Die MDA- und Explicit-LDA-Modi wurden gerade in DirectX 12 in implementiert um Spieleentwicklern mehr Freiheiten und Möglichkeiten bei der Verwendung von Multi-Chip-Videosystemen zu geben. Der Unterschied zwischen den Modi ist in der folgenden Tabelle deutlich zu sehen:

Im LDA-Modus kann der Speicher jeder GPU mit dem Speicher einer anderen verbunden und als großes Gesamtvolumen angezeigt werden, natürlich mit allen Leistungseinschränkungen, wenn die Daten aus „fremdem“ Speicher genommen werden. Im MDA-Modus arbeitet der Speicher jeder GPU separat, und verschiedene GPUs können nicht direkt auf Daten aus dem Speicher einer anderen GPU zugreifen. Der LDA-Modus ist für Multi-Chip-Systeme mit ähnlicher Leistung konzipiert, während der MDA-Modus weniger restriktiv ist und mit diskreten und integrierten GPUs oder diskreten Lösungen mit Chips verschiedener Hersteller zusammenarbeiten kann. Aber dieser Modus erfordert auch mehr Aufmerksamkeit und Arbeit von Entwicklern bei der Programmierung der Zusammenarbeit, damit GPUs miteinander kommunizieren können.

Standardmäßig unterstützt das GeForce GTX 1080-basierte SLI-System nur zwei GPUs, und Konfigurationen mit drei und vier GPUs sind offiziell veraltet, da es für moderne Spiele immer schwieriger wird, Leistungssteigerungen durch Hinzufügen einer dritten und vierten GPU zu erzielen. Beispielsweise verlassen sich viele Spiele beim Betrieb von Multi-Chip-Videosystemen auf die Fähigkeiten des Zentralprozessors des Systems, und neue Spiele verwenden zunehmend zeitliche (zeitliche) Techniken, die Daten aus vorherigen Frames verwenden, in denen der effiziente Betrieb mehrerer GPUs gleichzeitig besteht einfach unmöglich.

Der Betrieb von Systemen in anderen (Nicht-SLI) Multi-Chip-Systemen bleibt jedoch möglich, wie z. B. MDA- oder LDA-Explicit-Modi in DirectX 12 oder ein Zwei-Chip-SLI-System mit einer dedizierten dritten GPU für physische PhysX-Effekte. Aber was ist mit den Rekorden in Benchmarks, gibt Nvidia sie wirklich ganz auf? Nein, natürlich, aber da solche Systeme weltweit von fast wenigen Nutzern nachgefragt werden, wurde für solche Ultra-Enthusiasten ein spezieller Enthusiast Key erfunden, der von der Nvidia-Website heruntergeladen werden kann und dieses Feature freischaltet. Dazu müssen Sie zunächst eine eindeutige GPU-ID erhalten, indem Sie eine spezielle Anwendung ausführen, dann den Enthusiast Key auf der Website anfordern und nach dem Herunterladen den Schlüssel im System installieren, wodurch 3-Way und 4-Way freigeschaltet werden SLI-Konfigurationen.

Fast-Sync-Technologie

Bei der Anzeige von Informationen auf dem Display wurden einige Änderungen bei den Synchronisationstechnologien vorgenommen. Mit Blick auf die Zukunft gibt es weder bei G-Sync etwas Neues, noch wird die Adaptive Sync-Technologie unterstützt. Aber Nvidia hat sich entschieden, die Glätte der Ausgabe und Synchronisation für Spiele zu verbessern, die sehr zeigen Hochleistung wenn die Bildrate die Bildwiederholfrequenz des Monitors merklich übersteigt. Dies ist besonders wichtig für Spiele, die minimale Latenz und schnelle Reaktion erfordern und die Multiplayer-Kämpfe und -Wettkämpfe sind.

Fast Sync ist eine neue Alternative zur vertikalen Synchronisierung, die keine visuellen Artefakte wie Tearing im Bild aufweist und nicht an eine feste Bildwiederholfrequenz gebunden ist, was die Latenz erhöht. Was ist das Problem mit der vertikalen Synchronisation in Spielen wie Counter-Strike: Global Offensive? Dieses Spiel auf leistungsstarken modernen GPUs läuft mit mehreren hundert Bildern pro Sekunde, und der Spieler hat die Wahl, ob er V-Sync aktivieren möchte oder nicht.

In Multiplayer-Spielen jagen Nutzer meist nach minimalen Verzögerungen und schalten VSync aus, wodurch deutlich sichtbares Tearing im Bild entsteht, was selbst bei hohen Frameraten äußerst unangenehm ist. Wenn Sie jedoch V-Sync einschalten, wird der Spieler eine deutliche Erhöhung der Verzögerungen zwischen seinen Aktionen und dem Bild auf dem Bildschirm feststellen, wenn die Grafikpipeline auf die Aktualisierungsrate des Monitors verlangsamt wird.

So funktioniert eine traditionelle Pipeline. Nvidia entschied sich jedoch dafür, den Prozess des Renderns und Anzeigens des Bildes auf dem Bildschirm mithilfe der Fast-Sync-Technologie zu trennen. Dies ermöglicht es Ihnen, so viel wie möglich fortzusetzen effizientes Arbeiten für den Teil der GPU, der Frames mit voller Geschwindigkeit rendert und diese Frames in einem speziellen temporären Last Rendered Buffer speichert.

Mit dieser Methode können Sie die Anzeigemethode ändern und das Beste aus den Modi „VSync On“ und „VSync Off“ herausholen, um eine geringe Latenz zu erzielen, jedoch ohne Bildartefakte. Bei Fast Sync gibt es keine Frame-Flusskontrolle, die Spiel-Engine läuft im Sync-Off-Modus und wird nicht angewiesen, mit dem Zeichnen des nächsten zu warten, sodass die Latenzen fast so niedrig sind wie im VSync-Off-Modus. Da Fast Sync aber selbstständig einen Buffer für die Anzeige auf dem Bildschirm auswählt und das komplette Frame anzeigt, gibt es auch keine Bildabbrüche.

Fast Sync verwendet drei verschiedene Puffer, von denen die ersten beiden ähnlich wie das doppelte Puffern in einer klassischen Pipeline funktionieren. Primärer Puffer (Front Buffer – FB) ist ein Puffer, dessen Informationen auf dem Display angezeigt werden, ein vollständig gerenderter Rahmen. Der Hintergrundpuffer (Back Buffer - BB) ist der Puffer, der beim Rendern Informationen erhält.

Bei Verwendung der vertikalen Synchronisierung unter Bedingungen mit hoher Framerate wartet das Spiel, bis das Aktualisierungsintervall erreicht ist, um den primären Puffer mit dem sekundären Puffer auszutauschen, um das Bild eines einzelnen Frames auf dem Bildschirm anzuzeigen. Dies verlangsamt die Dinge, und das Hinzufügen weiterer Puffer wie beim herkömmlichen Triple-Buffering trägt nur zur Verzögerung bei.

Bei Fast Sync wird ein dritter Last Rendered Buffer (LRB) hinzugefügt, der dazu dient, alle gerade gerenderten Frames im sekundären Buffer zu speichern. Der Name des Buffers spricht für sich, er enthält eine Kopie des letzten vollständig gerenderten Frames. Und wenn es an der Zeit ist, den Primärpuffer zu aktualisieren, wird dieser LRB-Puffer vollständig auf den Primärpuffer kopiert und nicht in Teilen, wie vom Sekundärpuffer mit deaktivierter vertikaler Synchronisation. Da das Kopieren von Informationen aus Puffern ineffizient ist, werden sie einfach ausgetauscht (oder umbenannt, da dies bequemer zu verstehen ist), und die neue Logik zum Austauschen von Puffern, die in GP104 eingeführt wurde, verwaltet diesen Prozess.

In der Praxis sorgt die Einbeziehung eines neuen Synchronisationsverfahrens Fast Sync immer noch für eine etwas größere Verzögerung im Vergleich zur vollständig deaktivierten vertikalen Synchronisation – im Durchschnitt 8 ms mehr, aber es zeigt Frames vollständig auf dem Monitor an, ohne dass unangenehme Artefakte auf dem Bildschirm einreißen das Bild. Die neue Methode kann über die Grafikeinstellungen der Nvidia-Systemsteuerung im Abschnitt zur vertikalen Synchronisierungssteuerung aktiviert werden. Der Standardwert bleibt jedoch die Anwendungssteuerung, und Sie müssen Fast Sync einfach nicht in allen 3D-Anwendungen aktivieren. Es ist besser, diese Methode speziell für Spiele mit hohen FPS zu wählen.

Virtual-Reality-Technologie Nvidia VRWorks

Wir haben das heiße Thema VR in diesem Artikel mehr als einmal angesprochen, aber es ging hauptsächlich darum, die Bildraten zu erhöhen und eine niedrige Latenz sicherzustellen, was für VR sehr wichtig ist. All dies ist sehr wichtig und es gibt tatsächlich Fortschritte, aber bisher sehen VR-Spiele bei weitem nicht so beeindruckend aus wie die besten der "normalen" modernen 3D-Spiele. Dies geschieht nicht nur, weil sich die führenden Spieleentwickler noch nicht besonders mit VR-Anwendungen beschäftigen, sondern auch, weil VR anspruchsvollere Anforderungen an die Framerate stellt, was aufgrund der hohen Anforderungen den Einsatz vieler üblicher Techniken in solchen Spielen verhindert.

Um den Qualitätsunterschied zwischen VR-Spielen und regulären Spielen zu verringern, hat Nvidia beschlossen, ein ganzes Paket verwandter VRWorks-Technologien zu veröffentlichen, das eine große Anzahl von APIs, Bibliotheken, Engines und Technologien umfasst, die sowohl die Qualität als auch die Leistung erheblich verbessern können VR-Anwendungen. Wie hängt das mit der Ankündigung der ersten Gaming-Lösung in Pascal zusammen? Es ist sehr einfach - es wurden einige Technologien eingeführt, die dazu beitragen, die Produktivität zu steigern und die Qualität zu verbessern, und wir haben bereits darüber geschrieben.

Und obwohl es nicht nur um Grafiken geht, werden wir zuerst ein wenig darüber sprechen. Der Satz von VRWorks-Grafiktechnologien umfasst die zuvor erwähnten Technologien, wie z. B. Lens Matched Shading, die die Multiprojektionsfunktion verwenden, die in der GeForce GTX 1080 erschien. Das neue Produkt ermöglicht Ihnen eine Leistungssteigerung von 1,5- bis 2-mal im Verhältnis zu Lösungen, die keine solche Unterstützung haben. Wir haben auch andere Technologien erwähnt, wie z. B. MultiRes Shading, das entwickelt wurde, um mit unterschiedlichen Auflösungen in der Mitte des Frames und an seiner Peripherie zu rendern.

Viel unerwarteter war jedoch die Ankündigung der VRWorks Audio-Technologie, die für die qualitativ hochwertige Berechnung von Sounddaten in 3D-Szenen entwickelt wurde, was besonders in Virtual-Reality-Systemen wichtig ist. Bei herkömmlichen Engines wird die Positionierung von Schallquellen in einer virtuellen Umgebung ziemlich korrekt berechnet, wenn der Gegner von rechts schießt, dann ist der Ton von dieser Seite des Audiosystems lauter, und eine solche Berechnung ist nicht allzu rechenintensiv .

Aber in Wirklichkeit gehen Töne nicht nur auf den Spieler zu, sondern in alle Richtungen und prallen von verschiedenen Materialien ab, ähnlich wie Lichtstrahlen abprallen. Und in Wirklichkeit hören wir diese Reflexionen, wenn auch nicht so deutlich wie direkte Schallwellen. Diese indirekten Schallreflexionen werden normalerweise durch spezielle Halleffekte simuliert, aber dies ist eine sehr primitive Herangehensweise an die Aufgabe.

VRWorks Audio verwendet Schallwellen-Rendering ähnlich wie Raytracing beim Rendern, bei dem der Weg von Lichtstrahlen zu mehreren Reflexionen von Objekten in einer virtuellen Szene verfolgt wird. VRWorks Audio simuliert auch die Ausbreitung von Schallwellen in der Umgebung, wenn direkte und reflektierte Wellen verfolgt werden, abhängig von ihrem Einfallswinkel und den Eigenschaften von reflektierenden Materialien. VRWorks Audio nutzt bei seiner Arbeit die für Grafikaufgaben bekannte Hochleistungs-Raytracing-Engine OptiX von Nvidia. OptiX kann für eine Vielzahl von Aufgaben verwendet werden, wie z. B. indirekte Beleuchtungsberechnung und Lightmapping, und jetzt auch für die Schallwellenverfolgung in VRWorks Audio.

Nvidia hat in seine VR-Funhouse-Demo eine genaue Schallwellenberechnung eingebaut, die mehrere tausend Strahlen verwendet und bis zu 12 Reflexionen von Objekten berechnet. Und um die Vorteile der Technologie anhand eines anschaulichen Beispiels kennenzulernen, empfehlen wir Ihnen, sich ein Video über die Funktionsweise der Technologie auf Russisch anzusehen:

Wichtig ist, dass sich Nvidias Ansatz von herkömmlichen Sound-Engines unterscheidet, darunter die hardwarebeschleunigte Methode des Hauptkonkurrenten mit einem speziellen Block in der GPU. Alle diese Methoden liefern nur eine genaue Positionierung von Schallquellen, berechnen jedoch nicht die Reflexionen von Schallwellen von Objekten in einer 3D-Szene, obwohl sie dies mit dem Halleffekt simulieren können. Die Verwendung der Raytracing-Technologie kann jedoch viel realistischer sein, da nur ein solcher Ansatz eine genaue Nachahmung verschiedener Geräusche unter Berücksichtigung der Größe, Form und Materialien von Objekten in der Szene ermöglicht. Es ist schwer zu sagen, ob eine solche Rechengenauigkeit für einen typischen Spieler erforderlich ist, aber wir können mit Sicherheit sagen: In VR kann es den Benutzern genau den Realismus verleihen, der herkömmlichen Spielen noch fehlt.

Nun, es bleibt uns, nur über die VR-SLI-Technologie zu berichten, die sowohl in OpenGL als auch in DirectX funktioniert. Das Prinzip ist denkbar einfach: Ein Zwei-GPU-Videosystem in einer VR-Anwendung wird so arbeiten, dass jedem Auge eine separate GPU zugewiesen wird, im Gegensatz zum AFR-Rendering, das von SLI-Konfigurationen bekannt ist. Dies verbessert die Gesamtleistung, die für Virtual-Reality-Systeme so wichtig ist, erheblich. Theoretisch können mehr GPUs verwendet werden, aber ihre Anzahl muss gerade sein.

Dieser Ansatz war erforderlich, da AFR für VR nicht gut geeignet ist, da mit seiner Hilfe die erste GPU ein gerades Bild für beide Augen zeichnet und die zweite ein ungerades rendert, was die für virtuelle Anwendungen kritischen Verzögerungen nicht verringert Realitätssysteme. Obwohl die Bildrate ziemlich hoch sein wird. Mit Hilfe von VR SLI wird die Arbeit an jedem Frame also auf zwei GPUs aufgeteilt – eine bearbeitet einen Teil des Frames für das linke Auge, die zweite für das rechte, und dann werden diese Hälften des Frames zu einem Ganzen kombiniert.

Die Aufteilung dieser Arbeit auf ein GPU-Paar führt zu einer zweifachen Leistungssteigerung, was im Vergleich zu Systemen, die auf einer einzelnen GPU basieren, höhere Bildraten und geringere Latenzzeiten ermöglicht. Die Verwendung von VR-SLI erfordert zwar spezielle Unterstützung durch die Anwendung, um diese Skalierungsmethode zu verwenden. Aber die VR-SLI-Technologie ist bereits in VR-Demo-Apps wie The Lab von Valve und Trials on Tatooine von ILMxLAB integriert, und das ist erst der Anfang – Nvidia verspricht, dass bald andere Apps kommen und die Technologie auf Unreal Engine 4, Unity und Max bringen werden Spielen.

Screenshot-Plattform für Ansel-Spiele

Eine der interessantesten Ankündigungen im Zusammenhang mit der Software war die Veröffentlichung einer Technologie zur Aufnahme hochwertiger Screenshots in Spieleanwendungen, die nach einem berühmten Fotografen – Ansel – benannt wurde. Spiele sind längst nicht mehr nur Spiele, sondern auch ein Ort, um spielerische Hände für verschiedene kreative Persönlichkeiten einzusetzen. Jemand ändert Skripte für Spiele, jemand veröffentlicht hochwertige Textursets für Spiele und jemand macht wunderschöne Screenshots.

Nvidia beschloss, letzterem durch eine Präsentation zu helfen neue Plattform um qualitativ hochwertige Aufnahmen aus Spielen zu erstellen (nämlich zu erstellen, weil dies kein so einfacher Prozess ist). Sie glauben, dass Ansel dazu beitragen kann, eine neue Art zeitgenössischer Kunst zu schaffen. Schließlich gibt es schon einige Künstler, die den größten Teil ihres Lebens am PC verbringen, um schöne Screenshots von Spielen zu erstellen, und sie hatten noch kein praktisches Tool dafür.

Mit Ansel können Sie nicht nur ein Bild im Spiel aufnehmen, sondern es auch nach Bedarf des Erstellers ändern. Mit dieser Technologie können Sie die Kamera in der Szene bewegen, drehen und in jede Richtung neigen, um die gewünschte Bildkomposition zu erhalten. Beispielsweise kann man in Spielen wie Ego-Shootern nur den Spieler bewegen, sonst nichts wirklich ändern, daher sind alle Screenshots ziemlich eintönig. Mit einer kostenlosen Kamera in Ansel können Sie weit darüber hinausgehen Spiel Kamera, wählen Sie den Winkel, der für ein gutes Bild benötigt wird, oder nehmen Sie sogar ein vollwertiges 360-Grad-Stereobild vom gewünschten Punkt aus in hoher Auflösung für die spätere Betrachtung in einem VR-Helm auf.

Ansel funktioniert ganz einfach – mit Hilfe einer speziellen Bibliothek von Nvidia wird diese Plattform in den Spielecode eingebettet. Dazu muss sein Entwickler seinem Projekt nur ein kleines Stück Code hinzufügen, damit der Nvidia-Grafiktreiber Puffer- und Shader-Daten abfangen kann. Es ist nur sehr wenig Arbeit zu erledigen, die Implementierung von Ansel ins Spiel dauert weniger als einen Tag. Die Aufnahme dieser Funktion in The Witness erforderte also etwa 40 Codezeilen und in The Witcher 3 etwa 150 Codezeilen.

Ansel wird mit einem offenen Entwicklungspaket geliefert – SDK. Die Hauptsache ist, dass der Benutzer mit ihm einen Standardsatz von Einstellungen erhält, mit denen er die Position und den Winkel der Kamera ändern, Effekte hinzufügen usw. Die Ansel-Plattform funktioniert so: Sie pausiert das Spiel, schaltet die freie Kamera ein und ermöglicht es Ihnen, den Rahmen in die gewünschte Ansicht zu ändern, indem Sie das Ergebnis in Form eines normalen Screenshots, eines 360-Grad-Bildes, eines Stereopaars oder einfach nur eines Panoramas mit hoher Auflösung aufzeichnen.

Der einzige Vorbehalt ist, dass nicht alle Spiele Unterstützung für alle Funktionen der Screenshot-Plattform für Ansel-Spiele erhalten. Einige der Spieleentwickler wollen aus dem einen oder anderen Grund keine komplett kostenlose Kamera in ihre Spiele einbauen – zum Beispiel wegen der Möglichkeit, dass Betrüger diese Funktionalität nutzen. Oder sie wollen aus dem gleichen Grund die Änderung des Betrachtungswinkels begrenzen – damit niemand einen unfairen Vorteil bekommt. Nun, oder damit Benutzer keine elenden Sprites im Hintergrund sehen. All dies sind ganz normale Wünsche von Spieleentwicklern.

Eine der interessantesten Funktionen von Ansel ist die Erstellung von Screenshots mit einfach riesiger Auflösung. Dabei spielt es keine Rolle, dass das Spiel beispielsweise Auflösungen bis zu 4K unterstützt und der Monitor des Nutzers Full-HD ist. Mit der Screenshot-Plattform können Sie ein Bild in viel höherer Qualität aufnehmen, das eher durch die Größe und Leistung des Laufwerks begrenzt ist. Die Plattform nimmt mühelos Screenshots mit bis zu 4,5 Gigapixeln auf, die aus 3600 Teilen zusammengefügt wurden!

Klar ist, dass man auf solchen Bildern alle Details, bis hin zum Text auf den in der Ferne liegenden Zeitungen, erkennen kann, wenn ein solcher Detaillierungsgrad grundsätzlich im Spiel vorgesehen ist - Ansel kann den Detaillierungsgrad auch steuern, Stellen Sie den maximalen Pegel ein, um die beste Bildqualität zu erhalten. Aber Sie können immer noch Supersampling aktivieren. All dies ermöglicht es Ihnen, Bilder aus Spielen zu erstellen, die Sie sicher auf große Banner drucken und sich auf ihre Qualität verlassen können.

Interessanterweise wird ein spezieller hardwarebeschleunigter Code, der auf CUDA basiert, verwendet, um große Bilder zusammenzufügen. Schließlich kann keine Grafikkarte ein Multi-Gigapixel-Bild vollständig wiedergeben, aber sie kann es in Teilen, die Sie später nur noch zusammenfügen müssen, unter Berücksichtigung möglicher Unterschiede in Beleuchtung, Farbe usw.

Nach dem Zusammenfügen solcher Panoramen wird eine spezielle Nachbearbeitung für das gesamte Bild verwendet, die ebenfalls auf der GPU beschleunigt wird. Und um Bilder in einem höheren Dynamikbereich aufzunehmen, können Sie ein spezielles Bildformat verwenden - EXR, ein offener Standard von Industrial Light and Magic, dessen Farbwerte in jedem Kanal im 16-Bit-Gleitkommaformat aufgezeichnet werden (FP16).

Mit diesem Format können Sie die Helligkeit ändern und Dynamikbereich Bilder durch Nachbearbeitung und bringt sie für jedes spezifische Display auf die gleiche Weise auf die gleiche Weise wie bei RAW-Formaten von Kameras. Und für die spätere Verwendung von Nachbearbeitungsfiltern in Bildbearbeitungsprogrammen ist dieses Format sehr nützlich, da es viel mehr Daten enthält als die üblichen Bildformate.

Aber die Ansel-Plattform selbst enthält viele Nachbearbeitungsfilter, was besonders wichtig ist, da sie nicht nur Zugriff auf das endgültige Bild hat, sondern auch auf alle Puffer, die das Spiel beim Rendern verwendet, was für sehr interessante Effekte verwendet werden kann , wie Schärfentiefe. Zu diesem Zweck verfügt Ansel über eine spezielle Nachbearbeitungs-API, und jeder der Effekte kann mit Unterstützung für diese Plattform in das Spiel aufgenommen werden.

Zu den Ansel-Nachfiltern gehören: Farbkurven, Farbraum, Transformation, Entsättigung, Helligkeit/Kontrast, Filmkörnung, Bloom, Lens Flare, anamorphotische Blendung, Verzerrung, Hitzeschleier, Fischauge, Farbfehler, Tone Mapping, Linsenschmutz, Lichtschächte, Vignette, Gammakorrektur, Faltung, Schärfen, Kantenerkennung, Unschärfe, Sepia, Entrauschen, FXAA und andere.

Was das Erscheinen der Ansel-Unterstützung in Spielen betrifft, müssen wir noch etwas warten, bis die Entwickler sie implementieren und testen. Aber Nvidia verspricht, dass eine solche Unterstützung bald in so bekannten Spielen wie The Division, The Witness, Lawbreakers, The Witcher 3, Paragon, Fortnite, Obduction, No Man’s Sky, Unreal Tournament und anderen erscheinen wird.

Die neue 16-nm-FinFET-Prozesstechnologie und Architekturoptimierungen haben es der GeForce GTX 1080 auf Basis der GP104-GPU ermöglicht, bereits in der Referenzform eine hohe Taktrate von 1,6-1,7 GHz zu erreichen, und die neue Generation garantiert den Betrieb mit höchstmöglichen Frequenzen in Spielen GPU-Boost-Technologien. Zusammen mit einer erhöhten Anzahl von Ausführungseinheiten machen diese Verbesserungen sie nicht nur zur leistungsstärksten Single-Chip-Grafikkarte aller Zeiten, sondern auch zur energieeffizientesten Lösung auf dem Markt.

Die GeForce GTX 1080 verfügt als erste Grafikkarte über den neuen GDDR5X-Grafikspeicher, eine neue Generation von Hochgeschwindigkeitschips, die sehr hohe Datenraten erreichen. Im Fall einer modifizierten GeForce GTX 1080 arbeitet dieser Speichertyp mit einer effektiven Frequenz von 10 GHz. In Kombination mit verbesserten Framebuffer-Komprimierungsalgorithmen führte dies zu einer 1,7-fachen Steigerung der effektiven Speicherbandbreite für diese GPU im Vergleich zu ihrem direkten Vorgänger, der GeForce GTX 980.

Nvidia hat sich wohlüberlegt entschieden, keine radikal neue Architektur auf einer komplett neuen Prozesstechnologie für sich freizugeben, um nicht auf unnötige Probleme bei der Entwicklung und Produktion zu stoßen. Stattdessen haben sie die bereits gute und sehr effiziente Maxwell-Architektur ernsthaft verbessert, indem sie einige Funktionen hinzugefügt haben. Infolgedessen ist mit der Produktion neuer GPUs alles in Ordnung, und im Fall des Modells GeForce GTX 1080 haben die Ingenieure ein sehr hohes Frequenzpotential erreicht - in übertakteten Versionen von Partnern wird die GPU-Frequenz bis zu 2 GHz erwartet! Eine so beeindruckende Frequenz wurde dank des perfekten technischen Prozesses und der sorgfältigen Arbeit der Nvidia-Ingenieure bei der Entwicklung der Pascal-GPU Wirklichkeit.

Obwohl Pascal ein direkter Nachfolger von Maxwell ist und sich diese Grafikarchitekturen im Grunde nicht allzu sehr voneinander unterscheiden, hat Nvidia viele Änderungen und Verbesserungen eingeführt, darunter Anzeigefunktionen, Videocodierungs- und -decodierungs-Engine, verbesserte asynchrone Ausführung verschiedener Arten von Berechnungen GPU, nahm Änderungen am Multi-Chip-Rendering vor und führte eine neue Synchronisierungsmethode ein, Fast Sync.

Es ist unmöglich, die Simultaneous Multi-Projection-Technologie nicht hervorzuheben, die hilft, die Leistung in Virtual-Reality-Systemen zu verbessern, eine korrektere Anzeige von Szenen auf Multi-Monitor-Systemen zu erhalten und neue Techniken zur Leistungsoptimierung einzuführen. VR-Anwendungen werden jedoch den größten Geschwindigkeitsschub erfahren, wenn sie die Multiprojektionstechnologie unterstützen, die dazu beiträgt, GPU-Ressourcen bei der Verarbeitung geometrischer Daten um die Hälfte und bei Berechnungen pro Pixel um das Eineinhalbfache zu sparen.

Unter den reinen Softwareänderungen sticht die Plattform zum Erstellen von Screenshots in Spielen namens Ansel hervor - es wird interessant sein, sie in der Praxis nicht nur für diejenigen auszuprobieren, die viel spielen, sondern auch für diejenigen, die sich einfach für hochwertige 3D-Grafiken interessieren . Die Neuheit ermöglicht es Ihnen, die Kunst des Erstellens und Retuschierens von Screenshots auf ein neues Niveau zu heben. Nun, solche Pakete für Spieleentwickler wie GameWorks und VRWorks, Nvidia verbessert sich Schritt für Schritt weiter - so ist in letzterem eine interessante Möglichkeit der hochwertigen Klangberechnung aufgetaucht, die zahlreiche Reflexionen von Schallwellen mit Hardware berücksichtigt ray Verfolgung.

Im Allgemeinen ist mit der Nvidia GeForce GTX 1080-Grafikkarte ein echter Marktführer auf den Markt gekommen, der alle dafür notwendigen Eigenschaften besitzt: hohe Leistung und breite Funktionalität sowie Unterstützung für neue Funktionen und Algorithmen. Die ersten Käufer dieser Videokarte werden viele der genannten Vorteile sofort zu schätzen wissen, und andere Möglichkeiten der Lösung werden sich etwas später zeigen, wenn es breite Unterstützung von außen gibt. Software. Die Hauptsache ist, dass sich die GeForce GTX 1080 als sehr schnell und effizient herausstellte, und wie wir wirklich hoffen, gelang es den Nvidia-Ingenieuren, einige der Problembereiche zu beheben (die gleichen asynchronen Berechnungen).

Grafikbeschleuniger GeForce GTX 1070

ParameterBedeutung
Chip-CodenameGP104
Produktionstechnologie16-nm-FinFET
Anzahl der Transistoren7,2 Milliarden
Kernbereich314 mm²
Die ArchitekturVereinheitlicht, mit einer Reihe gemeinsamer Prozessoren für die Stream-Verarbeitung zahlreicher Datentypen: Scheitelpunkte, Pixel usw.
DirectX-HardwareunterstützungDirectX 12, mit Unterstützung für Feature Level 12_1
Speicherbus256-Bit: acht unabhängige 32-Bit-Speichercontroller, die GDDR5- und GDDR5X-Speicher unterstützen
GPU-Frequenz1506 (1683) MHz
Rechenblöcke15 aktive (von 20 im Chip) Streaming-Multiprozessoren, darunter 1920 (von 2560) skalare ALUs für Fließkommaberechnungen im Rahmen des Standards IEEE 754-2008;
Blöcke texturieren120 aktive (von 160 im Chip) Texturadressierungs- und Filtereinheiten mit Unterstützung für FP16- und FP32-Komponenten in Texturen und Unterstützung für trilineare und anisotrope Filterung für alle Texturformate
Raster Operations Units (ROPs)8 breite ROPs (64 Pixel) mit Unterstützung für verschiedene Anti-Aliasing-Modi, einschließlich programmierbar und mit FP16- oder FP32-Framebuffer-Format. Blöcke bestehen aus einer Reihe konfigurierbarer ALUs und sind für die Tiefenerzeugung und den Vergleich, das Multisampling und das Mischen verantwortlich
Unterstützung überwachenIntegrierte Unterstützung für bis zu vier Monitore, die über Dual Link DVI, HDMI 2.0b und DisplayPort 1.2 (1.3/1.4 Ready) verbunden sind

Spezifikationen der GeForce GTX 1070-Referenzgrafik
ParameterBedeutung
Kernfrequenz1506 (1683) MHz
Anzahl Universalprozessoren1920
Anzahl der Texturblöcke120
Anzahl der Mischblöcke64
Effektive Speicherfrequenz8000 (4×2000) MHz
SpeichertypGDDR5
Speicherbus256-Bit
Speichergröße8GB
Speicherbandbreite256 GB/s
Rechenleistung (FP32)etwa 6,5 ​​Teraflops
Theoretische maximale Füllrate96 Gigapixel/s
Theoretische Texturabtastrate181 Gigabyte/s
ReifenPCI-Express 3.0
AnschlüsseEin Dual Link DVI, ein HDMI und drei DisplayPort
Energieverbrauchbis 150 W
Extra-EssenEin 8-Pin-Anschluss
Anzahl der belegten Steckplätze im Systemgehäuse2
Empfohlener Preis379–449 $ (USA), 34.990 $ (Russland)

Die Grafikkarte GeForce GTX 1070 erhielt auch einen logischen Namen, der der gleichen Lösung aus der vorherigen GeForce-Serie ähnelt. Sie unterscheidet sich von ihrem direkten Vorgänger GeForce GTX 970 lediglich durch eine geänderte Generationsnummer. Die Neuheit wird ein Schritt unter die aktuelle Top-Lösung GeForce GTX 1080 in der aktuellen Linie des Unternehmens, die bis zur Veröffentlichung noch leistungsstärkerer GPU-Lösungen zum vorübergehenden Flaggschiff der neuen Serie wurde.

Die empfohlenen Preise für die neue Top-End-Grafikkarte von Nvidia betragen 379 US-Dollar bzw. 449 US-Dollar für die reguläre Nvidia-Partner-Edition und die Founders Edition. Im Vergleich zum Topmodell ist das sehr Guter Preis wenn man bedenkt, dass die GTX 1070 im schlechtesten Fall etwa 25 % zurückliegt. Und zum Zeitpunkt der Ankündigung und Veröffentlichung wird die GTX 1070 zur leistungsstärksten Lösung ihrer Klasse. Wie die GeForce GTX 1080 hat die GTX 1070 keine direkten Konkurrenten von AMD und kann nur mit der Radeon R9 390X und Fury verglichen werden.

Die GP104-GPU in der GeForce GTX 1070-Modifikation entschied sich dafür, einen vollen 256-Bit-Speicherbus zu verlassen, obwohl sie keinen neuen Typ von GDDR5X-Speicher verwendet, sondern ein sehr schnelles GDDR5, das mit einer hohen effektiven Frequenz von 8 GHz arbeitet. Die auf einer Grafikkarte mit einem solchen Bus installierte Speichermenge kann 4 oder 8 GB betragen, und um die maximale Leistung der neuen Lösung bei hohen Einstellungen und Rendering-Auflösungen zu gewährleisten, wurde auch das Grafikkartenmodell GeForce GTX 1070 ausgestattet mit 8 GB Videospeicher, wie seine große Schwester. Dieses Volumen reicht aus, um beliebige 3D-Anwendungen über mehrere Jahre mit maximalen Qualitätseinstellungen zu betreiben.

GeForce GTX 1070 Founders Edition

Mit der Ankündigung der GeForce GTX 1080 Anfang Mai wurde eine Sonderausgabe der Grafikkarte namens Founders Edition angekündigt, die einen höheren Preis hat als reguläre Grafikkarten der Partner des Unternehmens. Gleiches gilt für die Neuheit. In diesem Artikel werden wir erneut über eine Sonderedition der Grafikkarte GeForce GTX 1070 namens Founders Edition sprechen. Wie schon beim Vorgängermodell hat sich Nvidia entschieden, diese Version der Referenz-Grafikkarte des Herstellers zu einem höheren Preis herauszubringen. Sie behaupten, dass viele Spieler und Enthusiasten, die teure Grafikkarten der Spitzenklasse kaufen, ein Produkt mit einem angemessenen „Premium“-Look und -Feeling wünschen.

Dementsprechend wird für solche Benutzer die GeForce GTX 1070 Founders Edition-Grafikkarte auf den Markt gebracht, die von Nvidia-Ingenieuren aus hochwertigen Materialien und Komponenten wie der Aluminiumabdeckung der GeForce GTX 1070 Founders Edition entwickelt und hergestellt wird als Low-Profile-Rückplatte, die die Rückseite der Leiterplatte abdeckt und bei Enthusiasten sehr beliebt ist.

Wie Sie auf den Fotos der Platine sehen können, hat die GeForce GTX 1070 Founders Edition genau das gleiche Industriedesign von der Referenzversion der GeForce GTX 1080 Founders Edition geerbt. Beide Modelle verwenden einen Radiallüfter, der erwärmte Luft ausbläst, was sowohl in kleinen Gehäusen als auch in Multi-Chip-SLI-Konfigurationen mit begrenztem Platz sehr nützlich ist. Indem Sie erwärmte Luft ausblasen, anstatt sie im Inneren des Gehäuses zirkulieren zu lassen, können Sie die thermische Belastung reduzieren, die Übertaktungsergebnisse verbessern und die Lebensdauer der Systemkomponenten verlängern.

Unter der Abdeckung des Referenzkühlsystems GeForce GTX 1070 verbirgt sich ein speziell geformter Aluminiumradiator mit drei eingebauten Kupfer-Heatpipes, die die Wärme von der GPU selbst abführen. Die von den Heatpipes abgegebene Wärme wird dann von einem Aluminiumkühlkörper abgeführt. Nun, die Metallplatte mit niedrigem Profil auf der Rückseite der Platine ist auch so konzipiert, dass sie eine bessere thermische Leistung bietet. Es verfügt auch über einen einziehbaren Abschnitt für einen besseren Luftstrom zwischen mehreren Grafikkarten in SLI-Konfigurationen.

Was das Stromversorgungssystem des Boards betrifft, so verfügt die GeForce GTX 1070 Founders Edition über ein vierphasiges Stromversorgungssystem, das für eine stabile Stromversorgung optimiert ist. Nvidia behauptet, dass die Verwendung spezieller Komponenten in der GTX 1070 Founders Edition die Energieeffizienz, Stabilität und Zuverlässigkeit gegenüber der GeForce GTX 970 verbessert und eine bessere Übertaktungsleistung liefert. In den unternehmenseigenen Tests übertrafen die GeForce-GTX-1070-GPUs problemlos 1,9 GHz, was nahe an den Ergebnissen des älteren GTX-1080-Modells liegt.

Die Nvidia GeForce GTX 1070 Grafikkarte ist ab dem 10. Juni im Handel erhältlich. Die empfohlenen Preise für die GeForce GTX 1070 Founders Edition und Partnerlösungen sind unterschiedlich, und das ist die Hauptfrage für diese Sonderedition. Wenn Nvidia-Partner ihre GeForce GTX 1070-Grafikkarten ab 379 US-Dollar (auf dem US-Markt) verkaufen, kostet Nvidias Referenzdesign Founders Edition nur 449 US-Dollar. Gibt es viele Enthusiasten, die bereit sind, für die zweifelhaften Vorteile der Referenzversion zu viel zu bezahlen? Die Zeit wird es zeigen, aber wir glauben, dass die Referenzgebühr als Kaufoption zu Beginn des Verkaufs interessanter ist und später der Zeitpunkt des Kaufs (und sogar zu einem hohen Preis!) bereits auf Null reduziert wird.

Es bleibt hinzuzufügen, dass die Leiterplatte der Referenz-GeForce GTX 1070 der der älteren Grafikkarte ähnelt und sich beide von den Geräten der vorherigen Boards des Unternehmens unterscheiden. Der typische Stromverbrauchswert für das neue Produkt beträgt 150 W, das sind fast 20 % weniger als der Wert für die GTX 1080 und nahe am Stromverbrauch der Grafikkarte GeForce GTX 970 der vorherigen Generation.Die Nvidia-Referenzplatine hat ein vertrautes Set Anschlüsse zum Anschluss von Bildausgabegeräten: ein Dual-Link-DVI, ein HDMI und drei DisplayPort. Darüber hinaus gibt es Unterstützung für neue HDMI-Versionen und DisplayPort, worüber wir oben im Test des GTX-1080-Modells geschrieben haben.

Architektonische Veränderungen

Die GeForce GTX 1070 basiert auf dem GP104-Chip, dem ersten einer neuen Generation von Nvidias Pascal-Grafikarchitektur. Diese Architektur basierte auf den Lösungen, die damals in Maxwell entwickelt wurden, weist aber auch einige funktionale Unterschiede auf, über die wir oben ausführlich geschrieben haben - im Teil, der der Top-Grafikkarte GeForce GTX 1080 gewidmet ist.

Die Hauptänderung der neuen Architektur war der technologische Prozess, durch den alle neuen GPUs ausgeführt werden. Die Verwendung des 16-nm-FinFET-Fertigungsprozesses bei der Produktion von GP104 ermöglichte es, die Komplexität des Chips bei relativ geringer Fläche und Kosten erheblich zu erhöhen, und der allererste Chip der Pascal-Architektur hat eine deutlich größere Anzahl von Ausführungen Einheiten, einschließlich derjenigen, die neue Funktionen bieten, im Vergleich zu Maxwell-Chips mit ähnlicher Positionierung.

Der GP104-Videochip ähnelt in seinem Design ähnlichen Maxwell-Architekturlösungen, und Sie können detaillierte Informationen zum Design moderner GPUs in unseren Tests früherer Nvidia-Lösungen finden. Wie frühere GPUs werden die Chips der neuen Architektur eine andere Konfiguration von Graphics Processing Cluster (GPC), Streaming Multiprocessor (SM) und Speichercontrollern haben, und einige Änderungen wurden bereits in der GeForce GTX 1070 vorgenommen – ein Teil des Chips wurde gesperrt und inaktiv (grau hinterlegt):

Obwohl die GP104-GPU vier GPC-Cluster und 20 SM-Multiprozessoren enthält, erhielt sie in der Version für die GeForce GTX 1070 eine abgespeckte Modifikation mit einem per Hardware deaktivierten GPC-Cluster. Da jeder GPC-Cluster über eine dedizierte Rasterisierungs-Engine verfügt und fünf SMs enthält und jeder Multiprozessor aus 128 CUDA-Kernen und acht Textur-TMUs besteht, sind 1920 CUDA-Kerne und 120 TMUs mit 2560 Stream-Prozessoren in dieser Version von GP104 und 160 physischen Textureinheiten aktiv.

Der Grafikprozessor, auf dem die GeForce GTX 1070 basiert, enthält acht 32-Bit-Speichercontroller, was zu einem insgesamt 256-Bit-Speicherbus führt - genau wie beim älteren Modell GTX 1080. Das Speichersubsystem wurde nicht auf Ordnung getrimmt um einen Speicher mit ausreichend hoher Bandbreite unter der Bedingung bereitzustellen, dass GDDR5-Speicher in der GeForce GTX 1070 verwendet wird. Jeder der Speichercontroller verfügt über acht ROPs und 256 KB L2-Cache, sodass der GP104-Chip in dieser Modifikation auch 64 ROPs und 2048 KB enthält L2-Cache-Ebene.

Dank architektonischer Optimierungen und einer neuen Prozesstechnologie ist die GP104-GPU die bisher energieeffizienteste GPU. Die Nvidia-Ingenieure konnten die Taktrate beim Wechsel zu einem neuen Prozess stärker als erwartet erhöhen, wofür sie hart arbeiten mussten, indem sie alle Engpässe früherer Lösungen sorgfältig überprüften und optimierten, die es ihnen nicht erlaubten, mit einer höheren Frequenz zu arbeiten. Dementsprechend arbeitet auch die GeForce GTX 1070 mit einer sehr hohen Frequenz, mehr als 40 % über dem Referenzwert der GeForce GTX 970.

Da die GeForce GTX 1070 im Grunde nur eine etwas weniger produktive GTX 1080 mit GDDR5-Speicher ist, unterstützt sie absolut alle Technologien, die wir im vorherigen Abschnitt beschrieben haben. Weitere Einzelheiten über die Pascal-Architektur sowie die von ihr unterstützten Technologien, wie z. B. verbesserte Ausgabe- und Videoverarbeitungseinheiten, Async-Compute-Unterstützung, Simultaneous-Multi-Projection-Technologie, Änderungen beim SLI-Multi-Chip-Rendering und den neuen Fast-Sync-Synchronisierungstyp , lesenswert mit einem Abschnitt zur GTX 1080.

Leistungsstarker GDDR5-Speicher und seine effiziente Nutzung

Wir haben oben über Änderungen im Speichersubsystem der GP104-GPU geschrieben, auf denen die Modelle GeForce GTX 1080 und GTX 1070 basieren – die in dieser GPU enthaltenen Speichercontroller unterstützen sowohl den neuen Typ von GDDR5X-Videospeicher, der ausführlich beschrieben wird in der GTX 1080 Test, sowie der gute alte GDDR5 Speicher, den wir schon seit einigen Jahren kennen.

Um bei der jüngeren GTX 1070 im Vergleich zur älteren GTX 1080 nicht zu viel Speicherbandbreite zu verlieren, wurden alle acht 32-Bit-Speichercontroller darin aktiv gelassen, wodurch eine vollständige 256-Bit-gemeinsame Videospeicherschnittstelle erhalten wurde. Darüber hinaus wurde die Grafikkarte mit dem schnellsten auf dem Markt erhältlichen GDDR5-Speicher ausgestattet – mit einer effektiven Arbeitsfrequenz von 8 GHz. All dies lieferte eine Speicherbandbreite von 256 GB/s, im Gegensatz zu 320 GB/s bei der älteren Lösung – die Rechenleistung wurde um etwa den gleichen Betrag gekürzt, so dass die Balance gewahrt blieb.

Denken Sie daran, dass die theoretische Spitzenbandbreite zwar wichtig für die GPU-Leistung ist, Sie aber auch auf ihre Effizienz achten müssen. Während des Rendering-Prozesses können viele verschiedene Engpässe die Gesamtleistung einschränken und die Nutzung der gesamten verfügbaren Speicherbandbreite verhindern. Um diese Engpässe zu minimieren, verwenden GPUs eine spezielle verlustfreie Datenkomprimierung, um die Effizienz des Lesens und Schreibens von Daten zu verbessern.

Die vierte Generation der Delta-Komprimierung von Pufferinformationen wurde bereits in die Pascal-Architektur eingeführt, die es der GPU ermöglicht, die verfügbaren Fähigkeiten des Videospeicherbusses effizienter zu nutzen. Das Speichersubsystem in der GeForce GTX 1070 und GTX 1080 verwendet verbesserte alte und mehrere neue verlustfreie Datenkomprimierungstechniken, die entwickelt wurden, um die Bandbreitenanforderungen zu reduzieren. Dies reduziert die in den Speicher geschriebene Datenmenge, verbessert die L2-Cache-Effizienz und reduziert die Datenmenge, die zwischen verschiedenen Punkten auf der GPU, wie der TMU und dem Framebuffer, gesendet wird.

GPU Boost 3.0 und Übertaktungsfunktionen

Die meisten Nvidia-Partner haben bereits ab Werk übertaktete Lösungen auf Basis der GeForce GTX 1080 und GTX 1070 angekündigt. spezielle Dienstprogramme zum Übertakten, sodass Sie die neue Funktionalität der GPU Boost 3.0-Technologie nutzen können. Ein Beispiel für solche Dienstprogramme ist EVGA Precision XOC, das einen automatischen Scanner zur Bestimmung der Spannungs-Frequenz-Kurve enthält - in diesem Modus wird für jeden Spannungswert durch Ausführen eines Stabilitätstests eine stabile Frequenz gefunden, bei der die GPU bereitstellt eine Leistungssteigerung. Diese Kurve kann aber auch manuell verändert werden.

Die GPU-Boost-Technologie kennen wir gut von früheren Nvidia-Grafikkarten. In ihren GPUs verwenden sie diese Hardwarefunktion, die darauf ausgelegt ist, die Betriebstaktrate der GPU in Modi zu erhöhen, in denen sie die Grenzen des Stromverbrauchs und der Wärmeableitung noch nicht erreicht hat. In Pascal-GPUs hat dieser Algorithmus mehrere Änderungen erfahren, von denen die Hauptsache eine feinere Einstellung der Turbofrequenzen in Abhängigkeit von der Spannung ist.

Wenn früher der Unterschied zwischen der Basisfrequenz und der Turbofrequenz behoben wurde, wurde es in GPU Boost 3.0 möglich, Turbofrequenz-Offsets für jede Spannung separat einzustellen. Jetzt kann die Turbofrequenz für jeden der einzelnen Spannungswerte eingestellt werden, wodurch Sie alle Übertaktungsmöglichkeiten vollständig aus der GPU herausholen können. Wir haben im GeForce GTX 1080-Test ausführlich über dieses Feature geschrieben, und Sie können dafür die Hilfsprogramme EVGA Precision XOC und MSI Afterburner verwenden.

Da sich mit der Veröffentlichung von Grafikkarten mit Unterstützung für GPU Boost 3.0 einige Details in der Übertaktungsmethodik geändert haben, musste Nvidia in den Anleitungen zum Übertakten neuer Produkte zusätzliche Erläuterungen geben. Es gibt verschiedene Übertaktungstechniken mit unterschiedlichen variablen Eigenschaften, die das Endergebnis beeinflussen. Für jedes bestimmte System kann eine bestimmte Methode besser geeignet sein, aber die Grundlagen sind immer ungefähr gleich.

Viele Übertakter verwenden den Unigine Heaven 4.0-Benchmark, um die Systemstabilität zu überprüfen, der die GPU gut belastet, flexible Einstellungen hat und im Fenstermodus zusammen mit einem Übertaktungs- und Üin der Nähe ausgeführt werden kann, wie EVGA Precision oder MSI Afterburner. Eine solche Überprüfung reicht jedoch nur für erste Schätzungen aus, und um die Stabilität der Übertaktung fest zu bestätigen, muss sie in mehreren Spieleanwendungen überprüft werden, da verschiedene Spiele unterschiedliche Belastungen für verschiedene Funktionseinheiten der GPU erfordern: mathematisch, texturell, geometrisch. Der Heaven 4.0-Benchmark eignet sich auch zum Übertakten, da er über einen Schleifenmodus verfügt, in dem die Übertaktungseinstellungen bequem geändert werden können, und es einen Benchmark zur Bewertung der Geschwindigkeitssteigerung gibt.

Nvidia empfiehlt, Heaven 4.0 und EVGA Precision XOC Windows zusammen auszuführen, wenn die neuen GeForce GTX 1080- und GTX 1070-Grafikkarten übertaktet werden. Zunächst ist es wünschenswert, die Lüftergeschwindigkeit sofort zu erhöhen. Und für ernsthaftes Übertakten können Sie den Geschwindigkeitswert sofort auf 100 % setzen, wodurch die Grafikkarte sehr laut wird, aber die GPU und andere Komponenten der Grafikkarte so weit wie möglich gekühlt werden, indem die Temperatur auf das niedrigste Maß gesenkt wird Stufe, verhindert Drosselung (Reduzierung der Frequenzen aufgrund einer Erhöhung der GPU-Temperatur über einen bestimmten Wert).

Als nächstes müssen Sie den Zielleistungswert (Power Target) ebenfalls auf das Maximum einstellen. Diese Einstellung versorgt die GPU mit der maximal möglichen Leistung, indem der Stromverbrauch und die Zieltemperatur der GPU (GPU Temp Target) erhöht werden. Für einige Zwecke lässt sich der zweite Wert von der Power Target-Änderung trennen und diese Einstellungen dann individuell anpassen – um zum Beispiel eine geringere Erwärmung des Videochips zu erreichen.

Der nächste Schritt besteht darin, den GPU Clock Offset-Wert zu erhöhen – er bedeutet, wie viel höher die Turbofrequenz während des Betriebs sein wird. Dieser Wert erhöht die Frequenz für alle Spannungen und führt zu einer besseren Leistung. Wie üblich müssen Sie beim Übertakten die Stabilität überprüfen, wenn Sie die Frequenz der GPU in kleinen Schritten erhöhen - von 10 MHz auf 50 MHz pro Schritt, bevor Sie einen Hänger, Treiber- oder Anwendungsfehler oder sogar visuelle Artefakte bemerken. Wenn diese Grenze erreicht ist, sollten Sie den Frequenzwert um einen Schritt nach unten reduzieren und die Stabilität und Leistung beim Übertakten erneut überprüfen.

Neben der GPU-Frequenz lässt sich auch die Videospeicherfrequenz (Memory Clock Offset) erhöhen, was besonders bei der mit GDDR5-Speicher ausgestatteten GeForce GTX 1070 wichtig ist, die sich in der Regel gut übertakten lässt. Der Vorgang im Fall der Speicherfrequenz wiederholt genau das, was beim Finden einer stabilen GPU-Frequenz getan wird, der einzige Unterschied besteht darin, dass die Schritte größer gemacht werden können - addieren Sie sofort 50-100 MHz zur Basisfrequenz hinzu.

Zusätzlich zu den oben genannten Schritten können Sie auch das Überspannungslimit erhöhen, da eine höhere GPU-Frequenz häufig bei erhöhter Spannung erreicht wird, wenn instabile Teile der GPU zusätzliche Leistung erhalten. Richtig, der potenzielle Nachteil erhöht sich gegebenen Wert besteht die Möglichkeit einer Beschädigung des Videochips und seines beschleunigten Ausfalls, daher müssen Sie die Spannungserhöhung mit äußerster Vorsicht verwenden.

Overclocking-Enthusiasten verwenden etwas andere Techniken und ändern die Parameter in einer anderen Reihenfolge. Einige Overclocker teilen beispielsweise Experimente, um eine stabile GPU- und Speicherfrequenz zu finden, damit sie sich nicht gegenseitig stören, und testen dann die kombinierte Übertaktung von Videochip und Speicherchips, aber dies sind bereits unbedeutende Details eines individuellen Ansatzes .

Nach den Meinungen in den Foren und Kommentaren zu Artikeln zu urteilen, mochten einige Benutzer den neuen GPU Boost 3.0-Betriebsalgorithmus nicht, wenn die GPU-Frequenz zuerst sehr hoch ansteigt, oft höher als die Turbofrequenz, dann aber unter dem Einfluss einer Erhöhung B. bei GPU-Temperatur oder erhöhtem Stromverbrauch über dem eingestellten Limit, kann es auf deutlich niedrigere Werte absinken. Dies sind nur die Besonderheiten des aktualisierten Algorithmus, Sie müssen sich an das neue Verhalten der sich dynamisch ändernden GPU-Frequenz gewöhnen, aber es hat keine negativen Folgen.

Die GeForce GTX 1070 ist nach der GTX 1080 das zweite Modell in Nvidias neuer Reihe von Grafikprozessoren auf Basis der Pascal-Familie. Der neue 16-nm-FinFET-Fertigungsprozess und Architekturoptimierungen haben es dieser Grafikkarte ermöglicht, hohe Taktraten zu erreichen, was durch die neue Generation der GPU-Boost-Technologie unterstützt wird. Auch wenn die Anzahl der Funktionsblöcke in Form von Stream-Prozessoren und Texturmodulen reduziert wurde, reicht ihre Anzahl immer noch aus, um die GTX 1070 zur profitabelsten und energieeffizientesten Lösung zu machen.

Die Installation von GDDR5-Speicher auf dem jüngsten von zwei veröffentlichten Modellen von Nvidia-Grafikkarten auf einem GP104-Chip hindert ihn im Gegensatz zum neuen Typ von GDDR5X, der die GTX 1080 auszeichnet, nicht daran, hohe Leistungsindikatoren zu erreichen. Zum einen verzichtet Nvidia auf den Speicherbus des GeForce-GTX-1070-Modells, zum anderen verbaut man darauf den schnellsten GDDR5-Speicher mit einer effektiven Frequenz von 8 GHz, was nur knapp unter 10 GHz des darin verwendeten GDDR5X liegt älteres Modell. Unter Berücksichtigung der verbesserten Delta-Komprimierungsalgorithmen ist die effektive Speicherbandbreite der GPU höher geworden als derselbe Parameter für ähnliches Modell GeForce GTX 970 der vorherigen Generation.

Die GeForce GTX 1070 ist insofern gut, als sie im Vergleich zu dem etwas früher angekündigten älteren Modell eine sehr hohe Leistung und Unterstützung für neue Funktionen und Algorithmen zu einem viel niedrigeren Preis bietet. Wenn es sich ein paar Enthusiasten leisten können, eine GTX 1080 für 55.000 zu kaufen, dann wird ein viel größerer Kreis potenzieller Käufer 35.000 für nur ein Viertel einer weniger leistungsfähigen Lösung mit genau denselben Fähigkeiten bezahlen können. Es war die Kombination aus relativ niedrigem Preis und hoher Leistung, die die GeForce GTX 1070 zum Zeitpunkt ihrer Veröffentlichung zum vielleicht profitabelsten Kauf machte.

Grafikbeschleuniger GeForce GTX 1060

ParameterBedeutung
Chip-CodenameGP106
Produktionstechnologie16-nm-FinFET
Anzahl der Transistoren4,4 Milliarden
Kernbereich200 mm²
Die ArchitekturVereinheitlicht, mit einer Reihe gemeinsamer Prozessoren für die Stream-Verarbeitung zahlreicher Datentypen: Scheitelpunkte, Pixel usw.
DirectX-HardwareunterstützungDirectX 12, mit Unterstützung für Feature Level 12_1
Speicherbus192-Bit: sechs unabhängige 32-Bit-Speichercontroller, die GDDR5-Speicher unterstützen
GPU-Frequenz1506 (1708) MHz
Rechenblöcke10 Streaming-Multiprozessoren, darunter 1280 skalare ALUs für Gleitkommaberechnungen innerhalb des IEEE 754-2008-Standards;
Blöcke texturieren80 Texturadressierungs- und Filtereinheiten mit Unterstützung für FP16- und FP32-Komponenten in Texturen und Unterstützung für trilineare und anisotrope Filterung für alle Texturformate
Raster Operations Units (ROPs)6 breite ROPs (48 Pixel) mit Unterstützung für verschiedene Anti-Aliasing-Modi, einschließlich programmierbar und mit FP16- oder FP32-Framebuffer-Format. Blöcke bestehen aus einer Reihe konfigurierbarer ALUs und sind für die Tiefenerzeugung und den Vergleich, das Multisampling und das Mischen verantwortlich
Unterstützung überwachenIntegrierte Unterstützung für bis zu vier Monitore, die über Dual Link DVI, HDMI 2.0b und DisplayPort 1.2 (1.3/1.4 Ready) verbunden sind

Spezifikationen der GeForce GTX 1060-Referenzgrafik
ParameterBedeutung
Kernfrequenz1506 (1708) MHz
Anzahl Universalprozessoren1280
Anzahl der Texturblöcke80
Anzahl der Mischblöcke48
Effektive Speicherfrequenz8000 (4×2000) MHz
SpeichertypGDDR5
Speicherbus192-Bit
Speichergröße6GB
Speicherbandbreite192 GB/s
Rechenleistung (FP32)etwa 4 Teraflops
Theoretische maximale Füllrate72 Gigapixel/s
Theoretische Texturabtastrate121 Gigabyte/s
ReifenPCI-Express 3.0
AnschlüsseEin Dual Link DVI, ein HDMI und drei DisplayPort
Typischer Stromverbrauch120 W
Extra-EssenEin 6-poliger Stecker
Anzahl der belegten Steckplätze im Systemgehäuse2
Empfohlener Preis249 $ (299 $) in den USA und 18.990 in Russland

Auch die Grafikkarte GeForce GTX 1060 erhielt einen ähnlichen Namen wie die gleiche Lösung aus der vorherigen GeForce-Serie, die sich vom Namen ihres direkten Vorgängers GeForce GTX 960 nur durch die geänderte erste Ziffer der Generation unterscheidet. Die Neuheit ist in der aktuellen Linie des Unternehmens eine Stufe niedriger geworden als die zuvor veröffentlichte GeForce GTX 1070-Lösung, die in Bezug auf die Geschwindigkeit in der neuen Serie durchschnittlich ist.

Die empfohlenen Preise für Nvidias neue Grafikkarte liegen bei 249 US-Dollar bzw. 299 US-Dollar für die regulären Versionen der Partner des Unternehmens und für die spezielle Founder's Edition. Im Vergleich zu den beiden älteren Modellen ist das ein sehr günstiger Preis, denn das neue GTX-1060-Modell ist den Top-Mainboards zwar unterlegen, aber bei weitem nicht so viel wie günstiger. Zum Zeitpunkt der Ankündigung wurde die Neuheit definitiv zur leistungsstärksten Lösung ihrer Klasse und zu einem der profitabelsten Angebote in dieser Preisklasse.

Dieses Modell von Nvidias Grafikkarten der Pascal-Familie stellt sich gegen die frische Entscheidung des Konkurrenzunternehmens AMD, das etwas früher die Radeon RX 480 herausbrachte: Mit dieser Grafikkarte kann man die neue Nvidia-Grafikkarte, wenn auch nicht ganz direkt, vergleichen sie unterscheiden sich noch recht deutlich im Preis. Die GeForce GTX 1060 ist teurer (249–299 US-Dollar gegenüber 199–229 US-Dollar), aber auch deutlich schneller als die Konkurrenz.

Der GP106-Grafikprozessor verfügt über einen 192-Bit-Speicherbus, sodass die auf einer Grafikkarte mit einem solchen Bus installierte Speichermenge 3 oder 6 GB betragen kann. Ein kleinerer Wert ist unter modernen Bedingungen offen gesagt nicht genug, und viele Spielprojekte werden selbst in Full-HD-Auflösung auf einen Mangel an Videospeicher stoßen, was die Glätte des Renderings ernsthaft beeinträchtigen wird. Um die maximale Leistung der neuen Lösung bei hohen Einstellungen zu gewährleisten, wurde das Modell GeForce GTX 1060 mit 6 GB Videospeicher ausgestattet, was ausreicht, um beliebige 3D-Anwendungen mit beliebigen Qualitätseinstellungen auszuführen. Außerdem gibt es heute einfach keinen Unterschied zwischen 6 und 8 GB, und eine solche Lösung spart etwas Geld.

Der typische Stromverbrauchswert für das neue Produkt beträgt 120 W, was 20 % weniger als der Wert für die GTX 1070 ist und dem Stromverbrauch der GeForce GTX 960-Grafikkarte der vorherigen Generation entspricht, die eine viel geringere Leistung und Fähigkeiten hat. Das Referenzboard verfügt über die üblichen Anschlüsse zum Anschluss von Bildausgabegeräten: einmal Dual-Link DVI, einmal HDMI und drei DisplayPort. Darüber hinaus gab es Unterstützung für neue Versionen von HDMI und DisplayPort, über die wir im Test des GTX-1080-Modells geschrieben haben.

Die Länge der GeForce GTX 1060-Referenzplatine beträgt 9,8 Zoll (25 cm), und von den Unterschieden zu den älteren Optionen weisen wir separat darauf hin, dass die GeForce GTX 1060 die SLI-Multi-Chip-Rendering-Konfiguration nicht unterstützt und keine hat spezielle Stecker dafür. Da das Board weniger Strom verbraucht als ältere Modelle, wurde ein externer 6-Pin-PCI-E-Stromanschluss für zusätzliche Stromversorgung auf dem Board installiert.

GeForce GTX 1060-Grafikkarten sind seit dem Tag der Ankündigung in Form von Produkten der Partner des Unternehmens auf dem Markt erschienen: Asus, EVGA, Gainward, Gigabyte, Innovision 3D, MSI, Palit, Zotac. Eine von Nvidia selbst produzierte Sonderedition der GeForce GTX 1060 Founder’s Edition erscheint in begrenzter Stückzahl, die zum Preis von 299 US-Dollar exklusiv auf der Nvidia-Website verkauft und nicht offiziell in Russland präsentiert wird. Die Founder's Edition zeichnet sich dadurch aus, dass sie aus hochwertigen Materialien und Komponenten besteht, darunter ein Aluminiumgehäuse, und ein effizientes Kühlsystem sowie niederohmige Stromkreise und speziell entwickelte Spannungsregler verwendet.

Architektonische Veränderungen

Die Grafikkarte GeForce GTX 1060 basiert auf einem völlig neuen Grafikprozessormodell GP106, das sich funktional nicht vom Erstgeborenen der Pascal-Architektur in Form des GP104-Chips unterscheidet, auf dem die Modelle GeForce GTX 1080 und GTX 1070 beschrieben sind Diese Architektur basiert auf Lösungen, die bereits in Maxwell ausgearbeitet wurden, weist jedoch auch einige funktionale Unterschiede auf, über die wir bereits ausführlich geschrieben haben.

Der GP106-Videochip ähnelt in seinem Design dem Top-End-Pascal-Chip und ähnlichen Lösungen der Maxwell-Architektur, und Sie können detaillierte Informationen zum Design moderner GPUs in unseren Testberichten früherer Nvidia-Lösungen finden. Wie frühere GPUs haben die Chips der neuen Architektur eine andere Konfiguration von Graphics Processing Cluster (GPC), Streaming Multiprocessor (SM) und Speichercontrollern:

Der GP106-Grafikprozessor enthält zwei GPC-Cluster, bestehend aus 10 Streaming-Multiprozessoren (Streaming Multiprocessor - SM), also genau die Hälfte des GP104. Wie in der älteren GPU enthält jeder der Multiprozessoren 128 Kerne, 8 TMU-Textureinheiten, jeweils 256 KB Speicher registrieren, 96 KB gemeinsam genutzter Speicher und 48 KB L1-Cache. Dadurch enthält die GeForce GTX 1060 mit insgesamt 1.280 Rechenkernen und 80 Textureinheiten die Hälfte der GTX 1080.

Aber das Speichersubsystem der GeForce GTX 1060 wurde gegenüber der Top-Lösung nicht halbiert, es enthält sechs 32-Bit-Speichercontroller, was den endgültigen 192-Bit-Speicherbus ergibt. Mit einer effektiven Frequenz des GDDR5-Videospeichers für die GeForce GTX 1060 von 8 GHz erreicht die Bandbreite 192 GB / s, was für eine Lösung in diesem Preissegment ziemlich gut ist, insbesondere angesichts der hohen Effizienz ihrer Verwendung in Pascal. Jedem der Speichercontroller sind acht ROPs und 256 KB L2-Cache zugeordnet, also insgesamt Vollversion Die GP106-GPU enthält 48 ROPs und 1536 KB L2-Cache.

Um die Anforderungen an die Speicherbandbreite zu reduzieren und die verfügbare Pascal-Architektur effizienter zu nutzen, wurde die verlustfreie On-Chip-Datenkomprimierung weiter verbessert, die in der Lage ist, Daten in Puffern zu komprimieren, wodurch Effizienz- und Leistungssteigerungen erzielt werden. Insbesondere wurden die Chips der neuen Familie um neue Delta-Komprimierungsverfahren mit 4:1- und 8:1-Verhältnissen erweitert, die für eine zusätzliche Effizienz der Speicherbandbreite von 20 % im Vergleich zu früheren Lösungen der Maxwell-Familie sorgen.

Die Basisfrequenz der neuen GPU liegt bei 1506 MHz – diese Marke sollte grundsätzlich nicht unterschritten werden. Der typische Turbo-Takt (Boost-Takt) liegt mit 1.708 MHz deutlich höher, was dem Durchschnitt der tatsächlichen Frequenz entspricht, mit der der GeForce-GTX-1060-Grafikchip in einer Vielzahl von Spielen und 3D-Anwendungen läuft. Die tatsächliche Boost-Frequenz hängt vom Spiel und den Bedingungen ab, unter denen der Test stattfindet.

Wie die anderen Lösungen der Pascal-Familie arbeitet das GeForce GTX 1060-Modell nicht nur mit einer hohen Taktfrequenz und bietet eine hohe Leistung, sondern hat auch einen ordentlichen Spielraum zum Übertakten. Die ersten Experimente weisen auf die Möglichkeit hin, Frequenzen in der Größenordnung von 2 GHz zu erreichen. Es überrascht nicht, dass die Partner des Unternehmens auch werkseitig übertaktete Versionen der GTX 1060-Grafikkarte vorbereiten.

Die wichtigste Änderung in der neuen Architektur war also der 16-nm-FinFET-Prozess, dessen Verwendung bei der Herstellung von GP106 es ermöglichte, die Komplexität des Chips erheblich zu erhöhen und gleichzeitig eine relativ geringe Fläche von 200 mm² beizubehalten. Daher hat dieser Chip mit Pascal-Architektur eine deutlich größere Anzahl von Ausführungseinheiten im Vergleich zu einem Maxwell-Chip mit ähnlicher Positionierung, der mit der 28-nm-Prozesstechnologie hergestellt wird.

Wenn der GM206 (GTX 960) mit einer Fläche von 227 mm² 3 Milliarden Transistoren und 1024 ALUs, 64 TMUs, 32 ROPs und einen 128-Bit-Bus hatte, dann enthielt die neue GPU 4,4 Milliarden Transistoren, 1280 ALUs, in 200 mm², 80 TMUs und 48 ROPs mit einem 192-Bit-Bus. Außerdem bei fast anderthalbmal höherer Frequenz: 1506 (1708) gegenüber 1126 (1178) MHz. Und das bei gleicher Leistungsaufnahme von 120 Watt! Infolgedessen ist die GP106-GPU neben der GP104 zu einer der energieeffizientesten GPUs geworden.

Neue Nvidia-Technologien

Eine der interessantesten Technologien des Unternehmens, die von der GeForce GTX 1060 und anderen Lösungen der Pascal-Familie unterstützt wird, ist die Technik Nvidia simultane Multi-Projektion. Wir haben bereits im GeForce GTX 1080-Test über diese Technologie geschrieben, sie ermöglicht Ihnen die Verwendung mehrerer neuer Techniken zur Optimierung des Renderings. Insbesondere - um gleichzeitig ein VR-Bild für zwei Augen gleichzeitig zu projizieren, wodurch die Effizienz der Verwendung der GPU in der virtuellen Realität erheblich gesteigert wird.

Zur Unterstützung von SMP verfügen alle GPUs der Pascal-Familie über eine spezielle Engine, die sich in der PolyMorph Engine am Ende der geometrischen Pipeline vor dem Rasterizer befindet. Damit kann die GPU von einem Punkt aus gleichzeitig ein geometrisches Grundelement auf mehrere Projektionen projizieren, wobei diese Projektionen stereo sein können (dh bis zu 16 oder 32 Projektionen werden gleichzeitig unterstützt). Diese Fähigkeit ermöglicht es Pascal-GPUs, eine gekrümmte Oberfläche für das VR-Rendering genau zu reproduzieren und auf Systemen mit mehreren Monitoren korrekt anzuzeigen.

Es ist wichtig, dass die Simultaneous Multi-Projection-Technologie bereits in beliebte Spiele-Engines (Unreal Engine und Unity) und Spiele integriert wird, und bis heute wurde die Unterstützung dieser Technologie für mehr als 30 Spiele in der Entwicklung angekündigt, darunter auch so bekannte Projekte wie Unreal Tournament, Poolnation VR, Everest VR, Obduction, Adr1ft und Raw Data. Obwohl Unreal Tournament kein VR-Spiel ist, verwendet es interessanterweise SMP, um eine bessere Grafik und Leistung zu erzielen.

Eine weitere lang erwartete Technologie ist ein leistungsstarkes Tool zum Erstellen von Screenshots in Spielen. Nvidia Ansel. Mit diesem Tool können Sie ungewöhnliche und sehr hochwertige Screenshots von Spielen mit zuvor nicht zugänglichen Funktionen erstellen, sie in sehr hoher Auflösung speichern und mit verschiedenen Effekten ergänzen und Ihre Kreationen teilen. Ansel ermöglicht es Ihnen, einen Screenshot buchstäblich so zu erstellen, wie der Künstler es möchte, sodass Sie eine Kamera mit beliebigen Parametern überall in der Szene installieren, leistungsstarke Nachfilter auf das Bild anwenden oder sogar eine 360-Grad-Aufnahme zur Anzeige in einem machen können Virtual-Reality-Helm.

Nvidia hat die Integration der Ansel-Benutzeroberfläche in Spiele standardisiert, und dies ist so einfach wie das Hinzufügen einiger Codezeilen. Es ist nicht länger notwendig, darauf zu warten, dass diese Funktion in Spielen erscheint, Sie können Ansels Fähigkeiten jetzt in Mirror's Edge: Catalyst bewerten, und etwas später wird es in Witcher 3: Wild Hunt verfügbar sein. Darüber hinaus befinden sich viele Ansel-fähige Spielprojekte in der Entwicklung, darunter Spiele wie Fortnite, Paragon und Unreal Tournament, Obduction, The Witness, Lawbreakers, Tom Clancy’s The Division, No Man’s Sky und mehr.

Auch die neue GeForce GTX 1060 GPU unterstützt das Toolkit Nvidia VRWorks, das Entwicklern hilft, beeindruckende Projekte für die virtuelle Realität zu erstellen. Dieses Paket enthält viele Dienstprogramme und Tools für Entwickler, einschließlich VRWorks Audio, mit dem Sie mithilfe von GPU-Raytracing eine sehr genaue Berechnung der Reflexionen von Schallwellen von Szenenobjekten durchführen können. Das Paket beinhaltet auch die Integration in VR- und PhysX-Physikeffekte, um ein physikalisch korrektes Verhalten von Objekten in der Szene sicherzustellen.

Eines der aufregendsten VR-Spiele, die von VRWorks profitieren, ist VR Funhouse, Nvidias eigenes VR-Spiel, das kostenlos über Valves Steam-Service erhältlich ist. Dieses Spiel wird von Unreal Engine 4 (Epic Games) unterstützt und läuft auf GeForce GTX 1080-, 1070- und 1060-Grafikkarten in Verbindung mit HTC Vive VR-Headsets. Darüber hinaus wird der Quellcode dieses Spiels öffentlich zugänglich sein, was es anderen Entwicklern ermöglichen wird, fertige Ideen und Codes bereits in ihren VR-Attraktionen zu verwenden. Nehmen Sie uns beim Wort, dies ist eine der beeindruckendsten Demonstrationen der Möglichkeiten der virtuellen Realität.

Auch dank SMP- und VRWorks-Technologien bietet der Einsatz der GeForce-GTX-1060-GPU in VR-Anwendungen durchaus genug für Einstiegslevel Virtual-Reality-Leistung, und die betreffende GPU erfüllt das erforderliche Mindesthardwareniveau, einschließlich für SteamVR, und wird zu einer der erfolgreichsten Anschaffungen für den Einsatz in Systemen mit offizielle Unterstützung VR.

Da das Modell GeForce GTX 1060 auf dem GP106-Chip basiert, der dem GP104-Grafikprozessor, der die Grundlage für ältere Modifikationen wurde, in nichts nachsteht, unterstützt es absolut alle oben beschriebenen Technologien.

Die GeForce GTX 1060 ist das dritte Modell in Nvidias neuer Reihe von Grafikprozessoren auf Basis der Pascal-Familie. Die neue 16-nm-FinFET-Prozesstechnologie und Architekturoptimierungen haben es allen neuen Grafikkarten ermöglicht, im Vergleich zu Videochips der vorherigen Generation hohe Taktraten zu erreichen und mehr Funktionsblöcke in Form von Stream-Prozessoren, Texturmodulen und anderen in der GPU zu platzieren. Aus diesem Grund ist die GTX 1060 die profitabelste und energieeffizienteste Lösung in ihrer Klasse und im Allgemeinen geworden.

Besonders wichtig ist, dass die GeForce GTX 1060 im Vergleich zu älteren Lösungen auf Basis des GP104 eine ausreichend hohe Leistung und Unterstützung für neue Features und Algorithmen zu einem deutlich günstigeren Preis bietet. Der im neuen Modell verwendete GP106-Grafikchip bietet die beste Leistung und Energieeffizienz seiner Klasse. Die GeForce GTX 1060 ist speziell entwickelt und perfekt geeignet für alle modernen Spiele mit hohen und maximalen Grafikeinstellungen bei einer Auflösung von 1920 x 1080 und sogar mit Vollbild-Anti-Aliasing, das durch verschiedene Methoden (FXAA, MFAA oder MSAA) aktiviert wird.

Und für diejenigen, die noch mehr Leistung mit ultrahochauflösenden Displays wünschen, hat Nvidia seine Top-of-the-Line-Grafikkarten GeForce GTX 1070 und GTX 1080, die auch in Bezug auf Leistung und Energieeffizienz recht gut sind. Und doch hebt die Kombination aus niedrigem Preis und ausreichender Leistung die GeForce GTX 1060 durchaus positiv vom Hintergrund älterer Lösungen ab. Im Vergleich zur konkurrierenden Radeon RX 480 ist Nvidias Lösung etwas schneller mit weniger Komplexität und GPU-Fußabdruck und hat eine deutlich bessere Energieeffizienz. Es wird zwar etwas teurer verkauft, daher hat jede Grafikkarte ihre eigene Nische.

NVIDIA GeForce GTX 780 Grafikkarte im Test | GeForce Experience und ShadowPlay

GeForce-Erfahrung

Als Computer-Enthusiasten schätzen wir die Kombination verschiedener Einstellungen, die sich auf die Leistung und Qualität von Spielen auswirken. Am einfachsten ist es, viel Geld für eine neue Grafikkarte auszugeben und alle Grafikeinstellungen auf das Maximum zu stellen. Aber wenn sich herausstellt, dass ein Parameter zu schwer für die Karte ist und er reduziert oder ausgeschaltet werden muss, stellt sich ein unangenehmes Gefühl ein und die Erkenntnis, dass das Spiel viel besser funktionieren könnte.

Allerdings ist die Einstellung der optimalen Einstellungen nicht so einfach. Einige Einstellungen erzeugen eine bessere Grafik als andere, und die Auswirkungen auf die Leistung können stark variieren. Das GeForce Experience-Programm ist NVIDIAs Versuch, die Auswahl von Spieleinstellungen zu vereinfachen, indem es Ihre CPU, GPU und Auflösung mit einer Datenbank von Konfigurationen vergleicht. Der zweite Teil des Dienstprogramms hilft Ihnen festzustellen, ob Treiber aktualisiert werden müssen.

Es ist wahrscheinlich, dass Enthusiasten die Einstellungen weiterhin selbst wählen und negativ wahrnehmen werden Zusatzprogramm. Die meisten Spieler, die das Spiel installieren und sofort losspielen möchten, ohne die Treiber zu überprüfen und verschiedene Einstellungen durchzugehen, werden sich jedoch sicherlich über diese Gelegenheit freuen. In jedem Fall hilft NVIDIAs GeForce Experience den Menschen, das Beste aus ihrem Spielerlebnis zu machen, und ist daher ein nützliches Dienstprogramm für PC-Spiele.

GeForce Experience hat alle neun auf unserem Testsystem installierten Spiele identifiziert. Natürlich wurden die Standardeinstellungen nicht gespeichert, da wir testweise bestimmte Einstellungen vorgenommen haben. Aber es ist immer noch interessant, wie GeForce Experience die von uns gewählten Optionen verändert hätte.

Für Tomb Raider wollte GeForce Experience allerdings die TressFX-Technologie deaktivieren NVIDIA GeForce GTX 780 Bei aktivierter Funktion zeigte es durchschnittlich 40 Bilder pro Sekunde. Aus irgendeinem Grund konnte das Programm die Konfiguration nicht ermitteln Far Cry 3, obwohl die von ihr vorgeschlagenen Einstellungen ziemlich hoch waren. Aus für Skyrim unbekannten Gründen wollte das Dienstprogramm FXAA deaktivieren.

Es ist schön, für jedes Spiel eine Reihe von Screenshots zu erhalten, die die Auswirkung einer bestimmten Einstellung auf die Bildqualität beschreiben. Von den neun von uns getesteten Beispielen kam GeForce Experience unserer Meinung nach den optimalen Einstellungen nahe. Das Dienstprogramm ist jedoch auch voreingenommen und bevormundet NVIDIA-spezifische Funktionen wie PhysX (auf dem das Programm basiert hohes Niveau in Borderlands 2) und verhindern, dass Funktionen von AMD (einschließlich TressFX in Tomb Raider) aktiviert werden. Das Deaktivieren von FXAA in Skyrim macht überhaupt keinen Sinn, da das Spiel durchschnittlich 100 FPS hat. Es ist möglich, dass Enthusiasten GeForce Experience installieren möchten, sobald das NVIDIA Shield-System ausgeliefert wird, da die Game-Streaming-Funktion anscheinend über die NVIDIA-App verfügbar ist.

ShadowPlay: Immer aktiver Videorekorder für Spiele

WoW-Fans zeichnen oft ihre Raids auf, aber das erfordert ein ziemlich leistungsfähiges System, Fraps und viel Speicherplatz.

Das hat NVIDIA kürzlich angekündigt neue Funktion ShadowPlay, das den Aufnahmevorgang erheblich vereinfachen kann.

Bei Aktivierung verwendet ShadowPlay den in die Kepler-GPU integrierten NVEnc-Decoder, der automatisch die letzten 20 Minuten des Spiels aufzeichnet. Oder Sie können ShadowPlay manuell starten und stoppen. Technologie ersetzt also Softwarelösungen wie Fraps, die die CPU stärker belasten.

Zur Information: NVEnc funktioniert nur mit H.264-Codierung bei Auflösungen bis zu 4096 x 4096 Pixel. ShadowPlay ist noch nicht auf dem Markt erhältlich, aber NVIDIA sagt, dass es bis zum Start in diesem Sommer in der Lage sein wird, 1080p-Videos mit bis zu 30 FPS aufzunehmen. Wir würden gerne eine höhere Auflösung sehen, da bereits erwähnt wurde, dass der Encoder das Potenzial hat, sie in Hardware zu unterstützen.

NVIDIA GeForce GTX 780 Grafikkarte im Test | GPU Boost 2.0 und mögliche Übertaktungsprobleme

GPU-Boost 2.0

Im Rückblick GeForce GTX Titan Wir konnten die NVIDIA GPU Boost-Technologie der 2. Generation nicht ausgiebig testen, aber jetzt ist sie da NVIDIA GeForce GTX 780. Hier ist eine kurze Beschreibung dieser Technologie:

GPU Boost ist ein NVIDIA-Mechanismus, der die Leistung von Grafikkarten je nach Art der verarbeiteten Aufgabe ändert. Wie Sie wahrscheinlich wissen, haben Spiele unterschiedliche GPU-Ressourcenanforderungen. Historisch gesehen muss die Frequenz für das Worst-Case-Szenario abgestimmt werden. Aber bei der Verarbeitung von "Licht" GPU-Aufgaben umsonst gearbeitet. GPU Boost überwacht verschiedene Parameter und erhöht oder verringert die Frequenzen je nach Bedarf der Anwendung und der aktuellen Situation.

Die erste Implementierung von GPU Boost funktionierte unter einer bestimmten Leistungsschwelle (170 W im Fall von Geforce GTX 680). Die Ingenieure des Unternehmens haben jedoch festgestellt, dass sie dieses Niveau sicher überschreiten können, wenn die GPU-Temperatur niedrig genug ist. Somit kann die Leistung weiter optimiert werden.

In der Praxis unterscheidet sich GPU Boost 2.0 nur dadurch, dass NVIDIA die Frequenz nun nicht mehr am Power Limit, sondern an einer bestimmten Temperatur, die bei 80 Grad Celsius liegt, beschleunigt. Das bedeutet, dass nun höhere Frequenz- und Spannungswerte bis zu einer Temperatur des Chips von bis zu 80 Grad verwendet werden. Vergessen Sie nicht, dass die Temperatur hauptsächlich vom Lüfterprofil und den Einstellungen abhängt: Je höher die Lüftergeschwindigkeit, desto niedriger die Temperatur und damit die GPU-Boost-Werte (und leider auch die Geräuschentwicklung). Die Technologie wertet die Situation immer noch einmal alle 100 ms aus, sodass NVIDIA in zukünftigen Versionen mehr Arbeit vor sich hat.

Die temperaturabhängigen Einstellungen machen den Testprozess im Vergleich zur ersten Version von GPU Boost noch schwieriger. Alles, was die Temperatur des GK110 erhöht oder senkt, verändert die Uhr des Chips. Daher ist es ziemlich schwierig, konsistente Ergebnisse zwischen den Läufen zu erzielen. Unter Laborbedingungen kann man nur auf eine stabile Umgebungstemperatur hoffen.

Darüber hinaus ist es erwähnenswert, dass Sie die Temperaturgrenze erhöhen können. Zum Beispiel, wenn Sie möchten NVIDIA GeForce GTX 780 Frequenz und Spannung auf das Niveau von 85 oder 90 Grad Celsius gesenkt, dies kann in den Parametern konfiguriert werden.

Möchten Sie den GK110 so weit wie möglich von Ihrer gewählten Temperaturgrenze entfernt halten? Lüfterkurve NVIDIA GeForce GTX 780 vollständig einstellbar, sodass Sie die Einschaltdauer entsprechend den Temperaturwerten anpassen können.

Mögliche Übertaktungsprobleme

Während unserer Bekanntschaft mit GeForce GTX Titan Unternehmensvertreter zeigten uns ein internes Dienstprogramm, das den Status lesen kann verschiedene Sensoren: Dies vereinfacht den Prozess der Diagnose von nicht standardmäßigem Verhalten der Karte. Steigt die Temperatur des GK110 beim Übertakten zu stark an, auch beim Throttling, wird diese Information im Log aufgezeichnet.

Jetzt implementiert das Unternehmen diese Funktion über die Anwendung Precision X, die einen Warnalgorithmus "Gründe" startet, wenn während der Beschleunigung Aktionen aufgetreten sind, die ihre effektive Fortsetzung verhindern. Dies ist eine großartige Funktion, da Sie nicht mehr über potenzielle Engpässe raten müssen. Es gibt auch eine OV-Max-Grenze-Anzeige, die Sie darüber informiert, ob Sie die absolute Spitzenspannung der GPU erreicht haben. In diesem Fall besteht die Gefahr, dass die Karte verbrannt wird. Sie können dies als Vorschlag betrachten, die Übertaktungsparameter zu verringern.

NVIDIA GeForce GTX 780 Grafikkarte im Test | Prüfstand und Benchmarks


Prüfstandskonfiguration
Zentralprozessor Intel Core i7-3770K (Ivy Bridge) 3,5 GHz bei 4,0 GHz (40*100 MHz), LGA 1155, 8 MB gemeinsam genutzter L3-Cache, aktiviertes Hyper-Threading, aktivierte Energieeinsparung
Hauptplatine Gigabyte Z77X-UD5H (LGA 1155), Z77 Express-Chipsatz, BIOS F15q
Rom G.Skill 16 GB (4 x 4 GB) DDR3-1600, F3-12800CL9Q2-32 GBZL @ 9-9-9-24 bei 1,5 V
Speichermedium Crucial m4 SSD 256GB SATA 6Gb/s
Grafikkarten Nvidia GeForce GTX 780 3GB

AMD Radeon HD 7990 6 GB

AMD Radeon HD 7970 GHz Edition 3 GB

Nvidia GeForce GTX 580 1,5 GB

Nvidia GeForce GTX 680 2GB

Nvidia GeForce GTX Titan 6 GB

Nvidia GeForce GTX 690 4GB

Netzteil Cooler Master UCP-1000W
Systemsoftware und Treiber
Betriebssystem Windows 8 Professional 64-Bit
DirectX DirectX11
Graph. Treiber AMD-Katalysator 13.5 (Beta 2)
Nvidia GeForce-Version 320.00
Nvidia GeForce Version 320.18 (für GeForce GTX 780)

Abrufen des korrekten Bildratenwerts

Aufmerksamen Lesern wird auffallen, dass die Zahlen auf den folgenden Seiten bescheidener ausfallen als im Testbericht. AMD Radeon HD7990, und dafür gibt es einen Grund. Zuvor haben wir synthetische und echte Frameraten präsentiert und dann Zeitschwankungen zwischen Frames zusammen mit ausgelassenen und kurzen Frames gezeigt. Tatsache ist, dass diese Methode nicht das wirkliche Gefühl des Betriebs der Grafikkarte widerspiegelt, und unsererseits wäre es unfair, AMD zu verurteilen, indem man sich auf synthetische Indikatoren für die Zeitverzögerung zwischen Frames verlässt.

Aus diesem Grund bieten wir neben Framerate-Schwankungen jetzt praktischere dynamische Framerate-Metriken an. Die Ergebnisse sind nicht so hoch, aber gleichzeitig sehr beredt in Spielen, in denen AMD Schwierigkeiten hat.

Tests und Einstellungen
Battlefield 3 Grafikqualität – Ultra, V-Sync aus, 2560 x 1440, DirectX 11, Going Hunting, 90 Sekunden, FCAT
Far Cry 3 Grafikqualität – Ultra, DirectX 11, V-Sync aus, 2560 x 1440, Laufen Sie Ihre eigene Route, 50 Sekunden, FCAT
Borderlands 2 Grafikqualität – Höchste, PhysX Low, 16x anisotrope Filterung, 2560 x 1440, Run Your Own Route, FCAT
Hitman Absolution Grafikqualität - Ultra, MSAA aus, 2560 x 1440, integrierter Benchmark, FCAT
The Elder Scrolls V: Skyrim Grafikqualität – Ultra, FXAA aktiviert, 2560 x 1440, eigene Route laufen, 25 Sekunden, FCAT
3D Mark Feuerschlag-Benchmark
BioShock Infinite Grafikqualität - Ultra, DirectX 11, Diffusor-Tiefenschärfe, 2560 x 1440, integrierter Benchmark, FCAT
Crysis 3 Grafikqualität - sehr hoch, MSAA: Niedrig (2x), hochauflösender Text, 2560 x 1440, auf eigener Route laufen, 60 Sekunden, FCAT
Grabräuber Grafikqualität – Ultimate, FXAA aktiviert, 16x anisotrope Filterung, TressFX Hair, 2560 x 1440, Laufen Sie Ihre eigene Route, 45 Sekunden, FCAT
LuxMark 2.0 64-Bit-Binärversion, Version 2.0, Sala-Szene
SiSoftware Sandra 2013 Professional Sandra Tech Support (Ingenieurin) 2013.SP1, Kryptografie, Finanzanalyseleistung


INHALT