Hogar / SO móvil / Tecnología nvidia gpu boost 2.0. tarjetas de video Plataforma de captura de pantalla del juego Ansel

Tecnología nvidia gpu boost 2.0. tarjetas de video Plataforma de captura de pantalla del juego Ansel

Impulso de GPU 2.0

Con la tarjeta gráfica NVIDIA GeForce GTX 680, tenemos una nueva característica importante: GPU Boost. Y la nueva NVIDIA GeForce GTX Titan va un paso más allá al expandir esta función a GPU Boost 2.0. La primera versión de GPU Boost 1.0 se centró en el máximo consumo de energía que se logra en los juegos modernos más exigentes. Al mismo tiempo, la temperatura de la GPU no jugó un papel especial, excepto quizás si se acercaba al umbral crítico. La frecuencia de reloj máxima se determinó en función del voltaje relativo. La desventaja era bastante obvia: GPU Boost 1.0 no pudo evitar situaciones en las que, incluso con voltajes no críticos, la temperatura aumentaba demasiado.

NVIDIA GeForce GTX Titán - GPU Boost 2.0

La GeForce GTX Titan ya ha evaluado dos parámetros: voltaje y temperatura. Es decir, la tensión relativa (Vref) ya está determinada sobre la base de estos dos parámetros. Por supuesto, se mantendrá la dependencia de las GPU individuales, ya que existe una variación en la producción de chips, por lo que cada tarjeta de video será diferente de cualquier otra. Pero NVIDIA señala que, técnicamente, la adición de temperatura permitió un promedio de 3 a 7 por ciento más de overclocking de Boost. En teoría, la tecnología GPU Boost 2.0 podría trasladarse a tarjetas gráficas más antiguas, pero es poco probable que esto suceda.

NVIDIA GeForce GTX Titán - GPU Boost 2.0

Echemos un vistazo más de cerca a GPU Boost 2.0. Utilidades como EVGA Precision Tool o MSI Afterburner ya son compatibles con GPU Boost 2.0. Utilizamos la herramienta de precisión de EVGA en la versión 4.0.

NVIDIA GeForce GTX Titán - GPU Boost 2.0

GPU Boost 2.0 tiene en cuenta la temperatura y, a bajas temperaturas, la tecnología puede aumentar el rendimiento de manera más significativa. La temperatura objetivo (Tobjetivo) está configurada en 80 °C de forma predeterminada.

NVIDIA GeForce GTX Titán - GPU Boost 2.0

La tecnología GPU Boost 2.0 contiene todas las características que nos son familiares desde la primera generación de tecnología, pero al mismo tiempo, además, permite configurar un voltaje más alto y, por lo tanto, frecuencias de reloj más altas. Para los overclockers, es posible cambiar la configuración. Puede habilitar GPU Overvoltage, pero tenga en cuenta la posible reducción de la vida útil de la tarjeta gráfica.

NVIDIA GeForce GTX Titán - GPU Boost 2.0

Los overclockers pueden aumentar Vref y Vmax (Sobrevoltaje). Muchos usuarios querían esto en la GK104, pero NVIDIA no confió esa oportunidad ni a los usuarios ni a los fabricantes. Y la tarjeta de video EVGA GTX 680 Classified que probamos (prueba y revisión) es solo un gran ejemplo. Con esta tarjeta de video, un módulo especial EVGA Evbot proporcionó a los usuarios control sobre los voltajes. Pero NVIDIA exigió con urgencia que EVGA elimine el hardware adicional de sus tarjetas gráficas. En el caso de GPU Boost 2.0 y OverVoltagen, la propia NVIDIA dio un paso en esta dirección. Por lo tanto, los fabricantes de tarjetas gráficas pueden lanzar varios modelos de GeForce GTX Titan, como versiones estándar y versiones overclockeadas de fábrica. La activación de OverVoltage se realiza a través del interruptor VBIOS (es decir, explícitamente para el usuario para que sea consciente de las posibles consecuencias).

ParámetroSentido
Nombre del código del chipGP104
Producción tecnológicaFinFET de 16 nm
Número de transistores7.2 mil millones
Área principal314 mm²
Arquitectura
Compatibilidad con hardware de DirectX
bus de memoria
1607 (1733) megaciclo
Bloques de computación20 multiprocesadores de transmisión que incluyen 2560 ALU escalares de coma flotante IEEE 754-2008;
Bloques de textura160 unidades de direccionamiento y filtrado de texturas con soporte para componentes FP16 y FP32 en texturas y soporte para filtrado trilineal y anisotrópico para todos los formatos de textura
Soporte de monitores
Especificaciones gráficas de referencia GeForce GTX 1080
ParámetroSentido
Frecuencia central1607 (1733) megaciclo
2560
Número de bloques de textura160
Número de bloques de mezcla64
Frecuencia de memoria efectiva10000 (4×2500) MHz
Tipo de memoriaGDDR5X
bus de memoria256 bits
Tamaño de la memoria8 GB
320 GB/s
alrededor de 9 teraflops
103 gigapixeles/s
257 gigatexels/s
NeumáticoPCI Express 3.0
Conectores
Consumo de energíahasta 180W
Comida extraUn conector de 8 pines
2
Precio recomendado$ 599-699 (EE. UU.), 54990 RUB (Rusia)

El nuevo modelo de la tarjeta de video GeForce GTX 1080 recibió un nombre lógico para la primera solución de la nueva serie GeForce: se diferencia de su predecesor directo solo en una figura de generación modificada. La novedad no solo reemplaza las soluciones de gama alta en la línea actual de la compañía, sino que también se convirtió en el buque insignia de la nueva serie durante algún tiempo, hasta que Titan X se lanzó en GPU aún más potentes. Debajo en la jerarquía también está el modelo ya anunciado GeForce GTX 1070, basado en una versión simplificada del chip GP104, que consideraremos a continuación.

Los precios sugeridos para la nueva tarjeta gráfica de Nvidia son $ 599 y $ 699 para la edición normal y la Founders Edition (ver más abajo), respectivamente, lo cual es un buen negocio considerando que la GTX 1080 está por delante no solo de la GTX 980 Ti, sino también de la Titan X. Hoy, el nuevo producto es la mejor solución en términos de rendimiento en el mercado de tarjetas de video de un solo chip sin ninguna duda y, al mismo tiempo, es más económico que las tarjetas de video más potentes de la generación anterior. Hasta ahora, la GeForce GTX 1080 esencialmente no tiene competidor de AMD, por lo que Nvidia pudo establecer un precio que les convenga.

La tarjeta de video en cuestión se basa en el chip GP104, que tiene un bus de memoria de 256 bits, pero el nuevo tipo de memoria GDDR5X opera a una frecuencia efectiva muy alta de 10 GHz, lo que brinda un ancho de banda pico alto de 320 GB/s. - que está casi a la par con la GTX 980 Ti con bus de 384 bits. La cantidad de memoria instalada en una tarjeta de video con dicho bus podría ser de 4 u 8 GB, pero sería una tontería establecer una cantidad menor para una solución tan poderosa en las condiciones modernas, por lo que la GTX 1080 obtuvo 8 GB de memoria y esta cantidad es suficiente para ejecutar cualquier aplicación 3D con cualquier configuración de calidad durante varios años.

El PCB GeForce GTX 1080 es comprensiblemente bastante diferente de los PCB anteriores de la compañía. El valor del consumo de energía típico para elementos nuevos es de 180 vatios, un poco más alto que el de la GTX 980, pero notablemente más bajo que el de las menos potentes Titan X y GTX 980 Ti. La placa de referencia tiene el conjunto habitual de conectores para conectar dispositivos de salida de imagen: uno Dual-Link DVI, uno HDMI y tres DisplayPort.

Diseño de referencia de Founders Edition

Incluso con el anuncio de la GeForce GTX 1080 a principios de mayo, se anunció una edición especial de la tarjeta de video llamada Founders Edition, que tiene un precio más alto que las tarjetas de video regulares de los socios de la compañía. De hecho, esta edición es el diseño de referencia de la tarjeta y el sistema de refrigeración, y la produce la propia Nvidia. Puede tener diferentes actitudes hacia tales opciones para tarjetas de video, pero el diseño de referencia desarrollado por los ingenieros de la compañía y fabricado con componentes de alta calidad tiene sus admiradores.

Pero si pagarán varios miles de rublos más por una tarjeta de video de Nvidia es una pregunta que solo la práctica puede responder. En cualquier caso, en un principio serán las tarjetas de video de referencia de Nvidia las que saldrán a la venta a un precio más alto, y no hay mucho para elegir, esto sucede con cada anuncio, pero la GeForce GTX 1080 de referencia es diferente en que se planea vender en esta forma a lo largo de su vida útil, hasta el lanzamiento de soluciones de próxima generación.

Nvidia cree que esta edición tiene sus méritos incluso por encima de los mejores trabajos de los socios. Por ejemplo, el diseño de dos ranuras del enfriador facilita el ensamblaje de PC para juegos de un factor de forma relativamente pequeño y sistemas de video de múltiples chips basados ​​en esta poderosa tarjeta de video (incluso a pesar de que el modo de operación de tres y cuatro chips no recomendado por la empresa). La GeForce GTX 1080 Founders Edition tiene algunas ventajas en forma de un enfriador eficiente que utiliza una cámara de evaporación y un ventilador que empuja el aire caliente fuera de la carcasa; esta es la primera solución de este tipo de Nvidia que consume menos de 250 vatios de potencia.

En comparación con los diseños de productos de referencia anteriores de la empresa, el circuito de alimentación se actualizó de cuatro a cinco fases. Nvidia también habla de los componentes mejorados en los que se basa el nuevo producto, también se ha reducido el ruido eléctrico para mejorar la estabilidad del voltaje y el potencial de overclocking. Como resultado de todas las mejoras, la eficiencia energética de la placa de referencia ha aumentado un 6 % en comparación con la GeForce GTX 980.

Y para diferenciarse de los modelos "ordinarios" de la GeForce GTX 1080 y exteriormente, se desarrolló un diseño de carcasa "cortado" inusual para Founders Edition. Lo cual, sin embargo, probablemente también condujo a la complicación de la forma de la cámara de evaporación y el radiador (ver foto), que puede haber sido una de las razones para pagar $100 extra por una edición tan especial. Repetimos que al comienzo de las ventas, los compradores no tendrán muchas opciones, pero en el futuro será posible elegir tanto una solución con un diseño propio de uno de los socios de la compañía como realizada por la propia Nvidia.

Nueva generación de arquitectura gráfica Pascal

La tarjeta de video GeForce GTX 1080 es la primera solución de la compañía basada en el chip GP104, que pertenece a la nueva generación de la arquitectura gráfica Pascal de Nvidia. Si bien la nueva arquitectura se basa en las soluciones elaboradas en Maxwell, también tiene importantes diferencias funcionales, sobre las cuales escribiremos más adelante. El principal cambio desde un punto de vista global fue el nuevo proceso tecnológico El sobre el que está hecha la nueva GPU.

El uso de la tecnología de proceso FinFET de 16 nm en la producción de procesadores gráficos GP104 en las fábricas de la empresa taiwanesa TSMC permitió aumentar significativamente la complejidad del chip manteniendo un área y un costo relativamente bajos. Compare la cantidad de transistores y el área de los chips GP104 y GM204: tienen un área cercana (el chip de la novedad es incluso físicamente más pequeño), pero el chip de arquitectura Pascal tiene una cantidad significativamente mayor de transistores y, en consecuencia. , unidades de ejecución, incluidas las que aportan nuevas funcionalidades.

Desde un punto de vista arquitectónico, el primer juego Pascal es muy similar a soluciones similares de la arquitectura Maxwell, aunque existen algunas diferencias. Al igual que Maxwell, los procesadores de arquitectura Pascal tendrán diferentes configuraciones de clústeres de procesamiento de gráficos (GPC), multiprocesadores de transmisión (SM) y controladores de memoria. El multiprocesador SM es un multiprocesador altamente paralelo que programa y ejecuta warps (warps, grupos de 32 flujos de instrucciones) en núcleos CUDA y otras unidades de ejecución en el multiprocesador. Puede encontrar información detallada sobre el diseño de todos estos bloques en nuestras revisiones de soluciones anteriores de Nvidia.

Cada uno de los multiprocesadores SM está emparejado con el motor PolyMorph, que maneja el muestreo de texturas, la teselación, la transformación, la configuración de atributos de vértices y la corrección de perspectiva. A diferencia de las soluciones anteriores de la compañía, el motor PolyMorph en el chip GP104 también contiene un nuevo bloque de proyección múltiple simultánea, que analizaremos a continuación. La combinación del multiprocesador SM con un Polymorph Engine se denomina tradicionalmente TPC - Texture Processor Cluster para Nvidia.

En total, el chip GP104 de la GeForce GTX 1080 contiene cuatro clústeres GPC y 20 multiprocesadores SM, así como ocho controladores de memoria combinados con 64 ROP. Cada clúster de GPC tiene un motor de rasterización dedicado e incluye cinco SM. Cada multiprocesador, a su vez, consta de 128 núcleos CUDA, archivo de registro de 256 KB, memoria compartida de 96 KB, caché L1 de 48 KB y ocho unidades de textura TMU. Es decir, en total, GP104 contiene 2560 núcleos CUDA y 160 unidades TMU.

Además, el procesador de gráficos en el que se basa la GeForce GTX 1080 contiene ocho controladores de memoria de 32 bits (a diferencia de los 64 bits que se usaban anteriormente), lo que nos brinda un bus de memoria final de 256 bits. Ocho ROP y 256 KB de caché L2 están vinculados a cada uno de los controladores de memoria. Es decir, en total, el chip GP104 contiene 64 ROP y 2048 KB de caché L2.

Gracias a las optimizaciones arquitectónicas y una nueva tecnología de proceso, la primera Pascal para juegos se ha convertido en la GPU con mayor eficiencia energética de la historia. Además, hay una contribución a esto tanto de uno de los procesos tecnológicos más avanzados, FinFET de 16 nm, como de las optimizaciones de arquitectura realizadas en Pascal, en comparación con Maxwell. Nvidia pudo aumentar la velocidad del reloj incluso más de lo que esperaban al pasar a una nueva tecnología de proceso. El GP104 funciona a una frecuencia más alta que un hipotético GM204 fabricado con el proceso de 16 nm. Para hacer esto, los ingenieros de Nvidia tuvieron que verificar y optimizar cuidadosamente todos los cuellos de botella de las soluciones anteriores que evitan el overclocking por encima de un cierto umbral. Como resultado, la nueva GeForce GTX 1080 funciona a velocidades de reloj un 40 % más altas que la GeForce GTX 980. Pero eso no es todo lo que hay en los cambios de reloj de la GPU.

Tecnología GPU Boost 3.0

Como bien sabemos por las tarjetas gráficas anteriores de Nvidia, utilizan la tecnología de hardware GPU Boost en sus GPU, diseñada para aumentar la velocidad del reloj operativo de la GPU en modos en los que aún no ha alcanzado sus límites térmicos y de consumo de energía. A lo largo de los años, este algoritmo ha sufrido muchos cambios, y la tercera generación de esta tecnología ya se utiliza en el chip de video de arquitectura Pascal: GPU Boost 3.0, cuya principal innovación es una configuración más fina de las frecuencias turbo, según el voltaje.

Si recuerdas cómo funciona Versión anterior tecnología, entonces la diferencia entre la frecuencia base (garantizada valor mínimo frecuencia por debajo de la cual la GPU no cae, al menos en los juegos) y se fijó la frecuencia del turbo. Es decir, la frecuencia turbo siempre estaba en Una cierta cantidad de megahertz por encima de la base. GPU Boost 3.0 introdujo la capacidad de establecer compensaciones de frecuencia turbo para cada voltaje por separado. La forma más fácil de entender esto es con una ilustración:

A la izquierda está GPU Boost de la segunda versión, a la derecha, la tercera, que apareció en Pascal. La diferencia fija entre las frecuencias base y turbo no permitía revelar todas las capacidades de la GPU; en algunos casos, las GPU de generaciones anteriores podían funcionar más rápido en ajustar el voltaje, pero un exceso fijo de la frecuencia del turbo no lo permitía. En GPU Boost 3.0, apareció esta función, y la frecuencia turbo se puede configurar para cada uno de los valores de voltaje individuales, exprimiendo completamente todo el jugo de la GPU.

Se requieren utilidades prácticas para administrar el overclocking y establecer la curva de frecuencia turbo. Nvidia por sí misma no hace esto, pero ayuda a sus socios a crear dichas utilidades para facilitar el overclocking (dentro de límites razonables, por supuesto). Por ejemplo, nuevo funcionalidad GPU Boost 3.0 ya se ha revelado en EVGA Precision XOC, que incluye un escáner de overclocking especial que encuentra y establece automáticamente la diferencia no lineal entre la frecuencia base y la frecuencia turbo a diferentes voltajes mediante la ejecución de una prueba de rendimiento y estabilidad integrada. Como resultado, el usuario obtiene una curva de frecuencia turbo que se adapta perfectamente a las capacidades de un chip en particular. Que, además, puede modificarse de cualquier forma en modo manual.

Como puede ver en la captura de pantalla de la utilidad, además de la información sobre la GPU y el sistema, también hay configuraciones para overclocking: Power Target (determina el consumo de energía típico durante el overclocking, como un porcentaje del estándar), GPU Temp Target (temperatura central máxima permitida), GPU Clock Offset (que excede la frecuencia base para todos los valores de voltaje), Memory Offset (que excede la frecuencia de la memoria de video sobre el valor predeterminado), Overvoltage (oportunidad adicional para aumentar el voltaje).

La utilidad Precision XOC incluye tres modos de overclocking: Básico, Lineal y Manual. En el modo principal, puede establecer un único valor de overclock (frecuencia turbo fija) sobre el base, como era el caso de las GPU anteriores. El modo lineal le permite configurar la rampa de frecuencia desde el mínimo hasta los valores máximos de voltaje para la GPU. Bueno, en modo manual, puede establecer valores de frecuencia de GPU únicos para cada punto de voltaje en el gráfico.

La utilidad también incluye un escáner especial para overclocking automático. Puede establecer sus propios niveles de frecuencia o dejar que Precision XOC escanee la GPU en todos los voltajes y encuentre las frecuencias más estables para cada punto en la curva de voltaje y frecuencia de forma totalmente automática. Durante el proceso de escaneo, Precision XOC aumenta gradualmente la frecuencia de la GPU y verifica su funcionamiento en busca de estabilidad o artefactos, creando una curva ideal de frecuencia y voltaje que será única para cada chip específico.

Este escáner se puede personalizar según sus propios requisitos configurando el intervalo de tiempo para probar cada valor de voltaje, la frecuencia mínima y máxima a probar y su paso. Está claro que para lograr resultados estables, sería mejor establecer un pequeño paso y una duración de prueba decente. Durante la prueba, se puede observar un funcionamiento inestable del controlador de video y del sistema, pero si el escáner no se congela, restablecerá el funcionamiento y continuará encontrando las frecuencias óptimas.

Nuevo tipo de memoria de video GDDR5X y compresión mejorada

Entonces, la potencia de la GPU ha crecido significativamente y el bus de memoria se ha mantenido solo en 256 bits. ¿El ancho de banda de la memoria limitará el rendimiento general y qué se puede hacer al respecto? Parece que el prometedor HBM de segunda generación sigue siendo demasiado caro de fabricar, por lo que hubo que buscar otras opciones. Desde la introducción de la memoria GDDR5 en 2009, los ingenieros de Nvidia han estado explorando las posibilidades de utilizar nuevos tipos de memoria. Como resultado, los desarrollos han llegado a la introducción de un nuevo estándar de memoria GDDR5X, el estándar más complejo y avanzado hasta la fecha, que brinda una tasa de transferencia de 10 Gbps.

Nvidia da un ejemplo interesante de lo rápido que es esto. Solo transcurren 100 picosegundos entre los bits transmitidos; durante este tiempo, un haz de luz viajará una distancia de solo una pulgada (aproximadamente 2,5 cm). Y cuando se usa la memoria GDDR5X, los circuitos de recepción de datos tienen que elegir el valor del bit transmitido en menos de la mitad de este tiempo antes de que se envíe el siguiente; esto es solo para que comprenda a qué ha llegado la tecnología moderna.

Alcanzar esta velocidad requirió el desarrollo de una nueva arquitectura de sistema de E/S que requirió varios años de desarrollo conjunto con los fabricantes de chips de memoria. Además de la mayor tasa de transferencia de datos, la eficiencia energética también ha aumentado: los chips de memoria GDDR5X utilizan un voltaje más bajo de 1,35 V y se fabrican con nuevas tecnologías, lo que proporciona el mismo consumo de energía a una frecuencia un 43 % más alta.

Los ingenieros de la empresa tuvieron que volver a trabajar en las líneas de transmisión de datos entre el núcleo de la GPU y los chips de memoria, prestando más atención a la prevención de la pérdida y la degradación de la señal desde la memoria hasta la GPU y viceversa. Entonces, en la ilustración anterior, la señal capturada se muestra como un gran "ojo" simétrico, lo que indica una buena optimización de todo el circuito y la relativa facilidad de capturar datos de la señal. Además, los cambios descritos anteriormente han llevado no solo a la posibilidad de usar GDDR5X a 10 GHz, sino que también deberían ayudar a obtener un alto ancho de banda de memoria en productos futuros que usen la memoria GDDR5 más familiar.

Bueno, obtuvimos un aumento de más del 40 % en el ancho de banda de la memoria gracias al uso de la nueva memoria. ¿Pero no es eso suficiente? Para aumentar aún más la eficiencia del ancho de banda de la memoria, Nvidia continuó mejorando la compresión de datos avanzada introducida en las arquitecturas anteriores. El subsistema de memoria de la GeForce GTX 1080 utiliza varias técnicas de compresión de datos sin pérdidas mejoradas y nuevas, diseñadas para reducir los requisitos de ancho de banda, que ya son la cuarta generación de compresión en chip.

Los algoritmos para la compresión de datos en memoria traen varios aspectos positivos a la vez. La compresión reduce la cantidad de datos escritos en la memoria, lo mismo se aplica a los datos transferidos desde la memoria de video a la caché L2, lo que mejora la eficiencia del uso de la caché L2, ya que una tesela comprimida (un bloque de varios píxeles de framebuffer) tiene un tamaño más pequeño que uno sin comprimir. También reduce la cantidad de datos enviados entre diferentes puntos, como el módulo de textura TMU y el framebuffer.

La tubería de compresión de datos en la GPU utiliza varios algoritmos, que se determinan según la "compresibilidad" de los datos: se selecciona el mejor algoritmo disponible para ellos. Uno de los más importantes es el algoritmo de compresión de color delta. Este método de compresión codifica los datos como la diferencia entre valores consecutivos en lugar de los datos en sí. La GPU calcula la diferencia de valores de color entre los píxeles de un bloque (mosaico) y almacena el bloque como un color promedio para todo el bloque más datos sobre la diferencia de valores de cada píxel. Para datos gráficos, este método suele ser adecuado, ya que el color dentro de los mosaicos pequeños para todos los píxeles a menudo no difiere demasiado.

La GPU GP104 de la GeForce GTX 1080 admite más algoritmos de compresión que los chips Maxwell anteriores. Así, el algoritmo de compresión 2:1 se ha vuelto más eficiente y, además, han aparecido dos nuevos algoritmos: un modo de compresión 4:1, adecuado para casos en los que la diferencia en el valor de color de los píxeles de un bloque es muy pequeño y un modo 8:1, que combina una compresión constante 4:1 de bloques de 2×2 píxeles con una compresión delta 2x entre bloques. Cuando la compresión no es posible en absoluto, no se utiliza.

Sin embargo, en realidad, esto último ocurre con muy poca frecuencia. Esto se puede ver en las capturas de pantalla de ejemplo del juego Project CARS, que Nvidia citó para ilustrar la mayor relación de compresión en Pascal. En las ilustraciones, los mosaicos del búfer de cuadros que la GPU podía comprimir estaban sombreados en magenta, y los que no podían comprimirse sin pérdida permanecían con el color original (arriba - Maxwell, abajo - Pascal).

Como puede ver, los nuevos algoritmos de compresión en GP104 realmente funcionan mucho mejor que en Maxwell. Aunque la arquitectura antigua también podía comprimir la mayoría de los mosaicos de la escena, gran parte de la hierba y los árboles alrededor de los bordes, así como las piezas de automóviles, no están sujetos a los algoritmos de compresión heredados. Pero con la inclusión de nuevas técnicas en Pascal, una cantidad muy pequeña de áreas de la imagen permanecieron sin comprimir; la eficiencia mejorada es evidente.

Como resultado de las mejoras en la compresión de datos, la GeForce GTX 1080 puede reducir significativamente la cantidad de datos enviados por cuadro. En números, la compresión mejorada ahorra un 20 % adicional del ancho de banda efectivo de la memoria. Además del aumento de más del 40 % en el ancho de banda de la memoria de la GeForce GTX 1080 en relación con la GTX 980 debido al uso de la memoria GDDR5X, en conjunto esto genera un aumento del 70 % en el ancho de banda efectivo de la memoria en comparación con el modelo de la generación anterior.

Compatibilidad con computación asíncrona

La mayoría de los juegos modernos utilizan cálculos complejos además de gráficos. Por ejemplo, los cálculos al calcular el comportamiento de los cuerpos físicos pueden realizarse no antes o después de los cálculos gráficos, sino simultáneamente con ellos, ya que no están relacionados entre sí y no dependen entre sí dentro del mismo marco. Otro ejemplo es el procesamiento posterior de fotogramas ya renderizados y el procesamiento de datos de audio, que también se puede realizar en paralelo con el renderizado.

Otro claro ejemplo de esta funcionalidad es la técnica Asynchronous Time Warp utilizada en los sistemas VR para cambiar el cuadro renderizado de acuerdo con el movimiento de la cabeza del jugador justo antes de renderizar, interrumpiendo el renderizado del siguiente. Tal carga asíncrona de las capacidades de la GPU permite aumentar la eficiencia en el uso de sus unidades de ejecución.

Estas cargas de trabajo crean dos nuevos escenarios de uso de GPU. El primero de estos incluye cargas superpuestas, ya que muchos tipos de tareas no utilizan completamente las capacidades de las GPU y algunos recursos están inactivos. En tales casos, simplemente puede ejecutar dos tareas diferentes en la misma GPU, separando sus unidades de ejecución para obtener un uso más eficiente, por ejemplo, los efectos PhysX que se ejecutan junto con la representación 3D del marco.

Para mejorar el rendimiento de este escenario, la arquitectura Pascal introdujo el equilibrio de carga dinámico. En la arquitectura anterior de Maxwell, las cargas de trabajo superpuestas se implementaron como una distribución estática de los recursos de GPU entre gráficos y cómputo. Este enfoque es efectivo siempre que el equilibrio entre las dos cargas de trabajo corresponda aproximadamente a la división de recursos y las tareas se ejecuten por igual en el tiempo. Si los cálculos no gráficos tardan más que los gráficos, y ambos están esperando la finalización del trabajo común, parte de la GPU estará inactiva durante el tiempo restante, lo que provocará una disminución en el rendimiento general y anulará todos los beneficios. El equilibrio de carga dinámico de hardware, por otro lado, le permite usar los recursos de GPU liberados tan pronto como estén disponibles; para que lo entienda, le daremos una ilustración.

También hay tareas que son críticas en cuanto al tiempo, y este es el segundo escenario para la computación asíncrona. Por ejemplo, la ejecución del algoritmo de distorsión de tiempo asíncrono en VR debe completarse antes de que se realice el escaneo o se descartará el cuadro. En tal caso, la GPU debe admitir una interrupción de tareas muy rápida y cambiar a otra tarea para evitar que se ejecute una tarea menos crítica en la GPU, liberando sus recursos para tareas críticas; esto se denomina preferencia.

Un solo comando de representación de un motor de juego puede contener cientos de llamadas de dibujo, cada llamada de dibujo a su vez contiene cientos de triángulos renderizados, cada uno con cientos de píxeles para calcular y dibujar. El enfoque de GPU tradicional utiliza solo la interrupción de tareas de alto nivel, y la canalización de gráficos tiene que esperar a que se complete todo ese trabajo antes de cambiar de tarea, lo que da como resultado una latencia muy alta.

Para solucionar esto, la arquitectura Pascal introdujo por primera vez la capacidad de interrumpir una tarea a nivel de píxel: preferencia de nivel de píxel. Las unidades de ejecución de GPU de Pascal pueden monitorear constantemente el progreso de las tareas de renderizado, y cuando se solicita una interrupción, pueden detener la ejecución, guardando el contexto para completarlo más tarde al cambiar rápidamente a otra tarea.

La interrupción y alternancia a nivel de subprocesos para las operaciones de cómputo funciona de manera similar a la interrupción a nivel de píxel para la computación de gráficos. Las cargas de trabajo computacionales constan de varias cuadrículas, cada una de las cuales contiene varios subprocesos. Cuando se recibe una solicitud de interrupción, los subprocesos que se ejecutan en el multiprocesador finalizan su ejecución. Otros bloques guardan su propio estado para continuar desde el mismo punto en el futuro y la GPU cambia a otra tarea. Todo el proceso de cambio de tareas tarda menos de 100 microsegundos después de que finalizan los subprocesos en ejecución.

Para las cargas de trabajo de juegos, la combinación de interrupciones a nivel de píxel para gráficos e interrupciones a nivel de subprocesos para tareas de cómputo brinda a las GPU de arquitectura Pascal la capacidad de cambiar rápidamente entre tareas con una pérdida de tiempo mínima. Y para tareas informáticas en CUDA, también es posible interrumpir con una granularidad mínima, en el nivel de instrucción. En este modo, todos los subprocesos detienen la ejecución a la vez y cambian inmediatamente a otra tarea. Este enfoque requiere guardar más información sobre el estado de todos los registros de cada hilo, pero en algunos casos de cálculos no gráficos está bastante justificado.

El uso de interrupciones rápidas y cambio de tareas en tareas gráficas y computacionales se agregó a la arquitectura Pascal para que las tareas gráficas y no gráficas pudieran interrumpirse a nivel de instrucciones individuales, en lugar de hilos completos, como fue el caso con Maxwell y Kepler. . Estas tecnologías pueden mejorar la ejecución asincrónica de varias cargas de trabajo de GPU y mejorar la capacidad de respuesta cuando se ejecutan varias tareas al mismo tiempo. En el evento de Nvidia, mostraron una demostración del trabajo de los cálculos asincrónicos usando el ejemplo del cálculo de efectos físicos. Si sin cálculos asincrónicos el rendimiento estaba en el nivel de 77-79 FPS, entonces con la inclusión de estas características, la velocidad de fotogramas aumentó a 93-94 FPS.

Ya hemos dado un ejemplo de una de las posibilidades de usar esta funcionalidad en juegos en forma de distorsión de tiempo asíncrona en VR. La ilustración muestra el funcionamiento de esta tecnología con interrupción tradicional (preemption) y rápida. En el primer caso, se intenta que el proceso de distorsión temporal asincrónica se lleve a cabo lo más tarde posible, pero antes del comienzo de la actualización de la imagen en la pantalla. Pero el trabajo del algoritmo debe entregarse a la ejecución en la GPU unos milisegundos antes, ya que sin una interrupción rápida no hay forma de ejecutar el trabajo con precisión en el momento adecuado, y la GPU está inactiva durante algún tiempo.

En el caso de una interrupción precisa a nivel de píxel y subproceso (que se muestra a la derecha), esta capacidad brinda una mayor precisión para determinar el momento de la interrupción, y la deformación temporal asincrónica se puede iniciar mucho más tarde con la confianza de que se completará el trabajo antes de que finalice el proceso. comienza la actualización de la información en la pantalla. E inactivo durante algún tiempo en el primer caso, la GPU se puede cargar con algún trabajo gráfico adicional.

Tecnología de proyección múltiple simultánea

La nueva GPU GP104 ahora admite nueva tecnología multiproyección (Multiproyección simultánea - SMP), que permite que la GPU represente datos en sistemas de imágenes modernos de manera más eficiente. SMP permite que el chip de video muestre datos simultáneamente en varias proyecciones, lo que requirió la introducción de un nuevo bloque de hardware en la GPU como parte del motor PolyMorph al final de la canalización geométrica antes del bloque de rasterización. Este bloque es responsable de trabajar con múltiples proyecciones para un solo flujo de geometría.

El motor de proyección múltiple procesa datos geométricos simultáneamente para 16 proyecciones preconfiguradas que combinan el punto de proyección (cámaras), estas proyecciones se pueden girar o inclinar de forma independiente. Dado que cada primitiva de geometría puede aparecer simultáneamente en múltiples proyecciones, el motor SMP proporciona esta funcionalidad, lo que permite que la aplicación indique al chip de video que replique la geometría hasta 32 veces (16 proyecciones en dos centros de proyección) sin procesamiento adicional.

Todo el proceso de procesamiento está acelerado por hardware y, dado que la multiproyección funciona después del motor de geometría, no es necesario repetir todas las etapas del procesamiento de geometría varias veces. Los recursos ahorrados son importantes cuando la velocidad de renderizado está limitada por el rendimiento del procesamiento de la geometría, como el teselado, cuando se realiza el mismo trabajo geométrico varias veces para cada proyección. En consecuencia, en el caso máximo, la multiproyección puede reducir la necesidad de procesamiento de geometría hasta 32 veces.

Pero, ¿por qué es necesario todo esto? Hay varios buenos ejemplos en los que la tecnología de multiproyección puede ser útil. Por ejemplo, un sistema de monitores múltiples de tres pantallas montadas en ángulo entre sí lo suficientemente cerca del usuario (configuración envolvente). En una situación típica, la escena se representa en una sola proyección, lo que genera distorsiones geométricas y una representación geométrica incorrecta. La forma correcta son tres proyecciones diferentes para cada uno de los monitores, según el ángulo en el que se encuentren.

Con una tarjeta de video en un chip con arquitectura Pascal, esto se puede hacer en una pasada de geometría, especificando tres proyecciones diferentes, cada una para un monitor diferente. Y el usuario, por lo tanto, podrá cambiar el ángulo en el que los monitores están ubicados entre sí no solo físicamente, sino también virtualmente, girando las proyecciones de los monitores laterales para obtener la perspectiva correcta en la escena 3D con un ángulo de visión notablemente más amplio (FOV). Es cierto que hay una limitación aquí: para tal soporte, la aplicación debe poder representar la escena con un FOV amplio y usar llamadas API SMP especiales para configurarlo. Es decir, no puedes hacer esto en todos los juegos, necesitas un apoyo especial.

En cualquier caso, los días de una única proyección en un único monitor plano han quedado atrás, ahora existen muchas configuraciones multimonitor y pantallas curvas que también pueden utilizar esta tecnología. Por no hablar de los sistemas de realidad virtual que utilizan lentes especiales entre las pantallas y los ojos del usuario, que requieren nuevas técnicas para proyectar una imagen 3D en una imagen 2D. Muchas de estas tecnologías y técnicas aún se encuentran en desarrollo temprano, lo principal es que las GPU más antiguas no pueden usar de manera efectiva más de una proyección plana. Requieren múltiples pases de renderizado, múltiples procesamientos de la misma geometría, etc.

Los chips de Maxwell tenían un soporte de resolución múltiple limitado para ayudar a aumentar la eficiencia, pero el SMP de Pascal puede hacer mucho más. Maxwell podía rotar la proyección 90 grados para el mapeo de cubos o diferentes resoluciones de proyección, pero esto solo era útil en una gama limitada de aplicaciones como VXGI.

Otras posibilidades para usar SMP incluyen renderizado a diferentes resoluciones y renderizado estéreo de un solo paso. Por ejemplo, el renderizado a diferentes resoluciones (Multi-Res Shading) se puede usar en juegos para optimizar el rendimiento. Cuando se aplica, se usa una resolución más alta en el centro del marco y en la periferia se reduce para obtener una velocidad de renderizado más rápida.

El renderizado estéreo de un solo paso se usa en VR, ya se ha agregado al paquete VRWorks y usa la función de proyección múltiple para reducir la cantidad de trabajo geométrico requerido en el renderizado de VR. Si se utiliza esta característica, la GPU GeForce GTX 1080 procesa la geometría de la escena solo una vez, generando dos proyecciones para cada ojo a la vez, lo que reduce la carga geométrica en la GPU a la mitad y también reduce las pérdidas del controlador y el sistema operativo.

Una técnica aún más avanzada para mejorar la eficiencia del renderizado VR es Lens Matched Shading, que utiliza múltiples proyecciones para simular las distorsiones geométricas requeridas en el renderizado VR. Este método utiliza multiproyección para renderizar una escena 3D en una superficie que se aproxima a la superficie ajustada por la lente cuando se renderiza para la salida de auriculares VR, evitando muchos píxeles adicionales en la periferia que se descartarían. La forma más fácil de entender la esencia del método es mediante una ilustración: se usan cuatro proyecciones ligeramente expandidas frente a cada ojo (en Pascal, puede usar 16 proyecciones para cada ojo, para simular con mayor precisión una lente curva) en lugar de una:

Este enfoque puede generar ahorros significativos en el rendimiento. Por ejemplo, una imagen típica de Oculus Rift por ojo es de 1,1 megapíxeles. Pero debido a la diferencia en las proyecciones, para renderizarla, la imagen original es de 2,1 megapíxeles, ¡un 86 % más de lo necesario! El uso de multiproyección, implementado en la arquitectura Pascal, permite reducir la resolución de la imagen renderizada a 1,4 megapíxeles, obteniendo un ahorro de 1,5 veces en la velocidad de procesamiento de píxeles, además de ahorrar ancho de banda de memoria.

Y junto con un ahorro doble en la velocidad de procesamiento de la geometría debido al renderizado estéreo de un solo paso, el procesador de gráficos GeForce GTX 1080 puede proporcionar un aumento significativo en el rendimiento del renderizado de realidad virtual, que es muy exigente con la velocidad de procesamiento de la geometría, y aún más. procesamiento de píxeles

Mejoras en la salida de video y bloques de procesamiento.

Además del rendimiento y la nueva funcionalidad relacionada con el renderizado 3D, es necesario mantener un buen nivel de salida de imágenes, así como la decodificación y codificación de video. Y el primer procesador de gráficos de arquitectura Pascal no decepcionó: admite todos los estándares modernos en este sentido, incluida la decodificación de hardware del formato HEVC, que es necesario para ver videos 4K en una PC. Además, los futuros propietarios de tarjetas gráficas GeForce GTX 1080 pronto podrán disfrutar de la transmisión de video 4K de Netflix y otros proveedores en sus sistemas.

En términos de salida de pantalla, la GeForce GTX 1080 es compatible con HDMI 2.0b con HDCP 2.2 y DisplayPort. Hasta ahora, la versión DP 1.2 ha sido certificada, pero la GPU está lista para la certificación de versiones más nuevas del estándar: DP 1.3 Ready y DP 1.4 Ready. Este último permite mostrar pantallas 4K a 120 Hz y pantallas 5K y 8K a 60 Hz mediante un par de cables DisplayPort 1.3. Si para la GTX 980 la resolución máxima admitida era 5120x3200 a 60Hz, entonces para el nuevo modelo GTX 1080 ha crecido a 7680x4320 a los mismos 60Hz. La GeForce GTX 1080 de referencia tiene tres salidas DisplayPort, una HDMI 2.0b y una digital Dual-Link DVI.

El nuevo modelo de la tarjeta de video Nvidia también recibió un bloque mejorado para decodificar y codificar datos de video. Por lo tanto, el chip GP104 cumple con los altos estándares de PlayReady 3.0 (SL3000) para la reproducción de video en tiempo real, lo que le permite estar seguro de que reproducir contenido de alta calidad de proveedores reconocidos como Netflix será de la más alta calidad y eficiencia energética. . Los detalles sobre la compatibilidad con varios formatos de video durante la codificación y decodificación se dan en la tabla, el nuevo producto difiere claramente de las soluciones anteriores para mejor:

Pero una novedad aún más interesante es el soporte para las llamadas pantallas High Dynamic Range (HDR), que están a punto de generalizarse en el mercado. Los televisores están a la venta desde 2016 (se espera que se vendan cuatro millones de televisores HDR en solo un año) y los monitores el próximo año. HDR es el mayor avance en tecnología de visualización en años, que ofrece el doble de tonos de color (75 % de espectro visible frente al 33 % de RGB), pantallas más brillantes (1000 nits) con mayor contraste (10000:1) y colores intensos.

La aparición de la capacidad de reproducir contenido con una mayor diferencia en el brillo y colores más ricos y saturados acercará la imagen en la pantalla a la realidad, el color negro se volverá más profundo, la luz brillante deslumbrará, como en el mundo real . En consecuencia, los usuarios verán más detalles en las áreas brillantes y oscuras de las imágenes en comparación con los monitores y televisores estándar.

Para admitir pantallas HDR, la GeForce GTX 1080 tiene todo lo que necesita: salida de color de 12 bits, compatibilidad con los estándares BT.2020 y SMPTE 2084, y salida HDMI 2.0b 10/12 bits 4K HDR. Maxwell. Además, Pascal agregó soporte para decodificar el formato HEVC en resolución 4K a 60 Hz y color de 10 o 12 bits, que se usa para video HDR, así como codificar el mismo formato con los mismos parámetros, pero solo en 10. -bit para grabación o transmisión de video HDR. Además, la novedad está lista para la estandarización DisplayPort 1.4 para la transmisión de datos HDR a través de este conector.

Por cierto, es posible que se necesite la codificación de video HDR en el futuro para transferir dichos datos desde una PC doméstica a una consola de juegos SHIELD que pueda reproducir HEVC de 10 bits. Es decir, el usuario podrá retransmitir el partido desde un PC en formato HDR. Espera, ¿dónde puedo conseguir juegos con ese soporte? Nvidia trabaja constantemente con los desarrolladores de juegos para implementar este soporte, pasándoles todo lo que necesitan (soporte de controlador, muestras de código, etc.) para renderizar correctamente imágenes HDR que sean compatibles con las pantallas existentes.

En el momento del lanzamiento de la tarjeta de video, la GeForce GTX 1080, juegos como Obduction, The Witness, Lawbreakers, Rise of the Tomb Raider, Paragon, The Talos Principle y Shadow Warrior 2 tienen soporte para salida HDR.Pero esta lista es Se espera que se reponga en un futuro próximo.

Cambios en el renderizado SLI multichip

También hubo algunos cambios relacionados con la tecnología patentada de renderizado multichip SLI, aunque nadie esperaba esto. Los entusiastas de los juegos de PC utilizan SLI para llevar el rendimiento al extremo ejecutando las tarjetas gráficas de un solo chip más potentes en tándem, o para obtener velocidades de cuadro muy altas al limitarse a un par de soluciones de rango medio que a veces son más baratas que uno de gama alta (decisión controvertida, pero lo hacen). Con los monitores 4K, los jugadores casi no tienen otra opción que instalar un par de tarjetas de video, ya que incluso los mejores modelos a menudo no pueden proporcionar un juego cómodo con la configuración máxima en tales condiciones.

Uno de los componentes importantes Nvidia SLI son puentes que conectan tarjetas de video en un subsistema de video común y sirven para organizar canal digital para la transferencia de datos entre ellos. Las tarjetas gráficas GeForce han presentado tradicionalmente conectores SLI duales, que servían para conectar entre dos o cuatro tarjetas gráficas en configuraciones SLI de 3 y 4 vías. Cada una de las tarjetas de video tenía que estar conectada a cada una, ya que todas las GPU enviaban los cuadros que renderizaban a la GPU principal, por lo que se necesitaban dos interfaces en cada una de las placas.

A partir de la GeForce GTX 1080, todas las tarjetas gráficas Nvidia basadas en la arquitectura Pascal cuentan con dos interfaces SLI enlazadas entre sí para aumentar el rendimiento de la transferencia de datos entre tarjetas gráficas, y este nuevo modo SLI de doble canal mejora el rendimiento y la comodidad a la hora de mostrar información visual en pantallas de muy alta resolución o sistemas de monitores múltiples.

Para esta modalidad también se necesitaban nuevos puentes, denominados SLI HB. Combinan un par de tarjetas de video GeForce GTX 1080 a través de dos canales SLI a la vez, aunque las nuevas tarjetas de video también son compatibles con los puentes más antiguos. Para resoluciones de 1920×1080 y 2560×1440 píxeles a una frecuencia de actualización de 60 Hz, se pueden usar puentes estándar, pero en modos más exigentes (4K, 5K y sistemas de monitores múltiples), solo los puentes nuevos brindarán mejores resultados en términos de cambio de marco suave, aunque los antiguos funcionarán, pero algo peor.

Además, cuando se usan puentes SLI HB, la interfaz de datos GeForce GTX 1080 funciona a 650 MHz, en comparación con los 400 MHz de los puentes SLI convencionales en GPU más antiguas. Además, para algunos de los viejos y resistentes puentes, también está disponible una tasa de transferencia de datos más alta con chips de video de la arquitectura Pascal. Con un aumento en la tasa de transferencia de datos entre la GPU a través de una interfaz SLI duplicada con una mayor frecuencia de operación, también se proporciona una visualización más fluida de los cuadros en la pantalla, en comparación con las soluciones anteriores:

También se debe tener en cuenta que la compatibilidad con el renderizado multichip en DirectX 12 es algo diferente de lo que era habitual antes. A ultima versión API de gráficos, Microsoft ha realizado muchos cambios relacionados con el funcionamiento de dichos sistemas de video. Hay dos opciones multi-GPU disponibles para los desarrolladores de software en DX12: los modos Adaptador de pantalla múltiple (MDA) y Adaptador de pantalla vinculado (LDA).

Además, el modo LDA tiene dos formas: LDA implícito (que Nvidia usa para SLI) y LDA explícito (cuando el desarrollador del juego asume la tarea de administrar el procesamiento de múltiples chips. Los modos MDA y LDA explícito se implementaron recientemente en DirectX 12 en para que los desarrolladores de juegos tengan más libertad y oportunidades al usar sistemas de video de múltiples chips. La diferencia entre los modos es claramente visible en la siguiente tabla:

En el modo LDA, la memoria de cada GPU se puede conectar a la memoria de otra y mostrarse como un gran volumen total, por supuesto, con todas las limitaciones de rendimiento cuando los datos se toman de una memoria "ajena". En el modo MDA, la memoria de cada GPU funciona por separado y las diferentes GPU no pueden acceder directamente a los datos de la memoria de otra GPU. El modo LDA está diseñado para sistemas de múltiples chips de rendimiento similar, mientras que el modo MDA es menos restrictivo y puede funcionar junto con GPU discretas e integradas o soluciones discretas con chips de diferentes fabricantes. Pero este modo también requiere más atención y trabajo por parte de los desarrolladores al programar la colaboración para que las GPU puedan comunicarse entre sí.

De manera predeterminada, un sistema SLI basado en GeForce GTX 1080 admite solo dos GPU, y las configuraciones de tres y cuatro GPU están oficialmente obsoletas, ya que los juegos modernos son cada vez más difíciles de lograr ganancias de rendimiento al agregar una tercera y cuarta GPU. Por ejemplo, muchos juegos se basan en las capacidades del procesador central del sistema cuando operan sistemas de video de múltiples chips, y los nuevos juegos usan cada vez más técnicas temporales (temporales) que usan datos de cuadros anteriores, en las que se requiere la operación eficiente de varias GPU a la vez. simplemente imposible.

Sin embargo, el funcionamiento de sistemas en otros sistemas multichip (no SLI) sigue siendo posible, como los modos MDA o LDA Explicit en DirectX 12 o un sistema SLI de dos chips con una tercera GPU dedicada para efectos físicos PhysX. Pero, ¿qué pasa con los registros en los puntos de referencia? ¿Nvidia realmente los está abandonando por completo? No, por supuesto que no, pero dado que estos sistemas son demandados en el mundo por casi unos pocos usuarios, se inventó una clave de entusiasta especial para estos ultra entusiastas, que se puede descargar desde el sitio web de Nvidia y desbloquear esta función. Para hacer esto, primero debe obtener una ID de GPU única mediante la ejecución de una aplicación especial, luego solicitar la clave de entusiasta en el sitio web y, después de descargarla, instalar la clave en el sistema, desbloqueando así el 3-Way y el 4-Way. Configuraciones SLI.

Tecnología de sincronización rápida

Se han producido algunos cambios en las tecnologías de sincronización al mostrar información en la pantalla. De cara al futuro, no hay nada nuevo en G-Sync, ni la tecnología Adaptive Sync es compatible. Pero Nvidia decidió mejorar la fluidez de la salida y la sincronización de los juegos que muestran muy alto rendimiento cuando la velocidad de fotogramas excede notablemente la frecuencia de actualización del monitor. Esto es especialmente importante para los juegos que requieren una latencia mínima y una respuesta rápida, y que son batallas y competiciones multijugador.

Fast Sync es una nueva alternativa a la sincronización vertical que no tiene artefactos visuales como desgarros en la imagen y no está vinculado a una frecuencia de actualización fija, lo que aumenta la latencia. ¿Cuál es el problema con la sincronización vertical en juegos como Counter-Strike: Global Offensive? Este juego en potentes GPU modernas se ejecuta a varios cientos de cuadros por segundo, y el jugador tiene la opción de habilitar v-sync o no.

En los juegos multijugador, los usuarios suelen buscar retrasos mínimos y desactivar VSync, lo que genera un desgarro claramente visible en la imagen, lo que es extremadamente desagradable incluso a altas velocidades de cuadro. Sin embargo, si activa v-sync, el jugador experimentará un aumento significativo en los retrasos entre sus acciones y la imagen en la pantalla, cuando la canalización de gráficos se ralentiza a la frecuencia de actualización del monitor.

Así es como funciona un gasoducto tradicional. Pero Nvidia decidió separar el proceso de renderizar y mostrar la imagen en la pantalla utilizando la tecnología Fast Sync. Esto le permite continuar tanto como sea posible trabajo eficiente para la parte de la GPU que procesa los cuadros a toda velocidad, almacenándolos en un último búfer de procesamiento temporal especial.

Este método le permite cambiar el método de visualización y aprovechar al máximo los modos VSync activado y VSync desactivado, consiguiendo una latencia baja, pero sin artefactos en la imagen. Con Fast Sync, no hay control de flujo de fotogramas, el motor del juego se ejecuta en modo de sincronización desactivada y no se le indica que espere para dibujar el siguiente, por lo que las latencias son casi tan bajas como en el modo VSync Off. Pero dado que Fast Sync selecciona de forma independiente un búfer para mostrar en la pantalla y muestra el cuadro completo, tampoco hay interrupciones en la imagen.

Fast Sync usa tres búferes diferentes, los dos primeros funcionan de manera similar al doble búfer en una canalización clásica. El búfer principal (Front Buffer - FB) es un búfer, cuya información se muestra en la pantalla, un marco completamente renderizado. El back buffer (Back Buffer - BB) es el buffer que recibe información al renderizar.

Cuando se usa la sincronización vertical en condiciones de alta velocidad de cuadros, el juego espera hasta que se alcanza el intervalo de actualización para intercambiar el búfer principal con el búfer secundario para mostrar la imagen de un solo cuadro en la pantalla. Esto ralentiza el proceso y agregando buffers adicionales, como en el tradicional amortiguador triple solo agregará retraso.

Con Fast Sync, se agrega un tercer último búfer renderizado (LRB), que se utiliza para almacenar todos los fotogramas que se acaban de renderizar en el búfer secundario. El nombre del búfer habla por sí mismo, contiene una copia del último cuadro completamente renderizado. Y cuando llega el momento de actualizar el búfer primario, este búfer LRB se copia al primario en su totalidad, y no por partes, como desde el secundario con la sincronización vertical deshabilitada. Dado que copiar información de los búferes es ineficiente, simplemente se intercambian (o se les cambia el nombre, ya que será más conveniente de entender) y la nueva lógica de intercambio de búferes, introducida en GP104, gestiona este proceso.

En la práctica, la inclusión de un nuevo método de sincronización Fast Sync aún proporciona un retraso ligeramente mayor en comparación con la sincronización vertical completamente deshabilitada: en promedio, 8 ms más, pero muestra los cuadros en el monitor en su totalidad, sin artefactos desagradables en la pantalla que rasgan la imagen. El nuevo método se puede habilitar desde la configuración de gráficos del panel de control de Nvidia en la sección de control de sincronización vertical. Sin embargo, el valor predeterminado sigue siendo el control de la aplicación, y simplemente no necesita habilitar Fast Sync en todas las aplicaciones 3D, es mejor elegir este método específicamente para juegos con FPS alto.

Tecnología de realidad virtual Nvidia VRWorks

Hemos abordado el tema candente de la realidad virtual más de una vez en este artículo, pero se trata principalmente de aumentar la velocidad de fotogramas y garantizar una latencia baja, que es muy importante para la realidad virtual. Todo esto es muy importante y, de hecho, hay progreso, pero hasta ahora los juegos de realidad virtual no se ven tan impresionantes como los mejores juegos 3D modernos "regulares". Esto sucede no solo porque los principales desarrolladores de juegos aún no están particularmente involucrados en las aplicaciones de realidad virtual, sino también porque la realidad virtual es más exigente con la velocidad de fotogramas, lo que impide el uso de muchas de las técnicas habituales en este tipo de juegos debido a las altas exigencias.

Para reducir la diferencia de calidad entre los juegos de realidad virtual y los juegos normales, Nvidia decidió lanzar un paquete completo de tecnologías VRWorks relacionadas, que incluían una gran cantidad de API, bibliotecas, motores y tecnologías que pueden mejorar significativamente tanto la calidad como el rendimiento de Aplicaciones VR. ¿Cómo se relaciona esto con el anuncio de la primera solución de juegos en Pascal? Es muy simple: se han introducido algunas tecnologías que ayudan a aumentar la productividad y mejorar la calidad, y ya hemos escrito sobre ellas.

Y aunque no se trata solo de gráficos, primero hablaremos un poco al respecto. El conjunto de tecnologías de gráficos VRWorks incluye las tecnologías mencionadas anteriormente, como Lens Matched Shading, que utiliza la función de proyección múltiple que apareció en GeForce GTX 1080. El nuevo producto le permite obtener un aumento de rendimiento de 1.5-2 veces en relación a soluciones que no cuentan con dicho respaldo. También mencionamos otras tecnologías, como MultiRes Shading, diseñada para renderizar a diferentes resoluciones en el centro del cuadro y en su periferia.

Pero mucho más inesperado fue el anuncio de la tecnología VRWorks Audio, diseñada para el cálculo de datos de sonido de alta calidad en escenas 3D, que es especialmente importante en los sistemas de realidad virtual. En los motores convencionales, el posicionamiento de las fuentes de sonido en un entorno virtual se calcula de manera bastante correcta, si el enemigo dispara desde la derecha, entonces el sonido es más fuerte desde este lado del sistema de audio, y dicho cálculo no requiere demasiado poder de cómputo. .

Pero en realidad, los sonidos no solo van hacia el jugador, sino en todas las direcciones y rebotan en varios materiales, de forma similar a como rebotan los rayos de luz. Y en realidad, escuchamos estos reflejos, aunque no tan claramente como las ondas sonoras directas. Estos reflejos de sonido indirectos generalmente se simulan mediante efectos de reverberación especiales, pero este es un enfoque muy primitivo de la tarea.

VRWorks Audio utiliza una representación de ondas de sonido similar al trazado de rayos en la representación, donde la ruta de los rayos de luz se rastrea hasta múltiples reflejos de objetos en una escena virtual. VRWorks Audio también simula la propagación de ondas sonoras en el entorno cuando se rastrean ondas directas y reflejadas, según su ángulo de incidencia y las propiedades de los materiales reflectantes. En su trabajo, VRWorks Audio utiliza el motor de trazado de rayos Nvidia OptiX de alto rendimiento conocido para tareas gráficas. OptiX se puede usar para una variedad de tareas, como el cálculo de iluminación indirecta y el mapeo de luz, y ahora también para el rastreo de ondas de sonido en VRWorks Audio.

Nvidia ha incorporado un cálculo preciso de ondas de sonido en su demostración VR Funhouse, que utiliza varios miles de rayos y calcula hasta 12 reflejos de los objetos. Y para conocer las ventajas de la tecnología con un ejemplo claro, te sugerimos ver un video sobre el funcionamiento de la tecnología en ruso:

Es importante que el enfoque de Nvidia difiera de los motores de sonido tradicionales, incluido el método acelerado por hardware del principal competidor que usa un bloque especial en la GPU. Todos estos métodos solo proporcionan un posicionamiento preciso de las fuentes de sonido, pero no calculan los reflejos de las ondas de sonido de los objetos en una escena 3D, aunque pueden simular esto usando el efecto de reverberación. Sin embargo, el uso de la tecnología de trazado de rayos puede ser mucho más realista, ya que solo ese enfoque proporcionará una imitación precisa de varios sonidos, teniendo en cuenta el tamaño, la forma y los materiales de los objetos en la escena. Es difícil decir si se requiere tal precisión computacional para un jugador típico, pero podemos decirlo con certeza: en VR, puede agregar a los usuarios el mismo realismo que aún falta en los juegos convencionales.

Bueno, solo nos queda hablar sobre la tecnología VR SLI, que funciona tanto en OpenGL como en DirectX. Su principio es extremadamente simple: un sistema de video de dos GPU en una aplicación VR funcionará de tal manera que a cada ojo se le asigne una GPU separada, a diferencia del renderizado AFR familiar para las configuraciones SLI. Esto mejora enormemente el rendimiento general, que es tan importante para los sistemas de realidad virtual. Teóricamente, se pueden usar más GPU, pero su número debe ser parejo.

Este enfoque fue necesario porque AFR no es muy adecuado para la realidad virtual, ya que con su ayuda, la primera GPU dibujará un marco parejo para ambos ojos y la segunda generará uno impar, lo que no reduce los retrasos que son críticos para los ojos virtuales. sistemas de realidad. Aunque la velocidad de fotogramas será bastante alta. Entonces, con la ayuda de VR SLI, el trabajo en cada cuadro se divide en dos GPU: una trabaja en parte del cuadro para el ojo izquierdo, la segunda para el derecho, y luego estas mitades del cuadro se combinan en un todo.

Dividir un trabajo como este entre un par de GPU genera un aumento del doble en el rendimiento, lo que da como resultado velocidades de cuadro más altas y una latencia más baja en comparación con los sistemas basados ​​en una sola tarjeta gráfica. Es cierto que el uso de VR SLI requiere un soporte especial de la aplicación para poder usar este método de escalado. Pero la tecnología VR SLI ya está integrada en las aplicaciones de demostración de VR, como The Lab de Valve y Trials on Tatooine de ILMxLAB, y esto es solo el comienzo: Nvidia promete que pronto llegarán otras aplicaciones, así como la implementación de la tecnología en los motores de juego Unreal Engine 4. , Unidad y Max Play.

Plataforma de captura de pantalla del juego Ansel

Uno de los anuncios más interesantes relacionados con el software fue el lanzamiento de una tecnología para capturar capturas de pantalla de alta calidad en aplicaciones de juegos, que lleva el nombre de un famoso fotógrafo: Ansel. Los juegos han sido durante mucho tiempo no solo juegos, sino también un lugar para usar manos divertidas para varias personalidades creativas. Alguien cambia los guiones de los juegos, alguien lanza conjuntos de texturas de alta calidad para los juegos y alguien hace hermosas capturas de pantalla.

Nvidia decidió ayudar a este último presentando nueva plataforma para crear (es decir, crear, porque este no es un proceso tan fácil) tomas de juegos de alta calidad. Creen que Ansel puede ayudar a crear un nuevo tipo de arte contemporáneo. Después de todo, ya hay bastantes artistas que pasan la mayor parte de su vida en la PC, creando hermosas capturas de pantalla de los juegos, y aún no tenían una herramienta conveniente para esto.

Ansel te permite no solo capturar una imagen en el juego, sino también cambiarla según las necesidades del creador. Con esta tecnología, puede mover la cámara por la escena, rotarla e inclinarla en cualquier dirección para obtener la composición deseada del encuadre. Por ejemplo, en juegos como los shooters en primera persona, solo puedes mover al jugador, realmente no puedes cambiar nada más, por lo que todas las capturas de pantalla son bastante monótonas. Con una cámara gratis en Ansel, puedes ir mucho más allá cámara de juego, eligiendo el ángulo que se necesita para una buena imagen, o incluso capturar una imagen estéreo de 360 ​​grados completa desde el punto requerido y en alta resolución para verla más tarde en un casco VR.

Ansel funciona de manera bastante simple: con la ayuda de una biblioteca especial de Nvidia, esta plataforma está integrada en el código del juego. Para hacer esto, su desarrollador solo necesita agregar una pequeña pieza de código a su proyecto para permitir que el controlador de video de Nvidia intercepte los datos del búfer y el sombreador. Hay muy poco trabajo por hacer, llevar a Ansel al juego lleva menos de un día de implementación. Entonces, la inclusión de esta función en The Witness tomó alrededor de 40 líneas de código, y en The Witcher 3, alrededor de 150 líneas de código.

Ansel vendrá con un paquete de desarrollo abierto: SDK. Lo principal es que el usuario recibe un conjunto estándar de configuraciones que le permiten cambiar la posición y el ángulo de la cámara, agregar efectos, etc. La plataforma Ansel funciona así: pausa el juego, enciende la cámara libre y le permite cambiar el marco a la vista deseada grabando el resultado en forma de una captura de pantalla regular, una imagen de 360 ​​grados, un par estéreo o simplemente un panorama de alta resolución.

La única advertencia es que no todos los juegos recibirán soporte para todas las funciones de la plataforma de captura de pantalla del juego Ansel. Algunos de los desarrolladores de juegos, por una razón u otra, no quieren incluir una cámara completamente gratis en sus juegos, por ejemplo, debido a la posibilidad de que los tramposos usen esta funcionalidad. O quieren limitar el cambio en el ángulo de visión por la misma razón, para que nadie obtenga una ventaja injusta. Bueno, o para que los usuarios no vean miserables sprites de fondo. Todo esto son deseos bastante normales de los creadores de juegos.

Una de las características más interesantes de Ansel es la creación de capturas de pantalla de una resolución simplemente enorme. Da igual que el juego soporte resoluciones de hasta 4K, por ejemplo, y que el monitor del usuario sea Full HD. Usando la plataforma de captura de pantalla, puede capturar una imagen de mucha mayor calidad, limitada más bien por el tamaño y el rendimiento de la unidad. ¡La plataforma captura capturas de pantalla de hasta 4,5 gigapíxeles con facilidad, unidas a partir de 3600 piezas!

Está claro que en tales imágenes puedes ver todos los detalles, hasta el texto de los periódicos que se encuentran en la distancia, si tal nivel de detalle está previsto en principio en el juego: Ansel también puede controlar el nivel de detalle, establecer el nivel máximo para obtener la mejor calidad de imagen. Pero aún puede habilitar el supermuestreo. Todo esto te permite crear imágenes de juegos que puedes imprimir de forma segura en pancartas grandes y estar tranquilo con su calidad.

Curiosamente, se utiliza un código especial acelerado por hardware basado en CUDA para unir imágenes grandes. Después de todo, ninguna tarjeta de video puede generar una imagen de varios gigapíxeles como un todo, pero puede hacerlo en partes, que solo necesita combinar más tarde, teniendo en cuenta la posible diferencia en iluminación, color, etc.

Después de unir dichos panoramas, se utiliza un procesamiento posterior especial para todo el cuadro, también acelerado en la GPU. Y para capturar imágenes en un rango dinámico más alto, puede usar un formato de imagen especial: EXR, un estándar abierto de Industrial Light and Magic, cuyos valores de color en cada canal se registran en formato de punto flotante de 16 bits (FP16).

Este formato le permite cambiar el brillo y gama dinámica imágenes por post-procesamiento, llevándolas a la correcta para cada pantalla específica de la misma manera que se hace con los formatos RAW de las cámaras. Y para el posterior uso de filtros de postprocesamiento en programas de procesamiento de imágenes, este formato es muy útil, ya que contiene muchos más datos que los formatos de imagen habituales.

Pero la propia plataforma de Ansel contiene una gran cantidad de filtros de posprocesamiento, lo que es especialmente importante porque tiene acceso no solo a la imagen final, sino también a todos los búfer que usa el juego al renderizar, que pueden usarse para efectos muy interesantes. , como la profundidad de campo. Para ello, Ansel cuenta con una API especial de posprocesamiento, y cualquiera de los efectos se puede incluir en el juego con soporte para esta plataforma.

Los posfiltros de Ansel incluyen: curvas de color, espacio de color, transformación, desaturación, brillo/contraste, grano de película, floración, destello de lente, resplandor anamórfico, distorsión, neblina térmica, ojo de pez, aberración de color, mapeo de tonos, suciedad de lente, haces de luz, viñeta, corrección gamma, convolución, nitidez, detección de bordes, desenfoque, sepia, eliminación de ruido, FXAA y otros.

En cuanto a la aparición del soporte de Ansel en los juegos, tendremos que esperar un poco hasta que los desarrolladores lo implementen y lo prueben. Pero Nvidia promete que dicho soporte pronto aparecerá en juegos tan conocidos como The Division, The Witness, Lawbreakers, The Witcher 3, Paragon, Fortnite, Obduction, No Man's Sky, Unreal Tournament y otros.

La nueva tecnología de proceso FinFET de 16 nm y las optimizaciones de la arquitectura han permitido que la GeForce GTX 1080 basada en la GPU GP104 alcance una alta velocidad de reloj de 1,6-1,7 GHz incluso en la forma de referencia, y la nueva generación garantiza el funcionamiento a las frecuencias más altas posibles en los juegos. Tecnologías GPU Boost. Junto con un mayor número de unidades de ejecución, estas mejoras la convierten no solo en la tarjeta gráfica de un solo chip de mayor rendimiento de todos los tiempos, sino también en la solución de mayor eficiencia energética del mercado.

La GeForce GTX 1080 es la primera tarjeta gráfica que presenta la nueva memoria gráfica GDDR5X, una nueva generación de chips de alta velocidad que alcanzan tasas de datos muy altas. En el caso de una GeForce GTX 1080 modificada, este tipo de memoria opera a una frecuencia efectiva de 10 GHz. Combinado con algoritmos mejorados de compresión del búfer de cuadros, esto dio como resultado un aumento de 1,7 veces en el ancho de banda de memoria efectivo para esta GPU en comparación con su predecesora directa, la GeForce GTX 980.

Nvidia decidió prudentemente no lanzar una arquitectura radicalmente nueva en una tecnología de proceso completamente nueva para sí misma, para no encontrar problemas innecesarios durante el desarrollo y la producción. En cambio, mejoraron seriamente la arquitectura Maxwell, que ya era buena y muy eficiente, agregando algunas características. Como resultado, todo está bien con la producción de nuevas GPU y, en el caso del modelo GeForce GTX 1080, los ingenieros han logrado un potencial de frecuencia muy alto: ¡en las versiones overclockeadas de los socios, se espera que la frecuencia de la GPU alcance los 2 GHz! Una frecuencia tan impresionante se hizo realidad gracias al perfecto proceso técnico y al minucioso trabajo de los ingenieros de Nvidia en el desarrollo de la GPU Pascal.

Aunque Pascal es un seguidor directo del negocio de Maxwell, y estas arquitecturas gráficas no son fundamentalmente muy diferentes entre sí, Nvidia ha introducido muchos cambios y mejoras, que incluyen capacidades de visualización, motor de codificación y decodificación de video, ejecución asíncrona mejorada de varios tipos de cálculos. en la GPU, realizó cambios en la representación multichip e introdujo un nuevo método de sincronización, Fast Sync.

Es imposible no destacar la tecnología de Multiproyección Simultánea, que ayuda a mejorar el rendimiento en los sistemas de realidad virtual, obtener una visualización más correcta de las escenas en los sistemas multimonitor e introducir nuevas técnicas de optimización del rendimiento. Pero las aplicaciones de realidad virtual obtendrán el mayor impulso en velocidad cuando admitan la tecnología de proyección múltiple, que ayuda a ahorrar recursos de GPU a la mitad cuando se procesan datos geométricos y a una vez y media en los cálculos por píxel.

Entre los cambios puramente de software, se destaca la plataforma para crear capturas de pantalla en juegos llamada Ansel: será interesante probarlo en la práctica no solo para aquellos que juegan mucho, sino también para aquellos que simplemente están interesados ​​​​en gráficos 3D de alta calidad. La novedad le permite avanzar en el arte de crear y retocar capturas de pantalla a un nuevo nivel. Bueno, paquetes para desarrolladores de juegos como GameWorks y VRWorks, Nvidia simplemente continúa mejorando paso a paso, por lo que, en este último, ha aparecido una posibilidad interesante de cálculo de sonido de alta calidad, teniendo en cuenta numerosos reflejos de ondas de sonido usando rayos de hardware. rastreo.

En general, en la forma de la tarjeta de video Nvidia GeForce GTX 1080, un verdadero líder ingresó al mercado, con todas las cualidades necesarias para esto: alto rendimiento y amplia funcionalidad, así como soporte para nuevas funciones y algoritmos. Los primeros compradores de esta tarjeta de video podrán apreciar muchos de los beneficios mencionados de inmediato, y otras posibilidades de la solución se revelarán un poco más adelante, cuando haya un amplio apoyo desde el exterior. software. Lo principal es que la GeForce GTX 1080 resultó ser muy rápida y eficiente y, como realmente esperamos, los ingenieros de Nvidia lograron solucionar algunas de las áreas problemáticas (los mismos cálculos asincrónicos).

Acelerador de gráficos GeForce GTX 1070

ParámetroSentido
Nombre del código del chipGP104
Producción tecnológicaFinFET de 16 nm
Número de transistores7.2 mil millones
Área principal314 mm²
ArquitecturaUnificado, con una matriz de procesadores comunes para el procesamiento de flujo de numerosos tipos de datos: vértices, píxeles, etc.
Compatibilidad con hardware de DirectXDirectX 12, con soporte para Feature Level 12_1
bus de memoria256 bits: ocho controladores de memoria independientes de 32 bits compatibles con memoria GDDR5 y GDDR5X
frecuencia de GPU1506 (1683) megaciclo
Bloques de computación15 multiprocesadores de transmisión activos (de 20 en el chip), incluidas 1920 (de 2560) ALU escalares para cálculos de coma flotante en el marco del estándar IEEE 754-2008;
Bloques de textura120 unidades activas de direccionamiento y filtrado de texturas (de 160 en el chip) con soporte para componentes FP16 y FP32 en texturas y soporte para filtrado trilineal y anisotrópico para todos los formatos de textura
Unidades de operaciones de ráster (ROP)8 ROP de ancho (64 píxeles) con soporte para varios modos de suavizado, incluso programable y con formato de búfer de cuadro FP16 o FP32. Los bloques consisten en una matriz de ALU configurables y son responsables de la generación y comparación de profundidad, el muestreo múltiple y la combinación.
Soporte de monitoresSoporte integrado para hasta cuatro monitores conectados a través de Dual Link DVI, HDMI 2.0b y DisplayPort 1.2 (1.3/1.4 Ready)

Especificaciones gráficas de referencia GeForce GTX 1070
ParámetroSentido
Frecuencia central1506 (1683) megaciclo
Número de procesadores universales1920
Número de bloques de textura120
Número de bloques de mezcla64
Frecuencia de memoria efectiva8000 (4×2000) MHz
Tipo de memoriaGDDR5
bus de memoria256 bits
Tamaño de la memoria8 GB
ancho de banda de memoria256 GB/s
Rendimiento informático (FP32)unos 6,5 teraflops
Tasa de llenado máxima teórica96 gigapixeles/s
Tasa de muestreo de textura teórica181 gigatexeles/s
NeumáticoPCI Express 3.0
ConectoresUn DVI de doble enlace, un HDMI y tres DisplayPort
Consumo de energíahasta 150W
Comida extraUn conector de 8 pines
Número de ranuras ocupadas en el chasis del sistema2
Precio recomendado$ 379-449 (EE. UU.), 34,990 (Rusia)

La tarjeta de video GeForce GTX 1070 también recibió un nombre lógico similar a la misma solución de la serie GeForce anterior. Se diferencia de su predecesor directo GeForce GTX 970 solo en una cifra de generación modificada. La novedad pasa a estar un paso por debajo de la solución superior actual GeForce GTX 1080 en la línea actual de la compañía, que se convirtió en el buque insignia temporal de la nueva serie hasta el lanzamiento de soluciones de GPU aún más potentes.

Los precios recomendados para la nueva tarjeta de video superior de Nvidia son $ 379 y $ 449 para Nvidia Partners Edition y Founders Edition, respectivamente. En comparación con el modelo superior, esto es muy buen precio dado que la GTX 1070 está un 25% por detrás en el peor de los casos. Y en el momento del anuncio y lanzamiento, la GTX 1070 se convierte en la mejor solución de rendimiento de su clase. Al igual que la GeForce GTX 1080, la GTX 1070 no tiene competidores directos de AMD y solo se puede comparar con Radeon R9 390X y Fury.

La GPU GP104 en la modificación GeForce GTX 1070 decidió dejar un bus de memoria completo de 256 bits, aunque no utilizaron un nuevo tipo de memoria GDDR5X, sino una GDDR5 muy rápida, que opera a una alta frecuencia efectiva de 8 GHz. La cantidad de memoria instalada en una tarjeta de video con dicho bus puede ser de 4 u 8 GB, y para garantizar el máximo rendimiento de la nueva solución en condiciones de alta configuración y resolución de renderizado, también se equipó el modelo de tarjeta de video GeForce GTX 1070. con 8 GB de memoria de video, como su hermana mayor. Este volumen es suficiente para ejecutar cualquier aplicación 3D con la configuración de máxima calidad durante varios años.

GeForce GTX 1070 Edición Fundadores

Con el anuncio de la GeForce GTX 1080 a principios de mayo, se anunció una edición especial de la tarjeta de video llamada Founders Edition, que tiene un precio más alto que las tarjetas de video regulares de los socios de la compañía. Lo mismo se aplica a la novedad. En este artículo, volveremos a hablar sobre una edición especial de la tarjeta de video GeForce GTX 1070 llamada Founders Edition. Como en el caso del modelo anterior, Nvidia decidió lanzar esta versión de la tarjeta de video de referencia del fabricante a un precio más alto. Afirman que muchos jugadores y entusiastas que compran costosas tarjetas gráficas de gama alta quieren un producto con una apariencia y sensación "premium" apropiada.

En consecuencia, es para esos usuarios que se lanzará al mercado la tarjeta de video GeForce GTX 1070 Founders Edition, diseñada y fabricada por ingenieros de Nvidia con materiales y componentes de primera calidad, como la cubierta de aluminio GeForce GTX 1070 Founders Edition, así como como una placa posterior de perfil bajo que cubre la parte posterior de la PCB y es bastante popular entre los entusiastas.

Como puedes ver en las fotos de la placa, la GeForce GTX 1070 Founders Edition heredó exactamente el mismo diseño industrial de la versión de referencia de la GeForce GTX 1080 Founders Edition. Ambos modelos usan un ventilador radial que expulsa el aire caliente, lo cual es muy útil tanto en gabinetes pequeños como en configuraciones SLI de múltiples chips con espacio físico limitado. Al expulsar el aire caliente en lugar de hacerlo circular dentro de la carcasa, puede reducir el estrés térmico, mejorar los resultados del overclocking y prolongar la vida útil de los componentes del sistema.

Debajo de la cubierta del sistema de enfriamiento de referencia GeForce GTX 1070, hay un radiador de aluminio de forma especial con tres tubos de calor de cobre incorporados que eliminan el calor de la propia GPU. El calor disipado por los tubos de calor es luego disipado por un disipador de calor de aluminio. Bueno, la placa de metal de bajo perfil en la parte posterior de la placa también está diseñada para brindar un mejor rendimiento térmico. También cuenta con una sección retráctil para un mejor flujo de aire entre múltiples tarjetas gráficas en configuraciones SLI.

En cuanto al sistema de alimentación de la placa, la GeForce GTX 1070 Founders Edition tiene un sistema de alimentación de cuatro fases optimizado para una fuente de alimentación estable. Nvidia afirma que el uso de componentes especiales en la GTX 1070 Founders Edition ha mejorado la eficiencia energética, la estabilidad y la confiabilidad en comparación con la GeForce GTX 970, proporcionando un mejor rendimiento de overclocking. En las propias pruebas de la empresa, las GPU GeForce GTX 1070 superaron fácilmente los 1,9 GHz, lo que se acerca a los resultados del modelo GTX 1080 anterior.

La tarjeta gráfica Nvidia GeForce GTX 1070 estará disponible en tiendas minoristas a partir del 10 de junio. Los precios recomendados para GeForce GTX 1070 Founders Edition y las soluciones de socios son diferentes, y esta es la pregunta principal para esta edición especial. Si los socios de Nvidia venden sus tarjetas gráficas GeForce GTX 1070 a partir de $379 (en el mercado estadounidense), entonces el diseño de referencia Founders Edition de Nvidia costará tan solo $449. ¿Hay muchos entusiastas que están dispuestos a pagar de más, seamos realistas, las dudosas ventajas de la versión de referencia? El tiempo lo dirá, pero creemos que la tarifa de referencia es más interesante como una opción disponible para comprar al comienzo de las ventas, y luego el punto de compra (¡y hasta a un precio alto!) ya se reduce a cero.

Queda por agregar que la placa de circuito impreso de la GeForce GTX 1070 de referencia es similar a la de la tarjeta de video más antigua, y ambas difieren del dispositivo de las placas anteriores de la compañía. El valor de consumo de energía típico para el nuevo producto es de 150 W, que es casi un 20 % menos que el valor de la GTX 1080 y cercano al consumo de energía de la tarjeta de video GeForce GTX 970 de la generación anterior. La placa de referencia de Nvidia tiene un conjunto familiar de conectores para conectar dispositivos de salida de imagen: uno Dual-Link DVI, uno HDMI y tres DisplayPort. Además, hay soporte para nuevos Versiones HDMI y DisplayPort, sobre el que escribimos anteriormente en la revisión del modelo GTX 1080.

Cambios arquitectónicos

La GeForce GTX 1070 se basa en el chip GP104, el primero de una nueva generación de arquitectura de gráficos Pascal de Nvidia. Esta arquitectura se basó en las soluciones desarrolladas en Maxwell, pero también tiene algunas diferencias funcionales, sobre las que escribimos en detalle anteriormente, en la parte dedicada a la tarjeta de video GeForce GTX 1080 superior.

El principal cambio de la nueva arquitectura fue el proceso tecnológico mediante el cual se ejecutarán todas las nuevas GPU. El uso del proceso de fabricación FinFET de 16 nm en la producción de GP104 hizo posible aumentar significativamente la complejidad del chip manteniendo un área y un costo relativamente bajos, y el primer chip de la arquitectura Pascal tiene un número de ejecución significativamente mayor. unidades, incluidas las que proporcionan una nueva funcionalidad, en comparación con los chips Maxwell de posicionamiento similar.

El chip de video GP104 es similar en su diseño a las soluciones de arquitectura Maxwell similares, y puede encontrar información detallada sobre el diseño de las GPU modernas en nuestras revisiones de soluciones anteriores de Nvidia. Al igual que las GPU anteriores, los chips de la nueva arquitectura tendrán una configuración diferente de Graphics Processing Cluster (GPC), Streaming Multiprocessor (SM) y controladores de memoria, y la GeForce GTX 1070 ya ha sufrido algunos cambios: parte del chip estaba bloqueado y inactivo (resaltado en gris):

Aunque la GPU GP104 incluye cuatro clústeres GPC y 20 multiprocesadores SM, en la versión para GeForce GTX 1070 recibió una modificación simplificada con un clúster GPC desactivado por hardware. Dado que cada clúster de GPC tiene un motor de rasterización dedicado e incluye cinco SM, y cada multiprocesador consta de 128 núcleos CUDA y ocho TMU, 1920 núcleos CUDA y 120 TMU de 2560 procesadores de flujo están activos en esta versión de GP104 y 160 unidades de textura física.

El procesador de gráficos en el que se basa la GeForce GTX 1070 contiene ocho controladores de memoria de 32 bits, lo que proporciona un bus de memoria final de 256 bits, exactamente como en el caso del modelo anterior GTX 1080. El subsistema de memoria no se ha cortado para proporcionar una memoria de ancho de banda suficientemente alto con la condición de usar memoria GDDR5 en la GeForce GTX 1070. Cada uno de los controladores de memoria tiene ocho ROP y 256 KB de caché L2, por lo que el chip GP104 en esta modificación también contiene 64 ROP y 2048 KB de L2 nivel de caché.

Gracias a las optimizaciones arquitectónicas y una nueva tecnología de proceso, la GPU GP104 se ha convertido en la GPU con mayor eficiencia energética hasta la fecha. Los ingenieros de Nvidia pudieron aumentar la velocidad del reloj más de lo que esperaban al pasar a un nuevo proceso, para lo cual tuvieron que trabajar duro, revisando cuidadosamente y optimizando todos los cuellos de botella de las soluciones anteriores que no les permitían trabajar a una frecuencia más alta. En consecuencia, la GeForce GTX 1070 también funciona a una frecuencia muy alta, más de un 40 % superior al valor de referencia de la GeForce GTX 970.

Dado que la GeForce GTX 1070 es, en esencia, solo una GTX 1080 ligeramente menos productiva con memoria GDDR5, es compatible con absolutamente todas las tecnologías que describimos en la sección anterior. Para obtener más detalles sobre la arquitectura Pascal, así como las tecnologías que admite, como unidades de procesamiento de video y salida mejoradas, soporte para Cómputo asíncrono, tecnología de proyección múltiple simultánea, cambios en la representación de chips múltiples SLI y el nuevo tipo de sincronización rápida de sincronización, merece la pena leerlo con un apartado sobre la GTX 1080.

Memoria GDDR5 de alto rendimiento y su uso eficiente

Escribimos anteriormente sobre los cambios en el subsistema de memoria de la GPU GP104, en el que se basan los modelos GeForce GTX 1080 y GTX 1070: los controladores de memoria incluidos en esta GPU admiten tanto el nuevo tipo de memoria de video GDDR5X, que se describe en detalle en la revisión de la GTX 1080, así como la buena y antigua memoria GDDR5 que conocemos desde hace varios años.

Para no perder demasiado ancho de banda de memoria en el modelo inferior GTX 1070 en comparación con el GTX 1080 anterior, los ocho controladores de memoria de 32 bits se dejaron activos en él, obteniendo una interfaz de memoria de video común completa de 256 bits. Además, la tarjeta de video estaba equipada con la memoria GDDR5 más rápida disponible en el mercado, con una frecuencia operativa efectiva de 8 GHz. Todo esto proporcionó un ancho de banda de memoria de 256 GB / s, en contraste con los 320 GB / s de la solución anterior: las capacidades informáticas se redujeron aproximadamente en la misma cantidad, por lo que se mantuvo el equilibrio.

Tenga en cuenta que, si bien el ancho de banda teórico máximo es importante para el rendimiento de la GPU, también debe prestar atención a su eficiencia. Durante el proceso de renderizado, muchos cuellos de botella diferentes pueden limitar el rendimiento general, impidiendo el uso de todo el ancho de banda de memoria disponible. Para minimizar estos cuellos de botella, las GPU utilizan una compresión de datos especial sin pérdidas para mejorar la eficiencia de las lecturas y escrituras de datos.

La cuarta generación de compresión delta de la información del búfer ya se introdujo en la arquitectura Pascal, lo que permite que la GPU use de manera más eficiente las capacidades disponibles del bus de memoria de video. El subsistema de memoria en GeForce GTX 1070 y GTX 1080 utiliza técnicas de compresión de datos sin pérdidas antiguas mejoradas y varias nuevas diseñadas para reducir los requisitos de ancho de banda. Esto reduce la cantidad de datos escritos en la memoria, mejora la eficiencia de la memoria caché L2 y reduce la cantidad de datos enviados entre diferentes puntos de la GPU, como la TMU y el framebuffer.

GPU Boost 3.0 y funciones de overclocking

La mayoría de los socios de Nvidia ya han anunciado soluciones con overclocking de fábrica basadas en GeForce GTX 1080 y GTX 1070. utilidades especiales para overclocking, lo que le permite utilizar la nueva funcionalidad de la tecnología GPU Boost 3.0. Un ejemplo de estas utilidades es EVGA Precision XOC, que incluye un escáner automático para determinar la curva de voltaje a frecuencia: en este modo, para cada voltaje, mediante la ejecución de una prueba de estabilidad, se encuentra una frecuencia estable en la que la GPU proporciona una aumento de rendimiento. Sin embargo, esta curva también se puede cambiar manualmente.

Conocemos bien la tecnología GPU Boost de las tarjetas gráficas Nvidia anteriores. En sus GPU, utilizan esta función de hardware, que está diseñada para aumentar la velocidad del reloj operativo de la GPU en modos en los que aún no ha alcanzado los límites de consumo de energía y disipación de calor. En las GPU Pascal, este algoritmo ha sufrido varios cambios, el principal de los cuales es una configuración más precisa de las frecuencias turbo, según el voltaje.

Si antes se solucionó la diferencia entre la frecuencia base y la frecuencia turbo, en GPU Boost 3.0 fue posible establecer compensaciones de frecuencia turbo para cada voltaje por separado. Ahora la frecuencia turbo se puede configurar para cada uno de los valores de voltaje individuales, lo que le permite exprimir al máximo todas las capacidades de overclocking de la GPU. Escribimos sobre esta función en detalle en la revisión de GeForce GTX 1080, y puede usar las utilidades EVGA Precision XOC y MSI Afterburner para esto.

Dado que algunos detalles han cambiado en la metodología de overclocking con el lanzamiento de tarjetas de video con soporte para GPU Boost 3.0, Nvidia tuvo que hacer explicaciones adicionales en las instrucciones para overclocking de nuevos productos. Existen diferentes técnicas de overclocking con diferentes características variables que afectan el resultado final. Para cada sistema particular, un método particular puede ser más adecuado, pero los conceptos básicos son siempre los mismos.

Muchos overclockers usan el punto de referencia Unigine Heaven 4.0 para verificar la estabilidad del sistema, que carga bien la GPU, tiene configuraciones flexibles y se puede ejecutar en modo de ventana junto con una ventana de utilidad de monitoreo y overclocking cercana, como EVGA Precision o MSI Afterburner. Sin embargo, dicha verificación solo es suficiente para estimaciones iniciales, y para confirmar firmemente la estabilidad del overclocking, debe verificarse en varias aplicaciones de juegos, ya que diferentes juegos requieren diferentes cargas en diferentes unidades funcionales de la GPU: matemática, textura, geometría. El punto de referencia Heaven 4.0 también es conveniente para el overclocking porque tiene un modo de operación en bucle, en el que es conveniente cambiar la configuración de overclocking, y hay un punto de referencia para evaluar el aumento de velocidad.

Nvidia recomienda ejecutar las ventanas Heaven 4.0 y EVGA Precision XOC juntas al hacer overclocking en las nuevas tarjetas gráficas GeForce GTX 1080 y GTX 1070. Al principio, es deseable aumentar inmediatamente la velocidad del ventilador. Y para overclocking serio, puede establecer inmediatamente el valor de velocidad al 100%, lo que hará que la tarjeta de video funcione muy fuerte, pero enfriará la GPU y otros componentes de la tarjeta de video tanto como sea posible al bajar la temperatura al mínimo. nivel posible, evitando el throttling (reducción de frecuencias debido a un aumento de la temperatura de la GPU por encima de un valor determinado).

A continuación, debe establecer el valor de potencia objetivo (Objetivo de potencia) también al máximo. Esta configuración proporcionará a la GPU la máxima cantidad de energía posible al aumentar el nivel de consumo de energía y la temperatura objetivo de la GPU (GPU Temp Target). Para algunos propósitos, el segundo valor se puede separar del cambio de Power Target, y luego estas configuraciones se pueden ajustar individualmente, para lograr menos calentamiento del chip de video, por ejemplo.

El siguiente paso es aumentar el valor de Desplazamiento del reloj de la GPU: significa cuánto más alta será la frecuencia del turbo durante el funcionamiento. Este valor eleva la frecuencia para todos los voltajes y da como resultado un mejor rendimiento. Como de costumbre, al hacer overclocking, debe verificar la estabilidad al aumentar la frecuencia de la GPU en pequeños pasos, de 10 MHz a 50 MHz por paso antes de notar un bloqueo, un error de controlador o aplicación, o incluso artefactos visuales. Cuando se alcanza este límite, debe reducir el valor de frecuencia en un paso hacia abajo y una vez más verificar la estabilidad y el rendimiento durante el overclocking.

Además de la frecuencia GPU, también puedes aumentar la frecuencia de la memoria de vídeo (Memory Clock Offset), lo que es especialmente importante en el caso de las GeForce GTX 1070 equipadas con memoria GDDR5, que suele hacer overclocking bien. El proceso en el caso de la frecuencia de la memoria repite exactamente lo que se hace al encontrar una frecuencia de GPU estable, la única diferencia es que los pasos se pueden hacer más grandes: agregue 50-100 MHz a la frecuencia base a la vez.

Además de los pasos anteriores, también puede aumentar el límite de sobrevoltaje, ya que a menudo se logra una mayor frecuencia de GPU con un mayor voltaje, cuando las partes inestables de la GPU reciben energía adicional. Cierto, la desventaja potencial de aumentar valor dado existe la posibilidad de dañar el chip de video y su falla acelerada, por lo que debe usar el aumento de voltaje con extrema precaución.

Los entusiastas del overclocking usan técnicas ligeramente diferentes, cambiando los parámetros en un orden diferente. Por ejemplo, algunos overclockers comparten experiencias sobre cómo encontrar una GPU y una frecuencia de memoria estables para que no interfieran entre sí, y luego prueban el overclocking combinado del chip de video y los chips de memoria, pero estos ya son detalles insignificantes de un enfoque individual. .

A juzgar por las opiniones en los foros y los comentarios en los artículos, a algunos usuarios no les gustó el nuevo algoritmo de GPU Boost 3.0, cuando la frecuencia de la GPU primero aumenta mucho, a menudo por encima de la frecuencia turbo, pero luego, bajo la influencia de un aumento en La temperatura de la GPU o el aumento del consumo de energía por encima del límite establecido, puede caer a valores mucho más bajos. Estos son solo los detalles del algoritmo actualizado, debe acostumbrarse al nuevo comportamiento de la frecuencia de GPU que cambia dinámicamente, pero no tiene consecuencias negativas.

La GeForce GTX 1070 es el segundo modelo después de la GTX 1080 en la nueva línea de procesadores gráficos de Nvidia basados ​​en la familia Pascal. El nuevo proceso de fabricación FinFET de 16 nm y las optimizaciones de la arquitectura han permitido que esta tarjeta gráfica alcance altas velocidades de reloj, lo que es compatible con la nueva generación de tecnología GPU Boost. Aunque se ha reducido el número de bloques funcionales en forma de procesadores de flujo y módulos de textura, su número sigue siendo suficiente para que la GTX 1070 se convierta en la solución más rentable y energéticamente eficiente.

Instalar memoria GDDR5 en el más joven de un par de modelos lanzados de tarjetas de video Nvidia en un chip GP104, a diferencia del nuevo tipo de GDDR5X que distingue a la GTX 1080, no impide que alcance indicadores de alto rendimiento. En primer lugar, Nvidia decidió no cortar el bus de memoria del modelo GeForce GTX 1070 y, en segundo lugar, le pusieron la memoria GDDR5 más rápida con una frecuencia efectiva de 8 GHz, que es solo ligeramente inferior a los 10 GHz para el GDDR5X utilizado en el modelo más antiguo. Teniendo en cuenta los algoritmos de compresión delta mejorados, el ancho de banda de memoria efectivo de la GPU se ha vuelto más alto que el mismo parámetro para modelo similar GeForce GTX 970 de la generación anterior.

La GeForce GTX 1070 es buena porque ofrece un rendimiento muy alto y compatibilidad con nuevas funciones y algoritmos a un precio mucho más bajo en comparación con el modelo anterior anunciado un poco antes. Si unos pocos entusiastas pueden permitirse la compra de una GTX 1080 por 55 000, entonces un círculo mucho más grande de compradores potenciales podrá pagar 35 000 por solo una cuarta parte de una solución menos productiva con exactamente las mismas capacidades. Fue la combinación de un precio relativamente bajo y un alto rendimiento lo que hizo que la GeForce GTX 1070 fuera quizás la compra más rentable en el momento de su lanzamiento.

Acelerador de gráficos GeForce GTX 1060

ParámetroSentido
Nombre del código del chipGP106
Producción tecnológicaFinFET de 16 nm
Número de transistores4.4 mil millones
Área principal200 mm²
ArquitecturaUnificado, con una matriz de procesadores comunes para el procesamiento de flujo de numerosos tipos de datos: vértices, píxeles, etc.
Compatibilidad con hardware de DirectXDirectX 12, con soporte para Feature Level 12_1
bus de memoria192 bits: seis controladores de memoria independientes de 32 bits compatibles con memoria GDDR5
frecuencia de GPU1506 (1708) MHz
Bloques de computación10 multiprocesadores de transmisión, incluidas 1280 ALU escalares para cálculos de punto flotante dentro del estándar IEEE 754-2008;
Bloques de textura80 unidades de direccionamiento y filtrado de texturas con soporte para componentes FP16 y FP32 en texturas y soporte para filtrado trilineal y anisotrópico para todos los formatos de textura
Unidades de operaciones de ráster (ROP)6 ROP de ancho (48 píxeles) con soporte para varios modos de suavizado, incluso programable y con formato de búfer de cuadro FP16 o FP32. Los bloques consisten en una matriz de ALU configurables y son responsables de la generación y comparación de profundidad, el muestreo múltiple y la combinación.
Soporte de monitoresSoporte integrado para hasta cuatro monitores conectados a través de Dual Link DVI, HDMI 2.0b y DisplayPort 1.2 (1.3/1.4 Ready)

Especificaciones gráficas de referencia GeForce GTX 1060
ParámetroSentido
Frecuencia central1506 (1708) MHz
Número de procesadores universales1280
Número de bloques de textura80
Número de bloques de mezcla48
Frecuencia de memoria efectiva8000 (4×2000) MHz
Tipo de memoriaGDDR5
bus de memoria192 bits
Tamaño de la memoria6GB
ancho de banda de memoria192 GB/s
Rendimiento informático (FP32)alrededor de 4 teraflops
Tasa de llenado máxima teórica72 gigapixeles/s
Tasa de muestreo de textura teórica121 gigatexels/s
NeumáticoPCI Express 3.0
ConectoresUn DVI de doble enlace, un HDMI y tres DisplayPort
Consumo de energía típico120W
Comida extraUn conector de 6 pines
Número de ranuras ocupadas en el chasis del sistema2
Precio recomendado$ 249 ($ 299) en los EE. UU. y 18,990 en Rusia

La tarjeta de video GeForce GTX 1060 también recibió un nombre similar a la misma solución de la serie GeForce anterior, que se diferencia del nombre de su predecesor directo GeForce GTX 960 solo por el cambio del primer dígito de la generación. La novedad se ha convertido en la línea actual de la compañía un escalón por debajo de la solución GeForce GTX 1070 lanzada anteriormente, que es media en términos de velocidad en la nueva serie.

Los precios recomendados para la nueva tarjeta de video de Nvidia son $249 y $299 para las versiones regulares de los socios de la compañía y para la edición especial Founder's Edition, respectivamente. En comparación con los dos modelos anteriores, este es un precio muy favorable, ya que el nuevo modelo GTX 1060, aunque es inferior a las placas base de gama alta, no es tanto como más barato. En el momento del anuncio, la novedad definitivamente se convirtió en la mejor solución de rendimiento de su clase y una de las ofertas más rentables en este rango de precios.

Este modelo de la tarjeta de video de la familia Pascal de Nvidia salió para contrarrestar la nueva decisión de la compañía rival AMD, que lanzó un poco antes la Radeon RX 480. Puede comparar la nueva tarjeta de video de Nvidia con esta tarjeta de video, aunque no del todo directamente, ya que todavía difieren significativamente en precio. La GeForce GTX 1060 es más cara ($249-299 versus $199-229), pero también es claramente más rápida que su competidora.

El procesador de gráficos GP106 tiene un bus de memoria de 192 bits, por lo que la cantidad de memoria instalada en una tarjeta de video con dicho bus puede ser de 3 o 6 GB. Francamente, un valor más pequeño en las condiciones modernas no es suficiente, y muchos proyectos de juegos, incluso en resolución Full HD, se encontrarán con una falta de memoria de video, lo que afectará seriamente la fluidez del renderizado. Para garantizar el máximo rendimiento de la nueva solución en configuraciones altas, el modelo GeForce GTX 1060 se equipó con 6 GB de memoria de video, que es suficiente para ejecutar cualquier aplicación 3D con cualquier configuración de calidad. Además, hoy en día simplemente no hay diferencia entre 6 y 8 GB, y tal solución ahorrará algo de dinero.

El valor de consumo de energía típico para el nuevo producto es de 120 W, que es un 20 % menos que el valor de la GTX 1070 y es igual al consumo de energía de la tarjeta gráfica GeForce GTX 960 de la generación anterior, que tiene un rendimiento y unas capacidades mucho menores. La placa de referencia tiene el conjunto habitual de conectores para conectar dispositivos de salida de imagen: uno Dual-Link DVI, uno HDMI y tres DisplayPort. Además, hubo soporte para nuevas versiones de HDMI y DisplayPort, sobre las que escribimos en la revisión del modelo GTX 1080.

La longitud de la placa de referencia GeForce GTX 1060 es de 9,8 pulgadas (25 cm) y, a partir de las diferencias con las opciones anteriores, notamos por separado que la GeForce GTX 1060 no es compatible con la configuración de procesamiento de múltiples chips SLI y no tiene un conector especial para esto. Dado que la placa consume menos energía que los modelos anteriores, se instaló un conector de alimentación externa PCI-E de 6 pines en la placa para obtener energía adicional.

Las tarjetas de video GeForce GTX 1060 han aparecido en el mercado desde el día del anuncio en forma de productos de los socios de la compañía: Asus, EVGA, Gainward, Gigabyte, Innovision 3D, MSI, Palit, Zotac. Se lanzará en cantidades limitadas una edición especial de GeForce GTX 1060 Founder's Edition, producida por la propia Nvidia, que se venderá a un precio de $299 exclusivamente en el sitio web de Nvidia y no se presentará oficialmente en Rusia. La Founder's Edition se distingue por estar fabricada con materiales y componentes de alta calidad, incluida una caja de aluminio, y utiliza un sistema de enfriamiento eficiente, así como circuitos de alimentación de baja resistencia y reguladores de voltaje especialmente diseñados.

Cambios arquitectónicos

La tarjeta de video GeForce GTX 1060 se basa en un procesador de gráficos modelo GP106 completamente nuevo, que funcionalmente no es diferente del primogénito de la arquitectura Pascal en forma de chip GP104, en el que se describen los modelos GeForce GTX 1080 y GTX 1070 Esta arquitectura se basó en soluciones desarrolladas en Maxwell, pero también tiene algunas diferencias funcionales, sobre las cuales escribimos en detalle anteriormente.

El chip de video GP106 es similar en su diseño al chip Pascal de gama alta y soluciones similares de la arquitectura Maxwell, y puede encontrar información detallada sobre el diseño de las GPU modernas en nuestras revisiones de soluciones anteriores de Nvidia. Al igual que las GPU anteriores, los chips de la nueva arquitectura tienen una configuración diferente de clúster de procesamiento de gráficos (GPC), multiprocesador de transmisión (SM) y controladores de memoria:

El procesador gráfico GP106 incorpora dos clústeres GPC, formados por 10 multiprocesadores de streaming (Streaming Multiprocessor - SM), es decir, exactamente la mitad del GP104. Como en la GPU anterior, cada uno de los multiprocesadores contiene 128 núcleos, 8 unidades de textura TMU, 256 KB cada uno registro de memoria, 96 KB de memoria compartida y 48 KB de caché L1. Como resultado, la GeForce GTX 1060 contiene un total de 1280 núcleos de cómputo y 80 unidades de textura, la mitad que la GTX 1080.

Pero el subsistema de memoria de la GeForce GTX 1060 no se redujo a la mitad en relación con la solución superior, contiene seis controladores de memoria de 32 bits, lo que da el bus de memoria final de 192 bits. Con una frecuencia efectiva de memoria de video GDDR5 para la GeForce GTX 1060 igual a 8 GHz, el ancho de banda alcanza los 192 GB/s, lo cual es bastante bueno para una solución en este segmento de precio, especialmente considerando la alta eficiencia de su uso en Pascal. Cada uno de los controladores de memoria tiene ocho ROP y 256 KB de caché L2 asociados, por lo que en total versión completa La GPU GP106 contiene 48 ROP y 1536 KB de caché L2.

Para reducir los requisitos de ancho de banda de la memoria y hacer un uso más eficiente de la arquitectura Pascal disponible, se ha mejorado aún más la compresión de datos en el chip sin pérdidas, que puede comprimir datos en búferes, ganando eficiencia y rendimiento. En concreto, se han añadido a los chips de la nueva familia nuevos métodos de compresión delta con ratios 4:1 y 8:1, aportando un 20% adicional a la eficiencia del ancho de banda de la memoria en comparación con las soluciones anteriores de la familia Maxwell.

La frecuencia base de la nueva GPU es de 1506 MHz; en principio, la frecuencia no debería caer por debajo de esta marca. El reloj turbo típico (Boost Clock) es mucho más alto a 1708 MHz, que es el promedio de la frecuencia real a la que se ejecuta el chip de gráficos GeForce GTX 1060 en una amplia gama de juegos y aplicaciones 3D. La frecuencia real de Boost depende del juego y de las condiciones en las que se lleva a cabo la prueba.

Al igual que el resto de la familia Pascal, la GeForce GTX 1060 no solo funciona a una alta velocidad de reloj, brindando un alto rendimiento, sino que también tiene un margen decente para el overclocking. Los primeros experimentos indican la posibilidad de alcanzar frecuencias del orden de los 2 GHz. No sorprende que los socios de la compañía también estén preparando versiones overclockeadas de fábrica de la tarjeta de video GTX 1060.

Entonces, el principal cambio en la nueva arquitectura fue el proceso FinFET de 16 nm, cuyo uso en la producción de GP106 permitió aumentar significativamente la complejidad del chip manteniendo un área relativamente baja de 200 mm², por lo tanto, este chip de arquitectura Pascal tiene una cantidad significativamente mayor de unidades de ejecución en comparación con un chip Maxwell de posicionamiento similar producido con la tecnología de proceso de 28 nm.

Si la GM206 (GTX 960) con un área de 227 mm² tenía 3 mil millones de transistores y 1024 ALU, 64 TMU, 32 ROP y un bus de 128 bits, entonces la nueva GPU contenía 4,4 mil millones de transistores, 1280 ALU, en 200 mm², 80 TMUs y 48 ROPs con bus de 192 bits. Además, a una frecuencia casi una vez y media mayor: 1506 (1708) frente a 1126 (1178) MHz. ¡Y esto es con el mismo consumo de energía de 120 vatios! Como resultado, la GPU GP106 se ha convertido en una de las GPU con mayor eficiencia energética, junto con la GP104.

Nuevas tecnologías de Nvidia

Una de las tecnologías más interesantes de la compañía, que se apoya en la GeForce GTX 1060 y otras soluciones de la familia Pascal, es la tecnología Multiproyección simultánea de Nvidia. Ya escribimos sobre esta tecnología en la revisión de GeForce GTX 1080, le permite utilizar varias técnicas nuevas para optimizar el renderizado. En particular, para proyectar simultáneamente una imagen de realidad virtual para dos ojos a la vez, lo que aumenta significativamente la eficiencia del uso de la GPU en la realidad virtual.

Para admitir SMP, todas las GPU de la familia Pascal tienen un motor especial, que se encuentra en PolyMorph Engine al final de la canalización geométrica antes del rasterizador. Con él, la GPU puede proyectar simultáneamente una primitiva geométrica en varias proyecciones desde un punto, mientras que estas proyecciones pueden ser estéreo (es decir, se admiten hasta 16 o 32 proyecciones simultáneamente). Esta función permite que las GPU de Pascal reproduzcan con precisión una superficie curva para la representación de realidad virtual, así como también se muestren correctamente en sistemas de monitores múltiples.

Es importante que la tecnología Simultaneous Multi-Projection ya se esté integrando en motores de juegos populares (Unreal Engine y Unity) y juegos, y hasta la fecha, se ha anunciado compatibilidad con la tecnología para más de 30 juegos en desarrollo, incluidos los conocidos proyectos como Unreal Tournament, Poolnation VR, Everest VR, Obduction, Adr1ft y Raw Data. Curiosamente, aunque Unreal Tournament no es un juego de realidad virtual, utiliza SMP para lograr mejores efectos visuales y de rendimiento.

Otra tecnología largamente esperada es una poderosa herramienta para crear capturas de pantalla en juegos. nvidia ansel. Esta herramienta le permite crear capturas de pantalla inusuales y de muy alta calidad de juegos, con funciones que antes eran inaccesibles, guardarlas en una resolución muy alta y complementarlas con varios efectos, y compartir sus creaciones. Ansel le permite crear literalmente una captura de pantalla de la manera que el artista la quiere, lo que le permite instalar una cámara con cualquier parámetro en cualquier lugar de la escena, aplicar potentes filtros posteriores a la imagen o incluso tomar una toma de 360 ​​grados para verla en un casco de realidad virtual.

Nvidia ha estandarizado la integración de la interfaz de usuario de Ansel en los juegos, y hacerlo es tan fácil como agregar unas pocas líneas de código. Ya no es necesario esperar a que aparezca esta característica en los juegos, puedes evaluar las habilidades de Ansel ahora mismo en Mirror's Edge: Catalyst, y un poco más tarde estará disponible en Witcher 3: Wild Hunt. Además, se están desarrollando muchos proyectos de juegos habilitados para Ansel, incluidos juegos como Fortnite, Paragon y Unreal Tournament, Obduction, The Witness, Lawbreakers, Tom Clancy's The Division, No Man's Sky y más.

La nueva GPU GeForce GTX 1060 también es compatible con el kit de herramientas Nvidia VRWorks, que ayuda a los desarrolladores a crear proyectos impresionantes para la realidad virtual. Este paquete incluye muchas utilidades y herramientas para desarrolladores, incluido VRWorks Audio, que le permite realizar un cálculo muy preciso de los reflejos de las ondas de sonido de los objetos de la escena mediante el trazado de rayos GPU. El paquete también incluye integración en VR y efectos físicos PhysX para garantizar el comportamiento físicamente correcto de los objetos en la escena.

Uno de los juegos de realidad virtual más emocionantes para beneficiarse de VRWorks es VR Funhouse, el juego de realidad virtual propio de Nvidia, disponible de forma gratuita en el servicio Steam de Valve. Este juego funciona con Unreal Engine 4 (Epic Games) y se ejecuta en tarjetas gráficas GeForce GTX 1080, 1070 y 1060 junto con auriculares HTC Vive VR. Además, el código fuente de este juego estará disponible públicamente, lo que permitirá a otros desarrolladores utilizar ideas y códigos ya preparados en sus atracciones de realidad virtual. Confíe en nuestra palabra, esta es una de las demostraciones más impresionantes de las posibilidades de la realidad virtual.

Incluso gracias a las tecnologías SMP y VRWorks, el uso de la GPU GeForce GTX 1060 en aplicaciones de realidad virtual proporciona suficiente para Nivel Básico rendimiento de realidad virtual, y la GPU en cuestión cumple con el nivel de hardware mínimo requerido, incluso para SteamVR, convirtiéndose en una de las adquisiciones más exitosas para su uso en sistemas con apoyo oficial RV.

Dado que el modelo GeForce GTX 1060 se basa en el chip GP106, que no es inferior al procesador de gráficos GP104, que se convirtió en la base de modificaciones anteriores, admite absolutamente todas las tecnologías descritas anteriormente.

La GeForce GTX 1060 es el tercer modelo de la nueva línea de procesadores gráficos de Nvidia basada en la familia Pascal. La nueva tecnología de proceso FinFET de 16 nm y las optimizaciones de arquitectura han permitido que todas las tarjetas gráficas nuevas alcancen altas velocidades de reloj y coloquen más bloques funcionales en la GPU en forma de procesadores de flujo, módulos de textura y otros, en comparación con los chips de video de la generación anterior. Por eso, la GTX 1060 se ha convertido en la solución más rentable y eficiente energéticamente de su clase y en general.

Es especialmente importante que la GeForce GTX 1060 ofrezca un rendimiento lo suficientemente alto y soporte para nuevas funciones y algoritmos a un precio mucho más bajo en comparación con las soluciones anteriores basadas en la GP104. El chip gráfico GP106 utilizado en el nuevo modelo ofrece el mejor rendimiento y eficiencia energética de su clase. La GeForce GTX 1060 está especialmente diseñada y se adapta perfectamente a todos los juegos modernos con configuraciones de gráficos altas y máximas a una resolución de 1920x1080 e incluso con suavizado de pantalla completa habilitado por varios métodos (FXAA, MFAA o MSAA).

Y para aquellos que desean aún más rendimiento con pantallas de ultra alta resolución, Nvidia tiene sus tarjetas gráficas GeForce GTX 1070 y GTX 1080 de primera línea, que también son bastante buenas en términos de rendimiento y eficiencia energética. Y, sin embargo, la combinación de bajo precio y suficiente rendimiento distingue bastante favorablemente a la GeForce GTX 1060 del fondo de las soluciones más antiguas. En comparación con la Radeon RX 480 de la competencia, la solución de Nvidia es un poco más rápida, con menos complejidad y huella de GPU, y tiene una eficiencia energética significativamente mejor. Es cierto que se vende un poco más caro, por lo que cada tarjeta de video tiene su propio nicho.

Revisión de la tarjeta de video NVIDIA GeForce GTX 780 | Experiencia GeForce y ShadowPlay

Experiencia GeForce

Como entusiastas de la informática, apreciamos la combinación de diferentes configuraciones que afectan el rendimiento y la calidad de los juegos. La forma más fácil es gastar mucho dinero en una nueva tarjeta de video y establecer todas las configuraciones de gráficos al máximo. Pero cuando un parámetro resulta ser demasiado pesado para la tarjeta y hay que reducirlo o desactivarlo, surge una sensación desagradable y la comprensión de que el juego podría funcionar mucho mejor.

Sin embargo, establecer la configuración óptima no es tan fácil. Algunas configuraciones producen mejores efectos visuales que otras y el impacto en el rendimiento puede variar mucho. El programa GeForce Experience es el intento de NVIDIA de facilitar la elección de la configuración del juego al comparar su CPU, GPU y resolución con una base de datos de configuraciones. La segunda parte de la utilidad lo ayuda a determinar si los controladores necesitan actualizaciones.

Es probable que los entusiastas continúen eligiendo la configuración ellos mismos y perciban negativamente programa adicional. Sin embargo, la mayoría de los jugadores que desean instalar el juego y comenzar a jugar de inmediato sin verificar los controladores y pasar por varias configuraciones definitivamente estarán felices con esta oportunidad. De cualquier manera, GeForce Experience de NVIDIA ayuda a las personas a aprovechar al máximo su experiencia de juego y, por lo tanto, es una utilidad útil para los juegos de PC.

GeForce Experience identificó los nueve juegos instalados en nuestro sistema de prueba. Naturalmente, no guardaron la configuración predeterminada ya que aplicamos ciertas configuraciones con fines de prueba. Pero sigue siendo interesante cómo GeForce Experience habría cambiado las opciones que elegimos.

Para Tomb Raider, GeForce Experience quería desactivar la tecnología TressFX, aunque NVIDIA GeForce GTX 780 con la función habilitada, mostró un promedio de 40 cuadros por segundo. Por alguna razón, el programa no pudo determinar la configuración muy lejos 3, aunque los ajustes que sugirió fueron bastante altos. Por razones desconocidas para Skyrim, la utilidad quería desactivar FXAA.

Es bueno obtener un conjunto de capturas de pantalla para cada juego que describa el efecto de una determinada configuración en la calidad de la imagen. De los nueve ejemplos que revisamos, GeForce Experience se acercó a la configuración óptima, en nuestra opinión. Sin embargo, la utilidad también está sesgada, patrocinando características específicas de NVIDIA como PhysX (que el programa puso en nivel alto en Borderlands 2) y evita que se habiliten funciones de AMD (incluido TressFX en Tomb Raider). Deshabilitar FXAA en Skyrim no tiene ningún sentido, ya que el juego promedia 100 FPS. Es posible que los entusiastas quieran instalar GeForce Experience una vez que se envíe el sistema NVIDIA Shield, ya que la función Game Streaming parece estar disponible a través de la aplicación NVIDIA.

ShadowPlay: grabadora de video siempre activa para juegos

Los fanáticos de WoW a menudo graban sus incursiones, pero esto requiere un sistema bastante poderoso, Fraps y mucho espacio en disco.

NVIDIA anunció recientemente nueva caracteristica ShadowPlay, que puede simplificar enormemente el proceso de grabación.

Cuando está activado, ShadowPlay usa el decodificador fijo NVEnc integrado en la GPU Kepler, que registra automáticamente los últimos 20 minutos de juego. O puede iniciar y detener manualmente ShadowPlay. Así, la tecnología reemplaza soluciones de software como Fraps, que dan una mayor carga en la CPU.

Como referencia: NVEnc solo funciona con codificación H.264 a resoluciones de hasta 4096x4096 píxeles. ShadowPlay aún no está disponible en el mercado, pero NVIDIA dice que podrá grabar video de 1080p a hasta 30 FPS cuando se lance este verano. Nos gustaría ver una resolución más alta, ya que se ha dicho anteriormente que el codificador tiene el potencial de admitirlo en el hardware.

Revisión de la tarjeta de video NVIDIA GeForce GTX 780 | GPU Boost 2.0 y posibles problemas de overclocking

Impulso de GPU 2.0

En revisión GeForce GTX Titán No pudimos probar exhaustivamente la tecnología NVIDIA GPU Boost de segunda generación, pero ahora está aquí NVIDIA GeForce GTX 780. Aquí hay una breve descripción de esta tecnología:

GPU Boost es un mecanismo de NVIDIA que cambia el rendimiento de las tarjetas gráficas según el tipo de tarea que se esté procesando. Como probablemente sepa, los juegos tienen diferentes requisitos de recursos de GPU. Históricamente, la frecuencia debe ajustarse para el peor de los casos. Pero al procesar "luz" tareas de GPU trabajado para nada. GPU Boost monitorea varios parámetros y aumenta o disminuye las frecuencias según las necesidades de la aplicación y la situación actual.

La primera implementación de GPU Boost funcionó bajo un cierto umbral de potencia (170 W en el caso de GeForce GTX 680). Sin embargo, los ingenieros de la empresa han descubierto que pueden superar este nivel de forma segura si la temperatura de la GPU es lo suficientemente baja. Por lo tanto, el rendimiento puede optimizarse aún más.

En la práctica, GPU Boost 2.0 difiere solo en que NVIDIA ahora acelera la frecuencia no según el límite de potencia, sino según una temperatura determinada, que es de 80 grados centígrados. Esto significa que ahora se utilizarán valores más altos de frecuencia y voltaje hasta que la temperatura del chip llegue a 80 grados. No olvide que la temperatura depende principalmente del perfil y la configuración del ventilador: cuanto mayor sea la velocidad del ventilador, menor será la temperatura y, por lo tanto, mayores serán los valores de GPU Boost (y, lamentablemente, también el nivel de ruido). La tecnología aún evalúa la situación una vez cada 100 ms, por lo que NVIDIA tiene más trabajo por hacer en futuras versiones.

La configuración dependiente de la temperatura hace que el proceso de prueba sea aún más difícil en comparación con la primera versión de GPU Boost. Cualquier cosa que suba o baje la temperatura del GK110 cambia el reloj del chip. Por lo tanto, lograr resultados consistentes entre ejecuciones es bastante difícil. En condiciones de laboratorio, solo se puede esperar una temperatura ambiente estable.

Además de lo anterior, vale la pena señalar que puede aumentar el límite de temperatura. Por ejemplo, si desea NVIDIA GeForce GTX 780 bajó la frecuencia y el voltaje al nivel de 85 o 90 grados centígrados, esto se puede configurar en los parámetros.

¿Quiere mantener el GK110 lo más lejos posible del límite de temperatura elegido? curva de ventilador NVIDIA GeForce GTX 780 totalmente ajustable, lo que le permite ajustar el ciclo de trabajo de acuerdo con los valores de temperatura.

Posibles problemas de overclocking

Durante nuestra relación con GeForce GTX Titán representantes de la empresa nos mostraron una utilidad interna capaz de leer el estado varios sensores: por lo que simplifica el proceso de diagnóstico de comportamiento no estándar de la tarjeta. Si la temperatura del GK110 aumenta demasiado durante el overclocking, incluso cuando se acelera, esta información se registrará en el registro.

Ahora la empresa implementa esta función a través de la aplicación Precision X, que lanza un algoritmo de advertencia de "motivos" si durante la aceleración hubo acciones que impidan su continuación efectiva. Esta es una gran característica porque ya no tiene que adivinar sobre posibles cuellos de botella. También hay un indicador de límite máximo de OV que le permitirá saber si ha alcanzado el voltaje máximo absoluto de la GPU. En este caso, existe el riesgo de quemar la tarjeta. Puede considerar esto como una sugerencia para reducir los parámetros de overclocking.

Revisión de la tarjeta de video NVIDIA GeForce GTX 780 | Banco de pruebas y puntos de referencia


Configuración del banco de pruebas
UPC Intel Core i7-3770K (Ivy Bridge) 3,5 GHz a 4,0 GHz (40*100 MHz), LGA 1155, 8 MB de caché L3 compartida, Hyper-Threading habilitado, Ahorro de energía habilitado
tarjeta madre Gigabyte Z77X-UD5H (LGA 1155), conjunto de chips Z77 Express, BIOS F15q
RAM G.Skill 16GB (4 x 4GB) DDR3-1600, F3-12800CL9Q2-32GBZL @ 9-9-9-24 a 1.5V
Dispositivo de almacenamiento Crucial m4 SSD 256GB SATA 6Gb/s
tarjetas de video Nvidia GeForce GTX 780 3GB

AMD Radeon HD 7990 6 GB

AMD Radeon HD 7970 GHz Edición 3 GB

Nvidia GeForce GTX 580 1.5 GB

Nvidia GeForce GTX 680 2GB

Nvidia GeForce GTX Titán 6 GB

Nvidia GeForce GTX 690 4 GB

Fuente de alimentación Enfriador Maestro UCP-1000W
Software y controladores del sistema
sistema operativo Windows 8 profesional de 64 bits
DirectX DirectX 11
Grafico. conductores Catalizador AMD 13.5 (Beta 2)
Nvidia GeForce versión 320.00
Nvidia GeForce versión 320.18 (para GeForce GTX 780)

Obtener el valor de velocidad de fotogramas correcto

Los lectores atentos notarán que las cifras de las siguientes páginas son más modestas que las de la reseña. AMD Radeon HD 7990, y hay una razón para eso. Anteriormente, presentamos velocidades de fotogramas sintéticas y reales, y luego mostramos fluctuaciones de tiempo entre fotogramas junto con fotogramas reducidos y cortos. El hecho es que este método no refleja las sensaciones reales de la tarjeta de video, y de nuestra parte sería injusto condenar a AMD, basándose en indicadores sintéticos de retraso de tiempo entre fotogramas.

Es por eso que, junto con las fluctuaciones de la velocidad de fotogramas, ahora proporcionamos métricas dinámicas de velocidad de fotogramas más prácticas. Los resultados no son tan altos, pero al mismo tiempo son muy elocuentes en juegos donde AMD está pasando por dificultades.

Pruebas y ajustes
Campo de batalla 3 Calidad de gráficos: Ultra, v-sync desactivado, 2560x1440, DirectX 11, Going Hunting, 90 segundos, FCAT
muy lejos 3 Calidad de gráficos: Ultra, DirectX 11, v-sync desactivado, 2560x1440, ejecuta tu propia ruta, 50 segundos, FCAT
territorios fronterizos 2 Calidad de gráficos: máxima, PhysX Low, filtrado anisotrópico 16x, 2560x1440, Ejecute su propia ruta, FCAT
Hitman: Absolución Calidad de gráficos: Ultra, MSAA desactivado, 2560x1440, benchmark integrado, FCAT
The Elder Scrolls V: Skyrim Calidad de gráficos: Ultra, habilitado para FXAA, 2560x1440, ejecute su propia ruta, 25 segundos, FCAT
3DMarca Punto de referencia de huelga de fuego
Bioshock infinito Calidad de gráficos: Ultra, DirectX 11, profundidad de campo del difusor, 2560x1440, benchmark incorporado, FCAT
Crisis 3 Calidad de gráficos: muy alta, MSAA: baja (2x), texto de alta resolución, 2560x1440, ejecutar en su propia ruta, 60 segundos, FCAT
Tomb Raider Calidad de gráficos Ultimate, habilitado para FXAA, filtrado anisotrópico 16x, TressFX Hair, 2560x1440, ejecuta tu propia ruta, 45 segundos, FCAT
Marca de lujo 2.0 Binario de 64 bits, Versión 2.0, Sala Escena
SiSoftware Sandra 2013 Profesional Sandra Tech Support (Ingeniero) 2013.SP1, criptografía, rendimiento de análisis financiero


CONTENIDO