Top Posts Tagged with #fp8

Indy 500: Dalton Kellett crashes during practice

#Dalton Kellett #IndyCar #Indy500 #FP8 #IndyCar2022

•18+ Adults Only

Watch Anya Live on Cam

Anya is live and ready to show you everything. Watch her strip, dance, and perform exclusive shows just for you. Interact in real-time and make your fantasies come true.

✓ Live Streaming✓ Interactive Chat✓ Private Shows✓ HD Quality✓ Free Actions

Free to watch • No registration required • HD streaming

台地の眺め

微笑む膝を奮い立たせ、長い階段を上がって振り返ると広々とした大森の街が一望できた。

今まで歩いてきた起伏の多い地形とこの眺め。はたと閃いて、地形地図アプリで見てみるとここらあたりは武蔵野台地の端っこのようだ。

ひとりブラタモリの様相を呈してきたw。そんな、この風景をD90で撮ってなかったのでiPhoneで撮ったやつ。

#vsco #vscox #filmx #FP8 #Fuji #Pro800Z #shotoniphone #iphone11pro #photographers on tumblr #original photographers #lensblr #太田神社 #武蔵野台地

LLM 양자화 완벽 가이드! INT4로 메모리 87.5% 절감, FP8로 처리량 43% 향상. GPTQ vs AWQ vs GGUF 비교, Llama 3 양자화 성능 벤치마크, Q4까지 손실 2% 미만! Pruning + Knowledge Distillation 경량화 기법, 하드웨어별 추천 전략, QLoRA Fine-tuning까지! #AWQ #FP8 #GGUF #GPTQ #INT4 #INT8 #KnowledgeDistillation #Llama3 #llamacpp #LLM양자화 #Pruning #QLoRA #Quantization #경량화 #딥러닝최적화 #메모리절감 #모델압축 Read the full article

#AWQ #FP8 #GGUF #GPTQ #INT4 #INT8 #KnowledgeDistillation #Llama3 #llama.cpp #LLM양자화 #Pruning #QLoRA #Quantization #경량화 #딥러닝최적화 #메모리절감 #모델압축

DeepSeek Golpea Duro: La Revolución de la IA China

En el mundo de la inteligencia artificial (IA), DeepSeek ha emergido como un disruptor que está sacudiendo los cimientos de la industria. Con innovaciones revolucionarias y un enfoque radicalmente diferente al de gigantes como OpenAI y su famoso ChatGPT. DeepSeek no solo ha reducido drásticamente los costos de entrenamiento de modelos de IA, sino que también ha puesto en jaque a empresas como NVIDIA, cuya caída en la bolsa de valores ha sido noticia en los últimos días. En este artículo, exploraremos cómo DeepSeek está cambiando las reglas del juego y por qué su impacto podría ser tan significativo.

El Contexto: ChatGPT y los Altos Costos de la IA

Para entender la magnitud de lo que DeepSeek ha logrado, primero debemos contextualizar el panorama actual de la inteligencia artificial. ChatGPT, desarrollado por OpenAI, es uno de los modelos de lenguaje más avanzados del mundo. Sin embargo, entrenar modelos de esta envergadura es increíblemente costoso. Se requieren recursos computacionales masivos, como GPUs (Unidades de Procesamiento Gráfico) y TPUs (Unidades de Procesamiento Tensorial), que consumen enormes cantidades de energía y tiempo. Además, el proceso de entrenamiento puede durar semanas o incluso meses, con equipos de expertos en IA supervisando y ajustando billones de parámetros. Estos factores hacen que el desarrollo de modelos avanzados de IA esté al alcance de solo unas pocas empresas con recursos financieros significativos. OpenAI, por ejemplo, gasta más de 100 millones de dólares solo en computación. Pero todo esto cambió con la llegada de DeepSeek.

DeepSeek: La Innovación que Cambió Todo

Fundada en 2023 en China, DeepSeek ha revolucionado la industria de la IA con un enfoque radicalmente diferente. En lugar de seguir los métodos tradicionales, los desarrolladores de DeepSeek repensaron todo desde cero. Su primera innovación fue reducir la precisión de los cálculos en los modelos de IA. Tradicionalmente, los modelos utilizan 32 bits (FP32) para representar números, lo que garantiza alta precisión pero consume mucha memoria y energía. DeepSeek, en cambio, optó por usar solo 8 bits (FP8), reduciendo la memoria necesaria en un 75% y permitiendo entrenar modelos más grandes con los mismos recursos.

Pero eso no es todo. DeepSeek también introdujo la predicción de tokens múltiples, una técnica que permite generar varias palabras a la vez en lugar de una por una, como hacen la mayoría de los modelos de IA. Esto no solo acelera el proceso de generación de respuestas, sino que también reduce los costos operativos.

Un Equipo de Expertos en Lugar de una IA Gigante

Otra innovación clave de DeepSeek es su enfoque de "equipo de expertos". En lugar de tener una sola IA que intenta ser experta en todo, DeepSeek divide su modelo en múltiples expertos especializados en áreas específicas, como matemáticas, medicina o derecho. Estos expertos no están siempre activos; solo se activan cuando se necesita su conocimiento. Esto hace que el sistema sea mucho más eficiente, ya que no desperdicia recursos procesando información innecesaria. Además, DeepSeek ha optimizado el uso de parámetros. Mientras que modelos como los de OpenAI tienen 1.8 billones de parámetros activos todo el tiempo, DeepSeek utiliza 671 mil millones de parámetros, activando solo los necesarios para cada tarea. Esto reduce significativamente el consumo de recursos y los costos.

Resultados Alucinantes: Costos Reducidos y Accesibilidad

Las innovaciones de DeepSeek han tenido un impacto impresionante. El costo de entrenamiento de sus modelos se redujo de 100 millones de dólares a solo 5 millones. Además, el número de GPUs necesarias disminuyó de 100,000 a 2,000, y los costos de las API se redujeron en un 95%. Incluso más sorprendente es que DeepSeek puede ejecutarse en GPUs para juegos, lo que elimina la necesidad de hardware especializado y costoso.

Código Abierto: Compartiendo el Conocimiento

Uno de los aspectos más destacados de DeepSeek es que es de código abierto. Esto significa que cualquier persona puede acceder, analizar y mejorar su tecnología. En lugar de mantener sus avances como un secreto comercial, DeepSeek ha optado por compartir su conocimiento con la comunidad de IA, fomentando la colaboración y acelerando el progreso en el campo.

Impacto en el Mercado: NVIDIA y el Futuro de la IA

El surgimiento de DeepSeek no ha pasado desapercibido en el mercado. Las acciones de NVIDIA, una de las principales proveedoras de GPUs para IA, cayeron un 16.86% en un solo día, lo que representa una pérdida de 589 mil millones de dólares en capitalización bursátil. Este impacto refleja la preocupación del mercado ante la posibilidad de que DeepSeek y su tecnología disruptiva cambien las reglas del juego en la industria de la IA.

Conclusión: ¿Qué Significa Esto para el Futuro?

DeepSeek ha demostrado que es posible desarrollar modelos de IA avanzados de manera más eficiente y accesible. Su enfoque innovador no solo reduce costos, sino que también democratiza el acceso a la tecnología de IA. A medida que más empresas y desarrolladores adopten estas innovaciones, es probable que veamos un cambio significativo en la industria. La pregunta ahora no es si DeepSeek afectará a los actores actuales, sino qué tan rápido lo hará. Una cosa es segura: el mundo de la inteligencia artificial nunca volverá a ser el mismo. Así que, los creadores de DeepSeek abrieron una puerta que dará apertura a muchas iniciativas que se limitaban por los costos. Vamos a ver que sucederá en el corto plazo. ¿Que te parece este hito en la IA? déjame tu comentario. Read the full article

#ChatGPT #códigoabierto #costosdeIA #DeepSeek #FP8 #GPUs #inteligenciaartificial #NVIDIA #OpenAI #prediccióndetokensmúltiples

AI Hypercomputer’s New Resource Hub & Speed Enhancements

Google AI Hypercomputer

Updates to the AI hypercomputer software include a new resource center, quicker training and inference, and more.

AI has more promise than ever before, and infrastructure is essential to its advancement. Google Cloud’s supercomputing architecture, AI Hypercomputer, is built on open software, performance-optimized hardware, and adaptable consumption models. When combined, they provide outstanding performance and efficiency, scalability and resilience, and the freedom to select products at each tier according to your requirements.

A unified hub for AI Hypercomputer resources, enhanced resiliency at scale, and significant improvements to training and inference performance are all being announced today.

Github resources for AI hypercomputers

The open software layer of AI Hypercomputer offers reference implementations and workload optimizations to enhance the time-to-value for your particular use case, in addition to supporting top ML Frameworks and orchestration options. Google Cloud is launching the AI Hypercomputer GitHub organization to make the advancements in its open software stack easily accessible to developers and practitioners. This is a central location where you can find reference implementations like MaxText and MaxDiffusion, orchestration tools like xpk (the Accelerated Processing Kit for workload management and cluster creation), and GPU performance recipes on Google Cloud. It urges you to join us as it expand this list and modify these resources to reflect a quickly changing environment.

A3 Mega VMs are now supported by MaxText

MaxText is an open-source reference implementation for large language models (LLMs) that offers excellent speed and scalability. Performance-optimized LLM training examples are now available for A3 Mega VMs, which provide a 2X increase in GPU-to-GPU network capacity over A3 VMs and are powered by NVIDIA H100 Tensor Core GPUs. To make it possible for collaborative communication and computing on GPUs to overlap, Google Cloud collaborated closely with NVIDIA to enhance JAX and XLA. It has included example scripts and improved model settings for GPUs with XLA flags enabled.

As the number of VMs in the cluster increases, MaxText with A3 Mega VMs can provide training performance that scales almost linearly, as seen below using Llama2-70b pre-training.

Moreover, FP8 mixed-precision training on A3 Mega VMs can be used to increase hardware utilization and acceleration. Accurate Quantized Training (AQT), the quantization library that drives INT8 mixed-precision training on Cloud TPUs, is how it added FP8 capability to MaxText.

Its results on dense models show that FP8 training with AQT can achieve up to 55% more effective model flop use (EMFU) than bf16.

Reference implementations and kernels for MoEs

Consistent resource usage of a small number of experts is beneficial for the majority of mixture of experts (MoE) use cases. But for some applications, it is more crucial to be able to leverage more experts to create richer solutions. Google Cloud has now added both “capped” and “no-cap” MoE implementations to MaxText to give you this flexibility, allowing you to select the one that best suits your model architecture. While no-cap models dynamically distribute resources for maximum efficiency, capped MoE models provide predictable performance.

Pallas kernels, which are optimized for block-sparse matrix multiplication on Cloud TPUs, have been made publicly available to speed up MoE training even more. Pallas is an extension to JAX that gives fine-grained control over code created for XLA devices like GPUs and TPUs; at the moment, block-sparse matrix multiplication is only available for TPUs. These kernels offer high-performance building pieces for training your MoE models and are compatible with both PyTorch and JAX.

With a fixed batch size per device, our testing using the no-cap MoE model (Mixtral-8x7b) shows nearly linear scalability. When it raised the number of experts in the base setup with the number of accelerators, it also saw almost linear scaling, which is suggestive of performance on models with larger sparsity.

Monitoring large-scale training

MLOps can be made more difficult by having sizable groups of accelerators that are supposed to collaborate on a training task. “Why is this one device in a segfault?” is a question you may have. “Did host transfer latencies spike for a reason?” is an alternative. However, monitoring extensive training operations with the right KPIs is necessary to maximize your resource use and increase overall ML Goodput.

Google has provided a reference monitoring recipe to make this important component of your MLOps charter easier to understand. In order to detect anomalies in the configuration and take remedial action, this recipe assists you in creating a Cloud Monitoring dashboard within your Google Cloud project that displays helpful statistical metrics like average or maximum CPU consumption.

Cloud TPU v5p SparseCore is now GA

High-performance random memory access is necessary for recommender models and embedding-based models to utilize the embeddings. The TPU’s hardware embedding accelerator, SparseCore, lets you create recommendation systems that are more potent and effective. With four dedicated SparseCores per Cloud TPU v5p chip, DLRM-V2 can perform up to 2.5 times faster than its predecessor.

Enhancing the performance of LLM inference

Lastly, it implemented ragged attention kernels and KV cache quantization in JetStream, an open-source throughput-and-memory-optimized engine for LLM inference, to enhance LLM inference performance. When combined, these improvements can increase inference performance on Cloud TPU v5e by up to 2X.

Boosting your AI adventure

Each part of the AI Hypercomputer serves as a foundation for the upcoming AI generation, from expanding the possibilities of model training and inference to improving accessibility through a central resource repository.

Trending Tags

Last Seen Tags

#fp8

Trending Tags

Last Seen Tags

#fp8