Intel, Meta Llama 3 GenAI İş Yüklerine Hazır: Xeon ve Core Ultra CPU’lar, Arc GPU’lar ve Gaudi Hızlandırıcılar için Optimize Edildi

Intel, Meta’nın en yeni Llama 3 GenAI iş yüklerine yönelik Xeon, Core Ultra, Arc ve Gaudi ürün serileri için doğrulama ve optimizasyonu duyurdu.

Intel Doğrulama ve Meta’nın Xeon CPU’ları, Core Ultra CPU’ları, Arc GPU’ları ve Gaudi Hızlandırıcıları genelinde Llama 3 Nesil AI İş Yüklerini Karşılaştırmalar

Basın Bülteni: Bugün Meta, yeni nesil büyük dil modeli (LLM) olan Meta Llama 3‘ü piyasaya sürdü. Lansman gününden itibaren geçerli olmak üzere Intel, Gaudi hızlandırıcılar, Xeon işlemciler, Core Ultra işlemciler ve Arc GPU’lar genelinde ilk Llama 3 8B ve 70B modelleri için AI ürün portföyünü doğruladı.

{14 }

{ 8}

Neden Önemlidir: Intel, yapay zekayı her yere getirme misyonunun bir parçası olarak, ürünlerinin dinamik yapay zeka alanındaki en son yeniliklere hazır olmasını sağlamak için yazılıma ve yapay zeka ekosistemine yatırım yapıyor. Veri merkezinde, Gelişmiş Matris Genişletme (AMX) hızlandırmalı Gaudi ve Xeon işlemciler, müşterilere dinamik ve geniş kapsamlı gereksinimleri karşılama seçenekleri sunar.

Intel Core Ultra işlemciler ve Arc grafik ürünleri, hem yerel bir geliştirme aracı hem de yerel araştırma ve geliştirme için kullanılan PyTorch ve Intel Extension for PyTorch ile model geliştirme ve çıkarım için OpenVINO araç seti de dahil olmak üzere kapsamlı yazılım çerçeveleri ve araçları desteğiyle milyonlarca cihaza dağıtım.

Llama 3’ün Çalıştırılması Hakkında Intel’de: Intel’in Llama 3 8B ve 70B modelleri için ilk test ve performans sonuçlarında, en yeni yazılım optimizasyonlarını sağlamak üzere PyTorch, DeepSpeed, Optimum Habana kitaplığı ve PyTorch için Intel Extension dahil olmak üzere açık kaynaklı yazılımlar kullanılır.

{16 }

  • Intel Gaudi 2 hızlandırıcıları, Llama 2 modellerinde (7B, 13B ve 70B parametreleri) optimize edilmiş performansa sahiptir ve artık yeni Llama 3 modeli için başlangıç ​​performans ölçümlerine sahiptir. Gaudi yazılımının olgunlaşmasıyla Intel, yeni Llama 3 modelini kolayca çalıştırdı ve çıkarım ve ince ayar için sonuçlar üretti. Llama 3 aynı zamanda kısa süre önce duyurulan Gaudi 3 hızlandırıcı tarafından da desteklenmektedir.
  • Intel Xeon işlemciler, zorlu uçtan uca AI iş yüklerine yöneliktir ve Intel, gecikmeyi azaltmak için LLM sonuçlarını optimize etmeye yatırım yapar. Performans çekirdekli Xeon 6 işlemciler (kod adı Granite Rapids), 4. Nesil Xeon işlemcilerle karşılaştırıldığında Llama 3 8B çıkarım gecikmesinde 2 kat iyileşme ve Llama 3 70B gibi daha büyük dil modellerini oluşturulan jeton başına 100 ms’nin altında çalıştırma yeteneği gösterir.
  • Intel Core Ultra ve Arc Graphics, Llama 3 için etkileyici bir performans sunuyor. İlk test turunda, Core Ultra işlemciler zaten tipik insan okuma hızlarından daha yüksek hızlar üretiyor. Ayrıca Arc A770 GPU, LLM iş yükleri için olağanüstü performans sağlamak üzere Xe Matrix eXtensions (XMX) AI hızlandırmaya ve 16 GB ayrılmış belleğe sahiptir.
  • Xeon Ölçeklenebilir İşlemciler

    Intel, sürekli olarak Xeon platformları için LLM çıkarımını optimize etme. Örnek olarak, PyTorch ve PyTorch için Intel Extension’daki Llama 2 başlatma yazılımı iyileştirmeleriyle karşılaştırıldığında, gecikme süresinde 5 kat azalma sağlayacak şekilde geliştirildi. Optimizasyon, mevcut bilgi işlem kullanımını ve bellek bant genişliğini en üst düzeye çıkarmak için sayfalanmış dikkat ve tensör paralelinden yararlanır. Şekil 1, 4. Nesil Xeon Ölçeklenebilir işlemciyi temel alan AWS m7i.metal-48x örneğinde Meta Llama 3 8B çıkarımının performansını göstermektedir.

    2 / 9

    Meta Llama 3’ü Performans çekirdeklerine sahip bir Xeon 6 işlemcide karşılaştırdık (eski adıyla Granite Rapids) performansın bir önizlemesini paylaşmak için. Bu ön izleme sayıları, Xeon 6’nın, yaygın olarak bulunan 4. Nesil Xeon işlemcilere kıyasla Llama 3 8B çıkarım gecikmesinde 2 kat iyileştirme sunduğunu ve Llama 3 70B gibi daha büyük dil modellerini, tek bir iki işlemde oluşturulan jeton başına 100 ms’nin altında çalıştırma yeteneği sunduğunu gösteriyor. soket sunucusu.

    Model TP Hassaslık Giriş uzunluğu Çıkış Uzunluğu Verim Gecikme* Toplu Meta-Llama-3-8B-Instruct 1 fp8 2k{11 } 4k 1549,27

    jeton/saniye 7,747

    ms 12 Meta-Llama-3-8B-Instruct 1 bf16 1k 3k 469,11

    jeton/sn 8,527

    ms 4 { 10}Meta-Llama-3-70B-Instruct 8 fp8 2k 4k 4927,31{ 5}

    jeton/sn 56,23

    ms 277 Meta-Llama-3- 70B-Instruct 8 bf16 2k 2k 3574.81

    jeton/sn 60,425

    ms 216

    Müşteri Platformları

    İlk değerlendirme turunda Intel Core Ultra işlemci halihazırda tipik insan okuma hızlarından daha hızlı veri üretiyor. Bu sonuçlar, 8 Xe çekirdekli, DP4a AI hızlandırma dahil ve 120 GB/s’ye kadar sistem belleği bant genişliğine sahip yerleşik Arc GPU tarafından sağlanmaktadır. Özellikle yeni nesil işlemcilerimize geçerken, Llama 3’te sürekli performans ve güç verimliliği optimizasyonlarına yatırım yapmaktan heyecan duyuyoruz.

    Core Ultra işlemciler ve Arc grafik ürünleri genelinde lansman günü desteğiyle, Intel ve Meta arasındaki işbirliği, hem yerel bir geliştirme aracı hem de milyonlarca cihaza dağıtım sağlıyor. Intel istemci donanımı, yerel araştırma ve geliştirme için kullanılan PyTorch ve Intel Extension for PyTorch ile model dağıtımı ve çıkarımı için OpenVINO Araç Takımı da dahil olmak üzere kapsamlı yazılım çerçeveleri ve araçlarıyla hızlandırılır.

    Sırada Ne Var: Önümüzdeki aylarda Meta, yeni özellikler, ek model boyutları ve gelişmiş performans sunmayı planlıyor. Intel, bu yeni Yüksek Lisans’ı desteklemek için AI ürünlerinin performansını optimize etmeye devam edecek.

    Bir yanıt yazın

    E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir