मेटा के लामा संग्रह में नवीनतम संयोजन, लामा 3.3 70बी मॉडल में NVIDIA के TensorRT-LLM की बदौलत महत्वपूर्ण प्रदर्शन वृद्धि देखी गई है। इस सहयोग का उद्देश्य बड़े भाषा मॉडल (एलएलएम) के अनुमान थ्रूपुट को अनुकूलित करना है, इसे तीन गुना तक बढ़ाना है। NVIDIA.
TensorRT-LLM के साथ उन्नत अनुकूलन
NVIDIA TensorRT-LLM लामा 3.3 70B के प्रदर्शन को अधिकतम करने के लिए कई नवीन तकनीकों का उपयोग करता है। मुख्य अनुकूलन में इन-फ़्लाइट बैचिंग, केवी कैशिंग और कस्टम एफपी8 परिमाणीकरण शामिल हैं। इन तकनीकों को एलएलएम सेवा की दक्षता बढ़ाने, विलंबता को कम करने और जीपीयू उपयोग में सुधार करने के लिए डिज़ाइन किया गया है।
इन-फ़्लाइट बैचिंग सेवा थ्रूपुट को अनुकूलित करते हुए कई अनुरोधों को एक साथ संसाधित करने की अनुमति देती है। संदर्भ और पीढ़ी के चरणों के दौरान अनुरोधों को इंटरलेविंग करके, यह विलंबता को कम करता है और GPU उपयोग को बढ़ाता है। इसके अतिरिक्त, केवी कैश तंत्र पिछले टोकन के कुंजी-मूल्य तत्वों को संग्रहीत करके कम्प्यूटेशनल संसाधनों को बचाता है, हालांकि इसके लिए मेमोरी संसाधनों के सावधानीपूर्वक प्रबंधन की आवश्यकता होती है।
सट्टा डिकोडिंग तकनीक
एलएलएम अनुमान में तेजी लाने के लिए सट्टा डिकोडिंग एक शक्तिशाली तरीका है। यह भविष्य के टोकन के कई अनुक्रमों को उत्पन्न करने की अनुमति देता है, जो ऑटोरेग्रेसिव डिकोडिंग में एकल टोकन की तुलना में अधिक कुशलता से संसाधित होते हैं। TensorRT-LLM विभिन्न सट्टा डिकोडिंग तकनीकों का समर्थन करता है, जिसमें ड्राफ्ट टारगेट, मेडुसा, ईगल और लुकहेड डिकोडिंग शामिल हैं।
ये तकनीकें थ्रूपुट में उल्लेखनीय रूप से सुधार करती हैं, जैसा कि NVIDIA के H200 टेंसर कोर GPU का उपयोग करके आंतरिक मापों द्वारा प्रदर्शित किया गया है। उदाहरण के लिए, ड्राफ्ट मॉडल का उपयोग करने से थ्रूपुट 51.14 टोकन प्रति सेकंड से बढ़कर 181.74 टोकन प्रति सेकंड हो जाता है, जिससे 3.55 गुना की गति प्राप्त होती है।
कार्यान्वयन एवं परिनियोजन
इन प्रदर्शन लाभों को प्राप्त करने के लिए, NVIDIA लामा 3.3 70B मॉडल के साथ ड्राफ्ट लक्ष्य सट्टा डिकोडिंग को एकीकृत करने के लिए एक व्यापक सेटअप प्रदान करता है। इसमें मॉडल चौकियों को डाउनलोड करना, TensorRT-LLM स्थापित करना और मॉडल चौकियों को अनुकूलित TensorRT इंजन में संकलित करना शामिल है।
एआई प्रौद्योगिकियों को आगे बढ़ाने के लिए एनवीआईडीआईए की प्रतिबद्धता मेटा और अन्य भागीदारों के साथ अपने सहयोग तक फैली हुई है, जिसका लक्ष्य खुले सामुदायिक एआई मॉडल को बढ़ाना है। TensorRT-LLM अनुकूलन न केवल थ्रूपुट में सुधार करता है बल्कि ऊर्जा लागत को भी कम करता है और स्वामित्व की कुल लागत में सुधार करता है, जिससे विभिन्न बुनियादी ढांचे में AI तैनाती अधिक कुशल हो जाती है।
सेटअप प्रक्रिया और अतिरिक्त अनुकूलन पर अधिक जानकारी के लिए, पर जाएँ आधिकारिक NVIDIA ब्लॉग.
छवि स्रोत: शटरस्टॉक