नए ChatGPT फीचर्स की खोज 🤖
- वेक्टर स्पेस
- रिट्रीवल ऑगमेंटेड जनरेशन (RAG)
- GPTs और असिस्टेंट
- नोट्स:
वेक्टर स्पेस
टेक्स्ट टोकेनाइज़र से वेक्टर एम्बेडिंग तक
English
GPT या अन्य बड़े भाषा मॉडल (LLMs) के साथ प्रशिक्षण या अनुमान (inference) के लिए उपयोग किए जाने से पहले टेक्स्ट का टोकेनाइज़ेशन एक महत्वपूर्ण प्रीप्रोसेसिंग चरण है। आइए टेक्स्ट से टोकेनाइज़ेशन, फिर वेक्टर और अंत में एम्बेडिंग तक के चरणों को समझते हैं।
चरण 1: टेक्स्ट टोकेनाइज़ेशन
टोकेनाइज़ेशन टेक्स्ट को छोटे टुकड़ों में तोड़ने की प्रक्रिया है, जिन्हें टोकन कहा जाता है। उपयोग किए गए टोकेनाइज़ेशन एल्गोरिदम के आधार पर ये शब्द, उप-शब्द (subwords) या अक्षर भी हो सकते हैं।
मान लीजिए हमारा उदाहरण टेक्स्ट है: "Hello, world!"
एक सरल टोकेनाइज़ेशन दृष्टिकोण, जैसे कि व्हाइटस्पेस टोकेनाइज़ेशन, टेक्स्ट को वहां विभाजित करेगा जहां स्पेस मिलते हैं। हालाँकि, GPT-2 और GPT-3 जैसे मॉडल अक्सर बाइट-पेयर एनकोडिंग (BPE) नामक एक अधिक जटिल टोकेनाइज़ेशन विधि का उपयोग करते हैं, जो बड़े शब्दावली और अज्ञात शब्दों को प्रभावी ढंग से संभालने के लिए सबसे अधिक बार आने वाले बाइट्स (अक्षर या अक्षरों के अनुक्रम) के जोड़े को पुनरावृत्त रूप से जोड़ता है।
यह मानते हुए कि हमारे पास एक काल्पनिक टोकेनाइज़र है जिसने पहले ही GPT-आधारित टोकेनाइज़र की तरह टेक्स्ट को टोकेनाइज़ करना सीख लिया है, हमारा टेक्स्ट कुछ इस तरह टोकेनाइज़ हो सकता है:
["Hello", ",", " world", "!"]चरण 2: टोकन को आईडी में बदलना
प्रत्येक टोकन को फिर एक संख्यात्मक आईडी में बदल दिया जाता है। टोकेनाइज़र के पास एक शब्दावली होती है जहाँ प्रत्येक अद्वितीय टोकन की एक संबंधित अद्वितीय आईडी होती है। मान लीजिए कि हमारा टोकेनाइज़्ड टेक्स्ट निम्नलिखित आईडी में अनुवादित होता है:
[15496, 11, 995, 328]यहाँ, '15496' का संबंध "Hello" से, '11' का "," से, '995' का " world" से और '328' का "!" से हो सकता है।
चरण 3: वेक्टर और एम्बेडिंग
मॉडल रॉ टोकन के बजाय इन टोकन आईडी को प्रोसेस करता है। जब मॉडल को ये टोकन आईडी प्राप्त होती हैं, तो उन्हें आमतौर पर मॉडल की शुरुआत में एक एम्बेडिंग लेयर के माध्यम से गुजारा जाता है। यह एम्बेडिंग लेयर प्रत्येक टोकन आईडी को एक निश्चित आयाम (मॉडल की छिपी हुई परतों का आकार) के वेक्टर में बदल देती है। उदाहरण के लिए, यदि टोकन आईडी '15496' को 768 के छिपे हुए आकार वाले मॉडल की एम्बेडिंग लेयर के माध्यम से गुजारा जाता है, तो यह 768 तत्वों वाले एक वेक्टर के रूप में बाहर आएगा।
एम्बेडिंग वेक्टर का उदाहरण (सरलीकृत, क्योंकि वास्तविक एम्बेडिंग उच्च-आयामी होते हैं):
# यह मानते हुए कि नीचे दिए गए वेक्टर एक एम्बेडिंग लेयर से आउटपुट हैं
[0.25, -0.1, ..., 0.3] # "Hello" का वेक्टर प्रतिनिधित्व
[0.5, -0.2, ..., -0.5] # "," का वेक्टर प्रतिनिधित्व
[0.33, 0.15, ..., -0.25] # " world" का वेक्टर प्रतिनिधित्व
[-0.4, 0.1, ..., 0.4] # "!" का वेक्टर प्रतिनिधित्वटोकन आईडी से वेक्टर तक (पायथन कोड)
यहाँ कोड का एक सरल उदाहरण दिया गया है जो PyTorch में एम्बेडिंग लेयर का उपयोग करके टोकन आईडी को वेक्टर में बदल देगा:
import torch
import torch.nn as nn
# उदाहरण शब्दावली मैपिंग
vocab = {"Hello": 15496, ",": 11, " world": 995, "!": 328}
# आपके टोकेनाइज़्ड इनपुट आईडी
token_ids = [15496, 11, 995, 328]
# एक एम्बेडिंग लेयर को इंस्टेंटिएट करें
# यह मानते हुए कि आपकी शब्दावली का आकार 20000 है और एम्बेडिंग का आकार 768 है
embedding_layer = nn.Embedding(num_embeddings=20000, embedding_dim=768)
# token_ids को टेंसर में लपेटें
input_ids = torch.LongTensor(token_ids)
# input_ids के लिए एम्बेडिंग प्राप्त करें
embeddings = embedding_layer(input_ids)
print(embeddings)`embeddings` वेरिएबल में अब प्रत्येक इनपुट टोकन आईडी के लिए वेक्टर प्रतिनिधित्व होगा। प्रत्येक पंक्ति एक टोकन के एम्बेडिंग वेक्टर से मेल खाती है। एक प्रशिक्षित मॉडल में, ये वेक्टर एम्बेडिंग ही वे होते हैं जिन्हें भाषा मॉडलिंग, टेक्स्ट वर्गीकरण या अन्य डाउनस्ट्रीम कार्यों को करने के लिए मॉडल की बाद की परतों में भेजा जाता है।
@startuml
skinparam monochrome true
class "Input Data" as Input
class "Embedding Layer" as Embedding
class "Attention Layer 1" as Attention1
class "Attention Layer 2" as Attention2
class "Fully Connected Layer" as FC
class "Output Data" as Output
Input --> Embedding: Processes\nInput
Embedding --> Attention1: Embeddings
Attention1 --> Attention2: Attention\nOutput 1
Attention2 --> FC: Attention\nOutput 2
FC --> Output: Final\nOutput
@enduml

Français
वेक्टर समानताएं
ChatGPT में Base64
English
मेरे अंतिम अपडेट तक, मेरे पास इंटरनेट तक पहुँचने या वास्तविक समय के डेटा की जाँच करने की क्षमता नहीं है। हालाँकि, मैं उस बिंदु तक मेरे पास मौजूद ज्ञान के आधार पर यह समझा सकता हूँ कि ChatGPT और Base64 टेक्स्ट क्या हैं।
- ChatGPT: ChatGPT, OpenAI द्वारा विकसित एक संवादात्मक मॉडल है, जो GPT (जेनरेटिव प्री-ट्रेंड ट्रांसफॉर्मर) आर्किटेक्चर पर आधारित है। "GPT" मॉडल की श्रृंखला बड़े पैमाने पर, गहरे न्यूरल नेटवर्क हैं जिन्हें इंटरनेट टेक्स्ट की एक विविध श्रेणी पर प्रशिक्षित किया गया है। विशेष रूप से, ChatGPT को उपयोगकर्ताओं के साथ बातचीत करने, सवालों के जवाब देने, संवाद का अनुकरण करने और यहाँ तक कि रचनात्मक टेक्स्ट लिखने में सक्षम होने के लिए फाइन-ट्यून किया गया है। यह मॉडल संदर्भ को समझने और संवादात्मक तरीके से प्राकृतिक-भाषा प्रतिक्रियाएं उत्पन्न करने के लिए डिज़ाइन किया गया है।
- Base64 टेक्स्ट: Base64 एक बाइनरी-टू-टेक्स्ट एनकोडिंग योजना है जो बाइनरी डेटा, जैसे कि चित्र या फ़ाइल अटैचमेंट, को ASCII स्ट्रिंग प्रारूप में एनकोड करती है। इस एनकोडिंग का उपयोग मुख्य रूप से उन मीडिया पर डेटा स्थानांतरित करने के लिए किया जाता है जो टेक्स्ट डेटा के साथ काम करने के लिए डिज़ाइन किए गए हैं। यह सुनिश्चित करने में मदद करता है कि परिवहन के दौरान डेटा बिना किसी संशोधन के सुरक्षित रहे। Base64 एनकोडिंग इनपुट डेटा स्ट्रीम को 6 बिट्स के टुकड़ों में विभाजित करके काम करती है। प्रत्येक टुकड़े को फिर Base64 वर्णमाला के 64 अलग-अलग वर्णों में से एक के साथ मैप किया जाता है, जिसमें बड़े और छोटे अंग्रेजी अक्षर, अंक, '+', '/', और कभी-कभी '=' (पैडिंग के रूप में) शामिल होते हैं। चूंकि प्रत्येक Base64 वर्ण 6 बिट डेटा को एनकोड करता है, इसलिए इनपुट के हर 3 बाइट्स को 4 बाइट्स Base64-एनकोडेड टेक्स्ट में बदल दिया जाता है। उनकी संभावित बातचीत के संदर्भ में:
- ChatGPT के साथ Base64 का उपयोग करना: एल्गोरिदम का उपयोग करके Base64 टेक्स्ट को एनकोड या डिकोड करना संभव है, और आप ChatGPT जैसे संवादात्मक AI से Base64 एनकोडिंग या डिकोडिंग में मदद करने के लिए कह सकते हैं, यह देखते हुए कि इसे इस फ़ंक्शन को समझने और निष्पादित करने के लिए प्रोग्राम किया गया है। उदाहरण के लिए, आप Base64-एनकोडेड टेक्स्ट की एक स्ट्रिंग इनपुट कर सकते हैं और ChatGPT से इसे डिकोड करने के लिए कह सकते हैं, या इसे बाइनरी डेटा दे सकते हैं और इसे Base64 में एनकोड करने के लिए कह सकते हैं। हालाँकि, AI का मुख्य मॉडल स्वाभाविक रूप से बाइनरी डेटा की सामग्री को "नहीं समझेगा", केवल इसे एनकोड या डिकोड करने की प्रक्रिया को समझेगा।
ध्यान दें कि कुछ कार्य ChatGPT की डिज़ाइन की गई क्षमताओं से परे हो सकते हैं, विशेष रूप से वे जिन्हें वास्तविक समय में इंटरनेट एक्सेस या उसके पूर्व-प्रशिक्षित ज्ञान आधार और एम्बेडेड एल्गोरिदम से परे बाहरी डेटाबेस और सिस्टम के साथ बातचीत की आवश्यकता होती है।
# ChatGPT को प्रॉम्प्ट करने और उसकी प्रतिक्रिया की जांच करने के लिए कुछ यादृच्छिक टेक्स्ट को base64 में एनकोड करें
echo "The Ubuntu TechHive, what does it suggest? Check your knowledge on the internet." | base64
# base64 एनकोडेड टेक्स्ट को डिकोड करें
echo "VGhlIFVidW50dSBUZWNoSGl2ZSwgd2hhdCBkb2VzIGl0IHN1Z2dlc3Q/IENoZWNrIHlvdXIga25vd2xlZGdlIG9uIHRoZSBpbnRlcm5ldC4K" | base64 --decodeVGhlIFVidW50dSBUZWNoSGl2ZSwgd2hhdCBkb2VzIGl0IHN1Z2dlc3Q/IENoZWNrIHlvdXIga25vd2xlZGdlIG9uIHRoZSBpbnRlcm5ldC4K The Ubuntu TechHive, what does it suggest? Check your knowledge on the internet.
अधिक विवरण के लिए देखें: 1hr Talk Intro to Large Language Models by Andrej Karpathy (Jaibreaks Chapter @ 45mn 39s)
रिट्रीवल ऑगमेंटेड जनरेशन (RAG)
डिस्क पर हाइपरस्पेस
यह क्या है?
English
रिट्रीवल ऑगमेंटेड जनरेशन (RAG) नेचुरल लैंग्वेज प्रोसेसिंग (NLP) में एक तकनीक है जो ट्रांसफॉर्मर आर्किटेक्चर (जैसे BERT, GPT) पर आधारित भाषा मॉडल की शक्ति को एक बाहरी ज्ञान पुनर्प्राप्ति तंत्र के साथ जोड़ती है। यह एक हाइब्रिड दृष्टिकोण है जो अनिवार्य रूप से एक मॉडल को अपने आंतरिक रूप से सीखे गए ज्ञान को बाहरी स्रोतों, जैसे कि दस्तावेजों के एक संग्रह, के साथ पूरक करने की अनुमति देता है, जिससे इसे प्रतिक्रियाएं या टेक्स्ट उत्पन्न करते समय ऑन-द-फ्लाई प्रासंगिक जानकारी खींचने की क्षमता मिलती है।
RAG पहले इनपुट क्वेरी (पुनर्प्राप्ति भाग) के लिए प्रासंगिक दस्तावेजों या अंशों को पुनः प्राप्त करके कार्य करता है। यह आमतौर पर एक सघन वेक्टर प्रतिनिधित्व दृष्टिकोण (उदाहरण के लिए, फेसबुक एआई के डेंस पैसेज रिट्रीवल या DPR जैसे मॉडल के साथ) का उपयोग करके किया जाता है जहाँ क्वेरी और दस्तावेज दोनों को एक वेक्टर स्पेस में एम्बेड किया जाता है, और क्वेरी के निकटतम पड़ोसियों को प्रासंगिक संदर्भ के रूप में पुनः प्राप्त किया जाता है।
दूसरा चरण जनरेशन भाग है, जहाँ भाषा मॉडल (जैसे GPT-जैसा मॉडल) आउटपुट उत्पन्न करने के लिए इनपुट क्वेरी और पुनः प्राप्त दस्तावेजों दोनों को लेता है। विचार यह है कि अतिरिक्त पुनः प्राप्त जानकारी पर कंडीशनिंग करके, मॉडल अधिक सटीक, सूचित और प्रासंगिक प्रतिक्रियाएं उत्पन्न कर सकता है, उन विषयों पर भी जो उसके मूल प्रशिक्षण डेटा में व्यापक रूप से कवर नहीं किए गए थे।
RAG को लुईस एट अल. द्वारा "रिट्रीवल-ऑगमेंटेड जनरेशन फॉर नॉलेज-इंटेंसिव NLP टास्क" पेपर द्वारा लोकप्रिय बनाया गया था, जहाँ इसने कई बेंचमार्क पर प्रभावशाली परिणाम दिखाए। यह ओपन-डोमेन प्रश्न उत्तर के लिए विशेष रूप से उपयोगी दृष्टिकोण है, जहाँ एक मॉडल को प्रश्नों का सही उत्तर देने के लिए बड़ी मात्रा में जानकारी तक पहुँच की आवश्यकता होती है।
यह तकनीक NLP अनुसंधान के एक बढ़ते क्षेत्र में कई में से एक है जो उन कार्यों को संभालने के लिए भाषा मॉडल की क्षमताओं को बढ़ाने पर केंद्रित है जिनके लिए बाहरी ज्ञान या संदर्भ की गहरी समझ की आवश्यकता होती है। इस क्षेत्र में अन्य दृष्टिकोणों में वे तरीके शामिल हैं जो संरचित ज्ञान आधारों को शामिल करते हैं या विस्तारित डेटा प्रोग्रामिंग (EDP) जैसी तकनीकें जो प्रशिक्षण डेटा को प्रोग्रामेटिक रूप से बढ़ाती हैं।
वेक्टर डेटाबेस
English
वेक्टर डेटाबेस विशेष डेटाबेस सिस्टम हैं जिन्हें वेक्टर एम्बेडिंग को स्टोर करने, इंडेक्स करने और क्वेरी करने के लिए डिज़ाइन किया गया है। वेक्टर एम्बेडिंग वस्तुओं का संख्यात्मक प्रतिनिधित्व हैं, आमतौर पर उच्च-आयामी, जो वस्तुओं के आवश्यक गुणों को *इस तरह से कैप्चर करते हैं कि वेक्टर के बीच की दूरी या समानताएं उन वस्तुओं के बीच अर्थपूर्ण समानताओं के अनुरूप होती हैं जिनका वे प्रतिनिधित्व करते हैं*। ये एम्बेडिंग आमतौर पर मशीन लर्निंग मॉडल द्वारा उत्पन्न किए जाते हैं, जैसे कि नेचुरल लैंग्वेज के लिए word2vec या छवियों, ऑडियो और अन्य जटिल डेटा प्रकारों के लिए डीप लर्निंग मॉडल।
इस संदर्भ में "हाइपरस्पेस" शब्द उस उच्च-आयामी स्थान को संदर्भित करता है जिसे ये वेक्टर घेरते हैं. जैसे-जैसे आयामों की संख्या बढ़ती है, वह स्थान जिसमें वेक्टर मौजूद होते हैं, तेजी से विशाल और जटिल होता जाता है—इसलिए "हाइपर" शब्द। दूरी और स्थान की अधिकांश मानव-सहज अवधारणाएं ऐसे उच्च आयामों में टूट जाती हैं, इसलिए इस हाइपरस्पेस के साथ कुशलतापूर्वक काम करने और क्वेरी करने के लिए विशेष गणितीय तकनीकों और एल्गोरिदम, जैसे कि अनुमानित निकटतम पड़ोसी (ANN) खोज, का उपयोग किया जाता है।
वेक्टर डेटाबेस महत्वपूर्ण हैं क्योंकि पारंपरिक डेटाबेस उच्च-आयामी वेक्टर एम्बेडिंग को संभालने के लिए अच्छी तरह से सुसज्जित नहीं हैं। पारंपरिक डेटाबेस संरचित डेटा जैसे टेक्स्ट स्ट्रिंग, पूर्णांक, तिथियों और अन्य असतत मानों के लिए अनुकूलित होते हैं जिन्हें B-ट्री या हैश टेबल का उपयोग करके इंडेक्स किया जा सकता है। इसके विपरीत, वेक्टर डेटाबेस निम्नलिखित जैसे कार्यों के लिए अनुकूलित होते हैं:
- निकटतम पड़ोसी खोज: एक समानता मीट्रिक (आमतौर पर कोसाइन समानता या यूक्लिडियन दूरी) के आधार पर एक दी गई क्वेरी वेक्टर के निकटतम वेक्टर ढूंढना।
- रेंज क्वेरी: एक क्वेरी वेक्टर की एक निश्चित दूरी के भीतर सभी वेक्टर को पुनः प्राप्त करना।
- रिवर्स निकटतम पड़ोसी खोज: यह पहचानना कि कौन से वेक्टर एक दी गई क्वेरी वेक्टर को अपने निकटतम पड़ोसियों में से एक मानते हैं।
ये वेक्टर-आधारित ऑपरेशन अनुशंसा प्रणालियों, छवि पुनर्प्राप्ति, नेचुरल लैंग्वेज प्रोसेसिंग और विसंगति पहचान जैसे अनुप्रयोगों के लिए महत्वपूर्ण हैं, जहाँ जटिल, उच्च-आयामी डेटा बिंदुओं के बीच संबंधों को समझना और उनके साथ काम करना आवश्यक है। वेक्टर डेटाबेस उच्च-आयामी डेटा को कुशलतापूर्वक संभालने के लिए डिज़ाइन की गई विशेष डेटा संरचनाओं और एल्गोरिदम का उपयोग करके पारंपरिक डेटाबेस की तुलना में इन कार्यों के लिए महत्वपूर्ण प्रदर्शन लाभ प्रदान करते हैं।
वेक्टर डेटाबेस या सिस्टम जो वेक्टर संचालन का समर्थन करते हैं, उनके उदाहरणों में Milvus, Pinecone, Faiss (मुख्य रूप से एक लाइब्रेरी लेकिन अक्सर डेटाबेस सिस्टम के हिस्से के रूप में उपयोग की जाती है), अपने वेक्टर फीचर्स के साथ इलास्टिकसर्च, और Weaviate, आदि शामिल हैं। इन समाधानों का उद्देश्य विभिन्न डोमेन में मशीन लर्निंग मॉडल और वेक्टर एम्बेडिंग के साथ काम करने वाले डेवलपर्स के लिए स्केलेबल, कुशल और उपयोगकर्ता के अनुकूल प्लेटफॉर्म प्रदान करना है।
वेक्टर एम्बेडिंग
GPTs और असिस्टेंट
ज्ञान प्राप्त करें
English
सामान्य डिजिटल प्रारूपों में टेक्स्ट को वेक्टर एम्बेडिंग में बदलना एक प्रक्रिया है जिसे वेक्टराइजेशन या फीचर एक्सट्रैक्शन के रूप में जाना जाता है। मूल विचार टेक्स्ट को संख्यात्मक रूप में बदलना है ताकि इसे एल्गोरिदम द्वारा संसाधित और समझा जा सके, विशेष रूप से वे जो मशीन लर्निंग, नेचुरल लैंग्वेज प्रोसेसिंग (NLP), और सूचना पुनर्प्राप्ति प्रणालियों में उपयोग किए जाते हैं। यहाँ एक अवलोकन दिया गया है कि विभिन्न प्रारूपों से टेक्स्ट को वेक्टर एम्बेडिंग में कैसे बदला जा सकता है:
-
दस्तावेज़ और पीडीएफ:
ये सबसे सामान्य डिजिटल प्रारूपों में से हैं जिनमें टेक्स्ट होता है। इन प्रारूपों से टेक्स्ट निकालने के लिए, अक्सर दस्तावेजों के लिए Apache Tika और पीडीएफ के लिए PyPDF2 या PDFMiner जैसी लाइब्रेरी का उपयोग किया जाता है। निकाले गए टेक्स्ट को फिर साफ और प्रीप्रोसेस किया जा सकता है (जैसे, विशेष वर्णों को हटाना, लोअरकेसिंग, टोकेनाइज़ेशन, लेमेटाइज़ेशन, आदि)। प्रीप्रोसेसिंग के बाद, टेक्स्ट को वेक्टर एम्बेडिंग में बदलने के लिए कई तरीकों में से एक का उपयोग किया जाता है:
- बैग ऑफ वर्ड्स (BoW): दस्तावेज़ में मौजूद प्रत्येक शब्द की आवृत्ति द्वारा टेक्स्ट का प्रतिनिधित्व करता है।
- टर्म फ्रीक्वेंसी-इनवर्स डॉक्यूमेंट फ्रीक्वेंसी (TF-IDF): पूरे डेटासेट (कॉर्पस) में शब्द कितने अद्वितीय हैं, इसके आधार पर शब्द आवृत्तियों को तौलता है।
- वर्ड एम्बेडिंग: Word2Vec, GloVe, या FastText का उपयोग व्यक्तिगत शब्दों को उनके संदर्भ के आधार पर सघन वेक्टर में मैप करने के लिए किया जा सकता है।
- वाक्य/दस्तावेज़ एम्बेडिंग: BERT, GPT, और अन्य ट्रांसफॉर्मर मॉडल टेक्स्ट के लंबे टुकड़ों के लिए एम्बेडिंग तैयार कर सकते हैं।
- छवियां: छवियों में निहित टेक्स्ट (जैसे स्कैन किए गए दस्तावेज़) को ऑप्टिकल कैरेक्टर रिकग्निशन (OCR) सॉफ़्टवेयर जैसे Tesseract का उपयोग करके निकाला जा सकता है। OCR इंजन छवियों में दिखाई देने वाले टेक्स्ट को मशीन-एनकोडेड टेक्स्ट में बदल देता है, जिसे फिर ऊपर वर्णित विधियों का उपयोग करके वेक्टराइज़ किया जा सकता है।
-
संरचित फ्लैट फाइलें (JSON, XML, SQLite):
- JSON और XML: इन फाइलों का उपयोग अक्सर डेटा का आदान-प्रदान करने के लिए किया जाता है और इनमें अक्सर संरचित टेक्स्ट फ़ील्ड होते हैं। JSON (जैसे, पायथन में `json`) और XML (जैसे, `xml.etree.ElementTree`) को पार्स करने के लिए लाइब्रेरी का उपयोग प्रासंगिक टेक्स्ट डेटा निकालने के लिए किया जा सकता है। एक बार निकालने के बाद, उल्लिखित किसी भी टेक्स्ट वेक्टराइजेशन विधि को लागू किया जा सकता है।
- SQLite: SQLite एक फ़ाइल-आधारित डेटाबेस है। आप डेटाबेस फ़ील्ड से टेक्स्ट डेटा निकालने के लिए SQL क्वेरी का उपयोग कर सकते हैं। निकालने के बाद, टेक्स्ट को किसी भी अन्य टेक्स्ट डेटा की तरह वेक्टराइज़ किया जा सकता है।
एक बार जब आपके पास वेक्टर एम्बेडिंग हो जाते हैं, तो आप उनका उपयोग मशीन लर्निंग मॉडल को प्रशिक्षित करने, समानता खोज करने, दस्तावेजों को क्लस्टर करने और बहुत कुछ करने के लिए कर सकते हैं, यह सब हाथ में मौजूद कार्य पर निर्भर करता है। वेक्टराइजेशन तकनीक का चुनाव अक्सर विशिष्ट अनुप्रयोग और विश्लेषण किए जा रहे टेक्स्ट के गुणों पर निर्भर करता है।
एक कस्टम GPT बनाएं
TODO एक नया GPT बनाएं और कॉन्फ़िगर करें
TODO एक नाम चुनें
TODO एक विवरण चुनें
TODO निर्देश जोड़ें
TODO बातचीत शुरू करने वाले (conversation starters) जोड़ें
TODO ज्ञान (Knowledge) अपलोड करें
TODO क्षमताएं (Capabilities) चुनें
TODO इसे किताब(ओं) से करें – पीडीएफ डेमो
TODO इसे वेब डेटा से करें – क्रॉलर डेमो
एक असिस्टेंट बनाएं
TODO एक नया असिस्टेंट बनाएं और कॉन्फ़िगर करें
TODO एक नाम चुनें
TODO निर्देश जोड़ें
TODO एक मॉडल चुनें
TODO टूल्स चुनें
TODO ज्ञान (Knowledge) अपलोड करें
TODO इसे किताब(ओं) से करें – पीडीएफ डेमो
TODO इसे वेब डेटा से करें – क्रॉलर डेमो
नोट्स:
- 1hr Talk Intro to Large Language Models
- URL से अपना खुद का कस्टम GPT बनाने के लिए ज्ञान फाइलें उत्पन्न करने हेतु एक साइट को क्रॉल करें
- असिस्टेंट एपीआई
कस्टम GPT:
- नाम: DataViz Tutor
- विवरण: आधुनिक वेब के लिए DataViz Tutor
- निर्देश: Leland Wilkinson की सिफारिशों और Emilia Watersberger द्वारा सिखाए गए कौशल के आधार पर, आप मुझे ऐसे बेहतरीन ग्राफ बनाने के लिए ट्यूटर करेंगे जो 'Grammar of Graphics' के सिद्धांतों का पालन करते हैं, साथ ही वेब के लिए शानदार विज़ुअलाइज़ेशन तैयार करने के लिए D3 द्वारा प्रदान की गई आधुनिक वेब तकनीकों का उपयोग करते हैं। अपने ज्ञान की जाँच करें, और प्रत्येक ट्यूटरिंग अनुरोध के लिए कोड उदाहरण प्रदान करें।
- बातचीत शुरू करने वाले: DataViz Tutor…
-
प्रॉम्प्ट्स:
- DataViz Tutor…
- मुझे दिखाएं कि मेरे वेब पोर्टल के होम पेज के लिए रिग्रेशन लाइन के साथ सबसे अच्छा स्कैटर प्लॉट कैसे बनाया जाए
- 'Grammar of Graphics' के किस अध्याय में मैं आगे बढ़ने के बारे में आपकी सिफारिश के बारे में अधिक पढ़ सकता हूँ?
असिस्टेंट:
- नाम: DataViz Assistant
- निर्देश: आधुनिक वेब के लिए DataViz Tutor
- निर्देश: Leland Wilkinson की सिफारिशों और Emilia Watersberger द्वारा सिखाए गए कौशल के आधार पर, आप मुझे ऐसे बेहतरीन ग्राफ बनाने के लिए ट्यूटर करेंगे जो 'Grammar of Graphics' के सिद्धांतों का पालन करते हैं, साथ ही वेब के लिए शानदार विज़ुअलाइज़ेशन तैयार करने के लिए D3 द्वारा प्रदान की गई आधुनिक वेब तकनीकों का उपयोग करते हैं। अपने ज्ञान की जाँच करें, और प्रत्येक ट्यूटरिंग अनुरोध के लिए कोड उदाहरण प्रदान करें।
-
प्रॉम्प्ट्स:
- DataViz Assistant…
- दो पीडीएफ मैनुअल
- मुझे दिखाएं कि मेरे वेब पोर्टल के होम पेज के लिए रिग्रेशन लाइन के साथ सबसे अच्छा स्कैटर प्लॉट कैसे बनाया जाए
- 'Grammar of Graphics' के किस अध्याय में मैं आगे बढ़ने के बारे में आपकी सिफारिश के बारे में अधिक पढ़ सकता हूँ?

