एआई प्रदर्शन कसरी मापन गर्ने?

यदि तपाईंले कहिल्यै नोटबुकमा चम्किलो देखिने तर उत्पादनमा ठेस लाग्ने मोडेल पठाउनुभएको छ भने, तपाईंलाई पहिले नै रहस्य थाहा छ: एआई प्रदर्शन कसरी मापन गर्ने भन्ने कुरा कुनै जादुई मेट्रिक होइन। यो वास्तविक-विश्व लक्ष्यहरूसँग जोडिएको जाँचहरूको प्रणाली हो। शुद्धता प्यारो छ। विश्वसनीयता, सुरक्षा, र व्यापार प्रभाव राम्रो छ।

यसपछि पढ्न मन लाग्ने लेखहरू:

🔗 एआईसँग कसरी कुरा गर्ने
निरन्तर राम्रो नतिजाको लागि एआईसँग प्रभावकारी रूपमा सञ्चार गर्ने गाइड।

🔗 एआईले के प्रम्प्ट गरिरहेको छ?
प्रम्प्टहरूले एआई प्रतिक्रियाहरू र आउटपुट गुणस्तरलाई कसरी आकार दिन्छन् भनेर व्याख्या गर्दछ।

🔗 एआई डाटा लेबलिंग भनेको के हो?
तालिम मोडेलहरूको लागि डेटामा सही लेबलहरू तोक्ने सिंहावलोकन।

🔗 एआई नैतिकता भनेको के हो?
जिम्मेवार एआई विकास र तैनाथीलाई निर्देशित गर्ने नैतिक सिद्धान्तहरूको परिचय।

राम्रो एआई प्रदर्शन के ले बनाउँछ? ✅

छोटो संस्करण: राम्रो एआई प्रदर्शनको अर्थ तपाईंको प्रणाली उपयोगी, विश्वसनीय, र अव्यवस्थित, परिवर्तनशील परिस्थितिहरूमा दोहोर्याउन मिल्ने छ। ठोस रूपमा:

कार्य गुणस्तर - यसले सही कारणहरूका लागि सही उत्तरहरू पाउँछ।
क्यालिब्रेसन - आत्मविश्वासको स्कोर वास्तविकतासँग मिल्छ, त्यसैले तपाईं स्मार्ट कदम चाल्न सक्नुहुन्छ।
बलियोपन - यो बहाव, किनारा केसहरू, र प्रतिद्वन्द्वी फज अन्तर्गत टिक्छ।
सुरक्षा र निष्पक्षता - यसले हानिकारक, पक्षपाती, वा गैर-अनुपालन व्यवहारलाई बेवास्ता गर्छ।
दक्षता - यो पर्याप्त छिटो, पर्याप्त सस्तो, र स्तरमा चलाउन पर्याप्त स्थिर छ।
व्यावसायिक प्रभाव - यसले वास्तवमा तपाईंले ख्याल राख्नुहुने KPI लाई सार्छ।

यदि तपाईं मेट्रिक्स र जोखिमहरू पङ्क्तिबद्ध गर्न औपचारिक सन्दर्भ बिन्दु चाहनुहुन्छ भने, NIST AI जोखिम व्यवस्थापन फ्रेमवर्क विश्वसनीय प्रणाली मूल्याङ्कनको लागि एक ठोस उत्तर तारा हो। [1]

एआई प्रदर्शन मापन गर्ने उच्च-स्तरीय विधि 🍳

तीन तहमा सोच्नुहोस् :

कार्य मेट्रिक्स - कार्य प्रकारको लागि शुद्धता: वर्गीकरण, प्रतिगमन, श्रेणीकरण, उत्पादन, नियन्त्रण, आदि।
प्रणाली मेट्रिक्स - विलम्बता, थ्रुपुट, प्रति कल लागत, विफलता दर, बहाव अलार्म, अपटाइम SLA।
परिणाम मेट्रिक्स - तपाईंले वास्तवमा चाहनुभएको व्यवसाय र प्रयोगकर्ता परिणामहरू: रूपान्तरण, अवधारण, सुरक्षा घटनाहरू, म्यानुअल-समीक्षा लोड, टिकट भोल्युम।

एउटा राम्रो मापन योजनाले जानाजानी तीनवटैलाई मिसाउँछ। अन्यथा तपाईंले एउटा रकेट पाउनुहुनेछ जुन कहिल्यै लन्चप्याडबाट बाहिर निस्कँदैन।

समस्या प्रकार अनुसार मुख्य मेट्रिक्स - र कुन कहिले प्रयोग गर्ने 🎯

१) वर्गीकरण

प्रेसिजन, रिकल, F1 - पहिलो दिनको त्रिकोण। F1 भनेको प्रेसिजन र रिकलको हार्मोनिक माध्य हो; कक्षाहरू असंतुलित हुँदा वा लागतहरू असममित हुँदा उपयोगी हुन्छ। [2]
ROC-AUC - वर्गीकरणकर्ताहरूको थ्रेसहोल्ड-अज्ञेयवादी श्रेणीकरण; जब सकारात्मकहरू दुर्लभ हुन्छन्, PR-AUC। [2]
सन्तुलित शुद्धता - कक्षाहरूमा सम्झनाको औसत; स्क्युड लेबलहरूको लागि उपयोगी। [2]

पिटफल वाच: शुद्धता मात्र असन्तुलनका साथ अत्यधिक भ्रामक हुन सक्छ। यदि ९९% प्रयोगकर्ताहरू वैध छन् भने, एउटा मूर्ख सधैं वैध मोडेलले ९९% स्कोर गर्छ र लन्च अघि तपाईंको ठगी टोलीलाई असफल बनाउँछ।

२) प्रतिगमन

मानव-पढ्न सकिने त्रुटिको लागि MAE ; ठूला त्रुटिहरूलाई सजाय दिन चाहँदा RMSE ; भिन्नताको लागि R² व्याख्या गरिएको छ। त्यसपछि सेनिटी-चेक वितरण र अवशिष्ट प्लटहरू। [2] (डोमेन-मैत्री एकाइहरू प्रयोग गर्नुहोस् ताकि सरोकारवालाहरूले वास्तवमा त्रुटि महसुस गर्न सकून्।)

३) श्रेणीकरण, पुन: प्राप्ति, सिफारिसहरू

nDCG - स्थिति र श्रेणीबद्ध सान्दर्भिकताको ख्याल राख्छ; खोज गुणस्तरको लागि मानक।
MRR - पहिलो सान्दर्भिक वस्तु कति चाँडो देखा पर्दछ भन्ने कुरामा केन्द्रित हुन्छ ("एउटा राम्रो उत्तर खोज्नुहोस्" कार्यहरूको लागि उत्कृष्ट)।
(कार्यान्वयन सन्दर्भहरू र काम गरिएका उदाहरणहरू मुख्यधारा मेट्रिक पुस्तकालयहरूमा छन्।) [2]

४) पाठ उत्पादन र सारांश

BLEU र ROUGE - क्लासिक ओभरल्याप मेट्रिक्स; आधारभूत रेखाको रूपमा उपयोगी।
इम्बेडिङ-आधारित मेट्रिक्स (जस्तै, BERTScore) प्रायः मानव निर्णयसँग राम्रोसँग सम्बन्धित हुन्छ; शैली, विश्वासयोग्यता र सुरक्षाको लागि सधैं मानव मूल्याङ्कनहरूसँग जोड्नुहोस्। [4]

५) प्रश्न उत्तर

सटीक मिलान र टोकन-स्तर F1 सामान्य छन्; यदि उत्तरहरूले स्रोतहरू उद्धृत गर्नुपर्छ भने, ग्राउन्डिङ (उत्तर-समर्थन जाँचहरू)।

क्यालिब्रेसन, आत्मविश्वास, र ब्रियर लेन्स 🎚️

आत्मविश्वास स्कोरहरू त्यस्तो ठाउँ हो जहाँ धेरै प्रणालीहरू चुपचाप बस्छन्। तपाईं वास्तविकता प्रतिबिम्बित गर्ने सम्भाव्यताहरू चाहनुहुन्छ ताकि अप्सले थ्रेसहोल्ड, मानिसहरूमा मार्ग, वा मूल्य जोखिम सेट गर्न सकोस्।

क्यालिब्रेसन वक्रहरू - अनुभवजन्य आवृत्ति बनाम अनुमानित सम्भाव्यता कल्पना गर्नुहोस्।
ब्रियर स्कोर - सम्भाव्यताको शुद्धताको लागि उचित स्कोरिङ नियम; कम राम्रो छ। यो विशेष गरी उपयोगी हुन्छ जब तपाईं सम्भाव्यताको गुणस्तरको बारेमा ख्याल राख्नुहुन्छ, केवल श्रेणीकरणको बारेमा होइन। [3]

फिल्ड नोट: थोरै "खराब" F1 तर धेरै राम्रो क्यालिब्रेसनले व्यापक रूपमा सुधार गर्न सक्छ - किनभने मानिसहरूले अन्ततः स्कोरहरूमा विश्वास गर्न सक्छन्।

सुरक्षा, पक्षपात र निष्पक्षता - के महत्त्वपूर्ण छ भनेर मापन गर्नुहोस् 🛡️⚖️

एउटा प्रणाली समग्रमा सही हुन सक्छ र अझै पनि विशिष्ट समूहहरूलाई हानि पुर्‍याउन सक्छ। समूहबद्ध मेट्रिक्स र निष्पक्षता मापदण्डहरू ट्र्याक गर्नुहोस्:

जनसांख्यिकीय समानता - समूहहरूमा समान सकारात्मक दरहरू।
समान सम्भावना / समान अवसर - समूहहरूमा समान त्रुटि दरहरू वा सत्य-सकारात्मक दरहरू; यी प्रयोग गर्नुहोस् ट्रेड-अफहरू पत्ता लगाउन र व्यवस्थापन गर्न, एक-शट पास-असफल स्ट्याम्पको रूपमा होइन। [5]

व्यावहारिक सुझाव: मुख्य विशेषताहरूद्वारा कोर मेट्रिक्सलाई काट्ने ड्यासबोर्डहरूबाट सुरु गर्नुहोस्, त्यसपछि तपाईंको नीतिहरूले आवश्यक पर्ने विशिष्ट निष्पक्षता मेट्रिक्स थप्नुहोस्। यो झन्झटिलो सुनिन्छ, तर यो घटना भन्दा सस्तो छ।

LLM र RAG - एक मापन प्लेबुक जुन वास्तवमा काम गर्छ 📚🔍

उत्पादक प्रणालीहरू मापन गर्नु... झन्झटिलो छ। यो गर्नुहोस्:

परिणामहरू परिभाषित गर्नुहोस् : शुद्धता, उपयोगीता, हानिरहितता, शैली पालना, ब्रान्डमा टोन, उद्धरण ग्राउन्डिङ, अस्वीकार गुणस्तर।
बलियो फ्रेमवर्कहरू (जस्तै, तपाईंको स्ट्याकमा मूल्याङ्कन उपकरण) मार्फत आधारभूत मूल्याङ्कनहरू स्वचालित गर्नुहोस् र तिनीहरूलाई तपाईंको डेटासेटहरूसँग संस्करणमा राख्नुहोस्।
विवेकको लागि अर्थपूर्ण मेट्रिक्स (इम्बेडिङ-आधारित) र ओभरल्याप मेट्रिक्स (BLEU/ROUGE) थप्नुहोस् । [4]
उपकरण ग्राउन्डिङ : पुन: प्राप्ति हिट दर, सन्दर्भ परिशुद्धता/रिकल, उत्तर-समर्थन ओभरल्याप।
सहमतिसहितको मानवीय समीक्षा - रेटर स्थिरता मापन गर्नुहोस् (जस्तै, कोहेनको κ वा फ्लीसको κ) ताकि तपाईंका लेबलहरू भाइब्स नहोस्।

बोनस: प्रति कार्य विलम्बता प्रतिशत र टोकन वा गणना लागत लग गर्नुहोस्। अर्को मंगलबार आउने काव्यात्मक उत्तर कसैलाई मन पर्दैन।

तुलना तालिका - एआई प्रदर्शन मापन गर्न मद्दत गर्ने उपकरणहरू 🛠️📊

(हो, यो जानाजानी अलि गडबड भएको छ - वास्तविक नोटहरू गडबड छन्।)

उपकरण	उत्कृष्ट दर्शकहरू	मूल्य	यो किन काम गर्छ - छिटो लिनुहोस्
साइनकिट-लर्न मेट्रिक्स	एमएल अभ्यासकर्ताहरू	नि:शुल्क	वर्गीकरण, प्रतिगमन, श्रेणीकरणको लागि क्यानोनिकल कार्यान्वयनहरू; परीक्षणहरूमा बेक गर्न सजिलो। [2]
MLflow मूल्याङ्कन / GenAI	डेटा वैज्ञानिकहरू, MLOps	नि:शुल्क + सशुल्क	केन्द्रीकृत रनहरू, स्वचालित मेट्रिक्स, LLM न्यायाधीशहरू, अनुकूलन स्कोररहरू; कलाकृतिहरू सफासँग लग गर्नुहोस्।
स्पष्ट रूपमा	ड्यासबोर्डहरू छिटो चाहने टोलीहरू	OSS + क्लाउड	१००+ मेट्रिक्स, ड्रिफ्ट र गुणस्तर रिपोर्टहरू, अनुगमन हुकहरू - एक चुटकीमा राम्रा दृश्यहरू।
तौल र पूर्वाग्रहहरू	प्रयोगात्मक काममा बढी व्यस्त रहेका संस्थाहरू	नि:शुल्क तह	सँगसँगै तुलना, मूल्याङ्कन डेटासेट, न्यायाधीशहरू; तालिकाहरू र ट्रेसहरू व्यवस्थित छन्।
ल्याङस्मिथ	LLM एप निर्माणकर्ताहरू	भुक्तानी गरिएको	प्रत्येक चरण ट्र्याक गर्नुहोस्, नियम वा LLM मूल्याङ्कनकर्ताहरूसँग मानव समीक्षा मिलाउनुहोस्; RAG को लागि उत्कृष्ट।
ट्रुलेन्स	खुला स्रोत LLM eval प्रेमीहरू	ओएसएस	प्रतिक्रिया कार्यहरूले विषाक्तता, आधारभूतता, प्रासंगिकता स्कोर गर्दछ; जहाँसुकै एकीकृत गर्दछ।
ठूला अपेक्षाहरू	डेटा गुणस्तर-प्रथम संस्थाहरू	ओएसएस	डेटामा अपेक्षाहरूलाई औपचारिक बनाउनुहोस् - किनकि खराब डेटाले जे भए पनि हरेक मेट्रिकलाई बर्बाद गर्छ।
डीपचेकहरू	ML को लागि परीक्षण र CI/CD	OSS + क्लाउड	डेटा बहाव, मोडेल समस्याहरू, र अनुगमनको लागि ब्याट्रीहरू समावेश परीक्षण; राम्रो रेलिङहरू।

मूल्यहरू परिवर्तन हुन्छन् - कागजातहरू जाँच गर्नुहोस्। र हो, तपाईं उपकरण प्रहरी नआउँदै पनि यी मिश्रण गर्न सक्नुहुन्छ।

थ्रेसहोल्ड, लागत, र निर्णय वक्र - गोप्य सस 🧪

एउटा अनौठो तर सत्य कुरा: एउटै ROC-AUC भएका दुई मोडेलहरूको व्यापारिक मूल्य तपाईंको सीमा र लागत अनुपातमा।

निर्माण गर्न द्रुत पाना:

गलत सकारात्मक बनाम गलत नकारात्मकको लागत पैसा वा समयमा सेट गर्नुहोस्।
प्रति १ हजार निर्णयको लागि थ्रेसहोल्ड स्वीप गर्नुहोस् र अपेक्षित लागत गणना गर्नुहोस्।
न्यूनतम अपेक्षित लागत सीमा छान्नुहोस् , त्यसपछि यसलाई अनुगमनसँग लक गर्नुहोस्।

सकारात्मकता दुर्लभ हुँदा PR वक्रहरू प्रयोग गर्नुहोस्, सामान्य आकारको लागि ROC वक्रहरू प्रयोग गर्नुहोस्, र निर्णयहरू सम्भाव्यताहरूमा निर्भर हुँदा क्यालिब्रेसन वक्रहरू प्रयोग गर्नुहोस्। [2][3]

मिनी-केस: सामान्य F1 तर उत्कृष्ट क्यालिब्रेसन भएको सपोर्ट-टिकट ट्राइज मोडेलले अप्सलाई हार्ड थ्रेसहोल्डबाट टायर्ड राउटिङ (जस्तै, "स्वत: समाधान," "मानव-समीक्षा," "एस्केलेट") मा स्विच गरेपछि क्यालिब्रेटेड स्कोर ब्यान्डहरूसँग बाँधिएपछि म्यानुअल पुन: मार्गहरू कट गर्दछ।

अनलाइन अनुगमन, बहाव, र सतर्कता 🚨

अफलाइन मूल्याङ्कनहरू सुरुवात हुन्, अन्त्य होइन। उत्पादनमा:

खण्ड अनुसार इनपुट ड्रिफ्ट , आउटपुट ड्रिफ्ट , र प्रदर्शन क्षय ट्र्याक गर्नुहोस् ।
रेलिङ जाँचहरू सेट गर्नुहोस् - अधिकतम भ्रम दर, विषाक्तता थ्रेसहोल्ड, निष्पक्षता डेल्टा।
p95 विलम्बता, टाइमआउट, र प्रति अनुरोध लागतको लागि क्यानरी ड्यासबोर्डहरू थप्नुहोस् ।
यसलाई गति दिन उद्देश्य-निर्मित पुस्तकालयहरू प्रयोग गर्नुहोस्; तिनीहरूले बक्सबाट बाहिर बहाव, गुणस्तर, र अनुगमन प्राइमिटिभहरू प्रदान गर्छन्।

सानो त्रुटिपूर्ण रूपक: आफ्नो मोडेललाई अमिलो स्टार्टर जस्तै सोच्नुहोस् - तपाईं एक पटक बेक गरेर मात्र जानुहुन्न; तपाईं खुवाउनुहुन्छ, हेर्नुहुन्छ, सुँघ्नुहुन्छ, र कहिलेकाहीं पुन: सुरु गर्नुहुन्छ।

मानव मूल्याङ्कन जुन टुक्रिँदैन 🍪

जब मानिसहरूले आउटपुटलाई ग्रेड गर्छन्, प्रक्रिया तपाईंले सोचेभन्दा बढी महत्त्वपूर्ण हुन्छ।

पास बनाम सीमा रेखा बनाम फेलको उदाहरणहरू सहित कडा रूब्रिकहरू लेख्नुहोस् ।
सकेसम्म नमूनाहरूलाई अनियमित र ब्लाइन्ड गर्नुहोस्।
अन्तर-रेटर सम्झौता मापन गर्नुहोस् (जस्तै, दुई रेटरहरूको लागि कोहेनको κ, धेरैको लागि फ्लेसको κ) र सम्झौता चिप्लिएमा रुब्रिकहरू ताजा गर्नुहोस्।

यसले तपाईंको मानव लेबलहरूलाई मुड वा कफी आपूर्तिको साथ बहनबाट बचाउँछ।

गहिरो अध्ययन: RAG मा LLM हरूको लागि AI प्रदर्शन कसरी मापन गर्ने 🧩

पुन:प्राप्ति गुणस्तर - recall@k, precision@k, nDCG; सुन तथ्यहरूको कभरेज। [2]
उत्तरको वफादारी - उद्धृत र प्रमाणित जाँचहरू, ग्राउन्डनेस स्कोरहरू, विरोधी प्रोबहरू।
प्रयोगकर्ता सन्तुष्टि - औंला, कार्य पूरा, सुझाव गरिएका मस्यौदाहरूबाट सम्पादन दूरी।
सुरक्षा - विषाक्तता, PII चुहावट, नीति अनुपालन।
लागत र विलम्बता - टोकनहरू, क्यास हिटहरू, p95 र p99 विलम्बताहरू।

यी कुराहरूलाई व्यावसायिक कार्यहरूसँग जोड्नुहोस्: यदि ग्राउन्डनेस रेखाभन्दा तल झर्छ भने, स्ट्रिक्ट मोड वा मानव समीक्षामा स्वतः मार्ग बनाउनुहोस्।

आज सुरु गर्नको लागि एउटा साधारण प्लेबुक 🪄

कामलाई परिभाषित गर्नुहोस् - एउटा वाक्य लेख्नुहोस्: एआईले के गर्नुपर्छ र कसको लागि?
२-३ कार्य मेट्रिक्स छान्नुहोस् - साथै क्यालिब्रेसन र कम्तिमा एउटा निष्पक्षता स्लाइस। [2][3][5]
लागत प्रयोग गरेर सीमा निर्धारण गर्नुहोस् - अनुमान नगर्नुहोस्।
उत्पादन मिश्रणलाई प्रतिबिम्बित गर्ने १००-५०० लेबल गरिएका उदाहरणहरू सहितको सानो मूल्याङ्कन सेट सिर्जना गर्नुहोस् ।
आफ्नो मूल्याङ्कन स्वचालित गर्नुहोस् - तार मूल्याङ्कन/निगरानी CI मा गर्नुहोस् ताकि प्रत्येक परिवर्तनले समान जाँचहरू चलाउँछ।
उत्पादनमा निगरानी गर्नुहोस् - बहाव, विलम्बता, लागत, घटना झण्डा।
कसैले प्रयोग नगर्ने मासिक-इश - प्रुन मेट्रिक्सको समीक्षा गर्नुहोस् ; वास्तविक प्रश्नहरूको उत्तर दिने मेट्रिक्स थप्नुहोस्।
कागजात निर्णयहरू - तपाईंको टोलीले वास्तवमा पढ्ने जीवन्त स्कोरकार्ड।

हो, साँच्चै त्यही हो। अनि यो काम गर्छ।

सामान्य गल्तीहरू र त्यसबाट कसरी बच्ने 🕳️🐇

एकल मेट्रिकमा ओभरफिटिंग - निर्णय सन्दर्भसँग मेल खाने मेट्रिक बास्केट प्रयोग गर्नुहोस्। [1][2]
क्यालिब्रेसनलाई बेवास्ता गर्नु - क्यालिब्रेसन बिनाको आत्मविश्वास केवल घमण्ड मात्र हो। [3]
कुनै विभाजन छैन - सधैं प्रयोगकर्ता समूह, भूगोल, उपकरण, भाषा अनुसार टुक्रा पार्नुहोस्। [5]
अपरिभाषित लागत - यदि तपाईंले त्रुटिहरूको मूल्य निर्धारण गर्नुभएन भने, तपाईंले गलत थ्रेसहोल्ड छनौट गर्नुहुनेछ।
मानव मूल्याङ्कन बहाव - सम्झौता मापन गर्नुहोस्, रुब्रिक्स ताजा गर्नुहोस्, समीक्षकहरूलाई पुन: तालिम दिनुहोस्।
कुनै सुरक्षा उपकरण छैन - निष्पक्षता, विषाक्तता, र नीति जाँचहरू अहिले थप्नुहोस्, पछि होइन। [1][5]

तपाईंले भन्न खोजेको वाक्यांश: एआई प्रदर्शन कसरी मापन गर्ने - धेरै लामो, मैले यो पढेको छैन 🧾

स्पष्ट परिणामहरूबाट सुरु गर्नुहोस् , त्यसपछि कार्य , प्रणाली , र व्यापार मेट्रिक्स स्ट्याक गर्नुहोस्। [1]
कामको लागि सही मेट्रिक्स प्रयोग गर्नुहोस् - वर्गीकरणको लागि F1 र ROC-AUC; श्रेणीकरणको लागि nDCG/MRR; पुस्ताको लागि ओभरल्याप + अर्थपूर्ण मेट्रिक्स (मानिसहरूसँग जोडिएको)। [2][4]
आफ्नो सम्भावनाहरू क्यालिब्रेट गर्नुहोस् र थ्रेसहोल्ड छनौट गर्न आफ्नो त्रुटिहरूको मूल्य निर्धारण गर्नुहोस् । [2][3]
समूह स्लाइसहरूसँग निष्पक्षता जाँचहरू थप्नुहोस् र स्पष्ट रूपमा ट्रेड-अफहरू व्यवस्थापन गर्नुहोस्। [5]
स्वचालित मूल्याङ्कन र अनुगमन गर्नुहोस् ताकि तपाईं डर बिना दोहोर्याउन सक्नुहुन्छ।

तपाईंलाई थाहा छ यो कस्तो छ - के महत्त्वपूर्ण छ भनेर मापन गर्नुहोस्, नत्र तपाईंले जे महत्त्वपूर्ण छैन त्यसलाई सुधार गर्नुहुनेछ।

सन्दर्भ सामग्रीहरू

[1] NIST। AI जोखिम व्यवस्थापन रूपरेखा (AI RMF)। थप पढ्नुहोस्
[2] scikit-learn। मोडेल मूल्याङ्कन: भविष्यवाणीहरूको गुणस्तर परिमाण गर्ने (प्रयोगकर्ता गाइड)। थप पढ्नुहोस्
[3] scikit-learn। सम्भाव्यता क्यालिब्रेसन (क्यालिब्रेसन वक्र, ब्रियर स्कोर)। थप पढ्नुहोस्
[4] Papineni et al. (2002)। BLEU: मेसिन अनुवादको स्वचालित मूल्याङ्कनको लागि एक विधि। ACL। थप पढ्नुहोस्
[5] Hardt, Price, Srebro (2016)। पर्यवेक्षित सिकाइमा अवसरको समानता। NeurIPS। थप पढ्नुहोस्

आधिकारिक एआई सहायक स्टोरमा नवीनतम एआई खोज्नुहोस्

हाम्रो बारेमा

ब्लगमा फर्कनुहोस्