एआई प्रदर्शन कसरी मापन गर्ने

एआई प्रदर्शन कसरी मापन गर्ने?

यदि तपाईंले कहिल्यै नोटबुकमा चम्किलो देखिने तर उत्पादनमा ठेस लाग्ने मोडेल पठाउनुभएको छ भने, तपाईंलाई पहिले नै रहस्य थाहा छ: एआई प्रदर्शन कसरी मापन गर्ने भन्ने कुरा कुनै जादुई मेट्रिक होइन। यो वास्तविक-विश्व लक्ष्यहरूसँग जोडिएको जाँचहरूको प्रणाली हो। शुद्धता प्यारो छ। विश्वसनीयता, सुरक्षा, र व्यापार प्रभाव राम्रो छ।

यसपछि पढ्न मन लाग्ने लेखहरू:

🔗 एआईसँग कसरी कुरा गर्ने
निरन्तर राम्रो नतिजाको लागि एआईसँग प्रभावकारी रूपमा सञ्चार गर्ने गाइड।

🔗 एआईले के प्रम्प्ट गरिरहेको छ?
प्रम्प्टहरूले एआई प्रतिक्रियाहरू र आउटपुट गुणस्तरलाई कसरी आकार दिन्छन् भनेर व्याख्या गर्दछ।

🔗 एआई डाटा लेबलिंग भनेको के हो?
तालिम मोडेलहरूको लागि डेटामा सही लेबलहरू तोक्ने सिंहावलोकन।

🔗 एआई नैतिकता भनेको के हो?
जिम्मेवार एआई विकास र तैनाथीलाई निर्देशित गर्ने नैतिक सिद्धान्तहरूको परिचय।


राम्रो एआई प्रदर्शन के ले बनाउँछ? ✅

छोटो संस्करण: राम्रो एआई प्रदर्शनको अर्थ तपाईंको प्रणाली उपयोगी, विश्वसनीय, र अव्यवस्थित, परिवर्तनशील परिस्थितिहरूमा दोहोर्याउन मिल्ने छ। ठोस रूपमा:

  • कार्य गुणस्तर - यसले सही कारणहरूका लागि सही उत्तरहरू पाउँछ।

  • क्यालिब्रेसन - आत्मविश्वासको स्कोर वास्तविकतासँग मिल्छ, त्यसैले तपाईं स्मार्ट कदम चाल्न सक्नुहुन्छ।

  • बलियोपन - यो बहाव, किनारा केसहरू, र प्रतिद्वन्द्वी फज अन्तर्गत टिक्छ।

  • सुरक्षा र निष्पक्षता - यसले हानिकारक, पक्षपाती, वा गैर-अनुपालन व्यवहारलाई बेवास्ता गर्छ।

  • दक्षता - यो पर्याप्त छिटो, पर्याप्त सस्तो, र स्तरमा चलाउन पर्याप्त स्थिर छ।

  • व्यावसायिक प्रभाव - यसले वास्तवमा तपाईंले ख्याल राख्नुहुने KPI लाई सार्छ।

यदि तपाईं मेट्रिक्स र जोखिमहरू पङ्क्तिबद्ध गर्न औपचारिक सन्दर्भ बिन्दु चाहनुहुन्छ भने, NIST AI जोखिम व्यवस्थापन फ्रेमवर्क विश्वसनीय प्रणाली मूल्याङ्कनको लागि एक ठोस उत्तर तारा हो। [1]

 

एआई कार्यसम्पादन मापन गर्दै

एआई प्रदर्शन मापन गर्ने उच्च-स्तरीय विधि 🍳

तीन तहमा सोच्नुहोस् :

  1. कार्य मेट्रिक्स - कार्य प्रकारको लागि शुद्धता: वर्गीकरण, प्रतिगमन, श्रेणीकरण, उत्पादन, नियन्त्रण, आदि।

  2. प्रणाली मेट्रिक्स - विलम्बता, थ्रुपुट, प्रति कल लागत, विफलता दर, बहाव अलार्म, अपटाइम SLA।

  3. परिणाम मेट्रिक्स - तपाईंले वास्तवमा चाहनुभएको व्यवसाय र प्रयोगकर्ता परिणामहरू: रूपान्तरण, अवधारण, सुरक्षा घटनाहरू, म्यानुअल-समीक्षा लोड, टिकट भोल्युम।

एउटा राम्रो मापन योजनाले जानाजानी तीनवटैलाई मिसाउँछ। अन्यथा तपाईंले एउटा रकेट पाउनुहुनेछ जुन कहिल्यै लन्चप्याडबाट बाहिर निस्कँदैन।


समस्या प्रकार अनुसार मुख्य मेट्रिक्स - र कुन कहिले प्रयोग गर्ने 🎯

१) वर्गीकरण

  • प्रेसिजन, रिकल, F1 - पहिलो दिनको त्रिकोण। F1 भनेको प्रेसिजन र रिकलको हार्मोनिक माध्य हो; कक्षाहरू असंतुलित हुँदा वा लागतहरू असममित हुँदा उपयोगी हुन्छ। [2]

  • ROC-AUC - वर्गीकरणकर्ताहरूको थ्रेसहोल्ड-अज्ञेयवादी श्रेणीकरण; जब सकारात्मकहरू दुर्लभ हुन्छन्, PR-AUC । [2]

  • सन्तुलित शुद्धता - कक्षाहरूमा सम्झनाको औसत; स्क्युड लेबलहरूको लागि उपयोगी। [2]

पिटफल वाच: शुद्धता मात्र असन्तुलनका साथ अत्यधिक भ्रामक हुन सक्छ। यदि ९९% प्रयोगकर्ताहरू वैध छन् भने, एउटा मूर्ख सधैं वैध मोडेलले ९९% स्कोर गर्छ र लन्च अघि तपाईंको ठगी टोलीलाई असफल बनाउँछ।

२) प्रतिगमन

  • मानव-पढ्न सकिने त्रुटिको लागि MAE ठूला त्रुटिहरूलाई सजाय दिन चाहँदा RMSE व्याख्या गरिएको छ। त्यसपछि सेनिटी-चेक वितरण र अवशिष्ट प्लटहरू। [2]
    (डोमेन-मैत्री एकाइहरू प्रयोग गर्नुहोस् ताकि सरोकारवालाहरूले वास्तवमा त्रुटि महसुस गर्न सकून्।)

३) श्रेणीकरण, पुन: प्राप्ति, सिफारिसहरू

  • nDCG - स्थिति र श्रेणीबद्ध सान्दर्भिकताको ख्याल राख्छ; खोज गुणस्तरको लागि मानक।

  • MRR - पहिलो सान्दर्भिक वस्तु कति चाँडो देखा पर्दछ भन्ने कुरामा केन्द्रित हुन्छ ("एउटा राम्रो उत्तर खोज्नुहोस्" कार्यहरूको लागि उत्कृष्ट)।
    (कार्यान्वयन सन्दर्भहरू र काम गरिएका उदाहरणहरू मुख्यधारा मेट्रिक पुस्तकालयहरूमा छन्।) [2]

४) पाठ उत्पादन र सारांश

  • BLEUROUGE - क्लासिक ओभरल्याप मेट्रिक्स; आधारभूत रेखाको रूपमा उपयोगी।

  • इम्बेडिङ-आधारित मेट्रिक्स (जस्तै, BERTScore ) प्रायः मानव निर्णयसँग राम्रोसँग सम्बन्धित हुन्छ; शैली, विश्वासयोग्यता र सुरक्षाको लागि सधैं मानव मूल्याङ्कनहरूसँग जोड्नुहोस्। [4]

५) प्रश्न उत्तर

  • सटीक मिलानटोकन-स्तर F1 सामान्य छन्; यदि उत्तरहरूले स्रोतहरू उद्धृत गर्नुपर्छ भने, ग्राउन्डिङ (उत्तर-समर्थन जाँचहरू)।


क्यालिब्रेसन, आत्मविश्वास, र ब्रियर लेन्स 🎚️

आत्मविश्वास स्कोरहरू त्यस्तो ठाउँ हो जहाँ धेरै प्रणालीहरू चुपचाप बस्छन्। तपाईं वास्तविकता प्रतिबिम्बित गर्ने सम्भाव्यताहरू चाहनुहुन्छ ताकि अप्सले थ्रेसहोल्ड, मानिसहरूमा मार्ग, वा मूल्य जोखिम सेट गर्न सकोस्।

  • क्यालिब्रेसन वक्रहरू - अनुभवजन्य आवृत्ति बनाम अनुमानित सम्भाव्यता कल्पना गर्नुहोस्।

  • ब्रियर स्कोर - सम्भाव्यताको शुद्धताको लागि उचित स्कोरिङ नियम; कम राम्रो छ। यो विशेष गरी उपयोगी हुन्छ जब तपाईं सम्भाव्यताको गुणस्तरको

फिल्ड नोट: थोरै "खराब" F1 तर धेरै राम्रो क्यालिब्रेसनले व्यापक रूपमा सुधार गर्न सक्छ - किनभने मानिसहरूले अन्ततः स्कोरहरूमा विश्वास गर्न सक्छन्।


सुरक्षा, पक्षपात र निष्पक्षता - के महत्त्वपूर्ण छ भनेर मापन गर्नुहोस् 🛡️⚖️

एउटा प्रणाली समग्रमा सही हुन सक्छ र अझै पनि विशिष्ट समूहहरूलाई हानि पुर्‍याउन सक्छ। समूहबद्ध मेट्रिक्स र निष्पक्षता मापदण्डहरू ट्र्याक गर्नुहोस्:

  • जनसांख्यिकीय समानता - समूहहरूमा समान सकारात्मक दरहरू।

  • समान सम्भावना / समान अवसर - समूहहरूमा समान त्रुटि दरहरू वा सत्य-सकारात्मक दरहरू; यी प्रयोग गर्नुहोस् ट्रेड-अफहरू पत्ता लगाउन र व्यवस्थापन गर्न, एक-शट पास-असफल स्ट्याम्पको रूपमा होइन। [5]

व्यावहारिक सुझाव: मुख्य विशेषताहरूद्वारा कोर मेट्रिक्सलाई काट्ने ड्यासबोर्डहरूबाट सुरु गर्नुहोस्, त्यसपछि तपाईंको नीतिहरूले आवश्यक पर्ने विशिष्ट निष्पक्षता मेट्रिक्स थप्नुहोस्। यो झन्झटिलो सुनिन्छ, तर यो घटना भन्दा सस्तो छ।


LLM र RAG - एक मापन प्लेबुक जुन वास्तवमा काम गर्छ 📚🔍

उत्पादक प्रणालीहरू मापन गर्नु... झन्झटिलो छ। यो गर्नुहोस्:

  1. परिणामहरू परिभाषित गर्नुहोस् : शुद्धता, उपयोगीता, हानिरहितता, शैली पालना, ब्रान्डमा टोन, उद्धरण ग्राउन्डिङ, अस्वीकार गुणस्तर।

  2. बलियो फ्रेमवर्कहरू (जस्तै, तपाईंको स्ट्याकमा मूल्याङ्कन उपकरण) मार्फत आधारभूत मूल्याङ्कनहरू स्वचालित गर्नुहोस्

  3. विवेकको लागि अर्थपूर्ण मेट्रिक्स (इम्बेडिङ-आधारित) र ओभरल्याप मेट्रिक्स (BLEU/ROUGE) थप्नुहोस्

  4. उपकरण ग्राउन्डिङ : पुन: प्राप्ति हिट दर, सन्दर्भ परिशुद्धता/रिकल, उत्तर-समर्थन ओभरल्याप।

  5. सहमतिसहितको मानवीय समीक्षा - रेटर स्थिरता मापन गर्नुहोस् (जस्तै, कोहेनको κ वा फ्लीसको κ) ताकि तपाईंका लेबलहरू भाइब्स नहोस्।

बोनस: प्रति कार्य विलम्बता प्रतिशत र टोकन वा गणना लागत लग गर्नुहोस्। अर्को मंगलबार आउने काव्यात्मक उत्तर कसैलाई मन पर्दैन।


तुलना तालिका - एआई प्रदर्शन मापन गर्न मद्दत गर्ने उपकरणहरू 🛠️📊

(हो, यो जानाजानी अलि गडबड भएको छ - वास्तविक नोटहरू गडबड छन्।)

उपकरण उत्कृष्ट दर्शकहरू मूल्य यो किन काम गर्छ - छिटो लिनुहोस्
साइनकिट-लर्न मेट्रिक्स एमएल अभ्यासकर्ताहरू नि:शुल्क वर्गीकरण, प्रतिगमन, श्रेणीकरणको लागि क्यानोनिकल कार्यान्वयनहरू; परीक्षणहरूमा बेक गर्न सजिलो। [2]
MLflow मूल्याङ्कन / GenAI डेटा वैज्ञानिकहरू, MLOps नि:शुल्क + सशुल्क केन्द्रीकृत रनहरू, स्वचालित मेट्रिक्स, LLM न्यायाधीशहरू, अनुकूलन स्कोररहरू; कलाकृतिहरू सफासँग लग गर्नुहोस्।
स्पष्ट रूपमा ड्यासबोर्डहरू छिटो चाहने टोलीहरू OSS + क्लाउड १००+ मेट्रिक्स, ड्रिफ्ट र गुणस्तर रिपोर्टहरू, अनुगमन हुकहरू - एक चुटकीमा राम्रा दृश्यहरू।
तौल र पूर्वाग्रहहरू प्रयोगात्मक काममा बढी व्यस्त रहेका संस्थाहरू नि:शुल्क तह सँगसँगै तुलना, मूल्याङ्कन डेटासेट, न्यायाधीशहरू; तालिकाहरू र ट्रेसहरू व्यवस्थित छन्।
ल्याङस्मिथ LLM एप निर्माणकर्ताहरू भुक्तानी गरिएको प्रत्येक चरण ट्र्याक गर्नुहोस्, नियम वा LLM मूल्याङ्कनकर्ताहरूसँग मानव समीक्षा मिलाउनुहोस्; RAG को लागि उत्कृष्ट।
ट्रुलेन्स खुला स्रोत LLM eval प्रेमीहरू ओएसएस प्रतिक्रिया कार्यहरूले विषाक्तता, आधारभूतता, प्रासंगिकता स्कोर गर्दछ; जहाँसुकै एकीकृत गर्दछ।
ठूला अपेक्षाहरू डेटा गुणस्तर-प्रथम संस्थाहरू ओएसएस डेटामा अपेक्षाहरूलाई औपचारिक बनाउनुहोस् - किनकि खराब डेटाले जे भए पनि हरेक मेट्रिकलाई बर्बाद गर्छ।
डीपचेकहरू ML को लागि परीक्षण र CI/CD OSS + क्लाउड डेटा बहाव, मोडेल समस्याहरू, र अनुगमनको लागि ब्याट्रीहरू समावेश परीक्षण; राम्रो रेलिङहरू।

मूल्यहरू परिवर्तन हुन्छन् - कागजातहरू जाँच गर्नुहोस्। र हो, तपाईं उपकरण प्रहरी नआउँदै पनि यी मिश्रण गर्न सक्नुहुन्छ।


थ्रेसहोल्ड, लागत, र निर्णय वक्र - गोप्य सस 🧪

एउटा अनौठो तर सत्य कुरा: एउटै ROC-AUC भएका दुई मोडेलहरूको व्यापारिक मूल्य तपाईंको सीमालागत अनुपातमा

निर्माण गर्न द्रुत पाना:

  • गलत सकारात्मक बनाम गलत नकारात्मकको लागत पैसा वा समयमा सेट गर्नुहोस्।

  • प्रति १ हजार निर्णयको लागि थ्रेसहोल्ड स्वीप गर्नुहोस् र अपेक्षित लागत गणना गर्नुहोस्।

  • न्यूनतम अपेक्षित लागत छान्नुहोस् , त्यसपछि यसलाई अनुगमनसँग लक गर्नुहोस्।

सकारात्मकता दुर्लभ हुँदा PR वक्रहरू प्रयोग गर्नुहोस्, सामान्य आकारको लागि ROC वक्रहरू प्रयोग गर्नुहोस्, र निर्णयहरू सम्भाव्यताहरूमा निर्भर हुँदा क्यालिब्रेसन वक्रहरू प्रयोग गर्नुहोस्। [2][3]

मिनी-केस: सामान्य F1 तर उत्कृष्ट क्यालिब्रेसन भएको सपोर्ट-टिकट ट्राइज मोडेलले अप्सलाई हार्ड थ्रेसहोल्डबाट टायर्ड राउटिङ (जस्तै, "स्वत: समाधान," "मानव-समीक्षा," "एस्केलेट") मा स्विच गरेपछि क्यालिब्रेटेड स्कोर ब्यान्डहरूसँग बाँधिएपछि म्यानुअल पुन: मार्गहरू कट गर्दछ।


अनलाइन अनुगमन, बहाव, र सतर्कता 🚨

अफलाइन मूल्याङ्कनहरू सुरुवात हुन्, अन्त्य होइन। उत्पादनमा:

  • खण्ड अनुसार इनपुट ड्रिफ्ट , आउटपुट ड्रिफ्ट , र प्रदर्शन क्षय ट्र्याक गर्नुहोस्

  • रेलिङ जाँचहरू सेट गर्नुहोस् - अधिकतम भ्रम दर, विषाक्तता थ्रेसहोल्ड, निष्पक्षता डेल्टा।

  • p95 विलम्बता, टाइमआउट, र प्रति अनुरोध लागतको लागि क्यानरी ड्यासबोर्डहरू थप्नुहोस्

  • यसलाई गति दिन उद्देश्य-निर्मित पुस्तकालयहरू प्रयोग गर्नुहोस्; तिनीहरूले बक्सबाट बाहिर बहाव, गुणस्तर, र अनुगमन प्राइमिटिभहरू प्रदान गर्छन्।

सानो त्रुटिपूर्ण रूपक: आफ्नो मोडेललाई अमिलो स्टार्टर जस्तै सोच्नुहोस् - तपाईं एक पटक बेक गरेर मात्र जानुहुन्न; तपाईं खुवाउनुहुन्छ, हेर्नुहुन्छ, सुँघ्नुहुन्छ, र कहिलेकाहीं पुन: सुरु गर्नुहुन्छ।


मानव मूल्याङ्कन जुन टुक्रिँदैन 🍪

जब मानिसहरूले आउटपुटलाई ग्रेड गर्छन्, प्रक्रिया तपाईंले सोचेभन्दा बढी महत्त्वपूर्ण हुन्छ।

  • पास बनाम सीमा रेखा बनाम फेलको उदाहरणहरू सहित कडा रूब्रिकहरू लेख्नुहोस्

  • सकेसम्म नमूनाहरूलाई अनियमित र ब्लाइन्ड गर्नुहोस्।

  • अन्तर-रेटर सम्झौता मापन गर्नुहोस् (जस्तै, दुई रेटरहरूको लागि कोहेनको κ, धेरैको लागि फ्लेसको κ) र सम्झौता चिप्लिएमा रुब्रिकहरू ताजा गर्नुहोस्।

यसले तपाईंको मानव लेबलहरूलाई मुड वा कफी आपूर्तिको साथ बहनबाट बचाउँछ।


गहिरो अध्ययन: RAG मा LLM हरूको लागि AI प्रदर्शन कसरी मापन गर्ने

  • पुन:प्राप्ति गुणस्तर - recall@k, precision@k, nDCG; सुन तथ्यहरूको कभरेज। [2]

  • उत्तरको वफादारी - उद्धृत र प्रमाणित जाँचहरू, ग्राउन्डनेस स्कोरहरू, विरोधी प्रोबहरू।

  • प्रयोगकर्ता सन्तुष्टि - औंला, कार्य पूरा, सुझाव गरिएका मस्यौदाहरूबाट सम्पादन दूरी।

  • सुरक्षा - विषाक्तता, PII चुहावट, नीति अनुपालन।

  • लागत र विलम्बता - टोकनहरू, क्यास हिटहरू, p95 र p99 विलम्बताहरू।

यी कुराहरूलाई व्यावसायिक कार्यहरूसँग जोड्नुहोस्: यदि ग्राउन्डनेस रेखाभन्दा तल झर्छ भने, स्ट्रिक्ट मोड वा मानव समीक्षामा स्वतः मार्ग बनाउनुहोस्।


आज सुरु गर्नको लागि एउटा साधारण प्लेबुक 🪄

  1. कामलाई परिभाषित गर्नुहोस् - एउटा वाक्य लेख्नुहोस्: एआईले के गर्नुपर्छ र कसको लागि?

  2. २-३ कार्य मेट्रिक्स छान्नुहोस् - साथै क्यालिब्रेसन र कम्तिमा एउटा निष्पक्षता स्लाइस। [2][3][5]

  3. लागत प्रयोग गरेर सीमा निर्धारण गर्नुहोस् - अनुमान नगर्नुहोस्।

  4. उत्पादन मिश्रणलाई प्रतिबिम्बित गर्ने १००-५०० लेबल गरिएका उदाहरणहरू सहितको सानो मूल्याङ्कन सेट सिर्जना गर्नुहोस्

  5. आफ्नो मूल्याङ्कन स्वचालित गर्नुहोस् - तार मूल्याङ्कन/निगरानी CI मा गर्नुहोस् ताकि प्रत्येक परिवर्तनले समान जाँचहरू चलाउँछ।

  6. उत्पादनमा निगरानी गर्नुहोस् - बहाव, विलम्बता, लागत, घटना झण्डा।

  7. कसैले प्रयोग नगर्ने मासिक-इश - प्रुन मेट्रिक्सको समीक्षा गर्नुहोस्

  8. कागजात निर्णयहरू - तपाईंको टोलीले वास्तवमा पढ्ने जीवन्त स्कोरकार्ड।

हो, साँच्चै त्यही हो। अनि यो काम गर्छ।


सामान्य गल्तीहरू र त्यसबाट कसरी बच्ने 🕳️🐇

  • एकल मेट्रिकमा ओभरफिटिंग - निर्णय सन्दर्भसँग मेल खाने मेट्रिक बास्केट

  • क्यालिब्रेसनलाई बेवास्ता गर्नु - क्यालिब्रेसन बिनाको आत्मविश्वास केवल घमण्ड मात्र हो। [3]

  • कुनै विभाजन छैन - सधैं प्रयोगकर्ता समूह, भूगोल, उपकरण, भाषा अनुसार टुक्रा पार्नुहोस्। [5]

  • अपरिभाषित लागत - यदि तपाईंले त्रुटिहरूको मूल्य निर्धारण गर्नुभएन भने, तपाईंले गलत थ्रेसहोल्ड छनौट गर्नुहुनेछ।

  • मानव मूल्याङ्कन बहाव - सम्झौता मापन गर्नुहोस्, रुब्रिक्स ताजा गर्नुहोस्, समीक्षकहरूलाई पुन: तालिम दिनुहोस्।

  • कुनै सुरक्षा उपकरण छैन - निष्पक्षता, विषाक्तता, र नीति जाँचहरू अहिले थप्नुहोस्, पछि होइन। [1][5]


तपाईंले भन्न खोजेको वाक्यांश: एआई प्रदर्शन कसरी मापन गर्ने - धेरै लामो, मैले यो पढेको छैन 🧾

  • स्पष्ट परिणामहरूबाट सुरु गर्नुहोस् , त्यसपछि कार्य , प्रणाली , र व्यापार मेट्रिक्स स्ट्याक गर्नुहोस्। [1]

  • कामको लागि सही मेट्रिक्स प्रयोग गर्नुहोस् - वर्गीकरणको लागि F1 र ROC-AUC; श्रेणीकरणको लागि nDCG/MRR; पुस्ताको लागि ओभरल्याप + अर्थपूर्ण मेट्रिक्स (मानिसहरूसँग जोडिएको)। [2][4]

  • आफ्नो सम्भावनाहरू क्यालिब्रेट गर्नुहोस् थ्रेसहोल्ड छनौट गर्न आफ्नो त्रुटिहरूको मूल्य निर्धारण गर्नुहोस्

  • समूह स्लाइसहरूसँग निष्पक्षता थप्नुहोस्

  • स्वचालित मूल्याङ्कन र अनुगमन गर्नुहोस् ताकि तपाईं डर बिना दोहोर्याउन सक्नुहुन्छ।

तपाईंलाई थाहा छ यो कस्तो छ - के महत्त्वपूर्ण छ भनेर मापन गर्नुहोस्, नत्र तपाईंले जे महत्त्वपूर्ण छैन त्यसलाई सुधार गर्नुहुनेछ।


सन्दर्भ सामग्रीहरू

[1] NIST। AI जोखिम व्यवस्थापन रूपरेखा (AI RMF)। थप पढ्नुहोस्
[2] scikit-learn। मोडेल मूल्याङ्कन: भविष्यवाणीहरूको गुणस्तर परिमाण गर्ने (प्रयोगकर्ता गाइड)। थप पढ्नुहोस्
[3] scikit-learn। सम्भाव्यता क्यालिब्रेसन (क्यालिब्रेसन वक्र, ब्रियर स्कोर)। थप पढ्नुहोस्
[4] Papineni et al. (2002)। BLEU: मेसिन अनुवादको स्वचालित मूल्याङ्कनको लागि एक विधि। ACL। थप पढ्नुहोस्
[5] Hardt, Price, Srebro (2016)। पर्यवेक्षित सिकाइमा अवसरको समानता। NeurIPS। थप पढ्नुहोस्

आधिकारिक एआई सहायक स्टोरमा नवीनतम एआई खोज्नुहोस्

हाम्रो बारेमा

ब्लगमा फर्कनुहोस्