यदि तपाईंले कहिल्यै नोटबुकमा चम्किलो देखिने तर उत्पादनमा ठेस लाग्ने मोडेल पठाउनुभएको छ भने, तपाईंलाई पहिले नै रहस्य थाहा छ: एआई प्रदर्शन कसरी मापन गर्ने भन्ने कुरा कुनै जादुई मेट्रिक होइन। यो वास्तविक-विश्व लक्ष्यहरूसँग जोडिएको जाँचहरूको प्रणाली हो। शुद्धता प्यारो छ। विश्वसनीयता, सुरक्षा, र व्यापार प्रभाव राम्रो छ।
यसपछि पढ्न मन लाग्ने लेखहरू:
🔗 एआईसँग कसरी कुरा गर्ने
निरन्तर राम्रो नतिजाको लागि एआईसँग प्रभावकारी रूपमा सञ्चार गर्ने गाइड।
🔗 एआईले के प्रम्प्ट गरिरहेको छ?
प्रम्प्टहरूले एआई प्रतिक्रियाहरू र आउटपुट गुणस्तरलाई कसरी आकार दिन्छन् भनेर व्याख्या गर्दछ।
🔗 एआई डाटा लेबलिंग भनेको के हो?
तालिम मोडेलहरूको लागि डेटामा सही लेबलहरू तोक्ने सिंहावलोकन।
🔗 एआई नैतिकता भनेको के हो?
जिम्मेवार एआई विकास र तैनाथीलाई निर्देशित गर्ने नैतिक सिद्धान्तहरूको परिचय।
राम्रो एआई प्रदर्शन के ले बनाउँछ? ✅
छोटो संस्करण: राम्रो एआई प्रदर्शनको अर्थ तपाईंको प्रणाली उपयोगी, विश्वसनीय, र अव्यवस्थित, परिवर्तनशील परिस्थितिहरूमा दोहोर्याउन मिल्ने छ। ठोस रूपमा:
-
कार्य गुणस्तर - यसले सही कारणहरूका लागि सही उत्तरहरू पाउँछ।
-
क्यालिब्रेसन - आत्मविश्वासको स्कोर वास्तविकतासँग मिल्छ, त्यसैले तपाईं स्मार्ट कदम चाल्न सक्नुहुन्छ।
-
बलियोपन - यो बहाव, किनारा केसहरू, र प्रतिद्वन्द्वी फज अन्तर्गत टिक्छ।
-
सुरक्षा र निष्पक्षता - यसले हानिकारक, पक्षपाती, वा गैर-अनुपालन व्यवहारलाई बेवास्ता गर्छ।
-
दक्षता - यो पर्याप्त छिटो, पर्याप्त सस्तो, र स्तरमा चलाउन पर्याप्त स्थिर छ।
-
व्यावसायिक प्रभाव - यसले वास्तवमा तपाईंले ख्याल राख्नुहुने KPI लाई सार्छ।
यदि तपाईं मेट्रिक्स र जोखिमहरू पङ्क्तिबद्ध गर्न औपचारिक सन्दर्भ बिन्दु चाहनुहुन्छ भने, NIST AI जोखिम व्यवस्थापन फ्रेमवर्क विश्वसनीय प्रणाली मूल्याङ्कनको लागि एक ठोस उत्तर तारा हो। [1]

एआई प्रदर्शन मापन गर्ने उच्च-स्तरीय विधि 🍳
तीन तहमा सोच्नुहोस् :
-
कार्य मेट्रिक्स - कार्य प्रकारको लागि शुद्धता: वर्गीकरण, प्रतिगमन, श्रेणीकरण, उत्पादन, नियन्त्रण, आदि।
-
प्रणाली मेट्रिक्स - विलम्बता, थ्रुपुट, प्रति कल लागत, विफलता दर, बहाव अलार्म, अपटाइम SLA।
-
परिणाम मेट्रिक्स - तपाईंले वास्तवमा चाहनुभएको व्यवसाय र प्रयोगकर्ता परिणामहरू: रूपान्तरण, अवधारण, सुरक्षा घटनाहरू, म्यानुअल-समीक्षा लोड, टिकट भोल्युम।
एउटा राम्रो मापन योजनाले जानाजानी तीनवटैलाई मिसाउँछ। अन्यथा तपाईंले एउटा रकेट पाउनुहुनेछ जुन कहिल्यै लन्चप्याडबाट बाहिर निस्कँदैन।
समस्या प्रकार अनुसार मुख्य मेट्रिक्स - र कुन कहिले प्रयोग गर्ने 🎯
१) वर्गीकरण
-
प्रेसिजन, रिकल, F1 - पहिलो दिनको त्रिकोण। F1 भनेको प्रेसिजन र रिकलको हार्मोनिक माध्य हो; कक्षाहरू असंतुलित हुँदा वा लागतहरू असममित हुँदा उपयोगी हुन्छ। [2]
-
ROC-AUC - वर्गीकरणकर्ताहरूको थ्रेसहोल्ड-अज्ञेयवादी श्रेणीकरण; जब सकारात्मकहरू दुर्लभ हुन्छन्, PR-AUC । [2]
-
सन्तुलित शुद्धता - कक्षाहरूमा सम्झनाको औसत; स्क्युड लेबलहरूको लागि उपयोगी। [2]
पिटफल वाच: शुद्धता मात्र असन्तुलनका साथ अत्यधिक भ्रामक हुन सक्छ। यदि ९९% प्रयोगकर्ताहरू वैध छन् भने, एउटा मूर्ख सधैं वैध मोडेलले ९९% स्कोर गर्छ र लन्च अघि तपाईंको ठगी टोलीलाई असफल बनाउँछ।
२) प्रतिगमन
-
मानव-पढ्न सकिने त्रुटिको लागि MAE ठूला त्रुटिहरूलाई सजाय दिन चाहँदा RMSE R² व्याख्या गरिएको छ। त्यसपछि सेनिटी-चेक वितरण र अवशिष्ट प्लटहरू। [2]
(डोमेन-मैत्री एकाइहरू प्रयोग गर्नुहोस् ताकि सरोकारवालाहरूले वास्तवमा त्रुटि महसुस गर्न सकून्।)
३) श्रेणीकरण, पुन: प्राप्ति, सिफारिसहरू
-
nDCG - स्थिति र श्रेणीबद्ध सान्दर्भिकताको ख्याल राख्छ; खोज गुणस्तरको लागि मानक।
-
MRR - पहिलो सान्दर्भिक वस्तु कति चाँडो देखा पर्दछ भन्ने कुरामा केन्द्रित हुन्छ ("एउटा राम्रो उत्तर खोज्नुहोस्" कार्यहरूको लागि उत्कृष्ट)।
(कार्यान्वयन सन्दर्भहरू र काम गरिएका उदाहरणहरू मुख्यधारा मेट्रिक पुस्तकालयहरूमा छन्।) [2]
४) पाठ उत्पादन र सारांश
-
BLEU र ROUGE - क्लासिक ओभरल्याप मेट्रिक्स; आधारभूत रेखाको रूपमा उपयोगी।
-
इम्बेडिङ-आधारित मेट्रिक्स (जस्तै, BERTScore ) प्रायः मानव निर्णयसँग राम्रोसँग सम्बन्धित हुन्छ; शैली, विश्वासयोग्यता र सुरक्षाको लागि सधैं मानव मूल्याङ्कनहरूसँग जोड्नुहोस्। [4]
५) प्रश्न उत्तर
-
सटीक मिलान र टोकन-स्तर F1 सामान्य छन्; यदि उत्तरहरूले स्रोतहरू उद्धृत गर्नुपर्छ भने, ग्राउन्डिङ (उत्तर-समर्थन जाँचहरू)।
क्यालिब्रेसन, आत्मविश्वास, र ब्रियर लेन्स 🎚️
आत्मविश्वास स्कोरहरू त्यस्तो ठाउँ हो जहाँ धेरै प्रणालीहरू चुपचाप बस्छन्। तपाईं वास्तविकता प्रतिबिम्बित गर्ने सम्भाव्यताहरू चाहनुहुन्छ ताकि अप्सले थ्रेसहोल्ड, मानिसहरूमा मार्ग, वा मूल्य जोखिम सेट गर्न सकोस्।
-
क्यालिब्रेसन वक्रहरू - अनुभवजन्य आवृत्ति बनाम अनुमानित सम्भाव्यता कल्पना गर्नुहोस्।
-
ब्रियर स्कोर - सम्भाव्यताको शुद्धताको लागि उचित स्कोरिङ नियम; कम राम्रो छ। यो विशेष गरी उपयोगी हुन्छ जब तपाईं सम्भाव्यताको गुणस्तरको
फिल्ड नोट: थोरै "खराब" F1 तर धेरै राम्रो क्यालिब्रेसनले व्यापक रूपमा सुधार गर्न सक्छ - किनभने मानिसहरूले अन्ततः स्कोरहरूमा विश्वास गर्न सक्छन्।
सुरक्षा, पक्षपात र निष्पक्षता - के महत्त्वपूर्ण छ भनेर मापन गर्नुहोस् 🛡️⚖️
एउटा प्रणाली समग्रमा सही हुन सक्छ र अझै पनि विशिष्ट समूहहरूलाई हानि पुर्याउन सक्छ। समूहबद्ध मेट्रिक्स र निष्पक्षता मापदण्डहरू ट्र्याक गर्नुहोस्:
-
जनसांख्यिकीय समानता - समूहहरूमा समान सकारात्मक दरहरू।
-
समान सम्भावना / समान अवसर - समूहहरूमा समान त्रुटि दरहरू वा सत्य-सकारात्मक दरहरू; यी प्रयोग गर्नुहोस् ट्रेड-अफहरू पत्ता लगाउन र व्यवस्थापन गर्न, एक-शट पास-असफल स्ट्याम्पको रूपमा होइन। [5]
व्यावहारिक सुझाव: मुख्य विशेषताहरूद्वारा कोर मेट्रिक्सलाई काट्ने ड्यासबोर्डहरूबाट सुरु गर्नुहोस्, त्यसपछि तपाईंको नीतिहरूले आवश्यक पर्ने विशिष्ट निष्पक्षता मेट्रिक्स थप्नुहोस्। यो झन्झटिलो सुनिन्छ, तर यो घटना भन्दा सस्तो छ।
LLM र RAG - एक मापन प्लेबुक जुन वास्तवमा काम गर्छ 📚🔍
उत्पादक प्रणालीहरू मापन गर्नु... झन्झटिलो छ। यो गर्नुहोस्:
-
परिणामहरू परिभाषित गर्नुहोस् : शुद्धता, उपयोगीता, हानिरहितता, शैली पालना, ब्रान्डमा टोन, उद्धरण ग्राउन्डिङ, अस्वीकार गुणस्तर।
-
बलियो फ्रेमवर्कहरू (जस्तै, तपाईंको स्ट्याकमा मूल्याङ्कन उपकरण) मार्फत आधारभूत मूल्याङ्कनहरू स्वचालित गर्नुहोस्
-
विवेकको लागि अर्थपूर्ण मेट्रिक्स (इम्बेडिङ-आधारित) र ओभरल्याप मेट्रिक्स (BLEU/ROUGE) थप्नुहोस्
-
उपकरण ग्राउन्डिङ : पुन: प्राप्ति हिट दर, सन्दर्भ परिशुद्धता/रिकल, उत्तर-समर्थन ओभरल्याप।
-
सहमतिसहितको मानवीय समीक्षा - रेटर स्थिरता मापन गर्नुहोस् (जस्तै, कोहेनको κ वा फ्लीसको κ) ताकि तपाईंका लेबलहरू भाइब्स नहोस्।
बोनस: प्रति कार्य विलम्बता प्रतिशत र टोकन वा गणना लागत लग गर्नुहोस्। अर्को मंगलबार आउने काव्यात्मक उत्तर कसैलाई मन पर्दैन।
तुलना तालिका - एआई प्रदर्शन मापन गर्न मद्दत गर्ने उपकरणहरू 🛠️📊
(हो, यो जानाजानी अलि गडबड भएको छ - वास्तविक नोटहरू गडबड छन्।)
| उपकरण | उत्कृष्ट दर्शकहरू | मूल्य | यो किन काम गर्छ - छिटो लिनुहोस् |
|---|---|---|---|
| साइनकिट-लर्न मेट्रिक्स | एमएल अभ्यासकर्ताहरू | नि:शुल्क | वर्गीकरण, प्रतिगमन, श्रेणीकरणको लागि क्यानोनिकल कार्यान्वयनहरू; परीक्षणहरूमा बेक गर्न सजिलो। [2] |
| MLflow मूल्याङ्कन / GenAI | डेटा वैज्ञानिकहरू, MLOps | नि:शुल्क + सशुल्क | केन्द्रीकृत रनहरू, स्वचालित मेट्रिक्स, LLM न्यायाधीशहरू, अनुकूलन स्कोररहरू; कलाकृतिहरू सफासँग लग गर्नुहोस्। |
| स्पष्ट रूपमा | ड्यासबोर्डहरू छिटो चाहने टोलीहरू | OSS + क्लाउड | १००+ मेट्रिक्स, ड्रिफ्ट र गुणस्तर रिपोर्टहरू, अनुगमन हुकहरू - एक चुटकीमा राम्रा दृश्यहरू। |
| तौल र पूर्वाग्रहहरू | प्रयोगात्मक काममा बढी व्यस्त रहेका संस्थाहरू | नि:शुल्क तह | सँगसँगै तुलना, मूल्याङ्कन डेटासेट, न्यायाधीशहरू; तालिकाहरू र ट्रेसहरू व्यवस्थित छन्। |
| ल्याङस्मिथ | LLM एप निर्माणकर्ताहरू | भुक्तानी गरिएको | प्रत्येक चरण ट्र्याक गर्नुहोस्, नियम वा LLM मूल्याङ्कनकर्ताहरूसँग मानव समीक्षा मिलाउनुहोस्; RAG को लागि उत्कृष्ट। |
| ट्रुलेन्स | खुला स्रोत LLM eval प्रेमीहरू | ओएसएस | प्रतिक्रिया कार्यहरूले विषाक्तता, आधारभूतता, प्रासंगिकता स्कोर गर्दछ; जहाँसुकै एकीकृत गर्दछ। |
| ठूला अपेक्षाहरू | डेटा गुणस्तर-प्रथम संस्थाहरू | ओएसएस | डेटामा अपेक्षाहरूलाई औपचारिक बनाउनुहोस् - किनकि खराब डेटाले जे भए पनि हरेक मेट्रिकलाई बर्बाद गर्छ। |
| डीपचेकहरू | ML को लागि परीक्षण र CI/CD | OSS + क्लाउड | डेटा बहाव, मोडेल समस्याहरू, र अनुगमनको लागि ब्याट्रीहरू समावेश परीक्षण; राम्रो रेलिङहरू। |
मूल्यहरू परिवर्तन हुन्छन् - कागजातहरू जाँच गर्नुहोस्। र हो, तपाईं उपकरण प्रहरी नआउँदै पनि यी मिश्रण गर्न सक्नुहुन्छ।
थ्रेसहोल्ड, लागत, र निर्णय वक्र - गोप्य सस 🧪
एउटा अनौठो तर सत्य कुरा: एउटै ROC-AUC भएका दुई मोडेलहरूको व्यापारिक मूल्य तपाईंको सीमा र लागत अनुपातमा ।
निर्माण गर्न द्रुत पाना:
-
गलत सकारात्मक बनाम गलत नकारात्मकको लागत पैसा वा समयमा सेट गर्नुहोस्।
-
प्रति १ हजार निर्णयको लागि थ्रेसहोल्ड स्वीप गर्नुहोस् र अपेक्षित लागत गणना गर्नुहोस्।
-
न्यूनतम अपेक्षित लागत छान्नुहोस् , त्यसपछि यसलाई अनुगमनसँग लक गर्नुहोस्।
सकारात्मकता दुर्लभ हुँदा PR वक्रहरू प्रयोग गर्नुहोस्, सामान्य आकारको लागि ROC वक्रहरू प्रयोग गर्नुहोस्, र निर्णयहरू सम्भाव्यताहरूमा निर्भर हुँदा क्यालिब्रेसन वक्रहरू प्रयोग गर्नुहोस्। [2][3]
मिनी-केस: सामान्य F1 तर उत्कृष्ट क्यालिब्रेसन भएको सपोर्ट-टिकट ट्राइज मोडेलले अप्सलाई हार्ड थ्रेसहोल्डबाट टायर्ड राउटिङ (जस्तै, "स्वत: समाधान," "मानव-समीक्षा," "एस्केलेट") मा स्विच गरेपछि क्यालिब्रेटेड स्कोर ब्यान्डहरूसँग बाँधिएपछि म्यानुअल पुन: मार्गहरू कट गर्दछ।
अनलाइन अनुगमन, बहाव, र सतर्कता 🚨
अफलाइन मूल्याङ्कनहरू सुरुवात हुन्, अन्त्य होइन। उत्पादनमा:
-
खण्ड अनुसार इनपुट ड्रिफ्ट , आउटपुट ड्रिफ्ट , र प्रदर्शन क्षय ट्र्याक गर्नुहोस्
-
रेलिङ जाँचहरू सेट गर्नुहोस् - अधिकतम भ्रम दर, विषाक्तता थ्रेसहोल्ड, निष्पक्षता डेल्टा।
-
p95 विलम्बता, टाइमआउट, र प्रति अनुरोध लागतको लागि क्यानरी ड्यासबोर्डहरू थप्नुहोस्
-
यसलाई गति दिन उद्देश्य-निर्मित पुस्तकालयहरू प्रयोग गर्नुहोस्; तिनीहरूले बक्सबाट बाहिर बहाव, गुणस्तर, र अनुगमन प्राइमिटिभहरू प्रदान गर्छन्।
सानो त्रुटिपूर्ण रूपक: आफ्नो मोडेललाई अमिलो स्टार्टर जस्तै सोच्नुहोस् - तपाईं एक पटक बेक गरेर मात्र जानुहुन्न; तपाईं खुवाउनुहुन्छ, हेर्नुहुन्छ, सुँघ्नुहुन्छ, र कहिलेकाहीं पुन: सुरु गर्नुहुन्छ।
मानव मूल्याङ्कन जुन टुक्रिँदैन 🍪
जब मानिसहरूले आउटपुटलाई ग्रेड गर्छन्, प्रक्रिया तपाईंले सोचेभन्दा बढी महत्त्वपूर्ण हुन्छ।
-
पास बनाम सीमा रेखा बनाम फेलको उदाहरणहरू सहित कडा रूब्रिकहरू लेख्नुहोस्
-
सकेसम्म नमूनाहरूलाई अनियमित र ब्लाइन्ड गर्नुहोस्।
-
अन्तर-रेटर सम्झौता मापन गर्नुहोस् (जस्तै, दुई रेटरहरूको लागि कोहेनको κ, धेरैको लागि फ्लेसको κ) र सम्झौता चिप्लिएमा रुब्रिकहरू ताजा गर्नुहोस्।
यसले तपाईंको मानव लेबलहरूलाई मुड वा कफी आपूर्तिको साथ बहनबाट बचाउँछ।
गहिरो अध्ययन: RAG मा LLM हरूको लागि AI प्रदर्शन कसरी मापन गर्ने
-
पुन:प्राप्ति गुणस्तर - recall@k, precision@k, nDCG; सुन तथ्यहरूको कभरेज। [2]
-
उत्तरको वफादारी - उद्धृत र प्रमाणित जाँचहरू, ग्राउन्डनेस स्कोरहरू, विरोधी प्रोबहरू।
-
प्रयोगकर्ता सन्तुष्टि - औंला, कार्य पूरा, सुझाव गरिएका मस्यौदाहरूबाट सम्पादन दूरी।
-
सुरक्षा - विषाक्तता, PII चुहावट, नीति अनुपालन।
-
लागत र विलम्बता - टोकनहरू, क्यास हिटहरू, p95 र p99 विलम्बताहरू।
यी कुराहरूलाई व्यावसायिक कार्यहरूसँग जोड्नुहोस्: यदि ग्राउन्डनेस रेखाभन्दा तल झर्छ भने, स्ट्रिक्ट मोड वा मानव समीक्षामा स्वतः मार्ग बनाउनुहोस्।
आज सुरु गर्नको लागि एउटा साधारण प्लेबुक 🪄
-
कामलाई परिभाषित गर्नुहोस् - एउटा वाक्य लेख्नुहोस्: एआईले के गर्नुपर्छ र कसको लागि?
-
२-३ कार्य मेट्रिक्स छान्नुहोस् - साथै क्यालिब्रेसन र कम्तिमा एउटा निष्पक्षता स्लाइस। [2][3][5]
-
लागत प्रयोग गरेर सीमा निर्धारण गर्नुहोस् - अनुमान नगर्नुहोस्।
-
उत्पादन मिश्रणलाई प्रतिबिम्बित गर्ने १००-५०० लेबल गरिएका उदाहरणहरू सहितको सानो मूल्याङ्कन सेट सिर्जना गर्नुहोस्
-
आफ्नो मूल्याङ्कन स्वचालित गर्नुहोस् - तार मूल्याङ्कन/निगरानी CI मा गर्नुहोस् ताकि प्रत्येक परिवर्तनले समान जाँचहरू चलाउँछ।
-
उत्पादनमा निगरानी गर्नुहोस् - बहाव, विलम्बता, लागत, घटना झण्डा।
-
कसैले प्रयोग नगर्ने मासिक-इश - प्रुन मेट्रिक्सको समीक्षा गर्नुहोस्
-
कागजात निर्णयहरू - तपाईंको टोलीले वास्तवमा पढ्ने जीवन्त स्कोरकार्ड।
हो, साँच्चै त्यही हो। अनि यो काम गर्छ।
सामान्य गल्तीहरू र त्यसबाट कसरी बच्ने 🕳️🐇
-
एकल मेट्रिकमा ओभरफिटिंग - निर्णय सन्दर्भसँग मेल खाने मेट्रिक बास्केट
-
क्यालिब्रेसनलाई बेवास्ता गर्नु - क्यालिब्रेसन बिनाको आत्मविश्वास केवल घमण्ड मात्र हो। [3]
-
कुनै विभाजन छैन - सधैं प्रयोगकर्ता समूह, भूगोल, उपकरण, भाषा अनुसार टुक्रा पार्नुहोस्। [5]
-
अपरिभाषित लागत - यदि तपाईंले त्रुटिहरूको मूल्य निर्धारण गर्नुभएन भने, तपाईंले गलत थ्रेसहोल्ड छनौट गर्नुहुनेछ।
-
मानव मूल्याङ्कन बहाव - सम्झौता मापन गर्नुहोस्, रुब्रिक्स ताजा गर्नुहोस्, समीक्षकहरूलाई पुन: तालिम दिनुहोस्।
-
कुनै सुरक्षा उपकरण छैन - निष्पक्षता, विषाक्तता, र नीति जाँचहरू अहिले थप्नुहोस्, पछि होइन। [1][5]
तपाईंले भन्न खोजेको वाक्यांश: एआई प्रदर्शन कसरी मापन गर्ने - धेरै लामो, मैले यो पढेको छैन 🧾
-
स्पष्ट परिणामहरूबाट सुरु गर्नुहोस् , त्यसपछि कार्य , प्रणाली , र व्यापार मेट्रिक्स स्ट्याक गर्नुहोस्। [1]
-
कामको लागि सही मेट्रिक्स प्रयोग गर्नुहोस् - वर्गीकरणको लागि F1 र ROC-AUC; श्रेणीकरणको लागि nDCG/MRR; पुस्ताको लागि ओभरल्याप + अर्थपूर्ण मेट्रिक्स (मानिसहरूसँग जोडिएको)। [2][4]
-
आफ्नो सम्भावनाहरू क्यालिब्रेट गर्नुहोस् थ्रेसहोल्ड छनौट गर्न आफ्नो त्रुटिहरूको मूल्य निर्धारण गर्नुहोस्
-
समूह स्लाइसहरूसँग निष्पक्षता थप्नुहोस्
-
स्वचालित मूल्याङ्कन र अनुगमन गर्नुहोस् ताकि तपाईं डर बिना दोहोर्याउन सक्नुहुन्छ।
तपाईंलाई थाहा छ यो कस्तो छ - के महत्त्वपूर्ण छ भनेर मापन गर्नुहोस्, नत्र तपाईंले जे महत्त्वपूर्ण छैन त्यसलाई सुधार गर्नुहुनेछ।
सन्दर्भ सामग्रीहरू
[1] NIST। AI जोखिम व्यवस्थापन रूपरेखा (AI RMF)। थप पढ्नुहोस्
[2] scikit-learn। मोडेल मूल्याङ्कन: भविष्यवाणीहरूको गुणस्तर परिमाण गर्ने (प्रयोगकर्ता गाइड)। थप पढ्नुहोस्
[3] scikit-learn। सम्भाव्यता क्यालिब्रेसन (क्यालिब्रेसन वक्र, ब्रियर स्कोर)। थप पढ्नुहोस्
[4] Papineni et al. (2002)। BLEU: मेसिन अनुवादको स्वचालित मूल्याङ्कनको लागि एक विधि। ACL। थप पढ्नुहोस्
[5] Hardt, Price, Srebro (2016)। पर्यवेक्षित सिकाइमा अवसरको समानता। NeurIPS। थप पढ्नुहोस्