एआईले आफ्नो जानकारी कहाँबाट पाउँछ?

कहिल्यै त्यहाँ बसेर टाउको कन्याउँदै सोच्नुभएको छ, ... यो सामान वास्तवमा कहाँबाट आउँदैछ? मेरो मतलब, एआई धुलोले भरिएको पुस्तकालयको थुप्रोमा खोजिरहेको छैन वा युट्युबका सर्टहरू धूर्त रूपमा प्रयोग गरिरहेको छैन। तैपनि यसले कुनै न कुनै रूपमा सबै कुराको जवाफ दिन्छ - लासाग्ना ह्याक्सदेखि ब्ल्याक होल फिजिक्ससम्म - जस्तै यसको भित्र केही अथाह फाइलिङ क्याबिनेट छ। वास्तविकता अनौठो छ, र सायद तपाईंले अनुमान गर्नुभन्दा बढी चाखलाग्दो छ। यसलाई अलिकति अनप्याक गरौं (र हो, सायद बाटोमा केही मिथकहरू तोडौं)।

के यो जादु हो? 🌐

यो जादु होइन, यद्यपि कहिलेकाहीं यस्तो लाग्छ। लुकेर बसेको कुरा मूलतः ढाँचाको भविष्यवाणी। ठूला भाषा मोडेलहरू (LLMs) ले तथ्यहरू भण्डारण ; बरु, तिनीहरूलाई पहिले आएको कुराको आधारमा अर्को शब्द (टोकन) अनुमान गर्न प्रशिक्षित गरिन्छ [2]। व्यवहारमा, यसको अर्थ तिनीहरू सम्बन्धहरूमा टाँसिन्छन्: कुन शब्दहरू सँगै ह्याङ्ग आउट हुन्छन्, वाक्यहरू सामान्यतया कसरी आकार लिन्छन्, कसरी सम्पूर्ण विचारहरू मचान जस्तै बनाइन्छ। त्यसैले आउटपुट सुनिन्छ , यद्यपि - पूर्ण इमानदारी - यो तथ्याङ्कीय नक्कल हो, बुझाइ होइन [4]।

त्यसो भए वास्तवमा के ले एआई-उत्पन्न जानकारीलाई उपयोगी? केही कुराहरू:

डेटा विविधता - एउटा साँघुरो धाराबाट होइन, अनगिन्ती स्रोतहरूबाट लिइएको।
अपडेटहरू - रिफ्रेस साइकल बिना, यो चाँडै पुरानो हुन्छ।
फिल्टरिङ - फोहोर भित्र पस्नु अघि नै समात्नु आदर्श हो (यद्यपि, वास्तविक कुरा गरौं, त्यो जालमा प्वालहरू छन्)।
क्रस-चेकिंग - अधिकार स्रोतहरूमा भर पर्नु (नासा, डब्ल्यूएचओ, प्रमुख विश्वविद्यालयहरू सोच्नुहोस्), जुन धेरैजसो एआई गभर्नेन्स प्लेबुकहरूमा हुनै पर्ने कुरा हो [3]।

तैपनि, कहिलेकाहीं यसले आत्मविश्वासका साथ बनावटी बनाउँछ। ती तथाकथित भ्रमहरू? मूलतः पालिश गरिएका बकवासहरू सीधा अनुहारमा प्रस्तुत गरिन्छ [2][3]।

यसपछि पढ्न मन लाग्ने लेखहरू:

🔗 के एआईले लटरी नम्बरहरूको भविष्यवाणी गर्न सक्छ?
एआई लटरी भविष्यवाणीहरूको बारेमा मिथक र तथ्यहरूको अन्वेषण गर्दै।.

🔗 एआईमा समग्र दृष्टिकोण अपनाउनुको अर्थ के हो?
नैतिकता र प्रभावमा सन्तुलित दृष्टिकोणका साथ एआईलाई बुझ्ने।.

🔗 बाइबलले कृत्रिम बुद्धिमत्ताको बारेमा के भन्छ?
प्रविधि र मानव सृष्टिमा बाइबलीय दृष्टिकोणहरूको जाँच गर्दै।.

द्रुत तुलना: एआई कहाँबाट आउँछ 📊

हरेक स्रोत बराबर हुँदैन, तर प्रत्येकले आफ्नो भूमिका खेल्छ। यहाँ स्न्यापसट दृश्य छ।.

स्रोत प्रकार	कसले प्रयोग गर्छ (AI)	लागत/मूल्य	यो किन काम गर्छ (वा गर्दैन...)
पुस्तक र लेखहरू	ठूला भाषा मोडेलहरू	अमूल्य (अमूल्य)	घना, संरचित ज्ञान - चाँडै पुरानो हुन्छ।.
वेबसाइट र ब्लगहरू	लगभग सबै एआईहरू	नि:शुल्क (शोर सहित)	जंगली प्रजाति; चमक र पूर्ण फोहोरको मिश्रण।.
शैक्षिक पत्रहरू	अनुसन्धान-भारी एआईहरू	कहिलेकाहीँ पेवाल गरिएको	कठोरता + विश्वसनीयता, तर गह्रौं शब्दजालमा गाँसिएको।.
प्रयोगकर्ता डेटा	व्यक्तिगतकृत एआईहरू	अत्यधिक संवेदनशील ⚠️	तिखो सिलाउने काम, तर गोपनीयताको टाउको दुखाइ प्रशस्त।.
वास्तविक-समय वेब	खोज-लिङ्क गरिएका एआईहरू	नि:शुल्क (यदि अनलाइन छ भने)	जानकारी ताजा राख्छ; नकारात्मक पक्ष भनेको अफवाह प्रवर्द्धनको जोखिम हो।.

तालिम डेटा ब्रह्माण्ड 🌌

यो "बाल्यकालको सिकाइ" चरण हो। कल्पना गर्नुहोस् कि एउटा बच्चालाई लाखौं कथापुस्तकहरू, समाचार क्लिपिङहरू, र विकिपिडिया खरायोको प्वालहरू एकैचोटि हस्तान्तरण गर्दै। पूर्व-प्रशिक्षण त्यस्तै देखिन्छ। वास्तविक संसारमा, प्रदायकहरूले सार्वजनिक रूपमा उपलब्ध डेटा, इजाजतपत्र प्राप्त स्रोतहरू, र प्रशिक्षक-उत्पन्न पाठ [2] एकसाथ फ्याँक्छन्।

माथि तहमा: क्युरेट गरिएका मानव उदाहरणहरू - राम्रो उत्तरहरू, नराम्रो उत्तरहरू, सही दिशामा धकेल्ने - सुदृढीकरण सुरु हुनुभन्दा पहिले [1]।.

पारदर्शिता चेतावनी: कम्पनीहरूले हरेक विवरण खुलासा गर्दैनन्। केही रेलिङहरू गोप्य हुन्छन् (आईपी, सुरक्षा चिन्ताहरू), त्यसैले तपाईंले वास्तविक मिश्रणमा आंशिक झ्याल मात्र पाउनुहुन्छ [2]।.

वास्तविक-समय खोज: अतिरिक्त टपिङ 🍒

केही मोडेलहरूले अब आफ्नो तालिम बबल बाहिर हेर्न सक्छन्। त्यो पुन: प्राप्ति-संवर्धित जेनेरेसन (RAG)हो - मूल रूपमा प्रत्यक्ष अनुक्रमणिका वा कागजात स्टोरबाट भागहरू तान्दै, त्यसपछि यसलाई उत्तरमा बुन्दै [5]। समाचार शीर्षकहरू वा स्टक मूल्यहरू जस्ता द्रुत-परिवर्तनशील चीजहरूको लागि उत्तम।

के रब? इन्टरनेट बराबर प्रतिभा र फोहोरको आगो हो। यदि फिल्टर वा उत्पति जाँचहरू कमजोर छन् भने, तपाईंले जंक डाटा लुकाएर फिर्ता जाने जोखिम लिनुहुन्छ - ठ्याक्कै जोखिम फ्रेमवर्कहरूले चेतावनी दिएको जस्तै [3]।.

एउटा सामान्य समाधान: कम्पनीहरूले मोडेलहरूलाई आफ्नै आन्तरिक डाटाबेसहरूमा जोड्छन् , त्यसैले उत्तरहरूले यसलाई पखेटा लगाउनुको सट्टा हालको HR नीति वा अद्यावधिक गरिएको उत्पादन कागजात उद्धृत गर्छन्। सोच्नुहोस्: कम "उह-ओह" क्षणहरू, बढी विश्वसनीय जवाफहरू।

फाइन-ट्युनिङ: एआईको पालिसिङ चरण 🧪

पूर्व-प्रशिक्षित कच्चा मोडेलहरू भद्दा हुन्छन्। त्यसैले तिनीहरू राम्रोसँग:

उनीहरूलाई सहयोगी, हानिरहित, इमानदार हुन सिकाउने (मानव प्रतिक्रियाबाट सुदृढीकरण सिकाइ, RLHF मार्फत) [1]।
असुरक्षित वा विषाक्त किनारहरू (पङ्क्तिबद्धता) तल बालुवा हाल्ने [1]।.
स्वर मिलाउने - चाहे त्यो मैत्रीपूर्ण होस्, औपचारिक होस्, वा रमाइलो व्यंग्यात्मक होस्।.

यो हिरालाई त्यति धेरै पालिस गर्नु होइन, बरु तथ्याङ्कीय हिमपहिरोलाई कुराकानी साझेदार जस्तो व्यवहार गर्न लगाउनु हो।.

बाधा र असफलताहरू 🚧

यो निर्दोष छ भनेर नढाँटौं:

भ्रम - स्पष्ट उत्तरहरू जुन सरासर गलत छन् [2][3]।
पूर्वाग्रह - यसले डेटामा बेक्ड ढाँचाहरू प्रतिबिम्बित गर्दछ; यदि जाँच नगरिएको खण्डमा तिनीहरूलाई विस्तार पनि गर्न सक्छ [3][4]।
प्रत्यक्ष अनुभव छैन - यसले कुरा तर कहिल्यै चाखेको छैन [4]।
अति आत्मविश्वास - गद्य यसरी बग्छ जस्तो लाग्छ, जब यो बग्दैन पनि। जोखिम ढाँचाले अनुमानहरूलाई जोड दिन्छ [3]।

किन लाग्छ 🧠

यसको कुनै विश्वास छैन, मानव अर्थमा कुनै स्मृति छैन, र निश्चित रूपमा कुनै आत्म छैन। तैपनि यसले वाक्यहरूलाई सहज रूपमा एकसाथ जोड्ने भएकोले, तपाईंको मस्तिष्कले यसलाई बुझेको। के भइरहेको छ त्यो केवल ठूलो मात्रामा अर्को-टोकन भविष्यवाणी हो: विभाजित-सेकेन्डमा खरबौं सम्भावनाहरू क्रन्च गर्दै [2]।

"बुद्धिमत्ता" को भावना आविष्कारशील व्यवहार हो - अनुसन्धानकर्ताहरूले यसलाई, अलि जिब्रोमा जिब्रो, "स्टोकास्टिक तोता" प्रभाव [4] भन्छन्।

बच्चा-मैत्री उपमा 🎨

एउटा सुगाको कल्पना गर्नुहोस् जसले पुस्तकालयका सबै किताब पढेको छ। उसले बुझ्दैन तर शब्दहरूलाई रिमिक्स गरेर बुद्धिमानी महसुस गराउन सक्छ। कहिलेकाहीँ यो एकदमै सही हुन्छ; कहिलेकाहीँ यो बकवास हुन्छ - तर पर्याप्त स्वभावको साथ, तपाईं सधैं फरक छुट्याउन सक्नुहुन्न।

अन्त्यमा: एआईको जानकारी कहाँबाट आउँछ 📌

स्पष्ट शब्दमा:

विशाल प्रशिक्षण डेटा (सार्वजनिक + इजाजतपत्र प्राप्त + प्रशिक्षक-उत्पन्न) [2]।
स्वर/व्यवहारलाई आकार दिन मानव प्रतिक्रियाको साथ फाइन-ट्यूनिंग [1]।
प्रत्यक्ष डेटा स्ट्रिमहरूमा जोडिएको बेला पुन: प्राप्ति प्रणालीहरू [5]।

एआईले केहि कुराहरू "जान्ने" छैन - यसले पाठको भविष्यवाणी गर्छ। त्यो यसको महाशक्ति र यसको एकिलिसको हिल दुवै हो। निष्कर्ष? सधैं विश्वसनीय स्रोत विरुद्ध महत्त्वपूर्ण चीजहरू क्रस-चेक गर्नुहोस् [3]।

सन्दर्भ सामग्रीहरू

ओउयाङ, एल. एट अल. (२०२२)। मानव प्रतिक्रिया (InstructGPT) सहित निर्देशनहरू पालना गर्न भाषा मोडेलहरूलाई तालिम दिने। arXiv।
ओपनएआई (२०२३)। GPT-४ प्राविधिक प्रतिवेदन - इजाजतपत्र प्राप्त, सार्वजनिक, र मानव-निर्मित डेटाको मिश्रण; अर्को-टोकन भविष्यवाणी उद्देश्य र सीमाहरू। arXiv।
NIST (२०२३)। AI जोखिम व्यवस्थापन रूपरेखा (AI RMF १.०) - उत्पत्ति, विश्वसनीयता, र जोखिम नियन्त्रणहरू। PDF।
बेन्डर, ईएम, गेब्रु, टी., म्याकमिलन-मेजर, ए., मिचेल, एस. (२०२१)। स्टोकास्टिक तोताका खतराहरूमा: के भाषा मोडेलहरू धेरै ठूला हुन सक्छन्? PDF।
लुइस, पी. एट अल. (२०२०)। ज्ञान-गहन NLP को लागि पुन: प्राप्ति-संवर्धित पुस्ता। arXiv।

आधिकारिक एआई सहायक स्टोरमा नवीनतम एआई खोज्नुहोस्

हाम्रो बारेमा

ब्लगमा फर्कनुहोस्