https://bodybydarwin.com
Slider Image

भाषा मानव पूर्वाग्रह को दोहराने के लिए कृत्रिम बुद्धिमत्ता का प्रशिक्षण दे रही है

2021

भाषा सब दोहराव की है। प्रत्येक शब्द जो आप पढ़ रहे हैं, वह मनुष्यों द्वारा बनाया गया था, और फिर अन्य मनुष्यों द्वारा उपयोग किया गया, संदर्भ, अर्थ, भाषा की प्रकृति को बनाने और मजबूत करने के लिए। जैसा कि मनुष्य भाषा समझने के लिए मशीनों को प्रशिक्षित करते हैं, वे मानव पूर्वाग्रह को दोहराने के लिए मशीन सिखा रहे हैं।

प्रिंसटन यूनिवर्सिटी के सेंटर फॉर इंफॉर्मेशन टेक्नोलॉजी पॉलिसी के आयलिन कैलिसन ने कहा, "मुख्य वैज्ञानिक निष्कर्ष जो हम दिखाने और साबित करने में सक्षम हैं कि भाषा पूर्वाग्रहों को दर्शाती है।" "अगर एआई को मानव भाषा पर प्रशिक्षित किया जाता है, तो यह जरूरी है कि इन पूर्वाग्रहों को दूर किया जाए, क्योंकि यह दुनिया के बारे में सांस्कृतिक तथ्यों और आंकड़ों का प्रतिनिधित्व करता है।"

कैलिसन का काम, सहकर्मियों जोआना ब्रायसन और अरविंद नारायणन के साथ मिलकर पिछले सप्ताह विज्ञान में प्रकाशित हुआ था। अनिवार्य रूप से, उन्होंने पाया कि अगर कोई मानव भाषा को समझने के लिए एक मशीन को प्रशिक्षित करता है, तो यह उन निहित पूर्वाग्रहों को भी लेने वाला है।

मनुष्यों में, पूर्वाग्रह के लिए परीक्षण करने के सर्वोत्तम तरीकों में से एक अंतर्निहित एसोसिएशन टेस्ट है, जो लोगों को "सुखद" या "अप्रिय" जैसे शब्द के साथ "कीट" जैसे शब्द को जोड़ने के लिए कहता है और फिर विलंबता, या समय को मापता है। उस संबंध बनाने के लिए लेता है। लोग कीड़े को अप्रिय और धीमी के रूप में लेबल करने के लिए जल्दी से सुखद के रूप में लेबल करते हैं, इसलिए यह संघों के लिए एक अच्छा मीट्रिक है।

एक कंप्यूटर में परीक्षण झिझक वास्तव में काम नहीं करता है, इसलिए शोधकर्ताओं ने यह देखने का एक अलग तरीका पाया कि कंप्यूटर किन शब्दों को दूसरों के साथ जोड़ने के लिए अधिक इच्छुक हैं। जैसे कि अपरिचित शब्द के अर्थ के बारे में अनुमान लगाने वाले छात्रों को केवल उसके पास दिखाई देने वाले शब्दों के आधार पर, शोधकर्ताओं ने एआई को ऐसे शब्दों को संबद्ध करने के लिए प्रशिक्षित किया जो एक दूसरे के करीब ऑनलाइन दिखाई देते हैं, और ऐसे शब्दों को नहीं जोड़ते हैं।

प्रत्येक शब्द को तीन आयामी अंतरिक्ष में एक वेक्टर के रूप में कल्पना करें। आमतौर पर समान वाक्यों में उपयोग किए जाने वाले शब्द इसके करीब होते हैं, और इसके साथ वाक्यों में उपयोग किए जाने वाले शब्द शायद दूर हैं। करीब दो शब्द हैं, अधिक संभावना है कि मशीन उन्हें जोड़ती है। यदि लोग "प्रोग्रामर" को "वह" और "कंप्यूटर" के करीब कहते हैं, लेकिन "नर्स" को "वह" और "पोशाक" के करीब कहते हैं, जो भाषा में निहित पूर्वाग्रह को दर्शाता है।

कंप्यूटर को इस तरह के भाषा डेटा खिलाने के लिए उन्हें सिखाने के लिए एक नई अवधारणा नहीं है। वर्ड रिप्रेजेंटेशन के लिए स्टैनफोर्ड के ग्लोबल वैक्टर जैसे उपकरण इस पेपरऑप्लट वैक्टर से पहले उनके उपयोग के आधार पर संबंधित शब्दों के बीच मौजूद थे। GloVe के शब्दों में 2 बिलियन ट्वीट्स से खींचे गए 27 बिलियन शब्द, 2014 में विकिपीडिया से खींचे गए 6 बिलियन शब्द और इंटरनेट के माध्यम से रैंडम ट्रैवेल से खींचे गए 840 बिलियन शब्द शामिल हैं।

आप कह सकते हैं कि manyhow कई बार leash near atcat के पास होता है? और how कई बार leash के पास होता है dog? और manyhow कई बार leash near icejustice? Would के पास होता है, और यह लक्षण वर्णन का हिस्सा होगा शब्द, ब्रायसन ने कहा। Themऔर फिर ये वैक्टर, आप इनकी तुलना कॉशन से कर सकते हैं। कुत्ते के लिए बिल्ली कितना करीब है? न्याय के लिए बिल्ली कितना करीब है? Justice

जैसा कि एक अंतर्निहित संघ परीक्षण से पता चलता है कि मानव क्या सोचकर अनजाने में अच्छा या बुरा होने की सोचता है, शब्दों के विभिन्न समूहों के बीच औसत दूरी की गणना ने शोधकर्ताओं को दिखाया कि एक कंप्यूटर ने भाषा की समझ में दिखाने के लिए कौन सा पक्षपात शुरू कर दिया था। यह उल्लेखनीय है कि भाषा को समझने के लिए प्रशिक्षित मशीनों को फूलों (वे सुखद) और कीड़े (वे अप्रिय) के बारे में मानव पूर्वाग्रहों पर उठाया गया था, और ब्रायसन ने कहा कि अगर यह एक महत्वपूर्ण अध्ययन होगा यह सब दिखाया। लेकिन यह उससे कहीं अधिक गहरा गया।

TheThere quantitysa दूसरा परीक्षण, जो हमारे निष्कर्षों और आंकड़ों के बीच की मात्रा को माप रहा है, जो सार्वजनिक किए गए हैं, कैलिसन ने कहा। मैं २०१५ के श्रम ब्यूरो के पास गया, और हर साल वे महिलाओं के प्रतिशत और प्रतिशत के साथ व्यवसाय के नाम प्रकाशित करते हैं, उदाहरण के लिए, उस व्यवसाय में काले अमेरिकी। 50 व्यवसाय के नामों के मेकअप को देखकर और पुरुष या महिला होने के साथ उनकी संगति की गणना करते हुए, मुझे ब्यूरो ऑफ लेबर डेटा के साथ 90 प्रतिशत सहसंबंध मिला, जो बहुत ही आश्चर्यजनक था, क्योंकि मैं इस तरह के सहसंबंध को खोजने में सक्षम होने की उम्मीद नहीं कर रहा था इस तरह के शोर डेटा से। ”

इसलिए कंप्यूटर नौकरी-संबंधित शब्दों को एक विशेष लिंग या जातीय समूह के साथ जोड़कर नस्लवाद और यौनवाद पर उठा रहे हैं। कागज में एक उदाहरण पर जोर दिया गया है "प्रोग्रामर", जो अंग्रेजी में एक लिंग शब्द नहीं है, फिर भी इसके उपयोग के माध्यम से अब एक पुरुष पेशे होने के अर्थ हैं।

"हमने सोचा नहीं था, जब आप प्रोग्रामर कह रहे हैं कि क्या आप पुरुष कह रहे हैं या आप महिला कह रहे हैं, " ब्रायसन ने कहा, "लेकिन यह पता चला है कि यह उस संदर्भ में है जिसमें शब्द सामान्य रूप से होता है।"

भाषा के डेटासेट पर प्रशिक्षित मशीनें, जैसे कि इसका उपयोग किया जाता है (जैसे GloVe) इस एसोसिएशन को चुन लेगी, क्योंकि यह वर्तमान संदर्भ है, लेकिन इसका मतलब है कि भविष्य में शोधकर्ताओं को इस बात से सावधान रहना चाहिए कि वे उस डेटा का उपयोग कैसे करते हैं, क्योंकि वही मानव पूर्वाग्रह आता है बेक्ड में। जब कैलिसकान ने टूल को विकिपीडिया के शब्दकोष पर प्रशिक्षित किया, जो तटस्थ भाषा के संपादकीय मानक के लिए आयोजित होता है, तो उसने पाया कि इसमें वही पूर्वाग्रह है जो उसने इंटरनेट से खींचे गए शब्दों के बड़े समूह में पाया था।

कैलिसन ने कहा, "पूर्वाग्रह के बारे में जानने के लिए, हमें निष्पक्षता के साथ इसकी मात्रा निर्धारित करने की आवश्यकता है, " भाषा में पूर्वाग्रह कैसे होते हैं, क्या लोग भाषा के संपर्क में आने से पक्षपाती संघ बनाना शुरू करते हैं? यह जानकर कि शायद हमें भविष्य में कम पक्षपाती होने के जवाब खोजने में मदद मिलेगी। ”

एक उत्तर अन्य भाषाओं की तलाश में हो सकता है। अध्ययन इंटरनेट पर अंग्रेजी भाषा के शब्दों पर केंद्रित था, इसलिए शब्द उपयोग में पाए जाने वाले पूर्वाग्रह आम तौर पर इंटरनेट तक पहुंच वाले अंग्रेजी बोलने वाले लोगों के पूर्वाग्रह हैं।

"हम विभिन्न प्रकार की भाषाओं को देख रहे हैं और भाषा के वाक्य-विन्यास के आधार पर हम यह समझने की कोशिश कर रहे हैं कि क्या यह लिंग रूढ़िवादिता या लिंगवाद को प्रभावित करता है, सिर्फ भाषा के वाक्य-विन्यास के कारण" कैलिसन ने कहा। "कुछ लिंगहीन हैं, कुछ थोड़े अधिक लिंग वाले हैं। अंग्रेजी में लिंगवाचक सर्वनाम होते हैं, लेकिन चीजें अधिक भाषाओं में [भाषाओं में] मिल जाती हैं, जैसे कि जर्मन जहां संज्ञाओं को लिंग दिया जाता है, और यह आगे जा सकती है। स्लाव भाषाओं ने विशेषण या क्रियाओं को भी प्रस्तुत किया है, और हमें आश्चर्य है कि यह समाज में लैंगिक पूर्वाग्रह को कैसे प्रभावित करता है? "

यह समझना कि भाषा में पूर्वाग्रह कैसे उत्पन्न होते हैं, यह समझने का एक तरीका भी है कि लोग अपने स्पष्ट अर्थों के अलावा शब्दों से क्या जोड़ते हैं।

"एक तरह से यह मुझे चेतना के बारे में सोचने में मदद कर रहा है, " अध्ययन के लेखकों में से एक जोआना ब्रायसन ने कहा। “चेतना की उपयोगिता क्या है? आप दुनिया की स्मृति रखना चाहते हैं, आप जानना चाहते हैं कि सामान्य रूप से किस तरह की चीजें होती हैं। यह आपकी शब्दार्थ स्मृति है। ”

भाषा की परिवर्तनशीलता, जिस तरह से अर्थ का संदर्भ उपयोग के माध्यम से बनता है, इसका मतलब है कि इस दुनिया को समझने का एकमात्र तरीका नहीं है।

"आप एक नई वास्तविकता बनाने में सक्षम होना चाहते हैं, " ब्रायसन जारी रखा। "मनुष्य ने फैसला किया है कि हमने अपना सामान एक साथ अच्छी तरह से प्राप्त कर लिया है ताकि हम काम करने वाली और विकासशील करियर बना सकें और यह पूरी तरह से प्रशंसनीय काम है। और अब हम एक नए समझौते पर बातचीत कर सकते हैं, जैसे, "हम 'प्रोग्रामर वह' कहने वाले नहीं हैं, हम 'प्रोग्रामर वे' कहने जा रहे हैं, भले ही हम एकवचन के बारे में बात कर रहे हों, क्योंकि हम नहीं करते हैं लोगों को यह महसूस कराना चाहते हैं कि वे प्रोग्रामर नहीं हो सकते। ”

और जब तक लोग इन मौजूदा गैसों के लिए खाते नहीं बनाते हैं जब मानव भाषा पर प्रोग्रामिंग मशीन, वे एक निष्पक्ष मशीन नहीं बनाएंगे, लेकिन एक मशीन जो मानव पूर्वाग्रह की नकल करती है।

"बहुत से लोग सोचते हैं कि मशीनें तटस्थ हैं, " कैलिसन ने कहा। “मशीनें तटस्थ नहीं हैं। यदि आपके पास एक अनुक्रमिक एल्गोरिदम है जो क्रमिक रूप से निर्णय ले रहा है, जैसे कि मशीन सीखना, तो आप जानते हैं कि यह मानव डेटा के एक सेट पर प्रशिक्षित है, और परिणामस्वरूप इसे उस डेटा को प्रस्तुत करना और प्रतिबिंबित करना है, क्योंकि ऐतिहासिक डेटा में पूर्वाग्रह शामिल हैं, प्रशिक्षित मॉडल अगर यह एक अच्छा प्रशिक्षण एल्गोरिथ्म है, तो उन पूर्वाग्रहों को भी शामिल करना होगा। यदि यह पर्याप्त सटीक है, तो यह उन सभी संघों को समझने में सक्षम होगा। मशीन लर्निंग सिस्टम सीखता है कि वह क्या देखता है। ”

कैनन का EOS R फुल-फ्रेम, मिररलेस कैमरा सिस्टम: वह सब कुछ जो आपको जानना आवश्यक है

कैनन का EOS R फुल-फ्रेम, मिररलेस कैमरा सिस्टम: वह सब कुछ जो आपको जानना आवश्यक है

एक गर्म ग्रह तूफान को और अधिक विनाशकारी बना सकता है

एक गर्म ग्रह तूफान को और अधिक विनाशकारी बना सकता है

अपनी मोटरसाइकिल को अपने स्मार्टफोन से कैसे लिंक करें

अपनी मोटरसाइकिल को अपने स्मार्टफोन से कैसे लिंक करें