Balendu Sharma Dadhich
रचनाः बालेन्दु शर्मा दाधीच
तिथिः 19 मार्च 2013
श्रेणीः  मशीन अनुवाद
प्रकाशनः शुक्रवार पत्रिका
टैगः  गूगल

लब्बोलुआबः

गूगल ट्रांसलेट के संदर्भ में पहला और अहम सवाल यही उठता है कि क्या भारतीय भाषाओं को दुनिया की दूसरी भाषाओं के साथ पारस्परिक अनुवाद के मशीनी मंच पर ले आना एक प्रतीकात्मक मील−पत्थर भर है या वह व्यावहारिक संदर्भों में भी उपयोगी है? क्या इस मशीनी अनुवाद की गुणवत्ता इतनी है कि उस पर आंख मूंदकर भरोसा किया जा सके?

Summary:

Google has covered many Indian languages, including Hindi, under its 'Google Translate' project and the initial results look promising. Can we hope that in a few years we would have access to a free and credible translation system involving Indian language?
मशीनी अनुवादः प्रभावशाली किंतु क्या विश्वसनीय भी?

- बालेन्दु शर्मा दाधीच

कंप्यूटर की दुनिया में मशीन अनुवाद एक आकर्षक चुनौती के रूप में देखा गया है। बहुत मुश्किल भी, किंतु बहुत वांछित भी। हालांकि भारत के कई सरकारी संस्थानों और विश्वविद्यालयों में कई दशकों से अंग्रेजी−हिंदी अनुवाद की परियोजनाएं धूल खा रही हैं लेकिन पश्चिमी दुनिया ने इस दिशा में महत्वपूर्ण सफलताएं अर्जित की हैं। कुछ सरकारी संस्थानों और बहुत सारी निजी कंपनियों ने इस क्षेत्र में इतना काम किया है कि मशीन अनुवाद की चुनौती, कम से कम पश्चिमी भाषाओं के बीच, घटती चली गई है। यूरोपीय भाषाओं के बीच आपसी अनुवाद का स्तर उत्कृष्ट नहीं तो ठीकठाक जरूर है। अलग−अलग भाषा परिवारों के बीच भी अच्छे मशीनी अनुवाद होने लगे हैं, जैसे अंग्रेजी तथा चीनी (मंदारिन) के बीच और अंग्रेजी तथा जापानी के बीच। किंतु जब भारतीय भाषाओं का सवाल आता है तो अंतरराष्ट्रीय स्तर पर भी अभी दिल्ली दूर दिखती है।

कुछ अरसा पहले गूगल ने पांच और भारतीय भाषाओं में मशीनी अनुवाद की सुविधा शुरू की है। ये भाषाएं हैं− बंगला, गुजराती, तमिल, तेलुगू और कन्नड। हिंदी और उर्दू इसमें पहले ही शामिल कर ली गई थीं, इसलिए कुल मिलाकर सात भारतीय भाषाओं को गूगल ट्रांसलेट (translate.google.com) परियोजना के दायरे में ले आया गया है। खबर इस लिहाज से बहुत अच्छी है कि यह भारतीय भाषाओं के विकास क्रम को एक कदम आगे बढ़ाती है। तकनीकी दुनिया को इन भाषाओं के लिहाज से तैयार करने का जो ताजा दौर यूनिकोड के आगमन के साथ शुरू हुआ, वह इन भाषाओं का इस्तेमाल करने वाले करोड़ों भारतीयों को लाभान्वित करते हुए आगे बढ़ रहा है। किंतु किसी सुविधा का उपलब्ध हो जाना एक बात है और उसका उपयोगी सिद्ध होना दूसरी बात। गूगल ट्रांसलेट के संदर्भ में पहला और अहम सवाल यही उठता है कि क्या भारतीय भाषाओं को दुनिया की दूसरी भाषाओं के साथ पारस्परिक अनुवाद के मशीनी मंच पर ले आना एक प्रतीकात्मक मील−पत्थर भर है या वह व्यावहारिक संदर्भों में भी उपयोगी है? क्या इस मशीनी अनुवाद की गुणवत्ता इतनी है कि उस पर आंख मूंदकर भरोसा किया जा सके?

गूगल ने पिछले पांच−छह साल के भीतर ही भारतीय भाषाओं के लिए तकनीकी क्षेत्र में इतना कार्य कर दिया है जो (माइक्रोसॉफ्ट को छोड़कर) किसी अन्य कंपनी ने पिछले तीन दशकों में भी नहीं किया था। इतनी सी अवधि में उसने अपने सर्च इंजन के भारतीय भाषाई संस्करण शुरू किए, ब्लॉगर और जीमेल में भारतीय भाषाओं का समर्थन शुरू किया, हमारी भाषाओं में कंप्यूटर इनपुट देने के लिए कुछ बेहद सरल किंतु बेहद उपयोगी टूल (आईएमई, ट्रांसलिटरेशन टूल आदि) तैयार किए, भारतीय लिपियों के बीच पारस्परिक रूपांतर की सटीक सुविधा शुरू की, ऑनलाइन ऑफिस सॉफ्टवेयर में हमारी भाषाओं के लिए समर्थन शुरू किया और अब अनुवाद की सुविधा लेकर आया है। उसकी ज्यादातर परियोजनाओं की गुणवत्ता उच्च स्तरीय रही है। लेकिन दुर्भाग्य से अनुवाद के बारे में यही बात नहीं कही जा सकती। यहां गूगल के नजरिए में कुछ बुनियादी दिक्कतें दिखाई देती हैं।

मशीन अनुवाद और मानवीय मेधा

मशीनी अनुवाद मानवीय मेधा और तर्क−शक्ति के आगे हमेशा नतमस्तक ही रहेगा। लेकिन मशीन के पीछे भी इंसानी दिमाग ही है जो प्रयास करना नहीं छोड़ता। यही वजह है कि अंग्रेजी से हिंदी और हिंदी से अंग्रेजी अनुवाद सुविधा में धीरे−धीरे, क्रमिक सुधार आ रहा है। लेकिन ये अनुवाद कब विश्वसनीयता के स्तर तक पहुंचेगे, कहा नहीं जा सकता। इस मायने में हाल ही में जुड़ी नई भाषाओं की स्थिति और भी कमजोर प्रतीत होती है। इस बात को खुद गूगल भी महसूस करता है और इसीलिए उसने अपने ब्लॉग में पहले ही साफ किया है कि पश्चिमी भाषाओं और भारतीय भाषाओं में वाक्य विन्यास का ढांचा अलग−अलग है और इसीलिए उनके बीच आपस में अनुवाद टेढ़ी खीर है। इसके मुकाबले में यूरोपीय भाषाओं के बीच आपसी अनुवाद अपेक्षाकृत ज्यादा सटीक हो जाते हैं क्योंकि उनका व्याकरणिक ढांचा काफी हद तक मिलता−जुलता है। मशीन अनुवाद की दुनिया में यह एक मान्य तथ्य है। और उतना ही मान्य तथ्य यह है कि ब्राह्मी से उद्भूत भारतीय भाषाओं का व्याकरणिक ढांचा भी इसी तर्ज पर मिलता−जुलता है। इसलिए यूरोपीय भाषाओं के साथ उनके मशीन−अनुवादीय−संबंध भले ही उतने अनुकूल न हों, एक उत्तर भारतीय भाषा से दूसरी उत्तर भारतीय भाषा में अनुवाद करना अपेक्षाकृत आसान चुनौती है।

गूगल ट्रांसलेट इस पैमाने पर कितना खरा या खोटा उतरता है, यह जिज्ञासा आपको भी जरूर होगी। मैंने जब गूगल ट्रांसलेट में स्रोत के रूप में हिंदी का सीधा−सरल और छोटा सा वाक्य डाला− 'भारत मेरा देश है।' गूगल ने इसका गुजराती अनुवाद कुछ यूं किया− 'इन्डिया मारो देश।' इसी का बंगला अनुवाद काफी सटीक दिखाई दिया− 'भारत आमार देश।' कुछ और वाक्यों के अनुवाद भी पचास से अस्सी फीसदी तक की शुद्धता के साथ किए गए। लेकिन थोड़े भी जटिल वाक्य डालने पर अनुवाद बिगड़ जाते हैं। यह थोड़ा चौंकाने वाला है। अंग्रेजी से भारतीय भाषाओं में अनुवाद त्रुटिपूर्ण हो, यह असामान्य बात नहीं है। लेकिन एक ही भाषा परिवार (भारोपीय) और एक ही मातृ लिपि से उद्भूत (ब्राह्मी) भाषाओं के बीच आपसी अनुवाद यदि पचास−साठ प्रतिशत तक ही शुद्धता से किया जाए तो यह थोड़ा आश्चर्य पैदा करता है, खासकर तब जबकि गूगल के भाषायी एल्गोरिद्म श्रेष्ठतम माने जाते हैं।

भारतीय विश्वविद्यालयों का काम

इस लिहाज से, पटियाला विश्वविद्यालय द्वारा उपलब्ध कराई गई हिंदी−पंजाबी अनुवाद की सुविधा बहुत प्रभावशाली महसूस होती है। मुझे लगता है कि परिवर्तन के तौर पर, गूगल इस भारतीय संस्थान से एकाध बातें सीख सकता है। आईआईटी हैदराबाद द्वारा संचालित अनुसारक भी एक कारगर परियोजना बताई गई थी लेकिन अब वह इंटरनेट पर दिखाई नहीं देती। यह मशीन अनुवाद परियोजना भारतीय भाषाओं के बीच आपसी अनुवाद पर आधारित है। दूसरी तरफ अंग्रेजी और हिंदी के बीच कड़ी बनने की महत्वाकांक्षा के साथ दशकों से जारी अन्य भारतीय मशीन अनुवाद परियोजनाओं− आंग्ल भारती, मंत्र राजभाषा, मात्रा आदि से सैद्धांतिक व्याख्यान और प्रचार अधिक, परिणाम कम प्राप्त हुए हैं।

गूगल ट्रांसलेट के अनुवादों का अध्ययन करने से उन कारणों का भी अनुमान लगता है, जो संभवतरू इस परियोजना की सीमा बन जाते हैं। इस परियोजना में मध्यवर्ती भाषा के रूप में संभवत: अंग्रेजी का प्रयोग हुआ है। यानी जब आप हिंदी से गुजराती में अनुवाद करना चाहते हैं तो वह दो चरणों में सम्पन्न होता है− पहले हिंदी से अंग्रेजी अनुवाद और फिर अंग्रेजी से गुजराती अनुवाद। दुनिया की ज्यादातर अनुवाद प्रणालियां इसी तरह काम करती हैं क्योंकि दो भाषाओं के बीच सीधे अनुवाद ज्यादा लंबी प्रक्रिया है। किसी परियोजना में शामिल सत्तर भाषाओं के बीच आपस में सीधे, स्वतंत्र अनुवाद की व्यवस्था करने के लिए लगभग पांच हजार अनुवाद परियोजनाएं (जैसे हिंदी−गुजराती, हिंदी−बंगला, हिंदी−तमिल आदि) चलानी होंगी, जबकि किसी एक भाषा को मध्यवर्ती (लिंक) भाषा के रूप में इस्तेमाल करने पर सिर्फ 140 परियोजनाओं (जैसे हिंदी−अंग्रेजी, अंग्रेजी−गुजराती) की जरूरत पड़ेगी। सभी भाषाओं की सामग्री को अंग्रेजी में अनुवाद करने की व्यवस्था तैयार होने के बाद सिर्फ अंग्रेजी सामग्री को दूसरी भाषाओं में बदलने की व्यवस्था बनाने की जरूरत पड़ेगी। इसे यूँ समझिए कि हिंदी से अंग्रेजी में अनुवाद की व्यवस्था तैयार होने पर हिंदी सामग्री का अनुवाद सिर्फ अंग्रेजी तक सीमित नहीं रहेगा, बल्कि उन सभी भाषाओं तक पहुंच जाएगा, जिनमें अंग्रेजी पाठ अनूदित हो सकता है। इस अप्रत्यक्ष व्यवस्था से हिंदी सामग्री का 70 भाषाओं मे अनुवाद संभव हो जाएगा, जबकि विकास सिर्फ हिंदी−अंग्रेजी अनुवाद प्रणाली का ही किया गया है।

अंग्रेजी को अनुवाद की लिंक भाषा बनाए जाने से अनुवाद की इस प्रक्रिया में वे सभी समस्याएं भी खड़ी हो जाती हैं, जो यूरोपीय भाषाओं के पाठ को भारतीय भाषाओं के पाठ में बदलने के दौरान आती हैं। यही कारण है कि 'भारत मेरा देश' का गुजराती अनुवाद 'भारत मारो देश छे' की बजाए 'इंडिया मारो देश' हो जाता है। भारतीय भाषाओं बीच आपस में अनुवाद का एक अलग तंत्र बनाए जाने की जरूरत है जो अंग्रेजी पर आधारित न हो। भले ही विश्व की अन्य भाषाओं के सदर्भ में अंग्रेजी को लिंक भाषा के रूप में इस्तेमाल किया जा सकता है। इससे गूगल के अनुवाद की गुणवत्ता में और सुधार हो सकेगा। हालांकि गूगल ट्रांसलेट का भारतीय भाषा भाग अभी प्रारंभिक अवस्था में ही है। उम्मीद की जानी चाहिए कि उसकी क्वालिटी में और सुधार आएगा और भारतीय भाषाएं इस सुविधा के जरिए और सम्पन्न तथा लोकप्रिय होंगी।

तकनीकी तेवर
पिछले आलेखः
फ़ेसबुक पर लाइक करें