कंप्यूटर की दुनिया में मशीन अनुवाद एक आकर्षक चुनौती के रूप में देखा गया है। बहुत मुश्किल भी, किंतु बहुत वांछित भी। हालांकि भारत के कई सरकारी संस्थानों और विश्वविद्यालयों में कई दशकों से अंग्रेजी−हिंदी अनुवाद की परियोजनाएं धूल खा रही हैं लेकिन पश्चिमी दुनिया ने इस दिशा में महत्वपूर्ण सफलताएं अर्जित की हैं। कुछ सरकारी संस्थानों और बहुत सारी निजी कंपनियों ने इस क्षेत्र में इतना काम किया है कि मशीन अनुवाद की चुनौती, कम से कम पश्चिमी भाषाओं के बीच, घटती चली गई है। यूरोपीय भाषाओं के बीच आपसी अनुवाद का स्तर उत्कृष्ट नहीं तो ठीकठाक जरूर है। अलग−अलग भाषा परिवारों के बीच भी अच्छे मशीनी अनुवाद होने लगे हैं, जैसे अंग्रेजी तथा चीनी (मंदारिन) के बीच और अंग्रेजी तथा जापानी के बीच। किंतु जब भारतीय भाषाओं का सवाल आता है तो अंतरराष्ट्रीय स्तर पर भी अभी दिल्ली दूर दिखती है।कुछ अरसा पहले गूगल ने पांच और भारतीय भाषाओं में मशीनी अनुवाद की सुविधा शुरू की है। ये भाषाएं हैं− बंगला, गुजराती, तमिल, तेलुगू और कन्नड। हिंदी और उर्दू इसमें पहले ही शामिल कर ली गई थीं, इसलिए कुल मिलाकर सात भारतीय भाषाओं को गूगल ट्रांसलेट (translate.google.com) परियोजना के दायरे में ले आया गया है। खबर इस लिहाज से बहुत अच्छी है कि यह भारतीय भाषाओं के विकास क्रम को एक कदम आगे बढ़ाती है। तकनीकी दुनिया को इन भाषाओं के लिहाज से तैयार करने का जो ताजा दौर यूनिकोड के आगमन के साथ शुरू हुआ, वह इन भाषाओं का इस्तेमाल करने वाले करोड़ों भारतीयों को लाभान्वित करते हुए आगे बढ़ रहा है। किंतु किसी सुविधा का उपलब्ध हो जाना एक बात है और उसका उपयोगी सिद्ध होना दूसरी बात। गूगल ट्रांसलेट के संदर्भ में पहला और अहम सवाल यही उठता है कि क्या भारतीय भाषाओं को दुनिया की दूसरी भाषाओं के साथ पारस्परिक अनुवाद के मशीनी मंच पर ले आना एक प्रतीकात्मक मील−पत्थर भर है या वह व्यावहारिक संदर्भों में भी उपयोगी है? क्या इस मशीनी अनुवाद की गुणवत्ता इतनी है कि उस पर आंख मूंदकर भरोसा किया जा सके?
गूगल ने पिछले पांच−छह साल के भीतर ही भारतीय भाषाओं के लिए तकनीकी क्षेत्र में इतना कार्य कर दिया है जो (माइक्रोसॉफ्ट को छोड़कर) किसी अन्य कंपनी ने पिछले तीन दशकों में भी नहीं किया था। इतनी सी अवधि में उसने अपने सर्च इंजन के भारतीय भाषाई संस्करण शुरू किए, ब्लॉगर और जीमेल में भारतीय भाषाओं का समर्थन शुरू किया, हमारी भाषाओं में कंप्यूटर इनपुट देने के लिए कुछ बेहद सरल किंतु बेहद उपयोगी टूल (आईएमई, ट्रांसलिटरेशन टूल आदि) तैयार किए, भारतीय लिपियों के बीच पारस्परिक रूपांतर की सटीक सुविधा शुरू की, ऑनलाइन ऑफिस सॉफ्टवेयर में हमारी भाषाओं के लिए समर्थन शुरू किया और अब अनुवाद की सुविधा लेकर आया है। उसकी ज्यादातर परियोजनाओं की गुणवत्ता उच्च स्तरीय रही है। लेकिन दुर्भाग्य से अनुवाद के बारे में यही बात नहीं कही जा सकती। यहां गूगल के नजरिए में कुछ बुनियादी दिक्कतें दिखाई देती हैं।
मशीन अनुवाद और मानवीय मेधा
मशीनी अनुवाद मानवीय मेधा और तर्क−शक्ति के आगे हमेशा नतमस्तक ही रहेगा। लेकिन मशीन के पीछे भी इंसानी दिमाग ही है जो प्रयास करना नहीं छोड़ता। यही वजह है कि अंग्रेजी से हिंदी और हिंदी से अंग्रेजी अनुवाद सुविधा में धीरे−धीरे, क्रमिक सुधार आ रहा है। लेकिन ये अनुवाद कब विश्वसनीयता के स्तर तक पहुंचेगे, कहा नहीं जा सकता। इस मायने में हाल ही में जुड़ी नई भाषाओं की स्थिति और भी कमजोर प्रतीत होती है। इस बात को खुद गूगल भी महसूस करता है और इसीलिए उसने अपने ब्लॉग में पहले ही साफ किया है कि पश्चिमी भाषाओं और भारतीय भाषाओं में वाक्य विन्यास का ढांचा अलग−अलग है और इसीलिए उनके बीच आपस में अनुवाद टेढ़ी खीर है। इसके मुकाबले में यूरोपीय भाषाओं के बीच आपसी अनुवाद अपेक्षाकृत ज्यादा सटीक हो जाते हैं क्योंकि उनका व्याकरणिक ढांचा काफी हद तक मिलता−जुलता है। मशीन अनुवाद की दुनिया में यह एक मान्य तथ्य है। और उतना ही मान्य तथ्य यह है कि ब्राह्मी से उद्भूत भारतीय भाषाओं का व्याकरणिक ढांचा भी इसी तर्ज पर मिलता−जुलता है। इसलिए यूरोपीय भाषाओं के साथ उनके मशीन−अनुवादीय−संबंध भले ही उतने अनुकूल न हों, एक उत्तर भारतीय भाषा से दूसरी उत्तर भारतीय भाषा में अनुवाद करना अपेक्षाकृत आसान चुनौती है।
गूगल ट्रांसलेट इस पैमाने पर कितना खरा या खोटा उतरता है, यह जिज्ञासा आपको भी जरूर होगी। मैंने जब गूगल ट्रांसलेट में स्रोत के रूप में हिंदी का सीधा−सरल और छोटा सा वाक्य डाला− 'भारत मेरा देश है।' गूगल ने इसका गुजराती अनुवाद कुछ यूं किया− 'इन्डिया मारो देश।' इसी का बंगला अनुवाद काफी सटीक दिखाई दिया− 'भारत आमार देश।' कुछ और वाक्यों के अनुवाद भी पचास से अस्सी फीसदी तक की शुद्धता के साथ किए गए। लेकिन थोड़े भी जटिल वाक्य डालने पर अनुवाद बिगड़ जाते हैं। यह थोड़ा चौंकाने वाला है। अंग्रेजी से भारतीय भाषाओं में अनुवाद त्रुटिपूर्ण हो, यह असामान्य बात नहीं है। लेकिन एक ही भाषा परिवार (भारोपीय) और एक ही मातृ लिपि से उद्भूत (ब्राह्मी) भाषाओं के बीच आपसी अनुवाद यदि पचास−साठ प्रतिशत तक ही शुद्धता से किया जाए तो यह थोड़ा आश्चर्य पैदा करता है, खासकर तब जबकि गूगल के भाषायी एल्गोरिद्म श्रेष्ठतम माने जाते हैं।
भारतीय विश्वविद्यालयों का काम
इस लिहाज से, पटियाला विश्वविद्यालय द्वारा उपलब्ध कराई गई हिंदी−पंजाबी अनुवाद की सुविधा बहुत प्रभावशाली महसूस होती है। मुझे लगता है कि परिवर्तन के तौर पर, गूगल इस भारतीय संस्थान से एकाध बातें सीख सकता है। आईआईटी हैदराबाद द्वारा संचालित अनुसारक भी एक कारगर परियोजना बताई गई थी लेकिन अब वह इंटरनेट पर दिखाई नहीं देती। यह मशीन अनुवाद परियोजना भारतीय भाषाओं के बीच आपसी अनुवाद पर आधारित है। दूसरी तरफ अंग्रेजी और हिंदी के बीच कड़ी बनने की महत्वाकांक्षा के साथ दशकों से जारी अन्य भारतीय मशीन अनुवाद परियोजनाओं− आंग्ल भारती, मंत्र राजभाषा, मात्रा आदि से सैद्धांतिक व्याख्यान और प्रचार अधिक, परिणाम कम प्राप्त हुए हैं।
गूगल ट्रांसलेट के अनुवादों का अध्ययन करने से उन कारणों का भी अनुमान लगता है, जो संभवतरू इस परियोजना की सीमा बन जाते हैं। इस परियोजना में मध्यवर्ती भाषा के रूप में संभवत: अंग्रेजी का प्रयोग हुआ है। यानी जब आप हिंदी से गुजराती में अनुवाद करना चाहते हैं तो वह दो चरणों में सम्पन्न होता है− पहले हिंदी से अंग्रेजी अनुवाद और फिर अंग्रेजी से गुजराती अनुवाद। दुनिया की ज्यादातर अनुवाद प्रणालियां इसी तरह काम करती हैं क्योंकि दो भाषाओं के बीच सीधे अनुवाद ज्यादा लंबी प्रक्रिया है। किसी परियोजना में शामिल सत्तर भाषाओं के बीच आपस में सीधे, स्वतंत्र अनुवाद की व्यवस्था करने के लिए लगभग पांच हजार अनुवाद परियोजनाएं (जैसे हिंदी−गुजराती, हिंदी−बंगला, हिंदी−तमिल आदि) चलानी होंगी, जबकि किसी एक भाषा को मध्यवर्ती (लिंक) भाषा के रूप में इस्तेमाल करने पर सिर्फ 140 परियोजनाओं (जैसे हिंदी−अंग्रेजी, अंग्रेजी−गुजराती) की जरूरत पड़ेगी। सभी भाषाओं की सामग्री को अंग्रेजी में अनुवाद करने की व्यवस्था तैयार होने के बाद सिर्फ अंग्रेजी सामग्री को दूसरी भाषाओं में बदलने की व्यवस्था बनाने की जरूरत पड़ेगी। इसे यूँ समझिए कि हिंदी से अंग्रेजी में अनुवाद की व्यवस्था तैयार होने पर हिंदी सामग्री का अनुवाद सिर्फ अंग्रेजी तक सीमित नहीं रहेगा, बल्कि उन सभी भाषाओं तक पहुंच जाएगा, जिनमें अंग्रेजी पाठ अनूदित हो सकता है। इस अप्रत्यक्ष व्यवस्था से हिंदी सामग्री का 70 भाषाओं मे अनुवाद संभव हो जाएगा, जबकि विकास सिर्फ हिंदी−अंग्रेजी अनुवाद प्रणाली का ही किया गया है।
अंग्रेजी को अनुवाद की लिंक भाषा बनाए जाने से अनुवाद की इस प्रक्रिया में वे सभी समस्याएं भी खड़ी हो जाती हैं, जो यूरोपीय भाषाओं के पाठ को भारतीय भाषाओं के पाठ में बदलने के दौरान आती हैं। यही कारण है कि 'भारत मेरा देश' का गुजराती अनुवाद 'भारत मारो देश छे' की बजाए 'इंडिया मारो देश' हो जाता है। भारतीय भाषाओं बीच आपस में अनुवाद का एक अलग तंत्र बनाए जाने की जरूरत है जो अंग्रेजी पर आधारित न हो। भले ही विश्व की अन्य भाषाओं के सदर्भ में अंग्रेजी को लिंक भाषा के रूप में इस्तेमाल किया जा सकता है। इससे गूगल के अनुवाद की गुणवत्ता में और सुधार हो सकेगा। हालांकि गूगल ट्रांसलेट का भारतीय भाषा भाग अभी प्रारंभिक अवस्था में ही है। उम्मीद की जानी चाहिए कि उसकी क्वालिटी में और सुधार आएगा और भारतीय भाषाएं इस सुविधा के जरिए और सम्पन्न तथा लोकप्रिय होंगी।