ਨਹੀਂ ਆਉਂਦੀ ਅੰਗਰੇਜ਼ੀ? ਹਿੰਦੀ ‘ਚ AI ਨਾਲ ਗੱਲ ਕਰਨਾ ਪੈ ਸਕਦਾ ਹੈ ਮਹਿੰਗਾ, ਲੱਗ ਰਿਹਾ ਲੈਂਗਵੇਜ ਟੈਕਸ
AI Language Tax: ਤੁਹਾਨੂੰ ਇਹ ਜਾਣ ਕੇ ਹੈਰਾਨੀ ਹੋਵੇਗੀ ਕਿ ਜੋ ਲੋਕ ਅੰਗਰੇਜ਼ੀ ਦੀ ਬਜਾਏ ਹਿੰਦੀ ਜਾਂ ਕਿਸੇ ਹੋਰ ਭਾਸ਼ਾ ਵਿੱਚ AI ਨਾਲ ਗੱਲ ਕਰਦੇ ਹਨ, ਉਨ੍ਹਾਂ ਲਈ ਇਹ ਵੱਧ ਮਹਿੰਗਾ ਸਾਬਤ ਹੋ ਸਕਦਾ ਹੈ। ਆਖ਼ਿਰ ਅਜਿਹਾ ਕਿਉਂ ਹੁੰਦਾ ਹੈ ਅਤੇ ਇਸ ਦੇ ਪਿੱਛੇ ਕੀ ਕਾਰਨ ਹੈ? ਆਓ ਤੁਹਾਨੂੰ ਸਮਝਾਉਂਦੇ ਹਾਂ ਕਿ ਪੂਰਾ ਮਾਮਲਾ ਕੀ ਹੈ।
ਅੰਗਰੇਜ਼ੀ ਤੋਂ ਇਲਾਵਾ ਜੇਕਰ ਤੁਸੀਂ ਹਿੰਦੀ ਜਾਂ ਕਿਸੇ ਹੋਰ ਭਾਸ਼ਾ ਵਿੱਚ AI ਨਾਲ ਗੱਲ ਕਰਦੇ ਹੋ, ਤਾਂ AI ਚੈਟਬੋਟ ਦੀ ਵਰਤੋਂ ਤੁਹਾਡੇ ਲਈ ਮਹਿੰਗੀ ਪੈ ਸਕਦੀ ਹੈ। OpenAI, Anthropic ਅਤੇ Google ਵਰਗੀਆਂ ਕੰਪਨੀਆਂ ਆਪਣੇ ਨਵੇਂ AI ਮਾਡਲਾਂ ਨੂੰ ਅਜਿਹੇ ਟੂਲ ਵਜੋਂ ਪੇਸ਼ ਕਰਦੀਆਂ ਹਨ ਜੋ ਹਰ ਕਿਸੇ ਲਈ ਇੱਕੋ ਜਿਹਾ ਕੰਮ ਕਰਦੇ ਹਨ, ਭਾਵੇਂ ਉਹ ਕਿੱਥੇ ਵੀ ਰਹਿੰਦੇ ਹੋਣ ਜਾਂ ਕੋਈ ਵੀ ਭਾਸ਼ਾ ਬੋਲਦੇ ਹੋਣ। ਪਰ ਖੋਜਕਰਤਾਵਾਂ ਦੇ ਨਵੇਂ ਅੰਕੜਿਆਂ ਤੋਂ ਪਤਾ ਲੱਗਿਆ ਹੈ ਕਿ ਜੋ ਯੂਜ਼ਰ ਹਿੰਦੀ, ਅਰਬੀ ਅਤੇ ਚੀਨੀ ਵਰਗੀਆਂ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ AI ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ, ਉਨ੍ਹਾਂ ਨੂੰ ਅੰਗਰੇਜ਼ੀ ਵਿੱਚ AI ਨਾਲ ਗੱਲ ਕਰਨ ਵਾਲਿਆਂ ਦੇ ਮੁਕਾਬਲੇ ਅਸਲ ਵਿੱਚ ਵੱਧ ਖਰਚਾ ਕਰਨਾ ਪੈ ਸਕਦਾ ਹੈ।
ਇਸਦਾ ਕਾਰਨ ਕੀ ਹੈ?
ਇਹ ਇਸ ਗੱਲ ‘ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ ਕਿ AI ਮਾਡਲ ਭਾਸ਼ਾ ਨੂੰ ਕਿਵੇਂ ਪ੍ਰੋਸੈਸ ਕਰਦਾ ਹੈ। ਹਿੰਦੀ ਵਿੱਚ ਦਿੱਤਾ ਗਿਆ ਉਹੀ ਪ੍ਰੌਮਪਟ (ਨਿਰਦੇਸ਼) ਅੰਗਰੇਜ਼ੀ ਦੇ ਮੁਕਾਬਲੇ ਕਾਫ਼ੀ ਵੱਧ ਟੋਕਨ ਪੈਦਾ ਕਰ ਸਕਦਾ ਹੈ। ਟੋਕਨ ਉਹ ਇਕਾਈਆਂ ਹੁੰਦੀਆਂ ਹਨ ਜਿਨ੍ਹਾਂ ਦੀ ਵਰਤੋਂ AI ਸਿਸਟਮ ਟੈਕਸਟ ਨੂੰ ਪੜ੍ਹਨ, ਸਮਝਣ ਅਤੇ ਪ੍ਰੋਸੈਸ ਕਰਨ ਲਈ ਕਰਦਾ ਹੈ। ਸੌਖੇ ਸ਼ਬਦਾਂ ਵਿੱਚ ਕਹੀਏ ਤਾਂ, ਇੱਕੋ ਗੱਲ ਹਿੰਦੀ ਵਿੱਚ ਲਿਖਣ ਜਾਂ ਪੁੱਛਣ ‘ਤੇ AI ਨੂੰ ਅੰਗਰੇਜ਼ੀ ਦੇ ਮੁਕਾਬਲੇ ਵੱਧ ਟੋਕਨ ਖਰਚ ਕਰਨੇ ਪੈਂਦੇ ਹਨ। ਇਸੇ ਕਾਰਨ ਅੰਗਰੇਜ਼ੀ ਤੋਂ ਇਲਾਵਾ ਹੋਰ ਭਾਸ਼ਾਵਾਂ ਦੇ ਯੂਜ਼ਰਾਂ ਲਈ AI ਦੀ ਵਰਤੋਂ ਕਈ ਵਾਰ ਵੱਧ ਮਹਿੰਗੀ ਸਾਬਤ ਹੋ ਸਕਦੀ ਹੈ।
ਲੈਂਗਵੇਜ ਟੈਕਸ, ਕੀ ਹੈ ਪੂਰਾ ਮਾਮਲਾ?
ਖੋਜਕਰਤਾ ਅਤੇ ਡਿਵੈਲਪਰ ਇਸ ਨੂੰ ਅਕਸਰ ਲੈਂਗਵੇਜ ਟੈਕਸ ਕਹਿੰਦੇ ਹਨ। ਇਹ ਇੱਕ ਲੁਕਿਆ ਹੋਇਆ ਖਰਚ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ, ਜੋ ਇਸ ਗੱਲ ਕਰਕੇ ਪੈਦਾ ਹੁੰਦਾ ਹੈ ਕਿ AI ਮਾਡਲ ਵੱਖ-ਵੱਖ ਭਾਸ਼ਾਵਾਂ ਨੂੰ ਕਿਵੇਂ ਪ੍ਰੋਸੈਸ ਕਰਦੇ ਹਨ। ਕੁਝ ਹਫ਼ਤੇ ਪਹਿਲਾਂ, Aran Komatsuzaki ਨੇ ਇੱਕ ਪ੍ਰਯੋਗ ਬਾਰੇ ਜਾਣਕਾਰੀ ਦਿੱਤੀ ਸੀ, ਜਿਸ ਵਿੱਚ OpenAI ਅਤੇ Anthropic ਦੇ ਟੋਕਨਾਈਜ਼ਰਾਂ ਵੱਲੋਂ ਵੱਖ-ਵੱਖ ਭਾਸ਼ਾਵਾਂ ਦੇ ਟੈਕਸਟ ਨੂੰ ਪ੍ਰੋਸੈਸ ਕਰਨ ਦੇ ਤਰੀਕੇ ਦਾ ਅਧਿਐਨ ਕੀਤਾ ਗਿਆ। AI ਖੋਜਕਰਤਾ Rich Sutton ਦੇ ਮਸ਼ਹੂਰ ਲੇਖ The Bitter Lesson ਨੂੰ ਮਾਪਦੰਡ (Benchmark) ਵਜੋਂ ਵਰਤਦਿਆਂ, ਕੋਮਾਤਸੁਜ਼ਾਕੀ ਨੇ ਉਸ ਟੈਕਸਟ ਦਾ ਕਈ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਅਨੁਵਾਦ ਕੀਤਾ ਅਤੇ ਫਿਰ ਇਹ ਦੇਖਿਆ ਕਿ ਵੱਖ-ਵੱਖ AI ਸਿਸਟਮ ਉਸੇ ਸਮੱਗਰੀ ਲਈ ਕਿੰਨੇ ਟੋਕਨ ਤਿਆਰ ਕਰਦੇ ਹਨ। ਇਸ ਪ੍ਰਯੋਗ ਦਾ ਮਕਸਦ ਇਹ ਸਮਝਣਾ ਸੀ ਕਿ ਭਾਸ਼ਾ ਬਦਲਣ ਨਾਲ AI ਦੀ ਲਾਗਤ ਅਤੇ ਟੋਕਨ ਦੀ ਖਪਤ ‘ਤੇ ਕਿੰਨਾ ਅਸਰ ਪੈਂਦਾ ਹੈ।
ਨਤੀਜਿਆਂ ਤੋਂ ਪਤਾ ਲੱਗਿਆ ਕਿ ਅੰਗਰੇਜ਼ੀ ਅਤੇ ਹੋਰ ਭਾਸ਼ਾਵਾਂ ਵਿਚਕਾਰ ਕਾਫ਼ੀ ਵੱਡਾ ਅੰਤਰ ਮੌਜੂਦ ਹੈ। ਵਿਸ਼ਲੇਸ਼ਣ ਅਨੁਸਾਰ, OpenAI ਦੇ ਟੋਕਨਾਈਜ਼ਰ ‘ਤੇ ਹਿੰਦੀ ਟੈਕਸਟ ਨੂੰ ਪ੍ਰੋਸੈਸ ਕਰਨ ਲਈ ਅੰਗਰੇਜ਼ੀ ਦੇ ਮੁਕਾਬਲੇ ਲਗਭਗ 1.37 ਗੁਣਾ ਵੱਧ ਟੋਕਨਾਂ ਦੀ ਲੋੜ ਪਈ। ਉੱਥੇ ਹੀ, Anthropic ਦੇ Claude ਟੋਕਨਾਈਜ਼ਰ ਵਿੱਚ ਇਹ ਅੰਕੜਾ ਹੋਰ ਵੀ ਵੱਧ ਗਿਆ ਅਤੇ ਹਿੰਦੀ ਲਈ 3.24 ਗੁਣਾ ਵੱਧ ਟੋਕਨਾਂ ਦੀ ਲੋੜ ਦਰਜ ਕੀਤੀ ਗਈ। Claude ਵਿੱਚ ਅਰਬੀ ਭਾਸ਼ਾ ਲਈ 2.86 ਗੁਣਾ ਅਤੇ ਚੀਨੀ ਭਾਸ਼ਾ ਲਈ 1.71 ਗੁਣਾ ਵੱਧ ਟੋਕਨਾਂ ਦੀ ਲੋੜ ਪਈ। ਇਹ ਅੰਕੜੇ ਦਰਸਾਉਂਦੇ ਹਨ ਕਿ ਇੱਕੋ ਜਿਹੀ ਜਾਣਕਾਰੀ ਨੂੰ ਵੱਖ-ਵੱਖ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਪ੍ਰੋਸੈਸ ਕਰਨ ਲਈ AI ਸਿਸਟਮ ਨੂੰ ਵੱਖਰੀ ਮਾਤਰਾ ਵਿੱਚ ਟੋਕਨਾਂ ਦੀ ਲੋੜ ਪੈਂਦੀ ਹੈ, ਜਿਸ ਕਾਰਨ ਅੰਗਰੇਜ਼ੀ ਤੋਂ ਇਲਾਵਾ ਹੋਰ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ AI ਦੀ ਵਰਤੋਂ ਕਈ ਵਾਰ ਵੱਧ ਮਹਿੰਗੀ ਸਾਬਤ ਹੋ ਸਕਦੀ ਹੈ।