Published : 07 Jul 2018 09:03 AM
Last Updated : 07 Jul 2018 09:03 AM

தொழில் ரகசியம்: டேட்டாவை ஆராய்வது முக்கியம்...

கூகுளில் நாம் கேட்கும் கேள்விகள், தேடும் செய்திகள் அனைத்தும் மனித மனதை புரிந்துகொள்ள உதவும் டேட்டா என்பது பற்றி சில வாரங்களுக்கு முன் இங்கு பேசியது நினைவிருக்கலாம். மறந்தவர்களும் மற்றவர்களும் படிக்க வசதியாக `தி இந்து’ இணைய லிங்க்: (http://tamil.thehindu.com/business/article24064223.ece) நம் தேடல், கேள்விகளை விடுங்கள், மனித மனங்களை புரிந்துகொள்ள இன்டர்நெட் டேட்டா எக்ஸ்பர்ட்ஸ் பயன்படுத்தும் இன்னொரு வகை டேட்டா நாம் பிரயோகிக்கும் வார்த்தைகள். மனித பாஷைகளை ஆய்வு செய்வதில் சமூக உளவியலாளர்களுக்கு என்றுமே தனி ஆர்வம். ஆனால் பாஷைகளை ஆய்வு செய்ய எழுதப்பட்ட அத்தனை உரைகளையும் படித்து டேட்டாவாய் மாற்றவேண்டும். அது லேசுபட்ட காரியமல்ல. அதனால் உரைகளை ஆய்வு செய்வது முடியாததாக இருந்தது. கம்ப்யூட்டரும் டிஜிட்டல் தொழில்நுட்பம் வெகுவாக வளர்ந்திருக்கும் இக்காலத்தில் உரைகளையும் அதிலுள்ள வார்த்தைகளையும் அட்டவணைப்படுத்துவது எளிதாகியிருக்கிறது. அதனால் மனித பாஷைகளையும் வார்த்தைகளையும் ஆய்வு செய்வதும் எளிதாகியிருக்கிறது.

இத்துறையில் பெரிய மாற்றம் கொண்டு வந்திருக்கிறது கூகுளின் புதிய சேவையான `கூகுள் என்க்ராம்ஸ்’ (Ngrams). உலகிலுள்ள கோடிக்கணக்கான புத்தகங்களை டிஜிட்டல் வடிவமாக்கியிருக்கிறது கூகுள். ரொம்ப இல்லை. சுமார் 5.2 மில்லியன் புத்தகங்கள். கிட்டத்தட்ட 2 பில்லியன் வார்த்தைகள் மற்றும் சொற்றொடர்கள். 1800 முதல் 2010ஆம் ஆண்டு வரை வெளியிடப்பட்ட புத்தகங்கள் இவை. இக்காலகட்டத்தில் பேசப்பட்ட பாஷை முதல் பிரயோகித்த வார்த்தைகள் வரை அக்குவேறு ஆணிவேறாக பிரித்து மேய்ந்து ஆராயத்தக்கதாகி இருக்கின்றன.

உதாரணத்திற்கு, சாசேஜ் (Sausage) என்பது ஒரு வகை இறைச்சி. 1940 வரை அச்சடிக்கப்பட்ட உரைகளில் அதிகம் காணப்படாத இந்த வார்த்தை கடந்த அறுபது வருடங்களில் மட்டும் அதிகம் பயன்படுத்தப்பட்டிருக்கிறது. காரணம்? பீட்ஸா என்ற வார்த்தை அதே கால கட்டத்தில் அதிகம் வளர்ந்திருப்பதால். ஒரு வகை பீட்ஸா உட்பொருளாக சாசேஜ் இருப்பதால். அதே போல் 1840 வரை உரைகளில் ‘கடவுள்’ என்ற வார்த்தை அதிகம் காணப்பட, அதன் பிறகு படிப்படியாக அது குறைந்து வருகிறது.

இதே போன்ற இன்னொரு சுவையான கதையை ‘Uncharted’ என்ற புத்தகத்தில் விளக்குகிறார்கள் ‘இரஸ் ஏய்டன்’ மற்றும் ‘ஜீன் பேப்டிஸ் மைக்கில்’ என்னும் உயிரியலாளர்கள். அமெரிக்காவை ‘United States’ என்பார்கள். அந்த நாட்டைப் பற்றி பேசும்போது ‘United States is’ என்று துவங்குகிறோம். ஆனால் இலக்கண ரீதியாக `United States are’ என்றல்லவா கூறவேண்டும்? ஐக்கிய மாநிலங்கள் என்பது ஒருமை அல்ல, பன்மை தானே. ஏன் இப்படி கூறுகிறோம்?

இது புரிய இச்சொற்றொடரின் வரலாற்றை புரிந்துகொள்ள வேண்டியிருக்கிறது. ஒரு காலம் வரை அமெரிக்கா மாநிலங்கள் தங்களை `மாநிலங்களின் சேகரிப்பு’ என்று கருதின. அதனால் அமெரிக்காவை பற்றி பேசும் போதும் ’Unites States are’ என்றே அனைவரும் கூறினர். இது எப்பொழுது மாறி அமெரிக்க மாநிலங்கள் தங்களை மாநிலங்களின் சேகரிப்பாக கருதாமல் ஒரே நாடாக கருத துவங்கின என்பதில் வரலாற்று ஆசிரியர்களுக்கு பல காலமாகவே குழப்பம். பலர் 1861 முதல் 1865 வரை நடந்த அமெரிக்க உள்நாட்டு போர் (American Civil War) முடிந்தவுடன் மாநிலங்கள் அனைத்தும் ஒரு நாடாக தங்களை கருதத் துவங்கின என்றே கருதினர். கூகுள் என்க்ராம்ஸ் மூலம் இது தவறு என்பது இப்பொழுது தெரிய வந்திருக்கிறது. அமெரிக்க புத்தகங்களில் எப்பொழுது முதல் `Unites States are’ என்ற சொற்றொடரை மறந்து ‘United States is’ என்று எழுதத் துவங்கினார்கள் என்று என்க்ராம்ஸ் மூலம் ஆராய்ந்தனர். பலர் நினைத்தது போல் உள்நாட்டு போர் முடிந்த மாத்திரம் இது நடக்கவில்லை என்பதும் பல காலத்திற்குப் பிறகு படிப்படியாகத் தான் குறைந்தது என்பதும் கண்டுபிடிக்கப்பட்டிருக்கிறது. மாநிலங்கள் தங்கள் வேற்றுமைகளை மறந்து ஒன்று சேர ஒரு போர் மட்டும் தேவைப்படாது என்பது புரிந்தது!

மாநிலங்கள் சேர்வதை விடுங்கள். ஆண், பெண் சேர்வதைக் கூட வார்த்தைகள் மூலம் கண்டுபிடிக்க முடியும். ஆணும் பெண்ணும் முதல் முறை டேட்டிங் செய்து சந்திக்கும் போது ஒருவரை ஒருவர் பிடித்து மீண்டும் சந்திப்பார்களா என்பதை அவர்கள் பேசும் வார்த்தைகள் மூலம் கண்டுபிடிக்க முடியும் என்று ஆய்வுகள் மூலம் நிரூபித்திருக்கிறார்கள் ‘ஸ்டான்ஃபர்ட்’ மற்றும் ‘நார்த்வெஸ்டர்ன்’ பல்கலைக்கழக ஆய்வாளர்கள். டேட்டிங் செய்பவர்களிடம் டேப் ரிகார்டரை தந்து அவர்கள் பேசுவதை ரிகார்ட் செய்து அதை டிஜிடைஸ் செய்து அதை ஆய்வு செய்தனர். (முதல் டேட்டிங் என்பதால் அவர்களுக்குள் பேச்சு மட்டும் தான் நடந்தது என்பது குறிப்பிடத்தக்கது!)

முதல் சந்திப்பிலேயே மனதிலுள்ள எண்ணங்களை நாம் மற்றவரிடம் பகிர்வதில்லை. ஆனால் நம்மையறியாமல் பேசும் வார்த்தைகள் மூலம் நம் ஆழ்மனது எண்ணங்களை வெளிப்படுத்துகிறோம். பெண்ணின் குரலை விட ஆண் தன் குரலை தாழ்த்தி பேசினால் அவளை அவனுக்கு பிடித்திருக்கிறது என்று அர்த்தமாம். அடுத்த முறை காதலர்கள் பேசுவதை கவனியுங்கள். ஆண் குரலை விட பெண் குரல் சற்று உரக்க இருக்கும். எப்படியும் திருமனத்திற்கு பிறகு அவள் பேச்சைத் தானே கேட்கவேண்டும் என்று காதலிக்கும்போதே பழகுகிறோம் போலிருக்கிறது. இதனால் தான் Mother tongue என்கிறார்கள் போலும். Father tongue என்று யாராவது கூற கேட்டிருக்கிறீர்களா!

பெண் தன் பேச்சில் `நான்’, ‘என்’ என்று தன்னைப் பற்றி அதிகம் பேசினால் அவளுக்கு ஆணை பிடித்திருக்கிறது என்று அர்த்தமாம். ‘உங்களுக்கு தெரியுமா’, ‘நான் என்ன சொல்ல வரேன்னா’ என்று பெண் பேச துவங்கினால் ‘உன்னை மீண்டும் சந்திக்க ஆசையாய் இருக்கிறது’ என்று அவள் சொல்லாமல் சொல்கிறாள். முதல் டேட்டில் இருவரும் மற்றவரை ஏகத்திற்கு கேள்வி கேட்டால் அவர்களுக்குள் வில்லங்கம் என்று அர்த்தமாம். ‘உனக்கு கூடப் பிறந்தவர் எத்தனை பேர்’, ‘உன் பொழுது போக்கு என்ன’ என்று மற்றவரை கேள்விகள் கேட்டு நச்சரித்தால் அனேகமாய் அவர்கள் மீண்டும் சந்திப்பது சந்தேகம் தானாம். இது போல் விவரிக்க இன்னமும் கூட சுவாரசியமான விஷயம் இருக்கிறது. இந்த வயதிற்கு உங்களுக்கும் எனக்கும் இது போதும்!

உரையிலுள்ள வார்த்தைகள் மூலம் கூறப்படும் விஷயம் படிப்பவர் மனநிலையை மகிழ்ச்சியாக்குமா, சோகமாக்குமா என்று கூட சொல்ல முடியும் என்கிறார்கள் ஆய்வாளர்கள். இதை `உணர்வு ஆய்வு’ (Sentiment Analysis) என்கிறார்கள். இதைப் பற்றி ‘Everybody Lies’ என்கிற புத்தகத்தில் விளக்குகிறார் ‘செத்-ஸ்டீஃபன்ஸ் டேவிடோவிட்ஸ்‘. பெருவாரியான மக்களிடம் ஆய்வாளர்கள் ஆயிரக்கணக்கான ஆங்கில வார்த்தைகளை கூறி அவை பாசிடிவாக தெரிகிறதா, நெகடிவாக படுகிறதா என்று தெரிந்து வைத்திருக்கிறார்கள். இதன் மூலம் நூற்றுக்கணக்கான வார்த்தைகளை கூறும் போது ஏற்படும் மனநிலையை அட்டவணை செய்திருக்கிறார்கள். இதன் மூலம் உரைகளை படிப்பவர்களின் மனநிலையை அளவிட முடியும் என்கிறார்கள்.

‘கலிஃபோர்னியா பல்கலைக்கழக’த்தைச் சேர்ந்த ஆய்வாளர்கள் இதற்கு ஒரு படி மேலே சென்று இணையத்திலிருந்து ஆயிரக்கணக்கான புத்தகங்கள், ஹாலிவுட் திரைக்கதைகளை டவுன்லோட் செய்து ஆராய்ந்திருக்கிறார்கள். புத்தகம் படிக்கையில் படம் பார்க்கையில் ரசிகர்கள் மனநிலையை வரைபடமாக்கி புரிந்துகொள்ள முடியும் என்று நிரூபித்திருக்கிறார்கள். இந்த டெக்னிக்கை வைத்து என்னவெல்லாம் செய்ய முடியும் என்று பாருங்கள். காலப்போக்கில் கதைகளின் வடிவம் எவ்வாறு மாறி வந்திருக்கிறது என்று கணக்கிட முடியும். கதைகள் சிம்பிளாகியிருக்கின்றனவா அல்லது சிக்கலாகியிருக்கின்றனவா என்று பார்க்க முடியும். மக்களுக்கு எவ்வகையான கதைகள் பிடிக்கிறது என்று தெரிந்துகொள்ள முடியும். ஆண்களுக்கும் பெண்களுக்கும் எந்தெந்த விதமான கதைகள் பிடிக்கும் என்று புரிந்துகொள்ள முடியும். கலாசார மாற்றங்கள் எப்படி மனிதர்களின் விருப்பு வெறுப்புக்களை பாதிக்கின்றன என்று அறிந்துகொள்ள முடியும். இப்படி பட்டியலிட்டுக்கொண்டே போகலாம்.

பல பத்திரிகைகள் செய்திகளை தங்கள் சார்புநிலைக்கேற்ப எழுதும். கேட்டால் `நாங்கள் எப்பொழுதுமே நடுநிலையாக்கும்’ என்று அண்டப்புளுகு புளுகுவார்கள். இந்த கதை நம்மூரில் மட்டுமல்ல, அமெரிக்காவிலும் உண்டு. பத்திரிகைகள் டிஜிடைஸ் செய்யப்பட்டு வரும் இக்காலத்தில் பத்திரிகைகள் பிரயோகித்து வரும் வார்த்தைகளை அலசி ஆராய்ந்து எவை நடுநிலையானவை எவை சார்புநிலையோடு எழுதுபவை என்பதை தோலுரித்துக் காட்டியிருக்கிறார்கள்

தமிழ் கூறும் நல்லுலகத்திலும் இது போல் என்க்ராம்ஸ், உணர்வு ஆய்வு என்று ஏகப்பட்டது செய்ய முடியும். விஷய ஞானிகள் செய்தால் தேவலை. அதையெல்லாம் விட்டு தமிழை அம்மா, தாயே என்று சொல்லிச் சொல்லியே சமையல் அறைக்குள் மட்டும் சுருக்கி வைத்திருக்கிறோம். அதனால் தானோ என்னவோ தமிழில் சமையல் புத்தகங்கள் தான் அதிகம் விற்கின்றன. தமிழை கொஞ்சத்துக்கு கொஞ்சம் ‘மதர்’ ஆக்கினால் புண்ணியமாகப் போகும்!

 

satheeshkrishnamurthy@gmail.com

Sign up to receive our newsletter in your inbox every day!

 
x