Published : 07 Jul 2018 09:03 AM
Last Updated : 07 Jul 2018 09:03 AM

தொழில் ரகசியம்: டேட்டாவை ஆராய்வது முக்கியம்...

கூகுளில் நாம் கேட்கும் கேள்விகள், தேடும் செய்திகள் அனைத்தும் மனித மனதை புரிந்துகொள்ள உதவும் டேட்டா என்பது பற்றி சில வாரங்களுக்கு முன் இங்கு பேசியது நினைவிருக்கலாம். மறந்தவர்களும் மற்றவர்களும் படிக்க வசதியாக `தி இந்து’ இணைய லிங்க்: (http://tamil.thehindu.com/business/article24064223.ece) நம் தேடல், கேள்விகளை விடுங்கள், மனித மனங்களை புரிந்துகொள்ள இன்டர்நெட் டேட்டா எக்ஸ்பர்ட்ஸ் பயன்படுத்தும் இன்னொரு வகை டேட்டா நாம் பிரயோகிக்கும் வார்த்தைகள். மனித பாஷைகளை ஆய்வு செய்வதில் சமூக உளவியலாளர்களுக்கு என்றுமே தனி ஆர்வம். ஆனால் பாஷைகளை ஆய்வு செய்ய எழுதப்பட்ட அத்தனை உரைகளையும் படித்து டேட்டாவாய் மாற்றவேண்டும். அது லேசுபட்ட காரியமல்ல. அதனால் உரைகளை ஆய்வு செய்வது முடியாததாக இருந்தது. கம்ப்யூட்டரும் டிஜிட்டல் தொழில்நுட்பம் வெகுவாக வளர்ந்திருக்கும் இக்காலத்தில் உரைகளையும் அதிலுள்ள வார்த்தைகளையும் அட்டவணைப்படுத்துவது எளிதாகியிருக்கிறது. அதனால் மனித பாஷைகளையும் வார்த்தைகளையும் ஆய்வு செய்வதும் எளிதாகியிருக்கிறது.

இத்துறையில் பெரிய மாற்றம் கொண்டு வந்திருக்கிறது கூகுளின் புதிய சேவையான `கூகுள் என்க்ராம்ஸ்’ (Ngrams). உலகிலுள்ள கோடிக்கணக்கான புத்தகங்களை டிஜிட்டல் வடிவமாக்கியிருக்கிறது கூகுள். ரொம்ப இல்லை. சுமார் 5.2 மில்லியன் புத்தகங்கள். கிட்டத்தட்ட 2 பில்லியன் வார்த்தைகள் மற்றும் சொற்றொடர்கள். 1800 முதல் 2010ஆம் ஆண்டு வரை வெளியிடப்பட்ட புத்தகங்கள் இவை. இக்காலகட்டத்தில் பேசப்பட்ட பாஷை முதல் பிரயோகித்த வார்த்தைகள் வரை அக்குவேறு ஆணிவேறாக பிரித்து மேய்ந்து ஆராயத்தக்கதாகி இருக்கின்றன.

உதாரணத்திற்கு, சாசேஜ் (Sausage) என்பது ஒரு வகை இறைச்சி. 1940 வரை அச்சடிக்கப்பட்ட உரைகளில் அதிகம் காணப்படாத இந்த வார்த்தை கடந்த அறுபது வருடங்களில் மட்டும் அதிகம் பயன்படுத்தப்பட்டிருக்கிறது. காரணம்? பீட்ஸா என்ற வார்த்தை அதே கால கட்டத்தில் அதிகம் வளர்ந்திருப்பதால். ஒரு வகை பீட்ஸா உட்பொருளாக சாசேஜ் இருப்பதால். அதே போல் 1840 வரை உரைகளில் ‘கடவுள்’ என்ற வார்த்தை அதிகம் காணப்பட, அதன் பிறகு படிப்படியாக அது குறைந்து வருகிறது.

இதே போன்ற இன்னொரு சுவையான கதையை ‘Uncharted’ என்ற புத்தகத்தில் விளக்குகிறார்கள் ‘இரஸ் ஏய்டன்’ மற்றும் ‘ஜீன் பேப்டிஸ் மைக்கில்’ என்னும் உயிரியலாளர்கள். அமெரிக்காவை ‘United States’ என்பார்கள். அந்த நாட்டைப் பற்றி பேசும்போது ‘United States is’ என்று துவங்குகிறோம். ஆனால் இலக்கண ரீதியாக `United States are’ என்றல்லவா கூறவேண்டும்? ஐக்கிய மாநிலங்கள் என்பது ஒருமை அல்ல, பன்மை தானே. ஏன் இப்படி கூறுகிறோம்?

இது புரிய இச்சொற்றொடரின் வரலாற்றை புரிந்துகொள்ள வேண்டியிருக்கிறது. ஒரு காலம் வரை அமெரிக்கா மாநிலங்கள் தங்களை `மாநிலங்களின் சேகரிப்பு’ என்று கருதின. அதனால் அமெரிக்காவை பற்றி பேசும் போதும் ’Unites States are’ என்றே அனைவரும் கூறினர். இது எப்பொழுது மாறி அமெரிக்க மாநிலங்கள் தங்களை மாநிலங்களின் சேகரிப்பாக கருதாமல் ஒரே நாடாக கருத துவங்கின என்பதில் வரலாற்று ஆசிரியர்களுக்கு பல காலமாகவே குழப்பம். பலர் 1861 முதல் 1865 வரை நடந்த அமெரிக்க உள்நாட்டு போர் (American Civil War) முடிந்தவுடன் மாநிலங்கள் அனைத்தும் ஒரு நாடாக தங்களை கருதத் துவங்கின என்றே கருதினர். கூகுள் என்க்ராம்ஸ் மூலம் இது தவறு என்பது இப்பொழுது தெரிய வந்திருக்கிறது. அமெரிக்க புத்தகங்களில் எப்பொழுது முதல் `Unites States are’ என்ற சொற்றொடரை மறந்து ‘United States is’ என்று எழுதத் துவங்கினார்கள் என்று என்க்ராம்ஸ் மூலம் ஆராய்ந்தனர். பலர் நினைத்தது போல் உள்நாட்டு போர் முடிந்த மாத்திரம் இது நடக்கவில்லை என்பதும் பல காலத்திற்குப் பிறகு படிப்படியாகத் தான் குறைந்தது என்பதும் கண்டுபிடிக்கப்பட்டிருக்கிறது. மாநிலங்கள் தங்கள் வேற்றுமைகளை மறந்து ஒன்று சேர ஒரு போர் மட்டும் தேவைப்படாது என்பது புரிந்தது!

மாநிலங்கள் சேர்வதை விடுங்கள். ஆண், பெண் சேர்வதைக் கூட வார்த்தைகள் மூலம் கண்டுபிடிக்க முடியும். ஆணும் பெண்ணும் முதல் முறை டேட்டிங் செய்து சந்திக்கும் போது ஒருவரை ஒருவர் பிடித்து மீண்டும் சந்திப்பார்களா என்பதை அவர்கள் பேசும் வார்த்தைகள் மூலம் கண்டுபிடிக்க முடியும் என்று ஆய்வுகள் மூலம் நிரூபித்திருக்கிறார்கள் ‘ஸ்டான்ஃபர்ட்’ மற்றும் ‘நார்த்வெஸ்டர்ன்’ பல்கலைக்கழக ஆய்வாளர்கள். டேட்டிங் செய்பவர்களிடம் டேப் ரிகார்டரை தந்து அவர்கள் பேசுவதை ரிகார்ட் செய்து அதை டிஜிடைஸ் செய்து அதை ஆய்வு செய்தனர். (முதல் டேட்டிங் என்பதால் அவர்களுக்குள் பேச்சு மட்டும் தான் நடந்தது என்பது குறிப்பிடத்தக்கது!)

முதல் சந்திப்பிலேயே மனதிலுள்ள எண்ணங்களை நாம் மற்றவரிடம் பகிர்வதில்லை. ஆனால் நம்மையறியாமல் பேசும் வார்த்தைகள் மூலம் நம் ஆழ்மனது எண்ணங்களை வெளிப்படுத்துகிறோம். பெண்ணின் குரலை விட ஆண் தன் குரலை தாழ்த்தி பேசினால் அவளை அவனுக்கு பிடித்திருக்கிறது என்று அர்த்தமாம். அடுத்த முறை காதலர்கள் பேசுவதை கவனியுங்கள். ஆண் குரலை விட பெண் குரல் சற்று உரக்க இருக்கும். எப்படியும் திருமனத்திற்கு பிறகு அவள் பேச்சைத் தானே கேட்கவேண்டும் என்று காதலிக்கும்போதே பழகுகிறோம் போலிருக்கிறது. இதனால் தான் Mother tongue என்கிறார்கள் போலும். Father tongue என்று யாராவது கூற கேட்டிருக்கிறீர்களா!

பெண் தன் பேச்சில் `நான்’, ‘என்’ என்று தன்னைப் பற்றி அதிகம் பேசினால் அவளுக்கு ஆணை பிடித்திருக்கிறது என்று அர்த்தமாம். ‘உங்களுக்கு தெரியுமா’, ‘நான் என்ன சொல்ல வரேன்னா’ என்று பெண் பேச துவங்கினால் ‘உன்னை மீண்டும் சந்திக்க ஆசையாய் இருக்கிறது’ என்று அவள் சொல்லாமல் சொல்கிறாள். முதல் டேட்டில் இருவரும் மற்றவரை ஏகத்திற்கு கேள்வி கேட்டால் அவர்களுக்குள் வில்லங்கம் என்று அர்த்தமாம். ‘உனக்கு கூடப் பிறந்தவர் எத்தனை பேர்’, ‘உன் பொழுது போக்கு என்ன’ என்று மற்றவரை கேள்விகள் கேட்டு நச்சரித்தால் அனேகமாய் அவர்கள் மீண்டும் சந்திப்பது சந்தேகம் தானாம். இது போல் விவரிக்க இன்னமும் கூட சுவாரசியமான விஷயம் இருக்கிறது. இந்த வயதிற்கு உங்களுக்கும் எனக்கும் இது போதும்!

உரையிலுள்ள வார்த்தைகள் மூலம் கூறப்படும் விஷயம் படிப்பவர் மனநிலையை மகிழ்ச்சியாக்குமா, சோகமாக்குமா என்று கூட சொல்ல முடியும் என்கிறார்கள் ஆய்வாளர்கள். இதை `உணர்வு ஆய்வு’ (Sentiment Analysis) என்கிறார்கள். இதைப் பற்றி ‘Everybody Lies’ என்கிற புத்தகத்தில் விளக்குகிறார் ‘செத்-ஸ்டீஃபன்ஸ் டேவிடோவிட்ஸ்‘. பெருவாரியான மக்களிடம் ஆய்வாளர்கள் ஆயிரக்கணக்கான ஆங்கில வார்த்தைகளை கூறி அவை பாசிடிவாக தெரிகிறதா, நெகடிவாக படுகிறதா என்று தெரிந்து வைத்திருக்கிறார்கள். இதன் மூலம் நூற்றுக்கணக்கான வார்த்தைகளை கூறும் போது ஏற்படும் மனநிலையை அட்டவணை செய்திருக்கிறார்கள். இதன் மூலம் உரைகளை படிப்பவர்களின் மனநிலையை அளவிட முடியும் என்கிறார்கள்.

‘கலிஃபோர்னியா பல்கலைக்கழக’த்தைச் சேர்ந்த ஆய்வாளர்கள் இதற்கு ஒரு படி மேலே சென்று இணையத்திலிருந்து ஆயிரக்கணக்கான புத்தகங்கள், ஹாலிவுட் திரைக்கதைகளை டவுன்லோட் செய்து ஆராய்ந்திருக்கிறார்கள். புத்தகம் படிக்கையில் படம் பார்க்கையில் ரசிகர்கள் மனநிலையை வரைபடமாக்கி புரிந்துகொள்ள முடியும் என்று நிரூபித்திருக்கிறார்கள். இந்த டெக்னிக்கை வைத்து என்னவெல்லாம் செய்ய முடியும் என்று பாருங்கள். காலப்போக்கில் கதைகளின் வடிவம் எவ்வாறு மாறி வந்திருக்கிறது என்று கணக்கிட முடியும். கதைகள் சிம்பிளாகியிருக்கின்றனவா அல்லது சிக்கலாகியிருக்கின்றனவா என்று பார்க்க முடியும். மக்களுக்கு எவ்வகையான கதைகள் பிடிக்கிறது என்று தெரிந்துகொள்ள முடியும். ஆண்களுக்கும் பெண்களுக்கும் எந்தெந்த விதமான கதைகள் பிடிக்கும் என்று புரிந்துகொள்ள முடியும். கலாசார மாற்றங்கள் எப்படி மனிதர்களின் விருப்பு வெறுப்புக்களை பாதிக்கின்றன என்று அறிந்துகொள்ள முடியும். இப்படி பட்டியலிட்டுக்கொண்டே போகலாம்.

பல பத்திரிகைகள் செய்திகளை தங்கள் சார்புநிலைக்கேற்ப எழுதும். கேட்டால் `நாங்கள் எப்பொழுதுமே நடுநிலையாக்கும்’ என்று அண்டப்புளுகு புளுகுவார்கள். இந்த கதை நம்மூரில் மட்டுமல்ல, அமெரிக்காவிலும் உண்டு. பத்திரிகைகள் டிஜிடைஸ் செய்யப்பட்டு வரும் இக்காலத்தில் பத்திரிகைகள் பிரயோகித்து வரும் வார்த்தைகளை அலசி ஆராய்ந்து எவை நடுநிலையானவை எவை சார்புநிலையோடு எழுதுபவை என்பதை தோலுரித்துக் காட்டியிருக்கிறார்கள்

தமிழ் கூறும் நல்லுலகத்திலும் இது போல் என்க்ராம்ஸ், உணர்வு ஆய்வு என்று ஏகப்பட்டது செய்ய முடியும். விஷய ஞானிகள் செய்தால் தேவலை. அதையெல்லாம் விட்டு தமிழை அம்மா, தாயே என்று சொல்லிச் சொல்லியே சமையல் அறைக்குள் மட்டும் சுருக்கி வைத்திருக்கிறோம். அதனால் தானோ என்னவோ தமிழில் சமையல் புத்தகங்கள் தான் அதிகம் விற்கின்றன. தமிழை கொஞ்சத்துக்கு கொஞ்சம் ‘மதர்’ ஆக்கினால் புண்ணியமாகப் போகும்!

 

satheeshkrishnamurthy@gmail.com

FOLLOW US

Sign up to receive our newsletter in your inbox every day!

WRITE A COMMENT
 
x