Published : 28 Jun 2018 09:26 am

Updated : 28 Jun 2018 09:26 am

 

Published : 28 Jun 2018 09:26 AM
Last Updated : 28 Jun 2018 09:26 AM

புள்ளியியலுக்கு மாற்றா தரவு அறிவியல்?


ரவுகளின் வளர்ச்சி துரிதகதியில் நடந்துவருகிறது. ஐபிஎம் அறிக்கையின்படி, தினமும் 2.5 குவிண்டில்லியன் (பில்லியன் பில்லியன்) தரவுகள் உருவாக்கப்படுகின்றன. இது, புதிய வகுப்பினரை உருவாக்கியிருக்கிறது – தரவு விஞ்ஞானிகள். கேள்வி இதுதான்: தரவு அறிவியல் (‘டேட்டா சயின்ஸ்’) என்பது இன்னொரு வகை புதிய தொழிலா அல்லது அறிவியலின் புதிய வடிவமா? ‘21’ எனும் ஹாலிவுட் திரைப்படத்தில், எண்கள் தொடர்பாக அபாரமான அறிவு கொண்ட ஆறு மாணவர்கள், லாஸ் வேகாஸ் கேசினோவின் ‘ப்ளாக்ஜாக்’ சூதாட்டத்தில், எண்கள், சைகைகளை வைத்து பெரிய அளவில் பணம் சேர்ப்பார்கள். அவர்களை நாம் தரவு விஞ்ஞானிகள் என்று சொல்ல முடியுமா?

தரவு அறிவியல் என்பது அறிவியலின் ‘நான்காவது வகைமை’ என்றார் கணினி அறிவியலின் முன்னோடிகளில் ஒருவரான ஜிம் க்ரே. அனுபவ அடிப்படையிலான அறிவியல், கோட்பாட்டு அடிப்படையிலான அறிவியல், கணக்கீட்டு அடிப்படையிலான அறிவியல் ஆகியவை மற்ற மூன்று வகைமைகள். இன்றைக்குக் கையாளப்படும் தரவுகளின் அளவைப் பார்க்கும்போது, அவர் சொன்னது சரியானது என்றே தெரிகிறது. எனினும், தற்காலத்தில் மட்டுமல்ல; அறிவியல் வளர்ச்சியிலும் சரி, அறிவு வளர்ச்சியிலும் சரி, தரவுகள் எப்போதுமே பிரதானப் பங்காற்றியிருக்கின்றன. இரண்டு நூற்றாண்டுகளுக்கு முன்னர், சார்லஸ் டார்வின் முன்வைத்த இயற்கைத் தேர்வு கோட்பாடு, உலகம் முழுவதும் பயணித்து, உன்னிப்பாகக் கவனித்து அவர் சேகரித்த தரவுகளையே பெருமளவில் அடிப்படையாகக் கொண்டது. 150 ஆண்டுகளுக்கு முன்னர், பட்டாணி தொடர்பாக நடத்திய பரிசோதனைகளின் மூலம் சேகரித்த தரவுகளைக் கொண்டு மெண்டல் விதிகளை கிரிகோர் மெண்டல் உருவாக்கினார். எனவே, வரலாற்றுரீதியாகவே, அறிவியல் என்பது தரவுகளின் அடிப்படையில் உருவானது. தற்போது மிக அதிகமான தரவுகள் கிடைக்கின்றன என்பதுதான், இணையம் வந்த பின்னர் ஏற்பட்டிருக்கும் மாற்றம்!

புள்ளியியல் சுவாரஸ்யங்கள்

அமெரிக்கத் தரவுகள் சங்கம் சொல்வதுபோல், புள்ளியியல் என்பது தரவுகளிலிருந்து கற்றுக்கொள்ளப்படும் அறிவியல். எனவே, தரவு அறிவியலைப் புள்ளியியலுடன் குழப்பிக்கொள்ளும் வாய்ப்பு அதிகம். புள்ளியியல் என்பது தரவுகள் அடிப்படையிலான அறிவியல். ஆனால், இது தரவுகள் அளிக்கும் விளக்கங்களின் அடிப்படையில் உருவாக்கப்படும் கோட்பாட்டையே பிரதானமாகக் கொண்டது. 1900-களின் தொடக்கத்தில், ‘ஸ்டூடண்ட்’ எனும் புனைப்பெயரில் ‘கின்னஸ்’ மதுபான நிறுவனத் தரவுகளை அடிப்படையாகக் கொண்டு ‘ஸ்டூடண்ட்ஸ் டி-டிஸ்ட்ரிபியூஷன்’ எனும் கோட்பாட்டை உருவாக்கினார் வில்லியம் கோஸெட். அவர் ஒரு தரவு விஞ்ஞானியா?

புள்ளியியலின் முக்கியமான கோட்பாடுகள் பெரும்பாலும் சிறிய தரவுகளின் அடிப்படையில் உருவாக்கப்பட்டவைதான். 1930-களில் நடந்த ஒரு சுவாரஸ்யமான உதாரணத்தை எடுத்துக்கொள்வோம்:

புகழ்பெற்ற புள்ளியியல் நிபுணர் ஆர்.ஏ.ஃபிஷருடன் பணிபுரிந்த ஒரு பெண், ஒரு கோப்பைத் தேநீரில் முதலில் சேர்க்கப்படுவது பாலா, தேயிலைத் தூளா என்பதைத் தன்னால் கண்டுபிடிக்க முடியும் என்று அவரிடம் சொன்னார். இதைச் சரிபார்க்க, எட்டு கோப்பைகளில் தேநீரைத் தயாரித்துவைத்தார் ஃபிஷர். அவற்றில், முதல் நான்கு கோப்பைகளில் முதலில் பால் சேர்க்கப்பட்டது. அடுத்த நான்கில் முதலில் தேயிலைத் தூள் சேர்க்கப்பட்டது. அந்தப் பெண்ணால், ஆறு கோப்பைகளைச் சரியாக அடையாளம் காண முடிந்தது. அதாவது, ஒவ்வொரு நான்கு கோப்பைகளில் தலா மூன்று கோப்பைகளைச் சரியாகக் கண்டுபிடித்தார். இந்தத் தரவுகளை அடிப்படையாகக் கொண்டு, ‘ஃபிஷர்ஸ் எக்ஸாக்ட் டெஸ்ட்’ எனும் சோதனையைச் செய்தார் ஃபிஷர்.

‘லேடி டேஸ்டிங் டீ’ எனும் இந்தச் சோதனை, பரிசோதனை அடிப்படையிலான தரவுகளின் ரேண்டம் ஆய்வுக்கான இரண்டு முக்கியத் தூண்களில் ஒன்றாக இன்றுவரை திகழ்கிறது.

1960-ல், ‘டேட்டா சயின்ஸ்’ எனும் பதம், கணினி அறிவியலுக்கு ஒரு மாற்றாக பீட்டர் நாரால் பயன்படுத்தப்பட்டது. அவர் எழுதிய ‘கன்சைஸ் சர்வே ஆஃப் கம்ப்யூட்டர் மெத்தட்ஸ்’ எனும் புத்தகம், ‘தரவுகள் தொடர்பான ஒரு அறிவியலே தரவு விஞ்ஞானம்’ என்று குறிப்பிடுகிறது. இன்று, ஒரு தரவு விஞ்ஞானி என்பவருக்கு, கணிதம், அல்காரிதம், பரிசோதனைரீதியான வடிவம், பொறியியல் திறன், தகவல் தொடர்பு மற்றும் மேலாண்மை திறன் ஆகியவை இருக்க வேண்டும் என்று மக்கள் எதிர்பார்க்கிறார்கள். எல்லா விஷயங்களையும் தெரிந்துவைத்திருக்கிறார் என்பதாலேயே ஒருவர் எந்த ஒரு விஷயத்திலும் சிறப்பானவர் என்று ஆகிவிட முடியாது. இருப்பினும், தரவு அறிவியல் என்பது அதிகத் திறன் கொண்ட கணினி மூலம் செய்யப்படும் விஷயமா இல்லையா என்று முடிவெடுப்பதில் மக்கள் இன்னமும் திணறுகிறார்கள்.

என்னைப் பொறுத்தவரை, தரவு அறிவியல் என்பது ஒரு அறிவியல் என்பதைவிட அது ஒரு தொழில்நுட்பம் என்பேன் - குறைந்தபட்சம் அதன் இன்றைய வடிவத்தின் அடிப்படையில்! சரி, இதைத் தரவுத் தொழில்நுட்பம் என்று அழைக்கலாமா? தரவுகளை ‘ஹேக்’ செய்வது, ஆய்வுசெய்வது, தொடர்புகொள்வது, நம்பகத்துக்குரிய வகையில் ஆலோசனை தருவது ஆகிய திறன்களை ஒருங்கே கொண்டவர் ஒரு வெற்றிகரமான தரவு விஞ்ஞானி என்கிறது, 2012-ல் ‘ஹார்வர்டு பிசினஸ் ரிவ்யூ’ இதழில் வெளியான ஒரு கட்டுரை. தரவுகளில் பிழைகளைக் கண்டுபிடித்து நீக்குவது என்பதே தரவு விஞ்ஞானியின் பணிகளில் குறிப்பிடத்தக்கது. இந்த விளக்கம் நிச்சயம் ஒரு புள்ளியியலாளருக்கானது அல்ல.

தரவுகளின் பெருங்கடல்

இன்றைக்கு, தரவுகளின் பெருங்கடலே நம் கையில் இருக்கும் நிலையில், தரவு அறிவியலுக்கான வாய்ப்புகள் அளவற்றவை. எனினும், காலப்போக்கில் மென்பொருட்களே தரவு விஞ்ஞானிகளின் பெரும்பகுதி வேலையை எடுத்துக்கொள்ளும். தரவுக் காட்சிப்படுத்துதலில் ‘டேப்ளூ’ போன்ற கணினி டூல்கள் ஏற்கெனவே பயன்பாட்டில் இருக்கின்றன.

புள்ளியியலானது புதிய தொழில்நுட்பத் தேவைக்கு ஏற்ப, தரவுகளின் அலையைக் கையாளும் புதிய பாணி வழிமுறையிடம் முழுமையாக சரணடைந்துவிடவில்லை. இது, புதிய வகை நிபுணர்களின் வளர்ச்சிக்கு வழிவகுத்திருக்கிறது. இன்றைய ‘பிக் டேட்டா’ யுகத்திலும், பல்வேறு வகையிலான சிறிய தரவுகள் இருப்பது ஒரு பெரிய சவால். அதேசமயம், தரவு சிறிதோ பெரிதோ, அதிலிந்து கோட்பாட்டை உருவாக்கும் கொள்கையிலிருந்து புள்ளியியல் விலகிவிடவில்லை என்பது மகிழ்ச்சி தரும் விஷயம். மென்பொருட்கள் மற்றும் அல்காரிதம்களின் யுகத்தை நோக்கி நாம் சென்றுகொண்டிருக்கிறோம் எனலாம்.

- அதானு பிஸ்வாஸ், பேராசிரியர், இந்தியப் புள்ளியியல் நிறுவனம், கொல்கத்தா.

தி இந்து ஆங்கிலம்

தமிழில்: வெ.சந்திரமோகன்


Sign up to receive our newsletter in your inbox every day!

You May Like

More From This Category

More From this Author