Last Updated : 28 Jun, 2018 09:26 AM

 

Published : 28 Jun 2018 09:26 AM
Last Updated : 28 Jun 2018 09:26 AM

புள்ளியியலுக்கு மாற்றா தரவு அறிவியல்?

ரவுகளின் வளர்ச்சி துரிதகதியில் நடந்துவருகிறது. ஐபிஎம் அறிக்கையின்படி, தினமும் 2.5 குவிண்டில்லியன் (பில்லியன் பில்லியன்) தரவுகள் உருவாக்கப்படுகின்றன. இது, புதிய வகுப்பினரை உருவாக்கியிருக்கிறது – தரவு விஞ்ஞானிகள். கேள்வி இதுதான்: தரவு அறிவியல் (‘டேட்டா சயின்ஸ்’) என்பது இன்னொரு வகை புதிய தொழிலா அல்லது அறிவியலின் புதிய வடிவமா? ‘21’ எனும் ஹாலிவுட் திரைப்படத்தில், எண்கள் தொடர்பாக அபாரமான அறிவு கொண்ட ஆறு மாணவர்கள், லாஸ் வேகாஸ் கேசினோவின் ‘ப்ளாக்ஜாக்’ சூதாட்டத்தில், எண்கள், சைகைகளை வைத்து பெரிய அளவில் பணம் சேர்ப்பார்கள். அவர்களை நாம் தரவு விஞ்ஞானிகள் என்று சொல்ல முடியுமா?

தரவு அறிவியல் என்பது அறிவியலின் ‘நான்காவது வகைமை’ என்றார் கணினி அறிவியலின் முன்னோடிகளில் ஒருவரான ஜிம் க்ரே. அனுபவ அடிப்படையிலான அறிவியல், கோட்பாட்டு அடிப்படையிலான அறிவியல், கணக்கீட்டு அடிப்படையிலான அறிவியல் ஆகியவை மற்ற மூன்று வகைமைகள். இன்றைக்குக் கையாளப்படும் தரவுகளின் அளவைப் பார்க்கும்போது, அவர் சொன்னது சரியானது என்றே தெரிகிறது. எனினும், தற்காலத்தில் மட்டுமல்ல; அறிவியல் வளர்ச்சியிலும் சரி, அறிவு வளர்ச்சியிலும் சரி, தரவுகள் எப்போதுமே பிரதானப் பங்காற்றியிருக்கின்றன. இரண்டு நூற்றாண்டுகளுக்கு முன்னர், சார்லஸ் டார்வின் முன்வைத்த இயற்கைத் தேர்வு கோட்பாடு, உலகம் முழுவதும் பயணித்து, உன்னிப்பாகக் கவனித்து அவர் சேகரித்த தரவுகளையே பெருமளவில் அடிப்படையாகக் கொண்டது. 150 ஆண்டுகளுக்கு முன்னர், பட்டாணி தொடர்பாக நடத்திய பரிசோதனைகளின் மூலம் சேகரித்த தரவுகளைக் கொண்டு மெண்டல் விதிகளை கிரிகோர் மெண்டல் உருவாக்கினார். எனவே, வரலாற்றுரீதியாகவே, அறிவியல் என்பது தரவுகளின் அடிப்படையில் உருவானது. தற்போது மிக அதிகமான தரவுகள் கிடைக்கின்றன என்பதுதான், இணையம் வந்த பின்னர் ஏற்பட்டிருக்கும் மாற்றம்!

புள்ளியியல் சுவாரஸ்யங்கள்

அமெரிக்கத் தரவுகள் சங்கம் சொல்வதுபோல், புள்ளியியல் என்பது தரவுகளிலிருந்து கற்றுக்கொள்ளப்படும் அறிவியல். எனவே, தரவு அறிவியலைப் புள்ளியியலுடன் குழப்பிக்கொள்ளும் வாய்ப்பு அதிகம். புள்ளியியல் என்பது தரவுகள் அடிப்படையிலான அறிவியல். ஆனால், இது தரவுகள் அளிக்கும் விளக்கங்களின் அடிப்படையில் உருவாக்கப்படும் கோட்பாட்டையே பிரதானமாகக் கொண்டது. 1900-களின் தொடக்கத்தில், ‘ஸ்டூடண்ட்’ எனும் புனைப்பெயரில் ‘கின்னஸ்’ மதுபான நிறுவனத் தரவுகளை அடிப்படையாகக் கொண்டு ‘ஸ்டூடண்ட்ஸ் டி-டிஸ்ட்ரிபியூஷன்’ எனும் கோட்பாட்டை உருவாக்கினார் வில்லியம் கோஸெட். அவர் ஒரு தரவு விஞ்ஞானியா?

புள்ளியியலின் முக்கியமான கோட்பாடுகள் பெரும்பாலும் சிறிய தரவுகளின் அடிப்படையில் உருவாக்கப்பட்டவைதான். 1930-களில் நடந்த ஒரு சுவாரஸ்யமான உதாரணத்தை எடுத்துக்கொள்வோம்:

புகழ்பெற்ற புள்ளியியல் நிபுணர் ஆர்.ஏ.ஃபிஷருடன் பணிபுரிந்த ஒரு பெண், ஒரு கோப்பைத் தேநீரில் முதலில் சேர்க்கப்படுவது பாலா, தேயிலைத் தூளா என்பதைத் தன்னால் கண்டுபிடிக்க முடியும் என்று அவரிடம் சொன்னார். இதைச் சரிபார்க்க, எட்டு கோப்பைகளில் தேநீரைத் தயாரித்துவைத்தார் ஃபிஷர். அவற்றில், முதல் நான்கு கோப்பைகளில் முதலில் பால் சேர்க்கப்பட்டது. அடுத்த நான்கில் முதலில் தேயிலைத் தூள் சேர்க்கப்பட்டது. அந்தப் பெண்ணால், ஆறு கோப்பைகளைச் சரியாக அடையாளம் காண முடிந்தது. அதாவது, ஒவ்வொரு நான்கு கோப்பைகளில் தலா மூன்று கோப்பைகளைச் சரியாகக் கண்டுபிடித்தார். இந்தத் தரவுகளை அடிப்படையாகக் கொண்டு, ‘ஃபிஷர்ஸ் எக்ஸாக்ட் டெஸ்ட்’ எனும் சோதனையைச் செய்தார் ஃபிஷர்.

‘லேடி டேஸ்டிங் டீ’ எனும் இந்தச் சோதனை, பரிசோதனை அடிப்படையிலான தரவுகளின் ரேண்டம் ஆய்வுக்கான இரண்டு முக்கியத் தூண்களில் ஒன்றாக இன்றுவரை திகழ்கிறது.

1960-ல், ‘டேட்டா சயின்ஸ்’ எனும் பதம், கணினி அறிவியலுக்கு ஒரு மாற்றாக பீட்டர் நாரால் பயன்படுத்தப்பட்டது. அவர் எழுதிய ‘கன்சைஸ் சர்வே ஆஃப் கம்ப்யூட்டர் மெத்தட்ஸ்’ எனும் புத்தகம், ‘தரவுகள் தொடர்பான ஒரு அறிவியலே தரவு விஞ்ஞானம்’ என்று குறிப்பிடுகிறது. இன்று, ஒரு தரவு விஞ்ஞானி என்பவருக்கு, கணிதம், அல்காரிதம், பரிசோதனைரீதியான வடிவம், பொறியியல் திறன், தகவல் தொடர்பு மற்றும் மேலாண்மை திறன் ஆகியவை இருக்க வேண்டும் என்று மக்கள் எதிர்பார்க்கிறார்கள். எல்லா விஷயங்களையும் தெரிந்துவைத்திருக்கிறார் என்பதாலேயே ஒருவர் எந்த ஒரு விஷயத்திலும் சிறப்பானவர் என்று ஆகிவிட முடியாது. இருப்பினும், தரவு அறிவியல் என்பது அதிகத் திறன் கொண்ட கணினி மூலம் செய்யப்படும் விஷயமா இல்லையா என்று முடிவெடுப்பதில் மக்கள் இன்னமும் திணறுகிறார்கள்.

என்னைப் பொறுத்தவரை, தரவு அறிவியல் என்பது ஒரு அறிவியல் என்பதைவிட அது ஒரு தொழில்நுட்பம் என்பேன் - குறைந்தபட்சம் அதன் இன்றைய வடிவத்தின் அடிப்படையில்! சரி, இதைத் தரவுத் தொழில்நுட்பம் என்று அழைக்கலாமா? தரவுகளை ‘ஹேக்’ செய்வது, ஆய்வுசெய்வது, தொடர்புகொள்வது, நம்பகத்துக்குரிய வகையில் ஆலோசனை தருவது ஆகிய திறன்களை ஒருங்கே கொண்டவர் ஒரு வெற்றிகரமான தரவு விஞ்ஞானி என்கிறது, 2012-ல் ‘ஹார்வர்டு பிசினஸ் ரிவ்யூ’ இதழில் வெளியான ஒரு கட்டுரை. தரவுகளில் பிழைகளைக் கண்டுபிடித்து நீக்குவது என்பதே தரவு விஞ்ஞானியின் பணிகளில் குறிப்பிடத்தக்கது. இந்த விளக்கம் நிச்சயம் ஒரு புள்ளியியலாளருக்கானது அல்ல.

தரவுகளின் பெருங்கடல்

இன்றைக்கு, தரவுகளின் பெருங்கடலே நம் கையில் இருக்கும் நிலையில், தரவு அறிவியலுக்கான வாய்ப்புகள் அளவற்றவை. எனினும், காலப்போக்கில் மென்பொருட்களே தரவு விஞ்ஞானிகளின் பெரும்பகுதி வேலையை எடுத்துக்கொள்ளும். தரவுக் காட்சிப்படுத்துதலில் ‘டேப்ளூ’ போன்ற கணினி டூல்கள் ஏற்கெனவே பயன்பாட்டில் இருக்கின்றன.

புள்ளியியலானது புதிய தொழில்நுட்பத் தேவைக்கு ஏற்ப, தரவுகளின் அலையைக் கையாளும் புதிய பாணி வழிமுறையிடம் முழுமையாக சரணடைந்துவிடவில்லை. இது, புதிய வகை நிபுணர்களின் வளர்ச்சிக்கு வழிவகுத்திருக்கிறது. இன்றைய ‘பிக் டேட்டா’ யுகத்திலும், பல்வேறு வகையிலான சிறிய தரவுகள் இருப்பது ஒரு பெரிய சவால். அதேசமயம், தரவு சிறிதோ பெரிதோ, அதிலிந்து கோட்பாட்டை உருவாக்கும் கொள்கையிலிருந்து புள்ளியியல் விலகிவிடவில்லை என்பது மகிழ்ச்சி தரும் விஷயம். மென்பொருட்கள் மற்றும் அல்காரிதம்களின் யுகத்தை நோக்கி நாம் சென்றுகொண்டிருக்கிறோம் எனலாம்.

- அதானு பிஸ்வாஸ், பேராசிரியர், இந்தியப் புள்ளியியல் நிறுவனம், கொல்கத்தா.

தி இந்து ஆங்கிலம்

தமிழில்: வெ.சந்திரமோகன்

FOLLOW US

Sign up to receive our newsletter in your inbox every day!

WRITE A COMMENT
 
x