Saturday, August 31, 2024

आयरिस डेटा सेट

संख्याशास्त्र, डेटा अनालिसिस आणि मशीन लर्निंग क्षेत्रामध्ये वापरण्यात येणाऱ्या डेटासेट्समध्ये आजवर सर्वात लोकप्रिय असणारा डेटासेट म्हणजे आयरिस डेटासेट होय. आयरिस नावाच्या एका निळ्या रानटी फुलाचा हा डेटासेट आहे. आयरिसचा अर्थ मानवी डोळ्यांतील बुबूळे असा देखील होतो. परंतु याच नावाचे रानटी फुल देखील आहे, याची बऱ्याच कमी लोकांना माहिती आहे.
सुमारे ९० वर्षांपूर्वी जीवशास्त्रज्ञ एडगर अँडरसन याने या डेटासेटची निर्मिती केली होती. आयरिस फुलाच्या एकूण तीन प्रजाती आहेत…. सेटोसा, वर्जिनिका आणि वर्सीकलर. त्याने या तीनही प्रजातींची फुले जमा केली. आणि त्यांच्या पाकळ्यांची उंची व जाडी तसेच बाह्यकोषाची उंची आणि जाडी सेंटीमीटरमध्ये नोंदवून हा डेटासेट तयार केला होता. एका वेगळ्या प्रयोगासाठी त्याला माहिती जमा करायची होते म्हणूनच त्याने या डेटासेटची निर्मिती केली. परंतु आयरिसच्या या माहितीपूर्ण डेटासेटला लोकप्रिय करण्याचे काम संख्याशास्त्रज्ञ व गणितज्ञ रोनाल्ड फिशर यांनी केले. संख्याशास्त्रातील लिनियर डिस्क्रिमिनंट अनालिसिस या संकल्पनेला सिद्ध करण्यासाठी त्यांनी आयरिस डेटासेटचा सर्वप्रथम वापर केला. अँडरसने तयार केलेल्या मूळ डेटासेटमध्ये सुसूत्रता आणून त्यांनी तीनही प्रजातींचे समान पन्नास नमुने जमा केले होते. आज संख्याशास्त्र आणि मशीन लर्निंगमधील जवळपास प्रत्येक अल्गोरिथमची सिद्धता तपासण्यासाठी आयरिस डेटासेटचा वापर केला जात आहे. याशिवाय आर प्रोग्रामिंग आणि पायथॉन प्रोग्रामिंगच्या अंतर्गत लायब्ररीमध्ये देखील या डेटासेटचा अंतर्भाव करण्यात आलेला आहे. शिवाय याचा आकार देखील लहान असल्याने त्यावरील करण्यात येणारे प्रयोग देखील अतिशय कमी वेळामध्ये सादर करता येतात. 

--- तुषार भ. कुटे



No comments:

Post a Comment

to: tushar.kute@gmail.com