संख्याशास्त्र, डेटा अनालिसिस आणि मशीन लर्निंग क्षेत्रामध्ये वापरण्यात
येणाऱ्या डेटासेट्समध्ये आजवर सर्वात लोकप्रिय असणारा डेटासेट म्हणजे आयरिस
डेटासेट होय. आयरिस नावाच्या एका निळ्या रानटी फुलाचा हा डेटासेट आहे.
आयरिसचा अर्थ मानवी डोळ्यांतील बुबूळे असा देखील होतो. परंतु याच नावाचे
रानटी फुल देखील आहे, याची बऱ्याच कमी लोकांना माहिती आहे.
सुमारे ९०
वर्षांपूर्वी जीवशास्त्रज्ञ एडगर अँडरसन याने या डेटासेटची निर्मिती केली
होती. आयरिस फुलाच्या एकूण तीन प्रजाती आहेत…. सेटोसा, वर्जिनिका आणि
वर्सीकलर. त्याने या तीनही प्रजातींची फुले जमा केली. आणि त्यांच्या
पाकळ्यांची उंची व जाडी तसेच बाह्यकोषाची उंची आणि जाडी सेंटीमीटरमध्ये
नोंदवून हा डेटासेट तयार केला होता. एका वेगळ्या प्रयोगासाठी त्याला माहिती
जमा करायची होते म्हणूनच त्याने या डेटासेटची निर्मिती केली. परंतु
आयरिसच्या या माहितीपूर्ण डेटासेटला लोकप्रिय करण्याचे काम
संख्याशास्त्रज्ञ व गणितज्ञ रोनाल्ड फिशर यांनी केले. संख्याशास्त्रातील
लिनियर डिस्क्रिमिनंट अनालिसिस या संकल्पनेला सिद्ध करण्यासाठी त्यांनी
आयरिस डेटासेटचा सर्वप्रथम वापर केला. अँडरसने तयार केलेल्या मूळ
डेटासेटमध्ये सुसूत्रता आणून त्यांनी तीनही प्रजातींचे समान पन्नास नमुने
जमा केले होते. आज संख्याशास्त्र आणि मशीन लर्निंगमधील जवळपास प्रत्येक
अल्गोरिथमची सिद्धता तपासण्यासाठी आयरिस डेटासेटचा वापर केला जात आहे.
याशिवाय आर प्रोग्रामिंग आणि पायथॉन प्रोग्रामिंगच्या अंतर्गत
लायब्ररीमध्ये देखील या डेटासेटचा अंतर्भाव करण्यात आलेला आहे. शिवाय याचा
आकार देखील लहान असल्याने त्यावरील करण्यात येणारे प्रयोग देखील अतिशय कमी
वेळामध्ये सादर करता येतात.
--- तुषार भ. कुटे