
કૃત્રિમ બુદ્ધિની ક્ષમતાઓનું પરીક્ષણ કરવામાં આવી રહ્યું છે. એ જોવાનું બાકી છે કે AI ચેટબોટ્સ વિવિધ કંપનીઓ માટે કેટલા મુશ્કેલ પરીક્ષણો પાસ કરી શકે છે. અલબત્ત, પરિણામો અપેક્ષા મુજબના જ હતા. આ પરીક્ષાઓમાં પ્રોગ્રામિંગ અને ગણિત જેવા મુશ્કેલ વિષયોનો મુખ્ય સમાવેશ કરવામાં આવ્યો છે. પરંતુ વૈજ્ઞાનિક પીટર ટર્ચીનનો રસ્તો અલગ હતો. અગાઉ, તેમણે અને તેમની ટીમે એક દાયકાથી વધુ સમયના માનવ ઇતિહાસની માહિતીનો ડેટાબેઝ બનાવ્યો હતો. પરંતુ જ્યારે તેઓએ AI ચેટબોટ્સ જેવા અદ્યતન મોડેલોના ઇતિહાસ જ્ઞાનનું પરીક્ષણ કર્યું, ત્યારે પરિણામો આશ્ચર્યજનક હતા.
ડેટાબેંકનું પરીક્ષણ
ટર્ચિને CESSAT ગ્લોબલ હિસ્ટ્રી ડેટાબેંક બનાવી. તેઓએ એ શોધવાનો પ્રયાસ કર્યો કે શું અદ્યતન AI મોડેલો ઇતિહાસકારો અને પુરાતત્વવિદોને પ્રાચીન માહિતી સમજવામાં મદદ કરી શકે છે. આ માટે, તેમના અભ્યાસમાં, તેઓએ ChatGTP-4, Llama અને Gemini જેવા AI મોડેલોના ઐતિહાસિક જ્ઞાનનું મૂલ્યાંકન કરવાનો પ્રયાસ કર્યો.
આશ્ચર્યજનક પરિણામો
તેના પરિણામો ન્યુરિપ્સ કોન્ફરન્સમાં રજૂ કરવામાં આવ્યા હતા. આશ્ચર્યજનક રીતે, પરિણામોએ જાહેર કર્યું કે ઐતિહાસિક જ્ઞાનને સમજવામાં AI ની ઘણી મર્યાદાઓ છે, પરંતુ તે સિવાય, કેટલીક સારી શક્યતાઓ પણ છે.
કેટલાક વધુ સફળ છે અને કેટલાક અસફળ છે
ટર્ચીન નિર્દેશ કરે છે કે ચેટ જીપીટીના મોટા ભાષા મોડેલ, જેને એલએલ કહેવાય છે, તે પહેલાથી જ ઘણા ક્ષેત્રોમાં અપેક્ષાઓ કરતાં વધી ગયા છે. પરંતુ જ્યારે પ્રાચીન સમાજોની લાક્ષણિકતા હોય તેવા નિર્ણયો લેવાની વાત આવે છે, ત્યારે તેમની ક્ષમતાઓ મર્યાદિત હોય છે. ઉત્તર અમેરિકા અને પશ્ચિમ યુરોપની બહારના સમાજો માટે આ વધુ સાચું હોવાનું જણાયું.
એક મોટી નિષ્ફળતા
અભ્યાસમાં જાણવા મળ્યું છે કે AI ની ક્ષમતાઓ ચોક્કસ વિષયો સુધી મર્યાદિત હતી. કેટલીક LLM અરજીઓ નિષ્ણાત સ્તરે ઐતિહાસિક વિશ્લેષણ સાથે ખૂબ જ સંઘર્ષ કરતી દેખાઈ રહી હતી. ચેટજીપીટી જેવા સંતુલિત ચોકસાઈ પૂરી પાડવામાં શ્રેષ્ઠ માનવામાં આવતા મોડેલને 4-વિકલ્પ પરીક્ષણમાં ફક્ત 46% સફળતા મળી. આ AI ના વૈશ્વિક ઇતિહાસની સમજમાં રહેલા અંતરને પ્રકાશિત કરે છે.
કેટલા આંકડા?
આ અભ્યાસના અનુરૂપ લેખક અને યુનિવર્સિટી કોલેજ લંડનમાં સહાયક પ્રોફેસર ડેલ રિયો ચાનોના કહે છે કે શરૂઆતમાં તેમને લાગ્યું હતું કે AI ચેટબોટ્સ વધુ સારું કામ કરશે. ઇતિહાસને હકીકતો તરીકે જોવામાં આવે છે, પરંતુ ક્યારેક સાચો અર્થ મેળવવા માટે અર્થઘટન જરૂરી હોય છે. આ અભ્યાસમાં વિશ્વભરના 600 સમાજોના ઐતિહાસિક ડેટાનો સમાવેશ કરવામાં આવ્યો હતો, જેમાં 36,000 ડેટા પોઈન્ટ અને 2,700 વિદ્વતાપૂર્ણ સંદર્ભોનો વ્યાપક ડેટાબેઝનો ઉપયોગ કરવામાં આવ્યો હતો.
મૂલ્યાંકનનો હેતુ શું હતો?
સંશોધકો LLM ની ક્ષમતાઓનું મૂલ્યાંકન કરવા માટે એક ધોરણ સ્થાપિત કરવા માંગતા હતા. પરંતુ અભ્યાસમાં કેટલીક અલગ બાબતો બહાર આવી. ૮૦૦૦ બીસી અને ૩૦૦૦ બીસી વચ્ચેના પ્રાચીન ઇતિહાસ પરના પ્રશ્નોમાં એલએલએમએ વધુ ચોકસાઈ દર્શાવી હતી, પરંતુ ૧૫૦૦ એડીથી અત્યાર સુધીની ઘટનાઓ સાથે સંઘર્ષ કર્યો છે.
વિવિધ ક્ષેત્રો માટે વિવિધ પરિણામો
તેવી જ રીતે, જ્યારે ChatGPT જેવા OpenAI-સંચાલિત મોડેલોએ લેટિન અમેરિકા અને કેરેબિયનમાં વધુ સારું પ્રદર્શન કર્યું, ત્યારે લામા મોડેલોએ ઉત્તર અમેરિકામાં વધુ સારું પ્રદર્શન કર્યું. જ્યારે ઓશનિયામાં બંને પ્રકારના મોડેલોએ નબળા પરિણામો આપ્યા. આ ડેટાને આપવામાં આવેલી તાલીમનો અભાવ દર્શાવે છે.
વધુમાં, જ્યારે કાનૂની પદ્ધતિઓ અને સામાજિક જટિલતાઓને લગતા પ્રશ્નો માટે LLM ઉત્તમ હતા, ત્યારે તેઓ ભેદભાવ અને સામાજિક ગતિશીલતા જેવા ક્ષેત્રોમાં પણ નબળા દેખાયા. એનો અર્થ એ કે તેમને અદ્યતન ઇતિહાસની ઊંડી સમજનો અભાવ છે. મૂળભૂત તથ્યો માટે તે ઉત્તમ છે, પરંતુ વધુ સૂક્ષ્મ પીએચડી-સ્તરની ઐતિહાસિક તપાસ માટે પૂરતા નથી. સંશોધકો માને છે કે અભ્યાસના પરિણામો ફક્ત AI વિકાસકર્તાઓ માટે જ નહીં પરંતુ ઇતિહાસકારો અને પુરાતત્વવિદો માટે પણ ખૂબ મૂલ્યવાન છે.
