رشد هوش مصنوعی به میزان بسیار وسیع به دادههای متنی تولید شده توسط انسان وابسته است؛ منبعی محدود و متناهی که بهتدریج در حال کاهش است و طبق پیشبینی موسسه تحقیقاتی Epoch AI این کمبود داده در فاصله سالهای 2026 تا 2032 می تواند یک چالش مهمی در حفظ روند سریع پیشرفت و توسعه هوش مصنوعی باشد.
به گزارش افتانا، الگوهای هوش مصنوعی بهشدت تابع و وابسته به دادهها هستند و تداوم رشد و نفوذ هوش مصنوعی بهخصوص به کمک سیستمهایی مانند چتبات چت جیپیتی، با کاهش جدی و البته قریبالوقوع داده مواجه خواهد بود که به نظر میرسد این اتفاق تا حد زیادی به دلیل کاهش قابل توجه دادههای متنی در دسترس عموم رخ خواهد داد.
مطالعهای که اخیرا توسط موسسه تحقیقاتی Epoch AI در این زمینه انجام شده است، این موضوع را تایید میکند. بر این اساس، پیشبینی میشود که این کمبود داده در فاصله سالهای 2026 تا 2032 اتفاق میافتد و در واقع انعکاسی از یک چالش مهم در حفظ روند سریع پیشرفت و توسعه هوش مصنوعی است. رشد هوش مصنوعی به میزان بسیار وسیع به دادههای متنی تولید شده توسط انسان وابسته بوده است، اما این منبع محدود و متناهی به تدریج در حال کاهش است. در حال حاضر شرکتهایی از جمله اوپن ایآی و گوگل منابع داده با کیفیت بالا مانند محتوای Reddit و رسانههای خبری را خریداری میکنند تا بتوانند روند آموزش الگوهای هوش مصنوعی خود را حفظ کنند. با این حال کمبود دادههای جدید ممکن است بهزودی این شرکتها را مجبور به استفاده از دادههای خصوصی حساس یا دادههای ساختگی کند که کمتر قابل اعتماد خواهند بود.
در حقیقت بررسی اخیر موسسه Epoch AI تاکید میکند که ممکن است مقیاس و درجهبندی الگوهای هوش مصنوعی که به قدرت محاسباتی بسیار زیاد و مجموعه دادههای بزرگ نیاز دارند، با کاهش منابع داده غیرممکن شود. در حالی که روشهای جدید تا حدودی این مشکل را کمتر کردهاند، اما نیاز اساسی به دادههای باکیفیت تولید شده توسط انسان همچنان وجود دارد. برخی از کارشناسان و متخصصان پیشنهاد میکنند که برای رفع این معضل به جای الگوهای هوش مصنوعی بزرگتر، تمرکز روی الگوهای تخصصی باشد. توسعهدهندگان هوش مصنوعی در واکنش به این چالشها، در حال بررسی روشهای جایگزینی ازجمله تولید دادههای مصنوعی و ساختگی هستند. با این حال اما نگرانیها در مورد کیفیت و کارآیی چنین دادههایی همچنان ادامه خواهد داشت و پیچیدگی روند حفظ پیشرفتهای هوش مصنوعی، در مواجهه با منابع زبانی طبیعی و محدود را برجسته میکند.
این بررسیها نشان میدهد که کل موجودی موثر دادههای متنی عمومی تولید شده توسط انسان چیزی در حدود 300 تریلیون توکن است که با فاصله اطمینان 90 درصدی از 100 تا هزار توکن تخمین زده میشود. البته این تخمین فقط شامل دادههایی است که به اندازه کافی کیفیت بالایی دارند تا برای آموزش الگوهای هوش مصنوعی مورد استفاده قرار بگیرند و امکان بهکارگیری در مدلهای آموزشی در دورههای مختلف را فراهم میآورند.
با توجه به برآوردهای انجام شده در این تحقیقات، پیشبینی میشود که چه زمانی این دادهها بهطور کامل مورد استفاده قرار میگیرند. به این ترتیب مشخص شد با فاصله اطمینان 80 درصدی، میتوان به سادگی گفت که ذخیره دادههای باکیفیت در دسترس عموم و تولید شده توسط انسان، در مقطع زمانی بین سالهای 2026 تا 2032 بهطور کامل مورد استفاده قرار میگیرد و به پایان میرسد. با این حال اما زمان دقیقی که این دادهها بهطور کامل مورد استفاده قرار میگیرند، تا حد زیادی به نحوه و شکل مقیاسبندی الگوهای هوش مصنوعی و روند رشد آنها بستگی دارد. اگر این الگوهای هوش مصنوعی بهطور بهینهای آموزش داده شوند، احتمال آن وجود دارد که تا سال 2028 دادههای کافی برای آموزش آنها وجود داشته باشد. اما واقعیت انکارناپذیری که وجود دارد، آن است که الگوهای هوش مصنوعی اخیر مانند Llama 3 متعلق به شرکت متا، اغلب با پارامترهای کمتر و در مقابل، دادههای بیشتر آن هم بیش از حد آموزش داده میشوند تا در هنگام انجام فرآیند نتیجهگیری بتوانند کارآیی بیشتر از نظر محاسباتی داشته باشند.