تحول در پژوهش‌های تاریخی با بهره‌گیری از هوش مصنوعی در مرکز نور

۰۴ شهريور ۱۴۰۴ - ۱۵:۵۶
اخبار استانها
اخبار قم

مدیر بخش پردازش مرکز تحقیقات کامپیوتری علوم اسلامی گفت: تدوین مجموعه‌ای از مقالات تاریخی با تکیه بر منابع اصیل و بهره‌گیری از فناوری هوش مصنوعی، گام تازه‌ای در تسهیل دسترسی پژوهشگران به متون کهن و معتبر تمدن اسلامی است.

به گزارش خبرگزاری تسنیم از قم، علی دانش، در اولین جلسه از سلسله نشست‌های معرفی دستاوردهای هوشمند مرکز تحقیقات کامپیوتری علوم اسلامی با عنوان "تحلیل و توصیف هوشمند رویدادهای تاریخی" که در مرکز نور برگزار شد، با اشاره به اینکه مجموعه‌ای از مقالات کوتاه پیرامون رویدادهای تاریخی با اتکا به منابع معتبر و اصیل و با رویکردی پژوهشی تدوین شده است، اظهار داشت: مجموعه‌ای که تحولی چشمگیر در تولید و ارائه محتوای تاریخی به زبان فارسی رقم زده و دسترسی به منابع کهن و دست اول را تسهیل کرده است.

دانش گفت: پیش‌تر این گزارش‌ها در قالب‌های پراکنده و با زبان‌ها و سبک‌های گوناگون، اعم از منابع عربی و فارسی، با نگاه‌های مختلف و مبتنی بر منابع اهل سنت و شیعه، در دسترس پژوهشگران قرار داشت. اما اکنون با بهره‌گیری از فناوری هوش مصنوعی، گردآوری، دسته‌بندی و تولید محتوای خلاصه و دقیق در این حوزه امکان‌پذیر شده است؛ اقدامی که در راستای اهداف اصلی مرکز، یعنی تسهیل دسترسی به منابع بنیادین تمدن اسلامی، صورت گرفته است.

مدیر بخش پردازش مرکز تحقیقات کامپیوتری علوم اسلامی به تشریح گزارش‌ها در قالب 3 محور پرداخت و بیان کرد: نخست مروری بر اقدامات گذشته در حوزه بهره‌گیری از فناوری‌های نوین در علوم اسلامی، سپس تشریح دستاورد اخیر که با تکیه بر مدل‌های زبانی توسعه یافته و در نهایت توضیحی درباره برنامه‌ها و فعالیت‌های آینده مرکز در این زمینه است.

وی ادامه داد: این مرکز که در سال 1368 با تأکید مقام معظم رهبری تأسیس شد، از ابتدا مأموریت داشت تا با بهره‌گیری از فناوری‌های نوین رایانه‌ای در حوزه پردازش محتوا، دسترسی پژوهشگران به منابع اسلامی و علوم انسانی را سرعت بخشد. این مرکز در طول سال‌های فعالیت خود همواره پیشگام بوده و سمینارهای متعددی در زمینه استفاده از فناوری‌های نوین در علوم اسلامی برگزار کرده است. خروجی فعالیت‌های مرکز، تولید محصولات متنوعی در قالب نرم‌افزارهای ویندوزی، برنامه‌های تلفن همراه و سامانه‌های تحت وب بوده که برخی از آن‌ها به عنوان پایگاه‌های جامع و معتبر شناخته می‌شوند.

دانش تصریح کرد: دستاورد اخیر در قالب «پایگاه جامع تاریخ» به کاربران عرضه شده است. این پایگاه حاصل تجربه چند دهه فعالیت مرکز و انطباق آن با تحولات جدید در عرصه فناوری است. در سال‌های اخیر، با ظهور ربات‌های هوشمند و گسترش کاربرد ابزارهای مبتنی بر هوش مصنوعی در زندگی روزمره مردم، این فناوری بیش از گذشته مورد توجه قرار گرفته است؛ هرچند مرکز از حدود 20 سال پیش ورود به این عرصه را آغاز کرده بود. به عنوان نمونه، در سال 1390 نخستین سمینار تخصصی در حوزه به‌کارگیری فناوری‌های هوشمند در متون اسلامی در همین مرکز برگزار شد.

مدیر بخش پردازش مرکز تحقیقات کامپیوتری علوم اسلامی اظهار داشت: کاربردهای هوش مصنوعی در محصولات مرکز در 3 سطح اصلی تعریف شده است: تولید محتوا و ورود اطلاعات، پردازش و تصحیح داده‌ها و در نهایت ارائه خدمات پژوهشی. در سطح نخست، دقت و صحت داده‌ها برای پژوهشگران اهمیت ویژه‌ای دارد؛ ازاین‌رو مرکز با هوشمندسازی فرآیند تولید و تصحیح اطلاعات، بستری مطمئن برای پژوهشگران فراهم آورده است. این اقدامات گامی اساسی در جهت ارتقای کیفیت تحقیقات علوم اسلامی و انسانی به شمار می‌رود.

وی به دستاوردهای جدید مرکز در حوزه پردازش و عرضه اطلاعات اشاره کرد و افزود: در این طرح، سطح «فرآوری اطلاعات» مورد توجه قرار گرفته است؛ به‌گونه‌ای که متون تاریخی شامل آیات، احادیث و اشعار، به‌صورت برچسب‌گذاری شده و در قالبی مناسب در اختیار کاربر قرار می‌گیرد. این شیوه علاوه بر امکان جست‌وجوی دقیق، قابلیت فهرست‌بندی و دسته‌بندی داده‌ها را نیز فراهم می‌کند. در گذشته، چنین کاری به‌صورت دستی انجام می‌شد، اما اکنون به‌طور ماشینی و هوشمند نیز توسعه یافته است. همچنین استخراج اطلاعات و ارائه آن‌ها در نرم‌افزارهای ویندوزی، پایگاه‌های پژوهشی و نسخه‌های موبایلی از دیگر سطوح این پروژه به شمار می‌رود.

دانش تأکید کرد: طی 15 سال گذشته، بیش از 50 قابلیت هوش مصنوعی در محصولات مختلف این مرکز پیاده‌سازی شده است؛ قابلیتی که گرچه برای کاربر نهایی به‌طور مستقیم محسوس نیست، اما پشت صحنه، نقش تعیین‌کننده‌ای در تولید و عرضه محتوا ایفا می‌کند. این قابلیت‌ها در حوزه‌های گوناگونی از جمله رده‌بندی، استخراج داده، سیستم‌های پیشنهاددهنده، ترجمه ماشینی، OCR و بازیابی اطلاعات بر جستجو به کار گرفته شده است.

مدیر بخش پردازش مرکز تحقیقات کامپیوتری علوم اسلامی بیان کرد: در میان این دستاوردها، 3 قابلیت هوشمند به‌طور خاص در حوزه تاریخ مورد استفاده قرار گرفته است. نخست، «استخراج خودکار اعلام اشخاص» است که اکنون در سایت آزمایشگاه هوش مصنوعی مرکز در دسترس کاربران قرار دارد. این قابلیت بر پایه پیکره‌ای از داده‌های تاریخی مرکز طراحی شده و می‌تواند نام افراد را از متون به‌صورت خودکار شناسایی و استخراج کند. دوم، «کمی‌سازی عبارات زمانی» است؛ چراکه متون تاریخی تاریخ‌ها را به شکل‌های مختلف، اعم از عددی، حروفی، عربی یا فارسی، ذکر کرده‌اند و سیستم باید توانایی تبدیل همه آن‌ها به تاریخ مشخص و واحد را داشته باشد. سومین قابلیت، «شناسایی هوشمند رویدادهای تاریخی» است که در قالب یک پایان‌نامه کارشناسی ارشد و با همکاری دانشگاه‌ها طراحی شد و قادر است رویدادهایی همچون تولد، جنگ، مرگ و ازدواج را از متون تاریخی به طور هوشمند استخراج کند.

وی خاطرنشان کرد: فناوری با سرعت چشمگیری در حال تحول است و به‌ویژه در حوزه هوش مصنوعی، طی سال‌های اخیر با ظهور مدل‌های زبانی بزرگ تحولات اساسی رخ داده است. مرکز نیز از همان ابتدا تصمیم گرفت ورود جدی به این عرصه داشته باشد. در این مسیر، 2 رویکرد مورد توجه قرار گرفت: نخست، استفاده از خدمات شرکت‌های بزرگ ارائه‌دهنده مدل‌های زبانی مانند آنتروپیک، گوگل و دیگران؛ و دوم، تأمین زیرساخت‌های سخت‌افزاری و سرورهای قدرتمند متناسب با نیاز این مدل‌ها؛ چراکه مدل‌های زبانی بزرگ به ظرفیت پردازشی و حافظه بسیار بالا نیاز دارند و بارگذاری آن‌ها بر روی کارت‌های گرافیکی معمولی امکان‌پذیر نیست.

دانش عنوان کرد: به منظور پاسخگویی به نیازهای پردازشی مدل‌های زبانی بزرگ، زیرساخت‌های پیشرفته‌ای با بهره‌گیری از چندین کارت گرافیک قدرتمند در سرورها مورد نیاز است. خوشبختانه، این زیرساخت در مرکز مربوطه تأمین و در اواخر سال گذشته راه‌اندازی شد. پس از نصب و راه‌اندازی سخت‌افزارها، مدل‌های زبانی متن‌بات تهیه و بر روی سرورها مستقر شدند. تنظیمات این سرویس به گونه‌ای انجام شد که امکان استفاده از آن فراهم گردید و رویکردهای مختلف پردازشی نیز فعال شدند.

مدیر بخش پردازش مرکز تحقیقات کامپیوتری علوم اسلامی گفت: با توجه به محدودیت ظرفیت سرورهای داخلی و نیازهای گسترده هوش مصنوعی، از ترکیبی از زیرساخت‌های داخلی و سرویس‌های خارجی استفاده می‌شود. در این راستا، برای تسهیل دسترسی به سرویس‌های خارجی که اغلب با چالش‌هایی نظیر تحریم‌ها مواجه هستند، پایگاهی مرکزی راه‌اندازی شد. این پایگاه امکان دسترسی یکپارچه و ساده به مدل‌های زبانی بزرگ را برای کاربران فراهم کرده و نیاز به مراجعه به سایت‌های مختلف، ایجاد حساب کاربری یا شارژ جداگانه را برطرف کرده است. همچنین، با استفاده از پایگاه نور جی پی تی، مشکلات مربوط به تحریم‌ها مرتفع شده و کاربران می‌توانند از طریق روش‌های داخلی، شارژ مورد نیاز را انجام دهند.

وی تصریح کرد: در بخش پایگاه تاریخ، زیرساخت‌های داخلی به‌طور کامل پاسخگوی نیازها بودند و پردازش داده‌ها با استفاده از سرورهای داخلی و مدل‌های زبانی راه‌اندازی‌شده انجام شد. در این فرآیند، نیازی به استفاده از سرویس‌های خارجی نبود و بیش از 270 هزار گزارش پردازش شد که از میان آن‌ها بیش از 180 مقاله کوتاه درباره رویدادهای مختلف تهیه گردید. در فاز نخست، پروژه به‌صورت محدود اجرا شد و پس از بررسی پژوهشگران و دریافت بازخوردها، اشکالات موجود اصلاح شدند. پس از چندین مرحله بازبینی، پروژه به سطح مطلوبی رسید و در نهایت بر روی کل گزارش‌های سایت اجرا شد.

دانش گفت: گزارش‌ها از نظر تعداد و تنوع متفاوت بودند؛ برای مثال، رویدادهایی مانند عاشورا با بیش از 190 گزارش، حجم بالایی داشتند، در حالی که برخی رویدادها تنها 1 یا 2 گزارش شامل می‌شدند. یکی از چالش‌های اصلی، محدودیت ورودی مدل‌های زبانی بزرگ بود که امکان پردازش حجم بالای گزارش‌ها را محدود می‌کرد. برای رفع این مشکل، از مدل‌های قوی‌تر استفاده شد.

مدیر بخش پردازش مرکز تحقیقات کامپیوتری علوم اسلامی بیان کرد: همچنین، یکی از نکات برجسته این پروژه، ارجاع تمام اطلاعات تولیدشده توسط مدل به منابع اصلی بود. این اقدام به‌منظور کاهش خطاها و توهم‌های رایج در مدل‌های زبانی (که ممکن است اطلاعات نادرست ارائه دهند) انجام شد. بسیاری از سرویس‌های هوش مصنوعی بر لزوم بررسی اطلاعات توسط کاربران تأکید دارند، و این پروژه نیز با دقت در این زمینه، تلاش کرد تا خطاها را به حداقل برساند.

وی عنوان کرد: در طراحی این سامانه، اولویت اصلی، استناد به منابع اطلاعاتی معتبر و اجتناب از اتکای صرف به داده‌های داخلی مدل بوده است. این سیستم به گونه‌ای برنامه‌ریزی شده که کلیه اطلاعات ارائه‌شده در هر پاراگراف، دارای ارجاع مستقیم به منبع اصلی است و کاربران می‌توانند با کلیک بر روی آن، مستندات را مشاهده و از صحت آن اطمینان حاصل نمایند.

دانش در خصوص چالش‌های موجود تصریح کرد: بانک اطلاعاتی این پروژه از منابع متنوع و معتبری از جمله متون به زبان‌های عربی و فارسی و با در نظرگیری ملاحظات مختلف مذهبی و دینی گردآوری شده است. در این راستا، تعابیر غیرمناسب که خلاف شأن شخصیت‌های تاریخی یا مذهبی است، شناسایی و از دایره اطلاعات سیستم حذف گردیده‌اند. همچنین، با انجام بازبینی‌های تخصصی، گزارش‌های اغراق‌آمیز یا کم‌دقت اصلاح شده و اولویت با منابع اصیل تشیع و دست اول بوده است.

مدیر بخش پردازش مرکز تحقیقات کامپیوتری علوم اسلامی اظهار داشت: به منظور ایجاد تعادل در حجم محتوا، از ارائه مطالب تکراری پرهیز و مطالب به صورت خلاصه و جمع‌بندی شده عرضه می‌شوند تا مقاله نهایی از حجمی مناسب برخوردار باشد و کاربران در زمان معقولی بتوانند آن را مطالعه نمایند. ساختار مقالات شامل عناوین منظم، ارجاعات درون‌متنی و ذکر منابع در پایان است و با سبکی روان تنظیم شده تا برای پژوهشگران و کاربران عادی به یک اندازه قابل استفاده باشد.

وی افزود: از دیگر ویژگی‌های این پروژه، استخراج خودکار اطلاعات کلیدی از متون تاریخی، از جمله رویدادها، اعداد، اشخاص و اماکن است که به کاربران امکان می‌دهد به‌راحتی به فهرستی جامع دسترسی یافته و به مقالات مرتبط ارجاع داده شوند. این قابلیت در حال تکمیل و در ماه‌های آینده رونمایی خواهد شد.

دانش در پایان متذکر شد: در گام نهایی، این سامانه به بخشی از یک پروژه کلان‌تر تحت عنوان "دستیار جامع هوش مصنوعی در حوزه علوم اسلامی" تبدیل خواهد شد. این دستیار هوشمند قادر خواهد بود به صورت تعاملی و یکپارچه با سایر سرویس‌های تخصصی مرکز (همچون سرویس‌های حدیث، تاریخ و تفسیر) ارتباط برقرار کرده و پاسخی جامع به نیازهای کاربران ارائه دهد. این هدف استراتژیک آزمایشی، در حال حاضر در دست پیگیری و اجراست.

انتهای پیام/