برنده ایرانی جایزه مصطفی چگونه سرعت جستجوی داده را ۴۰ برابر کرد؟

برنده ایرانی جایزه مصطفی چگونه سرعت جستجوی داده را 40 برابر کرد؟

پروفسور وهاب میررکنی، برنده ایرانی جایزه مصطفی ۲۰۲۵، با طراحی الگوریتمی نوین مبتنی بر توزیع‌های p-پایدار و روش Locality-Sensitive Hashing، توانست فرآیند جست‌وجوی شباهت در کلان‌داده‌ها را تا ۴۰ برابر سریع‌تر از روش‌های متداول انجام دهد.

به گزارش خبرنگار اجتماعی خبرگزاری تسنیم، فهرست برگزیدگان جایزه مصطفی 2025 اعلام شد. بر اساس اطلاعات منتشرشده، امسال سه دانشمند برجسته از کشورهای مختلف به پاس نوآوری‌های ممتاز خود در حوزه‌های پیشرفته علم و فناوری این جایزه معتبر جهان اسلام را دریافت کردند. در میان این برگزیدگان، نام پروفسور وهاب میررکنی از ایران نیز به چشم می‌خورد که برای ارائه الگوریتمی نوآورانه بر پایه «توزیع‌های p-پایدار» و توسعه روش‌های کارآمد جست‌وجوی شباهت در داده‌های عظیم مورد تقدیر قرار گرفت

در جست‌وجوی شباهت  

تا به حال کتابی خوانده‌اید که تمام شدنش حس پایان یک دوستی را به همراه داشته باشد؟ کتابی که نه فقط محتوایش، بلکه حال‌وهوایش، نثرش و حتی چیزی ناپیدا میان سطرهایش با شما سخن گفته باشد. حالا تصور کنید به دنبال کتاب دیگری باشید که همان احساس را زنده کند. وارد کتابخانه‌ای بزرگ با قفسه‌هایی نامنظم می‌شوید؛ جایی که رمان، فلسفه، علم و تاریخ، همه در کنار هم و بی‌هیچ دسته‌بندی خاصی قرار گرفته‌اند. شروع به ورق‌زدن می‌کنید تا شاید حسی آشنا پیدا شود.  

با گذر زمان، خستگی توانتان را می‌گیرد. کتاب‌ها بسیارند و آنچه می‌خواهید به راحتی با چشم و دست پیدا نمی‌شود. در نهایت، پشت یکی از رایانه‌های کتابخانه می‌نشینید و توضیحی از کتاب محبوبتان را وارد می‌کنید. حالا این خواسته انسانی به مسئله‌ای ماشینی تبدیل می‌شود.  

در جهان کامپیوترها، چالش پیچیده‌تر است. موتور جست‌وجو باید از میان میلیاردها کتاب، اثری را بیابد که از نظر معنا یا ساختار مشابه باشد. مهم‌تر این‌که این فرآیند باید سریع و دقیق انجام شود، بی‌آنکه تک‌تک داده‌ها بررسی شوند. پاسخ در زبانی نه از جنس احساس، بلکه از جنس اعداد و فرمول‌هاست؛ جایی که الگوریتمی مبتنی بر توزیع‌های p-پایدار، همان‌گونه که پروفسور میررکنی و همکارانش طراحی کرده‌اند، به رایانه‌ها امکان می‌دهد بدون جست‌وجوی همه فضای دیجیتال، داده‌های مشابه را هوشمندانه و با سرعت بالا شناسایی کنند.

شباهت به زبان عددها  

شاید شباهت در نگاه اول ساده به نظر برسد، اما در دنیای داده‌ها، این مفهوم شکلی دقیق و متفاوت پیدا می‌کند: برای رایانه، همه‌چیز دنباله‌ای از اعداد است. یک عکس به شکل مجموعه‌ای از اعداد پیکسل‌ها و یک فایل صوتی، دنباله‌ای از اعداد مربوط به نوسانات فرکانسی است. در چنین فضایی، شباهت باید بر مبنای «فاصله» میان داده‌ها تعریف شود؛ هرچه این فاصله کمتر باشد، داده‌ها به هم شبیه‌ترند.  

برای اندازه‌گیری این فاصله، روش‌های متنوعی وجود دارد که یکی از مهم‌ترین آن‌ها LP-norm است. این روش با یک پارامتر به نام p، نوع نگاه ما به فاصله را تعیین می‌کند. اگر p=2 باشد، فاصله‌ اقلیدسی (کوتاه‌ترین مسیر مستقیم) به دست می‌آید؛ و اگر p=1 باشد، فاصله منهتنی (حرکت‌های عمودی و افقی) محاسبه می‌شود. مقدار p نوع تفاوتی را که الگوریتم بیشتر به آن توجه می‌کند مشخص می‌سازد.

خط‌کش دیجیتال  

در دنیای دیجیتال، داده‌ها به شکل «بردارهایی از اعداد» بازنمایی می‌شوند. موتور جست‌وجو برای تشخیص شباهت بین دو تصویر یا متن، فاصله میان بردارهای آن‌ها را می‌سنجد. انتخاب مقدار p بر اساس نیاز به دقت یا سرعت انجام می‌گیرد: p=1 برای توجه دقیق به اختلاف‌ها و p=2 برای دید کلی و سرعت بیشتر کاربرد دارد.  

در کاربردهای مرسوم، مقادیر p≥1 ترجیح داده می‌شوند، چون ویژگی‌های ریاضی همچون «قانون مثلث» را حفظ می‌کنند. با این حال، پژوهش‌های نوآورانه میررکنی نشان داده‌اند که حتی با p<1 نیز می‌توان جست‌وجویی سریع و کارآمد انجام داد، هرچند این حالت متریک دقیق محسوب نمی‌شود.

میان‌بُر در کلان‌داده‌ها  

حتی با بهترین روش‌های سنجش شباهت، مقایسه مستقیم همه داده‌ها بسیار زمان‌بر است. اینجاست که روش Locality-Sensitive Hashing (LSH) وارد عمل می‌شود. این تکنیک داده‌های مشابه را با استفاده از «توابع هش حساس به شباهت» به گروه‌های مشابه منتقل می‌کند.  

LSH بردارهای طولانی را به بردارهای خلاصه و کوتاهی تبدیل می‌کند که ویژگی‌های اصلی داده را حفظ می‌کنند؛ همانند چکیده‌ای که محتوای کتاب اصلی را منتقل می‌کند. برای حفظ تقریب فاصله، از «توزیع‌های p-پایدار» استفاده می‌شود. بسته به نوع فاصله (مانند اقلیدسی برای p=2)، توزیع مناسب انتخاب می‌گردد. این روش در آزمایش‌ها تا 40 برابر سریع‌تر از روش‌های سنتی مانند kd-tree عمل کرده و حتی در شرایط دشوار با p<1 کارایی خود را حفظ کرده است.  

نتیجه، میان‌بُری هوشمند در «شهر بی‌پایان داده‌ها» است؛ جایی که شناسایی شباهت دیگر نیازمند زمان‌های طولانی نیست و ماشین‌ها می‌توانند تفاوت‌ها و نزدیکی داده‌ها را با سرعت و دقتی بی‌سابقه تشخیص دهند.  

انتهای پیام/

حج و زیارت
پربیننده‌ترین اخبار اجتماعی
اخبار روز اجتماعی
آخرین خبرهای روز
مدیران
تبلیغات
رازی
مادیران
شهر خبر
fownix
غار علیصدر
پاکسان
بانک صادرات
طبیعت
میهن
گوشتیران
triboon
تبلیغات