برنده ایرانی جایزه مصطفی چگونه سرعت جستجوی داده را ۴۰ برابر کرد؟
پروفسور وهاب میررکنی، برنده ایرانی جایزه مصطفی ۲۰۲۵، با طراحی الگوریتمی نوین مبتنی بر توزیعهای p-پایدار و روش Locality-Sensitive Hashing، توانست فرآیند جستوجوی شباهت در کلاندادهها را تا ۴۰ برابر سریعتر از روشهای متداول انجام دهد.
به گزارش خبرنگار اجتماعی خبرگزاری تسنیم، فهرست برگزیدگان جایزه مصطفی 2025 اعلام شد. بر اساس اطلاعات منتشرشده، امسال سه دانشمند برجسته از کشورهای مختلف به پاس نوآوریهای ممتاز خود در حوزههای پیشرفته علم و فناوری این جایزه معتبر جهان اسلام را دریافت کردند. در میان این برگزیدگان، نام پروفسور وهاب میررکنی از ایران نیز به چشم میخورد که برای ارائه الگوریتمی نوآورانه بر پایه «توزیعهای p-پایدار» و توسعه روشهای کارآمد جستوجوی شباهت در دادههای عظیم مورد تقدیر قرار گرفت
در جستوجوی شباهت
تا به حال کتابی خواندهاید که تمام شدنش حس پایان یک دوستی را به همراه داشته باشد؟ کتابی که نه فقط محتوایش، بلکه حالوهوایش، نثرش و حتی چیزی ناپیدا میان سطرهایش با شما سخن گفته باشد. حالا تصور کنید به دنبال کتاب دیگری باشید که همان احساس را زنده کند. وارد کتابخانهای بزرگ با قفسههایی نامنظم میشوید؛ جایی که رمان، فلسفه، علم و تاریخ، همه در کنار هم و بیهیچ دستهبندی خاصی قرار گرفتهاند. شروع به ورقزدن میکنید تا شاید حسی آشنا پیدا شود.
با گذر زمان، خستگی توانتان را میگیرد. کتابها بسیارند و آنچه میخواهید به راحتی با چشم و دست پیدا نمیشود. در نهایت، پشت یکی از رایانههای کتابخانه مینشینید و توضیحی از کتاب محبوبتان را وارد میکنید. حالا این خواسته انسانی به مسئلهای ماشینی تبدیل میشود.
در جهان کامپیوترها، چالش پیچیدهتر است. موتور جستوجو باید از میان میلیاردها کتاب، اثری را بیابد که از نظر معنا یا ساختار مشابه باشد. مهمتر اینکه این فرآیند باید سریع و دقیق انجام شود، بیآنکه تکتک دادهها بررسی شوند. پاسخ در زبانی نه از جنس احساس، بلکه از جنس اعداد و فرمولهاست؛ جایی که الگوریتمی مبتنی بر توزیعهای p-پایدار، همانگونه که پروفسور میررکنی و همکارانش طراحی کردهاند، به رایانهها امکان میدهد بدون جستوجوی همه فضای دیجیتال، دادههای مشابه را هوشمندانه و با سرعت بالا شناسایی کنند.
شباهت به زبان عددها
شاید شباهت در نگاه اول ساده به نظر برسد، اما در دنیای دادهها، این مفهوم شکلی دقیق و متفاوت پیدا میکند: برای رایانه، همهچیز دنبالهای از اعداد است. یک عکس به شکل مجموعهای از اعداد پیکسلها و یک فایل صوتی، دنبالهای از اعداد مربوط به نوسانات فرکانسی است. در چنین فضایی، شباهت باید بر مبنای «فاصله» میان دادهها تعریف شود؛ هرچه این فاصله کمتر باشد، دادهها به هم شبیهترند.
برای اندازهگیری این فاصله، روشهای متنوعی وجود دارد که یکی از مهمترین آنها LP-norm است. این روش با یک پارامتر به نام p، نوع نگاه ما به فاصله را تعیین میکند. اگر p=2 باشد، فاصله اقلیدسی (کوتاهترین مسیر مستقیم) به دست میآید؛ و اگر p=1 باشد، فاصله منهتنی (حرکتهای عمودی و افقی) محاسبه میشود. مقدار p نوع تفاوتی را که الگوریتم بیشتر به آن توجه میکند مشخص میسازد.
خطکش دیجیتال
در دنیای دیجیتال، دادهها به شکل «بردارهایی از اعداد» بازنمایی میشوند. موتور جستوجو برای تشخیص شباهت بین دو تصویر یا متن، فاصله میان بردارهای آنها را میسنجد. انتخاب مقدار p بر اساس نیاز به دقت یا سرعت انجام میگیرد: p=1 برای توجه دقیق به اختلافها و p=2 برای دید کلی و سرعت بیشتر کاربرد دارد.
در کاربردهای مرسوم، مقادیر p≥1 ترجیح داده میشوند، چون ویژگیهای ریاضی همچون «قانون مثلث» را حفظ میکنند. با این حال، پژوهشهای نوآورانه میررکنی نشان دادهاند که حتی با p<1 نیز میتوان جستوجویی سریع و کارآمد انجام داد، هرچند این حالت متریک دقیق محسوب نمیشود.
میانبُر در کلاندادهها
حتی با بهترین روشهای سنجش شباهت، مقایسه مستقیم همه دادهها بسیار زمانبر است. اینجاست که روش Locality-Sensitive Hashing (LSH) وارد عمل میشود. این تکنیک دادههای مشابه را با استفاده از «توابع هش حساس به شباهت» به گروههای مشابه منتقل میکند.
LSH بردارهای طولانی را به بردارهای خلاصه و کوتاهی تبدیل میکند که ویژگیهای اصلی داده را حفظ میکنند؛ همانند چکیدهای که محتوای کتاب اصلی را منتقل میکند. برای حفظ تقریب فاصله، از «توزیعهای p-پایدار» استفاده میشود. بسته به نوع فاصله (مانند اقلیدسی برای p=2)، توزیع مناسب انتخاب میگردد. این روش در آزمایشها تا 40 برابر سریعتر از روشهای سنتی مانند kd-tree عمل کرده و حتی در شرایط دشوار با p<1 کارایی خود را حفظ کرده است.
نتیجه، میانبُری هوشمند در «شهر بیپایان دادهها» است؛ جایی که شناسایی شباهت دیگر نیازمند زمانهای طولانی نیست و ماشینها میتوانند تفاوتها و نزدیکی دادهها را با سرعت و دقتی بیسابقه تشخیص دهند.
انتهای پیام/