جدول درهم سازی Hash Table

H, فنی

منتشر شده توسط

امیرحسین شهسواری

در تاریخ

اردیبهشت ۱۶, ۱۳۹۷

– آخرین بروزرسانی

آذر ۲۸, ۱۳۹۸

–

دیدگاه

جدول درهم سازی یا Hash Table چیست؟

جدول درهم سازی (Hash Table) نوعی ساختمان داده است که قادر به نگه داری جفت داده‌هایی به صورت کلید و مقدار (Key, Value) می‌باشد. هر کلید در این ساختمان داده مشابه یک فرهنگ لغت به مقدار متناظر خود نگاشت می‌شود.

تمامی این جفت داده‌ها در مجموعه‌ای از حفره (Slot) ها یا جام (Bucket) ها با اندیس‌های متمایز نگه داری می‌شوند. ایده پشت پرده این نوع ساختمان داده جستجو و یافتن سریع اندیسی از این مجموعه است که مقدار متناظر با یک کلید مشخص در آن نگه داری می‌شود. اعمال اصلی که روی یک جدول درهم سازی قابل انجام است عبارتند از:

جستجوی مقدار مربوط به یک کلید
افزودن یک جفت کلید و مقدار
حذف یک جفت کلید و مقدار

درهم سازی و تابع درهم ساز

در جداول درهم سازی، به عمل نگاشت مجموعه‌ای از کلیدها به اندیس‌های یک لیست یا آرایه، هش کردن یا درهم سازی (Hashing) گفته می‌شود. در این ساختمان داده از تابعی به نام تابع درهم ساز (Hash Function) برای محاسبه این اندیس استفاده می‌شود. به عبارت بهتر تابع درهم ساز برای هر کلید (که به عنوان ورودی دریافت می‌کند) یک عدد صحیح یا اندیس (به عنوان خروجی) برمی‌گرداند. حفره متناظر با این اندیس در صورت خالی بودن برای قرار گرفتن مقدار مربوط به آن کلید مورد استفاده قرار می‌گیرد. توجه داشته باشید که کلیدها در یک جدول درهم سازی باید از یکدیگر متمایز باشند.

به عنوان مثال فرض کنید جفت‌های (Key, Value) به صورت (1, 5)، (3, 7)، (7, 4)، (12, 7) و (14, 8) قرار است در یک جدول درهم سازی که با کمک آرایه معمولی پیاده سازی شده و دارای ظرفیت 10 آیتم (با اندیس های 0 تا 9) است نگه داری شود. تابع درهم ساز را به صورت Key % 10 (یعنی باقیمانده مقدار کلید در تقسیم بر عدد 10) تعریف می‌کنیم. روشن است که مقدار حاصل از این تابع تنها می‌تواند یکی از اعداد مابین 0 تا 9 باشد. نتیجه حاصل از تابع درهم ساز برای پنج کلید 1، 3، 7، 12 و 14 همراه با جدول درهم سازی نهایی را می‌توانید در تصویر زیر مشاهده کنید. در آرایه حاصل (جدول درهم سازی)، جفت کلید و مقدار هر دو ذخیره شده‌اند که البته در این مثال ساده می‌توان تنها به ذخیره مقدارها اکتفا نمود:

جدول درهم سازی Hash Table — نمونه‌ای از روند ایجاد یک جدول درهم سازی – این جدول با کمک یک آرایه معمولی دو بعدی پیاده سازی شده است.

به منظور جستجو، روندی کاملا مشابه طی می‌شود. فرض کنید می‌خواهیم مقدار متناظر با کلید 12 را در جدول فوق بیابیم. این کلید را به تابع درهم ساز می‌دهیم و تابع، اندیس شماره 2 را برمی‌گرداند. به این ترتیب مقدار درج شده در حفره دوم جدول یعنی 7 به آسانی و بدون نیاز به بررسی سایر حفره‌ها یافت می‌شود.

در حالت ایده آل انتظار داریم تابع درهم ساز، هر کلید را به یک حفره منحصربفرد و متفاوت نگاشت کند. چنین تابعی را تابع درهم ساز پرفکت یا کامل (Perfect Hash Function) می‌نامند. حال تصور کنید بخواهیم جفت جدید (22, 12) را به جدول درهم سازی فوق اضافه کنیم. با توجه به اینکه باقی مانده 22 بر عدد 10 برابر با 2 می‌شود بنابراین اندیس 2 توسط تابع درهم ساز برای قرار گرفتن جفت جدید انتخاب می‌شود. این در حالیست که حفره مربوط به این اندیس در آرایه اشغال می‌باشد. به این پدیده، برخورد (یا Collision) گفته می‌شود که در آن اندیسی یکسان برای دو یا چند کلید متفاوت تولید می‌شود. در چنین مواردی لازم است با کمک روش‌های مختلف، اندیس مناسبی برای قرارگیری مقدار مربوط به کلید یا کلیدهای دیگر درنظر گرفته شود.

یکی از مشخصه‌های مهم جدول‌های درهم سازی، فاکتور لود (Load Factor) نام دارد که به صورت “تعداد جفت‌هایی که قرار است در جدول ذخیره شود تقسیم بر تعداد حفره‌ها” محاسبه می‌شود. هرچه این مقدار بزرگتر باشد کارایی جدول درهم سازی پایین‌تر می‌آید. البته زمانی که فاکتور لود به سمت صفر میل می‌کند نیز با اتلاف حافظه روبرو می‌شویم چرا که در این حالت تعداد حفره‌ها به مراتب بیشتر از تعداد جفت کلید و مقدار خواهد بود. یک تابع درهم ساز پرفکت که مقادیر حاصل از آن برای n کلید به صورت n عدد صحیح پشت سرهم (معمولا 0 تا n-1) باشد را تابع پرفکت مینیمال می‌نامند چرا که در این حالت هیچ اتلاف حافظه‌ای نخواهیم داشت.

از جمله کاربردهای رایج جداول درهم سازی در ایجاد آرایه های انجمنی و ایندکس کردن پایگاه داده ها می‌باشد.

برطرف نمودن برخورد

معمولا بروز برخورد در مواقعی که تعداد زیادی جفت کلید/مقدار در اختیار داریم حتی با استفاده از بهترین توابع درهم ساز نیز غیرقابل اجتناب است. بنابراین وجود یک استراتژی مناسب برای برطرف نمودن برخوردها ضروری می‌باشد. آدرس دهی باز (Open Addressing) یکی از رایج‌ترین این استراتژی‌هاست. در این روش اگر اندیسی از آرایه که برای قرارگیری موجودیت جدید انتخاب شده اشغال باشد با استفاده از یک روش کاوش، به دنبال حفره دیگری می‌گردیم که خالی باشد. برای مثال در مدل کاوش خطی (Linear Probing) اگر حفره‌ای پر باشد تک تک حفره‌های پس از آن را تا زمانی که مکان خالی پیدا شود کاوش می‌کنیم. درنتیجه برای افزودن جفت (22, 12) در جدول فوق ابتدا حفره 2 بررسی می‌شود. از آنجایی که این حفره اشغال است به سراغ حفره 3 می‌رویم. این کار به همین ترتیب ادامه می‌یابد تا نهایتا جفت (22, 12) در حفره 5 قرار می‌گیرد. هنگام جستجو برای یافتن مقدار متناظر با کلید 22 نیز ابتدا حفره 2 بررسی می‌شود و این بررسی تا رسیدن به حفره‌ای که کلید 22 در آن ذخیره شده است ادامه می‌یابد. گفتنی است طول گام‌ها در کاوش خطی می‌تواند مقدار ثابتی به جز یک هم داشته باشد. درهم سازی دوبل (Double Hashing) این طول گام را براساس یک تابع درهم ساز ثانویه محاسبه می‌کند.

زنجیره سازی مستقل (Separate Chaining) نمونه‌ای دیگر از استراتژی‌های رفع برخورد است که در آن هر حفره به یک لیست مجزا اشاره می‌کند. هر لیست تمامی جفت های کلید و مقداری که در اندیس مربوط به آن حفره دچار برخورد می‌شوند را در خود نگه داری می‌کند. برای پیاده سازی لیست‌ها معمولا از لیست‌های پیوندی استفاده می‌شود. در تصویر زیر نحوه ایجاد جدول درهم سازی با کمک این استراتژی و پس از افزودن جفت (22, 12) نمایش داده شده است. در این روش، هنگام جستجو برای مقدار متناظر با کلید 22 تنها کافی است لیست مربوط به حفره 2 مورد کاوش قرار گیرد.

زنجیره سازی مجزا در جدول درهم سازی — رفع برخورد در جدول درهم سازی با کمک زنجیره سازی – در این نمونه از لیست پیوندی استفاده شده است.

پیوندهای پیشنهادی تک دیک

لینک واژه در ویکیپدیا

تولید و انتشار محتوای تخصصی علاوه بر زمان، هزینه هم دارد. بخش عمده هزینه‌های تک‌دیک با بودجه شخصی و حمایت‌های شما کاربران گرامی تأمین می‌شود. اگر محتوای این صفحه برای شما مفید واقع شده با روش‌های مختلفی از سراسر دنیا می‌توانید در تکمیل و تداوم فعالیت این سایت به گروه کوچک ما کمک کنید و در اجر معنوی آن نیز سهیم شوید. ما صمیمانه قدردان این محبت شما هستیم.

حمایت می‌کنم…

ما در تک‌دیک تلاش می‌کنیم محتوایی دقیق، واضح و بدون اشتباه منتشر کنیم. به همین دلیل هر مطلب پیش از انتشار بارها بازبینی می‌شود. از طرف دیگر با توجه به حجم بالای مطالب به کمک شما هم نیاز داریم. اگر احساس می‌کنید محتوای این صفحه باید بروزرسانی، تکمیل یا تصحیح شود و یا سوالی در مورد این مطلب دارید که بدون پاسخ مانده خوشحال می‌شویم آن را در بخش دیدگاه‌های همین مطلب با ما در میان بگذارید.

امیرحسین شهسواری

عاشق دنیای رایانه و فناوری به خصوص برنامه نویسی هستم؛ یادگرفتن و البته یاد دادن چیزای جالبی که یاد گرفتم باعث خوشحالیم میشه و از اولویت‌های اصلی زندگیم به حساب میاد. از مدیریت و نوشتن در تک دیک هم واقعا لذت می‌برم :)

دیدگاه‌ها

5 پاسخ به “جدول درهم سازی Hash Table”

اسفند ۸, ۱۳۹۹

محمودی

سلام وقتتون بخیر ممکنه این سوال رو حل کنید
درج گره جدید در جدول درهم توزیع شده یا زوج کلید-مقدار (torrent,my-IP-address)،نحوه محاسبه مقدار my-IP-address چیست؟
جوابش میشه
((successor(hash(torrent)
چطوری جوابش این شده؟لطفا کمکم کنید امتحان دارم خیلی برام حیاتیه.ممنون میشم خدا خیرتون بده.

پاسخ
اردیبهشت ۱۷, ۱۳۹۹

سحر

مرسی، خیلی خوب توضیح داده شده
عالی

پاسخ
بهمن ۲۲, ۱۳۹۸

ناشناس

موفق و پیروز باشید .. ارائه مطالب به گونه ای مفید برای جامعه همیشه توانسته تاثیرخود را به شیوه ای مطلوب داشته باشد

پاسخ
بهمن ۲۰, ۱۳۹۸

dvd

ساده و زیبا. ممنونم

پاسخ
آذر ۲۱, ۱۳۹۸

کیان

عالی بود مرسی

پاسخ

دیدگاهتان را بنویسید لغو پاسخ

نوشته‌های بیشتر

سلام وقت شما بخیر. لینک افزونه برای مرورگر داخل متن درج شده. مثلا در مرورگر کروم به لینک مربوط در…

سلام ممنون از وبسایت زیبای تان لطفا رهنمایی کنید من چگونه میتوانم افزونه ها را دریافت کنم

سلام احتمالا می تونید با غیرفعال کردن نوتیفیکیشن مرورگر در تنظیمات دستگاه این مشکل رو حل کنید

زنده باد سلطان

ویبره زدن بعضی سایت ها قطع نمیشه کلافم کرده

بله انها متوجه میشوند چون پیامهایی که از لیست انتشار ارسال میشه یک تیک شبیه بلندگو پایین ش داره و…

سلام. می‌تونید با کمک یک دستور شرطی (کنترل)، یک دستور عملگر و دستورات مربوط به مکان شکلک، مانع از ورود…