نگاهی از درون و برون به نرم افزارهای معجم الفاظ نور (4 و 5) نسخه متنی

اینجــــا یک کتابخانه دیجیتالی است

با بیش از 100000 منبع الکترونیکی رایگان به زبان فارسی ، عربی و انگلیسی

نگاهی از درون و برون به نرم افزارهای معجم الفاظ نور (4 و 5) - نسخه متنی

احمد مینایی

| نمايش فراداده ، افزودن یک نقد و بررسی
افزودن به کتابخانه شخصی
ارسال به دوستان
جستجو در متن کتاب
بیشتر
تنظیمات قلم

فونت

اندازه قلم

+ - پیش فرض

حالت نمایش

روز نیمروز شب
جستجو در لغت نامه
بیشتر
توضیحات
افزودن یادداشت جدید










نگاهى از درون و برون به نرم‏افزارهاى معجم الفاظ نور

احمد مينايى

(بخش چهارم و پايانى)
در چند نوبت گذشته، معجم‏هاى لفظى نور از جنبه‏هاى مختلف مورد بررسى قرار گرفت. در بند هشتم مقاله، نقاط ضعف و قوت اين برنامه‏ها مورد مداقه قرار گرفت. در قسمت پيشين، پنج نقطه ضعف اين نرم‏افزار توضيح داده شد. آنگاه اندكى در باب قدرت و سرعت موتور جستجوى نرم‏افزارهاى نور، به عنوان اولين نقطه قوت توضيحاتى به صورت فشرده ارائه گرديد.

اينك و در قسمت پايانى اين مقاله، به دومين نقطه قوت اين نرم‏افزار يعنى «فشرده‏سازى اطلاعات‏» پرداخته مى‏شود.

فشرده‏سازى اطلاعات

2-2-8- يكى از نقاط قوت و از امتيازات برنامه‏هاى نور، ويژگى فشرده‏سازى اطلاعات آن مى‏باشد. بخصوص كه در اوايل توليد برنامه، اكثر رايانه‏هاى آن زمان داراى حافظه جانبى (سخت‏ديسك) با ظرفيت‏حداكثر 40 مگا بايت‏بودند. از اين جهت، آماده‏سازى و توليد برنامه‏ها با بهره‏گيرى از ويژگى فشرده‏سازى اطلاعات، امكانات بسيار زيادترى را در اختيار كاربران و محققان قرار مى‏داد. نقطه شروع كار فشرده‏سازى، معجم الفاظ بحار الانوار بود. اين كتاب با بيش از 13 ميليون كلمه، نمونه خوبى براى آزمون روشهاى فشرده‏سازى اطلاعات بود. در ابتدا روشهاى معمول در فشرده‏سازى اطلاعات مورد بحث و بررسى قرار گرفت. كارآمدترين روشهاى فشرده‏سازى، روشى مبتنى بر دو مدل آمارى و لغت‏نامه‏اى - Based Compression Dictionary تشخيص داده شد.

مدل آمارى، نمادهاى ورودى را يكى يكى مى‏خواند و براساس احتمال رخداد آنها، كار كدگذارى را انجام مى‏دهد. ساده‏ترين شكل اين نوع مدل، استفاده از يك جدول ثابت «كدهافمن‏» مى‏باشد كه اين جدول بر اساس احتمالات به دست آمده براى حروف و با استفاده از درخت هافمن توليد مى‏شود. براى كارآيى بيشتر، بهتر است‏براى هر متن چنين جدولى ساخته شود و بر پايه آن فشرده‏سازى صورت گيرد. اگر از يك جدول كلى براى تمامى متون استفاده شود، ممكن است در بعضى متن‏ها نسبت فشرده‏سازى پايينى به دست آيد، چرا كه جدول بر اساس احتمالات واقعى متن مربوطه ساخته شده است.

يكى از نقاط قوت و از امتيازات برنامه‏هاى نور، ويژگى فشرده‏سازى اطلاعات آن مى‏باشد. آماده‏سازى و توليد برنامه‏ها با بهره‏گيرى از ويژگى فشرده‏سازى اطلاعات، امكانات زيادترى را در اختيار كاربران و محققان قرار مى‏داد اما استفاده از يك جدول ثابت‏براى هر متن داراى يك هزينه بالاسرى است. در چنين حالتى بايد اين جدول به طريقى به الگوريتم رمزگشايى (Decoding) منتقل شود. در يك فشرده‏سازى مرتبه صفر، آمار واقعى براى توليد جدول هافمن، ممكن است تا 256 بايت را به خود اختصاص دهد، اما در فشرده‏سازى مرتبه‏هاى بالاتر، مقدار حافظه بسيار زيادترى مورد نياز مى‏باشد. به عنوان مثال حركت از يك مرتبه صفر به مرتبه يك، نياز به حافظه را از 256 بايت‏به 65536 بايت مى‏رساند.

به همين دليل تحقيقات فشرده‏سازى در دو دهه اخير بر روى روشهاى وفقى تمركز يافته است. با استفاده از يك مدل وفقى، ابتدا داده‏ها براى جمع‏آورى اطلاعات آمارى جاروب نمى‏شوند تا بر اساس اين اطلاعات تبديل به كد گردند، بلكه اطلاعات آمارى با خوانده شدن هر داده از ورودى به روز شده و براساس اطلاعات موجود، كار كدگذارى انجام مى‏گيرد. الگوريتم رمزگشايى نيز به همين طريق بر اساس به روز آورى اطلاعات آمارى رمزگشايى مى‏كند.

1-2-2-8- فشرده‏سازى لغت‏نامه‏اى:

در فشرده‏سازى لغت‏نامه‏اى از يك لغت‏نامه (جدول) مشتمل بر رشته‏هاى حرفى مانند كلمات و عبارات استفاده مى‏شود. الگوريتم فشرده‏ساز، حروف متن اصلى را يكى يكى مى‏خواند و ضمن دسته‏بندى آنها به رشته‏هاى حرفى به جستجو در لغت‏نامه مى‏پردازد. در صورت يافته شدن رشته مربوطه، آن را با يك كد چند بيتى كه نشانى آن در لغت‏نامه و يا يك كد اختصاص يافته به آن مى‏باشد، در متن فشرده شده جايگزين مى‏كند.

به دليل بسيار كمتر بودن تعداد بيت جايگزين شده با متوسط تعداد كل بيت‏هاى رشته‏هاى حرفى، در عمل نسبت فشرده‏سازى بالايى به دست مى‏آيد.

مهم‏ترين مسئله‏اى كه الگوريتم‏هاى فشرده‏سازى مبتنى بر لغت‏نامه بايد به حل آن بپردازند، مسئله چگونگى توليد، نگهدارى و استفاده از لغت‏نامه يا به طور خلاصه مديريت لغت‏نامه مى‏باشد. براى بعضى متن‏هاى خاص شايد استفاده از يك لغت‏نامه از پيش تعريف شده يا لغت‏نامه ثابت (Static Dictionary) داراى مزيت مى‏باشد. اين در حالتى است كه از ماهيت متن، اطلاعات كافى در اختيار داشته باشيم. اما بيشتر الگوريتم‏هاى فشرده‏سازى لغت‏نامه‏اى براى كارآمد بودن بيشتر و قابل اعمال بودن بر روى هر نوع متنى، وفقى (Adaptive) مى‏باشند. در اين حالت، الگوريتم با يك لغت‏نامه خالى يا يك لغت‏نامه كوچك به عنوان لغت‏نامه پايه، كار فشرده‏سازى را شروع مى‏كند و هم‏زمان با جاروب كردن متن، رشته‏هاى حرفى (كلمات) جديد به لغت‏نامه افزوده مى‏شوند تا در فشرده‏سازى مورد استفاده قرار گيرند. به عبارت ديگر، در يك گذر، هم متن فشرده مى‏شود و هم لغت‏نامه تكميل مى‏گردد. هر دو الگوريتم فشرده‏ساز و رمزگشا در حين انجام عمليات فشرده‏سازى و رمزگشايى، چنين لغت‏نامه‏اى را براى استفاده مى‏سازند.

روش فشرده‏سازى لغت‏نامه‏اى يكى از روشهاى فشرده‏سازى فيزيكى اطلاعات مى‏باشد. روشهاى ديگرى مانند گاشت‏بيتى (1) ، حذف تكرار طولانى (2) ، حذف نيم بايت (3) ، كدگذارى جفتى (4) ، جايگزينى الگو (5) ، كدگذارى تفاضلى (6) ، كدگذارى آمارى (7) و... نيز وجود دارند.

مقايسه عملكرد اين روشها با يكديگر و كارآيى آنها در امر فشرده‏سازى فيزيكى، و تبيين فشرده‏سازى فيزيكى و فشرده‏سازى منطقى امرى است كه مجال طولانى‏ترى را مى‏طلبد كه در اين مختصر نمى‏گنجد (8) .

2-2-2-8- الگوريتم ابداعى در فشرده‏سازى:

كارآيى روشهاى فشرده‏سازى وابسته به طبيعت متنى است كه مورد فشرده‏سازى قرار مى‏گيرد. از ديدگاه كلى، ملاك ارزيابى و مقايسه روشهاى فشرده‏سازى پيرامون دو محور «ميزان فشرده‏سازى‏» و «سرعت فشرده‏سازى‏» مى‏چرخد. اما طبيعت اطلاعاتى كه در معجم‏هاى لفظى نور با آن سر و كار داشتيم، به علت اينكه محيط بسته‏اى است و اطلاعات و كلمات متن لحظه به لحظه عوض نمى‏شود، محور دوم يعنى سرعت فشرده‏سازى اهميت چندانى ندارد، اما به عكس، نرخ فشرده‏سازى و ميزان كم شدن حجم اطلاعات اهميت دو چندانى دارد.

با شيوه انتخابى برنامه نور، عبارت مورد جستجو به عبارت فشرده تبديل مى‏شود، آنگاه عمليات جستجو در متن فشرده شده كه طبيعتا از حجم كمترى برخوردار است، صورت مى‏گيرد. با در نظر گرفتن اين نكته عمليات جستجو نه تنها كند نمى‏شود بلكه از افزايش سرعتى قابل توجه بهره‏مند مى‏گردد.

با توجه به اين ديدگاه، نقاط قوت بيش از 10 الگوريتم مختلف ارائه شده در فشرده‏سازى اطلاعات مورد ارزيابى قرار گرفت و با تركيب اين نقاط قوت و افزودن نكات ابداعى ديگر چند روش به عنوان روشهاى موفق فشرده‏سازى انتخاب شدند. يكى از آنها استفاده از 6 بيت‏براى ذخيره‏سازى يك حرف بود. به طور عادى براى هر حرف از يك بايت‏حاوى 8 بيت ا ستفاده مى‏شد. با 8 بيت مى‏توان به دو به توان 8 يعنى 256 حرف مختلف مى‏توان اشاره نمود. اما چون دامنه حروف فارسى و عربى در محدوده 32 حرف الفبا يعنى دو به توان 5 حرف مى‏باشد و با 5 بيت مى‏توان تمامى حروف را پوشش داد. اما براى پوشش دادن علائم ويرايشى و دو حالتى بودن بعضى از حروف مجموعا از 6 بيت استفاده شد. 6 يت‏براى پوشش دادن دو به توان 6 يعنى 64 حرف كافى بود. اين تعداد از مقدار نياز ما هم بيشتر بود، لذا با برنامه‏اى ساده تمامى كلمات با حروف 6 بيتى ذخيره شدند و هنگام نمايش اطلاعات، با برنامه‏اى ديگر عمليات رمزگشايى و تبديل به حروف قابل نمايش انجام مى‏گرفت.

اين روش در مجموع، شيوه خوب و مناسبى بود اما امكان نمايش سريع اطلاعات از دست مى‏رفت چون براى بازيابى هر حرفى بايستى عمليات رمزگشايى انجام مى‏گرفت.

از آنجا كه هزينه بالاسرى روش اخير در مقابل ميزان فشرده‏سازى اطلاعات بهينه نبود، روشهاى ديگر كدگذارى كلمات به محك تجربه گذاشته شد. با برنامه‏هايى چند، آمار دقيق كلمات در كل متن (يعنى 110 جلد بحار الانوار) و نيز آمار رخداد كلمات در صفحه‏هاى كتاب و نيز صفحه‏هاى مجازى استخراج گرديد. ميان كلماتى كه از آمار رخداد بالاترى در متن برخوردار هستند، با كلمات ديگر در رمز كردن تفاوت نهاده مى‏شود. اين روش براى جملات تكرارى با تكرار بالا نيز انجام گرفت. مشكل رمز كردن جمله‏ها و فرازهاى پر تكرار، در جستجوى كلمات و زيرفرازهاى آن فراز پر تكرار بود. يعنى همواره نرخ فشرده‏سازى اطلاعات با دو مسئله ديگر يعنى نمايش سريع اطلاعات و نيز سرعت جستجو در متن، بايستى هماهنگ مى‏گرديد. در واقع هيچ‏گاه نمى‏بايست‏يكى از اين سه مسئله فداى ديگرى شود بلكه مى‏بايست تا جايى كه ممكن است الگوريتمى انتخاب شود كه از نرخ فشرده‏سازى بالاترى برخوردار باشد و هيچ موجب كندى جستجو در متن و كندى نمايش اطلاعات نگردد.

با در نظر گرفتن سه محور اخير و با توجه به طبيعت متون مورد پردازش، براى هر متنى، تركيبى از روشهاى فشرده‏سازى به پيوست نكته‏هاى فشرده‏سازى جديد، به عنوان دستور كار انتخاب مى‏شد، و عمليات رمز كردن اطلاعات و فشرده‏سازى، توسط ماشين در يك فاصله زمانى خاصى انجام مى‏گرفت. و هنگام نمايش اطلاعات، عمليات رمزگشايى و نمايش اطلاعات واقعى انجام مى‏گرفت.

نكته اساسى و قابل توجه از منظر بهينه‏سازى مهندسى اطلاعات و بازيابى آنها از متن فشرده شده اين امر بود كه براى جستجوى ساده و تركيبى ايستا و پويا در متن كتاب ضرورتى ندارد كه جستجو در متن باز شده و غير فشرده صورت بگيرد. بلكه به عكس با شيوه انتخابى برنامه نور، عبارت مورد جستجو به عبارت فشرده تبديل مى‏شود، آنگاه عمليات جستجو در متن فشرده شده كه طبيعتا از حجم كمترى برخوردار است، صورت مى‏گيرد. با در نظر گرفتن اين نكته عمليات جتسجو نه تنها كند نمى‏شود بلكه از افزايش سرعتى قابل توجه بهره‏مند مى‏گردد.

اين نكته بسيار مهم در مهندسى اطلاعات كه از يك سو حجم ذخيره‏سازى اطلاعات را تا حد قابل ملاحظه‏اى كاهش مى‏دهد و از سوى ديگر سرعت جستجو را به ميزان بسيار مناسبى افزايش مى‏دهد، مورد توجه محافل دانشگاهى و آموزشى معتبر و متخصصان و توليدكنندگان نرم‏افزارهاى بزرگ قرار گرفت. اما متاسفانه تا به حال حتى يك مقاله علمى از اين ابداع و ابتكار در مورد پردازش اطلاعات و فشرده‏سازى آن و بهينه‏سازى جستجو عرضه نشده است. حال آنكه غربى‏ها -كاملا به عكس- در زمينه‏هاى مختلف رايانه، مدتها قبل از پياده‏سازى يك امر، صدها كتاب و مقاله در مورد آن منتشر مى‏سازند.

3-2-8- توانايى كاربر در تغيير دامنه جستجو:

دو گونه دامنه در اغلب برنامه‏هاى نور در اختيار كاربر قرار مى‏گيرد:

الف) دامنه فيزيكى: هر ناحيه پيوسته‏اى از متن حتى يك صفحه از كتاب و يا يك آيه از قرآن، مى‏تواند دامنه انتخابى كاربر قرار گيرد. تمامى جستجوها منحصرا در ناحيه انتخاب شده توسط كاربر انجام خواهد گرفت. لازم به ذكر است كه محدوديت، هم‏بند بودن و پيوستگى قطعات دامنه فيزيكى در برنامه نور السيرة در حد چند كتاب متفرق و در برنامه نور الانوار/2 تا سطح چند آيه پراكنده برطرف گرديد.

ب) دامنه مشخصه‏اى: در عموم برنامه‏هاى نور كاربر مى‏تواند ويژگى كلمه مورد جستجوى خودرا تعيين كند كه شامل ويژگى آيه، روايت، سند و يا توضيح مؤلف كتاب باشد. كلماتى كه از ويژگى انتخاب شده كاربر برخوردار نباشند به عنوان پاسخ جستجو بازگردانده نمى‏شوند.

در اغلب برنامه‏هاى نور، كليدى مانند F3 دامنه جارى انتخاب شده توسط كاربر را نشان مى‏دهد.

4-2-8- راحتى كار با برنامه:

از اين ويژگى معمولا به friendly user بودن ميانجى كاربر برنامه ياد مى‏شود، علاوه بر اينكه در تمامى قسمتهاى برنامه يك راهنماى «بر خط‏» (online) در اختيار كاربر مى‏باشد و مى‏تواند شيوه كار با برنامه را به زبان جارى برنامه مشاهده نمايد، هر قابليت و ويژگى كه در برنامه براى استفاده كاربر تعبيه شده است، به گونه‏اى - مستقيم يا غير مستقيم- به اطلاع كاربر رسانده شده است و هر آنچه را كه كاربر مى‏تواند از برنامه در اختيار خود بگيرد، دور از چشم و نگاه او نيست.

كليدهاى ميان‏بر و فعال برنامه (Hotkey) در خطوط بالا و پايين صفحه برنامه به اطلاع‏كاربر رسانده شده است. با صرف مدت زمان كوتاهى، شيوه كار با برنامه به دست كاربر مى‏آيد. ازآنجا كه برنامه‏هاى نور همگى داراى روال واحدى هستند، كاربر ضمن آشنايى با يكى از آنها، در واقع با تمام برنامه‏ها آشنا شده است. معمولا زبان رايج‏برنامه علاوه بر انتخاب آن به هنگام نصب و راه‏اندازى، در حين اجراى برنامه نيز قابل تغيير مى‏باشد.

رنگ صفحاتى كه كاربر با آنها صفحات كتابها را مشاهده مى‏نمايد، كاملا در اختيار كاربر مى‏باشد. صفحه كليدى كه كاربر با آن عادت دارد، از داخل برنامه قابل تغيير مى‏باشد. همگى اينها به اضافه قابليت تغيير فونت نمايش جلوه‏هايى از راحتى كار با برنامه مى‏باشد.

5-2-8- يكى ديگر از نقاط قوت برنامه‏هاى نور، كنترل تمامى پيامهاى خط توسط موتور خود برنامه مى‏باشد.

در سيستم عامل DOS تمامى ايرادهاى سخت‏افزارى توسط اينتراپت 24H كنترل مى‏شود. در برنامه نور، اين اينتراپت‏به زبان اسمبلى باز نويسى شده است و كليه پيامهاى خطاى سخت‏افزارى به زبان فارسى و عربى به كاربر منتقل مى‏شود.

قابليت گزينش از متن و جستجو يا ذخيره‏سازى و يا چاپ ناحيه گزينش شده نيز از نقاط قوت برنامه‏هاى نور مى‏باشد.

9 - چشم‏انداز نرم‏افزارهاى معجم لفظى نور
مركز تحقيقات كامپيوترى علوم اسلامى در رشته‏هاى مختلف علوم اسلامى، معجم‏هاى لفظى گوناگونى عرضه نموده است و خواهد نمود. بعضى از اين معجم‏ها به صورت مستقل و برخى در ضمن معجم‏هاى موضوعى، رجالى و تاريخى عرضه شده است. آنچه را كه ما در اين مقال به آن پرداخته بوديم، معجم‏هاى لفظى كتب روايى بود. مركز تا كنون در زمينه حديث و روايات پيامبر اكرم‏صلى الله عليه وآله وسلم و ائمه معصومين‏عليهم‏السلام دو لوح فشرده عرضه نموده است:

1 - لوح فشرده نور (الفاظ) شامل بحار الانوار، كتب اربعة، وسائل الشيعة، مستدرك الوسائل و شرح نهج البلاغه ابن‏ابى‏الحديد كه به تفصيل در بند 6 محتواى آن شرح داده شد.

2 - لوح فشرده نور العترة/1 شامل بيش از 160 عنوان از كتابهايى كه به عنوان مصادر و مآخذ بحار الانوار محسوب مى‏شوند. در ضمن معجم لفظى كتب رجالى هشت‏گانه شيعه به صورت برنامه‏اى جداگانه ضميمه اين لوح فشرده مى‏باشد.

آنچه درخور گفتن است، اين است كه ارتقاء معجم‏هاى لفظى نور در طيف كتب حديث و روايت، از اين به بعد تحت نام «نور العتره‏» خواهد آمد. تا آخر سال 1378 به اميد حق، لوح فشرده نور العترة/2 شامل نهج البلاغه، صحيفه سجاديه، وسائل الشيعة، مستدرك الوسائل و كتب اربعه شيعه به صورت اعراب‏دار و نيز بحار الانوار و مآخذ بحار الانوار و كتب رجال و كتابهاى لغت «العين‏»، مجمع البحرين و لسان العرب همگى در يك برنامه عرضه خواهند شد.

نگارنده در بخش دوم اين مقاله در بند پنجم (يعنى در قسمت‏بيان پيشينه و تاريخچه معجم‏هاى لفظى نور) از ذكر برنامه نور العترة و نيز معجم‏هاى لفظى كه در دل برنامه‏هاى موضوعى نهفته است، چشم‏پوشى نموده است تا بهانه‏اى داشته باشد كه در مقاله‏اى جداگانه ويژگيهاى معجم‏هاى لفظى توليد شده توسط متدهاى شى‏ءگرا ( object-oriented) را بيان نمايد.

كمترين انتظار در ارتقاء معجم‏هاى لفظى نور اين است كه عناوين مختلف كتب حديثى، همگى در يك برنامه عرضه شوند تا پژوهشگر مجبور نباشد براى جستجو در تمامى كتب روايى شيعه، دائما بين چند برنامه جدا جدا در رفت و آمد باشد.

چشمداشت ديگر كاربران در نور العترة/2 عرضه اطلاعات كتب حديثى به شكل عربى صحيح همراه با علائم ويژه زبان عربى يعنى «ة‏» و«ي‏» و «ا» و «ا» مى‏باشد. اين نكته يكى از اشكالهاى لوح فشرده معجم الفاظ نور است كه با صرف هزينه سنگينى در نور العترة/2 تمامى اين اطلاعات با كوششى طاقت‏فرسا از طرف معاونت فنى و بخش ورود اطلاعات مركز تحقيقات كامپيوترى علوم اسلامى تصحيح شده است.

به محيط Windows 9X مى‏باشد كه مقدمات اين مهم نيز توسط بخش نرم‏افزار معاونت فنى مركز انجام گرفته است. در سيماى آينده نرم‏افزارهاى معجم لفظى نور چند ويژگى پيش‏بينى شده است كه مراحل تحليل و طراحى را طى كرده است و به اميد حق پياده‏سازى خواهد شد كه بعضى از آنها عبارت‏اند از:

1 - اتصال كلمات متن به لغت‏نامه از طريق ريشه‏يابى كلمات
2 - امكان حفظ محيطهاى جستجو
3 - جستجو در فهرست كتابها
4 - مقايسه پاسخهاى تفصيلى و اجمالى
5 - جستجو توسط نويسه (كاراكتر)هاى عمومى (9)
6 - امكان حاشيه‏نويسى بر متن
7 - قابليت‏حفظ جايگاه در هر قسمت از متن (Bookmark)
8 - رنگى كردن قسمتهايى از متن و عنوان دادن به رنگها
9 - عنوان جديد دادن به قسمتهايى از متن كتاب.

توضيح هر يك از اين ويژگيهاى جديد در مقاله‏اى جداگانه خواهد آمد.

به اميد پيشرفت كمى و كيفى هر چه بيشتر در نرم‏افزارهاى نور، اين مقال را به پايان مى‏بريم.

و السلام على من يخدم الحق لذات الحق



























/ 1