موتورهاي جستجو

امروزه بر روي اينترنت صدها ميليون صفحه حاوي اطلاعات وجود دارد. کاربران اينترنت با آگاهي از آدرس يک سايت ، قادر به اتصال به سايت مورد نظر و استفاده از منابع اطلاعاتي موجود بر روي سايت خواهند بود. ما با دريائي از اطلاعات مواجه هستيم ، در صورتيکه قصد يافتن اطلاعاتي خاص را داشته باشيم ، از چه امکاناتي در اين زمينه مي توان استفاده کرد. ؟ براي جستجو و يافتن اطلاعات مورد نياز از مراکز جستجوي اطلاعات در اينترنت استفاده مي گردد . به مراکز فوق Search engines نيز گفته مي شود .

مراکز جستجو در اينترنت ، نوع خاصي از سايت هاي موجود در وب بوده که با هدف کمک براي يافتن اطلاعات ، ايجاد شده اند. مراکز جستجو در اينترنت به منظور پاسخگوئي به کاربران متقاضي و جستجوکنندگان اطلاعات از سه روش متفاوت استفاده مي نمايند. نحوه عملکرد سه روش با يکديگر مشابه بوده و تنها تفاوت موجود ميدان انتخاب شده براي عمليات جستجو است .

اينترنت و يا بخشي از آن بر اساس کلمات مهم ، جستجو مي گردد.

از کلمات پيدا شده يک ايندکس بهمراه محل مربوط به هر يک ، ايجاد مي نمايند.

به کاربران امکان جستجو براي کلمات خاص و يا ترکيبي از آنها که در فايل ايندکس موجود مي باشند ، داده مي شود.

مراکز جستجوي اوليه در اينترنت ، صرفا اطلاعات مربوط به چندين هزار صفحه وب را ايندکس و روزانه دو تا سه هزار کاربر متقاضي به آنها مراجعه مي کردند. مراکز جستجوي فعلي در اينترنت اطلاعات مربوط به صدها ميليون صفحه را ايندکس نموده و روزانه به بيش از دهها ميليون متقاضي پاسخ مي دهند.

وب

اغلب مردم زمانيکه از مراکز جستجو در اينترنت سخن مي گويند ، منظور آنها مراکز جستجوي وب است . قبل از مطرح شدن وب ( مشهورترين بخش اينترنت ) ، از مراکز جستجوي اطلاعات براي کمک به کاربران براي يافتن اطلاعات استفاده مي گرديد. برنامه هائي نظير : gopher و Archie از فايل هاي ذخيره شده بر روي سرويس دهنده هاي متصل به اينترنت ، يک ايندکس ايجاد مي کردند. بدين ترتيب جستجو و دسترسي به اطلاعات و مستندات مورد نظر در اسرع وقت انجام مي گرديد. در اواخر سال 1980 اکثر کاربران مستلزم دارابودن دانش کافي در رابطه با استفاده از gopher,Archie و Veronica بودند. امروزه اکثر کاربران اينترنت دامنه جستجوي خود را محدود به وب نموده اند.

قبل از اينکه يک مرکز جستجو قادر به ارائه آدرس و محل فايل مورد نظر باشد ، مي بايست فايل مورد نظر پيدا شود. به منظور يافتن اطلاعات مربوط به صدها ميليون صفحه وب موجود ، مراکز جستجو مي بايست از يک نرم افزار خاص با نام Spider ( عنکبوت ) براي ايجاد ليست هاي شامل کلمات موجود در هر يک از صفحات وب ، استفاده نمايند. فرآيند ايجاد ليست هاي مربوطه توسط Spider ، اصطلاحا web crawling ناميده مي شود. براي ايجاد و نگهداري يک ليست مفيد از کلمات ، Spider هاي مراکز جستجو مي بايست تعداد زيادي از صفحات وب را بررسي و مشاهده نمايند. نحوه حرکت Spider در وب به چه صورت است ؟ نقاط شروع ، ليستي از سرويس دهندگان با ترافيک و اطلاعات بالا و صفحات وب متداول است . Spider از يک سايت رايج عمليات خود را آغاز و پس از ايندکس نمودن کلمات موجود در صفحات وب ، هر يک از لينک هاي موجود در صفحات را براي ادامه حرکت خود انتخاب خواهد کرد. بدين ترتيب سيستم مبتني بر Spider بسرعت حرکت خود در طول وب را آغاز خواهد کرد.

Google يکي از مراکز جستجوي دانشگاهي و معتبر است . در سيستم فوق از چندين Spider ( معمولا سه Spider در هر لحظه ) براي ايجاد مقادير اوليه براي سيستم ، استفاده مي گردد . هر Spider قادر به نگهداري ارتباط خود با بيش از 300 صفحه وب در يک لحظه است . با استفاده از چهار spider ، سيستم فوق قادر به جستجوي 100 صفحه در ثانيه و توليد 600 کيلوبايت اطلاعات در هر ثانيه است . اطلاعات مورد نياز هر يک از spider ها مي بايست بسرعت در اختيار آنان گذاشته شود. سيستم اوليه Google ، داراي يک سرويس دهنده اختصاصي به منظور تغذيه آدرس هاي URL مورد نياز براي هر يک از Spider ها بود. به منظور افزايش سرعت عمليات ، Google از يک سيستم DNS اختصاصي استفاده مي کرد. ( در ساير موارد از DNS مربوط به ISP استفاده مي گردد ) . زمانيکه Spider به يک صفحه وب شامل تگ هاي Html برخورد مي نمايد ، دو آيتم در رابطه با آن را ياداشت خواهد کرد :

کلمات موجود در صفحه

محلي که کلمات پيدا شده اند.

از کلمات موجود در عنوان (title) ، زيرعناوين (Subtitles) ، تگ هاي متا و ساير مکانهاي مهم ياداشت برداشته شده تا در آينده با توجه به خواسته کاربر ، امکان پاسخگوئي مناسب به آنها فراهم گردد. Spider مربوط به Google ، از کلمات موجود در هر يک از صفحات وب ايندکس ايجاد و کلماتي نظير : a ، an و the را حذف مي نمايند. ساير Spider ها هر يک داراي رويکردهاي خاص خود در اين زمينه مي باشند.

سياست هاي استفاده شده در رابطه با نحوه ايندکس نمودن اطلاعات صفحات وب ، مستقيما بر سرعت عملکرد spider ها تاثير گذاشته و به کاربران امکان جستجوي قدرتمندتر و کارآ را خواهد داد. مثلا برخي از Spider ها ، علاوه بر نگهداري اطلاعات مربوط به عناوين و لينک ها ، يکصد کلمه با فرکانس تکرار بيشتر در صفحه وب و کلمات موجود در بيست خط اوليه را نيز نگهداري خواهند کرد. مرکز جستجوي Lycos از رويکرد فوق استفاده مي نمايد.

سيستم هاي ديگر نظير Altavista ، از روش خاص خود در اين زمينه استفاده مي نمايند. در سيستم فوق براي هر يک از کلمات موجود در صفحه شامل a ، an و the و ساير کلمات مشابه نيز ايندکس ايجاد مي گردد.

تگ هاي متا

با استفاده از تگ هاي متا ، ايجاد کنندگان صفحات وب مي توانند کلمات کليدي موجود در صفحه و نحوه ايندکس نمودن آن را مشخص نمايند. روش فوق در موارديکه يک کلمه داراي بيش از يک معني مي باشد بسيار مفيد و کارساز خواهد بود. بدين ترتيب تگ هاي فوق به مراکز جستجو راهنمائي لازم در خصوص انتخاب معني مربوط به کلمات مورد نظر را خواهند داد. در اين راستا ممکن است برخي از راهنمائي هاي انجام شده نيز اغفال کننده بوده و نتايج مثبتي را براي مراکز جستجو بدنبال نداشته باشد. به منظور پيشگيري از راهنمائي هاي اغفال کننده توسط تگ هاي متا ، برنامه هاي Spider عمليات بازبيني محتويات يک صفحه وب را به منظور تطبيق با اطلاعات ارائه شده توسط تگ ها ي متا ، انجام مي دهند. اطلاعات نادرست ارائه شده بوسيله تگ هاي متا ، توسط Spider ها ناديده گرفته مي شود.

تمام موارد فوق مفروض به حالتي است که ايجاد کننده صفحه وب قصد معرفي صفحه ايجاد شده خود را به مراکز جستجو دارد. در برخي موارد ممکن است تمايلي به انجام اين کار وجود نداشته باشد.

ايجاد ايندکس

پس از اينکه عمليات Spider ها در رابطه با يافتن اطلاعات به اتمام رسيد ، ( عمليات فوق در عمل با توجه به ماهيت وب و استقرار صفحات وب جديد هرگز به پايان نخواهد رسيد ، بنابراين همواره عمليات جستجو و يافتن اطلاعات توسط Spider ها انجام مي گيرد) مراکز جستجو مي بايست اطلاعات مورد نظر را بگونه اي ذخيره نمايند که قابل استفاده باشند. دو روش عمده در اين راستا وجود دارد:

اطلاعات بهمراه داده ذخيره گردند.

با استفاده از روشي اطلاعات ايندکس گردند.

در ساده ترين حالت ، يک مرکز جستجو مي تواند صرفا کلمه و آدرس URL آن را ذخيره نمايد. روش فوق در بازيابي اطلاعات و جستجو توسط کاربران ايجاد محدوديت خواهد کرد. با استفاده از روش فوق نمي توان جايگاه و وزن يک کلمه در يک صفحه وب را مشخص نمود. مثلا نمي توان تشخيص داد که کلمه مورد نظر چند مرتبه در صفحه تکرار شده و يا لينک هاي موجود در صفحه نيز شامل کلمه مورد نظر مي باشند يا خير . بدين ترتيب امکان ارائه يک ليست از صفحات وب که شامل کلمه مورد نظر بر اساس ميزان تکرار مي باشند ، وجود نخواهد داشت .

به منظور ارائه نتايج مفيدتر توسط مراکز جستجو ، اکثر مراکز جستجو صرفا کلمه و آدرس URL را ذخيره نمي نمايند . در اين حالت مواردي نظير : تعداد تکرار کلمه در صفحه نيز ذخيره خواهد شد. مراکز جستجو همچنين به هر entry يک وزن را نسبت خواهند داد. وزن نسبت داده شده، نشاندهنده جايگاه کلمه در صفحه است ( ابتداي صفحه ، در لينک ها ، در تگ هاي متا و يا در عنوان صفحه ) هر يک از مراکز جستجو براي اختصاص يک وزن مناسب به کلمه مورد نظر از يک فورمول استفاده مي نمايند. موضوع فوق يکي از دلايلي است که جستجو يک کلمه توسط دو مرکز جستجو ، نتايج مشابه اي را بدنبال نخواهد داشت .

مراکز جستجو بدليل استفاده بهينه از فضاي ذخيره سازي ، اطلاعات مورد نظر را بصورت رمز شده ذخيره مي نمايند. مثلا در نسخه اوليه سايت Google از دو بايت به منظور ذخيره سازي اطلاعات مربوط به کلمات در يک صفحه استفاده مي کردند. کلمات بصورت حروف بزرگ بهمراه اندازه فونت ، وزن و موقعيت آن ذخيره مي گرديد. هر يک از فاکتورهاي فوق دو ويا سه بيت از دو بايت اشاره شده را به خود اختصاص مي دادند. بدين ترتيب اطلاعات گسترده اي بصورت فشرده ذخيره و سپس عمليات ايجاد ايندکس انجام مي گيرد.

ايندکس داراي صرفا يک هدف است : امکان يافتن اطلاعات با سرعت بالا . براي ايجاد ايندکس از روش هاي متعددي استفاده مي گردد. يکي از بهترين روش هاي موجود ، ايجاد يک جدول Hash است . در روش hashing ، از يک فورمول براي اختصاص يک عدد به يک کلمه استفاده مي گردد. توزيع عددي با توزيع کلمات بصورت الفبائي با يکديگر متفاوت بوده و همين امر ، موثر بودن جداول hash را بدنبال خواهد داشت . در زبان انگليسي حروفي وجود دارد که کلمات زيادي با آنان آغاز مي گردد. مثلا بخش حرف M ، در يک ديکشنري بمراتب قطورتر از حرف X است . بدين ترتيب جستجو و يافتن کلماتي که با حرف M شروع مي گردند زمان بمراتب بيشتري نسبت به يافتن کلماتي که با حرف X آغاز مي گردند ، را طلب مي کند. در روش hashing ، با آگاهي از موارد فوق، بگونه اي رفتار مي گردد که متوسط زمان بازيابي هر کلمه کاهش يابد. در روش فوق ايندکس از داده واقعي متمايز مي گردد. جدول hash ، شامل شماره hash بهمراه اشاره گري است که به داده مورد نظر اشاره مي نمايد. با ايجاد يک سيستم ايندکس مناسب و ذخيره سازي مطلوب اطلاعات ، امکان ارائه نتايج مفيد براي کاربران را فراهم خواهد کرد.

جستجو

کاربران براي جستجوي اطلاعات مورد نياز ، پس از ورود به سايت مرکز جستجو ، يک query را ايجاد مي نمايند. query مي تواند ساده و صرفا شامل يک کلمه و يا پيچيده و استفاده از عملگرهاي منطقي باشد. برخي از عملگرهاي منطقي عبارتند از :

AND . تمام کلماتي که توسط AND بيکديگر ملحق شده اند ، مي بايست در صفحه موحود باشند. در برخي از مراکز جستجو از عملگر + بعنوان عملگر جايگزين AND نيز استفاده مي شود.

OR . حداقل يکي از کلماتي که توسط OR بيکديگر ملحق شده اند ، مي بايست در صفحه موجود باشد .

NOT . کلمه بعد از NOT نبايد در صفحه موجود باشد. برخي از مراکز جستجو از عملگر - نيز استفاده مي نمايند.

Followed by . يکي از کلمات مي بايست مستقيما پس از کلمه ديگر وجود داشته باشد.

آينده مراکز جستجو

جستجوهائي که توسط عملگرهاي منطقي تعريف مي گردند از نوع جستجوهاي literal مي باشند. مراکز جستجو به منظور ارائه نتايج مورد نظر کاربر ، دقيقا کلمه و يا کلمات مشخص شده توسط کاربر در بانک اطلاعاتي جستجو مي نمايند. روش فوق در موارديکه يک کلمه داراي بيش از يک معني باشد ، نتايج مثبتي را بدنبال نخواهد داشت . براي اخذ نتايج دلخواه ، کاربران اينترنت مي توانند با استفاده از عملگرهاي منطقي محدوديت هائي را ايجاد نمايند ، روش مناسب اين است که محدوديت فوق از طريق مرکز جستجو اعمال گردد.

يکي از موارديکه اخيرا توسط محققين متفاوتي در مراکز جستجو دنبال مي گردد ، جستجو بر اساس مفهوم است .در روش فوق با استفاده از آناليزهاي آماري بر روي صفحات شامل کلمات سعي در ارائه نتايج مطلوبتري وجود دارد. در برخي موارد ديگر استفاده از زبانهاي طبيعي براي جستجو دنبال مي گردد. در روش فوق براي طرح سوال خود از يک مرکز جستجو از روشي که توسط انسان براي طرح سوالات مربوطه استفاده مي گيرد، استفاده خواهد شد. در اين راستا ضرورتي به استفاده از عملگرهاي منطقي و يا query هاي پيچيده نخواهد بود.

موتورهای جستجو نسخه متنی

فارسی

کردی

العربیه

اردو

Türkçe

Русский

English

Français

کانال فیلم من

تبیان من

فایلهای من

کتابخانه من

پنل پیامکی

وبلاگ من

اینجــــا یک کتابخانه دیجیتالی است

با بیش از 100000 منبع الکترونیکی رایگان به زبان فارسی ، عربی و انگلیسی

موتورهای جستجو - نسخه متنی

آدرس پست الکترونیک گیرنده :

آدرس پست الکترونیک فرستنده :

نام و نام خانوارگی فرستنده :

پیغام برای گیرنده ( حداکثر 250 حرف ) :

کد امنیتی را وارد نمایید

فونت

اندازه قلم