دانلود پاور پوینت رشته کامپیوتر جستجو در روش های شبکه های Peer-to-peer با فرمت ppt و قابل ویرایش تعداد اسلاید 28
دانلود پاور پوینت آماده
مقدمه
ویژگی های شبکه های p2p
عدم وجود هماهنگ کننده مرکزی
این فایل بسیار کامل و جامع طراحی شده و جهت ارائه در سمینار و کنفرانس بسیار مناسب است و با قیمتی بسیار اندک در اختیار شما دانشجویان عزیز قرار می گیرد
ترفندهای جستجو در گوگل
همه چیز درباره موتور های جستجو گر درجهان
موتورهای جستجو چگونه کار می کنند؟
وقتی جستجویی در یک موتور جستجوگر انجام و نتایج جستجو ارایه می شود، کاربران در واقع نتیجه کار بخش های متفاوت موتور جستجوگر را می بینند. موتور جستجوگر قبلا” پایگاه داده اش را آماده کرده است و این گونه نیست که درست در همان لحظه جستجو، تمام وب را بگردد. بسیاری از خود می پرسند که چگونه ممکن است گوگل در کمتر از یک ثانیه تمام سایت های وب را بگردد و میلیون ها صفحه را در نتایج جستجوی خود ارایه کند؟
گوگل و هیچ موتور جستجوگر دیگری توانایی انجام این کار را ندارند. همه آنها در زمان پاسخ گویی به جستجوهای کاربران، تنها در پایگاه داده ای که در اختیار دارند به جستجو می پردازند و نه در وب! موتور جستجوگر به کمک بخش های متفاوت خود، اطلاعات مورد نیاز را قبلا” جمع آوری، تجزیه و تحلیل می کند، آنرا در پایگاه داده اش ذخیره می نماید و به هنگام جستجوی کاربر تنها در همین پایگاه داده می گردد. بخش های مجزای یک موتور جستجوگر عبارتند از:
Spider یا عنکبوت
Crawler یا خزنده
Indexer یا بایگانی کننده
Database یا پایگاه داده
Ranker یا سیستم رتبه بندی
الف Spider- (عنکبوت)
اسپایدر یا روبوت (Robot)، نرم افزاری است که کار جمع آوری اطلاعات مورد نیاز یک موتور جستجوگر را بر عهده دارد. اسپایدر به صفحات مختلف سر می زند، محتوای آنها را می خواند، لینکها را دنبال می کند، اطلاعات مورد نیاز را جمع آوری می کند و آنرا در اختیار سایر بخش های موتور جستجوگر قرار می دهد. کار یک اسپایدر، بسیار شبیه کار کاربران وب است. همانطور که کاربران، صفحات مختلف را بازدید می کنند، اسپایدر هم درست این کار را انجام می دهد با این تفاوت که اسپایدر کدهای HTML صفحات را می بیند اما کاربران نتیجه حاصل از کنار هم قرار گرفتن این کدها را.
اما یک اسپایدر آنرا چگونه می بیند؟
برای این که شما هم بتوانید دنیای وب را از دیدگاه یک اسپایدر ببینید، کافی است که کدهای HTML صفحات را مشاهده کنید.برای این کار به شکلهای زیر نگاه کنید.
اسپایدر، به هنگام مشاهده صفحات، بر روی سرورها رد پا برجای می گذارد. شما اگر اجازه دسترسی به آمار دید و بازدیدهای صورت گرفته از یک سایت و اتفاقات انجام شده در آن را داشته باشید، می توانید مشخص کنید که اسپایدر کدام یک از موتورهای جستجوگر صفحات سایت را مورد بازدید قرار داده است
اسپایدرها کاربردهای دیگری نیز دارند، به عنوان مثال عده ای از آنها به سایت های مختلف مراجعه می کنند و فقط به بررسی فعال بودن لینک های آنها می پردازند و یا به دنبال آدرس ایمیل (Email) می گردند.
ب- Crawler (خزنده)
کراولر، نرم افزاری است که به عنوان یک فرمانده برای اسپایدر عمل می کند. آن مشخص می کند که اسپایدر کدام صفحات را مورد بازدید قرار دهد. در واقع کراولر تصمیم می گیرد که کدام یک از لینک های صفحه ای که اسپایدر در حال حاضر در آن قرار دارد، دنبال شود. ممکن است همه آنها را دنبال کند، بعضی ها را دنبال کند و یا هیچ کدام را دنبال نکند.
کراولر، ممکن است قبلا” برنامه ریزی شده باشد که آدرس های خاصی را طبق برنامه، در اختیار اسپایدر قرار دهد تا از آنها دیدن کند. دنبال کردن لینک های یک صفحه به این بستگی دارد که موتور جستجوگر چه حجمی از اطلاعات یک سایت را می تواند (می خواهد) در پایگاه داده اش ذخیره کند. همچنین ممکن است اجازه دسترسی به بعضی از صفحات به موتورهای جستجوگر داده نشده باشد.
شما به عنوان دارنده سایت، همان طور که دوست دارید موتورهای جستجوگر اطلاعات سایت شما را با خود ببرند، می توانید آنها را از بعضی صفحات سایت تان دور کنید و اجازه دسترسی به محتوای آن صفحات را به آنها ندهید. موتور جستجو اگر مودب باشد قبل از ورود به هر سایتی ابتدا قوانین دسترسی به محتوای سایت را (در صورت وجود) در فایلی خاص بررسی می کند و از حقوق دسترسی خود اطلاع می یابد. تنظیم میزان دسترسی موتورهای جستجوگر به محتوای یک سایت توسط پروتکل Robots انجام می شود. به عمل کراولر ، خزش (Crawling) می گویند.
ج- Indexer (بایگانی کننده)
تمام اطلاعات جمع آوری شده توسط اسپایدر در اختیار ایندکسر قرار می گیرد. در این بخش اطلاعات ارسالی مورد تجزیه و تحلیل قرار می گیرند و به بخش های متفاوتی تقسیم می شوند. تجزیه و تحلیل بدین معنی است که مشخص می شود اطلاعات از کدام صفحه ارسال شده است، چه حجمی دارد، کلمات موجود در آن کدامند، کلمات چندبار تکرار شده اند، کلمات در کجای صفحه قرار دارند و … .
در حقیقت ایندکسر، صفحه را به پارامترهای آن خرد می کند و تمام این پارامترها را به یک مقیاس عددی تبدیل می کند تا سیستم رتبه بندی بتواند پارامترهای صفحات مختلف را با هم مقایسه کند. در زمان تجزیه و تحلیل اطلاعات، ایندکسر برای کاهش حجم داده ها از بعضی کلمات که بسیار رایج هستند صرفنظر می کند. کلماتی نظیر a ، an ، the ، www ، is و … . از این گونه کلمات هستند.
د – Database (پایگاه داده)
تمام داده های تجزیه و تحلیل شده در ایندکسر، به پایگاه داده ارسال می گردد. در این بخش داده ها گروه بندی، کدگذاری و ذخیره می شود. همچنین داده ها قبل از آنکه ذخیره شوند، طبق تکنیکهای خاصی فشرده می شوند تا حجم کمی از پایگاه داده را اشغال کنند. یک موتور جستجوگر باید پایگاده داده عظیمی داشته باشد و به طور مداوم حجم محتوای آنرا گسترش دهد و البته اطلاعات قدیمی را هم به روز رسانی نماید. بزرگی و به روز بودن پایگاه داده یک موتور جستجوگر برای آن امتیاز محسوب می گردد. یکی از تفاوتهای اصلی موتورهای جستجوگر در حجم پایگاه داده آنها و همچنین روش ذخیره سازی داده ها در پایگاه داده است.و- Ranker (سیستم رتبه بندی)
بعد از آنکه تمام مراحل قبل انجام شد، موتور جستجوگر آماده پاسخ گویی به سوالات کاربران است. کاربران چند کلمه را در جعبه جستجوی (Search Box) آن وارد می کنند و سپس با فشردن Enter منتظر پــاسخ می مانند. برای پاسخگویی به درخواست کاربر، ابتدا تمام صفحات موجود در پایگاه داده که به موضوع جستجو شده، مرتبط هستند، مشخص می شوند. پس از آن سیستم رتبه بندی وارد عمل شده، آنها را از بیشترین ارتباط تا کمترین ارتباط مرتب می کند و به عنوان نتایج جستجو به کاربر نمایش می دهد.
حتی اگر موتور جستجوگر بهترین و کامل ترین پایگاه داده را داشته باشد اما نتواند پاسخ های مرتبطی را ارایه کند، یک موتور جستجوگر ضعیف خواهد بود. در حقیقت سیستم رتبه بندی قلب تپنده یک موتور جستجوگر است و تفاوت اصلی موتورهای جستجوگر در این بخش قرار دارد. سیستم رتبه بندی برای پاسخ گویی به سوالات کاربران، پارامترهای بسیاری را در نظر می گیرد تا بتواند بهترین پاسخ ها را در اختیار آنها قرار دارد.
یک موتور جستجوگر به وسیله الگوریتمی که در اختیار دارد، تصمیم می گیرد که صفحات مرتبط را چگونه در نتایج جستجو مرتب و رتبه بندی کند. در حال حاضر قدرتمندترین سیستم رتبه بندی را گوگل در اختیار دارد.
مفاهیم و اصطلاحات دنیای جستجو و موتورهای جستجوگر
قبل از شروع گفتگو درباره هر موضوعی نیاز به آن است که مفاهیم اولیه و اصطلاحات رایج در آن موضوع، بیان شود تا طرفین گفتگو راحت تر به منظور یکدیگر پی ببرند. برخی از مفاهیم و اصطلاحات حوزه SEO در این مقاله شــرح داده شده است.
Spider, Crawler, Robot
نرم افزاری است که کار جمع آوری اطلاعات از صفحات سایتهای مختلف را بر عهده دارد.
Directory
فهرست. نوعی از موتورهای جستجوگر که پایگاه داده آن توسط ویراستاران تکمیل می گردد. در آنها سایتها در گروههایی موضوعی دسته بندی می شوند.
Keyword
بــه واژه ها ی مهم (کلیدی) هر صفحه گفته می شود. اما غالبا” منظور کلماتی است که دوست داریم با آنها رتبه های مناسبی کسب کنیم.
Keyword Density
چگالی کلمه، منظور تعداد دفعات تکرار واژه های کلیدی در مقایسه با سایر کلمات متن است.
Keyword Staffing
تکرار یک کلمه به دفعات و پشت سر هم به منظور بالا بردن چگالی کلمه. این کار تقلب محسوب می شود.
Tinny Text
نوشتن متن با اندازه های بسیار کوچک و ریز به گونه ای که کلمات بسیاری بدین ترتیب در یک خط قرار داده می شود و به سختی نیز در صفحه قابل رویت هستند. نوشتن مطالب به این صورت، تقلب محسوب است.
Invisible Text
متن نامرئی. منظور استفاده از متن های همرنگ با پس زمینه صفحه است. متن هایی که از دید کاربران مخفی می ماند. به عنوان مثال اگر پس زمینه یک صفحه سیاه است، متن صفحه نیز با رنگ سیاه نوشته می شود تا دیده نشود . این نوع متن ها از مصادیق تقلب می باشند.
Spam
تقلب، به تمام تلاش هایی گفته می شود که به کمک آن سعی می شود از راه های غیر معمول، رتبه های بالایی کسب شود. یا در اختیار گذاردن اطلاعاتی که موتورهای جستجوگر آنرا دوست ندارند (اطلاعات ناخواسته) مانند تکرار یک کلمه به دفعات و پشت سر هم، استفاده از متن های هم رنگ زمینه و …
ALT tag
محتوای این شناسه، متنی است که یک عکس را توضیح می دهد.
Deep Crawl
به معنای این است که موتور جستجوگر، می تواندصفحات زیادی از یک سایت را در پایگاه داده اش قرار دهد. موتور جستجوگر هرچه پایگاه داده اش بزرگتر باشد، صفحات بیشتری از یک سایت را می تواند در پایگاه داده اش قرار دهد. همه موتورهای جستجوگر دارای این ویژگی نمی باشند. Robots.txt
با این فایل متنی و ساده، میزان دسترسی موتور جستجوگر به محتوای یک “سایت” را می توان کنترل کرد.
META robots tag
به کمک این شناسه میزان دسترسی موتور جستجوگر به محتوای یک “صفحه” را می توان کنترل کرد.
Link
پیوند. در واقع پلی بین دو صفحه است. به کمک آن می توان از یک صفحه به صفحه دیگر رفت.
Link Popularity
مقصود این است که چه تعداد از سایت های دیگر به سایتی مشخص لینک کرده اند یا اینکه از چند سایت دیگر می توان به کمک پیوندها به سایتی مشخص رفت.
Link Reputation
اشاره به این دارد که سایر سایتها درباره سایتی که بدان لینک داده اند، چه می گویند. عموما در این موارد عنوان، متن لینک و کلمات اطراف لینک در سایت مقصد، بررسی می شوند.
Learn Frequency
بعضی از موتورهای جستجوگر می توانند تشخیص دهند که محتوای صفحات پس از چه مدتی تغییر می کند (به روز می گردد) و بعد از آن مدت به آن صفحات مراجعه می کنند.
URL-Uniform Resource Locator
به آدرس منحصر به فرد هر منبع موجود در اینترنت گفته می شود. این منبع می تواند یک صفحه وب، یک فایل متنی و… باشد
Stop Word
به کلماتی گفته می شود که در کل اینترنت از آنها بسیار استفاده شده است. کلماتی نظیرthe, a, an, web www, home page, و …
Meta tags
به کمک این شناسه ها، اطلاعاتی از صفحه در اختیار بینندگان (موتور جستجوگر، مرورگرها و …) قرار داده می شود.
META Keywords
به کمک آن، کلمات کلیدی صفحه در اختیار موتورهای جستجوگر قرار داده می شود.
META Description
به کمک آن، توضیحی مختصر از صفحه در اختیار موتورهای جستجوگر قرار داده می شود.
Stemming
به معنای این است که موتور جستجوگر می تواند صورت های مختلف یک کلمه را جستجو کند. به عنوان مثال با جستجوی swim موتور جستجوگر به دنبال swimmer ، swimming نیز می گردد. همه موتورهای جستجوگر دارای این ویژگی نمی باشند.
Rank
رتبه یک صفحه در نتایج جستجو است زمانی که جستجویی مرتبط با محتوای آن صفحه انجام می شود.
Spam indexing
منظور طراحی و معرفی صفحاتی به موتورهای جستجوگر است که کیفیت نتایج جستجو را پایین می آورند. موتورهای جستجوگر تمایل دارند که کاربران بارها و بارها به آنها مراجعه کنند و کیفیت بالای نتایج می تواند این روند را تضمین کند. لذا آنها هرکدام به نوعی سعی در تشخیص صفحاتی دارند که کیفیت نتایج جستجو را پایین می آورد. برخی از این موارد عبارتند از: ساختن صفحاتی که همگی دارای محتوای یکسانی اند، تکرار یک کلمه بیش از حد و …
Comment
توضیحاتی است که طراحان سایت در لا به لای کدهای HTML می گنجانند تا برای فهمیدن وظیفه بخش های متفاوت کدهای HTML در مراجعات آتی نیازی به صرف وقت بسیار نداشته باشند.
گوگل محبوبترین موتور جستجو:
ا«گوگل» یکى از بزرگترین موتورهاى جستوجوى جهان در اینترنت است که بیش از تمام موتورهاى جستوجوى دیگر و به ویژه براى فارسى زبانها، کاربرد دارد.
به دلیل قابلیتهاى گوگل(Google)، اغلب کاربران تمایل دارند براى جستوجوى اطلاعات در تصاویر و صفحات از این موتور جستجو که قابلیت جستوجوى فارسى نیز دارد، استفاده کنند.
بنابراین گزارش، توسط گوگل، مىتوان به جستوجوى تصاویر، ترجمه صفحات وب، فایلهایPDF، لینکهاى درون Cached نگهداشته شده، صفحات مشابه و افرادى که به کاربران لینک کردهاند، پرداخت.
گفتنى است، اگر چه گوگل به عنوان یکى از مشهورترین موتورهاى جستوجو، تقریبا براى تمام کاربران شناخته شده است، ولى بسیارى از کاربران با کاربردها و قابلیتهاى ویژه این موتور جستوجو آشنا نیستند. این گزارش حاکى است، گوگل، سد زبان را با قابلیت ترجمه جدید خود(بتا) شکسته و با استفاده از قابلیت ترجمه با ماشین، این موتور به انگلیسى زبانان قابلیت استفاده از بسیارى صفحات غیر انگلیسى را مىدهد. همچنین، توسط این موتور مىتوان به جستوجوى بیش از 250 میلیون تصویر قابل مشاهده در فهرست پرداخت و یا فایلهاى PDF را مورد جستوجو قرار داد، فهرست سندهایى که گوگل براى کاربران مىیابد، اکنون فایلهاى PDF را نیز در بر مىگیرد و ذخیرهسازى یک عکس از هر صفحه به عنوان نسخه پشتیبان براى زمانى که صفحه اصلى موجود نباشد، از دیگر امکانات این موتور است.
گفتنى است، وقتى کاربر بر روى Similar pages براى دیدن نتیجه یک جستوجو کلیک کند، گوگل به صورت خودکار صفحات مربوطه را براى رسیدن به نتیجه، اکتشاف مىکند، با تایپ آدرس مقابل کلمه Link در محل جستوجوى گوگل مىتوان کسانى که به آدرس تایپ شده کاربر لینک دادهاند را، دریافت کرد.
همچنین، با قرار دادن آدرس دامین یک سایت در مقابل کلمه Sit در محل جستوجوى گوگل مىتوان جستوجوى خود را به دامین آن سایت محدود کرد و در آخر با کلیک کردن بر روى گزینه«یا شانس یا اقبال» (I m feeling lucky)، مىتوان به اولین صفحه وبى که گوگل جستوجو کرده رفت، بدون آن که نتایج دیگر جستوجو را مشاهده کرد.
بر اساس تازهترین نظرسنجی انجام شده ، “Google” به عنوان محبوب ترین موتور جستجوگر برای کاربران ایرانی شناخته شد.
در این نظرسنجی که در سایت “ایران سئو” انجام شد، از کاربران خواسته شده است تا “موتور جستجوگر محبوب” خود را مشخص کنند.
بنا بر نتایج به دست آمده از نظرسنجی مذکور، سایت گوگل با اختلاف زیادی در رده اول با کسب ۶۷درصد آراء و سایت “یاهو” با کسب ۱۲درصد آراء در رده دوم قرار گرفته است.
رتبههای بعدی این نظر سنجی به”ASK” با ۱۱درصد و “MSN” با سه درصد اختصاص یافته است.
پنج درصد آرا نیز به سایر موتورهای جستجوگر داده شد.
بنا بر گزارش سایت ایران سئو ، مقایسه این نظرسنجی با نمونههای مشابه که در خارج از کشور انجام شده است، نشان میدهد که اختلاف گوگل با رقبای اصلی آن یعنی یاهو و MSNبسیار چشمگیر است.
در این گزارش امده است: پشتیبانی مناسب گوگل از زبان فارسی مهمترین دلیل در کسب این جایگاه است.
در این نظرسنجی دو هزار و ۵۰۷ کاربر اینترنت شرکت کرده اند.
بزرگترین بانکهای اطلاعاتی جهان
حدس بزنید بزرگترین بانکهای اطلاعاتی (Database) جهان کدامند؟ برای یافتن پاسخ کافی است حضور ذهن داشته باشید تا نام دوتا از بزرگترینها را به خاطر بیاورید. بله! آنها گوگل و یاهو هستند. این بانکهای اطلاعاتی غولآسا یک نسخه از جدیدترین صفحات وب اکثر سایتهای اینترنتی جهان را در خود ثبت کردهاند. البته بحث درباره این که کدام یک از این دو بانک بزرگتر است، سالهاست جریان دارد و گویا پایانی هم برای آن متصور نیست.
(ممکن است هنگام انتقال از فایل ورد به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود ولی در فایل دانلودی همه چیز مرتب و کامل است)
متن کامل را می توانید دانلود نمائید
چون فقط تکه هایی از متن پایان نامه در این صفحه درج شده (به طور نمونه)
ولی در فایل دانلودی متن کامل پایان نامه
همراه با تمام ضمائم (پیوست ها) با فرمت ورد word که قابل ویرایش و کپی کردن می باشند
موجود است
فرمت فایل : word(قابل ویرایش)
تعداد صفحات:183
فهرست مطالب:
چکیده
سرگذشت اینترنت 5
اینترنت چیست ؟ 5
وب جهان پهنا WORLD WIDE WEB 19
URL یا مکان یاب منافع عمومی چیست ؟ 29
پست الکترونیک چیست ؟ 30
اختلاف بین اینترنت و شبکه های روی خطی تجاری چیست ؟ 32
اتصال ppp چیست ؟ 34
گپ با اینترنت چیست ؟ 34
گروه خبری چیست ؟ 36
قرار داد انتقال فایل چیست ؟ 37
زبان آرایش فرامتن چیست ؟ 38
درخواست 40
کالبد شکافی نشانی وب 42
انواع پایگاههای اینترنت 44
وب یا تارگسترده 45
دیدن پایگاهها 46
پروتالها 49
پایگاههای ftp 51
یوزنت 52
پایگاههای TELNET 55
جستجوی گسترده وب با پایگاههای جستجو گر فراگیر 59
پایگاههای جستجو گر تخصصی 62
میدانهای موردعلاقه 63
جستجوی هوشمندانه وب 64
جستجوی ساده روی خطی ( online) 67
برنامه Bulls Eye 69
برنامه Compenic 99 70
برنامه Serchpad 71
برنامه Webferret PRO 71
مبانی تحلیل الگوریتم 74
بیان الگوریتم 77
ارزیابی کارایی الگوریتم 80
جدول1-1 : زمان لازم برای حل مسائل به وسیله الگوریتم های متفاوت 88
دایرکتوری های تحت اختیار انسان 92
قسمت یک موتور جستجو محور 94
موتورهای جستجوی اصلی : همانند ، اما متفاوت 95
Deep Crawl 98
frames support (پشتیبانی کادر ها ) 99
نقشه های تصویری Imaga maps 99
Paid inclusion 101
stmming ریشه یابی 103
Ranking یا رده بندی 103
موتور جوستجوی اصلی 107
هات بات 110
موتورهای جستجوی جهانی دیگر
محل ، محل ، محل ، …و تکرار 117
چاشنی در خوراک پزی 118
جایگزینی موتور جستجو چیست ؟ 122
رتبه بندی بالا در کلید شماره 2 128
جمع بندی 130
قسمت های یک موتور جستجوی 131
((الگوریتم رنکینگ یاهو)) 138
تسلیم به پروژه دایرکتوری باز: 158
شاخص گذاری: 164
دایرکتوری ها چیست؟ 164
چگونه موتورهای تحقیق کار می کنند؟ 165
طراحی یک پایگاه دانش : 170
مقالات: موتورهای جستجو /نکات رنکینگ Google 171
به زبان Google: 176
منابع و مآخذ:
چکیده :
موضوعی که در این مجموعه مورد بررسی قرار گرفته است ترتیب اولویت بندی موتورهای جستجو در اینترنت می باشد موارد Search شده در Search engine به ترتیب های خاصی از بالا به پایین قرار می گیرند وهر موتور جستجو برای این اولویت بندی الگوریتم خاصی را درنظر می گیرد که این یک راز و رمز تجاری برای طراحان آن می باشد .
ما در این مجموعه در ابتدا به توضیح مختصری درباره تاریخچه web پرداخته و پس از آن مفهوم الگوریتم را توضیح داده ایم .
دربخش بعدی با جستجو به وسیله موتورهای مختلف در ابتدا طریقه کارکردموتورهای جستجو را بیان کرده و قسمتهای مختلف یک موتور جستجو را توضیح داده ایم و سپس متذکر شده ایم که همه موتورها از یک سری کلی پیروی می کنند اماهر یک الگوریتم خاص خود را بپردازند .
پس از آن به توضیح بیشتر نمونه الگوریتمهای ارائه شده توسط چند موتور جستجو از جمله Google , Yalooپرداخته ایم .
سرگذشت اینترنت
برای مردمی که تحت بمباران رسانه ها قرار گرفته اند گویی اینترنت زادگاهی نداشته است . سالها ، مودمهای خفته کار کمی داشتند و فقط گاه باbbs ارتباط برقرار می کردند . سیستمهای در آن روزها سیستمهای فقط متنی و بدون گرافیک بودند وکلمه online ( روی خطی ) و اینترنت کلمه های شناخته شده ای نبودند اینترنت فقط برای دانشمندان علوم کامپیوتر ، دانشگاهیان و پژوهشگران تجهیزات جنگی که درباره پژوهشهای جدید بحث می کردند ، کلمه ای آشنا بود .
همه اینها در چند سال گذشته روی ، داد اینترنت امروز به کاربران این امکان را می دهد که عقاید خود را برای میلیونها نفر ا زمردم جهان ابراز کنند . اینترنت با فراهم ساختن امکانات انتقال هر چیزی از نرم افزار و موسیقی گرفته تا تصاویر گرافیکی ، چهره دنیای کامپیوتر را تغییر داده است . اینترنت تقریبا همه جاهست . و تقریبا هر چیزی را می توان در آن پیدا کرد .
اینترنت چیست ؟
با آنکه همه روزه خبرهایی درباره اینترنت از رادیو ، تلویزیون و روزنامه ها میبینیم، تعداد کمی از مردم آن را کاملا می شناسند . اصطلاحاتی چون ( ابر بزرگ اطلاعاتی ) و (وب جهان پهنا ) اغلب معادل اینترنت به کار برده می شود ، اما اینترنت در واقع هیچ کدام از اینها نیست . اینترنت یک مکان با یک مقصد نیست . یک شبکه است مکانیسمی برای انتقال داده ها از یک کامپیوتر به سایر کامپیوترها ست .
از بعضی جهات ، مانند شبکه کامپیوتری یک سازمان کوچک است اما در مقیاس جهانی ، تنها چیز جادویی درباره آن اندازه بسیار بزرگ آن است .
اینترنت جهانی را می توان مانند سیستم تلفن جهانی در نظر گرفت . اگر شخصی در تهران به شخص دیگری در پاریس تلفن بزند . سیگنال صوتی از طریق تعدادی از خطوط تلفن و وایستگاههای مخابراتی شرکتهای مختلف ( که کامپیوتر های سوئیچ کننده دارند ) عبور می کند همه شرکتها از استانداردهای خاصی پیروی می کنند ( که پروتوکل نامیده می شود ) به گونه ای که هر دستگاه موجود در مسیر بتواند بایک نوع سیگنال سر وکار داشته باشند . وقتی شخص واقع در تهران با تلفن صحبت می کند صدایش با استفاده از کامپیوترها ، خطوط تلفن ، ماهواره ها وسایر وسایل الکترونیکی ازمرزها و دریاها عبور می کند وبه مقصد می رسد .
اینترنت نیز شبکه ای از خطوط تلفن و سایر انواع رسانه ها ، کامپیوتر های ویژه و وسایل سوئیچ کننده است . اینترنت به جای انتقال مکالمات صوتی نقطه به نقطه ، برای انتقال داده های دیجیتالی کامپیوتری بکار می رود . بخشهایی از یک پیام پست الکترونیکی می تواند از طریق کامپیوترها وخطوط متعلق به دهها فرد یا شرکت عبور کند . از همین روست که گفته می شود اینترنت متعلق به هیچ کس نیست . در حقیقت، اینترنت متعلق به بسیاری از افراد ناشناس است که همگی مالک تکه هایی از آن هستند .
بنیانی که باعث شده است سیستم اینترنت کار کند ، علت اینکه بسیاری از کامپیوترهای آن می توانند با یکدیگر صحبت کنند . آن است که همگی یک زبان را می دانند . از لحاظ داخلی کامپیوتر های مختلف از سیستم عاملهای مختلفی بهره می گیرند و پردازنده هایشان نیز متفاوت است از لحاظ خارجی ، همگی آنها می توانند آنچه را که به tep/ ip مشهور است ترجمه کنند این استاندارد ارتباطاتی به هر کامپیوتر متصل به اینترنت امکان می دهد که داده ها را با هر کامپیوتر دیگری مبادله کنند یعنی نوعی زبان اسپرانتوی دیجیتال است شاید بهترین زبان یا قشنگترین زبان ممکن نباشد اما استانداردی است که اکثر کامپیوترها میتوانند آن را بکار بگیرند واز نرم افزار مناسب ان یاری بطلبند.
ازarpanet تا اینترنت
ریشه های اینترنتی که امروزه می شناسیم به یک پروژه مربوط به سال 1969 در وزارت دفاع امریکا بر می گردد . که براساس آن چندمرکز کامپیوتری در سراسر امریکا
باید به هم وصل می شدند .
پنتاگون شبکه ای می خواست که در صورت تخریب بخشی از آن بر اثر بمباران یا حوادث طبیعی بتواند باز هم به کار خود ادامه دهد . این شبکه که به arpanet شهرت یافت از ابتدا طوری طراحی شد که یک بخش مرکزی نداشته باشد ودر نتیجه در صورت حمله وتخریب هر بخش آن باز هم بتواند به کار خود ادامه دهد شبکه ای که همچون یک تار عنکبوت شکل گرفت وهر کامپیوتر آن از مسیرهای مختلف می توانست به همتایان خود داده های خود را بفرستد حتی اگر یک یا دو کامپیوتر روی شبکه یاپیوند بین آنها کاملا از کار می افتاد بقیه بازهم می توانستند از طریق مسیر های صدمه ندیده دیگر باهم ارتباط برقرار کنند .
این شبکه به دسته هایی از داده ها که به وسیله کامپیوترهای مختلف ارسال می شدند اتکا داشت .
اطلاعات درهر انتقال به وسیله کامپیوتر میزبان براساس استاندارد پروتوکل اینترنت به بسته های کوچک تقسیم می شد بسته ها ، که هر کدامشان نشانی کامپیوتر مقصد را نیزباخود داشت ، از طریق شبکه انتقال می یافت ، کامپیوترهای واقع درمسیر ، نشانی موجود دربسته ها را می خواندند وبسته ها را به نزدیکترین کامپیوتر بعدی در مسیر کامپیوتر مقصد هدایت می کردند بسته ها از کامپیوتر هاو خطوط ارتباطی مختلف می گذشتند درنهایت ، بسته ها به کامپیوتر مقصد می رسیدند وبالاخره در آنجا به هم وصل می شدند تافایل اولیه به وجود بیاید .
پس از آنکه آزمایشها سودمندی آن را اثبات کردند سایر بخشهای دولتی ودانشگهای پژوهشی تمایل خود را به وصل شدن به آن شبکه بیان کردند ارتباطات الکترونیکی به صورت روشی موثر برای دانشمندان و دیگران به منظور استفاده مشترک از داده ها در آمد ، درهمان زمان کهarpanet درحال رشد بود ، تعدادی شبکه پوشش محلی در نقاط مختلف امریکا به وجود آمد مدیران lan نیز به هم وصل کردن کامپیوتر های شبکه های خود به شبکه های بزرگتر اقدام کردند . پروتوکل اینترنت ARPANET زبان استاندارد حکمفرما برای برقراری ارتباط کامپیوتر های شبکه های مختلف به یکدیگر شد .
در دهه 1980 وقتی بنیاد ملی علوم یک شبکه پایه ارتباطی جدید وسریعتر براساس IPساخت تا دانشگاهها وموسسات پژوهشی را با پنج مرکز ابر کامپیوتری در نقاط مختلف امریکا ارتباط بدهد ، اینتر نت بزرگتر و بی درو پیکر تر شد رشد روز افزون اینترنت در ابعاد بین المللی امروز هم ادامه دارد همه کشورها به اینترنت وصل نشده اند اما به هر کشوری که بخواهد خوش آمد گفته می شود .
تا اکتبر سال 1995 بخشهایی از nsfNET که تا آن موقع به وسیله کمک مالی دولت
اداره می شد فروخته شد یابه صورت شرکتهای خصوصی تجدید سازمان گرفت . اینترنت کنونی مجموعه ای وسیع از شبکه های بزرگ است که عمدتا به وسیله شرکتهای مخابرات معظم مانند sprint, mci اداره می شود و چند نقطه اصلی تعداد بسیاری از شبکه های کوچک را به خود متصل کرده اند جزئیات مربوط به آن برای کسانی که از پست الکترونیکی اینترنت بهره می گیرند خیلی مهم نیست .
اینترنت وحشی می شود
از اوایل دهه 1990 رشد استفاده از اینترنت به صورت تصاعدی افزایش یافت ، یکی از علل چنین استقبالی ابزار جستجویی مانند archie , gopherبوده است اما اینها در سال 1991 تحت الشعاع ( وب جهان پهنا ) قرا رگرفتند که به وسیله gern آزمایشگاه فیزیک هسته ای اروپا ساخته شد . باآنکه وب جهان پهنا از ابتدا طوری بود که مبادله اطلاعات برای تازه واردان بسیار ساده باشد بزرگترین جهش در وب در سال 1993 با عرضه نرم افزار موزائیک که نخستین برنامه مرور گر وب گرافیکی بود به وجود آمد.
برنامه موزائیک محصول تلاش دانشجویان واستادان بخش ( مرکز علمی کاربردهای ابر کامپیوتر ) در دانشگاه ایلینویز امریکا بود برای نخستین بار موزائیک امکانات اشاره وتقه را فراهم کرد کاربران می توانستند صفحاب وب یامجموعه ای از متن و گرافیک را کنارهم بگذارند تا هر کسی که می خواست آنها را بتواند روی اینترنت ببیند . وقتی با موش روی کلمه ها یا تصاویر خاصی ، که فراپیوند نامیده می شوند ، تقه ای زده می شد برنامه موزائیک به طور خود کار یک صفحه دیگر را باز می کرد . بهترین بخش این سیستم آنجا بود که فراپیونند ها می توانستند به صفحاتی روی همان کامپیوتر یا کامپیوتر دیگراینترنت یا خدمات وب اشاره کنند . صفحات جدید وب همه روزه ظاهر می شدند ومفهوم ( موج سواری ) روی وب متولد شد .
اواسط سال 1994 بیش ازسه میلیون کامپیوتر به اینترنت وصل شده بود ، ودر آن هنگام اجرای عملیات آهسته نشده بود صفحات وب که حاوی همه چیز بودند از اسناد رسمی دولتی یا داده های با ارزش تحقیقاتی گرفته تا تصاویر مدلهای جدید البسه درسراسر دنیا چند برابر شد . موزائیک و جانشینان آن مانندnavigator محصول شرکت ( نت اسکیپ ) اینتر نت را از قلمرو علمی و فنی به میان مردم آوردند .
امروزه فقط در امریکا بیش از 10 میلیون نفر از اینترنت بهره می گیرند طبق بررسیها ، بیش از 51 درصد از کاربران اینترنت ازسال 1995 به بعد وارد این محیط شده اند .
میلیونها انسانی که از خدمات روی خطی اینترنت بهره می گیرند نیازی ندارند که نکات فنی اینترنت مانند TCP / IP را بفهمند دسترسی به اینترنت زمانی به معنای این بود که استفاده کننده بخشی از یک موسسه بزرگ مانند دانشگاه یایک مرکز پژوهشی است امروزه ، موسسات مختلفی ( فراهم کننده خدمات اینترنت ) هستند .
دست کم بعضی از مبالغه ها درباره اینترنت تعدیل شده است ،رشد روزافزون آن وساده تر شدن استفاده آن همچنان ادامه دارد . هر چه مردم بیشتری به اینترنت رجوع می کنند تعداد شرکتهای نرم افزاری سازنده برنامه های اینترنت نیز بیشتر می شوند .
با آن بعضی از عاشقان اینترنت ، آن را نوعی سبک زندگی می دانند درنظر بیشتر استفاده کنندگان منبع سرگرمی ،اطلاعات ، وارتباطات است پر استفاده ترین خصوصیت اینترنت پست الکترونیکی آن است که یکی از ابزار های ارتباطی کار آمد به شمار آمده است پیامها به سرعت از یک کامپیوتر به دیگری پرواز می کنند ودر آنجا می مانند تا دریافت کننده وقت برای خواندن آنها پیدا کند .
وب امکانات خوبی نیز برای کپی کردن نرم افزارهای مجاز از لحاظ کپی فراهم می کند .
اینترنت برای پشتیبانی فنی شرکتهای کامپیوتری نیز مفید است این شرکتها می توانند نرم افزار های رایگان خودبه ویژه دستگاه رانها را از این طریق به مشتریان خود برسانند . همه نرم افزارهای موردنیاز برای استفاده ازاینترنت را تقریبا به رایگان می توان از خود اینترنت دریافت کرد . فقط انها که اولین بار ازاینترنت می خواهند استفاده کنند به نرم افزار مخصوص نیاز دارند .
درجامعه اطلاعاتی امروز اینترنت خبرهای روزانه خوبی دارد ، آخرین اخبار جهان اخبار هوا شناسی ، وعکسهای ماهواره ای نتایج مسابقات ورزشی ، وتفسیر درباره همه چیز علاوه بر مسائل جدی اینترنت سرگرمی نیز فراهم می کندگفتگوهای همزمان باافراد مختلف ، بازی ، جلوه های صوتی و ... دهها میلیون صفحه در وب وجود دارد برای هر کسی چیزی دارد .
طراحان اولیه اینترنت اصلا چنین وضعی را پیش بینی نمی کرده اند اما انعطاف پذیری یکی از برجسته ترین مشخصات اینترنت است همروزه اصطلاحات جدید ، امکانات جدید ونسخه های جدیدی از نرم افزارهای اینترنت به وجود می آید امروزه می توانید به صدای زنده رادیوها از روی اینترنت گوش بدهید . قطعات کوچک و آهسته بعضی از برنامه های تلویزیونی را ببینید ، ویا با دیگر کار بران اینترنت در سراسر جهان کنفرانس برقرار کنید . یک زبان برنامه سازی جدید به نام جاوا آینده ای را نوید می دهد که در آن برنامه های کار بردی به طور خودکار از اینترنت وارد کامپیوتر استفاده کننده شوند وخودشان را براساس کامپیوتر میزبان پیکر بندی کنند واجرا شوندوقتی کارشان ناپدید شد پراکنده شوند .
فرمت فایل : word(قابل ویرایش)
تعداد صفحات:30
فهرست مطالب:
آناتومی یک موتور جستجو وب فوق متنی در مقیاس وسیع
خلاصه:
1. معرفی
1.2.1 گوگل: تغییر دادن وب
.3.1 اهداف طراحی
.1.3.1 کیفیت جستجوی بهینه شده
.2.3.1 تحقیقات موتور جستجوی آکادمیک
2. ویژگیهای سیستم
1.2- رتبه صفحه: نظم بخشیدن به وب
1.2.2. توصیف محاسبه رتبه صفحه
2.1.2. توجیه شهودی
.2.2 متن انکر (Anchor)
.3.2 ویژگیهای دیگر
3. کارهای مربوطه
.1.3 بازیافت اطلاعات
.2.3.2.3 تفاوتهای وب با مجموعه های کنترل شده
4. آناتومی سیستم
.1.4 نگاهی کلی به معماری گوگل
.2.4 ساختمان داده های مهم
.1.2.4. فایلهای بزرگ
.2.2.4 مخزن
.3.2.4 شاخص سند
4.2.4 واژه نامه
.5.2.4 لیستهای بهترینها
.6.2.4 شاخصهای پیشرو
.7.2.4 شاخص معکوس
.3.4 جستجو و دانلود کردن وب
.4.4 شاخص بندی وب
.5.4 جستجو کردن
.1.5.4 سیستم رتبه بندی
.2.5.4 بازخور
5 عملکرد و نتایج
.1.5 احتیاجات منبع ذخیره سازی
.2.5 عملکرد سیستم
.3.5 عملکرد جستجو
خلاصه:
در این بخش، به گوگل خواهم پرداخت، یک نمونة اصلی از یک موتور جستجوی در مقیاس وسیع که استفاده وسیعی از ساختار اراده شده در فوق متنی می کند. گوگل برای جستجو و یافتن (Crawl) و شاخص بندی وب به طور مؤثر و تولید نتایج هرچه رضایت بخش تر نسبت به سیستم های موجود طراحی شده است. این نمونه اصلی با پایگاه داده ای متشکل متن و فوق پیوند کامل 24 میلیون صفحه در http://google.standard.edi/ موجود می باشد. مهندسی یک موتور جستجو یک وظیفة چالش آور است. موتورهای جستجو دهها تا صدها میلیون صفحه وب متشکل از تعداد قابل ملاحظه ای موضوعهای متفاوت را شاخص بندی می کنند و پاسخ گوی دهها میلیون پرس و جو به صورت روزانه هستند. بر خلاف اهمیت بالای موتورهای جستجوی برروی وب تحقیقات آکادمیک بسیار اندکی برروی آنها صورت گرفته است (در کشور عزیز ما دقیقاً هیچ مطالعه و تحقیقی صورت نگرفته است). علاوه بر این به دلیل سرعت پیشرفت تکنولوژی وب، امروزه ساخت یک موتور جستجو مسبت به سه سال پیش بسیار متفاوت است. این بخش به بررسی و توصیف عمقی این موتور جستجوی وب در مقیاس وسیع می پردازد. جدای از مشکلات تغییر مقیاس تکنیکهای جستجوی قدیمی داده با این وسعت، چالشهای تکنیکی جدیدی در زمینه استفاده از اطلاعات اضافی ارائه شده در فوق متن برای تولید نتایج جستجوی بوجود آمده است. این بخش به این که چگونه می توان یک سیستم در مقیاس وسیع عملی که بتواند اطلاعات اضافی ارائه شده در فقو متن را استخراج کند را تولید کرد، پاسخ خواهد گفت. همچنین ما به این مشکل که چگونه می توان با مجموعه های فوق متن کنترل نشده (هر کسی می تواند هر چه خواست بنیسد) کنار آمد، نیز دقت خواهیم کرد.
وب چالشهای جدیدی برای بازیابی اطلاعات ایجاد می کند. حجم اطلاعات موجود برروی وب به سرعت در حال افزایش است و به همان نسبت تعداد کاربران جدید که در جستجوی وب بی تجربه هستند افزایش می یابد. مردمی که احتمالاً وب را از طریق گراف پیوند آن مرور می کنند، اغلب کار خود را با شاخصهای ذخیره شده با کیفیت بالای انسانی مانند یاهو! یا موتورهای جستجو شروع می کنند. لیتهاس ذخیره و نگهداری شده توسط انسانی موضوعهای معروف را به طور موثری پوشش می دهند اما شخصی بودن، گران و پرهزینه بودن برای ساخت و نگهداری، کندی در پیشرفت و ناتوانی در پوشش موضوعهای مبهم و پیچیده از عیبتهای عمده آنها محسوب می شود. موتورهای جستجو بر پایة هم خوانی کلمات کلیدی معمولاً نتیج را با کیفیت بسیار پایین برمی گرداند. برای بهتر شدن شرایط، بعضی شرکتهای تبلیغاتای تلاش وسیعی برای بدست آوردن نظر مردم از طریق گمراه کردن موتورهای جستجوی اتوماتیک می کنند. اقایان سرگی برین و لاورنس پیج موتور جستجوی در مقیاس وسیعی ساخته اند که به تعداد زیادی از مشکلات سیستم های موجود پرداخته است. و آن استفاده وسیعی از این ساختمام ارائه شده در فوق متن می کند به منظور فراهم کردن نتایج جستجوی با کیفیت بالاتر، اسیم این سیستم، گوگل، انتخاب شده است. زیرا گوگل تلفظ معمول googol یا 10100 است و بسیار مناسب هدف ما برای ساختن یک موتور جستجوی بسیار در مقیاس وسیع است.
تکنولوژی موتورهای جستجو باید به میزان زیادی تغییر پیدا می کرد تا بتواند هماهنگی خود را با گسترش وب حفظ کند. در 1994، یکی از اولین موتورهای جستجوی وب یعمی کرم وب گسترة جهانی (WWWW) شاخصی از000/110 صفحه وب و اسناد در دسترس وب داشت. از نوامبر 1998 موتورهای جستجوی برتر ادعای شاخص بندی از 2 میلیون (WebCrawler) تا 100 میلیون (از (Search Engine Watch صفحه وب و سند را داشتند. قابل پیش بینی است که تا سال 2001 یک شاخص جامع از وب شامل بیش از دو میلیارد سند باشد. در همان زمان تعداد پرس و جوهایی که موتورهای جستجو اداره می کنند به طور شگفت آوری افزایش می یابد. در ماه مارس و آوریل 1994، کرم وب گستره جهانی (wwww) به طور روزانه حدوداً 1500 پرس و جو را دریافت می کرد. در ماه نوامبر 1998، آلتاویستا (Altavista) اظهار داشت که روزانه حدود 20 میلیون پرس و جو را اداره می کند. با افزایش تعداد کاربران وب و سیستمهای اتوماتیک که از موتورهای جستجو پرس و جو می کنند به نظر می رسد که تا سال 2001 موتورهای جستجو صدها میلیون پرس و جو را اداره خواهند کرد. هدف سیستم گوگل توجه به بسیاری از مشکلات کیفیتی و مقیاس پذیری است که با عرضه تکنولوژی موتورهای جستجوی اینترنتی به میزان زیادی گسترش یافته اند.
این موتور جستجوایی که در سطح وب امروز باشد چالشهای بسیاری را پدید می آورد. تکنولوژی جستجو و یافتن سریع برای جمع آوری و به روز رسانی سندهای وب لازمی می باشد. فضای ذخیره سازی بهید به طور کارآمدی برای ذخیره شاخصها و به طور اختیاری خود سندها بکار گرفته شود. سیستم شاخص بندی باید صدها گیگا بایت داده را به طور کارآمد پردازش کند. پرس و جحوها باید به سرعت اداره شوند (با نرح صدها تا هزاران پرس و جو در ثانیه).
همان گونه که وب گسترش می یابد این وظایف نیز به طور صعودی مشکل می شوند. اگرچه عملکرد سخت افزار و هزینه ها به طور چشمگیری بهبود یافته اند و تا حدی از این سختی را تعدیل کرده اند. با این وجود تعدادی استثنای قابل اشاره نیز مانند زمان استوانه یابی دیسک و قابلیت ادامه کار در شرایط غیرمنتظره سیستم عامل وجود دارند. در طراحی گوگل هر دو مسئلهع گسترش وب و تغییرات تکنولوژیک در نظر گرفته شده اند. گ.گل برای تغییر مقیاس دادن مجموعه داده ها به خوبی طراحی شده است و از فضای ذخیره سازی به طور مؤثری استفاده می کند. ساختمان داده های آن برای دسترسی سریع بهینه سازی شده اند (به بخش 4.2 نگاه کنید). علاوه بر این، هزینه شاخص بندی و ذخیره متن یا HTML نهایتاً بستگی نمسبی به میزان در دسترسی آنها دارد و این بر تغییر مقیاس منتاسب برای سیستم های متمرکز شده مانند گوگل تاثیرگذار است.
.3.1 اهداف طراحی
.1.3.1 کیفیت جستجوی بهینه شده
هدف اصلی در طراحی گوگل بهینه کردنم موتورهای جستجوی وب است. در سال 1994، بعضی از مردم تصور می کردند یک شاخص جستجوی کامل امکان یافتن هر چیزی را میسر می سازد. بر طبق مقالة بهترینهای وب 1994 – پیمایشگرها و «بهترین سرویس پیمایشی باید امکان یافتن تقریباً هر چیزی را به آسانی فراهم کند (هنگامی که تمام داده ها وارد شدند)». اگرچه وب 1999 کاملاً متفاوت است. هر کسی که اخیراً از یک موتور جستجو استفاده کرده باشد به سادگی در می یابد که کامل بودن شاخص تنها عامل مؤثر بر کیفیت نتایج جستجو نمی باشد. «نتایج آشغال» اغلب تمام نتایج مورد علاقه کاربر را خراب می کنند. در حقیقت در نوامبر 1999، تنها یکی از چهار مکوتور تجاری برتر نتایج را خودش می یابد (در پاسخ در ده نتیجه برتر، صفحه جستجو شده خودش را برمی رگداند). یکی از دلایل اصلی این مشکل این است که تعداد سندهای موجود در شاخصها به دلایل روشنی افزایش پیدا کرده اند اما توانایی کاربر بریا یافتن و نگاه کردن اسناد پیشرفت نکرده است. مردم هنوز خواستار نتیجه اول جستجو هستند. به همین دلیل، همان طور کهئ اندازة مجموعه گسترش می یابد، به ابزارهایی که دقت بسیار بالایی دارند نیاز بیشتری پیدا می شود (تعداد اسناد مربوط و مناسب برگردانده شده، در بین ده نتیجه برتر می آید). در واقع، گوگل می خواهد مفهوم «مناسب» فقط شامل بهترین اسناد باشد درحالیکه ممکن است، ده ها هزار سند تقیرباً وجود داشته باشد. خوش بینی های جدیدی در زمینه بهبود عملکرد موتورهای جستجو و سایر برنامه های اجرایی با استفاده بیشتر از اطلاعات فوق متنی بوجود آمده است
[Kleinberg 98]. علی الخصوص، ساختمان پیوندها [Page 98] و نوشته پیوندها اطلاعات زیادی برای قضاوت مناسب و فیلترینگ کیفیت فراهم می کند. گوگل از هر دوی ساختمان پیوند و متن انکر استفاده می کند.
.2.3.1 تحقیقات موتور جستجوی آکادمیک
جدای از گسترش بسیار زیاد، وب به طور افزایشی در طول زمان حالت تجاری به خود گرفته است، در سال 1993، %5/1 از سرویس دهندگان وب بر دامنه .com قرار داشتند. این مقدار در سال 1998 به %60 رسید. در همان زمان، موتورهای جستجو از حوزة آکادمیک به تجاری کوچ کردند. تا امروز اغلب پیشرفتهای موتورهای جستجو در شرکتهایی صورت می گیرد که حداقل میزان انتشار جزئیات را دارند. این باعث می شود تکنولوژی موتور جستجو تا حد زیادی مثل جادوی سیاه مخفی باقی بماند و گرایش تبلیغاتی پیدا کند. با گکوگل، سعی شده است تا پیشرفت و فهم بیشتری در قلمرو آکادمیک صورت گیرد.
یکی دیگر از اهداف طراحی ساخت سیستمهایی بود که تعداد قابل قبولی از مردم می توانند استفاده کنند. قابلیت کاربری در طراحی بسیار مهم بوده است زیرا بنظر می آید که اغلب تحقیقات جالب شامل تأثیر استفاده گسترده از سیستمهای مدرن وب در دسترس هستند می باشد. برای مثال، هر روز دهها میلیون جستجو اجرا می شوند. اگرچه، بدست آوردن این داده ها مشکل است، بیشتر به این دلیل که با توجه به جوانب اقتصادی این داده ها ارزشمند هستند.
هدف نهایی طراحی گوگل ساخت یک معماری که قابلیت پشتیبانی از فعالیتهای تحقیق نوظهور برردی داده های در مقیاس وسیع وب را داشته بوده است. برای پشتیبانی از استانداردهای تحقیقاتی نوول، گ.گل تمام اسناد فعلی را که جستجو می کند و می یابد به صورن فشرده ذخیره می کند. یکی از اهداف اصلی طراحی گوگل بوجود آوردن محیطی بود تا سایر محققات بتوانند به سرعت وارد شده، قسمت بزرگی از وب را پردازش کرئه و نتایج جالب توجهی را تولید کنند که در غیر این صورت تولدی آنها غیر ممکن باشد. در مدت زمان کوتاهی سیستم به جایی رسید که تعداد زیادی مقاله و تحقیق با استفاده از پایگاه داده گ.گل ایجاد شده بودند و بسیاری دیگر، در دست اقدام هستند. هدف دیگر بوجود آوردن یک محیط لابراتوار مانند بود که محققان و حتی دانشجویان بتوانند تجربیات جالب و پیشنهادات مفیدی برروی داده های وب در مقیاس وسیع گوگل داشته باشند.