كتب: إسامة عز الدين

الموضوع ليس جديدا، ولا قديما، لكنه متجدد ، تجدد السؤال: لماذا فشلت محركات البحث العربية، بينما سيطرت المحركات العالمية واحتكرت المجال لنفسها؟!

لقد دخلت فى الآونة الأخيرة محركات بحث عربية تحاول أن تنافس محركات البحث العملاقة وعلى رأسها المحركات الشهيرة مثل “جوجل” و”ياهو” و”أسك” و”بنج” وغيرها من محركات البحث الأجنبية ذات الاستثمارات الهائلة التى تحقق أرباحا خيالية.

ومستخدمو الكمبيوتر، المتخصصون وغير المتخصصين يستخدمون محركات البحث فى توسيع دوائر معرفتهم بحثا عن المعلومات.. البعض منهم يجدها بعد دقيقة والبعض الآخر يمتد به الوقت ليتجاوز الدقائق.

ظهرت فى الآونة محركات عربية خالصة تتلخص فى محركين أولهما محرك “البحث” عربية دوت كوم ” التابع لشركة عربى ومقره الأردن والثانى “أنكش دوت كوم” التابع لشركة لينك أون لاين ومقره مصر وبرغم أنهما وضعا حلولا جديدة لمشاكل البحث باللغة العربية على الانترنت كمحرك عربى أو الأخطاء الهجائية كمحرك أنكش إلا أنهما لم يصلا بعد لمرحلة متقدمة نستطيع أن نجزم بأنها منافسة هذا بجانب المحرك القديم يملى Yamli ويستطيع هذا المحرك فهم الكلمات التى تكتبها باللغة الإنجليزية وتقصد بها كلمات عربية، وتحويلها فورا إلى نظيرتها العربية.

وفيما يخص محركات البحث الأجنبية ففى الآونة الأخيرة زاد عدد الصفحات التى يعثر عليها محرك البحث جوجل بمعدل 12 ضعف فى الفترة من عام 2000إلى 2005، و250 ضعف من 2005 إلى 2015، ويستطيع جوجل العثور على أكثر من تريليون رابط link”” متفرد فى العالم الرقمى وأكثر من تريليون رابط غير متفرد.

ويبدأ جوجل عملية المسح فى صفحات الانترنت باختصار بالشكل التالى: توجد لدى جوجل قائمة من الصفحات الرئيسية المرتبطة بمواقع أخرى بشكل جيد جدا، ويبدأ برنامج خاص بالبحث فى جميع الروابط الموجودة فى صفحات هذه القائمة وتسجيلها، ثم البحث فى الروابط الموجودة فى الصفحات التى وصل إليها من الروابط السابقة.. وهكذا.. ويسجل النظام تكرار كل رابط ويقيمه حسب عدد التكرارات، لتظهر النتائج الأكثر تكرارا قبل غيرها.. وتجدر الإشارة إلى أنبعض المواقع قد تحتوى على روابط لا نهائية، مثل الروابط الموجودة فى موقع التقويم، حيث يمكن الدخول فى رابط “اليوم التالى” بشكل لا نهائى، ولذلك فإن البرنامج لا يأخذ هذه الروابط بعين الاعتبار، وتصنف الشركة الروابط والصفحات فى فهرس index ضخم خاص بها، وذلك لتسريع عملية البحث، حيث إنه ليس من العملى أن يبحث المحرك فى جميع صفحات الانترنت كلما طلب المستخدم ذلك.. بل يفحص النظام المعلومات الموجودة فى الفهرس الموجود لديه داخليا.. واختلفت الأمور اليوم كثيرا بالنسبة للشركة مقارنة بالسابق، حيث كانت تجرى العمليات التقنية بشكل مجموعات Batch، مثل قيام أحد الكبيوترات بقياس عدد تكرار الصفحات وتقييمها وفقا لذلك وتجهيز فهرس يمكن استخدامه لعدة ساعات فى اليوم قبل تكرار العملية مرة أخرى، وتحديث معلومات الفهرس، وهكذا.. أما اليوم فإن نظام الشركة يُحدث المعلومات بشكل مستمر ومن دون توقف، ويمكن تشبيه عملية الزحف هذه بتتبع جميع الطرقات والتقاطعات الموجودة على خريطة يبلغ حجمها 50 ألف مرة حجم خريطة أمريكا..

وتقوم أنظمة الشركة بهذه العملية عدة مرات فى اليوم الواحد، ويعالج محرك جوجل نحو 20 بيتابايت من المعلومات كل يوم.

وبناء على الأرقام المذكورة فإنه يمكن تخيل قدرات الأجهزة الخادمة اللازمة لتحليل هذا الكم الكبير من المعلومات، وعرض النتيجة فى نحو 0.3 ثانية، ذلك أن صبر المستخدمين سينفد إذا انتظروا أكثر من بضع ثوان، وإن أردنا استكشاف أحجام التخزين المطلوبة، فإن محرك جوجل يحفظ نسخة من كل صفحة “تقريبا” يضعها فى فهرسه، ويمكن تخل أن عملية حفظ نسخ من تريليون صفحة هو أمر ليس بالسهل، وخصوصا مع اختلاف أحجام الصفحات حسب محتواها، ولذلك فإن أغلبية المحركات تحفظ النصوص الموجودة فى الصفحات المفهرسة وليس الصور وعروض الأفلام ومغيرها من الملحقات المختلفة، وازداد معدل حجم الصحفة من 17 كيلو بايت فى عام 1995 إلى 93.7 كيلو بايت فى عام 2003، وصولا إلى 312 كيلو بايت فى عام 2007.

وتجدر الإشارة إلى أن الصفحات التى تحتوى على أحرف غير إنجليزية ستشغل حيزا أكبر عند حفظها.. ولا ننسى المشاكل التى ستواجه من يصنع المحرك عند طلب البحث عن معلومة هى خليط من عدة لغات، مثل “كأس العالم لكرة القدم south Africa 2010 حيث يجب البحث فى الجزء العربى، والإنجليزى، وربطهما ببعضهما البعض، وذلك أن من يبحث عن هذه المعلومة لا يريد الحصول على جميع المعلومات المتعلقة بـ “كأس العالم لكرة القدم” أو المعلومات عن جنوب أفريقيا، بل المعلومات المرتبطة بالحدث فى المكان المطلوب.. وبالعودة إلى حجم المعلومات التى يجب حفظها، فإن ضربنا عدد الصفحات التى عثر عليها بمعدل حجم الصفحة، فإن النتيجة ستكون نحو 29 ألف تيرابايت، ويمكن ضغط هذه المعلومات بنسبة 88.95%، أعلى نسبة ضغط للنصوص يمكن الوصول إليها.. للوصول إلى نحو 3.2 بيتابايت من المعلومات يوجد لدى شركات صناعة محركات البحث تقنيات عديدة لتطوير التخزين، حيث إن جوجل تستطيع تخزين حجم 148 جيجابايت من الصفحات 24 مليون صفحة فى 7 جيجابايت فقط..

وبحساب أن كلفة القرص الصلب الواحد بسعة 750 جيجابايت هى نحو 650 دولارا أمريكيا للمكيات التجارية، وبمعرفة أن حجم المعلومات التى يجب تخزينها يتطلب نحو 4270 قرصا صلبا، ستكون تكلفة التخزين نحو 2.8 مليون دولار أمريكى للأقراص الصلة التى تخزن المعلومات المفهرسة “لغاية اليوم” فقط، وتجدر الإشارة إلى أنه ليس من العملى وصل هذا العدد من الأقراص الصلبة بالأجهزة الخادمة، إن أمكن عمل ذلك من الناحية التقنية.. أضف إلى ذلك كلفة الأجهزة الخادمة التى يجب عليها البحث عن كلمة واحدة من بين كم المعلومات الموجودة فى الفهرس، وبسرعة كبيرة وكلفة التشغيل والتبريد لهذه الأجهزة، ووجود أجهزة بديلة فى حال تعطلها عن العمل، وكلفة اشتراك الانترنت السريع وغير المحدود، من حيث كم المعلومات الصادرة والواردة.. الذى يجب توفيره للمستخدمين، وأجور الصيانة وطاقم العمل، وغيرها من التكاليف المختلفة، فإن الكلفة النهائية ستكون عدة مئات الملايين من الدولارات الأمريكية.

قدرات ومزايا برمجية

وعند مقارنة محركات البحث المعروفة ببعضها البعض من حيث أحجام الصفحات، تبين أن محرك “ياهو” يخزن جميع المعلومات إن كان حجم الصفحة 210 كيلو بايت أو أقل، وتنخفض نسبة الكلمات التى سيبحث فيها المحرك مع ازدياد حجم الصفحة بشكل مطرد، لتصل إلى 6% من الصفحة عند حجم 3497 كيلو بايت.

أما محرك جوجل، فإنه يخزن الصفحة كاملة لغاية حجم 520 كيلو بايت، وتنخفض النسبة إلى 15% عند حجم 3497 كيلو بايت، فى حين يخزن محرك “إم إس إن” الصفحات لغاية حجم 1030 كيلو بايت، وتنخفض النسبة إلى 29% عند حجم 3497 كيلو بايت، وتجدر الإشارة إلى أن بعض محركات البحث تعرض الصفحات الأصغر حجما قبل الأكبر من الناحية الزمنية، حيث يمكن لموقع ما يبلغ حجمه 150 كيلو بايت، أن يظهر فى نتائج وبفارق أيام، ولا ننسى الصعوبات المتمثلة بربط البحث عن الصور والملفات المختلفة بالكلمات التى يريد المستخدم البحث عنها، حيث إن أغلبية الصور هى ملفات ذات أسماء وأرقام عشوائية مخزنة على الأجهزة الخادمة، ويجب ربط الصورة بالسياق الذى ظهرت به وبموقعها فى الصفحة والكلمات المحيطة بها، الأمر الذى لا يعتبر سهلا، نظر لأن الفقرة المجاورة لأى صورة تتكون من عشرات أو مئات الكلمات، ويجب على أى فرد يريد تطوير محرك بحث بالطريقة الصحيحة تطوير نظام برمجى خاص بتسجيل طلبات البحث وتجهيز جداول بها للمقارنة، وذلك لمعرفة نزعات وتوجهات الأفراد وتطوير المحرك نحو اعتماد خدمات جديدة تناسب الأكثرية وفق إحصاءات الاستخدام.. ومن المفضل اعتماد نظام التصحيح اللغوى لكمات البحث، حيث إن اقتراح كلمة بديلة للمستخدم عوضا عن تلك الخاطئة التى كتبها سيوفر عليه الوقت بسبب أن المحرك نبهه إلى كلمة خاطئة.. ويجب اعتماد نظام برمجى يقارن بين الكلمة المطلوبة وقائمة بجميع الكلمات، وبسرعة كبيرة، ويستخدم جوجل نظاما مكونا من 14 مليون كلمة مرجعية، لا تأخذ حيزا فى الذاكرة سوى 256 ميجابايت على الجهاز الخادم، الأمر الذى يرفع الأداء بشكل كبير، ويستخدم نظام جوجل أسلوب الـ “هاشنج Hashing” البرمجى فى توزيع الكلمات فى الذاكرة لتسريع البحث عنها، مع تحويل كل كلمة يكتبها المستخدم إلى نظير رقمى يعرفه محرك البحث، ذلك أن البحث باستخدام الأرقام فى لغات البرمجة أسرع بكثير من استخدام الكلمات أو النصوص، ويتوقف المحرك عند وصول النتائج إلى 40 ألف نتيجة بحث بغض النظر عن وجود نتائج إضافية أم لا.. ذلك أن النظام يتوقع أن يغير المستخدم من كلمات البحث بعد بضع صفحات إن لم يعثر على النتيجة، وعلى ذلك فإنه لا يوجد داع لعرض ملايين الصفحات التى عثر عليها فى فهرس النظام.

محركات بحث عربية

ظهرت فى الآونة محركات عربية خالصة تتلخص فى محركين أولهما محرك “البحث” عربية دوت كوم ” التابع لشركة عربى ومقره الأردن والثانى “أنكش دوت كوم” التابع لشركة لينك أون لاين ومقره مصر وبرغم أنهما وضعا حلولا جديدة لمشاكل البحث باللغة العربية على الانترنت كمحرك عربى أو الأخطاء الهجائية كمحرك أنكش إلا أنهما لم يصلا بعد لمرحلة متقدمة نستطيع أن نجزم بأنها منافسة هذا بجانب المحرك القديم يملى Yamli ويستطيع هذا المحرك فهم الكلمات التى تكتبها باللغة الإنجليزية وتقصد بها كلمات عربية، وتحويلها فورا إلى نظيرتها العربية.

اترك تعليق