إستخراج البيانات من صفحات الإنترنت

ما هو المقصود من التجريف؟

وفقا للمعني في المعجم فهي تشير الي الازالة (على سبيل المثال الطبقة الخارجية) من السطح عن طريق ضربات قوية بأداة خشنه أو حادة بينما تجريف الويب يشار اليه في الويكيبيديا كبرنامج كمبيوتر يقوم باستخراج المعلومات من شبكات الإنترنت. تجريف شبكة الإنترنت هو عملية جمع المعلومات من الشبكة العالمية تلقائيا من أجل تقليل الحاجة للبحث اليدوي وتقليل عمليات النسخ واللصق من المواقع.

وبالتالي فان التجريف يصف الطريقه التي يتم بها استخراج البيانات المخفية في الوثائق – مثل صفحات الويب وملفات بي دي إف وجعلها صالحة للاستخدام لإضافة المزيد من المعالجة عليها. ويعتبر التحقيق في البيانات من المهارات الأكثر فائدة اذا تم العمل بها – وهي ليست صعبة بشكل خاص في أغلب الاحيان. وللقيام بأبسط سبل التجريف فأنك لا تحتاج حتى إلى معرفة كيفية كتابة التعليمات البرمجية

 مقدمه مختصرة الي لغة الإتش تي إم إل

ان معرفه بنية موقع على شبكة الانترنت هو الخطوة الأولى نحو استخراج واستخدام البيانات. ولهذا السبب من المفيد أن تتعلم القليل عن لغة الإتش تي إم إل

ان الحصول على البيانات من المواقع قد تبدو معقدة قليلا في البداية – ولكن اطمئن فبمجرد قيامك بها عدة مرات سوف تصبح متشابهة. ولاستخراج البيانات من المواقع نحن بحاجة إلى القاء نظرة خاطفة علي كود الإتش تي إم إل الأساسي. لا تقلق لا تحتاج لفهم كل التفاصيل منه فقط ما يجعلك قادرا على القيام بذلك

الإتش تي إم إل هي اختصار للغة توصيف النص التشعبي وهي اللغة المستخدمة لوصف (علامات الترميز) صفحات الويب. وهي اللغة الأساسيه لانتشاء محتوى صفحه الويب. الإتش تي إم إل  نفسها لا تحدد الطريقة التي تبدو عليها الأمور – فهي تساعد فقط في تصنيف المحتوى والهيكل. لذلك دعونا نلقي نظرة خاطفة على بعض المواقع

قم بفتح موقع يحتوي علي قائمه بكل نواب برلمان المملكة المتحدة بمتصفح جوجل كروم

http://www.parliament.uk/mps-lords-and-offices/mps/

انتقل لأسفل إلى قائمة النواب

انقر بزر الفارة الأيمن على أحد الإدخالات

حدد

Inspect Element

سوف يقوم الكروم بفتح مساحه ثانوية في أسفل الصفحه ليظهر الكود الاساسي للأتش تي إم إل والذي يركز علي العنصر الذي قمت باختياره

الاقواس المدببه هي وسوم  الإتش تي إم إل

قم بتحريك الفارة الي أعلي والي أسفل ولاحظ كيف يمكن للكروم تعريف كل عنصر

يمكنك توسيع وطي قطاعات معينة من خلال النقر على المثلثات

هل لاحظت شيئا ما ؟ كل صف في القائمة الطويلة للنواب هو ضمن قطاع واحد من <tr></tr> حيث تشير <tr> الي صف من الجدول

الاسماء والدوائر في وسوم <td></td>حيث تشير td  الي جدول البيانات اي أننا نتعامل هنا مع جدول

اذا قمت بتمرير الفارة الي أعلي القائمه ستلاحظ  عنصر <table> يتبعه عنصر <tbody> نعم انه جدول الإتش تي إم إل مناسب

تفضل وقم بالاكتشاف !

 الإتش تي إم إل ليست لغزا. إذا كنت ترغب في معرفه المزيد عنها وكيفية انشاء صفحات الويب باستخدامها – قم بزيارة هذا الموقع لقراءة مقدمة بسيطة عنه

School of Webcraft

متصفحات ويب أخري

للقيام بنفس الشيء في المتصفحات الويب الأخرى جرب الطرق التالية.

فايرفوكس Firefox : قم بتثبيت وتنصيب الفاير باج Firebug  (http://getfirebug.com/)

Safari: Preferences > Advanced > Show Develop Menu > Show Web Inspector

ثبت مستكشف للانترنت 7 ( Internet Explorer 7): قم بتثبيت شريط الادوات المطور

عناصر اللإتش تي إم إل

ويتم تحديد العناصر من خلال “وسم”  اسمائها  وقد تحتوي علي نصوص داخلية و “attributes” (named properties): <tag attribute=”value”>text</tag>

الوثيقة بأكملها <tag attribute=”value”>text</tag><html> –

  • <body> – الجزء المقروء من صفحة الويب
  • <table> – إطار عنصر الجدول
  • <tr> – صف في الجدول
  • <td> – خلية من المحتويات داخل الصف
  • <th> – خلية رأس الجدول داخل الصف

استخراج جدول من صفحة ويب باستخدام جداول بيانات جوجل

دعونا نحفظ البيانات المتوفرة لدينا في جدول بيانات – حتى نتمكن من استخدامها فيما بعد. ويتم ذلك بطريقه سهله عن طريق معادلة خاصة في جداول البيانات جوجل.

معادلة جداول بيانات جوجل:

=importHTML(“”,”table”,N)

سوف تقوم بتجريف جدول من صفحة ويب الإتش تي إم إل الي جدول بيانات جوجل. يحتاج عنوان المسار لصفحة الويب المطلوبة وعنصر الجدول المطلوب على حد سواء أن يكونا في علامات اقتباس مزدوجة. العدد N يحدد الجدول N’th في الصفحة (يبدأ العد من 1) كما في الجدول المطلوب لتجريف البيانات.

اقرأ المزيد عن: استخراج جداول الإتش تي إم إل وتحويلها الي جدول بيانات جوجل.

  1. اذهب الي موقع http://drive.google.com وقم بالتسجيل وإنشاء جدول بيانات جديد
  2. حرر الخليه A1 (الخليه بأعلي اليسار)
  3. استخرج جدول محافظات مصر باللغة العربيةhttp://ar.wikipedia.org/wiki/مصر
  4. ادخل المعادله التاليه داخل الخليه

=ImportHTML(“http://ar.wikipedia.org/wiki/مصر”, “table”, 1)

(العدد الاخير يشير إلى عدد الجداول في الوثيقة قم بتجربتها واختبارها والعثور على المتطابق  …)

  1. اضغط زر ادخال
  2. انتظر لبرهة وسوف تري الجدول يظهر بطريقه سحريه
  1. انتظر ليس هذا هو الجدول الذي توقعناه أليس كذلك ؟ يرجع ذلك لأن هناك جداول متعددة في الصفحة وتقوم مستندات ووثائق جوجل باختيار المستند الاول (الرقم1 في نهاية المعادله هو من اعطي الامر بذلك). – ببساطة قم بتغييره إلى 2 أو 3 حتى تحصل على الجدول الصحيح. (تذكر أننا نحاول الحصول على جدول المحافظات المصرية)
  1. بعد تجربة أرقام جدول مختلفة يمكنك معرفة أن الجدول الذي نحاول البحث عنه هو رقم الجدول. وبشكل سحري  يظهر جدول البيانات التي نحتاجها في جدول البيانات وقد تم سحبها مباشرة من صفحة ويكيبيديا. ملحوظ هامه أرقام الجدول ليست واضحة دائما – ابدأ بالرقم 1 وقم بزيادة عدد الجدول حتى تحصل على الارقام الصحيحة.
  2. تهانينا : لقد قمت بتجريف أولي مجموعة البيانات الخاص بك!

تجريف المواقع باستخدام ملحق تجريف للكروم

متى يجب أن اتعلم التجريف؟

هناك عدد من الاسباب

إذا كان عليك استخراج البيانات بانتظام وحيث يوجد العديد من الجداول في صفحة واحدة

إذا تم نشر المعلومات التي تبحث عنها عبر العديد من الصفحات

إذا كنت ترغب في تشغيل المجرفه بانتظام – مثل اذا كان يتم نشر المعلومات كل أسبوع أو شهر

كنت تبحث عن بعض الاشياء مثل تنبيهات البريد الإلكتروني إذا كانت المعلومات على تتغير علي صفحة ويب معينة

….واذا كنت لا تريد أن تدفع لشخص آخر للقيام بذلك نيابة عنك!

ملخص

تغطي هذه الدورة تجريف شبكة الإنترنت وكيفية استخراج البيانات من المواقع. وتتمثل المهمة الرئيسية للتجريف في تحويل البيانات التي الشبه منظمة الي بيانات مهيكلة وجعلها صالحة للاستعمال بسهولة للإضفاء المزيد من المعالجة عليها. علي الرغم أنها مهمة بسيطة نسبيا مع معرفه بسيطة للبرمجة – لصفحات الويب الاحاديه-  أو بدون ادني خبرة الإطلاق. لقد قدمنا ​​= importHTML ملحق التجريف لتلبية الاحتياجات الخاصة بك في التجريف.

لمعرفة المزيد اقرأ

Scraping for Journalism: A Guide for Collecting Data: ProPublica Guides

Scraping for Journalists (ebook): Paul Bradshaw

Scrape the Web: Strategies for programming websites that don’t expect it : Talk from PyCon

An Introduction to Compassionate Screen Scraping: Will Larson

 دليل : استخراج البيانات من داخل ملفات البي دي إف

يمكن لملفات بي دي إف أن تكون في جميع الصور والأشكال – إذا كنت تستعرض ملف بي دي إف منسق علي نحو جيد و لم يتم مسحه ضوئيا فاعطي تابولا  الفرصه لاستخراج المعلومات. كيف يتم ذلك ؟ اطلع علي البحوث القصيرة بأسفل:

سوف تحتاج الي:

  1. ابدأ برنامج Tabula  (بالنقر المزدوج علي ايقونه Tabula)
  2. وجه متصفحك  الي http://127.0.0.1:8080
  3. اختر الملف الذي تود تحميله وانقر Submit
  • انتظر حتى نهاية تحميل ملف PDF
  • انزل بالسهم الي أسفل لصفحه 74- حيث سنقوم باستخراج هذا الجدول

انقر واسحب مربع التحديد فوق الجدول

  • سوف تظهر لك نافذة توضح كيف يمكن لبرنامج Tabula استخراج البيانات.
    ابدأ الآن في تحميل البيانات كـ CSV

حسنا لدينا الآن مجموعة بيانات للواردات المصرية في تنسيق CSV.

ماذا عن تمثيل هذه البيانات مرئيا في قصة ذات مغزى؟

لحسن الحظ لدينا الآن ادوات رائعة لإنتاج المخططات البيانيه ومن ثم يمكنك وشرها على شبكة الإنترنت.الـ  Datawrapper هو واحد من هذه الأدوات لتمثيل البيانات

اذهب الي http://datawrapper.de إنشاء حساب ثم اضغط على زر “create a chart”

يمكنك حفظ مصدر البيانات هنا وتعديل البيانات. يمكنك أيضا تبديل موضع البيانات وهو ما يعني تحويل الصفوف والأعمدة من أجل الحصول على الصفوف التي تريد أن تصورها كرؤوس الأعمدة.

بعد النقر علي visualize يمكنك تحديد نوع المخطط وصقل الرسم البياني عن طريق تغيير الألوان أو مضيفا العنوان والوصف. أفضل مخطط لنوع البيانات التي لدينا هنا هو مخطط الاعمدة لأن هدفنا من تمثيل هذه البيانات مرئيا  هو اظهار مقارنات بين الواردات في مصر خلال 5 سنوات الماضية.

بعد النقر فوق نشر سوف تحصل على رابط لتمثيل البيانات الخاص وكود HTML ثم يمكنك وضعه في موقع الويب الخاص بك.

ها هي الآن يمكنك النقر على الرابط واللعب بهذا المخطط الرائع: http://cf.datawrapper.de/11mKD/2/

 

Leave a Reply

Your email address will not be published. Required fields are marked *