الكشط أو التجريف هو تشغيل برنامج ما لاستخراج البيانات المهيكلة من صفحات الويب، وتعرف كاشطات أو جرافات الويب بالأبطال المجهولين في تحرير البيانات. وقد أعلنت منظمة أستراليا المفتوحة عن منصة تجريف جديدة تدعى مورف
يمكنك كتابة البرامج النصية على مورف باستخدام لغات الكتابة مثل بايثون وروبي وبي إتش بي ليقوم البرنامج بعدها بجمع البيانات من صفحات الويب وكتابتها إلى قاعدة بيانات إس كيو لايت في دليل العمل.
الكود الخاص بالكاشطة يتم حفظه في مستودع على جيت هاب والذي يكون متصلا بالكاشطة عن طريق مورف. البيانات الناتجة من العملية يتم تخزينها في قاعدة بيانات ويمكن الإستعلام عنها عن طريق واجهة المبرمج، أو يمكنك تحميل البيانات بصيغة جيسون أو صيغة سي إس في يمكنك تنزيلها كجدول بيانات، أو يمكنك تحميل قاعدة بيانات إس كيو لايت ثنائية كاملة.
شكرا على الموضوع الرائع