التنقيب عن البيانات أو استخراج البيانات هو عملية التصنيف من خلال مجموعات البيانات الكبيرة لتحديد الأنماط وإقامة العلاقات لحل المشكلات من خلال تحليل البيانات. تسمح أدوات التنقيب عن البيانات للشركات بالتنبؤ بالاتجاهات المستقبلية.
في التنقيب عن البيانات ، يتم إنشاء قواعد الارتباط من خلال تحليل البيانات للأنماط المتكررة ، وذلك باستخدام معايير الدعم والثقة لتحديد أهم العلاقات داخل البيانات. الدعم هو تكرار ظهور العناصر في قاعدة البيانات ، بينما الثقة هي عدد المرات التي تكون فيها البيانات دقيقة.
تتضمن معلمات استخراج البيانات الأخرى تحليل التسلسل أو المسار ، والتصنيف ، والتجميع ، والتنبؤ. تبحث معلمات تحليل التسلسل أو المسار عن الأنماط التي يؤدي فيها حدث ما إلى حدث لاحق آخر. التسلسل هو قائمة مرتبة من مجموعات العناصر وهو نوع شائع من بنية البيانات الموجودة في العديد من قواعد البيانات. تبحث معلمة التصنيف عن أنماط جديدة ويمكن أن تؤدي إلى تغيير في طريقة تنظيم البيانات. و خوارزميات تصنيف تتوقع المتغيرات على أساس عوامل أخرى داخل قاعدة البيانات.
يقوم تجميع المعلمات بالعثور على مجموعات من الحقائق غير المعروفة سابقًا وتوثيقها بشكل مرئي. تجميع مجموعات مجموعة من الكائنات وتجميعها بناءً على مدى تشابهها مع بعضها البعض.
هناك طرق مختلفة يمكن للمستخدم من خلالها نشر الكتلة ، والتمييز بين كل نموذج عنقود. يمكن أن يكشف تشجيع المعلمات داخل التنقيب عن البيانات عن أنماط في البيانات يمكن أن تؤدي إلى تنبؤات معقولة حول المستقبل ، والمعروفة أيضًا باسم التحليلات التنبؤية.
تُستخدم تقنيات التنقيب عن البيانات في العديد من مجالات البحث ، بما في ذلك الرياضيات وعلم التحكم الآلي وعلم الوراثة والتسويق. في حين أن تقنيات التنقيب عن البيانات هي وسيلة لدفع الكفاءة والتنبؤ بسلوك العملاء ، إذا تم استخدامها بشكل صحيح ، يمكن للشركة أن تميز نفسها عن منافستها من خلال استخدام التحليلات التنبؤية.
التنقيب على الويب ، وهو نوع من التنقيب عن البيانات المستخدم في إدارة علاقات العملاء ، يدمج المعلومات التي تم جمعها بواسطة أساليب وتقنيات استخراج البيانات التقليدية عبر الويب. يهدف التنقيب على الويب إلى فهم سلوك العميل وتقييم فعالية موقع ويب معين.