المجلة الدولية للعلوم والتقنية

International Science and Technology Journal

الرئيسية < البحوث والدراسات < تفاصيل بحث أو دراسة

Distilling Vision Transformer Knowledge into MobileNet-V3 for Real-Time Breast Cancer Detection on Edge Devices

الملخص
أدى دمج محولات الرؤية (ViTs) في التصوير الطبي إلى تحسين دقة تشخيص تحليل الموجات فوق الصوتية للثدي (BUS) بشكل ملحوظ، وذلك من خلال استخلاص السياق الدلالي الشامل. مع ذلك، فإن التعقيد الحسابي لهذه النماذج يجعلها غير مناسبة لتطبيقات التشخيص باستخدام أجهزة الموجات فوق الصوتية المحمولة (POC)، حيث تعتمد أجهزة الموجات فوق الصوتية المحمولة على أجهزة حوسبة طرفية منخفضة القدرة. تقترح هذه الدراسة إطار عمل جديدًا لنقل المعرفة مصممًة لسد الفجوة بين التشخيص عالي الأداء والكفاءة في الوقت الفعلي. نقوم بنقل المعرفة الهيكلية لنموذج المعلم الهجين ViT-ConvNeXt، الذي يتطلب موارد حسابية كبيرة، إلى نموذج الطالب MobileNet-V3 فائق الخفة. من خلال الاستفادة من الإشراف على الأهداف المرنة، يرث نموذج الطالب قدرات الاستدلال الشاملة للمحول مع الحفاظ على التحيز الاستقرائي وسرعة الشبكة العصبية التلافيفية (CNN). يُظهر التحقق على مجموعة اختبار مستقلة من بيانات BUSI أن نموذج الطالب يحقق دقة تشخيصية تبلغ 95.06%، وهو ما يطابق نموذج المعلم بشكل فعال. الأهم من ذلك، أن نموذج الطالب يقلل من حجم التخزين بمقدار 74 ضعفًا (من 438.8 ميجابايت إلى 5.9 ميجابايت) ويسرّع عملية الاستدلال بمقدار 15 ضعفًا، محققًا معدل معالجة يبلغ 61.46 إطارًا في الثانية على وحدة معالجة مركزية قياسية. تؤكد هذه النتائج أن الإطار المقترح يلبي متطلبات زمن الاستجابة لتحليل الفيديو في الوقت الفعلي، مما يتيح نشر تقنيات الكشف عن السرطان على مستوى متخصص على أجهزة الموجات فوق الصوتية المحمولة التي تعمل بالبطارية دون الحاجة إلى اتصال سحابي أو تسريع بواسطة وحدة معالجة الرسومات.............. الكلمات المفتاحية:.............. الكشف عن سرطان الثدي، استخلاص المعرفة، Vision Transformers ، MobileNet-V3 ، الذكاء الاصطناعي الطرفي، الموجات فوق الصوتية في الوقت الحقيقي.
Abstract
The integration of Vision Transformers (ViTs) into medical imaging has significantly improved the diagnostic accuracy of breast ultrasound (BUS) analysis by capturing global semantic context. However, the excessive computational complexity of these models renders them unsuitable for Point-of-Care (POC) applications, where portable ultrasound devices rely on low-power, edge computing hardware. This study proposes a novel Cross-Architecture Knowledge Distillation framework designed to bridge the gap between high-performance diagnostics and real-time efficiency. We distill the structural knowledge of a computationally heavy Hybrid ViT-ConvNeXt Teacher into an ultra-lightweight MobileNet-V3 Student. By leveraging soft-target supervision, the student model inherits the global reasoning capabilities of the transformer while retaining the inductive bias and speed of a CNN. Experimental validation on an independent test set of the BUSI dataset demonstrates that the distilled student achieves a diagnostic accuracy of 95.06%, effectively matching the teacher model. Crucially, the student model reduces the storage footprint by 74x (from 438.8 MB to 5.9 MB) and accelerates inference speed by 15x, achieving a processing rate of 61.46 Frames Per Second (FPS) on a standard CPU. These results confirm that the proposed framework satisfies the latency requirements for real-time video analysis, enabling the deployment of specialist-level cancer detection on handheld, battery-powered ultrasound devices without the need for cloud connectivity or GPU acceleration................. Keywords: ..................Breast Cancer Detection, Knowledge Distillation, Vision Transformers, Mo-bileNet-V3, Edge AI, Real-Time Ultrasound.