سماعة أذن تحول الصدى إلى صورة وتنقل تعابير وجه المتحدث

أنس مصطفى

2022-07-25

سودافاكس _ طوّر باحثو جامعة كورنيل سماعة أذن تستقبل ارتداد الصوت عن الخدين، وتحول الصدى إلى صورة رمزية للوجه المتحرك بالكامل، وتنقل تعابير وجه المتحدث أثناء كلامه.

ووصف الفريق ما يمكن الحصول عليه من النظام المسمى “إير آي أو” (EarIO) -وهو “جهاز استشعار صوتي منخفض الطاقة من أجل التتبع المستمر لحركات الوجه التفصيلية”- في بحث منشور في دورية “بروسيدنجز أوف ذا إيه سي إم” (Proceedings of the ACM) حول التقنيات التفاعلية والمتنقلة والقابلة للارتداء المنتشرة في كل مكان، في عدد شهر يوليو/تموز الجاري.

وقد قام الفريق بقيادة الأستاذ المساعد لعلوم المعلومات تشنغ تشانغ، وأستاذ علوم المعلومات فرانسوا غيمبريتيير، بتصميم نظام “إير آي أو” الذي ينقل حركات الوجه إلى هاتف ذكي في الوقت الفعلي، وهو متوافق مع سماعات الرأس المتاحة تجاريا، لعقد مؤتمرات فيديو لاسلكية دون استخدام اليدين.

يقول تشانغ في البيان صحفي وفق موقع جامعة كورنيل في 19 يوليو/تموز الجاري إن الأجهزة التي تتعقب حركات الوجه باستخدام الكاميرا “كبيرة وثقيلة تحتاج الكثير من الطاقة، وهي مشكلة كبيرة بالنسبة للأجهزة القابلة للارتداء”. وأضاف “من المهم أيضا أنها تلتقط الكثير من المعلومات الخاصة”، وأكد أن تتبع الوجه من خلال التكنولوجيا الصوتية يمكن أن يوفر خصوصية أفضل، وتكلفة ميسورة، وراحة، وعمر بطارية أفضل.

جهاز “إير آي أو” المبتكر حديثا يعمل مثل سفينة ترسل نبضات السونار، ويرسل مكبر الصوت الموجود على كل جانب من جوانب سماعة الأذن إشارات صوتية إلى جانبي الوجه، ويلتقط الميكروفون الصدى. وعندما يتحدث مرتدي السماعة أو يبتسم أو يرفع حواجبه، يتحرك الجلد ويتمدد، ويغير ملامح الصدى. وتستخدم خوارزمية التعلم العميق التي طوّرها الباحثون الذكاء الاصطناعي لمعالجة البيانات باستمرار، وترجمة الأصداء المتغيرة إلى تعبيرات وجه كاملة.

يقول طالب الدكتوراه في مجال علم المعلومات الباحث كي لي: “من خلال قوة الذكاء الاصطناعي، تجد الخوارزمية روابط معقدة بين حركة العضلات وتعبيرات الوجه التي لا تستطيع العين البشرية تحديدها”، وأضاف “يمكننا استخدام ذلك لاستنتاج المعلومات المعقدة التي يصعب التقاطها، واجهة الوجه بالكامل”.

وقد أعادت الجهود السابقة التي بذلها مختبر تشانغ لتتبع حركات الوجه باستخدام سماعات الأذن بكاميرا تكوين الوجه بالكامل بناء على حركات الخد كما تُرى من الأذن.ومن خلال جمع الصوت بدلا من الصور المليئة بالبيانات، يمكن للأجهزة الذكية التواصل مع الهاتف الذكي من خلال اتصال “بلوتوث” (Bluetooth) لاسلكي، مع الحفاظ على خصوصية معلومات المستخدم. ومع الصور، يحتاج الجهاز إلى الاتصال بشبكة “واي فاي” (Wi-Fi) وإرسال البيانات ذهابا وإيابا إلى التخزين السحابي، مما قد يجعله عرضة للقراصنة.

مع صور الوجه، يمكن للشخص أيضا أن يستنتج المشاعر والأفعال. وأوضح غيمبريتيير أن “الهدف من هذا المشروع هو التأكد من أن جميع المعلومات التي تعتبر ذات قيمة كبيرة لخصوصيتك، ستكون دائما تحت سيطرتك”.

ويستهلك استخدام الإشارات الصوتية أيضا طاقة أقل من تسجيل الصور، ويستخدم نظام “إير آي أو” 1/25 طاقة نظام آخر قائم على الكاميرا تم تطويره سابقا في مختبر تشانغ، وفي الوقت الحالي تدوم السماعة حوالي 3 ساعات باستخدام بطارية سماعة أذن لاسلكية، لكن الأبحاث المستقبلية ستركز على تمديد وقت الاستخدام.

وقد اختبر الباحثون الجهاز على 16 مشاركا، واستخدموا كاميرا هاتف ذكي للتحقق من دقة أداء محاكاة الوجه. وتظهر التجارب الأولية أن الجهاز يعمل أثناء جلوس المستخدمين وتجولهم، وأن أصوات الرياح وضوضاء الطريق وأصوات الخلفية لا تتداخل مع إشاراته الصوتية.

في الإصدارات المستقبلية، يأمل الباحثون في تحسين قدرة الجهاز على ضبط الضوضاء القريبة وغيرها من الاضطرابات. وقال طالب الدكتوراه في مجال علم المعلومات المؤلف المشارك رويدونغ تشانغ “إن طريقة الاستشعار الصوتي التي نستخدمها حساسة للغاية.. إنها جيدة، لأنها قادرة على تتبع الحركات الدقيقة للغاية، ولكنها سيئة أيضا لأنه عندما يتغير شيء ما في البيئة، أو عندما يتحرك رأسك قليلا، فإننا نلتقط ذلك أيضا”.

ويتمثل أحد قيود هذه التقنية في أنه قبل الاستخدام الأول، يجب أن يجمع جهاز “إير آي أو 32” (EarIO 32) دقيقة كاملة من بيانات الوجه لتدريب الخوارزمية. وقال تشانغ “في النهاية نأمل أن نجعل هذا الجهاز يعمل بالتوصيل والتشغيل (plug and play)”.