الخرافة وراء اختبار قابلية الاستخدام!

في 1998 أعطى خبير قابلية الاستخدام رولف موليتش (  والذي اختراع مع جاكوب نيلسن طريقة الـ heuristic evaluation) تسع فرق مدة ثلاثة أسابيع لتقييم تطبيق الويب www.hotmail.com. كانت هذه التجربة جزء من  سلسلته Comparative Usability Evaluations(CUEs)  (تقييمات قابلية الاستخدام المقارنة) والتي بدء عبرها تحديد مجموعة من المعايير القياسية لأفضل الإجراءات المتعلقة باختبار قابلية الاستخدام.

في كل جزء من هذه السلسلة، طلب موليتش من عدة فرق تقييم تصميم واحد باعتماد طريقة من اختيارهم.

النتائج التي ظهرت من الفحص الثاني CUE-2 كانت مفاجئة! فعلى العكس من الادعاءات بعمل فرق اختبار قابلية الاستخدام بشكل علمي لتحديد مشاكل واجهة معينة، كانت النتائج أقل من أن تكون علمية أبداً على أفضل تقدير.

في مقابلة مع كرستين بيرفيتي والمنشورة في دورية User Interface Engineering قال موليتش:

“قدم فريق  CUE-2 تقريراً بـ 310 مشكلة قابلية استخدام مختلفة. أكثر المشاكل تكرراً قدمت من سبعة من الفرق التسعة. 6 مشاكل فقط قدمت من أكثر من نصف الفرق، في الوقت نفسه قدمت 232 مشكلة (75 بالمئة) لمرة واحد فقط. الكثير من هذه المشاكل التي صنفت على أنها “جدية” قدمت في تقرير فريق واحد فقط. حتى المهام التي استخدمت من معظم الفرق أو كلها أوصلت إلى نتائج مختلفة – حوالي 70 بالمئة من النتائج لكل من هذه المهام المشتركة كانت فريدة.”

في CUE-4 والذي أجري في 2003، قام 17 فريق بتقييم موقع Hotel Penn والذي يقدم نظام حجز قائم على فلاش Flash تم تطويره من قبل iHotelier. من الـ 17 فريق، قام 9 بإجراء اختبارات قابلية الاستخدام في حين قام الـ 8 الباقون بمراجعات خبراء.

النتيجة الكاملة كانت 340 مشكلة في قابلية الاستخدام. مع ذلك، 9 مشاكل فقط ذكرت من أكثر من نصف الفرق. ومجموع إجمالي من 205 مشاكل – 60% من النتائج الكلية- ذكرت لمرة واحدة فقط. ومن الـ 340 مشكلة المذكورة، 61 مشكلة فقط كانت مصنفة على أنها “جدية” أو “خطيرة”

لنفكر بهذا قليلاً…

لكي نستطيع كشف مشاكل موقع Hotmail وتحديد المشاكل “الخطيرة” علينا توظيف فرق الدراسة التسعة! في CUE-4 على فندق Penn أن يوظف 17 فريقاً لتحديد الـ 61 مشكلة “الخطيرة”. سبعة عشرة!!!

وبعد سؤاله عن معدل الثقة في المشاكل التي أظهرها التقرير، استنتج موليتش : “الأمر بسيط جداً، لايمكن أن يكونوا واثقين تماماً.”

ما الذي يجعل اختبار قابلية الاستخدام غير جدير بالثقة!

يعتبر تقييم اختبار قابلية الاستخدام أمراً جيداً لعدة أسباب في الحقيقة، لكن تحديد أولوية مشاكل موقع ما ليست أحدها. لحسن الحظ، هناك تفسير لهذه النتائج الـغير مدركة بالحدس والتي يمكنها أن تساعدنا لاختيار أسلوب تقييم ملائم أكثر.

أسئلة صحيحة، اختيار خاطئ للمستخدمين، وبالعكس

لنقل أولاً أن سبب الحصول على نتائج مختلفة لأن الاختبارات والأبحاث تنفذ بشكل سيء : إما أن تقوم فرق البحث بسؤال الأسئلة الصحيحة للمستخدمين الخطأ أو تسأل أسئلة خاطئة للمستخدمين المناسبين.

في أحد الحالات مؤخراً، كان هدف المشروع تحسين قابلية الاستخدام لمستخدمي الموقع الجدد. أظهرت جلسة تنظيم الأوراق أو card-sorting session ( وهي طريقة اكتشاف جيدة جداً لتخطيط التغيرات في معمارية المعلومات) أن المحتويات الموجودة والتي توصف على أنها ليست مثالية تماماً يجب أن يحافظ عليها. حصل هذا لأن العملية جرت مع الأخذ بعين الاعتبار للمستخدمين الحاليين للموقع بدلاً من المستخدمين الجديد الذين يهدف الموقع لإغرائهم.

في حالة أخرى، طلب من فريق آخر تحسين قابلية الاستخدام لأحد تطبيقات الويب عبر تحديد المشاكل الحرجة أو الخطيرة فيه. في النهاية وجد الفريق أن التصميم السيء والموجود للموقع لايجب أن يحافظ عليه فحسب، بل ويجب أن يبرز أكثر.  قام هذا الفريق أيضاً بعملية الاختبار بناء على مستخدمي الموقع الأصليين والذين أصبحوا – كما يمكنك أن تخمن – مستخدمين محترفين لنظام التصفح الفقير والغير كاف.

هناك اختلاف أيضاً في درجة الخبرة بين فرق اختبار قابلية الاستخدام في مهاراتهم و مواهبهم و معرفتهم. ومع العلم أن بعض طرائق البحث والاختبار أصبحت متجانسة لدرجة أن الجميع قادر على القيام بها ببرعة، ذكاء فريق ما (أو قلته) يمكن أن يؤثر على النتائج. كون الجميع قادر على القيام بتقييم قائم على الكشف والاكتشاف أو heuristic evaluation لايعني هذا أن النتائج ستكون دوماً مفيدة أو حتى دقيقة. هذه الطريقة لاتقوم على قائمة تحقق، بل تقوم على مجموعة من الخطوط الارشادية يعتمد عليها مقيّم قابلية الاستخدام كأساس يطبق عليها خبراته. إنها البداية، وليس النهاية.

الاختبار والتقييم عديما الجدوى دون بيئة ملائمة

الآن، بعد هذا، وعندما نعلم أن اختبار قابلية الاستخدام هي ربما ليست طريقة تحديد أولويات موثوقة أكثر من كونها طريقة تقييم كيفية خاصة بالخبراء يقوم بها شخص واحد أو فريق صغير سنجد أن الاختبار وكأي طريقة اختبار أو اكتشاف أخرى: يجب أن تكون – لكنها هذا غير محقق دوماً- موضوعة في سياقها الصحيح.

وطبعاً يمكن القول أن  معدل عرض الصفحات والوقت الذي يُمضى في الموقع – مفاهيم قد تستخدم بحماقة كمقاييس على فعالية موقع ما- هي بدون معنى تماماً حتى توضع في سياق الأهداف المطلوب تحقيقها من صفحات الموقع.

عندما يزور مستخدم ما عدة صفحات في الموقع، هل يقوم بهذا بسبب انسيابية وسهولة التصفح أم لأنه لايستطيع العثور على مايبحث عنه؟ هل يمضي زوار ما الكثير من الوقت في موقع بسبب ارتباطهم واهتمامهم به أم لأنهم علقوا فيه ببساطة؟

في الوقت الذي تأمل فيه نيويورك تايمز NYTimes.com أن يمضي القراء أطول وقت ممكن على صفحات مقالاتها لمسحها أو قراءتها يأتي هدف غوغل Google.com أن يجد الزوار مايبحثون عنه بالسرعة المطلوبة. الوقت الطويل الذي يمضى على مقال في نيويورك تايمز يدل على مقال جيد وممتاز لكن الوقت نفسه عندما يمضى في Google سيكون هذا دليلاً على الفشل التام.

أشك في أن الفرق التي وظفها رولف موليتش طلب منها بأن تقوم بالتقييمات دون أن تقوم أولاً ببحث لتحديد الأهداف التجارية و الأهداف الخاصة بالمستخدمين أو أن تحدد مقاييس النجاح. نقص المعلومات هذا يمكن أن يكون السبب الأساسي وراء هذه النتائج المنحرفة. بغض النظر عن هذا، تسمح لنا مؤشرات البعد عن الواقعية هذه بأن نجد حلول بحث واختبار أكثر فاعلية.

أين يمكن تطبيق الاختبار بشكل ناجح؟

يبدأ كتاب مالكوم غلادول الأكثر مبيعاً Blink بقصة حول تمثال قديم في الظاهر. عندما قيمه خبراء في المنحوتات اليونانية وجدوا ببساطة أنه مزيف. بدون أي دليل علمي نظروا إليه وقالوا أنه من غير الممكن أبداً أن يكون قد نحت في الفترة التي يدعيها من وجده. لم يستطع هؤلاء الخبراء – في أغلب الأحيان – شرح فكرتهم. لقد علموا ذلك فقط.

استطاع الخبراء القيام بهذا لأنهم قضوا آلاف الساعات على شحذ حدسهم عبر الدراسة والبحث. درسوا مهنتهم إلى حد جعلهم قادرين على كشف الخدعة مباشرة، ولو أنهم كانوا غير قادرين على تحديد ما الذي جعلهم ينطقوا بحكمهم هذا.

اختبار قابلية الاستخدام يفيد المصمم والتصميم

يجب أن يكون خبير قابلية الاستخدام الجيد قادراً على تحديد المشاكل ذات الأولوية العالية والقيام بتوصيات ملائمة – أفضل الخبراء يقومون بهذا بسرعة وعلى نحو موثوق-  لكن على المصمم الجيد أن يكون قادراً على التصميم الجيد بالدرجة الأولى. هذه هي المساحة التي يكتسب فيها اختبار قابلية الاستخدام قوته الحقيقية. حيث يمكنه أن يشحذ حدس المصممين بحيث يصبحوا قادرين على تحديد مشاكل قابلية الاستخدام الكامنة وتحسين التصميم بدون الكلفة ذاتها على كل مشروع.

وعلى نحو مثير للاهتمام، لاتأتي النتائج التي تدل على نفاذ البصيرة في اختبار قابلية الاستخدام من العناصر التي تم تقييمها بل من العناصر التي لم يتم تقييمها. تأتي من لحظات يصعب تقييمها عندما يعبس مستخدم في زر ما، أو يقيم سير مهام معينة على أنه أسهل مما ظهر، أو يدعي فهم مفهوم ما في الوقت الذي يبتعد عن ذلك تماماً.

الاستنتاجات الغير مقصودة هي في الغالب مايساعد على تطوير حدس ومهارات المصمم. مع الوقت، جلسات الاختبار تقوي حدس المصمم إلى حد يساعده على تحديد المشاكل خلال لحظات.

ببساطة، يمكن لاختبارات قابلية الاستخدام تأمين معلومات عن الاختلافات الدقيقة في السلوك البشري.

العبارة السابقة ببساطة هي ليست لتبرير كلفة الاختبارات للمؤسسات التي تعاني مع  تحقيق الأرباح. إنها فقط للشركات الناجحة التي أصبحت الاختبارات روتيناً بالنسبة لها. لذلك، على المصممين وخبراء قابلية الاستخدام أن يعتمدوا على مبررات أخرى. لحسن الحظ، هناك العديد منها.

تبريرات حول اختبار قابلية الاستخدام

لاختبار قابلية الاستخدام أولاً نتائج صادمة عالية في الحقيقة. ينهي فرق الاختبار جلساتهم الأولية مع متفاجئين بأنهم لم يلاحظوا مشاكل تصميم واضحة. هذه الصدمة وحدها كافية نحو استراتيجية اختبار تعيدهم للسؤال الذي كان يجب أن يسأل في البداية:  ماهي أهداف المشروع وكيف يمكن تخطيط استراتيجية لتحقيقهم. باختصار، مايقنع الفريق على أن هناك شيء خطأ وما يحمسهم للقيام بعملهم. وكما يقول المثل، المعرفة نصف المعركة.

ثانياً، يساعد اختبار قابلية الاستخدام على ترسيخ الثقة مع المستثمرين حيث يخفف من شكوكهم حول نتائج وتوصيات فريق التصميم. بعبارة أخرى، ليس كافياً أن توظف خبراء فقط، عليك أن تتأكد من هؤلاء الخبراء أثبتوا جدارتهم حتى يكسبوا الثقة. اختبار قابلية الاستخدام يؤمن الأساس لهذه الثقة.

أخيراً، وفي الوقت الذي يعتبر فيه اختبار قابلية الاستخدام غير كاف لتحديد أولويات الفريق، هو بدون شك جزء من عملية تحديد النقاط الأساسية للمشروع. – تساعد عملية الاختبار على تأمين الصورة الكاملة عندما توضع في سياق المعلومات الأخرى- كأهداف المشروع أو الأهداف المطلوبة من الزوار أو ردة فعلهم أو احصائيات الاستخدام. أما بدون هذا السياق فستكون عملية الاختبار مضللة أو –وبأفضل الأحول – تفهم بشكل خاطئ أو – كما هو واضح- تؤدي إلى نتائج مدمرة. هذه الفكرة صحيحة أيضاً على التقييم الغير قائم على الاختبار كمراجعات الكشف والاكتشاف (heuristic reviews)

التكيف مع الواقع

هناك موضوع جاذب حول كل النقاشات السابقة وهو ذكر أن تجربة قابلية الاستخدام يجب أن تحدد المشاكل مع التصاميم الموجودة مسبقاً. هنا تقع الفِرق في مشكلة فرضية أن الاختبار يقدم أكثر مما هو بالفعل ويحولون إلى الإشارة لمشكلات قائمة بشكل أساسي على بيانات الاختبار، ويراجعون الاستراتيجيات بشكل قائم تماماً على تعليقات المشاركين في الاختبار. لايؤدي أي مماسبق إلى نتائج إيجابية طبعاً،  ولا يضمن أيضاً أن يخرج فريق الاختبار بخبرة أكثر ولو بقليل عن اليوم السابق.

كما رأينا، يمكن لنتائج الاختبار والبحث أن تدل الفرق نحو حلول ليست فقط رديئة، بل ومتناقضة أيضاً مع أهدافهم. من الطبيعي فقط أن يقوم المستخدمون الموجودون بمهامهم بشكل جيدومريح بغض النظر عن التصميم السيء لها. في النهاية، أفضل تطبيق قابل للاستخدام بشكل جيد هو التطبيق الذي تعرفه بالفعل. لكن هذا لايعني أن التصميم الفقير أو السيء يجب أن يجدد بل بالأحرى – وللحصول على أفضل نتائج من تجربة قابلية الاستخدام – يجب أن يقدم للمستخدمين الحاليين إمكانية تجربة أفكار جديدة. أفكار تأتي من خبراء في التقييم وبالتعاون مع المصممين للوصول لحلول جديدة.

ما الذي كان يجب القيام به؟

الفريق الذي قام بما يدعى بتوزيع الأوراق في المثال السابق كان يجب أن يوجد مجموعة جديدة الشروط وأن يستعمل الاختبار ليقيمها بدلاً من أن يطلب من المستخدمين أن يحددوا الشروط الواجب تطبيقها بالدرجة الأولى.

كان يجب على الفريق الذي قرر أن يبرز مهاماً معينة مصممة بشكل رديء جداً فقط لأن المستخدمين الحاليين يقومون بها بشكل جيد أن يقدم نماذجاً تجريبية جديدة وأن يبدأ جلسات اختبار لتقييم قابلية الاستخدام مع مستخدمين قدماء.

تحديد المشاكل التي يجب التركيز عليها من قبل هذه الفرق – أو من فرقك- يمكن أن يتم بطرق مختلفة. خذ بعين الاعتبار أسلوب عمل يقوم على المراجعة يبدأ باختبار احترافي قائم على الكشف والاستكشاف بالتزامن مع طرق اختبار غير رسمية ثم اجعلها رسمية ثم اجعلها غير رسمية. بتحديد أكثر، خذ بعين الاعتبار استخدام أدوات متاحة على الويب أو خدمات مدفوعة للبحث عن المشاكل ثم استخدم طرقاً رسمية واختبر وقيم حلولاً تشمل أفكاراً من مصممين.

إليك مجموعة من الأدوات يمكنك أن تستخدمها مع طريقة التقييم القائمة على الكشف و الاستكشاف أو heuristic evaluation لتحديد مشاكل قابلية الاستخدام في موقعك:

اختبارات الخمس ثوان: أظهر شاشة معينة لمستخدم لخمس ثوان ثم اطلب منه أن يدون كل مايتذكره. في الشاشات القائمة على المهام، اسأل المستخدم عن طريقة القيام بمهمة معينة أساسية ثم أظهر له الشاشة واطلب منه القيام بها. يمكن القيام بهذا الاختبار مجاناً عبر الويب باستخدام www.fivesecondtest.com

  • احصائيات النقر: استعمل Crazy Egg لمتابعة النقرات على صفحات محددة في مواقع موجودة. هذه المعايير يمكن أن تلقي الضوء على فعالية إعلان ما أو عدمه، وضوح سير المهام أو حتى كمعلومات تثقيفية بسيطة عن الموقع.
  • خدمات اختبار قابلية الاستخدام: يحدد User Testing المشاركين بناء على المتطلبات الديمغرافية التي تطلبها ثم يطلب منهم القيام بمهام تحددها أنت ثم يرسل لك النتائج بشكل كامل مع تسجيل لحركات الشاشة لكل جلسة اختبار. تكلفة هذه الخدمة هو 29$ للمشارك الواحد.
  • احصائيات النقر على شكل صور: يقدم Chalkmark نفس الخدمة التي يقدمها Crazy Egg بشكل أساسي لكنه يستخدم الصور أو اللقطات بدلاً من العرض الحي لها. في هذه الحالة يمكنك أن تختبر قابلية استخدام تصميم ما قبل أن يظهر للعموم وهذا – طبعاً – أفضل وقت للقيام بهكذا اختبار.

عندما تتعامل مع مشاريع دراسة قابلية الاستخدام بهذه الطريقة، ستحدد الفرق أولوياتها وتحصل على نتائج أفضل. هناك أفضلية أخرى أيضاً وهي مشاركتك بشكل فعال في كل عمليات الاختبار.

التحذير الوحيد الذي يذكر عند تطبيق هذه الطرق هو أن المستخدمين الذين يتم استثمارهم في إتمام مهمة معينة يتصرفون بشكل مختلف تماماً عن غيرهم. مشارك واحد في الاختبار يريد فعلاً شراء آلة تصوير رقمية سيتصرف على موقع تجاري بشكل مختلف تماماً عن مشارك آخر دافعه الوحيد هو أن يقبض مكافئته المال عن الاختبار في النهاية. هؤلاء الذين يتم استثمارهم في الاختبار سيثابرون على تحمل المشاكل بشكل أفضل بكثير عن غيرهم. من الهم جداً – عند استخدام أي من هذه الطرق- أن تحاول إيجاد مشاركين يريدون فعلاً إتمام المهام التي تريد تقييمها.

نتائج

من الواضح طبعاً أن القدرة على تحمل نفقات تجربة قابلية الاستخدام ليست متوافرة لدى الجميع. في النهاية، يمكنك فقط  القيام بما يلائم حالتك بشكل خاص. في حال كان “الاختبار”  خياراً متاحاً – سواء أكان هذا لمرة واحدة أو جزء من روتين معين – تأكد من أنك تستخدم الأداة الملائمة للمهمة المطلوبة، وكن متأكداً من قيامك بالعملية وفق توقعات واضحة.

قد يفضل محترفي قابلية الاستخدام إبقاء قصة موليتش سراً. ليس لأنها تخفف من شرعية المهنة، بل لأنه يساء فهمها بسرعة وتفهم خارج سياقها. في الوقت الذي تفشل فيه عملية تجربة قابلية الاستخدام بالكامل للقيام بما يعتقده أغلب الناس – تحديد المشاكل وإهداء فريق العمل إلى طريق الصواب – هي تقدم طريقاً مباشراً لملاحظة التصرف البشري، تقوم قابلية الاستخدام بعمل أخاذ في تحسين غريزة المصمم مع الوقت، تبني الثقة مع حاملي الأسهم وهي وسيلة فعالة جداً لتقييم أفكار التصميم.

قم بالاختبارات لأجل أسباب سليمة وستجد أمامك فرصة جيدة للحصول على نتائج إيجابية. قم بها لأسباب خاطئة، وستجد أنك لم تقم فقط بالحصول على نتائج خادعة، بل أنك قد عرضت عملك كله للخطر.

تعليق وحيد الخرافة وراء اختبار قابلية الاستخدام!

أضف تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *