发布时间:2021-8-18 分类: 电商动态
在可用性测试中,如何评估测试场景或过程?应包括哪些尺寸?如何衡量每个维度?如何在不同任务之间进行横向比较?本文将逐一告诉您。
该公司的产品最近发布了一个版本,并推出了更多新功能。因此,您需要对这些新功能进行可用性测试。
可用性测试是一项入门级的研究技能,即使我有几年的经验,我已经做了很多次。基本方法和过程很熟悉。但是我们以前做过的可用性测试有一个缺陷:没有严格的,科学的任务评估模型。您如何评估可用性测试中的测试场景或过程?应包括哪些尺寸?你如何衡量每个维度?你如何在不同的任务之间横向比较?
评估模型
iSO9241中“可用性”的定义是特定用户在使用产品时为了在特定使用场景中实现特定目标而体验到的有效性,效率和满意度。
也就是说,通过用户,场景和目标的定义,可用性包括以下三个维度:
有效性:用户完成特定目标的能力的正确性和完整性。
效率:用户完成特定目标的效率,与消耗的资源(例如时间)成反比。
满意度:用户在使用产品时所经历的主观满意度。
良好的可用性必须能够满足有效性,效率和满意度这三个条件,但是这三个维度也是分层的,一般来说,有效性问题>效率问题>满足。
在可用性测试中,仅仅了解每个功能的可用性水平是不够的。即使这两个函数具有相同的可用性级别,如果一个是产品的基本功能而另一个是边缘函数没有什么价值,我们仍然需要优先考虑优化更高价值的函数。换句话说,在评估任务时,除了可用性之外,我们还需要考虑函数本身的值。特别是当涉及到新功能,或者我们正在测试的功能的价值不是很确定。
功能的价值可以很容易地分为两部分:用户价值和商业价值。虽然有时需要在商业价值和用户价值之间进行权衡,但作为一种以体验为导向的产品,应首先放置用户价值。在用户价值之上,如果能够满足商业价值,则是更令人满意的结果。
因此,在可用性测试中,可以使用以下模型来评估测试任务:
测量方法
在上述模型中,有效性,效率和满意度是共同的评估维度。可以参考一些经验方法,也可以通过用户评估获得用户值。需要根据产品的实际情况评估业务价值,这通常是在可用性测试过程中不需要收集的现有知识。因此,我们需要在可用性测试中收集的数据仅包含四个维度:有效性,效率,满意度和用户价值。
1.有效性
可以通过完成任务来评估有效性,该任务是通过观察用户的操作获得的。
任务完成的测量主要基于NNG建议,将每个用户的操作结果标记为失败,部分完成或完全完成。
失败:如果用户认为他们无法完成任务并已放弃任务,或者任务仍无法在时间限制内完成任务,则会将其标记为失败。
每项任务都需要有限的时间。非常熟悉功能的人(相关产品,设计人员可以)按照任务提示,记录完成操作所需的时间,称为熟练时间。如果您想提高熟练度的测量准确度,您可以找到更多的实际操作并取平均值。任务的有限时间根据熟练时间确定,通常是熟练时间的3-10倍,但最大不超过10分钟(没有用户有耐心花10分钟完成任务,如果它真的需要这么长时间,任务设计太复杂了)。
您可以根据任务的难度确定倍数。如果白名用户的任务非常困难,您可以适当延长任务时间限制。如果任务非常简单,或者它包含一些输入操作,您可以减少任务时间限制(因为键入)这往往是耗时的,并且对熟悉该功能的人打字可能不会比用户快。)
部分完成:用户只完成了部分任务,但尚未完成任务卡的所有要求。例如,如果您希望用户创建计划并邀请小王加入,则用户已成功创建计划但不知道如何(或忘记)邀请部分完成的小王。区分“部分完成”类别的原因是它有100%完成的差距,但不能与失败混淆。
完成:这很容易理解,也就是说,任务卡上的所有要求都在有限的时间内完成。
最后,我们需要根据这些数据计算每项任务的成功率。 NNG的推荐算法是:任务成功率=(完全完成用户+部分完成用户* 0.5)/用户总数,即完成完成率的一半+部分完成率。
除了使用完成,部分完成和无法评估任务完成之外,还有另一种方法可以考虑:成功完成,失败后完成,失败。这是我以前用过的评分方法。以这种方式,上述部分完成将归因于失败的类别(但是如果用户犯了无害的错误,例如错误,则可以认为是完整的)。成功完成的用户被细分为成功完成并在遇到障碍后完成。这种区别的原因是这两种情况揭示了不同的可用性水平——使用户可以轻松使用的功能相当容易使用。
2.效率
可以及时测量效率,计算用户的操作过程。
时间可以从用户获得任务卡的时间开始计算,并且当用户宣布他们已经完成或者达到时间限制时计算时间。不要等到用户完成读取任务卡并开始操作,因为有些用户习惯于阅读然后操作,有些用户喜欢在阅读时阅读。当您看到用户已完成时,不要结束时间,而是等待用户认为他已完成,因为用户有时会在操作完成后检查他的操作是否成功。这也应该算作任务时间。一部分。
时间不需要太精确。手动定时有几秒钟的错误是正常的,用户在操作过程中不得不说更多的话,或者应用程序响应速度较慢,这将影响任务完成时间(并且许多影响因素都没有做可用性)。 )。因此,只要时间精确到秒,就提高记录的准确性是没有意义的。
在计算每个任务的效率水平时,可以通过将用户的平均时间除以熟练度的倍数来表示(值越高,效率越低)。
这是为了便于任务之间的水平比较。由于不同任务的复杂性不同,A任务平均需要1分钟,B任务平均需要4分钟。这并不意味着A的操作效率高于B.通过比较平均时间/技能时间比,您可以知道新手和熟练手之间的差距,并了解用户因操作时间而导致的操作时间损失。系统的可用性和学习成本。
3.满意度
满意度涉及用户的主观评价,因此需要通过用户自评量表来收集。
以下是Jakob Nielsen使用的单项目的七分制,并根据需要修改了标题:
4.用户价值
用户价值是指用户感知的功能价值,也需要通过用户评价获得。
因为我们正在办公用软件,所以我们可以通过寻求帮助来帮助我们了解用户的价值:
用户满意度和用户价值都需要用户评分,因此用户在完成每项任务后将得到相同的两个问题,要求评估任务。我将在同一张纸上打印不同任务的问题,以便用户可以参考他们对先前任务的评估来调整他们的分数。
任务的横向比较
在根据有效性,效率,满意度和用户价值评估任务后,我们可以根据这些数据对不同任务进行横向比较。我们可以通过类似于以下的折线图来比较不同的任务。
例如,从上面的例子中,我们可以看到任务2的可用性水平相对较低(有效性低,完成时间长,用户满意度低),但其用户价值处于较高水平;任务3具有最高的用户价值和高可用性。
效率,效率和满意度都用于评估可用性水平。如果基于这三个值计算可用性级别,使用可用性直接进行水平比较是否更方便?上述可用性,有效性问题>效率问题>满意度问题,因此在计算可用性水平时,它们应具有不同的权重;并且由于不同的指标,它们的尺寸完全不同(从上图中可以看出)并且需要标准化。
因此,我们需要分别标准化效率,效率和满意度,然后根据5: 3: 2(或其他权重,根据需要调整)的权重进行评分:
可用性等级=Z(有效性)* 0.5 - Z(效率)* 0.3 + Z(满意度)* 0.2(因为测量时间而使用效率,值越大,效率越低)
通过这种方式,我们可以比较同一维度上不同任务的可用性级别,并结合功能值的评估,我们可以得到这样的四象限地图:
这样的象限图不仅可以帮助我们比较测试的各种功能,还有助于确定体验优化的优先级。具有高功能价值和低可用性的特征应被列为最高优先级,其次是功能价值低且可用性差的特征。
问题优先级
除了上面描述的评估模型之外,我们还发现可用性测试中的一些可用性问题可能是可用性测试生成的最重要的数据。那么,这些可用性问题是否需要进行优先级评估?
可用性问题当然是优先考虑的。一个问题是功能的有效性,效率或满意度是否会影响问题的优先级。我认为发现的可用性问题可以在每个任务中根据此标准进行排序,但不需要列出所有任务找到的所有问题以确定优先级。
在优化可用性问题时,您应该使用函数(即可用性测试中的任务)作为单元,而不是问题。 ——很容易看到问题区域的树木。修改许多细节后可能无法实现。使用方便。因此,在安排问题的优先级时,还建议首先根据上述四象限图确定功能的优先级,然后检查每个功能的特定可用性问题的优先级。