设计建议以创建出色的语音互动体验

资讯热点

当前位置：首页 > 行业资讯 > 设计建议以创建出色的语音互动体验

设计建议以创建出色的语音互动体验

发布时间：2023-3-20 分类：行业资讯

每个时代都有自己的象征和偶像。对于设计师来说，赋予产品灵魂的精神永远是一样的。

　　AI给人机交互带来根本改变

　　AI的核心能力

回顾人机交互的发展是“技术进步”和“载体创新”。促销的螺旋式提升了人们获取信息的效率，而且成本不断下降。

AlphaGo击败了李世石和柯杰，百度发布了自动驾驶系统“Apollo”…这次AI引领的技术进步正在发生。基于大量纯数据的深度学习为人工智能带来了巨大的进步，这一进展主要体现在三个方面。

　认知能力–基于用户行为，人机交互从“单向”关系转变为“双向关系”;

感知能力–从触摸输入到以语音输入和图像识别为核心的全自然交互

自然语音输出能力–带来新的“声音”设计材料

Voice是体验设计师的新设计素材。它有哪些设计挑战？是否有语音设计框架？有哪些设计方法？我们将在以下文章中与您分享。

　设计挑战

　　1. 从“有边界”设计到“无边界”设计

当我们设计App界面时，交互设计师将耗尽固定像素界面中用户的所有可能操作，设计恰当的用户反馈。但对于语音交互式用户而言，输入是无边界的，用户可能的输入将远远超出您的可能性。从“有形”设计的设计到“隐形”设计，视觉设计规范将在语音设计过程中完全失败。

　2. 从“近场”交互到“多距离空间”交互

语音交互可以主要分为近场交互（例如：siri/siri）和中场交互（车辆），远场交互（智能扬声器）。

多距离场景在以下维度上有所不同：

(1)场景特征

在非近场交互场景中，用户可能处于其他事情上，而不是专注于其他任务，这对如何以最低的成本获得系统的当前状态提出了挑战，并且“I”唤醒设备”“我可以这么说吗？每个节点要求都需要多维定义。

　(2)输入方式

常见的输入方法包括物理操作（按钮/旋钮等），触摸，语音和动作。实体和触摸是近场交互中的第一选择，语音成为远场交互中输入模式的首选。随着各种智能扬声器，或Iphone X等深度相机应用的普及，COSCO Scene的动作输入将逐渐成为重要的输入方式之一。

　　设计建议

　　1. 用“语音交互框架”匹配“使用场景”

语音交互将人机交互带入更自然的方向，人机交互更接近“人际交互”。如何理解语音交互框架，我们可以从大家的互动中探索。

现在回想一下，请某人帮你拿杯子。你和这个人的互动是什么？

首先，你必须叫他的名字。如果他听到了，他会回答你。 “为什么？”或者看看你。这时，你知道他正在听你的。你可以继续说 - “来吧”他可能需要考虑杯子的位置或问你，当他去拿杯子时，你会发现他正在表演。总结了与人类语音交互节点的交互，摘要是语音的交互框架：

上面显示的语音交互式框架由以下四个节点组成，每个节点都有相应的要求：

唤醒：用户已获得“是否唤醒语音”反馈需求

输入：用户需要让设备“听说话”（相当于加载）

理解：用户已经“获得了”你在帮我做事吗？ “需要

回答/行动：用户需要查看任务是否完成

语音交互框架解释了语音交互过程，这相当于触摸屏设备的定义。点击屏幕“ldquo;双指捏” ”的摇动它“但是，理解交互框架是不够的。语音交互场景比框架更重要。在不同的场景中，“唤醒，输入，理解，回答/动作”有不同的设计方法。

例如：在语音交互的第二个节点中–输入需要使用“波形高度“并且”语言声音高度“匹配以向用户提供正在收听的反馈，波形在不同场景中应该是不同的设计策略：

车载场景：驾驶时用户的视觉注意力被道路占用。此时，有必要引入语音反馈，另一方面，设计更强的视觉波形以确保一瞥。

语音音箱：虽然语音扬声器的场景不如驾驶场景强，但它没有屏幕。此时，通常采用呼吸强弱的反馈问题。

“隐形”的语音可以< ;; attach“在各种设备上，场景也在不断变化。在设计时，始终记住“唤醒 - 输入 - 理解 - 回答/动作”语音交互框架和每个节点的用户需求，注意用户的使用环境，以及视听音频注意占用，不限制使用只有声音反馈。

　　2. “唤醒”设计

唤醒是语音交互的第一步。我听说一个国内品牌AI发言人刚刚发布了十几个叫醒的话，最后用了“小爱同学”，rokid的唤醒词“rdquo;若琪“它也经过精心设计。这充分说明了唤醒设计的重要性。

唤醒模式可以是任务的触发动作，例如单击，按下，动作，语音和表达。目前，主流有三种唤醒方法：物理按键，虚拟按键，语音唤醒，每种唤醒方法都有自己的特点，适合不同场景，让我们逐一分析：

　(1)实体按钮

优点是它提供了触觉反馈，有两种使用场景：

当用户的可视频道被占用时。

当近场相互作用且设备没有屏幕或屏幕关闭时，例如，通过按住Home以在关闭状态唤醒，

　　(2)虚拟按钮

唤醒方式有两种方式–点击并长按。这两种方法有三个本质区别：与脸部的距离，长期操作费用大于点击，微信开发的语音输入习惯使得长按更符合用户的习惯。

点击：人脸与屏幕之间的距离很远，波形反馈可见。它可以更好地确认设备是否正在接收无线电并且成本很低。大多数近场相互作用都可用。同时，汽车现场特别适合，我认为在驾驶的情况下让用户按下并输入声音是一种灾难。

长按：它离麦克风更近，可以带来更好的无线电接收效果。可以用作辅助唤醒方法。

　(3)语音唤醒

在双手占用和长距离场景中，语音唤醒是最好的方式。在设计语音唤醒时，要注意以下三个方面：唤醒字的图像设计，唤醒后对声音反馈的注意以及防止误触发。

1唤醒词的图像设计

唤醒字的设计是机器人网格的一部分。在普通的社交互动中，优雅而深刻的名字往往会给人留下好印象。平庸的词语给人一种令人不快的厌恶或拒绝。例如，“rdquo;安静”给人们“rdquo;安静，精致”感觉。 “糖糖”给人一种“甜蜜”的感觉。

最初的人工智能能力有限，有时会给出令人不满意的答案。一个可爱友好的名称为用户提供了更高的容忍度。

同时，唤醒字的图像应与声音的特征一致。听觉情绪非常敏感。想象一下，如果一个可爱的女孩的声音非常粗糙，或者如果一个强壮的男人很瘦，你会感到非常不舒服吗？定义与唤醒单词相对应的感知意图，并在语音合成训练期间匹配该意图。

2有反馈声音

语音唤醒通常用于远场交互场景。此时，用户难以在视觉上确认设备是否被唤醒。有必要提供语音反馈— - 例如，&ndquo;叮&rd;或者“我在其中”

3停止触发

在日常交流中，我们会每天说很多重复的单词或单词，例如“rdquo;你“ ”诶&quoquo;哦”等等，在设计唤醒词时要避免这些词。

　　3. 对话的体验设计

唤醒后的对话是语音体验设计的核心。我们如何建立良好的设计体验？首先，我们需要了解语音交互产品对话的基本特征，包括：依次说话的方式，合作的对话，语言的意义。在具有线索指导的情况下，对话是可以修复的。

在编写具体对话时，向大家推荐一般格莱斯表达标准，这可以有效提高语音对话的效果。准则包括以下四个方面：

表达质量：说明什么是有效的

信息量：不再需要恰当的语言信息

关联性：与主题相关的状态信息

习惯性：简洁明了，直接进入主题，避免表达模糊

基于不同使用场景的对话编写也存在很大差异，从以下两个维度开始：

　(1)区分“任务式设计”与“闲聊式设计”

会话设计分为两个主要场景：基于任务的对话和八卦对话。

1个基于任务的对话

如财务顾问，医生，购房者，用户使用这种类型的对话产品，以便尽快得到答案，而不是给人们“欺骗”siri。此类产品应遵循以下原则：

引导用户用户如何输入：声音是不可见的，没有边界。不要让用户进来，不知道该说些什么。用户可以使用各种不可预测的句子输入。为了避免错误，应该在界面上引导用户进入或主动打开对话。

设置边界：当用户的输入不可理解或与产品的主要任务无关时，不要尝试做“机器人”聊天，不要假装聪明，给用户提供提醒用户的选项他可以用这个表达方式。方式。

2聊天对话

如微软小兵，秘密等。使用此类会话产品的用户的目的是“娱乐”，效率不是第一要求，如何使对话变得有趣以避免冷点是一个新的设计目标：

双向沟通，主动联想：避免谈话一直是个问题和答案。双向沟通可以使对话变得有趣。当用户打开您的产品时，他们可以根据天气，时间等因素进行积极的对话。例如，当用户深夜打开您的产品时，设置问候对话将使您的产品变得富有人文关怀。

迎合用户情绪：当用户表达悲伤或快乐等情绪时，用户会期望您的产品具有同理心。使用图像或对话与用户建立情感联系将使对话更加人性化并增加产品的粘性。

鼓励输入：聊天产品的体验取决于用户数据的收集。您的产品累积的对话数据越多，您通过深度学习就可以为用户提供的反馈越多。在设计时通过奖励机制和视觉鼓励来丰富您的数据库，以指导用户。

　　(2)“听觉形象”的体验设计

通过“颜色，材料，形状，布局，动态，字体”，塑造视觉形象，用视觉形象反映产品气质和品牌理念，是GUI设计师的工作之一。人工智能使机器具有拟人声音输出的能力，带来声音设计材料。不同的声音给用户带来不同的感觉。低沉的声音给人一种“稳定，成熟”的感觉，结束语的声音给人一种“愉快，受人尊敬”的感觉。

如何使用“音调，节奏，音高，响度”的声音设计元素来设计合适的听觉图像？

下面我结合一些项目经验和一些研究，与大家分享一些过程方法。

1从“第一次设计与开发”到“第一次开发与设计”（一种新的实施过程）

声音是看不见的。设计师没有声音的“PS”。在语音图像的设计中，必须首先设计“语音基本图像”。设计师根据语音基本图像重新设计。当重新设计百度饲料阅读新闻的体验时，首先要根据新闻情绪来定义新闻的不同情感特征，以收集相应的语料库。数据，通过深度学习提取每种类型语料库数据形成的声音特征“。基本形象“，在基本形象的”语调，速度，节奏“微调，升级形象设计。

上述过程可以抽象出“音频图像”的设计过程：&ndquo; definition–选择–培训–调整”的

定义：根据内容/产品气质/品牌愿景来定义产品的“音频形象”，八卦的情绪应该“踏踏实实”，历史听证会应该有“感伤感”“

挑选：从语音库中选择具有已定义听觉图像的语音片段。例如，如果要生成的听觉图像是“情感感受”，你可以选择老师单天方的一些语音片段

训练：将大量语音片段传输给技术人员进行语音合成培训

微调：通过调整“语调，速度，节奏”，用户感觉更接近之前定义的“听觉图像”（

2保持“听觉形象”与“品牌情感”的一致性

设计师需要通过“颜色，形状”和视觉设计等设计元素来支持品牌情感，并符合每个大公司对其每个产品所需的设计规格。进入“音频图像”设计时代，当您的产品使用语音交互时，确保产品的“音频图像”与品牌的情感一致，这将加强品牌对用户的印象。

3持有”听觉图像“和“ldquo;用户场景”一致性:

现在回想起机场的声音“亲爱的乘客飞往北京T343…。这个声音图像给用户一种被对待，受到尊重的感觉，以及机场用户的场景一致。在医院，至少在中国医院，医疗资源和患者数量并不相符。患者和医生更像是“寻求关怀”而不是“服务关系”，使用过多的“服务”声音。该图像将给用户带来强烈的差异感。

4持有“听觉形象”” &&现状;内容< ;;稠度

“内容”是视觉属性。例如，如果粗略的男孩读到第二个元素的消息将是非常非法的。因此，在内容消费设计中，我们必须充分考虑语音的内容，以配合“听觉形象”，以避免违规感。但是，在设计工具类产品时，请勿频繁更改语音图像，这会分散用户的注意力并降低效率。

　4. 利用视觉

语音交互的最大优点是更直观，可以大大降低用户学习的成本。但语音输出是线性的，因此它不能同时输出大量内容。这是语音的最大缺点。

2015年，在设计语音管家时，有人建议做一个语音点外卖功能。这实际上是针对语音场景的。当语音输出到第十道菜时，用户忘记了第一道菜是什么。因此，当用户在设计时发起需要等同信息交互的任务时，引导用户通过PUSH来查看视觉信息。

在设计中，充分利用视觉和听觉之间的互补性。如果听觉记忆是短暂的，则不要使用语音输出大量信息，尤其是当输出信息需要由用户记忆时。

AI时代的变与不变

AI带来了机器认知和感知能力的提高，人机交互带来的变化是根本。传统的人机“输入–反馈“循环将逐渐过渡到”推荐– ”环。人机交互也将从单向联系转变为双向培训。这一改变将被重写为“设计思维，方法，流程，规范”。

然而，每个时代都有自己的象征和偶像。对于设计师来说，赋予产品灵魂的精神永远是一样的。

« 自定义在线代购源码网站制作图标+日本美食廊 | 互联网中小企业生存规则的后半部分：连接，转型以及如何发展 »

: 周一周五 8:30 - 18:00

鲁ICP备14007395号-24

百度统计

客服QQ