如何设计语音互动智能产品？这可能是最全面的总结！

资讯热点

当前位置：首页 > 电商动态 > 如何设计语音互动智能产品？这可能是最全面的总结！

发布时间：2019-11-23 分类：电商动态

随着亚马逊，小米和阿里巴巴等大公司推出智能语音产品，如何设计以语音交互为核心的智能产品已成为值得探索的领域。今天的摘要非常全面，建议收集它。

　　我们终将以自然的方式与机器交流

在2012年圣丹斯独立电影节上，电影《机器人与弗兰克》因机器人机器人照顾弗兰克与阿尔茨海默病的故事而获得特别奖。在电影中选择两张图片，一张是人与人之间的沟通，另一张是人与机器之间的沟通。在2017年人工智能年，人们可以像电影中的弗兰克那样以人对人的方式与机器进行通信，这在人机交互学科中被定义为“人机交互”。

什么是自然互动？简而言之，它在日常通信中与计算机交互。什么是日常沟通方式？它意味着人们通过语音，身体，手势，眼睛，表情和其他形式进行互动和互动。

　人机交互正迈上新台阶

人机交互（HCI–人机交互）的发展是从人类适应计算机到计算机适应人类的过程。它分为四个阶段：代码指令交互，图形用户界面交互，人机自然交互和人机情感交互。 ——引自《人机情感交互》

每个阶段的发展都基于技术，它带来了更多的人机交互，更接近人与人之间的自然互动。同时，它将拓宽更多的使用场景并覆盖所有年龄段。大家。如下图所示，命令–专业技术人员操作早期计算机;鼠标和键盘–受过教育的普通人使用PC学习;触摸屏–更多人使用智能手机进行社交，信息，娱乐等活动;自然互动–每个人都会以自然的方式与智能产品互动。

随着人工智能技术的发展，智能产品在感性层面的能力越来越强。它可以感知人的声音，肢体语言，手势，表情等，并实现人与机器之间自然交互的可能性。这种情况正在发生。事情。

未来智能产品的趋势是拥有情感计算，通过识别人类语音信息，面部表情，身体动作等，调整自己的反馈，以适应当下人们的需求，互动将成为它变得越来越容易，它会更好地了解你。

智能产品可以感知人们的自然运动并阅读人们的情感，所有这些都属于信息输入层面。在信息输出层面，如何设计智能产品以实现“人与人之间的自然交流”的感觉，我们将从六个维度给出设计建议，即人物设置，外观，声音，动作，界面和灯光效果。。正如对方的气质，外表，声音特征，肢体语言，表情和眼睛相互沟通一样。

　以语音交互为核心功能的智能产品设计建议

　　1. 人物设定的设计建议

　人设是要为用户服务

此人是高级化身设计，不是由设计师的个人偏好制定的，应充分考虑产品所服务的目标用户。例如，如果患者想要看专家医生，则乘客希望获得乘务员的甜蜜服务，并且用餐者希望欢迎客人。第二是热情好客。这些图像在我们的脑海中生动。例如，Amazon Echo是成熟职业女性的形象（类似于Google Home，天猫精灵，京东等），而Olly给人一种设计感，他们为目标受众设定了形象。

人设可以通过抽象的方法进行传达，并非一定要具象化

例如，小米智能扬声器定义的“小爱同学”是次要形象。今年11月底，制作了限量版手，将图像放在具体物体上。在这方面，仁者看到智者，看到智慧，有些人说她不是她心中的“小爱”，所以在人们的形象传播中，我们建议通过艺术方法达到目的。例如，利用音乐，绘画，文学，电影等艺术将包装抽象成一套视觉传达，实现“空山，无人，但人声”。

　人设与产品要融为一体的进行考虑

智能产品以语音交互为核心功能，“声乐”将让用户自动关联相应的图像，同时还需要考虑与外观匹配，以满足用户的期望。一些智能产品有动作输出。例如，一个人被定义为一个愚蠢的jibo，它的动作必须是有趣和可爱的。如果你不考虑它，它将导致认知失调的差距。例如，当一条鱼在家时，当用户询问它有多大时，它会用一个成熟女人的声音回答“我今年两岁”，而亚马逊Echo的回答是“我两岁了”根据出生年龄，“后者更容易理解。即使是一个微不足道的文本也可能允许用户“玩”，所以人们应该设置整个产品的信息输出水平。要综合考虑。

　2. 外观造型的设计建议

　　充分考虑目标用户的审美与喜好

根据目标群体创造自己喜欢的外观，例如，孩子们会比Jcho更喜欢jibo，追求新潮流的人更喜欢raven R，因为他们可以和他们一起唱歌和跳舞。与基于屏幕的智能手机不同，用户无法更改主题皮肤以找到自己的首选项，而Google Home只能通过“换裤子”来迎合用户偏好和家居风格。

　基于使用场景考虑造型设计

要考虑用户将使用哪种真实环境，目前市场上的大多数智能语音产品都放在桌面上，并且必须仔细考虑尺寸。例如，如果你更大更重，在任何地方自由移动都不方便。如果将其定义为多个使用方案，则它将是可移植的。例如，乌鸦H顶部的“点触摸屏”盖，用户可以轻松地移除语音和手指的交互，因此它不受固定位置的限制。

　避免掉进恐怖谷

避免与人类特征过度相似。建议使用抽象方法提取拟人元素进行设计表达，有助于产品向用户传达情感信息，从而有效提升用户的善意。例如，Weilai ES8携带的人工智能，以及百度的秘密，就是通过这种设计方法创造一种智能的情感互动，并将工业产品升级为生活和情感的新伙伴。

但是，如果它与人类的特征太相似，那么现阶段的技术能力就不可能是现实的和现实的。同时，声音，表情和动作无法达到自然的完美匹配，因此这种非负面设计会给用户带来不好的体验。例如，Blue Frog Robotics的Buddy让用户很容易陷入“恐怖谷”。

“恐怖谷理论”由日本机器人专家森长虹提出。他认为人形玩具或机器人的模拟越高，人们感觉越好，但当它达到临界点时，这种善意会突然减少，人越多，你越是感受到恐惧，直到底部，称为恐怖之谷。如图所示，山谷底部的活跃僵尸比静止的尸体更可怕，即使尸体是可怕的。

　3. 语音的设计建议

　　自然感

避免单调，表现得像一个人，说话积极，有意识的感觉，每个音素都清晰可辨和自然。人类语音信息包含语音声学特征和文本语义。语音声学特征主要是韵律特征（指音素被组合成句子的方式），包括音调，重音，暂停，速度等。中文是一种音调语言，音调携带非常重要的情感信息。语音是一种自然的交互，它需要实现“自然”的感觉，以使用户感觉可用。

如何让Siri听起来像个人一样自然？

iOS11版本的Siri升级目标是“让Siri听起来像人一样自然”，实现它的方法是通过深度学习。每个表达都有略微不同的声波，每个声波包含数十或数百个音素，Siri为每个发声找到了完美的声音组合。其中，音素是Apple为发音收集选择的候选者。情感语料库的获得是Apple匿名收听，然后将其用于深度学习和Siri培训。

一旦确定「人声」不宜随意更改

一旦该人的声音植根于用户耳中，则不建议随意更改。如果你改变了手机界面的背景图像，就像更换一件新衣服，用一个带有语音交互的智能产品取代“声乐”，因为核心功能就像重新认识一个陌生人一样。俗话说：“如果你闻到它，如果你看到某人，”人们自然会将声音与某人联系起来。如果新的声音是，他们将重新做“个人建模”。

　像人和人那样进行对话

首先是对话是顺利和及时的反馈。如果有暂停，则不应该太长。这些词语简短有效，不主动停止对话，尽可能促进持续交流。当然，您不能让用户以命令的形式完成任务。这不是一个合适的对话。它可能有点像从属关系，这将导致用户的怨恨和抵抗。

　在感知用户后尝试主动发起对话

在几天之内，Amazon Echo可能能够根据说话者的语音情感进行识别计算。通过韵律特征（天赋，响度，节奏，语音质量等），用户可以像电影一样理解句子的当前心理状态。《Her》“你今天听起来有点不高兴”这句话，它可以感知到你并尝试发起对话。

4. 动作的设计建议

　　使用国际通用的认知动作传达，同时考虑各地方的风俗习惯

例如

« 监控报警产品主题（1）：企业级监控产品设计基础 | SEO经常被几种优化工具用来共享 »

: 周一周五 8:30 - 18:00

鲁ICP备14007395号-24

百度统计

客服QQ