语言交互场景探索（1）：关于语言交互效率的讨论

资讯热点

当前位置：首页 > 电商动态 > 语言交互场景探索（1）：关于语言交互效率的讨论

发布时间：2023-1-28 分类：电商动态

语言交互何时更有效，什么时候更低？

“自然语言互动”一词似乎早已占据了过去一年科技新闻的头条新闻，巨人们希望抓住这个被称为下一个互联网门户的巨大机会。

然而，就像历史上每次互动的变化一样，在我们真正理解下一代人机交互之前，我们还有很长的路要走。我希望通过这一系列文章，我可以帮助自己理清各种想法并为每个人提供一些想法。与此同时，我希望我能真正坚持这个系列…

定义

与一般的“市场”不同，“语音交互”在本文中使用，“语言交互”，或所谓的“会话交互（CUI）”，因为本文要求它不仅仅是语音交互，还有文本交互。

这篇文章的重点是什么

在阅读其余内容之前，我们先问两个问题：

在什么情况下语言交互更有效率？

在什么情况下语言交互效率较低？

没错，在本文的上下文中，我们暂时只讨论交互效率。

举个例子

我想使用函数——计划提醒（事实上，许多产品已经这样做）作为扩展以下讨论的例子。如果我们希望助理在我们的日常对话中为我们设置提醒，我们可以这样说：

“下周一下午3点提醒我”

“中秋节让我想起10点回家吃饭;

……

以上是语言交互的一个更自然的问题。由于我制作的产品是PC端办公的场景，这里是纯键盘输入的文本输入和基于图形交互界面（GUI）的传统鼠标到键盘交互之间的比较。然后让我们看一下选择时间的典型GUI交互方法：

您可以很容易地发现，第一个纯文本交互的优势在于整个交互式体验非常一致和流畅。用户只需要输入TA想要通过键盘设置的提醒内容;第二次交互，用户必须通过鼠标和键盘可以来回切换完成整个动作（时间鼠标选择，事件内容通过键盘输入），非常流畅。

我不知道每个人的操作习惯如何。对我来说，我讨厌在鼠标和键盘之间来回切换，我不喜欢操作鼠标。

想象一下，你用一只手单手握住鼠标，或者你用一只手和另一只手用鼠标构成一个漂亮的姿势，你被迫切换到两只手在键盘上输入，切换这种姿势将给用户带来巨大的体验成本。

鼠标加键盘是PC时代的交互方式，虽然我们现在谈论所谓的“多模式交互”，但鼠标和键盘的组合显然不是许多场景中的最佳解决方案。

谈论效率

在谈到这种互动之后，让我们回到文章的中心：效率。

GUI的一个大问题是，当处理许多选项时，显示效率和操作效率都不令人满意，时间选择就是一个典型的例子。

为什么？因为“日期”选项的选项是无限的，如果你提供来年的提醒，那么你需要找到一种显示365-366天的方法。

而且“时间”选项也非常多，如果你的功能准确到分钟，那么你需要找到一种显示60 * 60 * 24=1440选项的方法。当然，一般的GUI不会选择直接平铺所有选项，因为这太“愚蠢”了。

一般做法（上面的Win10）是以月为单位列出日期，然后提供翻页（转月）功能。对于时间的选择，一般方法可以是降低精度（上图中的Win10，半小时内精度降低29倍），或者通过滚动滚轮来增加或减少分钟。

这些实践的本质是相同的，即仅显示部分选项，隐藏其他选项，并提供切换选项的机制。确实，仍然有一些方法可以提高选择的效率，例如最常见的“热”和“热”。选项：

但总体而言，GUI选择效率仍然很低，因为用户真正想要选择的选项通常不会出现在“主页”上，而且用户体验非常糟糕：我知道我想要选择什么，但是你实际上我必须让我通过热门步骤来选择我想要选择的那个。

此外，这些GUI设置中的大多数具有使用阈值，或者预设用户的某种先验知识。例如，（上图）用户需要学习普通话和拼音，或者需要用户知道焦作所在的省份。首先选择省重新选择城市的GUI）等等，你知道，有些用户没有这些先验知识。

改进GUI？

现在，我们要问一个问题，通过改进设计可以解决上述GUI问题吗？在这里，我想以“时间”的选择为例：

（请原谅我使用表格绘制UI……）

在上图的第一个显示中，我们显示当天的每一分钟，这具有点击效率高的优点，只需点击一下即可完成选择。但决心也很明显，即显示效率和定位效率太低。在第二种显示模式中，我们对其进行了改进，并选择了时间“rdquo;和“分开”将显示效率提高到2，但显示效率大大提高。

在上图的第三显示模式中，我们进一步将“得分”中的十位数和单位数分开，这进一步提高了显示效率，但操作数上升到3.当然，这三项操作是完全可以接受的。即使您使用键盘输入，您也必须至少操作四次才能完成输入，例如“8:00”。

实际上，第三个GUI基本上类似于弹出虚拟键盘。在这里，我们将发现，对于此示例，单击操作最终将收敛到键盘操作。

但是改进就在这里，GUI是否能够与文本（键盘）竞争？不必要。

鼠标交互问题

鼠标交互对于键盘交互，最大的缺点是鼠标交互并不简单。

为什么不？直接，你可以快速从屏幕左半部分的指定点移动到屏幕右半部分的指定点（屏幕的四个角落除外），你会发现你几乎不可能一步到位，你必须在到达那一点时不断微调，最后让鼠标准确地落到那一点。

原因是屏幕上的鼠标由手中的鼠标硬件操作，过程是鼠标扫描鼠标下的平面以检测用户在平面上移动的距离，然后通过该系数是转换为屏幕上鼠标移动距离的（像素值）。这个过程非常间接。

我曾经教过我的祖父使用鼠标。我不禁忘记他小心翼翼地将鼠标移到手中并观察了鼠标在屏幕上的移动。每一点的运动对他来说都很困难。因此，即使鼠标的操作数（实际上，上面忽略了“移动鼠标”操作）相当于键盘的操作数，键盘输入也具有强大的交互优势，因为键盘是“所见即所得”，什么要淘汰

比你想象的更多选择

接下来，GUI将面临一个更严重的问题，即用户比您想象的需求更多。至于本文开头的两个例子，“下周一”和“中秋节”，你无法在GUI下找到一个好的解决方案。

对于前者，用户必须首先在日历中找到“ldquo;今天的位置”和日历上的“星期一”rd，在哪里对应列，然后“难”找到“ldquo;下周一”对于后者，它更痛苦，用户需要百度首先“今年的中秋节是几个”然后;你当然可以说我们可以列出下周的快捷按钮X”和“XX”，但你能列出多少？

在这里，我们将看到，面对用户的“表达自由”，GUI非常弱。当然，语言交互也会面临同样的问题，但这个问题将成为“语言表达自由”的问题，例如，用户会说“下周一”，“下周”，“下周一周”。，下周一”等等，但本文不讨论这部分问题。

实际上，我犯了一个错误……

你为什么这么说？因为实际上有一个更优化的GUI策略，这使得时间选择的操作更有效和更舒适，但我让每个人都陷入某种逻辑作为“作者”忽略了陷阱中更好的设计的存在。

此外，本文主要关注（非触摸式）PC端办公场景。实际上，在移动侧（或触摸屏PC）上使用触摸交互而不是鼠标交互可以避免上述鼠标交互和切换交互姿势。。此外，打字仍然存在拼写错误，打字速度慢等问题。……

但是，即使GUI赢得文本（纯键盘）交互，它也无法赢得语音交互和hellip; …假设语音识别率接近100％，到目前为止，我还没有看到任何GUI时间输入。效率优于语音输入。

下一个问题

前一篇文章谈到了这么多语言交互的好处，但什么时候CUI效率低于GUI？看一下图片：

（请注意，这不是广告，而是百度然后随机）

如果你来到一家只有CUI且没有图形用户界面的餐馆，你会很生气，因为你只能通过服务员慢慢告诉你这道菜的名字，以了解这家餐厅的食物。当然，广播的效率是一个问题。另一个问题是服务员在广播后没有留下任何东西。其余的取决于用户的记忆，因此很容易向后方报告。用户忘记了前面有一个缺陷。

所以你会发现所有手机的自动语音响应都会有“重新收听，请按选项”，即使是一般客服点4，用户也记不清5个选项，更不用说完整菜单了。有很多例子，例如宝藏的产品详情页面：

（对不起，这个..应该是广告…吧..）

如果上图中的所有信息仅通过语音向用户显示，那么效率肯定会远低于GUI，因为人们的阅读速度非常高。在这里我们可以看到，交互可以大致分为两部分：显示和输入。

在本文的前半部分，我们主要讨论CUI在输入方面如何比GUI具有更高的效率，但在这两个例子中，我们会发现在大多数情况下，GUI比CUI更有效。许多。

作为第一家推出智能音频的公司，亚马逊早就认识到了这个问题，并在随后的产品升级中推出了“Echo Show”产品。本产品基于原始智能音频“Echo”;添加显示屏，如有必要，使用显示屏显示信息，并放弃原始的纯语音交互模式：

初步结论

所以我们得出了初步结论：

图形界面显示效率更高

语言互动更有效率

毋庸置疑，显示效率无疑是GUI的胜利。例如，如果您输入我们在某个宝藏上买衣服。如果我们想输入“5 S代码”，我们可以说四个字。如果使用GUI输入，则可能需要单击“S代码”。然后，您可能必须单击“+”按钮才能输入效率，语音交互更好。

不是那么初步的结论

但让我们来看一个反例：

我们可以很容易地发现，如果我想买“HB + 2H + 2B + 3B + 4B + 5B + 6B + 8B + 10B + 12””，我必须说完这长串文本需要多长时间。但是如果你使用GUI，你只需要轻轻点击它。当然你可以说我们可以使用“购买最后一个来引用那个选项，但是如果一个长选项在大的中间怎么办？选项？或者所有选项的名称都是热门的？那么你就没有解决方案了。所以我们得到的结论不那么简单了：

图形界面显示效率更高

语言交互固定短输入更有效率

图形界面固定长输入效率更高效

GUI尴尬

虽然我下次会谈到GUI的模糊性，但这实际上是所有“单模式”交互的枷锁。从上面的分析可以得出结论，GUI中的像素同时承担两个任务：显示和输入。但在许多情况下，GUI中的显示是多余的，显示的唯一目的是进入，因为您没有显示选项，用户无法进入。我们来看两个例子：

上图左侧的显示是必要的，因为您没有显示，买家将不知道您必须选择哪种套装;但是右边的显示是没有必要的，因为每个人都知道一年中有几个月，而且每个月有几个月。在那些日子里（即使是不知道这一点的用户，也不要考虑……），但GUI必须再次显示，因为用户需要点击选择TA想要的东西，所以很多次都有很多GUI中的GUI。 ;冗余"信息。

话虽如此，结合上面提到的结论，我们可以推导出适合纯语音交互的场景：即，纯语音交互的选项是已知的和未改变的。

这种场景仍然很多。例如，如果在保存文章后返回上一页，则会弹出该页面。 “文章没有保存。你确定要退出吗？“在这种情况下，用户只会知道”&quo“;是“”和”没有“，两个选项，所以这里不需要做GUI显示考虑。

有一些有意义的结论

所以我们得到了另一个结论：

用于显示长文本的图形界面更有效

语言交互固定短输入更有效率

图形界面固定长输入效率更高效

纯语言交互的已知和未更改选项

值得注意的是，上述四个结论都有更严格的先决条件。至于具体的先决条件，嘿，实际上，这篇文章并没有在逻辑上得到充分的讨论。在这里，读者留下了一些想象和思考的空间。

通过上述一些推理，然后结合GUI和CUI的两个交互，我们会发现当多个交互并行时（所谓的多模式），“显示”>和“输入”可以分开。至于何时选择要显示或输入的交互方式，需要根据实际情况来决定。

还有更多值得探索的地方……

这里有一些例子。第一个是订购。你会发现，一般来说，当人们来餐厅订餐时，他们会向服务员询问菜单，但在某些情况下你会发现，例如，普通顾客可以坐下来订购;或者命令退伍军人坐下来时，直接询问“什么是肉类推荐”，“什么是招牌菜”，“什么样的强奸”。

本文讨论的基础是“效率第一”，但在现实生活中，很多时候用户认为最不是效率，而是其他一些东西，比如“社会地位”或“俗称的”X”。

第二个例子是语音交互的另一个典型应用场景——驾驶。驾驶过程中人们的注意力高度集中在前方的道路状况，因此在这种情况下，GUI在许多情况下不是一个好的选择，因为它会降低驾驶的安全性。然后在这种情况下，安全优先级高于效率，因此GUI是比CUI更好的选择。

还有一个不太常见的例子，以及日期选择：

我们可以看到，此日历中显示的内容不仅仅是一个月内的几天信息，而且还包含有关本月可以存在的月份层数的信息，然后默认情况下用户不知道，所以必须在这里使用GUI，并且它不适合使用纯CUI。

除了上述之外，还有很多……在语言交互场景中，确实有很多值得讨论的地方。

作者：木英寸，微信公众号：新凯福克斯

本文最初由@寸木木发表。未经许可，禁止复制。

该地图来自PEXELS，基于CC0协议

« 优化移动代购源码网站，SEOre需要注意这些细节 | 代购源码网站优化人员需知的100个问答题！ »

: 周一周五 8:30 - 18:00

鲁ICP备14007395号-24

百度统计

客服QQ