文因互联CEO鲍捷：作聊天机器人有哪些坑？

时间 2020-07-17 标签文互联 ceo 鲍捷作聊天机器人哪些坑

本文来自：文因互联（wenyinx3b）
做者：鲍捷，文因互联CEO
我本身在某厂作了两年语音我的助理，后来本身出来创业，首先就否认了这个方向，或者它的变种（如问答系统、智能音箱、客服机器人、聊天机器人、陪伴机器人等等，各自有软件和硬件的版本），如下统称为Chatbot。
爬科技树不是一朝一夕
我估计中国过去几年，各类不一样名目的对话型“机器人”的公司，从软件到硬件的，数百家是有的，也许有一千家？有一次，在一个会议上遇到一个公司，想作这个事情，想找一个“领军人物”来带，领导十多我的。我想，这个公司可能大大低估了作这个事情的难度：这种“领军人物”在中国可能不超过20个，也许只有10个？十多我的也难以作出一个工业可用的系统。就是有所谓的领军人物，有丰富经验的，想把工程重建，也不是短时间能够奏效的。这个东西真的是没有捷径。
2012年随着Siri的发布，有一波中国的copycat，除了几个大厂的，大部分很快就灭了。过去一两年随着深度学习、知识图谱又起来一波。我认为其中的大部分是炒概念，超出如今的技术能达到的能力，两三年内就会群灭。
我以为这个东西，属于典型的系统集成创新，只适合大厂战略布局用。大厂作这事，并不在意场景的冷启动。而对创业公司，不管是技术链条长度，仍是商业模式启动的困难，都是超出通常公司体量的。如今你们都想从问答、我的助理、目标达成的角度来切入。大企业玩玩能够，对小企业，想颠覆，不能走这条路，技术链太长，商业模式链更长。传统搜索确定要被别的取代，但不能是直接拼大厂的长处这样。
往大了说，我对这一轮人工智能的几个热点应用——语音我的助手，问答系统，基于视觉的自动驾驶——都持悲观态度。我认为这种“准图灵测试”类产品，都超越了当前的盈利前沿，大规模应用是不现实的。例外是政府(特别是军方)和某些大公司不计成本地布局，瞄准十年以后。其余群众吃瓜围观就好。
各大厂推出的度秘、小冰、Cortana、Google Now，还有搜狗、京东、腾讯等等各类产品，技术上都各有惊艳之处。将来怎么样，我也很难如今作出评价。问答系统六个层次：基础搜索、词联想、本体知识库，短程关系、长程关系、基于上下文的自由问答，如今你们也基本只作到了短程关系，长程关系以上都要靠各类“人工”。爬科技树，绝非一朝一夕。
科技树是要爬的。导弹这种你们很容易理解，每一种零件，每一种生产工具，每一种生成工具的机器，缺一种都不行。钱学森学到了导弹的一切，回中国创建这个工业也花了三十年。对于问答系统这种软件，你们可能不太容易直观理解，其实也是一样的，作一个管用的以前要攻克的小问题太多了。就是别人把全套解决方案告诉你了，你都不必定能复制出来，由于还得有一整套的工业体系在后面支撑才行。从知识提取，知识存储，知识表达，知识检索，到人机交互、知识库，不知道多少个小零件要逐一打造。因此软件产业也和其余工业同样，要老老实实爬科技树。
Siri的创始人80年代就是Lisp机器的创业者。你们只关注到国防部和Siri那部分渊源（美国政府在CALO上投了1.5亿美圆。Siri独立后，风投又投了2400万。苹果花了大概1.5-2.5亿美圆买Siri。这个买卖真是合算），哪里想到它成立前的二十多年，它的创始人就把知识表达的坑全趟了一遍了。因此世界上没有平白无故的成功，也没有捷径。
一些坑
机器善于作短程关系的查找（lookup），一层，罕见的状况下能够作两层。长程关系的发现（discovery）是机器作很差的，只能由人来写，最后变成规则机器执行。那些Siri里有趣的回答，都是人写的，和机器智能无关。
问答系统的如今逐渐从基于知识库的，发展到基于检索的，或者是从基于规则的，发展到基于数据的。但QA这事，至少目前，不是说数据足够多就行。特别是，数据再多，其中高质量数据(特别是结构化语义数据)有多少。实战一下就知道，靠统计机器学习来挖掘高质量数据，难度太大了，彻底不实用。对问题和答案都须要NLP，其间检索和排序算法都是新的课题，须要多种方法的综合。
各类语音交互加摄像头识别产品，过去以app的形式承载，一直没有抓住用户的痛点，没有进入主流（除了被强推的siri）。因此最近两年，厂商开始试图用物理硬件来跑这些app，套我的形的塑料壳称为“机器人”。应用也逐渐细分，如儿童、恋爱、健康、娱乐等等。这些都是有益的尝试，可是仍是忽悠居多。
特别是最近的一些“智能”玩具机器人（儿童机器人、陪伴机器人），基本看不懂。我买了个1000块的某某儿童对话机器人来玩，头5分钟你们都很兴奋，而后就没有而后了。关键连开关都没有，又蠢又停不下来。而后给咱们COO拿回家给4岁的儿子玩，基本无法用，错得驴唇不对马嘴。强烈怀疑儿童陪伴、听歌、故事机器人现阶段实用了。后来又玩了几个市面上能买到的问答系统硬件。获得的结论是为时尚早，问答系统难以实用。
从外观来征服用户的，也是一条路。工业设计、硅胶科技的方法都有……看起来好看其实蛮重要的，有利于user acquisition。固然user retention就不够了，那仍是要真本事。
在我看来，聊天机器人、我的助手这些东西的场景毫不是智能对话，不是智能对话，不是智能对话（重要的事情说三遍）。聊天机器人往问答系统的方向作自己就错了。问答系统实用化根本不可能。聊天机器人的定位应该是自动化，就酱。
我想，作语义技术的应用第一重要的是盈利，而不是扩大市场份额。要垄断一个小市场，竞争对手还不够强大，市场小到巨头们无利可图。*语义搜索，必定要走K策略，深挖领域知识，而不是推出一个大而全，大而无用的知识库、问答系统、我的助手*、搜索引擎blah blah。历史上那些走R策略的语义搜索都活不长。一些垂直的客服系统多是有用的。我没作过那样的系统，因此也不知道其中的坑在哪里。
不只技术上有无数的坑，要在工业界搞好一个问答的团队，那是真心不容易! 就是在IBM, 说服上层领导就花了好几年。并且摊子一大，各类山头光内耗就能搞死。另外，问答系统是最接近图灵测试的，如何巧妙地应对来自上面的各类不切实际的灵感，是多考验负责人的情商和智商啊。
SIRI的一些回顾
由于工做的关系，从2010年开始就在关注Siri。2014年的时候把过去几年关于Siri的微博汇总了一下，大概有一百条，全文见《Siri有关的微博》。两个短篇见《语义网的公司(6)Siri》《SIRI的贡献和价值》。也请参考之前为@好东西传送门作的《关于问答系统博文的目录贴》。Apple的Siri专利，长，可是对于理解语义网技术如何在终端用户产品中运用，很值得一读。
凡是抄siri而大谈语音的，都是还没入门的（2013）。
Siri之类的系统，核心是模板系统和结构化数据库（as of 2012）。天然语言处理都是辅助的，真正提升F1分数的仍是规则，模板这些“低级”技术。数据的质量和覆盖率也极其重要。如今看语音界面超前了，由于语音极大提升了人们对智能的指望。并且语音对环境和口音要求过高。光口音这一点不知赶走多少用户。
Siri之父Adam Cheyer和Steve Jobs在语音界面这一点上曾经有分歧。关于Siri的早期（尚未被Apple收购以前）的一些设计理念，参Adam Cheyer早年在Ontolog 上的两个谈话：Ontology Management in CALO, a Cognitive Assistant that Learns and Organizes ，和 Siri: An Ontology-driven Application for the Masses。后来的分歧，见【Siri之父Adam Cheyer：为你讲述Siri的前世此生】，里面说，Adam回忆起早期的Siri的时候，也说，“最开始的时候，Siri是没有声音的，只会以文本形式推送答案，这样结果是视觉化的，也更方便人们浏览。使用语音是Steve Jobs的提议，尽管我反对可是他一直坚持”。Cheyer最后只好走人，去创立了Viv，2016年被三星收购——虽然Viv也被标签为“AI语音助手”。
我认为当初Cheyer是对的，Jobs是错的。语音极大提升了用户的指望，极大提升了系统的偏差。当年Adam Cheyer等对Siri的定位仍是对的，就是个数据集成工具。被苹果买后Jobs强行要改为语音助手，Cheyer只好出走。如今能够看清楚，Jobs的定位违反技术规律。和当年的爱疯天线门同样，是Jobs以他天才的现实扭曲力场（Reality Distortion Field），试图扭曲技术规律的行为。遗憾的是，电磁波定律没法被扭曲，人工智能的的规律也没法被扭曲。
2012年还在研究语音助手的时候，曾拿Siri来反向工程，问各类结构的句子，反推她的模板系统究竟是什么样子。结果发现她有些系统性的不能回答的结构，显然是没有对应的模板。最有意思的有人发现问“叫我老婆回家吃饭”，Siri回答“从如今开始叫你‘老婆回家吃饭’”。
（后来拿这套方法分析了其余一些知名的语音助手，结果也颇有趣）
固然后来Siri也在演进。2013年iOS7上的siri，就有两点新东西。一是和Bing集成。极可能看中了satori知识图谱。短时间内借助外力开发智能问答引擎，很合理。二是在宣传中突出语音对设备的控制和简单的检索，而非问答式的我的助手。Siri老团队的核心当时都已经走了。
近年的事情我就不清楚了。
时机问题和定位问题
The key is timing and positioning
早晚有一天，各类聊天机器人会以软件和硬件的形式进入咱们的生活。可是重要的是路径设计，而非预期的愿景；市场的一步步的相对优点的争取，而非平台优点的争取。
True Knowledge（产品后来更名Evi）曾经是一家很是优秀的公司，它的知识库是能够和Google Knowledge Graph媲美的好东西。他家的天然语言理解模板也是值钱的。它能够说是起了大早，赶了个晚集的典型。2005年就开始搞知识图谱，问答系统也作到了世界领先，可是就是一直没搞好商业化，最后以地板价（2600万美圆）卖给了Amazon。这个公司不懂得包装本身，好好弄弄说值10亿美圆也是没有问题的。原本它能够更开放，以更积极的态度和上下游企业合做。它并无必要成为Siri的直接竞争对手。它应该更快地进入美国本地服务市场——如今的几个竞争对手原本都比它拥有技术晚。惋惜它被执行得更象一个研究项目而不是关心市场。如今Amazon的Echo音箱能作好，就有True Knowledge十几年的积累在里面。
我认为，早在2012年，直接作语音助手的黄金期已过，还没推出产品的公司就应该转进了。其实各类垂直领域都不错，用户体验会更好。语音不语音不是核心问题，Siri能作好的最后必然是拥有数据的公司。制造设备的公司会有幻觉，觉得本身有用户数据，其实此数据非彼数据。天然语言理解虽然是语义搜索的重要辅助工具，可是当前阶段还不该是Value Proposition或者Key Technology。浅而高质量的数据关系才是。过于复杂的理解技术，无论是查询问题理解仍是语义关系提取，如今都不足以大规模工业化。从这个角度，我认为Siri或者其余相似的产品，针对主流市场是危险的。
Tom Gruber（Siri CTO，咱们语义网界的老前辈）曾说: the killer app for semantic technology is your life (online) 。这句话有好几层意思，背后表明着一整套哲学、方法论和技术路线。越实践，越以为机会无穷。他也提出了intelligence at interface的一套理论，见他在SemTech08上的演讲，颇有意思。可是我依然以为 Siri 在timing上稍微早了一点。结构化数据的丰富程度还不足以支持 Siri 的大规模使用。模版系统的产生方式还不够规模化。基础NLP的精度还有待提升。相似产品不宜当即投放大众市场，应该再等几年的。
2012年，对Siri这类产品，舆论界曾有很高的预期。典型如【在血刃Google的路上，Siri会先被苹果给玩死么？】这个文章的做者低估了Siri做为任务引擎的困难程度。他也应该深刻想想，为何原来的 Siri Assistant 比后来集成的Siri强大可是太慢？为何集成Siri须要两年？这背后的结构化数据，服务集成，语义推理，语义理解，常识知识，要涵盖平常生活的方方面面，甚至不是苹果一家公司两三年能搞定的。
Siri的CEO Dag Kittlaus有一篇文章Siri Is Only The Beginning，看起来很像是科学美国人上2001年的那篇语义网奠定文章 The Semantic Web。在十几年里咱们低估了语义网的实现难度，当年对Siri的兴奋也许一样低估了问题的复杂性？在2012年我估计，这一天会到来，但恐怕不是5年内。如今到了2017年，能够认为当初的保守估计是合理的。或如文章里说,“when our kids are our age”，20-30年吧。
将来在哪里？
我不知道。我离开这个领域前沿也有三年了，因此知识也是落后的，不少黑科技可能我是不知道的。
（**我惟一能够肯定的，就是这个黑科技不是深度学习，确定不是。）
大量的试错老是好的。如今市场上既然有数百个尝试者，最后总会有一些走出来的，其余的至少也为这个市场锻炼了人才。**
做为创业团队，最好先作整个技术链条里一个组件的工做，不要试图上来整一个问答系统的全周期。即便是对一个垂直领域，这都是困难的事情。根据不一样的团队构成，能够从数据库建造开始，或者可视化开始，或者NLP API，甚至人工的咨询服务。总之，整个大链条十几个大环节，先切一个，创建稳固的根据地，再按部就班。
未必要在语音这条线上吊死。视觉的并行性和(sort of)可随机存取性是最宝贵的注意力资源。语音在并行性上有先天不足。纯文本也是。长远看，我的助理必然要更多使用视觉元素。狗尾草（Gowild）走AR（加强现实）路线，我以为颇有意思，这条路将来大有前景。
搜索引擎势必要智能化，势必要更多利用结构化数据(也就是知识图谱)。这有两个大方向，一是变成问答系统，依赖天然语言处理走硬AI，二是变成探索引擎，依赖人机交互。我觉得第一条路是难以走通的，试图模拟人的智能，技术链条太长短时间内不可能解决实际问题。第二条路才是现阶段可行的方法，交互式展现半结构化数据，利用人的智能弥补机器的不足。
也不能迷信垂直领域，好比金融。我不但不看好通用域问答系统，也不看好大部分的垂直领域问答系统，由于人的愚蠢是不分领域的。除非该垂直领域是小众的。具体的之后另专文说吧，这里篇幅过短说不清楚。
不过AI没有禁区，什么意外都有的。我也但愿本身说的这些都被打脸。
文因互联简介：
文因互联致力于用人工智能解决金融数据分析问题。创始团队来自MIT、RPI、Wright State、Marvell等知名大学和公司。技术团队核心人员深耕人工智能十余年，是知识图谱领域领军人物；金融团队核心人员来自海外对冲基金、BCG和麦肯锡，具有丰富的投资研究经验。web