智能水平由数据能力决定,张靖笙授课见证 -【讲师网厦门站】张靖笙授课见证,张靖笙博客,张靖笙网站,张靖笙文章,张靖笙最新文章

张靖笙:智能水平由数据能力决定

人工智能数据学习

2020-07-08 2129

智能水平由数据能力决定

张靖笙

关于智力是先天具足还是后天习得的争论自古就有，放到人工智能就演化成设计派和学习派两个学术方向。我在上世纪九十年代末开始从事商业智能方面的数据应用开发，我那时毫无疑问是属于设计派，今天我却是不折不扣的学习派。

在我十多年的商业智能项目工作中，我认为技术上做到最高水平的是十多年前在澳门某本地银行总行数据仓库项目上做的单一授信户风险查询分析与预警应用程序，这个应用源自一个非常复杂而且后来不断加深难度的业务需求。我当年还是一个代码为王的直男码农，不喜欢也不善于写文档，可后来这个需求的文档也累积成近百页的word文件，而这些文字陈述的也仅仅是需求的几分乃至于十分之一，其他很难言传的细节只能体现在程序代码里，而这些代码又是边听需求边分析、边开发、边调试、边修正这样形成的，当然关于这个应用的需求和解决方案最后只停留在我一个人的头脑里面，我当时也没有足够的理论水平予以建构，后来做完了也没有总结的动力，很多宝贵的设计细节随时间流逝遗忘了，甚至今天我自己再看这些文档和代码都有些搞不清楚其中的玄机了。

简单描述一下，通过这个程序几乎可以遍历到当时澳门常住人口一半以上的各种融资担保社会关系，全量数据每跑一次都要花上若干小时才能出结果，是的，这背后的算法就近乎于是一个社会金融关系关联分析的数据挖掘算法。这个程序连实际数据试运行和优化做了大概一年多时间左右，开发成果客户是满意的，他们根据这个程序的数据输出报告专门成立了一个全行级信贷数据风险分析委员会，直接影响到对其每一笔授信和信贷业务的审批决策。

但我今天回忆起来，却对自己在这个项目的表现有些不满意，也觉得很可惜，浪费了一次非常宝贵的实战突破机会。这个项目的数据应用深度完全是由客户需求提出人、该总行信贷业务负责人何高理高超的业务水平决定的，当年我没有咨询顾问的功力，实际上就是根据何高理的需求，学习消化何高理的业务和思路之后把加工数据的计算机程序编写出来，除此之外我并没有更多的创造和赋能。

换句话说，我的当年和众多的程序员是一样的，我们的应用开发高度完全取决于需求提出者的业务水平和数据理解，我做过的商业智能项目中，除了澳门大丰、银监会、华为、广汽本田这些甲方有数据能力和理解水平很高的需求提出人员，其余大部分的商业智能应用水平也就是简单查询和报表开发，数据智能水平其实很低下或者说初级。

我后来为什么皈依了学习派，也是因为我在实际工作中逐渐感悟到了设计的巨大瓶颈和局限。我不能抱怨我过去客户的需求水平，归根到底还是我当时缺乏人工智能学习派的理论水平和从事数字化战略咨询工作以后的顾问功力，要不我过去曾面对这么多宝贵的数据资源，是可以做出比程序设计高出十倍百倍的数据创新智能应用的。

人工智能许多早期的成功发生在相对朴素且形式化的应用环境中，而且不要求计算机具备很多关于世界的知识，那些可以通过一系列形式化的数学规则来描述的问题，对计算机来说只要可以转化成算法程序，依靠计算机强大的算力让问题得到迅速解决，例如IBM的深蓝国际象棋系统打败了人类的世界冠军。依靠预先设计的算法来解决智能问题，这就是所谓设计派的路数，而其最大死穴也在于妄图用复杂的算法解决智能问题的一切，这个套路在上世纪六十年代末几乎走不下去。

就像我在澳门某银行开发的那个商业智能应用，虽然我们已经研究得足以深入，可这种精心设计的算法实际上也仅仅把何高理那些可以言传的显性知识转化成为计算机的搜索+统计分析算法，就我的了解，所体现的仅仅是何高理深不可测的专业智慧冰山中显露出来的一角，我花了一年时间也就学了点皮毛，更遑论发掘出什么我们都意想不到的隐性知识模式，做到后面再发展也比较吃力了。

比较讽刺的是，抽象和形式化的任务对人类而言是最困难的脑力任务之一，但对计算机而言却属于最容易的。计算机虽然能够打败人类最好的世界象棋选手，但直到最近计算机才在识别对象或语音任务中达到人类的中低水平，一个人的日常生活需要关于世界的巨量知识。很多这方面的知识是主观的、经验化和个性化的，因此很难通过形式化的方式表达清楚。计算机需要获取同样的知识才能表现出智能，人工智能的一个关键挑战就是如何将这些非形式化的知识传达给计算机，以让其人工智能系统能解决现实中一些对人来说很显而易见的常识问题。

于是我们可以看到，即使在相对朴素且形式化的环境中，设计派的人工智能系统，在业界也被称为“人工智能1.0”也很快遇到发展不下去的窘境，被深蓝打败的国际象棋世界冠军知道算法原理后也很不服气，认为比赛并不公平，他只是被自己的失误所打败的。

到上世纪七十年代，人工智能的发展开始尝试走上数据驱动的道路，简单来说是我之前曾解释过的从数据中学习新知识的方法和手段，就是实现对数据资源的学习行为，帮助人类和计算机从现有的数据资源中获取新的知识或技能，重新组织已有的知识结构使之不断改善自身表现及技能。数据或者我所定义的数据学习驱动下的人工智能，现在被称为人工智能2.0。

引用吴军博士的观点:“在有大数据之前，计算机并不擅长解决需要人类智能来解决的问题，但是今天这些问题换了一个思路加以解决，其核心就是变智能问题为数据问题。”对此观点，我大体上是认同的，只是我认为智能问题并不能等价于数据问题，我们用数据学习的方法来解决智能问题，这中间涉及知识的数据表示或者数据建模的技术问题，如果不解决这个技术问题，智能问题也无法转化为数据问题而加以有效解决。

其实设计派和学习派两个人工智能方向都各有长短，一般而言，设计派的人工智能算法基于严谨的逻辑推理和数学分析，结果是比较精准、稳定而高效的，而对于现实世界中大多数智能应用场景，很难排除无限的环境影响因素而只关心有限几个抽象变量之间的变化规律，所以设计派做再多的努力都难免百密一疏，这一疏就足以让其前功尽弃，而学习派的智能系统却能随着数据学习经验的积累而越来越聪明。

今天对大数据的深度学习事实上是AI向强人工智能应用向上发展的主流，数据是人工智能的基础，如我在《数字化转型首先要提升数据学习能力》一文中的分析，即使浅表学习的低智能应用也需要有相应的数据能力支撑，没有数据基础的智能应用只能是巧妇难为无米之炊，这个道理已经是比较浅白的了。

我说“智能水平由数据能力决定”这句话的意思，是对当前我国广大组织普遍的数据管理和应用能力而言，各组织低下的数据能力，不但制约了对人工智能技术的应用水平，还是数字化转型最主要的瓶颈，这时组织遇到大量的数据问题不是智能问题，本质上还是落后的管理水平或者生产力的问题，在数据能力低下的基础上，我们做不出人工智能系统，只能做出大量的人工愚蠢系统或人工弱智系统。

既然我提出的数据学习概念不仅仅是针对机器，对于我们人类智能来说，“智能水平由数据能力决定”这句话是否也有效呢？我认为也是有效的，我们人类的思维活动同样也需要“数据”，这些“数据”就是我们头脑里面通过感知和认知所获得的各种经验和体验的记忆，常言道：“实践出真知”、“吃一堑长一智”，我们的经验越多，我们头脑里面的“数据”量就越来越多，而形成人类创造性思维主力的顿悟就是基于这些“数据”的厚积薄发，要是我们的“数据”不够，创新沦为撞大运或瞎折腾。

最后分享点小心得，我发现通过码文字写文章，我头脑里很多模糊的认知可以转化成为条理清晰的文本数据，这无疑也是一种有效的数据治理行动，这些治理过的数据能大大提升我的学习能力，从而高效加深我对知识的理解。

（本稿完成于2020年7月8日，如需转载请注明出处）

上一篇全民数据学习时代的组织与个人

上一篇数据要管理了才是自己的