数据要素产业
金融界的图灵测试:2.04%的AI预测误差,只是开始…
“这一天,机器人可以自行撰写研报……”
1950年,计算机科学之父图灵在《计算机器与智能》一书中,首次提到一个概念,如果电脑能回答由人类测试者提出的一系列问题,且其超过30%的回答让测试者误认为是人类所答,那么机器就能通过测试,被认为具有人类智能。【1】
业界知名金融科技公司通联数据(Datayes)于2020年开展了一场超越性的测试,这场针对2019年上市公司年报营收进行的AI预测实验,与市场一致预期值(注:基于各券商分析师对上市公司盈利预期数据的平均)展开了对垒,AI预测以82.5%的胜率、2.04%的误差略胜一筹。
这场备受瞩目的实验也被誉为“金融界的图灵测试”。AI的进击,已经注定无法阻挡吗?AlphaGo战胜围棋冠军的场景,似乎依稀再现……
如今,通联数据旗下Datayes!萝卜投资的AI预测能力已经覆盖A股全市场,向港股、美股延伸,并于近日再次公开发布800家上市公司2020年年报营收预测数据。
风乍起,从不食人间烟火,到渗透金融场景,AI技术是如何步步为营、推动投资方式变革的?
二十世纪四十年以来,“科技三论”系统论、控制论、信息论的发展日渐成熟,成为现代科学的理论基矗
简单来说,系统论研究方法是把研究和处理的对象看成是由一些相互联系、相互作用的若干因素组成的系统;控制论揭示事物联系的反馈原理,用来实现对系统的有效控制;而信息论则侧重研究信息,即认识信息、度量信息、再利用信息。三论关系密切,发展也渐有统一的趋势。
在人工智能领域,目前主流的方法论是依托于信息论的概念,通过大数据,结合计算机的计算能力进行机器学习,深度参与到各个场景的应用中。在信息论创始人克劳德艾尔伍德香农的眼中,信息和长度、重量这些物理属性一样,是可以测量和规范的东西,即可用“熵”来衡量。
香农提出,熵与信息内容的不确定程度有等价关系,信息是用来减少随机不定性的东西,换句话说,信息也是确定性的增加。这与顶级投资人追求长期确定性的投资理念不谋而合。基于该理论,金融界衍生出了许多实证研究,比如一个有效的信息熵数据挖掘算法能够帮助人们处理复杂的金融时间序列,去除其中冗余的噪音,进而产生有用、可信的关联规则,以帮助数据挖掘。【2】
英国著名科学家Isaac Newton爵士曾说,就像在数学中一样,在自然哲学中,对困难事物的分析方法应该比经典方法先行。如今,除了基本学术理论,更多细分领域的人工智能技术正在崛起。
在《人工智能发展报告2020》评选中,深度神经网络、特征抽娶图像分类、目标检测、语义分割、表示学习、生成对抗网络、语义网络、协同过滤和机器翻译这些“新兴词汇”上榜成为过去十年的“十大AI研究热点”。【3】
在技术不断突破下,分析师们对外传递信息与观点的方式正在被AI深刻重塑。
实践证明,人工智能发展虽几经波折,但每一轮瓶颈突破后,其与投资的交融都会越来越深。我们就此分三个方面细呈AI如何逐步解决投资场景中的痛点。
第一,解除数据搜集中的重复劳动。西方有句话,Data has a better idea。一般来说,分析师从事的基本面投研工作常常要面对大量多维度的的结构化数据,人工智能技术的出现,使得机器批量协助处理数据成为可能,投研工作中模式化、标准化的工作将被AI自动化代替,投研人员将从大量的重复性工作中解放出来。
第二,帮助挖掘另类数据中的机会。结构化数据处理相对简单,但在深度投研场景下,非结构化数据处理难度高,但价值常常更高。与机器相比,人类的核心优势是能够理解和分析非结构化的数据。
美国另类数据公司Thasos曾在特斯拉在加州弗里蒙特(Fremont)生产基地的370英亩土地内创建了一个数字围栏,其智能搜集数据信息的方式,为智能数据搜集和处理利用开辟了新的方向。公司曾通过电脑程序密切监测从Tesla工厂中发出的手机信号,并成功预测了特斯拉股价大涨。【4】
除了上述另类数据的挖掘,其他方式如知识图谱技术、NLP技术等探索,意味着AI技术将在人类分析师的传统强项领域不断渗透,其应用空间也有望被全面激活。
图:技术深度参与数据的搜集与处理
第三,算法模型提升预测的科学性。在工作中,分析师总是分析过去发生的事情,剔除现在的喧嚣和噪音,并试图辨别未来可能的结果,而意外、随机事件和非理性情绪,往往冲击着预测结果的可靠性。面对非规则化、非结构化、噪音占高、数据跨度周期短的金融市场,AI能否为金融人助一臂之力呢?
国内方面,通联数据在个股营收预测方面进行了探索,其采取全局模型和局部模型混合使用的方式,利用Bayesian方式将专家经验硬编码到算法模型中,比如,个性化地处理周期性数据,人机结合的方式筛选因子,确定领先滞后关系,模型集成等等,在结合HI(Human Intelligence)和AI(Artificial Intelligence)的双重优势中,针对上市公司的业绩进行NOWCAST预测,并在模型的可解释性、高频预测方面具有开创性的突破。
以对上市公司恒顺醋业2019年的年报预测为例,Datayes!萝卜投资首先构建了专业的知识图谱,逐渐细分、拆解宏观、行业、个股三方面因子,比如代表宏观因子的社会消费品零售数据,代表行业因子的食醋价格,代表个股因子的线上电商特色数据等,被构建在个股的投研框架之中。
通过借助专家知识沉淀提升机器预测能力,机器算力反哺人力的信息盲点,AI盈利模型预测了恒顺醋业2019年的营业收入为1821.49百万元,对比真实值的结果,AI预测误差(0.58%)远低于市场一致预期的1.26%,战绩斐然。
图:通联数据萝卜投资针对个股恒顺醋业的预测框架和结果
国外方面,国际著名咨询公司Cerulli Associates的一项调查,也传来佳绩。在2020年新冠疫情蔓延下,截至2020年5月的近三年中,人工智能主导的对冲基金产生了33.9%的回报,相比之下,同期全球对冲基金行业的平均收益为12.1%。
Cerulli欧洲机构研究副主任Justina Deveikyte在一份声明中说,“长期以来,人们一直怀疑人工智能对冠状病毒等突发事件的反应能力……可是研究发现,AI技术已经发展到了通过数据积累更好适应不可预见的场景的程度。”
中金公司在研报《人工智能:机器代替分析师还要多久?》中曾表示,在投研领域,机器人替代人可能会沿着从高频到低频,从结构化到非结构化数据的路径逐步发展,在数据采集、清洗与加工、数据分析,到结果展示在内的投研工作的各个环节逐步得到应用。随着人工智能技术的运用,分析师工作在未来五年会迎来较大变化,预计虚拟分析师在三到五年内将会登常【5】
以通联数据2020年“金融界图灵测试”为标志,AI赋能投资的另外一条路径也开始隐现,人机协同(AI+HI)的元年已经开启。尽管我们会惶恐是否会带来职业危机,但其实,机器与人绝不是对立的。
越是深入了解AI,就越能感受到人脑的优势。人工智能像一面镜子,能够照见人类智能的神奇,也能放大人类的不足。AI让机器面对非规则化从“不可为”到“可为”,赋能我们每日工作的来来往往,不断改变着金融从业者的投研方式和职业路径。
可以预见,善于利用AI创新红利服务于投资工作,提高投研产能与知识输出,也会成为金融人长远职业规划中的重要一环。