北京时间3月12日,李世石与谷歌围棋AIAlphaGo人机大战第三局,执黑先行的李世石毫无抵抗之力,狗狗把战绩刷到了3:0,这一次人机大战的结果已经定下来了。
在赛前很多人包括专业棋手们甚至一些AI专家都更偏向于李。我们都知道有一天人工智能一定会战胜人类(就像当年国际象棋一样),大概是没有料到会这么快吧。
这一次的结果不仅仅让围棋界开始重新考虑AI在这个行业的地位,其他行业的人们也在思考AI会如何颠覆自己的行业。
实际上在金融业,量化交易从很早开始就运用机器进行辅助工作,分析员通过编写简单函数,设计一些指标,观察数据分布,而这些仅仅把机器当做一个运算器来使用。直到近些年机器学习的崛起,数据可以快速海量地进行分析、拟合、预测,人们逐渐把人工智能与量化交易联系得愈发紧密。
我们可以把量化交易按照人工智能的子领域(机器学习,自然语言处理,知识图谱)分为三个阶段:
AI阶段一:机器学习
在传统的投研中,分析员们对财务、交易数据进行建模,分析其中显著特征,利用回归分析等传统机器学习算法预测交易策略。
这种方式有两个主要弊端,其一是数据不够丰富,仅限于交易数据,更重要的是它受限于特征的选取与组合(FeatureEngineering),模型的好坏取决于分析员对数据的敏感程度。
此外一种做法是,模仿专家的行为,选择某一领域的特定专家,复制他们的决策过程,并导入可重复的计算框架。
代表公司:
总部位于纽约的RebellionResearch:在年推出了第一个纯人工智能(AI)投资基金。该公司的交易系统是基于贝叶斯机器学习,结合预测算法,响应新的信息和历史经验从而不断演化,有效地通过自学习完成全球44个国家在股票、债券、大宗商品和外汇上的交易。
日本的初创公司Alpaca:他们的交易平台Capitalico利用基于图像识别的深度学习技术,允许用户很容易地从存档里找到外汇交易图表并帮忙做好分析,这样一来,普通人就能知道明星交易员是如何做交易的,从他们的经验中学习并作出更准确的交易。
伦敦的对冲基金机构Castilium:由金融领域大佬与计算机科学家一同创建,包括前德意志银行衍生品专家、花旗集团前董事长兼首席执行官和麻省理工的教授。他们采访了大量交易员和基金经理,复制分析师、交易员和风险经理们的推理和决策过程,并将它们纳入算法中。
坐落在香港的Aidyia:致力于用人工智能分析美股市场,依赖于多种AI的混合,包括遗传算法(geneticevolution),概率逻辑(probabilisticlogic),系统会分析大盘行情以及宏观经济数据,之后会做出自己的市场预测,并对最好的行动进行表决。
全球最大的对冲基金桥水联合(BridgewaterAsspcoates):使用一种基于历史数据与统计概率的交易算法,让系统能够自动学习市场变化并适应新的信息。与其类似的公司还有Point72Asset,RenaissanceTechnologies,TwoSigma。
AI阶段二:自然语言处理
久而久之,人们发现仅仅从数字推测模型是不够的,开始考虑引入新闻,政策,社交网络中的丰富文本并运用自然语言处理技术分析,将非结构化数据结构化处理,并从中探寻影响市场变动的线索。
这方面直接用于投资交易的并不多,更多是用于风控与征信。通过爬取个人及企业在其主页、社交媒体等地方的数据,一来可以判断企业或其产品在社会中的影响力,比如观测App下载量,微博中提及产品的次数,在zhihu上对其产品的评价;此外将数据结构化后,也可推测投资的风险点。
这方面国内的很多互联网贷款,征信公司都在大量使用自然语言处理技术,例如宜信,闪银等。另外一些公司则利用这些技术进行B端潜在客户的搜寻,如Everstring,并将信息出售给其上游公司。
代表公司:
伦敦的CommEq:今年6月份新设的一家基于人工智能(AI)的对冲基金。CommEq的投资方法结合了定量模型与自然语言处理(NLP),使计算机能够如人类一样通过推断和逻辑演绎理解不完整和非结构化的信息。
SentientTechnologies:由李嘉诚与塔塔通讯投资,运用自然语言处理,深度学习(DeepLearning)等多种AI技术,进行量化交易模型的建立。
美国的Kensho:一家基于云计算的智能计算机系统先锋公司。Kensho结合自然语言搜索,图形化用户界面和云计算,为金融市场的投资人们提供一套全新的数据分析工具——Warren。Warren能够回答复杂的金融市场问题,如各种数据、股票走向等,可回答约万种关于全球事件对股价影响的英文问题。
AI阶段三:知识图谱
上述技术经常会在一些意外发生的时候预测失败,例如、熔断机制和卖空禁令等等。人工智能系统没有遇到过这些情况,无法从历史数据中学习到相关模式。这时候如果让人工智能管理资产,就会有很大的风险。
此外,机器学习擅长发现数据间的相关性而非因果性。很有名的一个例子是早在年,对冲基金FirstQuadrant发现孟加拉国生产的黄油,加上美国生产的奶酪以及孟加拉国羊的数量与标准普尔指数自年开始的10年时间内均具有99%以上的统计相关性,年之后,这种关系莫名其妙的消失了。这就是由于自学习的机器无法区分虚假的相关性所导致的,这时候就需要专家设置的知识库(规则)来避免这种虚假相关性的发生。
知识图谱本质上是语义网络,是一种基于图的数据结构,根据专家设计的规则与不同种类的实体连接所组成的关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。
就金融领域来说,规则可以是专家对行业的理解,投资的逻辑,风控的把握,关系可以是企业的上下游、合作、竞争对手、子母公司、投资、对标等关系,可以是高管与企业间的任职等关系,也可以是行业间的逻辑关系,实体则是投资机构、投资人、企业等等,把他们知识图谱表示出来,从而进行更深入的知识推理。
目前知识图谱在金融中的应用大多在于风控征信,基于大数据的风控需要把不同来源的数据(结构化,非结构)整合到一起,它可以检测数据当中的不一致性,举例来说,借款人张三和借款人李四填写的是同一个公司电话,但张三填写的公司和李四填写的公司完全不一样,这就成了一个风险点,需要审核人员格外的注意。
以投资关系为例,知识图谱可以将整个股权沿革串起来,方便地展示出哪些PE机构在哪一年进入,进入的价格是多少,是否有对赌条款,这些信息不仅可以判断该机构进入当时的估值,公司未来的发展情况(公司成长的节奏),还可以看清PE机构的投资偏好,投资逻辑是如何变更发展的。
目前知识图谱在工业界还没有形成大规模的应用。即便有部分企业试图往这个方向发展,但很多仍处于调研阶段。我们认为这其中的难点在于如何与特定领域机构建立起一套合作方式,如何将合作变成一种可轻易编程的界面,让领域专家可以通过系统以一种非常简单的方式进行行业逻辑的建模,而他的逻辑可以通过系统实时得到验证,使其进一步更新,只有通过专家与机器反反复复的迭代,形成闭环,才会服务好用户。
代表公司:
知识图谱在金融最早的应用代表Garlik:这家公司年成立于英国,核心成员来自南安普顿大学(UniversityofSouthampton,是语义网的核心研究机构之一),主要业务是在线个人信息监控。他们收集网络和社交媒体上的个人信息,当发生个人信息盗窃时Garlik会及时报警。年他们被美国的三大个人信用记录公司之一Experian收购,其技术被用于个人信用记录、信用盗窃的分析。Garlik的核心技术之一是大规模语义数据库,前后开源发布了3store,4store,5store等高性能数据库。
估值仅次于Uber的科技创业公司Palantir:曾用大数据帮助CIA干掉本·拉登。他们有一个基于知识图谱的金融数据分析平台—PalantirMetropolis,可以整合多源的量化资料,并提供一套方便易用的分析工具来满足复杂的研究需求,其中的组件能够进行复杂搜索,可视化编辑与分析,有非常丰富的人机交互能力。
参考文献:
[1]Wired,TheRiseoftheArtificiallyIntelligentHedgeFund,