数据驱动的风险投资之旅(第二部分):
人工智能的发展为创投范式的升级提供了可行的技术条件和跨越式发展机遇。 人工智能研究在过去30年,特别是最近10年经历了快速发展。 我们先来简单回顾一下:
第一阶段:机器学习。 当前人工智能系统的基础是机器学习,它始于20世纪90年代,代表了人工智能系统方法的变革。 过去,人工智能系统采用的是如何解决一个任务的方法,而机器学习则采用预测模型来训练历史数据,即通过动态学习的方法来做出未来的预测。 而且机器学习还代表着同质性,即大量广泛的应用通常可以使用相同的学习算法。 虽然机器学习被普遍使用,但对于自然语言处理(NLP)和视觉识别等具有复杂语义的任务,由于输入是句子或图像,专业领域的专家需要进行“特征工程”( )才能机器学习学习方法都适用。
第二阶段:深度学习。 它出现在2010年左右。由于大量数据的可用性(得益于互联网和数字化的发展)以及对更大计算能力的投资(特别是GPU的出现),深度学习得到了快速发展。 深度神经网络(DNN)通过训练大量原始输入(包括像素)促进高级特征的出现(这个过程称为“表示学习”),有利于大幅提高模型的性能。 同时,深度学习进一步导致了同质化,即相同的深度神经网络架构适合多种应用。
第三阶段:基础模型。 基本模型的概念是斯坦福大学斯坦福以人为中心的人工智能研究所在2022年发布的《基本模型的机遇与风险》报告中专门提出的。所谓基本模型的基础是因为它是并不完整,仍在完善和发展中,但其架构稳定性、安全性等方面已经形成了基础,并且可以一机多用,具有同质化的特点。 基本模型的形成主要源于自然语言处理的快速发展,但又不止于此。 基本模型的兴起归功于迁移学习和扩展。 迁移学习使基本模型成为可能,而扩展使基本模型变得极其强大。 规模化需要三个要素:第一,计算硬件的发展。 过去四年,GPU的吞吐量和存储能力增长了10倍以上; 其次,该架构可以利用硬件的并行计算能力,使得更多的模型可以同时运行; 第三是更多的训练数据。
基本模型的一个主要特征是它能够因规模而出现。 例如,GPT-3有惊人的1750亿个参数,而GPT-2只有15亿个参数。 GPT-3的突现能力是,只要通过上下文学习输入提示(),就可以完成任务。 这种突现的能力既不是有意训练的,也不是预期的。
基础模型促进了前所未有的同质化水平。 比如目前最领先的自然语言处理模型来自于几种基础模型之一,或者BERT、BART、T5等。我们看到的不仅是方法的同质化,还有所使用模型的同质化——多模态模型,即,数据是多模态的,包括文本、图像、音频、视频等。
回到风险投资行业,本质上“数据驱动的风险投资”是指风险投资利用人工智能来增强和辅助数据决策。 但能否真正把决策完全交给数据,取决于我们对人工智能的掌握程度和信心。
当前数据驱动风险投资的关注点集中在风险投资行业的“项目来源”和“项目选择”两大价值链上。 如何通过人工智能解决相关问题:第一,风险投资如何突破依赖人际网络关系? 二是如何突破地域范围的限制,利用人工智能广泛、有效、低成本地寻找和获取投资项目机会的来源; 二是如何客观、不带偏见地评估投资项目机会。 人们有偏见和偏见,也有盲点。 因此,如何利用人工智能让投资项目机会的评估更加全面、去偏,如何将优秀风险投资人的“算法”转变为可移植、普遍可用的人工智能“算法”。
学术界多年来持续就人工智能对风险投资决策的影响进行研究,主要围绕项目选择问题,即对初创企业成功或失败的预测。 一般来说,学术界主要采用机器学习和深度学习的方法和模型进行预测。 从车型的选择来看,都是相似的; 从不同学者的预测效果(模型评价效果)来看,水平参差不齐。 关键是数据(数量和质量)、特征()。 由于基础模型阶段的发展,特别是多模态数据的处理和利用,为风险投资决策提供了更高效的技术条件,相信在项目选择问题的研究上会有更大的突破。
与此同时,少数数据驱动创投机构的先行者早在几年前就开始探索和尝试。 比如他们很早就走在了前列,在这个方向上努力,并与业界取得了不错的成绩。 一些新兴的风险投资机构也正在积极酝酿和尝试。 (我们稍后会具体介绍这些公司的探索和实践)
最后,我们简单回顾一下数据驱动风险投资未来可能的投资决策模型和转型演化图。
人工智能与风险投资决策
在数据驱动风险投资的变革和演化中,最重要的是人工智能与风险投资决策的关系。 一般认为,人工智能可以提供三个层次的决策能力: 1、辅助智能(自动完成简单任务); 2、增强智能(人与机器交互); 3、自动化智能(无需人工干预的智能)。 下图中,在项目选择(或称“项目筛选”)这个最重要的环节,创投机构和相关学术研究人员已经在积极实践和探讨,这比自动化工作流程、提高工作效率更重要。 它复杂、难度更大,但也是机器智能能否有效增强人类智能,甚至超越或部分超越人类智能的突破口。 这也是数据驱动风险投资的主要演进方向。
转型与进化
我们预计数据驱动创投的转型演进会遵循与其他行业企业AI转型类似的原则和步骤,即从小范围的使用场景开始,逐步向大范围延伸。组织级别:
1、使用场景:在使用场景层面运用人工智能技术,满足业务发展需求,增加价值,提高效率;
2、数据生态系统:消除内部数据碎片化,根据业务需求整合中心化数据,进行初步分析整理,发现高价值数据;
3.技术和工具:采用敏捷的“测试和学习”方法,根据自己的需求和目的使用相应的人工智能工具。 重点是从提高工作效率的高效创投机构向数据驱动、提高效能的创投机构转型;
来源:DDVC。技术堆栈通常从左到右堆叠并增加复杂性; “工程师”是开发人员和数据专业人员,而不是投资专业人员
4、工作流程集成:将人工智能融入到工作流程的各个环节,优化人机交互界面;
5、开放的文化和组织:形成开放合作的组织文化。
在转型过程中,团队需要转型、重构,形成持续学习、不断进步的氛围和文化。 团队中内部“工程师”和“数据科学家”的比例将迅速增加。 我们现在可以想象的是转型后的风险投资机构,虽然不太可能出现像对冲基金公司那样的极端情况,即公司的交易和研究人员要么是数学家,要么是其他科学和领域的高级人才。工程专业,但肯定会形成现在这些科技大公司的人才格局。 同时,不难预见,风险投资机构在转型过程中将面临诸多挑战。 团队之间的融合与合作程度是重要的挑战之一。 传统依靠人和直觉的运营将转变为依靠人+机器和数据的运营。 其背后的思维、知识结构、方法、语言都会引起意想不到的冲突。
(下周继续:数据驱动的风险投资之旅(下):全技术栈的增强版和量化版)