查看原文
其他

DeepMind关于AlphaFold2的专利布局

小王随笔 小王随笔 2023-01-13
据笔者所知,本文是中文网络对 AlphaFold(下简称AF)专利的第一篇讨论。至本文写作时,DeepMind 关于 AF 所申请的专利一共获批了8件,如下:

信息来源:https://patents.google.com/

其中,6件关于 AF1  的同名 WO 和 US 专利分别保护了 AF1 模型的不同方面。

本文集中讨论 AF2 的2件专利:
  1. Protein Structure Prediction Using Geometric Attention Neural Networks
关键词:蛋白质结构预测,几何注意力神经网络

  1. Protein Structure Prediction From Amino Acid Sequences Using Self-attention Neural Networks
关键词:蛋白质结构预测,氨基酸序列,自注意力神经网络

本文包括两个方面:
1. 从专利法和版权法的角度,讨论 AF2 的专利和版权;
2. 从技术角度,解读 DeepMind 究竟保护了AF2 的哪一部分内容。

目录:
  1. AF2 的专利法解读

    1. 区分与 AF2 相关的内容

    2. AF2 的可专利性

      1. AF2 是否是某一技术领域的发明?

      2. AF2 是否具备“新颖性”?

      3. AF2 存在“发明性步骤”吗?

      4. 苛刻的评价

    3. AF2的可版权性

      1. 英美法系 VS 欧陆法系的版权

      2. 德国版权

      3. 德国版权关于 AF2 训练数据

      4. 德国版权关于 AlphaFold DB

      5. 德国版权关于 AlphaFold DB 的附属条款

      6. 德国版权关于 AF2 推理模型参数

    4. 总结

  2. AF2 专利的技术解读

    1. 基本信息 & 发明人

    2. 专利1 保护的内容

    3. 专利2 保护的内容

    4. 总结


一。AF2 的专利法解读

就在笔者于上月中旬开始准备本文的阅读材料时,恰巧在2月14日德国莱茵河畔法兰克福的一位律师,Claudia Otto,在杂志 Recht Innovativ 发表了一篇论文:

题外话:这篇论文发表时,Recht Innovativ 依然是 Springer 下辖的一份技术类知识产权法杂志。然而,目前 Recht Innovativ 已经不再由 Springer 出版。我略微查看了这份杂志各期内容,其上的文章基本上由 Claudia Otto 和她的几位同事包揽了。这可能算恢复了学术杂志的古意:由几位行内人士就业内问题发表自己的研究,分享看法和见解。

这位德国律师,从欧盟和德国的产权法、专利法角度,分析和讨论 AF2 的可专利性(patentability)和可版权性(copyrightability)。这里,小王编译律师 Claudia 的观点。这些观点对毫无法学背景的小王而言是全新的、启发式的。

1。需要区分与 AF2 相关的内容,分别考虑:

(1)AF2 研究软件,源代码已发表;

(2)AF2 模型,已发表;

(3)用于 AF2 训练的第三方数据库的数据;

(4)EMBL-EBI 蛋白质结构数据库:AlphaFold DB;

(5)使用 AF2 预测的蛋白质结构本身。



2AF2 的可专利性

(1)AF2 是否是某一技术领域的发明?

如何判定 AF2 是否为科技发明,进而判定 AF2 是否能够申请专利?从法学角度,AF2 必须包含“技术属性”(technical character)或者“teaching for technical action”,即,一份向一位有经验的人使用特殊技术手段解决特殊技术任务的指导。

2份专利的摘要都以下面一句话开头:

Methods, systems, and apparatus, including computer programs encoded on a computer storage medium, for determining …… “

首先,在存储介质上存储计算机程序并不构成“成专利性”。

其次,人工神经网络被视为抽象的数学计算模型,也没有“技术属性”,因此不能被视为技术发明(欧盟、德国专利法)。这与神经网络是否具备学习能力或者能否被训练无关。

德国专利法(PatG欧盟专利法(EPC对应的条款。

《中华人民共和国专利法》(2020修正)中类似的条款。可见,我国的专利法并没有排除“数学方法”的可专利性(可能在解释细则中有更详细的、不同的解释)。

然而,DeepMind 声索(claim)的是一项“计算机实现的发明”(computer-implemented invention),这是允许的。这需要检视这项发明的“process claim”是否新颖。

(2)AF2 是否具备“新颖性”?

这似乎不言而喻。

请注意:CASP14 于2020.11.30 公布结果,次日,DeepMind 即提交了关于“自注意力神经网络用于预测蛋白质结构”的专利申请。

这一方面可见 DeepMind 对其新方法的保护的小心,另一方面则出于实际需要:CASP14 的公开结果证明了 AF2 模型的新颖性。这也是“自注意力神经网络”第一次被有效地应用于蛋白质结构预测。

(3)AF2 存在“发明性步骤”(inventive step)吗?

一项发明被认为包含一个发明性步骤,如果对于一个有经验的人而言它不显然。(PatG & EPC)

换一种说法:如果一项发明,对一个有经验的人不是显而易见的,那么它可以被判定含有一个发明性步骤。

AF2 的蛋白质结构预测是基于已经存在的知识,以一种新颖的方式组合。(蛋白质领域的)专家,依据(蛋白质科学)这个行业专家共同体所积累的知识,可以判断:由 AF2 预测的蛋白质结构显然是精准的,

这意味着,AF2 的预测“对一个有经验的人而言是显而易见的”。并且,AF2 所预测的结构,至今缺乏传统实验手段所能获得的精度。

就此判断,AF2 不具备发明性步骤。

实际上,DeepMind 曾收到一份由“世界知识产权组织”(WIPO)出具的官方书面评估:AF1 不具备发明性步骤。(见 Claudia 论文)

(4)苛刻的评价

根据上面的分析,Claudia 认为 AF2 的 AI 系统不具备可专利性(not patentable):

与其说 DeepMind 发明了(invent)一种新颖的预测蛋白质结构的方法,毋宁说 DeepMind 发现了(discover)一种(蛋白质结构和序列)信息之间的一种关联,并依据业已存在的科学标准,令这种关联可以用于产生未知结构的蛋白质的一种图像。


3AF2 的可版权性 

(1)英美法系的版权 VS 欧陆法系的版权

版权(copyright)在不同法系的偏重不同:
  • 英美法系(Anglo-American)的版权目标在于保护经济开发的利益。
  • 欧陆法系(continental European)的版权目标在于保护作者的利益。

(2)德国版权

德国版权法(UrhG)认为:版权与能够进行智力创造活动(intellectual creation)的作者是不可分割地联系在一起的。版权不能在活人(living person)之间转移。类似于 AF2 AI 系统主要是计算机软件,而计算机软件(software)包括计算机程序(program)和数据(库)。计算机程序可以以语言作品linguistic work)被版权保护。

请注意:《中华人民共和国著作权法》第三条第八款规定计算机软件可被版权保护。这是我国著作权法与德国版权法相左之处。


德国版权法(UrhG)明确规定计算机程序的源代码受版权保护;然而,源代码所基于的想法和数学概念则不受版权保护。

世界知识产权组织(WIPO)也规定版权保护仅延伸至具体的表现方式(forms of expression),而不能延伸至想法(thoughts)、过程(processes)、方法(methods)或数学概念。

但是,这并不意味这 DeepMind 在 Nature 上发表的 AF2 的论文中所展现的想法、过程、方法和数学概念不能被保护。这些可以被表达为智力创造的结果,从而作为“语言作品”被知识产权保护。

(3)德国版权关于 AF2 训练数据

AF2 的训练数据包括以下研究性数据库:
  • UniRef90

  • MGnify 

  • BFD

  • Uniclust30

  • PDB70

  • PDB


以 PDB 为例,其数据分发的许可证是 CC0 1.0 Universal (CC0 1.0) Public Domain Dedication。因此,基于公开科学研究性数据库所做的科学发现不能申请版权保护。

注:笔者在我国著作权法、知识产权法、计算机软件保护条例中搜索数据二字,仅在著作权法中出现一次。小王肤浅地认为,就数据(库)保护而言,我国可能是落后的。


(4)德国版权关于 AlphaFold DB

数据库可以作为“数据库作品”(database work)被德国版权法保护。

数据库作品指一项集合性工作,其中的元素系统性地或方法性地方式排列,并且单个元素可以以电子方式或其它方式被获取。制作数据库时,对入库元素的选择或排列方式需要人的智力创造。因此,版权保护的是人的智力创造所表现的形式,即数据库作品。

笔者的理解是,即使一个数据所存储的数据本身不能被版权保护,由于存储元素的过程涉及对元素的甄别选择,以及特殊方式的排列,显示了数据库的制作者的智力创造,因此这种智力创造可以被版权保护。

基于上述原因,AlphaFold DB(AlphaFold蛋白质结构数据库)可以被版权保护

然而,AlphaFold DB 的供应者并非 DeepMind,是 EMBL-EBI(欧洲分子生物学实验室-欧洲生物信息学研究所)。

并且,AF2 没有创造数据库,AF2 创造的是 AlphaFold DB 数据库内的数据…… 

所以,AlphaFold DB 数据库的版权由 EMBL-EBI 内的作者所有。

现在,因为 EMBL-EBI 是一个跨政府的、总部在德国海德堡的、非私有的官方组织,所以由 EMBL-EBI 经营的数据库可能不受德国专利法版权保护。

(5)德国版权关于 AlphaFold DB 的附属条款

如果数据库作品的获得(acquisition)、验证(verification)、展现(presentation)需要大量投入(substantial investment),那么数据库受到版权保护。特别地,这个数据库生产者对数据库的复制、分发、公共交流的权利受到保护。

然而,数据库生产者对数据库内单份数据不受保护。

因为,显然地,数据库内的单份数据的生产并不需要“大量投入”,所以从数据库内提取和使用单份数据不需要特别授权。

综合上述(4)和(5),我们知道,在德国版权法下,即便 DeepMind 与 EMBL-EBI 在2022年1月没有改变 AlphaFold DB 数据库内数据的使用许可证,它的数据(也就是预测的结构)也不受到版权保护。


(6)德国版权关于 AF2 推理模型参数

一个 AI 模型,即在训练中学习到的全部参数,不具备可专利性,因为其数学抽象属性。

从另一个角度考虑,神经网络在训练中学习到的参数不是人的智力创造(是机器的创造),因此这些参数不受到版权保护。

机器不享有与人同等的权利。

但是,这些参数可以被商业机密法trade secret law)保护。

商业机密(trade secret)指具备经济价值的秘密信息,它作为一个整体或者它的组成成分或成分之间的排列方式,对领域内相关人士而言,既不广为人知,也不能轻易获得。

显然,AF2 的模型参数符合上述条件,因此受到商业机密法保护。


4。总结

与 AF2 相关的内容可以由不同的(德国)法律保护:

(1)AF2 研究软件 - 以语言作品被版权法保护
(2)AF2 模型(参数)- 以商业机密被商业机密法保护
(3)AF2 的训练数据 - 无
(4)AlphaFold DB - 以具备大量投入的数据库作品被版权法附属条款保护
(5)AF2 预测的蛋白质结构本身 - 无 

希望有我国科技类知识产权法方面的专家做相对应的解读。


二。AF2 专利的技术解读

不知道经过上面比较长的法律解读,大家以为如何?下面是笔者本人,对比 AF2 的 Nature 论文及补充材料,对2份 AF2 专利的技术性解读。

1。基本信息 & 发明人

专利1. Protein Structure Prediction Using Geometric Attention Neural Networks
关键词:蛋白质结构预测,几何注意力神经网络
申请时间:2019.12.2
批准时间:2021.12.23
页数:15
发明人:John Jumper, Andrew W. Senior, Richard Andrew Evans, Stephan Gouws, Alexander Bridgland

专利2. Protein Structure Prediction From Amino Acid Sequences Using Self-attention Neural Networks
关键词:蛋白质结构预测,氨基酸序列,自注意力神经网络
申请时间:2020.12.1
批准时间:2021.6.3
页数:18
发明人:John Jumper, Andrew W. Senior, Richard Andrew Evans, Russell James Bates, Mikhail Figurnov, Alexander Pritzel, Timothy Frederick Goldie Green

专利1的申请早专利2一年,而专利2“后发先至”,早专利1半年获得批准。

根据两份专利的标题,我们可以推测:专利1 是关于“端到端训练”的,主要内容是保持训练过程中的几何坐标不变性,很可能对应于 Structure Module;专利2 则显然是关于自注意力机制,很可能对应于 Evoformer。

相较于 AF1 长达60余页的3份 US 专利,AF2 的2份 US 专利很简短,仅分别为15页、18页。两份专利分别有5位、7位发明人,其中 AF2 论文的共同首作者 Jumper, Evans 和倒数第四作者 Senior 是两份专利排名前三的发明人。

我们在《大超凡》那一篇文章提到过了,AF2 的作者中,仅有 Martin Steinegger 一位不属于 DeepMind 公司;作者列表截图中的 2、3两个单位也仅标注在 MS 一人,是韩国的两个学术单位。作者列表的角标 1 是 DeepMind 公司;角标 4 是共同第一作者。

我们发现专利1中的 Stephan Gouws 并不是 AF2 的 Nature 论文的作者。他是就职于 DeepMind 的一位自然语言处理方面的深度学习专家。这表明 AF2 的开发过程得到了 DeepMind 其它团队的底层技术支持。

Jumper, Senior, Evans 三人用红方框标出;绿方框标出专利1的发明人;蓝方框标出专利2的发明人。


再看 AF2 论文正文末尾的作者贡献表以及利益冲突声明。笔者用红色圆圈标出没有出现在专利1、2发明人列表的作者。 DeepMind 声明他们参与撰写并申请了专利。这意味着还有关于 AF2 的专利申请正在审批。



2。专利1 保护的内容

由摘要可知,专利1 的内容是:
  1. 获得结构参数的初始化嵌入以及初始化数值;
  2. 使用折叠神经网络处理作为输入的结构参数,并输出结构参数的最终数值。

专利正文背景的 [0042] ~ [0050] 出现大量公式,对比 AF2 的 Nature 论文的补充材料,可以轻易发现,这一段描述的是补充材料中的“算法22” —— IPA(Invariant Point Attention)。其中最具识别度的是 [0045] 的公式。其余条目分别对应于算法22的其它公式。


紧接着,专利正文背景的 [0052] 对应于算法23,backbone update。


下面,专利正文背景的 [0055] 对应于 FAPE(Frame Aligned Point Error)。


综上,我们可以确定:专利1 描述并保护了 AF2 Structure ModuleNature 正文 Fig.3d)。



3。专利2 保护的内容

由摘要可知,专利2 的内容是:
  1. 获得 MSA;
  2. 由 MSA,计算序列中每一对氨基酸的初始嵌入(embedding);
  3. 使用神经网络处理上述初始嵌入,获得最终嵌入;
  4. 由最终嵌入,预测蛋白质结构。

此专利出现的公式不多,我们从声索(claim)看它与 AF2 论文的对应关系。

Claim 1 - 复述摘要
Claim 2 - 自注意力神经网络,接收 & 更新
Claim 3 - 更新嵌入
Claim 4 - row-wise 自注意力神经网络
Claim 5 - column-wise 自注意力神经网络
Claim 6 - 交替行列自注意力神经网络
Claim 7 - 根据最终嵌入预测蛋白质结构
Claim 8 - 将 MSA 分为两部分:聚类的序列 + extra 聚类的序列
Claim 9 - 复述摘要,用交叉注意力(cross-attention)神经网络取代自注意力神经网络

以上针对“一种方法”(a method)做专利声索,claim 10 ~ 15 针对“一种系统”(a system),claim 16 ~ 19 针对“一个或多个非暂时性的计算机存储介质”(non-transitory computer storage media),做相似的专利声索。

我们可以明显看出,claim 4、5 分别对应于 AF2 论文补充材料的 SF. 2 和 SF. 3。对比专利的图2,可以看到直接对应于 AF2 论文正文的 Fig. 1a 的一部分(如下)。


由此,我们可以断定:专利2 描述并保护了AF2 的自注意力神经网络,特别地,保护了 Evoformer。


4。总结

首先,由 DeepMind 所申请的关于 AF2 的专利1,我们现在知道,Jumper 领衔的 DeepMind-AF 团队在2019年年底之前就做出来了 IPA 等模块。作为对比,学界和业界所有其他研究组,仅 Baker 团队在 CASP14 结果公布,Jumper 代表 AF2 团队做公开报告之后,才使用 SE(3) transformer 在2021上半年,获得相似但仍然较差的结果。—— 这表明 AF 团队至少领先所有同行 1.5 年以上。

其次,在 CASP14 的竞赛结果公开的第二天,DeepMind 就提交了 AF2 的专利2 的申请,并且此项专利的审批时间仅用时6个月,可见不仅 DeepMind 内部评估 self-attention neural network 极具创新性和保护价值,而且美国专利局也如此认为。



最后,笔者是科技类知识产权和专利法的完全的门外汉,本文涉及法学方面的翻译、理解的错误和疏漏在所难免;此外,由于时间紧迫,本文涉及技术方面的解读很可能也并不准确。小王抛砖引玉。请谨慎参考,请指正批评。


本文完。
2022.3.6 于深圳


参考资料:
  1. 《中华人民共和国专利法》(2020修正)

  2. 《中华人民共和国著作权法》(2020修正)

  3. 《计算机软件保护条例》(2013修订)


鸣谢:如茵、Claudia 为本文提供论文的 PDF 文件。

本文涉及的论文和专利PDF文件放在网盘,后台可回复”AF专利“领取

推荐阅读

近期热点

AlphaFold 新闻、评论、人物

AlphaFold2 论文精读

公众号说明
“小王随笔” @xiaowang_essay 是小王的个人号,内容不垂直,目标不明确。本号宗旨:理实交融,益智厚生。内容主要是:科学、科学史等。鉴于小王的价值观:“天不生教员,万古长如夜”,viva la commune,也可能随性写一些激昂文字。又,小王出生成长于东部地区的一个世俗而传统的老回回 muslim 家族,本号也会关注历史、民族学等。干货私货皆有,凭君自取。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存