深数据

深数据生成技术

从量子到神经网络

生成化合物深数据的41项专利的核心技术称为“QSQN技术”，本技术基于量子化学（Quantum chemistry）、统计热力学（Statistical thermodynamics）、QSPR（定量构性关系）和神经网络（Neural network）的组合，并结合几乎所有可用的实验数据的系统分析。

首先生成化合物的3D结构并估算2D分子描述符，然后用生成的3D结构数据及3D分子描述符估算进行高质量的量子化学计算，之后根据量子计算结果采用统计热力学方法。再从分子描述符估算、量子计算和统计热力学应用相组合的信息应用于QSPR建模，最后应用神经网络模型对QSPR建模结果进行更新。QN技术包含2D QSPR和神经网络（Neural network），不包含量子计算，QN技术能够实时生成部分性质数据。技术组件和组合过程的概述如下所示。

Production of Chemical Compound Deep Data — 图1.化合物深数据的生成

QSQN和QN都能生成热物理化学、热力学、传递和/或药物性质数据，这些数据列在深数据列表页面的性质数据部分。生成的性质数据用实测的性质数据进行了验证，这些数以百万计的实验数据是前期收集和完善的。通过大规模的多核计算自动生成大量的深数据。这些性质数据通过系统的质量检查以确保其准确性和一致性。

谱学数据和量子数据作为性质数据生成的副产品，是由量子化学计算及大规模的多核计算产生的。类似地，分子描述符数据是由分子描述符估算和大规模的多核计算产生的。下面给出了每个过程的进一步描述。

几分钟内生成数百万个3D结构

利用结构生成引擎来生成化合物的3D结构。基于用户输入的公式（原子及其数目）和/或核心结构（应该包含的结构），结构生成引擎自动生成所有可能的异构体，如下图所示:

Automatic Generation of Massive 3D Structures of Chemical Compounds — 图2.自动生成大量的化合物3D结构

例如，输入C22H46时没有指定核心结构，则在几分钟内总共会生成2278658个结构。如果在同分异构体列表中存在对映异构体，结构生成引擎会自动过滤掉它们，因为它们的深数据值是完全相同的。

每个化合物数千个分子描述符

利用3D结构生成引擎生成的结构，2D分子描述符根据其定义¹估算。每个化合物估算了2,000多个描述符，分为24类，如下所示:

More than 2,000 Descriptors per Compound Classified into 24 Categories — 图3.每个化合物超过2000个描述符，分为24个类别

一些高质量的描述符（如分子轨道能量、静电描述符等）需要量子化学计算（包括优化的3D结构）支持。基于量子化学计算值可以得到可靠的3D分子描述符，如下所述。

高质量量子化学计算

量子化学计算能否获得可靠的优化结构极大程度决定于几何优化的初始结构。在进行量子计算之前，详细的构象分析可以确保获得一个"良好"的初始结构。如果结构中存在一个或多个单键，进行构象分析则可由结构生成引擎生成3D结构。根据单键的数量，可以自动生成多达数百个构象。随后，基于Halgren²提出的MMFF94s力场，就可以对每个构象进行简单的势能计算。然后势能最低的构象就作为几何优化的初始结构。

High-Quality Quantum Chemical Computations — 图4.高质量量子化学计算

在确定计算方法（如Hartree-Fock、密度泛函理论等）和基集（如STO-3G、6-31G*等）的最优组合之前，尝试了2000多次的系统研究，用于预测热物理化学、热力学、传递和/或药物性质数据。通过对实验的熵、偶极矩、频率、热容、磁化率、极化率、回转半径、范德华面积和范德华体积的预测精度分析，得出对于含C、H、N、O和S化合物，6-31G*基集的DFT-B3LYP泛函数³及C - pVDZ基集的RI-MP2能量校正为最优组合。最优组合的精度高、计算时间合理。对于不含C、H、N、O、S原子的化合物，没有能量校正的3-21G*基集的B3LYP方法是最优组合。

B3LYP计算用于获得化合物的与性质数据相关的基本信息。进行了包含受阻转子校正和能量校正的几何优化和频率计算，对无虚频的最小值生成的优化结构进行了仔细验证，解析计算得到了谱学数据。

大范围的实验数据收集与筛选

确保尽可能多的可靠实验数据点以建立可靠计算模型只管重要。在5年多的时间里，我们从超过16万个不同的来源（包括期刊文章、科学书籍和专利）收集了超过23万个化合物的150多万种性质数据点。

Collection and Refinement of a Large-Scale Experimental Data — 图5.大范围的实验数据收集与筛选

实验数据可能有很大误差，因此在使用它们建模之前进行了系统性地筛选，以确保数据点可靠。数据精选程序包括基本分析、统计过滤和相似性分析。以常沸点为例，对这些方法有详细描述。查看数据精选细节

统计热力学作为机理建模的基础

对超出实验点范围的数据做可靠预测是开发计算模型的最终目标之一，因为基于没有科学原理和/或物理意义的经验性的公式和/或参数的计算模型往往不可用。而基于科学原理的模型其预测可靠性通常会显著的提高，但是这需要更多的知识、洞察力和努力。

统计热力学作为机理建模的基础可以提供性质数据的可靠预测。例如，理想气体热容的数学表达式如下：

Heat Capacity of Ideal Gas as a Function of Vibrational Frequencies — 图6.理想气体热容的振动频率函数

平动和旋转贡献是气体常数（R）的三分之二，振动贡献是根据量子化学频率计算（包括受阻转子修正）得到的振动频率值（ni）确定的。

我们发现，基于量子化学数据和统计热力学的模型通常可以出色的预测性质数据的趋势、特征和/或行为。然而，统计热力学并不能提供所有热物理化学、热力学、传递和/或药物的性质的数学公式，这些性质在深数据列表页面的性质数据部分列出。绝对预测精度也不总是满足要求，这已经通过使用QSPR和神经网络模型得到了改善，如下面的章节所述。当统计热力学不能提供数学公式时，也可以使用QSPR和神经网络方法。

严格的QSPR建模

QSPR建模已经用于深数据列表页面的性质数据部分中的各种性质了。利用筛选的实验数据和可用的统计热力学结果能从24个类别的2000多个描述符中为QSPR建模选择自变量。实验数据按3:2或7:3的比例分成训练集和测试集，以便对QSPR模型中的参数进行适当的估算。

最初，使用正向加法和反向消除的逐步法估算，该方法提供了所需描述符的简短扫描，以使平方相关系数（R²）和统计f检验达到可接受水平。为了执行统计上有意义的逐步选择，至少需要数量级为100的自由度。由于有大量的收集和筛选好的可用的实验数据，确保了可以达到1,000至10,000数量级的自由度。换句话说，每种性质的QSPR建模中涉及的化合物数量的数量级在1,000到10,000之间。每两个描述符之间的相互关联系数都经过仔细检查，以确保所选描述符具有足够的独立性。多元线性回归的参数估计只有在t值具有统计显著性时才是有意义的。

A Rigorous QSPR Modeling Combined with Quantum Chemistry, Statistical Thermodynamics, Statistical Test, and Refined Experimental Data — 图7. 严格的QSPR建模，结合量子化学、统计热力学、统计检验和筛选后的实验数据

一旦逐步选择成功，获得的描述符信息就作为超参数输入到遗传算法中，并执行更高级的搜索。用超参数再次搜索整个描述符空间，以确定描述符的最佳组合。在遗传算法步骤中，描述符、统计t值、平方相关系数和统计f值之间的相互关联系数再次被仔细检查。如果全部满足要求，QSPR建模完成。

QSPR模型从仅含C和/或H原子的化合物逐步进行。然后，化合物扩展到包括C、H、N、O和/或S原子，最后扩展到包括C、H、N、O、S、F、Cl、Br、I、Si、P和/或As原子。2D和3DQSPR模型都进行了建设。经过数年的多次尝试，所有的模型开发都非常成功。在大多数情况下，平方相关系数大于0.95，统计检验完全满足要求。

由于2DQSPR模型不需要量子化学描述符，因此计算速度非常快，几乎可以实时获得性质数据。然而，2D QSPR模型的精度和可靠性普遍低于3D QSPR模型。3D QSPR模型通常具有更高的精度和可靠性，但需要比2D QSPR模型大得多的计算量。

定制的防止过度拟合的神经网络

QSPR建模假定要预测的性质和所选择的描述符之间存在线性关系，但这并不反映非线性关系是否存在。如果非线性存在并将其引入，采用神经网络建模可以改善模型。

实验数据以3:1:1或7:1.5:1.5的比例分成训练集、验证集和测试集，用于神经网络模型的开发。输入层中的节点由QSPR模型的结果自动确定，这些结果与QSPR模型的描述符完全相同。输出层中有一个单独节点，就是要预测的性质。

A Neural Network with Customized Overfitting Prevention — 图8.一种定制的预防过拟合的神经网络

要谨慎对待以最小化神经网络建模中典型的过拟合问题。利用实验数据集和QSPR建模结果进行交叉验证，对过拟合进行检测。一旦检测到，就通过减少隐藏层的数量、隐藏层中的节点数量和/或节点的一定权重来防止过拟合。

大量试验表明，隐藏层的数量需要为1，并且在大多数情况下，隐藏层中的节点数量需要至少低于输入层中的结点数量，以防止过拟合。与QSPR模型的R²值相比，最终的神经网络模型的R²值提高了约7%。

实验数据验证

使用最终的计算模型，预测并验证了与所有筛选的实验数据点相对应的性质数据点。

在常数性质中，最初对奇偶校验图和预测数据的分布作为与实验数据的偏差百分比的函数进行了验证。以常沸点为例如下所示。

Verification of Predicted Normal Boiling Points with Refined Experimental Data — 图9. 用筛选的实验数据验证预测的常沸点

左侧的奇偶校验图也通过垂直灰线显示了多个实验数据的范围。预测数据的分布表明，95%以上的预测点与筛选的实验数据的偏差在1.5%以内。

筛选的实验数据和预测数据之间还进行了点对点的对比。举例说明，对于100个选定的样本化合物的常沸点，下面给出了最终QSQN模型的预测数据与筛选的实验数据之间的点对点对比表。

表1. 预测数据和实验数据之间的点对点对比表

NO	Chemical Compound Name (Click to View Structure)	Formula	Experimental Data			QSQN Model Predicted
NO	Chemical Compound Name (Click to View Structure)	Formula	Minimum	Refined	Maximum	QSQN Model Predicted
1	(1R,4S)-bicyclo[2.2.1]hept-2-ene	C7H10	365.0	369.1	372.9	368.967
2	(2E)-but-2-en-2-ylbenzene	C10H12	461.5	467.3	472.6	467.269
3	(2E)-hex-2-ene	C6H12	337.6	341.1	344.5	341.241
4	(2R)-1,1,2-trimethylcyclohexane	C9H18	414.2	418.3	422.5	418.476
5	(2R)-2-(ethylsulfanyl)butane	C6H14S	402.8	406.9	410.9	406.570
6	(2R)-2-methylthiolane	C5H10S	401.1	406.0	411.3	405.954
7	(2R)-butan-2-yl pentanoate	C9H18O2	443.2	447.6	452.1	447.476
8	(2S)-2-methylhexanal	C7H14O	410.1	415.1	420.2	414.908
9	(2S,5S)-5-ethyl-2-methylpiperidine	C8H17N	432.2	436.6	441.0	436.273
10	(2Z)-hex-2-ene	C6H12	338.6	342.1	345.5	342.059
11	(3E)-hex-3-ene	C6H12	336.8	340.3	343.8	340.439
12	(3R)-2,3,4,4-tetramethylhexane	C10H22	430.4	435.1	439.8	435.300
13	(3R)-3-methyldodecane	C13H28	498.5	503.5	508.6	503.627
14	(3R)-3-methylpentadecane	C16H34	549.5	555.0	560.6	555.096
15	(3R)-3-methyltetradecane	C15H32	534.2	539.5	544.9	539.572
16	(3R)-heptan-3-ol	C7H16O	424.8	429.6	434.3	429.662
17	(3R,4R)-3,4-dimethylheptane	C9H20	409.2	413.6	418.0	413.470
18	(3R,4S,5S)-3,4,5-trimethylheptane	C10H22	431.3	436.4	441.6	436.253
19	(3S)-3-methylcyclopent-1-ene	C6H10	334.7	338.2	341.8	338.337
20	(3Z)-hex-3-ene	C6H12	336.2	339.6	343.0	339.663
21	(4R)-1-methyl-4-(prop-1-en-2-yl)cyclohex-1-ene	C10H16	443.7	449.8	455.7	449.881
22	(4R)-4-methyltridecane	C14H30	514.5	519.6	524.8	519.834
23	(4R,5R)-4,5-dimethyloctane	C10H22	430.8	435.3	439.7	435.292
24	(4R,6R)-2,4,6-trimethyldecane	C13H28	472.3	477.0	481.8	477.197
25	(4S)-4-ethenylcyclohex-1-ene	C8H12	397.0	401.0	405.1	401.172
26	(4S)-4-methyloctadecane	C19H40	589.7	595.6	601.6	595.727
27	(5R)-5-methyloctadecane	C19H40	589.7	595.6	601.6	595.460
28	(5R)-5-methyltridecane	C14H30	513.0	518.1	523.3	518.032
29	(5S)-5-methylhenicosane	C22H46	625.8	632.1	638.5	632.008
30	(5S)-5-methyltetradecane	C15H32	529.6	534.9	540.3	534.845
31	(ethylsulfanyl)ethane	C4H10S	357.6	365.0	369.4	364.692
32	[(1E)-2,4-dimethylpent-1-en-1-yl]benzene	C13H18	503.9	509.0	514.1	508.748
33	1-(ethylsulfanyl)butane	C6H14S	412.0	417.2	421.6	416.955
34	1-(prop-2-en-1-yl)cyclohex-1-ene	C9H14	423.4	430.9	437.5	430.947
35	1,2-diphenylbenzene	C18H14	599.0	606.7	616.8	606.769
36	1,4-dimethylnaphthalene	C12H12	535.0	540.4	545.9	540.329
37	1-ethyl-1-methylcyclopentane	C8H16	390.7	394.7	398.7	394.401
38	1-ethyl-3-methylbenzene	C9H12	427.4	434.2	438.9	434.265
39	1-methylcyclopent-1-ene	C6H10	341.7	348.5	352.7	348.602
40	1-tert-butyl-4-ethylbenzene	C12H18	474.7	484.2	492.3	484.252
41	2-(methylsulfanyl)propane	C4H10S	352.6	359.1	370.9	358.861
42	2,2,5-trimethylhexane	C9H20	393.2	397.3	401.3	397.280
43	2,2-dimethyldecane	C12H26	469.3	474.0	478.8	473.907
44	2,2-dimethylpentadecane	C17H36	557.4	563.0	568.7	563.157
45	2,5-dimethylhexa-1,5-diene	C8H14	380.4	387.5	393.1	387.423
46	2,6-dimethylheptane	C9H20	404.3	408.4	412.5	408.165
47	2,7-dimethyloctane	C10H22	428.7	433.1	437.5	432.989
48	2-methylcyclopenta-1,3-diene	C6H8	342.4	346.0	349.7	346.242
49	2-methylpent-2-ene	C6H12	334.8	339.9	344.0	339.703
50	2-methylprop-2-enal	C4H6O	337.8	343.2	350.2	343.118
51	2-methylpropane-1,3-diol	C4H10O2	480.0	486.5	492.1	486.625
52	3,3-dimethylpentane	C7H16	355.6	359.3	363.0	358.978
53	3-ethyl-2-methylpentane	C8H18	384.7	389.0	394.7	389.171
54	3-ethyl-3-methylheptane	C10H22	432.6	437.0	441.4	436.730
55	3-ethyl-3-methylhexane	C9H20	409.6	413.8	417.9	413.709
56	3-ethyl-3-methylpentane	C8H18	387.5	391.5	395.5	391.600
57	3-ethyl-5-methylphenol	C9H12O	500.7	507.7	514.1	507.605
58	3-ethylpyridine	C7H9N	434.2	438.5	442.9	438.786
59	3-methylbutanoic acid	C5H10O2	443.0	449.4	454.4	449.432
60	3-methylbutyl acetate	C7H14O2	408.3	415.0	421.0	415.070
61	4-(propan-2-yl)heptane	C10H22	427.8	432.8	437.5	432.598
62	4-(propan-2-yl)phenol	C9H12O	496.0	501.2	506.4	501.061
63	5-ethyl-2-methylpyridine	C8H11N	444.2	451.4	457.0	451.484
64	5-methyl-1,2,3,4-tetrahydronaphthalene	C11H14	502.5	507.5	512.6	507.234
65	5-methylhex-1-yne	C7H12	361.4	365.0	368.7	364.842
66	5-methylhexan-2-one	C7H14O	411.0	417.4	422.3	417.192
67	6-methylhept-1-ene	C8H16	381.9	386.2	390.3	386.379
68	but-3-enenitrile	C4H5N	386.3	391.7	397.1	391.630
69	butyl octadecanoate	C22H44O2	610.0	632.9	665.8	633.035
70	decahydronaphthalene	C10H18	453.5	460.3	473.2	460.080
71	decylbenzene	C16H26	560.4	571.2	578.9	571.000
72	dimethyl sulfide	C2H6S	306.1	310.4	314.3	310.506
73	ethane-1,2-dithiol	C2H6S2	414.0	419.2	424.4	419.257
74	ethyl 2-methylprop-2-enoate	C6H10O2	386.3	390.4	395.1	390.103
75	hept-1-yne	C7H12	368.5	372.9	376.9	372.858
76	heptan-1-ol	C7H16O	441.7	449.2	454.4	449.165
77	hexadec-1-ene	C16H32	541.8	558.2	576.7	558.188
78	hexadecylcyclohexane	C22H44	646.5	653.0	659.6	653.055
79	hexanoic acid	C6H12O2	473.2	478.7	486.5	478.700
80	hydrazine	H4N2	382.3	386.7	390.9	386.409
81	hydrogen sulfide	H2S	208.9	212.7	215.8	212.951
82	methyl 3-methoxypropanoate	C5H10O3	411.5	415.7	419.9	415.656
83	methyl tetradecanoate	C15H30O2	564.5	570.2	575.9	569.894
84	nona-1,8-diyne	C9H12	430.8	435.2	439.5	434.842
85	nonanenitrile	C9H17N	492.2	497.2	502.2	497.252
86	nonanoic acid	C9H18O2	521.3	528.0	534.1	528.196
87	nonylbenzene	C15H24	548.2	554.9	560.8	554.678
88	oct-1-yne	C8H14	394.4	399.6	405.2	399.530
89	octacosane	C28H58	697.8	706.9	726.4	706.841
90	octane-1-thiol	C8H18S	452.1	470.5	477.1	470.586
91	octanenitrile	C8H15N	473.3	478.3	483.2	478.018
92	pent-1-ene	C5H10	299.2	304.4	315.7	304.417
93	phenyl acetate	C8H8O2	460.5	467.8	473.7	467.861
94	propan-2-ol	C3H8O	351.4	355.8	385.4	355.740
95	propane-1-thiol	C3H8S	335.3	340.6	344.5	340.705
96	propyl 2-methylpropanoate	C7H14O2	402.5	407.8	412.8	407.719
97	propyl hexanoate	C9H18O2	455.5	460.4	465.3	460.499
98	propyl pentanoate	C8H16O2	436.2	440.7	445.1	440.592
99	thiirane	C2H4S	322.4	327.9	332.0	327.604
100	tris(2-methylpropyl)amine	C12H27N	464.5	469.2	473.9	469.114

上表中给出的预测数据是通过使用基于3D QSPR方法的最终QSQN模型获得的。每个化合物的实验数据不仅有筛选的点，还有值最小和值最大的点。

还有更多的其它常数性质用实验数据验证的例子。查看其它性质案例

对于和温度相关的性质通过绘制性质随温度变化的函数，用实验数据进行了模型验证。已经创建并验证了每种性质1000到10000个2D绘图的订单。举例说明，对癸烷理想气体（C¹⁰H²²）热容的QSQN模型预测与筛选的实验数据之间的对比如下图所示。

Heat Capacity of Ideal Gas of Decane Determined by QSQN Model and Compared with Experimental Data — 图10. 癸烷理想气体热容的QSQN模型预测与实验数据比较

上面2D图中，红线是由基于3D QSPR的QSQN模型生成的，而蓝色圆圈表示筛选的实验数据，模型线与实验点高度一致。

还有更多与温度相关特性的实验数据验证案例。查看更多示例

现有方法的验证

为了进行比较，我们还验证了现有的其它物性计算方法。Poling等人⁴概述了已开发的大量性质预测方法。近几十年来，集团贡献法⁵和QSPR（定量结构-性质关系）⁶方法尤其受欢迎。其中，我们选择了Joback⁷和Gani⁸等众所周知的方法，它们广泛使用在许多工业应用中，包括Aspen Plus⁹等过程模拟软件。下表总结了所选择和验证的传统方法清单

表2. 验证和比较的现有方法的清单

Property	Exisitng Approaches
Acentric Factor	Gani
Critical Compressibility Factor	Joback, Gani
Critical Pressure	Joback, Gani
Critical Temperature	Joback, Gani
Critical Volume	Joback, Gani
Enthalpy (Heat) of Formation for Ideal Gas at 298.15 K	Joback, Gani
Enthalpy (Heat) of Fusion at Melting Point	Joback
Gibbs Energy of Formation for Ideal Gas at 298.15 K and 1 bar	Joback, Gani
Heat (Enthalpy) of Vaporization at Normal Boiling Point	Joback
Liquid Molar Volume at 298.15 K	Gani
Normal Boiling Point	Joback, Gani
Heat Capacity of Ideal Gas	Joback
Heat Capacity of Liquid	Bondi¹⁰
Heat of Vaporization	Watson¹¹
Liquid Density	Rackett¹², Gunn-Yamada¹³
Second Virial Coefficient	Mccann¹⁴
Surface Tension	Brock-Bird¹⁵, Miller¹⁶
Thermal Conductivity of Gas	Misic-Thodos¹⁷, Mod-Eucken¹⁸
Thermal Conductivity of Liquid	Sato-Riedel¹⁹
Vapor Pressure of Liquid	Riedel²⁰
Viscosity of Gas	Reichenberg²¹
Viscosity of Liquid	Joback, Letsou-Stiel²², Orrick-Erbar²³

以常沸点为例，Joback和Gani方法预测的常沸点与实验数据的奇偶图和偏差百分比如下所示。

Parity Plot and Deviation from Experimental Data (%) of Normal Boiling Pont Predicted by Joback and Gani — 图11. Joback和Gani方法预测的常沸点实验数据的的奇偶图和偏差（%）

随着沸点的增加，Joback方法的预测值偏低，而Gani方法偏高。用Joback方法，只有64.68%的预测点与筛选实验数据的偏差在1.5%以内，而用Gani方法也只有79.19%。

一般来说，尤其是应用于具有大量重原子和/或多个官能团的复杂化合物时，已知的多数知名方法变得不可靠。可能是由于使用了经验性的公式和/或参数，预测精度经常变得非常低。因此对于较重化合物，其预测数据可能仅作为补充信息以对性质数据的数量级有个概念性认知。

现有预测方法的更多例子查看更多示例

大规模多核计算

QSQN技术能生成化合物的关键信息，但它需要大量的复杂计算（包括量子化学计算），这些计算一般化学家或化学工程师难以应对。我们自主建立了一个大规模的多核计算系统，提供了尽可能高效的深数据。所有的计算都是预先选定的化合物。然后将结果存储，无需进一步计算而直接提供给用户使用。

该计算系统设计用于自动处理大量化合物，由3个服务器组组成，即管理服务器、文件服务器和计算服务器。管理服务器生成十万到数百万个化合物结构，并在执行构象分析后产生用于量子化学计算的输入文件。然后，管理服务器将量子化学计算任务分发给计算服务器。一旦任何CPU核完成当前计算任务，管理服务器就会自动分配新的计算任务。

Massive Multicore Computation System Consisting of 3 Server Groups — 图12. 3个服务器组组成的大规模多核计算系统

计算服务器执行量子化学计算和分子描述符估算任务，然后使用基于大量核心的QSQN和QN模型来生成性质数据。每个单元包含4个带有双12核CPU的主板（即96个CPU核）用于同时和/或并行执行大规模计算。已经建立了1000多个CPU核来执行大规模计算任务。量子化学计算、分子描述符估算和QSQN/QN模型计算的所有结果都被发送到文件服务器，以便安全存储和备份。

从3D结构生成到最终的深数据产生，整个过程都是自动运行的。这一过程使用了70多个计算机程序模块和软件，它们大多是我们自主开发的。目前，该计算系统每月可以处理约10万个化合物。截至2022年10月，已经计算了400多万个化合物。如果有必要，该系统可以通过简单地添加更多的计算服务器来处理单位周期内更大量的化合物，从而易于扩展。换句话说，通过简单地添加更多的计算服务器，就可以每月处理数百万种化合物，而不只是每月十万种。

数据质量检查

所有多核计算过程得到的性质数据都经过系统的检查。首先将QSQN模型（基于3D QSPR）和QN模型（基于2D QSPR）产生的数据与筛选的实验数据和实验数据的范围（如果可用）进行比较。如果产生的数据足够接近筛选的实验数据和/或在实验数据范围内，则认定其满足要求。

实验信息经常不可用，因此将QSQN/QN产生的数据与类似化合物的可用实验数据进行比较。类似的化合物是基于诸如Tanimoto的算法和/或化合物之间的分子描述符的平方相关系数来自动选择的。然后共同分析QSQN/QN产生的数据以及类似化合物的所有可用数据，包括实验信息和现有方法产生的数据。下图显示了检查组件的示例

Quality Inspection of Normal Boiling Points of Branched Cyclohexanes — 图13. 支链环己烷常沸点的质量检验

该图显示了支链环己烷的常沸点，实验数据用红圈标记，实验数据的范围用灰色条线标记。在没有4-甲基环己-1-酮（4-methylcyclohexan-1-one）实验信息的情况下，选择了3种类似的化合物，即环己酮（cyclohexanone）、环己醇（cyclohexanol）和（2R）-2-甲基环己-1-酮（(2R)-2-methylcyclohexan-1-one），并将它们的实验信息和各类计算的数据绘制在一起。

图表显示，QSQN/QN产生的数据大多与筛选后的实验数据足够接近，并且在3种类似化合物的实验数据范围内，这表明对于支链环己烷化合物的常沸点，QSQN/QN产生的数据基本可靠。图表还显示，在这个案例中，现有方法（即Joback和Gani）生成的数据可以作为补充信息提供良好的初始近似值。对于4-甲基环己烷-1-酮，QSQN/QN产生的数据可以认为是可靠的，因为3个类似化合物的相关数据基本一致，并且现有的方法给出的数据值很接近。

数据供应系统

构建了一个数据库系统来存储和提供深数据，这些深数据由大规模多核计算生成并经过数据质量检查。该数据库不仅包含由性质数据、谱学数据、量子化学数据和分子描述符数据组成的深数据，还包括用于对比的通过现有方法确定的一些性质数据。此外还有化学标识符，如InChI、InChIKey、IUPAC名称和同义词，以及基本信息，如2D和3D结构、分子量和化学式等。

Deep Data Supply System Through Delivery and Subscription Plan — 图14. 通过交付和订阅计划可获取的深数据供应系统

利用基于2D QSPR模型的QN技术，构建了一个实时计算系统，该系统提供了超过25个常量性质数据。实时计算系统可以提供任意化合物的数据，而数据库系统只能提供已计算好的化合物数据。

深数据通过两个简单的计划提供，即交付和订阅计划。交付计划根据需求直接向用户发送数据文件（查看数据文件样本），而订阅计划允许用户访问数据库系统和/或实时计算系统以在线获取数据。数据库系统可通过Mol-Instincts网站访问，而用于访问实时计算系统的网络界面为ChemRTP。查看Mol-Instincts样本页查看ChemRTP样本页

参考文献

Todeschini R., V. Consonni V., Molecular Descriptors for Chemoinformatics: Second, Revised and Enlarged Edition: Volume I/II, Wiley-VCH, 2009
Thomas A. Halgren, J. Comput. Chem., 17, 490-519 (1996); Thomas A. Halgren, J. Comput. Chem., 20, 720-729 (1999)
R. Seeger and J. A. Pople, J. Chem. Phys. 66, 3045 (1977)
B.E. Poling, J.M. Prausnitz, J.P. O’Connell, The Properties of Gases and Liquids, fifth ed., McGraw Hill, New York, 2000.
Yash Nannoolal, Jürgen Rarey, Deresh Ramjugernath, and Wilfried Cordes, Estimation of pure component properties. Part 1. Estimation of the normal boiling point of non-electrolyte organic compounds via group contributions and group interactions, Fluid Phase Equilibria 226 (2004) 45–63.
Alan R. Katritzky, Victor S. Lobanov, and Mati Karelson, Normal Boiling Points for Organic Compounds: Correlation and Prediction by a Quantitative Structure-Property Relationship, J. Chem. Inf. Comput. Sci. 1998, 38, 28-41
Joback, K.G.; Reid, R.C. Estimation of Pure-Component Properties from Group-Contributions. Chem. Eng. Commun. 1987, 57, 233-243.
Constantinou, L.; Gani, R. A New Group Contribution Method for the Estimation of Properties of Pure Compounds. AIChE J. 1994, 40, 1697–1710.
https://www.aspentech.com/en/products/engineering/aspen-plus
Bondi, A. Estimation of Heat Capacity of Liquids. Ind. Eng. Chem. Fundamen. 1966, 5, 442-449.
Watson, K. M. Thermodynamics of the liquid state, Ind. Eng. Chem. 1943, 35, 398-406.
Rackett, H. G. Equation of state for saturated liquids, J. Chem. Eng. Data, 1970, 15, 514-517.
Gunn, R. D.; Yamada, T. A corresponding states correlation of saturated liquid volumes. AIChE J. 1971, 17, 1341-1345.
McCann, D. W.; Danner R. P. Prediction of Second Virial Coefficients of Organic Compounds by a Group Contribution Method, Ind. Eng. Chem. Process Des. Dev. 1984, 23. 529-533.
Brock, J. R.; Bird, R. B. Surface Tension and the Principle of Corresponding States, AIChE J. 1955, 1, 174-177.
Miller, D. G.; Thodos, G. Correspondence. Reduced Frost-Kalkwarf Vapor Pressure Equation, Ind. Eng. Chem. Fundamen. 1963, 2, 78-80.
Misic, D.; Thodos, G. Atmospheric Thermal Conductivities of Gases of Simple Molecular Structure, J. Chem. Eng. Data, 1963, 8, 540-544.
Poling, B. E.; Prausnitz, J. M.; O’Connell, J. P. The Properties of Gases and Liquids, 5th Ed., New York, McGraw Hill, 2001; pp10.3.
Reid, R.C.; Prausnitz, J. M.; Poling, B. E. The Properties of Gases and Liquids, 4th ed., New York, McGraw-Hill, 1987.
Poling, B. E.; Prausnitz, J. M.; O’Connell, J. P. The Properties of Gases and Liquids, 5th Ed., New York, McGraw Hill, 2001; pp 7.9.
Reichenberg, D. AIChE J. 1973, 19, 854.; Reichenberg, D. AIChE J. 1975, 21, 181.
Letsou, A.; Stiel, L. I. Viscosity of saturated nonpolar liquids at elevated pressures. AIChE J. 1973, 19, 409-411.
Reid, R.C.; Prausnitz, J. M.; Poling, B. E. The Properties of Gases and Liquids, 4th ed., New York, McGraw-Hill, 1987; pp 456.

深数据生成技术

从量子到神经网络

几分钟内生成数百万个3D结构 收起

每个化合物数千个分子描述符 收起

高质量量子化学计算 收起

大范围的实验数据收集与筛选 收起

统计热力学作为机理建模的基础 收起

严格的QSPR建模 收起

定制的防止过度拟合的神经网络 收起

实验数据验证 收起