单原料美白效果
智能预测模型

白云美湾 × 深圳计算科学研究院 · AI 配方 · 第一阶段

阶段性成果汇报

基于 15 种原料 · 两轮迭代验证 · 五项 POC 全部达标

2026.06

深圳计算科学研究院 × 白云美湾01 / 13
PROJECT BACKGROUND02 / 13
项目背景
单一原料美白效果智能预测模型

利用斑马鱼黑色素沉着实验数据,构建 f(原料, 浓度)→ 美白效果的预测模型,为配方研发提供数据驱动的决策支持。

三个核心目标

01

预测已有原料效果

对已有原料在不同浓度下的美白效果进行预测

02

评估新增原料潜力

快速评估新增原料的效果潜力与最优浓度范围

03

原料效力排序

为不同原料之间的效力排序提供客观依据

15

种原料完整验证

8 → 15 种数据扩充

5/5

POC 五项标准

全部达标 · 两轮迭代验证

项目背景02 / 13
AGENDA03 / 13
概述
报告结构
01–04
项目背景
背景与方法
项目概述 · Effect 值含义
技术路线 · 分组标准
05–07
分组结果
分类与验证
15 种原料自动分类
A/B/C 组详解 · 凝血酸案例
08–11
核心成果
模型验证
预测精度 · 泛化能力
稳健性 · POC 五项达标
12–13
讨论与展望
总结建议
实验数据质量
模型使用范围 · 下一步
概述03 / 13
PROJECT OVERVIEW04 / 13
项目概述
Effect 值 · 核心指标

美白效果的可量化指标,模型预测的核心依据

WHAT IS EFFECT
Effect 值是什么

量化原料的美白效果,基于斑马鱼黑色素沉着实验数据计算。值越高代表美白效果越强,模型通过学习原料的 Effect 值与浓度的关系进行预测。

Effect 值含义
≥ 0.5黑色素信号降低约 50%,美白效果显著
≈ 0无变化,原料在测试浓度下无美白效果
< 0黑色素信号增加,原料可能有反效果
↑ Effect 值越高,美白效果越好
HOW TO USE
Effect 值怎么用
预测已有原料效果
给定原料和浓度,预测其在斑马鱼模型中的美白效果
评估新增原料潜力
快速判断新原料的效果等级(高效/中效/低效)和最优浓度范围
原料效力排序
在同浓度下比较不同原料的美白效果,为配方设计提供依据
模型核心公式
模型学习 f(原料, 浓度) → Effect 的映射关系。
通过分组策略(B 组共享线性模型 y = 0.139x + 0.527),
实现 2 参数超越千参数神经网络的预测精度(R² = 0.823)。
项目概述04 / 13
APPROACH05 / 13
方法
技术路线:先分组 · 再预测
2 参数线性模型超越千参数神经网络——正确的分组比复杂的模型更重要。
原料名称 + 使用浓度 效力等级判断 组内预测模型 预测 Effect

分组标准

组别最大美白效果趋势一致性含义
A 组 · 高效≥ 50%≥ 0.8效果强 · 浓度-效果关系清晰
B 组 · 中效15% – 50%≥ 0.6效果中等 · 趋势可预测
C 组 · 低效/无效< 15%测试范围内无显著效果

B 组模型仅使用「浓度」一个变量,不依赖原料身份——新原料归入 B 组后无需重新训练即可预测。

B 组 4 种原料浓度-效果曲线 + 组内共享模型拟合线

B组4种原料曲线叠加
方法05 / 13
JOURNEY06 / 13
迭代
从全局模型到分组策略
「一刀切」不行,那就「分而治之」。

v2-1 · 全局模型

用一个模型拟合所有原料

6 种模型(线性回归、多项式、随机森林、XGBoost、MLP 神经网络等)统一建模

预测精度 R² ≈ 0.70,排序准确性 > 0.74

发现的瓶颈:原料异质性——不同原料的浓度-效果曲线差异巨大,一个模型无法同时拟合所有。

v2-2 · 分组策略 ✓

按效果强度分组,组内共享简单模型

B 组最优模型:仅 2 个参数的线性回归(y = 0.139x + 0.527)

指标v2-1 全局v2-2 分组提升
预测精度 (R²)0.6980.823+17.9%
排序准确性0.7620.945+24.0%
平均偏差 (MAE)0.0700.046−34.3%
迭代06 / 13
CLASSIFICATION07 / 13
分类
15 种原料自动分组
15 种原料中只有 5 种具有可预测的美白效果——不分好类就无法建模。
15种原料散点分布
组别数量代表原料
A 组 高效1珈芙宝 Redumatte(68.8%·趋势 1.000)
B 组 中效4α-熊果苷、大米发酵滤液、SkinActive MG、植源灵韵水
C 组 低效/无效9平均仅 3.5%,PURAC HS90 反促色素沉着
待判定1凝血酸(效果 55.4% 但趋势仅 0.452)

A 组 · 高效

1

珈芙宝 Redumatte Multi-Herbs

最大效果 68.8% · 趋势一致性 1.000(完美)

样本不足,建议补充同类高效原料

B 组 · 中效

4

趋势一致性均 ≥ 0.8,共享相同的浓度-效果模式

预测最可靠的群体 · 泛化测试平均排序 0.905

C 组 · 低效/无效

9+1

平均美白效果仅 3.5%,接近于零

+ 凝血酸(待判定)需进一步分析

分类07 / 13
RESULT 0108 / 13
预测精度
模型选型 · 实测对比

经过 4 种算法测试,线性模型以最少参数达到最高精度

线性模型
★ 最优
0.823
R² 预测精度
2 参数 · y = 0.139x + 0.527
多项式模型
测试
0.760
R² 预测精度
4 参数 · 二阶多项式
神经网络
测试
0.604
R² 预测精度
200+ 参数 · MLP
随机森林
测试
0.478
R² 预测精度
50+ 参数 · 50 棵树
选定线性模型的核心理由
R² = 0.823
在 B 组 4 种原料上,线性模型以 2 个参数超越所有复杂模型,预测精度最高。
R² 最高
0.823 vs 神经网络 0.604 (+36.3%)
参数最少
2 参数 vs 神经网络 200+ 参数
泛化能力最强
Spearman 排序准确性 0.945
结论:简单模型 + 正确分组 = 最佳预测效果
「分组策略碾压模型复杂度」
预测精度08 / 13
RESULT 0209 / 13
泛化能力
新原料也能预测
留一法(LOMO)验证:平均排序准确性 0.905,远超 0.75 达标线。

从 B 组藏起一种原料,用剩余三种训练,再预测被藏起的原料——模拟「遇到全新中效原料」的场景。

被藏起的原料排序准确性预测精度
SkinActive MG0.9760.737
植源灵韵·三叶赋活水0.9290.484
α-熊果苷0.9050.491
大米发酵产物滤液0.8100.443
平均0.9050.539
LOMO泛化测试曲线

模型学到了通用的「浓度越高,效果越好」规律,在同一组内能可靠预测从未见过的同类原料。

泛化能力09 / 13
RESULT 0310 / 13
稳健性
数据越多越稳
无论后续新增多少原料,美白模型的预测质量不会受到干扰。
0.000

B 组指标变化

8 → 15 种

0

A/B 组新成员

新增 7 种全部归 C 组

2→3

分组 vs 全局

胜出项数量提升

15

总测试原料

1+4+9+1

「新增的原料不会影响已有组别——分组模型具备组外免疫特性。无论后续新增多少原料,只要正确分组,现有模型的预测质量就不会受到干扰。」

稳健性10 / 13
RESULT 0411 / 13
验证
跨组排序与 POC 标准
五项 POC 标准全部达标,跨组排序正确率 80%。
POC
Proof of Concept:项目启动前设定的五项验证标准,用于判断模型是否达到预期效果、可以进入下一阶段。

跨组排序验证(5 个浓度点)

浓度点实际排序期望排序结果
0.0003125%A > B > CA > B > C
0.000625%A > B > CA > B > C
0.00125%A > C > BA > B > C
0.0025%A > B > CA > B > C
0.005%A > B > CA > B > C

正确率 4/5 = 80%,达标阈值 > 70%

POC 五项标准

#标准阈值实际
1泛化测试平均排序准确性> 0.750.905
2B 组预测精度> 0.700.823
3B 组排序准确性> 0.800.945
4分组 vs 全局胜出项数≥ 2/33/3
5跨组排序正确率> 70%80%

5/5 全部达标 ✓

分组vs全局排序准确性
验证11 / 13
DISCUSSION12 / 13
讨论
实验数据质量与模型边界
模型靠数据喂养——数据质量直接决定模型可靠性。

批次差异警示案例:麦角硫因

麦角硫因批次差异

同一种原料,两次实验结论完全反转:低效/无效 → 高效

一致性等级原料数占比
高度一致225%
中等一致112.5%
差异显著562.5%

根本原因

对照组基线差异:两次实验 CK 信号强度相差约 49%,Effect 计算依赖 CK 归一化

实验条件差异:浓度梯度点数(8 vs 4)、鱼数(15 vs 10)影响结果稳定性

模型使用范围

场景是否适用
已有浓度范围内查询预测效果✓ 适用
同浓度下不同原料排序比较✓ 可靠
预测全新原料(无实验数据)✗ 需先实验定级

建议后续实验统一标准:8 个浓度点、15 条鱼/点、每批设独立对照组

讨论12 / 13
NEXT STEPS13 / 13
展望
下一步计划与建议

补充高效原料数据

建议补充 377、光甘草定等已知高效成分

目标分布:高效 50% · 中效 40% · 低效 10%

当前 A 组仅 1 种原料,样本严重不足

统一实验标准

8 个浓度点 · 15 条鱼/点 · 每批独立对照组

消除批次差异对建模的干扰

借助行业专家经验筛选不同效力等级的原料

跟进凝血酸与扩展品类

凝血酸:最大效果 55.4% 已达 A 组标准,但趋势一致性仅 0.452,需进一步实验确认其「突然起效」模式

方法框架可复用到保湿、抗皱、舒缓等品类

展望13 / 13