软通数据可信AI数据底座 POC

Trusted AI Data Foundation

让 AI 用上可信好数据

围绕政府、园区、企业和高校的数据资产，将分散、低质、难流通的数据资源，生产为可证明、可评估、可流通、可运营的高质量AI数据集。

92可信指数

来源可证 96

过程可溯 91

质量可评 89

价值可计 87

已盘点数据源128业务系统 / 文档 / 视频 / IoT / 开放数据

高质量数据集36含训练集、评测集、RAG知识集、仿真样本

可信流通调用18,420本月API/沙箱/空间合约调用

模型增益样本4,860从失败任务与低置信问答自动回流

用户视角业务闭环

待处理任务

制造质检视频数据需补充授权凭证 12 项

政务问答知识集 V2RAG命中率低于目标 4.6%

具身操作失败样本待生成边界样本 320 条

近期数据资产价值

模型训练增益 84%

复用调用活跃度 76%

数据资产转化率 68%

数据资源盘点

帮助用户发现“有哪些数据、能不能用、适合什么AI任务”。

业务系统ERP、CRM、政务业务库42

非结构化文档制度、报告、合同、手册31

多模态数据图片、视频、语音、传感器39

外部数据开放数据、行业数据、生态伙伴16

数据源	类型	权属	AI适配任务	可信状态
企业知识库文档	文档	集团办公室	RAG问答 / 智能体	可用
质检缺陷图片	图像	制造事业部	CV检测 / 缺陷识别	需脱敏
机器人操作日志	时序/视频	具身实验室	操作智能 / 模仿学习	可用
政务热线记录	语音/文本	政务中心	智能客服 / 舆情分类	授权待补

可信评估中心

对每个数据资产形成“可信评分、风险提示、整改建议、证书卡片”。

来源可证

96

授权协议、采集方式、权属边界完整。

过程可溯

91

加工流水线、版本、标注日志可回放。

质量可评

89

准确性、完整性、多样性、任务适配度达标。

使用可控

93

权限、用途、时长、次数、沙箱策略可配置。

价值可计

87

调用、贡献、模型增益、收益分配可量化。

风险雷达

政务热线记录：个人信息字段需二次脱敏

质检图片：缺陷类别长尾不足

企业文档：部分制度版本过期

Dataset Card 可信说明书

数据集名称: 政务问答知识集 V2
适用任务: RAG问答、政务智能体、政策检索
限制范围: 不得用于个人画像、自动行政处罚决策
模型验证: 回答准确率 +18.7%，幻觉率 -31.2%

高质量数据集工厂

把广泛数据源加工成训练集、评测集、知识集、合成样本和模型反馈样本。

接入

清洗

标注

增强

质检

验证

发布

生产任务

RAG政策问答数据集76% · 专家复核中

具身操作边界样本集52% · 合成增强中

工业缺陷小样本集88% · 模型验证中

任务适配配置

目标AI任务质量目标专家复核比例

可信数据空间

让数据在多主体之间安全合规流通，实现授权可控、可用不可见、调用可计量。

数据提供方
政府/企业/高校

授权策略
隐私计算
审计留痕

数据使用方
模型厂商/应用方

空间合约列表

合约	数据集	用途控制	计量方式	状态
合同 #A1029	政务问答知识集	仅用于政务咨询智能体	按API调用	运行中
合同 #B3318	工业缺陷图片集	沙箱内训练，不可下载	按训练任务	运行中
合同 #C2041	具身操作日志	匿名化后用于模型评测	按样本贡献	待审批

运营驾驶舱

从一次性交付转向持续运营：质量更新、模型反馈、价值计量、生态协同。

数据更新频率7.2天平均一个版本周期

模型反馈闭环率83%失败样本已回流处理

数据复用率69%跨项目复用调用

资产价值指数4.6x相对原始数据增值

模型反馈池

低置信回答：142 条

检索无命中：83 条

操作失败轨迹：29 条

价值计量

调用收入达成 92%

数据贡献分配 81%

模型效果贡献 74%

服务工单中心

体现“专业技术服务 + 卓越运营服务”：问题可派发、可跟踪、可验收。

待评估

数据授权补证

敏感字段扫描

处理中

政策知识库去重

标注一致性复核

待验收

工业缺陷数据集V1

月度运营报告

已完成

机器人日志脱敏

可信空间合约上线