现在支持直接上传头像。前往「修改资料」,上传图片后即会显示为您的头像。
个性签名可以使用 Markdown 与 HTML,请不要在其中添加恶意代码。
在添加题目页面填写题面,题目内容使用 Markdown 与 TeX 公式。
本站评测系统支持8种评测方式,针对不同的AI任务类型提供专业的评测指标。请根据题目类型准备并上传测试数据 ZIP 压缩包:
| 评测方式 | 适用任务 | 评测指标 | 输出格式 |
|---|---|---|---|
| Segmentation 图像分割 |
语义分割、实例分割 | mIoU (平均交并比) | [B, W, H] 整数类别掩码 |
| Classification 分类 |
图像分类、文本分类 | Exact Match (精确匹配) | One-hot 编码或类别索引 |
| Object Detection 目标检测 |
目标检测、人脸检测 | mAP (平均精度均值) | [C, M, 5] 包含置信度的边界框 |
| Language Model 语言模型 |
函数调用、结构化输出 | JSON内容比较 | JSON字符串 |
| Traditional NLP 传统NLP |
语义分析、情感分析 | Cross-Entropy (交叉熵) | 概率分布 |
| Speech 语音处理 |
语音增强、降噪 | SISDR (信号失真比) | 音频信号数组 |
| Temporal Data 时序数据 |
时间序列预测、趋势分析 | RMSE (均方根误差) | 时间序列数组 |
| Robot Simulation 机器人仿真 |
机器人控制、路径规划 | 待实现 | 待定 |
test/
input/
0001.npy
0002.npy
...
output/
0001.npy
0002.npy
...
test/input 与 test/output 两个文件夹。input/0001.npy 对应 output/0001.npy)。input 目录无任何样本,将判定为数据错误。[batch, width, height] 或 [width, height][n_samples, n_classes] 或类别索引 [n_samples][[1, 0, 0], [0, 1, 0], [0, 0, 1]][0, 1, 2][num_classes, max_detections, 5][x1, y1, x2, y2, confidence](边界框坐标 + 置信度)[num_classes, max_gt_boxes, 4](只有坐标,无置信度){"function": "get_weather", "args": {"city": "Beijing", "unit": "celsius"}}
[n_samples, n_classes][signal_length] 或 [batch, signal_length][time_steps]、[batch, time_steps] 或 [batch, time_steps, features]提交的代码将在 Docker 容器中运行,通过文件系统读取输入数据并写入输出结果。
start.sh 脚本作为程序入口。评测系统会将你的代码解压到容器中,并自动创建以下目录结构:
./data/
input/ # 测试输入数据(.npy 文件)
output/ # 你需要在此写入预测结果(.npy 文件)
./data/input/ 目录,包含所有测试样本(.npy 格式)./data/output/ 目录input/0001.npy → output/0001.npy)start.sh 脚本./data/input/ 目录中的所有 .npy 文件./data/output/,文件名与输入一致#!/usr/bin/env python3
import os
import numpy as np
import onnxruntime as ort
# 数据目录
INPUT_DIR = './data/input'
OUTPUT_DIR = './data/output'
# 创建输出目录
os.makedirs(OUTPUT_DIR, exist_ok=True)
# 加载模型(以 ONNX 为例)
model = ort.InferenceSession("model.onnx")
# 获取所有输入文件
input_files = [f for f in os.listdir(INPUT_DIR) if f.endswith('.npy')]
# 批量推理
for filename in input_files:
# 读取输入数据
input_path = os.path.join(INPUT_DIR, filename)
input_data = np.load(input_path)
# 执行推理(根据你的模型调整)
output = model.run(None, {"input": input_data})[0]
# 处理输出(示例:分类任务,转为 one-hot)
result = np.zeros([10,], dtype=np.float32)
result[np.argmax(output)] = 1.0
# 保存结果(文件名与输入相同)
output_path = os.path.join(OUTPUT_DIR, filename)
np.save(output_path, result)
#!/bin/bash
python3 main.py
./data/input/ 中的所有 .npy 文件start.sh 有执行权限(ZIP 压缩时保留权限,或在脚本开头添加 #!/bin/bash)所有评测方式返回的分数都归一化到 [0, 1] 区间,然后转换为百分制(0-100%):
score = 1 / (1 + cross_entropy),交叉熵越低分数越高score = exp(-relative_rmse),RMSE 越低分数越高每道题目设置三个准确率阈值,根据提交的得分判定成就等级:
| 成就等级 | 默认阈值 | 描述 | 奖励池 |
|---|---|---|---|
| 卓越级 (Excellent) | ≥ 95% | 生产可用,极少错误 | A 池 |
| 预期级 (Expected) | ≥ 80% | 满足实际需求 | B 池 |
| 及格级 (Pass) | ≥ 60% | 基本功能可用 | C 池 |
| 未入级 (Fail) | < 60% | 功能不完整 | 无奖励 |
注意:具体阈值由题目设置者在题目管理页面配置,上述为默认值。
input 与 output 文件数量一致且文件名完全相同,且至少包含 1 个样本。.npy 时提前处理好。json.dumps() 生成标准格式。