1、对于A包的补充说明
A包中文资源数据招标,主要用于预训练模型特别是GPT3类模型的训练语料。各类高质量的中文语料都是欢迎的。但因为课题组已经收集了一些网络语料,新语料查重工作量巨大,优先选择不用全面查重的指明了出处和来源的非网络语料。任何机器生成的语料都将对训练产生破坏性后果,故禁止用任何机器生成的语料投标,一经发现,将拒绝该投标人的所有其他语料。课题组已经下载了CommonCrawl的所有语料,所有从该网站下载的语料,一律排除。
本次招标预计采购含有标注信息数据300GB,无标注信息数据9700GB。
A包开标一览表:
项目名称 | 类别 | 投标单价金额 (人民币元/GB) | 服务期 | 备注 |
海量文本数据A包 | 含有标注信息 | 大写: 小写: | 自合同签订日起20个自然日内完成交易 | |
无标注信息 | 大写: 小写: |
说明:1、报价保留到整数位。
2、具体拥有多少数据资源需要在详细报价表中注明。
2、对B包的补充说明
因为课题时间紧任务重,在不引起其他纠纷的前提下,欢迎投标人把一些已经加工好的图书参与到投标中。根据课题的任务要求,B包招标的内容是为了构建领域知识图谱和进行特定的自然语言处理研究,并非任何图书都是合适的,需要课题组筛选甄别。甄别的基本原则是:
需要现代图书且图书比较正规和权威,文字正确率高。集中于IT类、医药类、党史理论和相关哲学类。如果对于某一专门技术类别,资源非常丰富集中的,也欢迎投标。
本项目优先采购已有图书,如果已有图书已经满足项目需求,就不需要再新加工;如果已有图书数量不够,再补充加工相应数量的图书。
B包开标一览表:
项目名称 | 类别 | 投标单价金额(人民币元/本) | 服务期 | 备注 |
书籍数字化加工服务B包 | 已有图书 | 大写: 小写: | 自签合同后一个月内全部提交完毕数据(每周分批交付,最后一批不得晚于一个月内)。 | |
新加工文化图书 | 大写: 小写: | |||
新加工科技图书 | 大写: 小写: |
说明:1、报价保留到整数位。
2、具体拥有多少数据资源需要在详细报价表中注明。
3、对C包的补充说明
投标人可以对某个子库投标,可以只投一个,也可以投多个子库,但每个子库不再拆分。详细报价表应以子库为单元报价。
C包开标一览表:
项目名称 | 类别 | 投标总金额(人民币万元) | 服务期 | 备注 |
语料和数据素材服务C包 | 语音 | 大写: 小写: | 自合同签订日起20个自然日内完成交易 | |
平行语料 | 大写: 小写: | |||
知识库 | 大写: 小写: | |||
图像素材 | 大写: 小写: | |||
文本 | 大写: 小写: | |||
视频 | 大写: 小写: |
说明:1、报价保留到小数点后四位。
2、具体拥有多少数据资源需要在详细报价表中注明。
4、对三包通用的补充说明:
1)每包均接受多个中标单位
本次招标项目,由于A包数据需求量大、B包时间紧任务重、C包数据种类繁多,采用最低评标价法评标时,在满足“资格性检查和符合性检查,报价预算控制检查、招标文件实质性要求检查”的前提下,依次按照价格从低到高的顺序将投标供应商确定为第一、二、三......候选中标供应商。采购方将优先采购排位在前面的中标供应商,直到采购全部所需求的数据为止。每包前三名的供应商平均分担该包的中标服务费。
2)关于“递交投标书”的说明
考虑到疫情,本次招标接受邮递方式,投标人不派代表参加现场开标仪式的,其投标依然有效。
3)关于知识产权
本次招标采购的所有素材仅用于科研目的。
4)本次招标因为五一放假因素和投标人的请求,决定延迟开标,开标时间确定为“2021年5月12日9:30”。