您所在的位置: 需求库 技术需求 创新成果产业化数据清洗

创新成果产业化数据清洗

发布时间: 2022-10-09
来源: 科技服务团
截止日期:2022-11-30

价格 双方协商

地区: 北京市 市辖区 朝阳区

需求方: 北京***公司

行业领域

新一代信息技术产业

需求背景

       创新成果产业化项目的建设与实施,是建立在数据基础之上的,作为项目主要研究内容的数据库、研究报告等均需要大量数据作为支撑。因此,结合本项目研究内容与考核指标,需要从多种渠道、运用专业技术与工具,采集大批量数据,并对这些采集到的多源异构型的非标准化数据进行进一步加工处理,形成具有研究价值的标准化数据。

需解决的主要技术难题

        支撑本次项目建设数据资源的管理与维护,包括数据补全、数据更新、数据导入、数据审核、数据发布等。将分散的数据汇聚、整合和归集,形成一体化的数据体系,是实现共享、流动、开放和利用的基础,是实现数据价值和作用最大化的基本要求。强化数据的汇聚整合,包括数据汇合度的“量”和“质”两个基本方面。“量”指汇聚整合数据和信息的广度和覆盖面,要求将数据和信息“一网打尽”,保证数据的足够涵盖性,尽可能将相关的数据汇聚整合在一起。“质”指所汇聚整合的数据和信息的有效性,目标指向于高质量和高水准的数据,它不仅要求数据真实、准确、完整和及时,而且要求对数据的分类、分级是科学、精细和精准的。

期望实现的主要技术目标

1、国内标准资源数据加工,需要对收集到的数据进行二次加工。

2、按要求对知识产权、科技人力资源等数据进行加工,准确度达到***%,包括数据补全、数据更新、数据导入、数据审核、数据发布等。

需求解析

解析单位:“科创中国”5G+行业创新应用专业科技服务团(中国通信工业协会) 解析时间:2022-10-24

岳颖

“科创中国”5G+行业创新应用专业科技服务团

副团长

综合评价

为了利用这些巨大的数据,无论大小,企业都在使用机器学习和深度学习等技术,以便他们可以建立有用的客户群,增加销售量并提高品牌忠诚度。   但是在大多数情况下,由于具有许多收集源和各种格式(结构化和非结构化),数据可能是不准确,不一致和冗余的。   通过向机器学习算法提供具有此类异常的数据,我们是否可以及时,全面地访问相关信息? 简而言之,如果尚未清理和预处理数据,则机器学习模型将无法正常工作。   尽管我们经常认为数据科学家将大部分时间都花在修补ML算法和模型上,但实际情况有所不同。大多数数据科学家花费大约80%的时间来清理数据。 通常认为数据清理是无聊的部分。但这是一个有价值的过程,可以帮助企业节省时间并提高效率。   这有点像准备长假。我们可能不喜欢准备部分,但我们可以提前收紧细节,以免遭受这一噩梦的困扰。
查看更多>
更多

处理进度

  1. 提交需求
    2022-10-09 15:34:48
  2. 确认需求
    2022-10-11 14:21:54
  3. 需求服务
    2022-10-11 14:21:54
  4. 需求签约
    2022-10-14 16:51:14
  5. 需求完成
    2022-10-14 16:51:14