English

科杰科技发布KeenData Lakehouse2.0里程碑版本,构建Data&AI一体化数据基础设施

2025-08-14

科杰科技KeenData Lakehouse2.0是面向AI-Native的Data&AI一体化平台,全平台融合“AI-Native”设计理念,首创Al-in-Lakehouse智能驱动型架构,打通数据工程→模型训练/推理→Agent工厂→智能应用全链路,以“可信 + 智能 + 系统”的平台能力推进“Data&AI ”新基建,支撑大型组织从数据驱动迈向智能驱动。

KeenData Lakehouse2.0

KeenData Lakehouse2.0采用AI-Native智能驱动架构,实现Data&AI工程一体化能力。平台面向大型组织进行数据与AI体系化落地,提供数据集成、离线实时开发、多模态计算、数据治理、数据集管理、AI模型构建、训推一体至 Agent开发全链路闭环的基础设施产品。平台突破传统数据与 AI 割裂的架构,首创 AI-in-Lakehouse 技术将湖仓一体引擎、OLAP数据治理和 AI 技术统一,形成精简高效的All-in-One技术解决方案。自研多模态计算引擎在单流水线中完成数据清洗至结果分析,数倍提升GPU推理吞吐,结合 KMI 推理加速、模型量化及Unity Catalog实现跨模态智能治理。

(图:KeenData Lakehouse2.0产品矩阵)

面向AI-Native的
Data&AI一体化平台特点

Data&AI一体化

平台通过数据与AI的深度融合,将数据全生命周期处理与AI开发流程无缝衔接,形成数据加工-AI开发-应用落地的闭环能力。
其核心特点体现在三方面:

  • 多模态数据处理:支持文本/图像/音视频融合治理;
  • Agent智能化架构:实现感知-认知-行动-进化闭环;
  • Data&AI一体化:Data&AI原生融合提供All-in-One架构能力,消除Data与AI架构割裂问题。

(图:Data&AI一体化)

AI-Native

区别于传统平台外挂式AI的松散耦合模式,科杰科技Data&AI一体化平台以AI-Native为核心设计理念,将智能化能力深度植入系统基因,构建了具备自主进化能力的智能数据基础底座——其技术架构与核心能力均围绕AI高效处理数据、数据智能支撑AI的双向驱动展开,涵盖了MaaS自推理、Agent自迭代、数据全生命周期智能化三大核心能力。

针对传统存算一体架构导致的资源利用率低、扩展成本高等痛点,平台采用存算分离架构,数据统一存储于高性能统一存储,计算资源可按需弹性扩缩容,不仅降低30%以上存储成本,更让AI训练、推理等计算任务灵活调用资源,彻底解决大任务挤占小任务的资源争抢问题,为智能化闭环能力的落地奠定坚实根基。

(图:AI-Native全链路能力闭环)

面向AI-Native的
Data&AI一体化平台关键能力

AI一体化落地能力

平台覆盖了AI模型的全生命周期,从模型的构建、部署到评估、治理、发布和应用,提供全方位的服务和支持。通过统一算力调度引擎动态优化资源分配,为企业级大模型的开发、部署与智能运维提供强力保障,确保生产环境的稳定与弹性。平台创新性集成数百种预训练模型,支持零代码模型微调与迁移学习,结合先进算法矩阵,助力企业快速构建并落地适配自身业务场景的专属模型。同时,平台提供可视化Agent应用构建能力,开发者可通过低代码方式编排多节点工作流,高效开发生产级的生成式AI应用,推动AI普惠化。在数据根基层面,平台基于湖仓架构实现对非结构化数据的全生命周期管理,融合人工标注与AI智能标注双模式,构建高质量训练数据集,为模型训练筑牢坚实基础并沉淀核心资产。

Keen AI作为关键支撑,深度定制训推框架,内置多种模型训练及优化策略,支持模型轻量化,多模式并行计算,以及稀疏激活、Operator Fusion优化、Paged Attention等推理加速算法等技术,实现训练与推理的高效协同,突破传统割裂式开发的性能瓶颈。

Agent智能体开箱即用

Rakesh Gohel在其著名的冰山模型中提出,AI智能体在企业实际落地中有一个残酷的现实,构建一个真正可用的企业级智能体,90%是软件工程10%是AI。

科杰科技Data&AI一体化平台提供90%工程能力与10%AI能力原生融合的一站式Agent开发工厂,使开发者能够轻松构建智能助手、文本写作、自动化工作流等多样化AI应用。平台内置丰富AI Agent可直接复用,提供可视化编排工具与在线调试预览功能,支持多种主流大模型无缝接入,开发者可快速构建定制化Agent及RAG(检索增强生成)应用,显著降低开发门槛。平台通过动态任务拆解算法精准拆分复杂需求,结合多模态意图理解技术深度解析用户诉求,依托跨平台执行引擎联动数据、工具与服务,实现从需求理解到任务执行的完整闭环。同时,平台提供在线调试预览、应用发布更新、API访问等全生命周期管理功能,并支持多种模型灵活接入与控制,满足不同场景的模型需求,赋能开发者高效实现智能应用的构建与落地,有效的帮助企业将冰山底部的90%激活并建设完整。

多模态计算引擎

科杰科技Data&AI一体化平台为多模态AI工作负载设计多模态计算引擎,支持在同一个数据处理流水线中进行数据清洗、特征提取、模型推理和结果分析,深度兼容主流数据与AI框架支持任务内混合调度运行。多模态计算引擎重构了数据预处理范式,构建了一个原生理解和处理各种复杂多模态数据的引擎系统,面向AI/ML工作流设计,提供更好的AI/ML的Data Frame原语;具有低延迟高吞吐的特性,支持零拷贝数据共享,通过不可变数据设计简化容错机制,降低 70% 的网络开销,特别适合计算密集型任务;在此之上提供增强动态执行引擎,实现对任务和行动器的统一高度抽象,一套接口既能表达基于任务的并行计算(task-parallel),又能表达基于行动器的并行计算(actor-based)。

(图:多模态计算引擎)

AI for 数据治理

平台践行"开发治理一体化"理念,构建AI驱动的智能化治理体系。通过智能元数据扫描,实现敏感数据动态加密脱敏,自研统一元数据技术覆盖全矩阵产品,提供企业级数据治理支持,涵盖智能治理、权限管理、集中审计、自动追踪数据血缘及跨平台、租户、区域的数据共享,确保数据资产的安全性和合规性。基于业务主题分类构建标准数据模型,实时监测数据异常并生成质量评估报告,实现数据治理从被动管控到主动预防的智能化升级。

全栈功能智能化

平台设计简单易用,通过内置高精度NL2SQL模型等智能化能力,显著提升企业数据开发和应用效率。其基于NLP技术构建的语义开发引擎,支持业务人员直接使用自然语言进行数据查询与开发,为数仓工程师提供SQL解释与优化功能,大幅提升开发效率。平台强大的多模态数据检索能力,结合OCR、特征抽取技术与自然语言深度理解,支持文/图等跨模态内容的快速交叉检索与精准定位。智能问数系统通过深度理解业务语义,自动关联全域数据资产,用户可用自然语言便捷查询平台内各类结构化与非结构化资产。同时,平台支持构建高效的企业内部知识库,具备多格式文档智能切分、嵌入处理能力,将文档转化为可检索的知识单元,并通过集成先进模型(如DeepSeek)提供深度智能问答功能,极大地提升了企业在数据开发、检索、管理和应用等方面的效率以及用户的交互体验。

自主可控的技术支撑能力

平台依托170余项大数据与AI核心专利技术,构建坚实的安全可控技术底座。自研AI-in-Lakehouse智能驱动架构、多模融合引擎、Data Fabric、Active Metadata Mangamen、Data Mesh与Data Virtualization,实现治理研发一体化及集中式管制下的分布式数据处理;自研统一目录(Unify Catalog)为AI大模型提供跨模态语义对齐能力,确保数据理解的一致性与安全性;创新KMI推理加速技术实现2倍性能提升,优化异构芯片资源调度效率;先进的模型量化技术利用低精度张量核心(INT8/INT4 Tensor Core)实现几乎无损压缩,降低70%储存开销;开放架构支持多种计算引擎,提供统一的数据与模型监控。通过深度信创适配(华为昇腾、海光、麒麟、统信系统),平台实现了从底层硬件到上层应用的全面国产化兼容,为政府、央企及高安全要求行业提供自主可控、安全高效的核心技术保障。

平台多元应用场景

科杰科技Data&AI一体化平台凭借全链路AI-Native架构与低代码工具链的双重优势,兼具技术普适性与场景适配的灵活性。能够快速响应企业在数据检索、智能辅助开发、智能服务、知识管理等通用型场景中的共性需求,同时支持根据垂直领域特性进行深度定制,真正实现一套平台,覆盖多类场景。

  • 多模态数据检索:通过智能数据标注+自然语言理解,支持对多模态数据的快速精准检索,包括文搜文、文搜图、图搜图、图搜文等。

    (图:增强向量检索)

  • 数据资产智能问答:通过自然语言快速检索各类Data&AI平台结构化/非结构化数据资产信息,使用者无需深入理解不同数据资产存储结构,开发查询语句,系统即可自动分析查询问题语义,将分析语义转换成查询语句,最终查询结果后返回结构化结果。

    (图:数据资产智能问答)

  • 智能辅助开发:支持以自然语言方式,为开发工程师提供面向不同开发语言的编程辅助能力,包括代码生成、SQL生成等,并针对已有代码进行逻辑解释及性能优化建议,辅助快速理解并优化执行效率。

    (图:智能开发)

    (图:SQL解释与优化)

  • Agent开发工厂:AI Agent开发平台可快速构建智能客服、流程助手等面向场景的Agent应用,通过可视化编排工具组合对话节点、任务执行节点,企业无需编码即可上线智能问答系统,处理客户咨询、工单流转等高频需求;结合大模型训练平台的零代码微调能力,还能基于企业自有对话数据优化模型,提升回答的准确性与专业性,降低人工客服成本。

    (图:可视化流程编排)

  • 智能写作:可轻松构建多种应用,例如标书自动撰写、合同自动审核、PPT生成等AI应用,帮助企业提升关键文档处理能力。

    (图:应用广场)

  • 知识库构建:企业内部知识库支持多格式文档(PDF、Excel、TXT等)的智能切分与嵌入,将碎片化知识转化为可检索的结构化单元,利用高性能向量数据库构建企业内部的私有知识库;支持员工通过自然语言提问即可快速获取所需知识,如专业技术方案、合同管理、公司章程、历史项目经验等。同时支持基于多种数据库,实现对知识库的快速召回及标准搜问,以及基于DeepSeek,对用户问题及召回知识进行深入分析,提供专业准确的回答。

    (图:企业知识库)

典型案例应用

某市数据局数据基础设施项目,基于科杰科技Data&AI一体化平台让非算法团队能通过语料加工层准备数据,借助智能支撑层零代码完成模型训练、微调与部署,再调用 API 或构建智能体快速将大模型转化为可商用产品;同时打通多模态数据到行业智能体全链路,覆盖 “数据→模型→应用” 全生命周期,支撑小切口场景数据产品快速构建;通过标准化 SDK 与插件接口开放第三方语料加工工具接入,实现 “即插即用”,加速了大模型在城市业务场景的落地效率,推动 AI 技术真正服务于城市治理与产业升级。

某市数字政府2.0项目,基于科杰科技Data&Al一体化平台打造的可信数据空间,构建的新型智慧城市大数据基础设施和可信数据空间,实现政务民生、产业等领域的全面数字化、智能化、精细化管理和服务,同时确保数据资源得到深度挖掘并快速应用,以此带动城市乃至城市群的快速发展,构建了首个政府侧集约式数据基础设施共性支撑平台,探索政府公共数据面向社会企业侧有效供给。

在某央国企数据智能底座项目,依托科杰科技Data&AI一体化平台,构建统一数据中心与治理体系,完成对新增的大数据进行高效存储和计算,并且进一步结合业务场景,面向规划、工程决策、工程一体化平台提供数百个服务支撑。以 AI驱动全量业务及科研数据管理共享,加速数据向资源、资产的数智化转变,提升运营效率,实现链条一体化运营,是集团数智化运营迈入高效协同新阶段重要标志。

科杰科技始终深耕 Data&AI 技术的研发创新,以 KeenData Lakehouse2.0 为依托,聚焦大型组织数据基础设施的构建与升级。通过 AI-Native 的原生架构与 Data&AI 一体化能力,为企业数字化转型提供了从数据工程到智能应用的全链路支撑,以自主可控的技术底座和场景化落地能力,加速数据价值向业务动能的转化。

  • 产品介绍
  • 业务咨询
  • 联系我们
  • 回到顶部

业务咨询(09:00-18:00)

010-64703560

技术支持

携手科杰科技,
构建AI-Native时代 Data & AI 一体化平台

×
提交问题

感谢咨询,我们会在1个工作日内联系您

×