智能体AI面临非结构化数据难题:IBM推出解决方案
北京 2025年7月1日 /美通社/ -- IBM 正在从根本上简化面向 AI 的数据堆栈。IBM 在Think大会上预览 watsonx.data 的重大演进,以帮助组织做好数据准备为AI所用,同时提供一个开放的混合数据基础架构和企业级的结构化和非结构化数据管理。
智能体AI面临非结构化数据难题:IBM推出解决方案
测试结果显示,与传统RAG相比,IBM watsonx.data的AI准确性提高了40%。IBM于6月推出的产品和功能包括:
Watsonx.data integration(集成),该软件可在单个界面中编排不同集成样式和格式的数据访问和工程设计,其核心是灵活性和规模
Watsonx.data intelligence(智能),该软件可改变组织处理、管理和利用有意义数据的方式,利用 AI 的力量简化数据治理
在 Meta 的 Llama Stack 中增加 watsonx 作为 API 提供商,增强了企业大规模部署生成式 AI 的能力,并以开放性为核心
Watsonx.data 集成和 Watsonx.data 智能将作为独立产品提供,部分功能也将通过 Watsonx.data 提供,从而最大限度地提高客户选择和模块化程度。
为了补充这些产品,IBM 近期宣布了收购 DataStax 的意向,DataStax 擅长将非结构化数据用于生成式AI。借助 DataStax,客户可以访问其他矢量搜索功能。
基于内部测试,对比使用 watsonx.data Premium Edition 检索层与仅矢量 RAG 在三个常见用例中 AI 模型输出答案的准确性,测试使用 IBM 专有数据集,采用相同的选定开源通用推理、评估和嵌入模型以及额外变量。测试结果可能因具体情况而异。
这一重大演进的背景
企业正面临着实现准确且高性能的生成式AI——尤其是具有自主决策能力的智能体AI人的重大障碍,但该障碍并非如大多数企业领导者所想。
问题不在于推理成本或难以捉摸的"完美"模型。问题在于数据。
企业需要可信且具有公司特性的数据,才能让智能体AI真正创造价值——这些数据存在于电子邮件、文档、演示文稿和视频等非结构化数据中。据估计,2022年企业产生的数据中90%是非结构化数据,但IBM预测其中仅有1%为大型语言模型(LLMs)所用。
非结构化数据的利用往往面临巨大挑战。这类数据分布广泛且动态变化,存储于多种格式中,缺乏清晰的标签,且常需额外上下文才能完整解读。传统检索增强生成(RAG)技术难以有效提取其价值,也无法妥善整合非结构化与结构化数据。
与此同时,各类孤立的工具会使AI数据处理架构变得复杂且繁琐。企业需要同时管理数据仓库、数据湖以及数据治理和数据集成工具。数据架构可能与它本应管理的非结构化数据一样令人困惑。
许多组织并未解决根本问题。它们仅关注生成式AI的应用层,而非其下方的核心数据层。除非组织修复其数据基础架构,否则AI智能体和其他生成式AI计划将无法充分发挥其潜力。
帮助组织实现数据的AI 就绪
IBM提供的新功能将使组织能够采集、治理和检索非结构化(及结构化)数据——在此基础上,实现准确、高性能的生成式AI的规模化应用。
-
E Ink元太科技发布75吋E Ink Kaleido™ 3户外大型彩色电子纸广告牌
-
布鲁可携多IP系列产品亮相德国纽伦堡玩具展,持续推进全球化战略布局
-
森林城市再迎重磅利好,数字地位赋能区域发展
-
IBM 发布 2024 年第四季度业绩报告:软件业务双位数增长,自由现金流超全年预期
-
和铂医药HBM9378/SKB378治疗慢性阻塞性肺疾病的临床试验申请获中国国家药品监督管理局批准
-
新华丝路:亮相纽约时报广场!熊猫携五粮液向全球拜年
-
EyeYon Medical成立新子公司,强势进军中国市场
-
ALAN ROURA的第三个摊位:宇舶表庆祝水手令人难以置信的坚韧
-
SquaredFinancial推出独家奖金促销活动,提供更好的交易机会
-
阿联酋电子竞技联合会为顶尖EGL特许经营权全球招标,解锁商机