MinIO正在成为AI的多模态数据存储方案,为生成式AI提供数据访问和使用工具。这一点在与MinIO联合创始人兼联合CEO AB Periasamy的深度访谈中得到了印证。
在采访的第一部分,我们了解到MinIO为AI提供快速对象数据访问支持,使其意识到自己本质上是一家键值数据库公司,而键值存储可以同时包含非结构化的对象式数据和结构化的表格式Iceberg数据。
从AI角度来看,将Iceberg式数据项进行向量化是没有意义的,因为与文字或图像不同,它们不是具有可向量化维度特征的独立数据。在表格和生成式AI大语言模型及智能体之间需要某种中介逻辑/抽象层,来连接它们的非结构化数据向量焦点和结构化数据搜索。
**结构化数据作为对象存储的上层**
Periasamy解释说:"在对象存储早期,我们发现结构化数据是非结构化数据之上的一层。例如,Iceberg实际上就是类似Parquet对象的集合。基本上,如果你有一个10PB的表格,你不会存储一个10TB的对象。它将是较小Parquet对象的集合。每1000万行排序后,分割成一个Parquet对象,然后你就有了大量Parquet对象的集合。"
企业持续从其他数据库转储捕获的数据作为变更数据捕获或机器生成的遥测数据。所有这些都以表格格式呈现,但表格数据作为Parquet对象写入对象存储,只是对象,还有清单文件和元数据描述。所有这些都只是对象存储之上的一层。
**对象和表格成为一等公民**
MinIO目前正在开发的是:既有对象又有表格。结构化数据进入表格,非结构化数据进入对象,两者都成为对象存储内的一等公民。
MinIO已经通过promptObject展示了,如果你有销售收据或任何类型的非结构化数据,你可以像查询结构化数据一样查询非结构化数据资产。但如果你存储的全是结构化数据,就不需要模拟。相反,模型需要发现,比如说你有数百PB的表格数据。
**AI处理结构化数据的独特方式**
与只需要触及数据子集的数据库查询不同,生成式AI需要理解整个数据集。对于结构化数据,向量化并不是正确的方法。
Periasamy说:"如果是非结构化数据,你对其进行向量化,但如果是结构化数据,你如何向量化呢?在结构化数据中,我能向量化每一行吗?这根本没有任何意义。正确的处理方式是有一个链接层,AI首先需要发现表格。"
正确的方法是使用一个链接层,该层知道如何按需加载你正在寻找的内容。就像GPU空间中的KV缓存一样。你不能将所有表格加载到内存中。首先要经历一个发现阶段,了解业务分析师从业务角度提出的问题。
MinIO发现向量化在这里并不起作用。相反,使用元数据信息创建一个结构,将其提供给AI,并利用AI生成代码的能力。实际上,智能体是动态创建的。这里的链接是生成式AI编写代码,该代码理解表格数据的结构。
**KV缓存卸载支持**
所有推理引擎都已内置KV缓存。卸载允许KV缓存实际存储和检索、重新hydrate缓存,还处理非常大的内存,它们需要对键值存储的最快访问。MinIO已经支持KV缓存卸载接口,并正与各种推理引擎和客户合作采用它。
**promptObject API**
MinIO的promptObject API是S3 API的扩展,"让用户或应用程序与非结构化对象对话,就像与大语言模型对话一样。这意味着你可以要求对象描述自己,找到与其他对象的相似性和差异。"
例如,对象存储中可能有一张餐厅收据的图像,该收据上有"客人"字样,后面跟着数字4。promptObject API可以用来"询问对象有多少人来吃饭?"用户可以询问收据的几乎任何问题,如平均账单金额、所在城市、顶部图像是什么、最贵的菜是什么等。
总体而言,MinIO不仅仅是对象存储供应商,它是生成式AI大语言模型和智能体的源数据供应商,为非结构化数据支持向量,为结构化数据支持SQL类型查询。其自有的大语言模型为业务分析师输入的每个查询编写所需的SQL代码应用。
Q&A
Q1:MinIO如何处理结构化数据和非结构化数据的融合?
A:MinIO将对象和表格都作为一等公民处理。结构化数据进入表格,非结构化数据进入对象,两者都在对象存储内统一管理。通过promptObject API,非结构化数据可以像结构化数据一样被查询,而结构化数据则通过AI生成的代码进行理解和处理。
Q2:为什么MinIO不对结构化数据进行向量化处理?
A:因为结构化数据与文字或图像不同,它们不是具有可向量化维度特征的独立数据。对结构化数据的每一行进行向量化没有意义。MinIO采用AI生成代码的方式来理解表格数据结构,这比让AI在人类语言层面理解数据更有效。
Q3:promptObject API能实现什么功能?
A:promptObject API是S3 API的扩展,让用户可以像与大语言模型对话一样与非结构化对象对话。比如对餐厅收据图像询问"有多少人来吃饭"、"平均账单金额是多少"、"最贵的菜是什么"等问题,MinIO后端运行多模态大语言模型来处理这些查询。
好文章,需要你的鼓励
自主AI系统正在医疗领域快速发展,从辅助工具转变为能够独立决策和执行任务的智能代理。这些系统承诺简化诊断流程、减轻医生负担、提供个性化治疗方案,但同时也带来数据完整性、公平性风险、过度依赖和隐私安全等挑战。成功部署需要在医学教育、医院管理和治理框架方面进行系统性变革,建立监督机制和问责制度,确保人类判断的主导地位得以保持。
浙江大学与阿里巴巴合作开发了MTDEval多轮对话评估系统,通过学习五个顶级AI评委的评判智慧,将多评委评估的准确性与单模型推理的效率完美结合。系统在七个基准测试中表现优异,评估速度比传统方法快数倍,同时构建了两个高质量数据集供研究使用。该开源系统为AI对话质量评估提供了实用可靠的解决方案。
Endava研究显示,商业领袖在私人生活中日益采用AI技术,这让他们对AI商业应用更有信心。三分之二的商业领袖愿意信任全自动AI为其做出生活决策,同样比例的人认为AI访问权与电力、水等基础设施同样重要。尽管AI应用是企业首要战略,但近一半受访者认为组织未投资正确的AI技术。研究发现高管层对AI转型更乐观,而中层管理者信心不足,主要因担心被AI取代。
北京大学团队开发的3D-R1系统实现了AI在三维空间理解领域的重大突破,通过结合高质量思维链数据集Scene-30K和强化学习技术,让AI首次具备了类似人类的空间推理能力。该系统不仅能准确识别物体位置关系,还能进行复杂的空间规划和推理,在多项测试中性能提升约10%,为智能家居、自动驾驶和虚拟现实等领域的实际应用奠定了重要基础。
营救是什么意思 | 为什么会落枕 | 燕窝是补什么的 | samedelman是什么牌子 | 为什么睡觉会磨牙 |
土地出让是什么意思 | 个人solo什么意思 | 泔水是什么意思 | 左肺上叶纤维灶是什么意思 | 相合是什么意思 |
tnt是什么 | bye什么意思 | 规则是什么意思 | 天德是什么生肖 | 肺脓肿是什么病严重吗 |
暖心向阳是什么意思 | 眼袋青色什么原因 | 竖中指什么意思 | 植物神经功能紊乱吃什么药最好 | 红豆有什么功效和作用 |
气喘是什么原因hcv8jop0ns8r.cn | 农历七月二十什么日子bysq.com | pioneer是什么牌子hcv9jop8ns2r.cn | 备皮什么意思hcv9jop5ns2r.cn | 乳房长什么样hcv9jop2ns7r.cn |
口炎读什么hcv9jop7ns2r.cn | 艾玛是什么意思啊hcv8jop2ns5r.cn | 樱花什么时候开hcv9jop1ns7r.cn | 验孕棒阳性代表什么hcv9jop6ns5r.cn | 甲病是什么病hcv8jop3ns0r.cn |
狮子的天敌是什么动物hcv8jop0ns0r.cn | 清明节与什么生肖有关xscnpatent.com | 头疼恶心是什么原因hcv9jop6ns8r.cn | 做梦梦到屎什么意思hcv8jop9ns1r.cn | 3月份是什么季节hcv7jop7ns3r.cn |
济公属什么生肖hcv8jop1ns9r.cn | 腹泻吃什么食物clwhiglsz.com | 什么是碱性食物有哪些hcv8jop9ns1r.cn | 地塞米松是什么药qingzhougame.com | 什么人容易得骨肿瘤hcv8jop6ns5r.cn |