大家好,欢迎来到IT知识分享网。
每周大数据行业消息速递
- OpenAI 整合 Multi 推出的新Canvas agent,突破了常用对话式交互的局限,直接围绕文本进行交互。通过支持实时的内联反馈与项目修订等功能,Canvas 更好地满足了用户对精细化操作的需求。这种新的交互方式大幅提升了写作与编程类任务的使用体验和工作效率,有望快速推广。
- 谷歌作为第一个在泰国建立数据中心的欧美云厂商,将有助于其在激烈的云市场竞争中抢占泰国本土市场份额,也为泰国打造东南亚数字枢纽的发展目标提供了助力。今年以来,谷歌、亚马逊、微软和华为等头部云厂商宣布投资数百亿美元在东南亚建立本地数据中心,反映了:1)发展中国家数据主权的觉醒,外来云厂商需要本地化以建立信任。 2)欧美云市场日渐饱和,头部云厂商需要积极向外拓展寻找增长点。
- GCP Database 针对 Memorystore KV 服务,AlloyDB等产品进行了一系列更新:
- Memorystore 推出 Valkey 8.0
- 性能提升:异步 I/O:引入异步 I/O 功能,提高命令处理能力和吞吐量;优化命令处理:包括 SUNION、SDIFF、ZUNIONSTORE 和 DEL 命令的优化,提升整体性能。
- 内存优化:键内存效率:键直接嵌入主字典,并通过按槽分割字典的方式减少内存开销。
- 可靠性增强:自动故障转移:支持空分片的自动故障转移,提高集群高可用性。复制槽迁移状态:确保在故障转移期间数据同步,减少数据不可用的风险。槽迁移状态恢复:自动更新故障转移后的源节点和目标节点,确保请求正确路由。
- 兼容性与无缝迁移:与 Redis OSS 7.2 兼容:保持与 Redis OSS 7.2 的 API 兼容性,支持多种 Redis 客户端,简化迁移过程。
- AlloyDB 推出与 PostgreSQL 兼容的新索引技术 ScaNN,支持超过十亿个向量的处理,并保持高的查询性能,可以实现小于 25 毫秒的第 95 百分位延迟及 95% 的检索率。相比标准 PostgreSQL 中的 HNSW 索引,ScaNN 的向量查询速度快 4 倍。它能缩短索引构建时间、提高内存利用率,这使得在资源有限的环境下也能处理更大的工作负载。AlloyDB 支持的索引规模超越了主内存容量限制,用户可以根据自己的工作负载需求进行调整。(src: Introducing Valkey 8.0 on Memorystore: unmatched performance and fully open-source,AlloyDB supercharges PostgreSQL vector search with accuracy, speed, and 1B+ scale)
- openGauss 6.0.0 LTS 版本正式发布。openGauss 6.0.0 LTS是社区最新发布的长期支持版本,版本生命周期为3年。该版本兼容前代版本特性功能,同时在内核能力、DataPod资源池化架构、DataKit数据全生命周期管理工具能力、生态兼容性等方面有着显著的提升等。更新内容涵盖存储引擎、并行查询、主备复制、智能运维等方面,进一步提升了其在高性能、高可用、高智能和高安全领域的表现:
- 企业级特性
- oGEngine存储引擎增强:优化后性能抖动小于3%,存储空间利用率提升15%,支持SMP并行查询,顺序扫描操作得以加速,同时全面增强了系统可靠性。
- 存储过程增强:支持游标嵌套定义和动态游标,通过TYPE语法支持REF CURSOR类型返回。新增存储过程覆盖率测试功能,可输出HTML报告,并允许在创建时忽略依赖关系。
- SQL功能增强:新增PIPELINED管道函数,支持返回行集合;SELECT语句支持ROTATE和NOT ROTATE子句进行行列转换。
- 全链路跟踪与慢SQL统计:支持jdbc查询接口的端到端网络耗时跟踪,并将数据记录到数据库性能视图中,慢SQL统计默认启用,增强SQL执行的透明性和可追踪性。
- 核心能力增强
- 高性能
- 主备复制性能:通过引入UWAL组件,XLog复制加速,一主一同步场景下TPCC性能提升20%,通过优化锁机制实现10%的额外提升。
- 北向网络性能:借助高性能用户态网络协议栈(Gazelle),避免资源共享开销,并通过零拷贝技术最大化性能。
- 分区表优化:在多分区表场景中,数据导入耗时下降13%,TPCC性能提升30%,数据操作耗时减少50%。
- SMP并行扩展:支持并行函数参数配置及游标表达式并行执行,基础算子性能(插入、更新、删除、索引扫描)提升15%以上。
- 高可用
- 集群管理增强:CM集群支持资源池化场景下的主备切换,减少脑裂风险,逻辑复制功能支持更广泛的DDL语法。
- 异步备份升主能力:通过gs_retrieve工具找回未同步数据,实现RPO≈0,确保高可用场景下的数据完整性。
- 容灾增强:支持同城双中心容灾(RPO=0,RTO<30s)和异地容灾场景,具备快速故障恢复能力(RTO<10s)。
- 高智能:新增DataVec插件,支持向量数据的存储与相似度计算,助力大模型的向量数据检索,并支持索引(IVFFLAT、HNSW)加速查询。
- 高安全
- 操作审计:支持对数据库服务启停及备份恢复操作的审计,发布安全巡检工具,自动检测数据库配置安全性并提供修改建议。
- 密钥管理增强:抽象加解密层,兼容第三方KMS,增强与外部密钥管理服务的对接能力。
- DataPod资源池化架构创新
- 透明写操作转发:写操作可透明转发至读写节点,简化应用接入,增强系统扩展性。
- 新增支持分布式计算卸载:支持将算子卸载到存储设备,减少存储层和计算层的网络IO,TPC-H性能在100GB和1TB数据量下提升40%。
- 引入多机并行查询框架(SPQ):通过资源池化架构,生成并分发多机执行计划,实现集群内并行查询,提升OLAP能力,在TPC-H&TPC-DS测试中性能较单节点SMP提升2.6倍以上。
- 数据生命周期管理与智能运维
- 流量录制回放:支持从MySQL截取网络通讯包或日志,向openGauss回放SQL,进行性能压测并支持多倍压力回放。
- 迁移工具增强:自动轮询实现故障切换,支持JDBC超时重连及流量控制,同时提供全量及增量迁移支持,提升数据迁移可靠性。
- 智能参数调优:通过历史数据与机器学习结合,推荐最优数据库参数配置,提升系统性能。(openGauss 6.0.0 LTS 版本正式发布)
- Snowflake针对数据库内核进行了一系列更新:
- 数据库内核8.37、8.36:
- 8.37版本中针对 SQL 进行了更新:
函数类别 |
新函数 |
描述 |
半结构化和结构化数据 |
REDUCE |
根据 lambda 表达式中的逻辑将数组减少为单个值。 |
地理空间 |
ST_INTERPOLATE |
给定一个输入 GEOGRAPHY 对象,返回一个在指定公差范围内的插值对象。当您需要查看 GEOGRAPHY 对象在平面坐标系中的样子时(例如,当使用地理空间数据的可视化工具时),可以调用此函数。 |
- 8.36版本中,针对数据湖更新:新增支持克隆 Snowflake 管理的 Iceberg 表。(src: Snowflake September 30 – October 03, 2024 — 8.37 Release Notes,Snowflake Data lake updates)
- Databricks 平台发布新功能改进
- 支持无服务器计算的合规安全配置文件:合规安全配置文件现已在更多地区和合规标准中支持无服务器SQL仓库、无服务器计算的笔记本和工作流,以及无服务器DLT管道。
- 无服务器计算现已在 eu-west-2 区域可用:笔记本、工作流和 Delta Live Tables 的无服务器计算现已在 eu-west-2 区域可用。(src: Databricks October 2024)
- Alibaba 云原生数据仓库 AnalyticDB PostgreSQL 版中的 RAG Service 将于2024年10月21日开始商业化。云原生数据仓库 AnalyticDB PostgreSQL 版中的 RAG Service 提供文档处理、向量检索、Embedding、Rerank和LLM服务。可以帮助用户在构建智能客服、内容创作、知识管理等多个领域智能化应用。涉及 UpsertChunks,UploadDocumentAsync,QueryContent,Rerank等接口。实例满足以下条件可以使用:
- AnalyticDB PostgreSQL 6.0版实例。
- 存储弹性模式。
- 已开启向量引擎优化。(src: 【通知】RAG Service商业化)
- PG 社区 pg_qualstats 版本 v2.1.1 发布。这是一个 用于保存 WHERE 语句和 JOIN 子句中谓词的统计信息的PG插件。本次更新主要为新增对Postgres SQL 17 的支持。(src: pg_qualstats 2.1.1 is out!)
- 沈阳工业大学《2024年9月政府采购意向》,项目为教育数字化改革建设,预算约1100万元。项目要求系统支持创建最低50万用户,同时10万用户在线,5000并发请求。项目具体需求如下:
- 教育数字化基础支撑平台:主要包括用户统一身份认证、组织机构管理系统。
- 教育数字化大数据中心:
- 数据标准管理平台:建立统一的数据标准管理平台,帮助各级各类教育用户解决数据质量问题,提供主数据、元数据、数据标准、数据模型、非结构化数据治理、数据指标等功能,促进教育行业数据共享和互操作性。
- 数据归集管理平台:需支持收集、整合和管理来自不同各级各类教育机构业务系统或不同格式的教育数据源,提供数据集成、数据治理等手段,将分散在不同系统中的教育数据集中起来,进行统一的管理和分析。
- 数据服务管理平台:通过对不同类型教育数据整合分类,形成各级各类教育数仓,优化利用数据资源,提供各级各类教育行业数据服务、数据资产管理、数据安全等功能,提供数据同步功能实现数据服务;支持部署全链路数据服务组件,完成数据服务管理;支持建立规范的数据服务标准,实现教育数据共享;支持构建数据服务接口,为各平台提供数据访问通道;支持落地标签服务;提供数据资产登记与共享能力。
- 教育数字化服务门户:建设融合服务门户系统,提供公众门户、首页、导航栏、信息中心、应用中心、服务中心、资源中心、待办中心、系统管理、移动端小程序等功能,将分散、异构的应用和信息资源进行聚合,通过统一的访问入口,能够将与访问者本人相关的包括个人基本信息、管理、办公、服务、新闻、通知、公告、消息等在内的所有信息全部显示在统一工作台上,能够通过单点登录系统无缝进入到其他相关业务系统中。
- 教育数字化应用平台:包括一网通办系统、数据填报系统、数据汇总分析系统、教育事业发展驾驶舱(数据分析和可视化,包括语音助手、数据建模等)(src:教育数字化改革建设服务项目招标公告)
- Australian National University 通过 Oracle 提高学生入学率。通过 Oracle Eloqua Marketing Automation 和 Oracle Eloqua Chat,ANU 创建了一个定制的通信平台,来强化与未来学生的沟通并增加其招生吸引力。自推出以来,Oracle Eloqua Chat 的申请转化率达到了 17.9%,学生申请量比其他查询来源高出 7.4%(更受用户欢迎)。此外,它在四个月内显著减轻了大学呼叫中心的负担,实现了 19 倍的投资回报,并收集了有价值的定性数据来支持未来的营销活动。
- Oracle Eloqua Marketing Automation 利用AI和直观的UI帮助评估潜在客户的质量、创建营销活动;Oracle Eloqua Chat 是前者的一部分,可以与客户进行实时对话,与其它营销渠道(如电子邮件、社交媒体等)高效集成,实现跨渠道营销活动的一致性,同时可以收集和分析客户在聊天中的互动数据。(src:ANU boosts student enrollment with Oracle)
- 国务院公布《网络数据安全管理条例》,将于2025年1月1日施行。
- 该条例旨在规范网络数据处理活动,保障网络数据安全,促进网络数据依法合理有效利用,保护个人、组织的合法权益,维护国家安全和公共利益。条例包含9章64条,主要规定以下内容:提出网络数据安全管理总体要求和一般规定、细化个人信息保护规定、完善重要数据安全制度、优化网络数据跨境安全管理规定、明确网络平台服务提供者义务。
- 对于数据运营商(网络数据处理者)而言,以下是条例中需要重点关注的内容:向其他数据处理者提供或委托处理数据时,需签订合同明确安全义务,并对接收方进行监督,保存记录至少3年;在合并、解散等情形下,接收方需继续履行数据安全责任。
- 条例也为数据厂商带来机遇:条例要求在提供、委托处理、共同处理重要数据前进行风险评估,评估数据篡改、泄露等风险,这为数据安全厂商提供数据风险评估和合规咨询的业务机会;涉及跨境提供个人信息的数据处理活动需通过国家数据出境安全评估,这为数据安全厂商在跨境数据保护、传输解决方案、国际安全标准服务方面带来了新机遇。条例鼓励保险公司开发数据安全损害赔偿险种,为数据安全厂商与保险公司合作开发数据安全保险产品带来了机遇。(src:李强签署国务院令 公布《网络数据安全管理条例》)
- 2024中国算力大会发布了《中国综合算力指数报告(2024)》。报告显示,截至2023年底,全球算力基础设施总规模达到910EFLOPS,同比增长40%。中国算力中心机架总规模超过830万标准机架,算力总规模达246EFLOPS,位居全球前列。随着工业、教育、医疗等多个领域的算力应用不断拓展,算力设施正成为推动各行业数字化、高端化转型的关键基础。工业和信息化部总工程师赵志国强调要统筹通算、智算和超算的合理配置,并呼吁加快关键技术突破,推动高端芯片、大模型算法等创新。同时,专家指出,当前算力存在需求与供给不匹配,算力生态相对“碎片化”等问题。(src:我国算力总规模位居世界前列)
- 中国信息通信研究院召开《数字营销白皮书(2024年)》第一次编制讨论会。
- 该白皮书计划于2024年12月“数据资产管理大会”上解读并发布。据信通院产业调研显示,营销场景对企业数智能力建设收益的平均贡献率占比超35%,成为数智化应用场景中占比最高的板块,数智技术驱动的数字营销正逐步成为企业核心竞争力。
- 数字营销为企业赋能主要包含以下方面:
- 用户行为与特征分析
- 精准营销信息推送支撑
- 竞争对手检测与品牌传播
- 品牌危机监测及管理
- 目标客户筛选
- 优化用户体验
- 客户分级管理
- 发现新市场与新趋势
- 市场预测与决策分析
(src:《数字营销白皮书(2024年)》首次讨论会即将召开)
- 2024全球网络和软件品牌价值15强榜单,微软、甲骨文、思爱普列前三位
- 英国品牌评估机构Brand Finance发布2024“全球网络和软件品牌价值15强”排行榜(Internet & Software 15),微软、甲骨文、思爱普蝉联前三位。
(src:2024全球网络和软件品牌价值15强榜单,微软、甲骨文、思爱普列前三位)
- 谷歌宣布计划投资10亿美元在泰国建设数据中心。泰国新增的数据中心将支持谷歌的人工智能服务,包括搜索引擎、地图服务和工作空间。谷歌的这一投资计划与泰国新任总理Paetongtarn Shinawatra共同宣布,东南亚正迅速成为科技巨头的新战场。苹果、微软、英伟达和亚马逊等公司也在积极投资,已在泰国、马来西亚、新加坡和印度尼西亚等地投入数十亿美元建设人工智能数据中心。(src: 谷歌将在泰国投资10亿美元,以加速亚洲人工智能的发展)
- 2024 年 Ray 峰会:突破 AI 复杂性壁垒
- Ray峰会2024重点介绍了AI基础设施和工具的主要进展,这些进展旨在克服AI工作负载日益复杂的挑战,通常称为“AI复杂性壁垒”。
- 为帮助各行业公司克服AI复杂性墙,Ray 和 Anyscale 产品和功能关键更新包括:
- Ray的更新:
- Compiled Graphs API:优化了GPU通信,提升了大规模AI任务(如大型语言模型推理)的效率,GPU通信速度提高了多达17倍。
- Ray Data正式发布:为大型组织处理大量数据时提供更快的数据预处理,并显著节约成本。
- Anyscale的更新:
- 推出了增强的运行时RayTurbo,为AI应用提供高达5.1倍的性能提升。
- 扩展了治理工具,以管理AI蔓延并优化资源使用。
- 新增功能简化了开发者体验,如改进的自动扩展和直观的用户体验增强功能。
- Anyscale现在支持混合云部署,允许AI工作负载跨AWS、谷歌云和Oracle云等多个平台部署。(src:Ray Summit 2024: Breaking Through the AI Complexity Wall)
- OpenAI开发者大会发布新更新:
- 实时API:支持多种类型语音和文本的实时输入输出,使语音助手等应用更加自然和流畅,无需经过文本转换。目前该功能仅面向付费开发者,并有计划增加支持视觉和视频等更多功能。该模块可应用于健康管理中的虚拟教练和语言学习中的角色扮演等场景。
- 视觉微调:Fine-Tuning API 现已支持微调视觉模型,允许开发者通过自己的图像数据对模型进行定制和优化。目前该功能正在向付费开发者逐步开放,将有助于更高效地开发如医疗成像、电子商务图片处理和视觉辅助聊天机器人等多种实际应用。
- 提示缓存:通过重复使用及最近使用的提示,帮助 API 用户降低成本并减少延迟,该功能适用于GPT-4o及其微调版本。
- 模型蒸馏:模型蒸馏是一种将复杂、大型模型(如GPT-4)的输出用于训练较小、更高效模型的技术。开发者可以使用OpenAI提供的工具,利用较大型模型的输出(如GPT-4或o1-preview)进行训练,从而精简模型,提升效率。这项工作流还集成了评估(Evals)和存储完成(Stored Completions)等功能,使整个过程更加自动化和简化。
- o1 模型的访问权限已扩展至使用第 3 层的开发者,使用速率限制与 GPT-4o 相匹配。(src: DevDay 2024: San Francisco – Live(-ish) News)
- 特斯拉最近宣布将其特斯拉以太网传输协议(TTPoE)开源。以太网传输协议(TTPoE,Tesla Transport Protocol over Ethernet )是一种用于AI/ML数据中心的高效网络协议。此协议专为 AI 超级计算机设计,以实现Exa 级网络架构的数据传输。TTPoE是一个在硬件层面执行的点对点传输层协议,其优势在于特斯拉无需使用特殊的交换机,因为它主要利用的是第二层(数据链路层)的传输。与传统的TCP/IP协议相比,TTPoE在硬件层面执行,以解决AI 互连的延迟问题,实现了更低的延迟和更高的带宽。(src: Open Source Begets Open Source: How Tesla is Accelerating AI ,特斯拉的TTPoE协议是个啥?, github – teslamotors / ttpoe)
- OpenAI推出了ChatGPT新界面Canvas。Canvas允许用户与ChatGPT在共享空间中合作,提供实时反馈、编辑工具和项目修订功能。目前该功能正在ChatGPT Plus和Team用户中进行测试版,预计很快将向所有用户开放。(src:October 3, 2024 Introducing canvas A new way of working with ChatGPT to write and code)
- OpenAI 离职潮持续,首席技术官Mira Murati和首席研究官BobMcGrew宣布离职。Murati一直是这家人工智能初创公司的核心人物,在OpenAI首席执行官Sam Altman去年11月被短暂驱逐后,Murati曾担任临时CEO。首席研究官鲍勃·麦格(BobMcGrew)和研究副总裁巴雷特·佐夫(Barret Zoph)、GPT-4o、GPT-5前研发负责人 Alexis Conneau 、Sora 研发负责人 Tim Brooks 也相继离开。(src: 蒙眼狂奔OpenAl、千夫所指奥尔特曼?)
- Leo AI 和 Ollama 将 RTX 加速的本地大语言模型 引入 Brave 浏览器用户。Brave浏览器的Leo AI助手通过NVIDIA硬件和Ollama开源框架实现了本地和云端大语言模型的运行,提升用户体验,提供隐私保护、快速响应和多模型支持。(src:Brave New World: Leo AI and Ollama Bring RTX-Accelerated Local LLMs to Brave Browser Users)
- Oracle 与 Applied Invention 合作推出 OCI 零信任数据包路由 (ZPR),它是一种将网络安全与网络架构分离的新解决方案。它使用户能够通过以自然语言和词汇创建安全策略来定义安全意图,从而更轻松地通过特定访问路径限制对敏感数据的访问。通过消除对路由表和 IP 地址的过时依赖,将网络架构和网络安全分开,可降低人为错误和配置漂移的风险。(src: Oracle:Announcing the general availability of OCI Zero Trust Packet Routing)
- 本周主要市场表现如下:
- 美国股市:
- 美联储:就业报告与市场的“软着陆”预期一致,这导致对降息预期的重新调整,因为市场认为美联储在未来可能不会像9月会议时那样采取激进的行动。根据CME美联储观察工具,目前11月FOMC会议上加息50个基点的概率已降至0.0%,相比昨天的32.1%和一周前的53.3%大幅下降。联邦基金期货市场现在认为美联储在11月维持利率不变的概率为4.9%,相比昨天和一周前的0.0%有所上升。
- 科技股表现:大型科技股如Meta Platforms(META 595.94,+13.17,+2.26%)、NVIDIA(NVDA 124.92,+2.07,+1.68%)和阿里巴巴(BABA 114.53,+1.69,+1.50%)在本周末均录得稳健涨幅,推动纳斯达克综合指数上涨。
- 卫星通讯公司 EchoStar(SATS 23.29,-0.38,-1.61%)宣布了一系列重大交易,包括将其DISH付费电视业务(包括Sling TV)出售给DIRECTV(T 21.91,-0.14,-0.63%),从TPG Angelo Gordon筹集25亿美元融资,并达成了一项价值51亿美元的投资协议,旨在加强EchoStar的财务状况,扩大其Boost Mobile下的5G网络,增强合并后的DISH-DIRECTV实体在美国市场的竞争力。
- 美债:随着市场对美联储降息的预期降温,2年期和10年期美国国债收益率飙升。2年期和10年期美国国债收益率分别强势上涨至3.93%和3.97%左右。美国在9月份新增就业25.4万,远高于共识预期。强劲的就业增长和工资压力不断缓解表明劳动力供应仍在扩大。
- 伦敦金(XAUUSD)报收2653.125美元/盎司, 跌0.11%。
- Snowflake寻求通过出售20亿美元债券筹集资金
- Snowflake已发行20亿美元债券,旨在回购股票并可能启动收购战略。该计划宣布后,这家科技公司的股价在盘后交易中下跌了约3%。Snowflake在一份声明中说,它将发行两组债券,每组价值10亿美元,分别于2027年和2029年到期。该公司打算 “通过私下协商的交易”,用募集到的资金回购最多5.75亿美元的股票。(src:Snowflake寻求通过出售20亿美元债券筹集资金)
- 腾讯和法国Guillemot家族据悉考虑收购游戏厂商育碧。育碧(Ubisoft)星期五在巴黎的股价上涨了33%,这是该公司自1996年上市以来的最大涨幅。截至星期六,育碧的股价今年已累积下跌近50%,使该公司市值蒸发一半至18亿欧元。此前,在育碧股价暴跌之际,包括AJInvestments、黑石集团在内的一些少数股东曾试图推动将育碧私有化或出售给战略投资者。(src: 腾讯和法国吉勒莫特家族据报考虑收购育碧)
- Snowflake、Databricks 投资 AI 数据管理初创公司 Voyage AI
- Voyage AI Inc. 是一家专注于数据嵌入生成的初创公司,近期完成了 2000 万美元的 A 轮融资,由 CRV 领投,其他投资者包括 Snowflake Inc. 和 Databricks Inc. 等,使外部融资总额达到 2800 万美元。
- 该公司的创始人马腾宇毕业于清华大学计算机科学实验班(又称姚班),现任斯坦福大学助理教授。根据Voyage官网显示,斯坦福人工智能实验室主任Christopher Manning、AI领域著名华人学者李飞飞等三名教授都担任了Voyage的学术顾问。
- 该公司为客户提供六种嵌入生成 AI 模型,支持云端或本地部署,并可定制嵌入生成器。Voyage AI 推出了两个新产品 voyage-3 和 voyage-3-lite,承诺比 OpenAI 的嵌入模型在检索质量上分别提高 7.55%,且使用成本降低 2.2 倍。除了嵌入模型,公司还发布了新的 reranker 模型,以提高搜索结果的相关性,并计划利用新资金进一步扩展其 AI 模型组合。(src: Snowflake, Databricks back $20M round for AI data management startup Voyage AI)
- Redbird 推出 AI 驱动的数据分析平台
- Redbird Software Inc. 是一家由 Y Combinator 支持的初创公司,自 2022 年种子轮融资以来,该公司的客户数量增长了 7 倍。近日,该公司推出了其标志性分析平台 Redbird,平台的客户群包括财富 50 强中的 8 家公司,并且正为美国政府机构引入其平台。
- Redbird 的 CEO 是 Erin Tavgac ,曾在 MESH Experience 担任总裁,大学就读于斯坦福大学;COO 是 Deren Tavgac,曾在 Saks Fifth Avenue 担任首席产品官兼高级副总裁,大学就读于哈佛大学。
- Redbird 利用人工智能帮助公司从数据中发现有用的模式,定位为 Tableau 等现有商业智能工具的替代品。平台通过自然语言界面使用户无需具备技术技能即可进行数据分析,并支持与 Salesforce、Databricks 等应用集成。它提供自动化数据清理和标准化功能,并能够生成图表和自然语言解释,简化数据可视化。Redbird 还为高级用户提供 SQL 和 Python 的分析功能。(src: Startup Redbird launches AI-powered data analytics platform,Redbird)
- CloudEndure 创始团队的新公司 Eon 获得$77M融资,打造云基础设施备份产品
- 该公司由首席执行官Ofir Ehrlich、Gonen Stein和Ron Kimchi于2024年1月创立,现已通过三轮融资筹集了1.27亿美元。
- Eon的创始人曾共同创办CloudEndure,该公司于2019年被亚马逊以2.5亿美元收购。此后其AWS领导了灾难恢复和云迁移服务的开发与运营,并在其中发现了云基础设施备份和恢复市场的一个明显漏洞。因此,Eon应运而生。
- Eon产品为一种针对云基础设施的自动化备份系统,能够监控云资源的扩展,并为企业提供云备份状态管理(CBPM)。Eon取代了传统的备份工具和通用快照,将备份转变为实用且易于管理的资产。(src:The next Wiz? Eon raises $77M at $750M valuation before product launch)
- Nvidia开源其最新的多模态大型语言模型 NVLM 1.0 及其旗舰版本 NVLM-D-72B,进军OpenAI、Meta 和 Google 的领域。将 NVIDIA 的 NVLM-D 模型与 GPT-4、Claude 3.5 和 Llama 3-V 等进行基准测试结果如下,NVLM-D 在视觉 – 语言任务中表现出色(VQAv2评估视觉问答,OCRBench评估文本识别、文档导向的视觉问答等),其它性能也与领先模型差距不大。
(src:Nvidia just dropped a bombshell: Its new AI model is open, massive, and ready to rival GPT-4)
- NocoDB 是一个开源的无代码数据库平台,旨在将传统的关系型数据库(如MySQL、PostgreSQL、SQL Server和SQLite)转换为用户友好的智能电子表格界面,成为Airtable的开源版本,近半年github star数增长近10k,总计48k。目前在某些高级功能和应用集成上与Airtable存在差距,如Airtable可自动将事件同步到Google日历。
- NocoDB位于英国,由英国兰卡斯特(Lancaster)计算机硕士、前 Helloworld Technologies India Pvt. Ltd 的 consultant Naveen Rudrappa 成立。目前已完成了种子轮和A轮融资,均为1050万美元。(src:GitHub – nocodb / nocodb,使用 NocoDB 一键将各种数据库转换为智能表格)
- 上海交通大学的 Fan Zhou、Zengzhi Wang 等人联合发表论文 Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale。论文提出了 PROX 框架,旨在通过模型自动化处理数据,使得数据清理更加高效,并提升预训练数据的质量。
- LLMs 近年来在各类任务上取得了显著进展,这依赖于大规模高质量的预训数据,这些数据为模型提供了广泛的知识和推理能力。然而,互联网数据庞大但存在大量噪音,需要进行清理和质量提升才能用于预训练。传统方法依赖人工制定的启发式规则来筛选和优化数据,但这些方法覆盖面有限,无法灵活处理每个具体案例。此外,为每个数据实例手动应用个性化规则在实际中是不切实际的。基于这些问题,论文提出了 PROX(Programming Every Example) 框架,将数据优化视为编程任务,使得模型能够为每个数据实例生成并执行细粒度的操作(如字符串标准化和噪声删除),从而大规模提升数据质量。
- PROX 框架分为两个阶段:文档级编程和块级编程。
- 文档级编程:在文档级别,模型可以决定保留或删除整个文档。文档的删除通过 drop_doc() 实现,而保留文档则通过 keep_doc() 完成。
- 块级编程:在块级别,长文档会被拆分为多个较小的块,模型可以在这些块上应用更细粒度的操作。例如,删除特定行 remove_lines() 或字符串替换 normalize()。对于无需修改的高质量块,可以使用 keep_chunk() 来标记保留。
- 由于基础模型难以直接生成 PROX 程序,作者使用了更强大的语言模型(LLAMA-3)通过零样本和少样本提示对数据进行标注,生成文档的处理程序对模型进行微调。随后,将生成的程序与文档配对,执行这些程序并生成最终的优化语料库。
- 通过实验,作者验证了 PROX 在不同阶段的有效性。在对 RedPajama-V2 进行预训练后,模型通过 PROX 生成程序进行文档级和块级优化,结果表明 PROX 优化后的数据相较于原始数据和启发式规则优化的数据,在下游任务中平均提升了 2.5%。特别是在 ARC-E 任务中,提升达到了 7.6%。
- 在数学领域,作者将 PROX 应用于 OpenWebMath 数据集的持续预训练,结果表明 PROX 优化后的数学数据在各个数学相关任务中带来了显著的性能提升。例如,TINYLLAMA-1.1B 在数学任务上的平均性能提升了 11%,LLAMA-2 提升了 14.6%,而 CODELLAMA 提升达到了 20.3%。
(src:Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale)
- University of Louisiana 的 Ali Mohammadjafari 等人发表论文 From Natural Language to SQL: Review of LLM-based Text-to-SQL Systems。论文对 Text-to-SQL 系统的发展历史、最新进展、评估方法以及未来挑战进行了全面的综述。
- 随着大数据时代的来临,组织越来越依赖关系数据库来管理和分析大量结构化信息。SQL查询的复杂性常常使得非技术用户难以直接访问这些数据库,因此,Text-to-SQL系统的目标是通过将自然语言查询转换为SQL命令,填补用户和数据库之间的技术鸿沟。系统通过自然语言处理(NLP)技术解析用户的查询,并生成可执行的SQL语句。尽管如此,构建一个高度可靠的Text-to-SQL系统非常具有挑战性,因为自然语言中的模糊性和复杂性会导致误解或错误的SQL生成。
- LLM驱动的Text-to-SQL系统分为以下几个关键步骤:
- 自然语言理解:系统解析用户的自然语言输入,识别查询中的实体、条件和关系。
- 架构链接:系统将解析后的自然语言查询与数据库中的表和列进行匹配。这一步是确保查询与数据库正确匹配的关键。
- SQL生成:系统根据前面的自然语言理解和架构链接生成相应的SQL查询。这一步利用了模型对SQL语法和数据库逻辑的理解,确保生成的SQL查询能够准确反映用户的意图。
- SQL执行和输出:生成的SQL查询会在数据库中执行,查询结果可以以表格形式返回,或者在某些系统中,将结果转换为自然语言形式以便用户理解。这一流程旨在提高非技术用户的使用便捷性。
- 为了评估LLM驱动的Text-to-SQL系统,研究人员开发了多种数据集和基准测试方法。根据不同的数据集特点,Text-to-SQL研究领域的数据集大致可以分为以下四类:
- 跨领域数据集:如WikiSQL、Spider和KaggleDBQA,这些数据集用于评估模型在不同领域数据库上的泛化能力。
- 知识增强数据集:如SQUALL和BIRD,这些数据集通过提供额外的上下文信息,增强了模型的语义理解能力。
- 上下文依赖数据集:如CoSQL和SParC,这些数据集重点考察模型在多轮对话中的表现,测试其在保持上下文连续性方面的能力。
- 鲁棒性数据集:如ADVETA,这类数据集通过引入对抗性扰动来测试模型在应对数据库表结构或架构变化时的稳定性。
- 评估标准主要分为两类:
- 基于内容匹配的评估:如组件匹配和精确匹配,重点检查生成的SQL查询与参考查询在结构上的一致性。
- 基于执行的评估:如执行准确率和有效效率评分(VES),通过实际执行生成的SQL查询,评估其返回结果的正确性和执行效率。
- LLM驱动的Text-to-SQL方法主要分为上下文学习和微调。
- 上下文学习(ICL):上下文学习依赖于精心设计的提示词来指导模型生成SQL查询,而无需对模型进行参数更新。通过提示词优化(Prompt Optimization)和分解技术(Decomposition),上下文学习可以有效应对零样本或少样本情境下的SQL生成。
- 微调(FT):微调通过使用特定任务的数据对模型进行参数更新,从而增强模型在SQL生成任务中的表现。与上下文学习不同,微调允许模型通过任务相关的数据进行优化,提升其在SQL生成任务中的精度。
- 尽管LLM驱动的Text-to-SQL系统在近几年取得了显著进展,但仍有许多挑战需要解决:可扩展性和计算效率、动态适应数据库架构变化、提高上下文准确性和消除歧义、平衡RAG(检索增强生成)和微调、伦理,数据隐私和可解释性、人机互动和交互式查询、知识图谱的集成和维护等。(src:From Natural Language to SQL: Review of LLM-based Text-to-SQL Systems)
- Introducing Valkey 8.0 on Memorystore: unmatched performance and fully open-source – https://cloud.google.com/blog/products/databases/memorystore-launches-valkey-8-0-on-google-cloud
- AlloyDB supercharges PostgreSQL vector search with accuracy, speed, and 1B+ scale – https://cloud.google.com/blog/products/databases/scann-for-alloydb-index-is-ga
- openGauss 6.0.0 LTS 版本正式发布 – https://mp.weixin..com/s/4jcSJ88q-07yVxkjMT1QXQ
- Snowflake September 30 – October 03, 2024 — 8.37 Release Notes,Snowflake Data lake updates – September 30 – October 03, 2024 — 8.37 Release Notes,Data lake updates
- Databricks October 2024 – https://docs.databricks.com/en/release-notes/product/2024/october.html
- 【通知】RAG Service商业化-https://help.aliyun.com/zh/analyticdb/analyticdb-for-postgresql/product-overview/notice-the-rag-service-node-in-analyticdb-postgresql-is-commercialized?spm=a2c4g..0.0.c1kQ5Dkx
- pg_qualstats 2.1.1 is out! – https://www.postgresql.org/about/news/pg_qualstats-211-is-out-2940
- 教育数字化改革建设服务项目招标公告 – https://www.jianyu360.cn/nologin/content/AgpY1xaYC5YID0vNFpkcwcvJDAZDSB3dlVkKCgCPDodfFZzdQ1UCWY%3D.html
- ANU boosts student enrollment with Oracle – https://www.oracle.com/customers/australian-national-university/
- 李强签署国务院令 公布《网络数据安全管理条例》 – https://mp.weixin..com/s/VDlr5miJRdMoy1ZNefr1BQ
- 我国算力总规模位居世界前列 – https://digitalpaper.stdaily.com/http_www.kjrb.com/kjrb/html/2024-09/29/content_578393.htm?div=-1
- 《数字营销白皮书(2024年)》首次讨论会即将召开 – https://mp.weixin..com/s/wD-4ZNj-MYjFqpvsb1_Yrg
- 2024全球网络和软件品牌价值15强榜单,微软、甲骨文、思爱普列前三位 – https://finance.sina.com.cn/wm/2024-09-29/doc-incqummy9467322.shtml
- 谷歌将在泰国投资10亿美元,以加速亚洲人工智能的发展 – https://wallstreetcn.com/articles/
- Ray Summit 2024: Breaking Through the AI Complexity Wall – https://www.anyscale.com/blog/ray-summit-2024-recap
- DevDay 2024: San Francisco – Live(-ish) News – https://community.openai.com/t/devday-2024-san-francisco-live-ish-news//2
- Open Source Begets Open Source: How Tesla is Accelerating AI ,特斯拉的TTPoE协议是个啥?, github – teslamotors / ttpoe – https://blog.min.io/open-source-begets-open-source-how-tesla-is-accelerating-ai/ ,http://www.360doc.com/content/24/0921/21/83590374_1134673516.shtml, github – teslamotors / ttpoe
- October 3, 2024 Introducing canvas A new way of working with ChatGPT to write and code – https://openai.com/index/introducing-canvas/
- 蒙眼狂奔OpenAl、千夫所指奥尔特曼? – https://finance.eastmoney.com/a/202409283194181380.html
- Brave New World: Leo AI and Ollama Bring RTX-Accelerated Local LLMs to Brave Browser Users – https://blogs.nvidia.com/blog/rtx-ai-brave-browser/
- Announcing the general availability of OCI Zero Trust Packet Routing – https://blogs.oracle.com/cloud-infrastructure/post/ga-zero-trust-packet-routing
- Snowflake寻求通过出售20亿美元债券筹集资金 – https://tech.it168.com/a2024/0927/6864/000006864459.shtml
- 腾讯和法国吉勒莫特家族据报考虑收购育碧 – https://www.zaobao.com.sg/realtime/china/story-
- Snowflake, Databricks back $20M round for AI data management startup Voyage AI – https://siliconangle.com/2024/10/03/snowflake-databricks-back-20m-round-ai-data-management-startup-voyage-ai/
- Startup Redbird launches AI-powered data analytics platform,Redbird – https://siliconangle.com/2024/09/26/startup-redbird-launches-ai-powered-data-analytics-platform/,https://www.redbird.io/
- The next Wiz? Eon raises $77M at $750M valuation before product launch – https://www.calcalistech.com/ctechnews/article/r1yc0uy00
- Nvidia just dropped a bombshell: Its new AI model is open, massive, and ready to rival GPT-4 – https://venturebeat.com/ai/nvidia-just-dropped-a-bombshell-its-new-ai-model-is-open-massive-and-ready-to-rival-gpt-4/
- GitHub – nocodb / nocodb,使用 NocoDB 一键将各种数据库转换为智能表格 – https://github.com/nocodb/nocodb,https://blog.csdn.net/alex_yangchuansheng/article/details/
- Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale – https://arxiv.org/pdf/2409.17115
- From Natural Language to SQL: Review of LLM-based Text-to-SQL Systems – https://arxiv.org/pdf/2410.01066
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/95848.html