AI日推资讯-快速了解AI新闻、动态、资讯

全球AI动态


-每天推送更新国内外最新AI资讯、文章、信息、新闻,涵盖前沿技术动态、行业趋势、重要产品发布和市场分析。通过精准的AI新闻推送,帮助您快速了解全球人工智能领域的最新进展,助力您把握AI发展趋势。

04月15日 星期二

🧩 AI基准测试的争议已经蔓延到了《宝可梦》

在最近的一次网络事件中,有人声称 Google 的 Gemini 模型在原始《宝可梦》三部曲中击败了 Anthropic 的 Claude 模型 —— Gemini 已抵达“鬼镇”Lavender Town,而 Claude 还卡在 Mt. Moon(月见山)。这条在 Twitch 上的直播迅速走红,并引发了广泛讨论。

但 Reddit 用户迅速指出,这次“胜利”其实有猫腻:

  • Gemini 直播使用了“自定义小地图”插件,可以识别地图上的切树、障碍物等“tile”,大幅降低了模型做决策前对截图的解析难度。

  • Claude 则是“裸跑”,没有额外辅助工具。

这就是重点:同一个 benchmark,用不同的环境和实现方式,会得到完全不同的结果。


🧪 Benchmark之争并非新鲜事

这并不是AI世界第一次因为基准测试吵起来:

  • Anthropic 在 SWE-bench Verified 上公布了两个成绩:

    • Claude 3.7 Sonnet 在标准测试中得分 62.3%

    • 使用了自定义 scaffold(代码结构脚手架)后,得分飙升到 70.3%

  • Meta 的 LLaMA 4 Maverick 也被专门微调来适配 LM Arena 测试,原版模型成绩差很多。

这类做法虽然在研究界算常见(毕竟谁都想表现好一点),但从实际使用者角度来看——尤其是开发者、创业者——就意味着模型的“排行榜”越来越不可信


🎮 Pokémon现象的启示

为什么宝可梦能成为“准基准”?因为它是一种结合了图像识别、状态管理、决策规划、语言交互的“综合任务”,看似娱乐,其实反映了模型在处理复杂多步骤任务上的真实表现。

但问题在于:除非强制规范评测标准,否则谁都可以“外挂加分”。这就像一场马拉松,有人偷偷搭电动车。


🧭 展望:我们该怎么比较模型?

  1. 重构 benchmark 思维:不是比单一指标,而是看整体“能力地图”——包括推理能力、理解上下文的能力、多模态适应力等。

  2. 标注“真实世界适用性”:比如让模型完成真实项目中的任务(写一段业务代码、设计一个网站组件)而不是只打分。

  3. 社区共建评测环境:建立透明、可复现的开源 benchmark 环境,杜绝“作弊优化”。


如果你正在做AI产品或平台建设,比如想在你的站点中展示或整合“模型对比”功能,我们可以一起设计一套更加“用户真实视角”的模型能力评测系统。比如:

  • 统一环境下跑常见任务(生成博客、修复代码、写接口文档)

  • 结合用户打分与成功率评分

  • 提供不同模型的“能力雷达图”与“最适合任务推荐”


OpenAI推出全新GPT-4.1系列模型,主打代码能力与工程落地

OpenAI于本周一正式发布新一代模型系列 GPT-4.1,包括标准版、GPT-4.1 mininano 轻量版,主打提升代码生成指令跟随能力。该系列目前仅通过API开放,不在ChatGPT内提供。

💡 GPT-4.1的关键升级

  • 百万Token上下文窗口:支持处理约75万字输入,远超此前的GPT-4o。

  • 专注软件工程:强调对前端开发、格式遵循、响应结构、工具调用等场景的适配。

  • 性能对比

    • GPT-4.1在多个代码基准上表现超越GPT-4o;

    • 但在SWE-bench Verified(人类验证的代码测试集)中,得分略低于Google Gemini 2.5 Pro(63.8%)和Claude 3.7 Sonnet(62.3%),介于**52%-54.6%**之间;

    • Video-MME视频理解测试中,GPT-4.1在“无字幕长视频”类别中取得72%准确率,位居榜首。

🧠 OpenAI的长期目标:AI软件工程师

OpenAI高管曾公开表示,其愿景是打造“具备代理能力的AI工程师”,能够从0到1完成一个应用开发过程,涵盖质量保障、文档编写、Bug修复等多项任务。

此次发布被视为迈向这一目标的重要一步。

⚙️ 模型定价:

模型版本 输入费用(百万Token) 输出费用(百万Token) 特点说明
GPT-4.1 $2 $8 全功能,性能最佳
GPT-4.1 mini $0.40 $1.60 平衡性能与效率
GPT-4.1 nano $0.10 $0.40 速度最快,最便宜,但精度稍弱

⚠️ 限制与挑战

  • 处理长输入时准确率下降:OpenAI自测显示,在处理100万token输入时,准确率由84%降至50%。

  • “过于字面”理解:相比GPT-4o,GPT-4.1更容易需要精确提示才能生成理想输出。

  • 仍存在Bug与安全问题:如同现有大模型,GPT-4.1也可能生成含有漏洞的代码。


总结:GPT-4.1是OpenAI针对开发者推出的工程落地型模型升级,在代码相关任务上更可靠、高效,已然是构建AI工具、Agent的理想起点,尽管仍有挑战,但正在向“AI程序员”迈进。


04月14日 星期一

Meta的“原味”Maverick模型在聊天基准测试中表现不佳

Meta近日因使用未发布的实验版Llama 4 Maverick模型在聊天模型基准平台LM Arena上刷分,引发争议。LM Arena随后道歉并修订评分政策,改为对未改动的原始Maverick模型进行评估。

结果显示,原版Llama-4-Maverick-17B-128E-Instruct表现远逊于竞争对手,包括OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet,以及Google的Gemini 1.5 Pro——这些模型早在数月前就已发布。

Meta此前使用的是专门为“对话性”优化的实验版本(Llama-4-Maverick-03-26-Experimental),更易获得人类评审青睐,因此在LM Arena中得分较高。这种“为评测而优化”的做法被质疑为误导开发者,并可能导致模型在真实场景下的表现不稳定。

Meta回应称,他们持续尝试各种自定义模型变体,并已开源正式版本Llama 4,期待开发者探索不同应用场景并反馈使用体验。


OpenAI未来API接入将要求实名认证

OpenAI计划对未来部分AI模型开放权限前,要求开发者完成“实名认证组织(Verified Organization)”流程,需提供政府签发身份证件。该措施旨在防止模型滥用、提升平台安全,尤其针对潜在的违规行为和数据盗用风险。


04月03日 星期四

OpenAI计划组建顾问小组,为非营利目标提供建议

OpenAI正在组建一个专家顾问小组,以帮助其“理解当前非营利组织面临的最紧迫和最难解决的问题”。该小组将重点收集来自健康、科学、教育和公共服务领域的领导者和社区的反馈,尤其是来自加州的意见,并将在4月正式公布。

该顾问小组将在90天内向OpenAI董事会提交见解,董事会将在2025年底前参考这些见解,调整其非营利机构的发展方向。

向传统企业转型,软银或成关键推力
OpenAI最初成立于2015年,作为非营利研究机构运作。但随着AI研究成本的激增,公司引入了外部投资,并采用“非营利机构控制的有限盈利结构”。目前,OpenAI计划将其现有的盈利机构转变为一家传统企业,普通股将向投资者开放,而原有的非营利机构则获得数十亿美元作为放弃控制权的补偿。

这一转换对OpenAI至关重要。如果无法在2025年底前完成,软银等投资者可能会撤回数十亿美元的承诺资金。


OpenAI的o3模型运行成本或远高于预期

OpenAI的o3“推理”模型可能比最初估计的更昂贵。据ARC-AGI基准测试的维护方Arc Prize Foundation最新数据,o3高配版本解决单个任务的成本可能高达3万美元,而非最初估计的3000美元。

这一修正突显了先进AI模型的高昂运行成本,特别是在计算资源密集的任务中。尽管OpenAI尚未正式公布o3的定价,但外界普遍认为其成本可能接近o1-pro——OpenAI迄今最昂贵的模型。此外,有传言称OpenAI计划向企业客户收取高达2万美元/月的费用,以提供专用AI代理。

尽管AI可能比人类员工更便宜,但AI模型的效率仍存疑。例如,o3高配版本在ARC-AGI测试中需要1024次尝试才能达到最佳分数,显示其计算资源消耗惊人。


04月01日 星期二

Runway发布全新AI视频生成模型Gen-4

AI创业公司Runway推出新一代视频生成模型Gen-4,号称具备最高保真度,可在不同场景中保持角色、地点和物体的一致性,并生成具有真实物理特性的动态视频。用户可通过参考图像与文本描述创建符合特定风格的视频。Runway正在与好莱坞合作,并寻求40亿美元估值融资。然而,该公司仍面临版权诉讼,AI视频生成技术对影视行业的影响正引发广泛关注。


OpenAI计划发布新的“开放”AI语言模型

OpenAI宣布将在未来几个月内推出其首个“开放”语言模型,这是自GPT-2以来的首次。该公司正向开发者和研究人员征求反馈,并计划在旧金山、欧洲及亚太地区举办开发者活动,以收集意见并展示模型原型。此举被认为是对Meta和DeepSeek等竞争对手开放策略的回应,表明OpenAI正重新考虑其开源战略。


ChatGPT新图像生成器可生成逼真收据,或引发欺诈风险

OpenAI的ChatGPT 4o图像生成器在生成带文本的图像方面表现出色,用户已利用其制作高度仿真的虚假收据。尽管OpenAI强调所有AI生成图像都包含元数据,并承诺采取行动防止滥用,但其放宽的内容审核政策仍引发了对AI欺诈风险的担忧。


03月31日 星期一

OpenAI放宽ChatGPT图像生成限制

OpenAI在ChatGPT中推出新的图像生成器,并调整内容审核政策,允许生成公众人物、种族特征及特定符号的图像。官方称此举是为了减少不必要的限制,但仍保留对儿童等敏感内容的严格审核。

Musk整合xAI与X,数据与AI结合更紧密

Elon Musk宣布xAI收购X(原Twitter),两者将在数据、模型和计算资源上深度融合,推动AI与社交平台的一体化发展。

AI搜索战升级:Claude整合Brave Search

Anthropic在Claude AI中加入Brave Search,使其能提供带来源的实时信息,增强搜索可信度,与OpenAI和Google展开竞争。


xAI收购X,整合AI与社交平台

Elon Musk宣布其AI公司xAI以全股票交易方式收购社交平台X(原Twitter),合并估值达80亿美元(xAI)与33亿美元(X)。此次收购将X的用户数据、计算资源与xAI的AI模型深度融合,推动Musk的AI战略。

Anthropic为Claude集成Brave Search

Anthropic在Claude聊天机器人中加入Brave Search搜索功能,使其具备实时信息访问能力,并可为回答提供来源引用,提升AI搜索的可靠性。

最新AI模型发布概览

  • Google Gemini 2.5 Pro:高级推理能力,适用于Web应用开发。

  • OpenAI GPT-4o图像生成器:支持图像生成,ChatGPT Plus用户可用。

  • Stable Virtual Camera:将2D图像转化为3D场景,仅供研究用途。

  • Cohere Aya Vision:多模态AI,擅长图像描述与多语言任务。

  • Anthropic Claude Sonnet 3.7:首款“混合”推理模型,提供快速响应和深入分析。


2025 年发布的热门 AI 模型

1. 语言模型

  • OpenAI GPT-4o Image Generator:GPT-4o 现在能生成图像,特别适用于动漫风格创作(但有版权争议)。

  • Claude Sonnet 3.7(Anthropic):“混合推理”模型,能快速回答问题或深入思考,用户可控制 AI 思考时间。

  • OpenAI GPT-4.5 “Orion”:OpenAI 迄今最大的模型,强调“世界知识”和“情感智能”。

  • xAI Grok 3:主打数学、科学、编程能力,但仍需 X Premium 订阅($50/月)。

  • OpenAI o3-mini:优化 STEM 任务,成本较低。

2. 生成式 AI(多模态)

  • Stable Virtual Camera(Stability AI):从单张 2D 图片生成 3D 场景,仍在优化复杂场景的表现。

  • Cohere Aya Vision:多模态 AI,擅长图片字幕生成,支持多语言。

3. 研究与智能代理

  • OpenAI Deep Research:专为深入研究而设计,支持引用,但仍然有幻觉问题($200/月)。

  • OpenAI Operator:类似“个人助理”,能独立完成任务(例如代购),但实验性较强。


2024 年发布的热门 AI 模型

1. 语言模型

  • Meta Llama 3.3 70B:Meta 最新开源 AI,性价比高。

  • OpenAI o1:带有隐藏推理功能,提升代码、数学、逻辑能力。

  • DeepSeek R1(中国)**:开源且免费,但受中国审查影响。

2. 生成式 AI

  • OpenAI Sora:文本生成视频,能创建完整场景,但物理规律仍有瑕疵。

  • xAI Aurora:xAI 的图像生成器,画面高度写实,但存在暴力内容风险。

3. RAG(检索增强生成)

  • Cohere Command R+:用于企业级检索增强生成(RAG),能够准确引用信息。


趋势分析

  1. OpenAI 继续扩张

    • 推出多个新模型(GPT-4.5、Deep Research、Operator),但 Pro 级功能价格高达 $200/月

    • AI 代理(Operator)开始执行独立任务,显示出“智能体”趋势。

  2. Anthropic 强调混合推理

    • Claude Sonnet 3.7 在快/慢推理间灵活切换,提升可用性。

  3. Google 仍主打 Gemini

    • Gemini 2.5 Pro 擅长代码和通识知识,但部分基准测试落后于 Claude。

  4. xAI(马斯克)挑战主流 AI

    • Grok 3 在 STEM 领域表现强势,但仍需付费订阅 X Premium。

  5. RAG(检索增强生成)和研究 AI 受关注

    • Deep Research(OpenAI)和 Command R+(Cohere)代表 AI 研究和信息检索的发展方向。

  6. 多模态 AI 进化

    • Stable Virtual Camera 提供 3D 生成能力,Aya Vision 强调跨语言图像理解。


03月24日 星期一

DeepSeek 爆火:这款 AI 聊天机器人如何迅速走红?

中国 AI 研究实验室 DeepSeek 近期凭借其 AI 聊天机器人应用迅速登上 Apple App Store 和 Google Play 排行榜首位,引发全球关注。DeepSeek 采用高效的计算技术训练 AI 模型,其成功让华尔街分析师和技术专家重新思考美国在 AI 竞赛中的领先地位以及 AI 芯片市场的未来趋势。

DeepSeek 的背景与崛起

DeepSeek 由中国量化对冲基金 High-Flyer Capital Management 孵化,该基金由 AI 爱好者梁文峰于 2015 年创立,2019 年正式成立对冲基金,并在 2023 年创建 DeepSeek 实验室,专注于 AI 研究。DeepSeek 依靠自主搭建的数据中心训练模型,但受到美国对华芯片出口限制的影响,被迫使用性能较低的 Nvidia H800 芯片进行训练。

DeepSeek 的 AI 模型

DeepSeek 于 2023 年 11 月推出 DeepSeek Coder、DeepSeek LLM 和 DeepSeek Chat,随后在 2024 年春季发布了性能更强、成本更低的 DeepSeek-V2 模型,推动国内竞争对手如字节跳动和阿里巴巴降低 AI 模型的使用价格甚至提供免费服务。2024 年 12 月,DeepSeek-V3 上线,其推理模型 R1 具备自我校准能力,在物理、科学和数学等领域表现优异。

然而,由于 DeepSeek 属于中国开发的 AI 模型,其服务需符合中国互联网监管标准,例如在聊天机器人应用中,R1 无法回答涉及特定历史和政治话题的问题。

商业模式与国际影响

DeepSeek 以极低的价格甚至免费提供 AI 模型,并未引入外部投资,这一策略在 AI 领域颠覆传统商业模式。其模型已在 Hugging Face 平台上衍生出 500 多个版本,累计下载量达 250 万次。DeepSeek 的成功影响了全球科技巨头,导致 Nvidia 股价一度下跌 18%,OpenAI 和 Meta 也对其策略表示关注。

尽管微软将 DeepSeek 纳入 Azure AI Foundry,部分国家和企业已对其实施禁令,包括韩国、纽约州和美国政府设备上禁用 DeepSeek。未来,DeepSeek 的发展方向尚不明朗,但其 AI 技术创新已在全球市场引发重大变革。

来源TechCrunch


Browser Use 融资 1700 万美元,助力 AI 代理更智能地浏览网页

Browser Use 是一家专注于优化 AI 代理与网页交互的初创公司,近日完成了 1700 万美元的种子轮融资。本轮融资由 Felicis 的 Astasia Myers 领投,Paul Graham、A Capital 和 Nexus Venture Partners 参与。

这家来自 ETH Zurich 的创业团队开发了一种技术,可以将网页的按钮和元素转换为更易被 AI 代理理解的“文本化”格式,从而提高 AI 代理的自主决策能力,并降低运行成本。目前,已有超过 20 家 Y Combinator 2025 冬季批次的公司在使用 Browser Use 的技术,而中国初创公司 Butterfly Effect 旗下的 AI 代理工具 Manus 更是推动了其在市场上的知名度。

Felicis 认为,Web AI 代理将成为 AI 发展的重要方向,而 Browser Use 的开源策略和创新技术使其成为该领域的有力竞争者。

来源TechCrunch


03月17日 星期一

英伟达AI公司投资简阅

英伟达在人工智能领域的投资活动显著增加,特别是在2024年。以下是英伟达自2023年以来参与投资的部分初创公司,按融资金额从高到低排列:

融资超过10亿美元的公司:

  • OpenAI:2024年10月,英伟达首次投资OpenAI,参与了总额66亿美元的融资轮次。

  • xAI:由埃隆·马斯克创立的xAI在2024年初完成了60亿美元的融资,英伟达也是投资者之一。

  • Inflection:2023年6月,英伟达参与了Inflection的13亿美元融资。

  • Wayve:2024年5月,英伟达参与了Wayve的10.5亿美元融资,该公司致力于开发自动驾驶技术。

  • Scale AI:2024年5月,英伟达与亚马逊和Meta等公司共同投资了Scale AI的10亿美元融资轮次。

融资数亿美元的公司:

  • Crusoe:2024年11月,英伟达参与了Crusoe的6.86亿美元融资。

  • Figure AI:2024年2月,英伟达与OpenAI Startup Fund、微软等共同投资了Figure AI的6.75亿美元B轮融资。

  • Mistral AI:2024年6月,英伟达再次投资了Mistral AI的6.4亿美元B轮融资。

  • Lambda:2024年2月,英伟达参与了Lambda的4.8亿美元D轮融资,该公司提供AI模型训练的云服务。

  • Cohere:2024年6月,英伟达投资了Cohere的5亿美元融资,该公司为企业提供大型语言模型服务。

  • Perplexity:自2023年11月起,英伟达参与了Perplexity的每一轮融资,包括2024年12月的5亿美元融资。

  • Poolside:2024年10月,英伟达参与了Poolside的5亿美元融资,该公司专注于AI编码助手。

  • CoreWeave:2023年4月,英伟达投资了CoreWeave的2.21亿美元融资,该公司提供AI云计算服务。

  • Together AI:2025年2月,英伟达参与了Together AI的3.05亿美元B轮融资。

  • Sakana AI:2024年9月,英伟达投资了Sakana AI的2.14亿美元A轮融资。

  • Imbue:2023年9月,英伟达参与了Imbue的2亿美元融资。

  • Waabi:2024年6月,英伟达投资了Waabi的2亿美元B轮融资,该公司专注于自动驾驶技术。

融资超过1亿美元的公司:

  • Ayar Labs:2024年12月,英伟达参与了Ayar Labs的1.55亿美元融资。

  • Kore.ai:2023年12月,英伟达投资了Kore.ai的1.5亿美元融资,该公司开发企业级AI聊天机器人。

  • Hippocratic AI:2025年1月,英伟达参与了Hippocratic AI的1.41亿美元B轮融资。

  • Weka:2024年5月,英伟达投资了Weka的1.4亿美元融资,该公司提供AI原生数据管理平台。

  • Runway:2023年6月,英伟达参与了Runway的1.41亿美元C轮融资,该公司为多媒体内容创作者提供生成式AI工具。

  • Bright Machines:2024年6月,英伟达投资了Bright Machines的1.26亿美元C轮融资,该公司专注于智能机器人和AI驱动的软件。

  • Enfabrica:2023年9月,英伟达参与了Enfabrica的1.25亿美元B轮融资,该公司设计网络芯片。

Google Gemini 2.0 被发现可去除水印,引发版权争议

Google 最新的 Gemini 2.0 Flash AI 模型被发现可以 去除图片水印,包括 Getty Images 等知名图库的水印,引发版权争议。

Gemini 2.0 Flash 近期开放 图像生成和编辑功能,但用户发现它不仅能生成 名人和受版权保护的角色,还可以 智能填补水印删除后的空白,比现有 AI 工具表现更为强大。而且 Gemini 2.0 Flash 目前免费,这可能会加剧滥用问题。

尽管 Google 标注该功能为 “实验性”,仅限开发者使用,但 Gemini 2.0 Flash 仍能轻松去除 部分不透明水印,尽管在 半透明或覆盖大面积的水印 上表现较差。

相比之下,OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3.7 Sonnet 明确拒绝水印去除,后者甚至警告称这 “不道德且可能违法”。美国法律规定,未经版权所有者同意移除水印通常是非法的

Google 目前尚未对此做出回应。但随着 AI 技术发展,这一问题可能会引发 更多监管审查版权持有者的法律行动

来源:TechCrunch


03月10日 星期一

Musk仍有机会阻止OpenAI转为营利性公司

Elon Musk 在对 OpenAI 的诉讼中遭遇挫折,但法官的裁决仍为他提供了一线希望。

Musk指控OpenAI 背弃非营利使命,转向营利模式,并试图阻止其转换为 公益性公司(PBC)。尽管加州联邦法官 Yvonne Gonzalez Rogers 拒绝了Musk的初步禁令请求,但她表示 公益资金支持的非营利机构转换为营利机构可能造成“重大且不可挽回的损害”

法官指出,OpenAI联合创始人 Sam AltmanGreg Brockman 过去曾承诺不会借OpenAI牟利。她同意在 2025年秋季加速审理 该案,Musk的法律团队已接受这一提议。

此外,加州和特拉华州检察官正在调查此事,法官的担忧可能促使监管机构 加大审查力度。不过,法庭认为Musk团队的证据不足,无法证明 OpenAI违反合同,也未能证明OpenAI的转换会对Musk的AI公司 xAI 造成“不可弥补的损害”。

OpenAI需在2026年前完成转型,否则部分融资可能转换为债务。前OpenAI员工担忧,如果OpenAI完全转向营利模式,盈利动机可能会压倒AI安全和公益目标

未来几个月,这场法律战的走向将更加明朗,监管机构、AI安全倡导者和投资者都在密切关注


Tammy Nam出任AI广告初创公司Creatopy CEO

AI驱动的广告创作平台 Creatopy 任命 Tammy Nam 为新任CEO。

Nam曾担任 PicsArt 的COO和CMO,以及视频流媒体平台 Viki 的CEO。她表示,Creatopy希望找到一位熟悉早期创业公司扩张、具备欧洲市场经验,并深谙营销技术的美国高管,而她正符合这一需求。

Creatopy此前由 Dan Oros 领导,他现已转任顾问。公司去年完成了 1000万美元A轮融资,投资方包括3VC和Point Nine。

过去一年,Creatopy的 中型及企业级收入增长400%,客户包括 阿斯利康(AstraZeneca)、NASCAR、《经济学人》 等。Nam强调,Creatopy凭借 直观界面、独特产品功能和优质客户服务 赢得市场,特别是在制药和金融等高标准行业。

她还指出,品牌安全是Creatopy的核心,客户可上传品牌手册,确保AI生成广告符合品牌规范。Nam总结道:“我们的AI不会取代战略思维,而是放大它。”


 

02月28日 星期五

OpenAI发布GPT-4.5 “Orion”:迄今最大AI模型

OpenAI推出了其迄今为止最大、最先进的AI模型GPT-4.5(代号:Orion)。该模型在计算能力和数据量上达到前所未有的水平,尽管如此,OpenAI并未将其定义为“前沿模型”,表明AI扩展可能正面临收益递减的情况。

GPT-4.5在多个基准测试中超越了GPT-4o,展现了更高的情感智能和更自然的互动能力,尤其在创意写作等任务中表现优异。然而,运行成本极高,API定价比GPT-4o贵得多,因此其长期提供情况仍未确定。

目前,ChatGPT Pro用户和开发者已能访问GPT-4.5,其他用户将在不久后获得访问权限。


02月18日 星期二

DeepSeek发布绘图图像识别模型,Janus Pro 7B,免费开源!

DeepSeek近期发布了其最新的多模态AI模型——Janus Pro 7B。该模型在文本生成图像和视觉理解方面表现出色,性能超越了OpenAI的DALL-E 3。在DPG-Bench基准测试中,Janus Pro 7B达到了84.2%的准确率,显示出其卓越的能力。

Janus Pro 7B的主要特点:

  • 统一架构:Janus Pro 7B采用了创新的双路径设计,将视觉编码和生成任务解耦,提高了模型的灵活性和性能。

  • 高质量生成:该模型能够根据文本描述生成高质量的图像,满足各种创意需求。

  • 开源许可:Janus Pro 7B采用MIT开源许可证,研究人员和开发者可以自由访问和使用,推动AI领域的创新。

技术规格:

  • 核心架构:基于DeepSeek-LLM-7b-base,配备SigLIP-L视觉编码器,支持高达384×384分辨率的图像输入。

  • 模型版本:提供1B和7B两种版本,满足不同的部署需求。

  • 性能指标:在DPG-Bench上,Janus Pro 7B达到了84.2%的准确率,超越了DALL-E 3等主流模型。

Janus Pro 7B的发布标志着DeepSeek在多模态AI领域的重大突破。未来,DeepSeek计划继续优化Janus Pro,并探索更多应用场景,以进一步提升模型性能。


02月17日 星期一

DeepSeek如何赋能职场应用?-从提示语技巧到多场景应用-清华大学等

原PDF分享


OpenAI试图“解禁”ChatGPT,推崇言论自由

2025年2月16日,OpenAI宣布将更新其AI模型的训练方式,明确支持“知识自由”,无论话题多么具有挑战性或争议性。这意味着ChatGPT将能够回答更多问题,提供更多视角,减少其不涉及的主题。

新的模型指南:拥抱知识自由

OpenAI发布了其Model Spec更新,这是一份187页的文件,规定了公司如何训练AI模型的行为。更新中加入了一个新的指导原则:不撒谎,即不做虚假陈述,也不遗漏重要背景信息。

OpenAI表示,他们希望ChatGPT保持中立立场,不对某些用户认为道德上错误或冒犯的话题做出判断。因此,ChatGPT将提供关于有争议话题的多种视角。例如,在谈及“Black Lives Matter”时,ChatGPT会说“Black lives matter”,同时也提及“All lives matter”。而非拒绝回答或偏袒某一方,OpenAI希望ChatGPT表达对全人类的“热爱”,并提供相关背景。

影响与反应

这些变化可能是OpenAI希望获得特朗普政府好感的一部分,但也可能代表硅谷对于“AI安全”定义的更广泛转变。一些保守派批评OpenAI的内容审查政策,认为ChatGPT偏向于左翼立场。马斯克等人曾指责OpenAI故意进行AI审查。

OpenAI对此回应,表示这并非为了迎合特朗普政府,而是公司长期支持赋予用户更多控制权的信念。尽管如此,这些变化也引发了争议,特别是关于AI是否应该在敏感话题上采取中立立场的问题。

自由言论的挑战

OpenAI承认,这一政策可能会引发争议,因为AI将不再明确站在某一立场上。但公司认为,AI助手的目标是帮助人类,而非塑造人类的观点。对于一些敏感问题,ChatGPT仍然会拒绝回答明显不真实的内容,或者不会支持明显的谎言。

OpenAI的这一举措似乎也与硅谷其他公司重新审视言论自由的立场有关。例如,Meta和X(前Twitter)都已经开始放松内容审查政策,允许更多争议性言论。

未来展望

OpenAI的改变标志着硅谷在言论自由与AI安全之间平衡的重新审视。随着技术进步,AI模型的表现越来越精确,如何处理敏感话题的决策变得愈加重要。这种转变或许将影响AI模型未来在信息传播和决策中的角色。

来源:TechCrunch


02月13日 星期四

马斯克表示若OpenAI董事会同意条件将撤回收购非营利组织的提议

2025年2月12日,马斯克在一份法庭文件中表示,如果OpenAI董事会同意保持该非营利组织的使命,并停止其向营利性公司转型的计划,他将撤回以974亿美元收购OpenAI非营利组织的提议。

马斯克提议的条件

马斯克的律师在文件中强调,马斯克的收购提案是“严肃的”,并且认为OpenAI的非营利组织应该根据其资产的市场价值获得公平的补偿。马斯克表示,如果OpenAI同意停止其资产出售和转型进程,他将撤回提案。

背景

马斯克的收购提议是在2025年2月9日首次提出的,他通过其AI公司xAI和投资者团体向OpenAI非营利组织发出了价值974亿美元的收购要约。OpenAI首席执行官Sam Altman以及董事会迅速拒绝了这一提议,称该非营利组织“不出售”。此举也加剧了马斯克与OpenAI之间的法律斗争,去年他曾因OpenAI涉嫌反竞争行为和欺诈等问题起诉该公司。

OpenAI的结构变化

OpenAI最初成立为非营利组织,2019年转变为“有上限的营利性”结构。目前,OpenAI正在进行重组,计划转型为传统的营利公司(公共利益公司)。马斯克则通过诉讼寻求阻止这一转型,认为其违反了OpenAI的公益使命。

来源:TechCrunch


OpenAI推迟发布o3 AI模型,转而推出统一版GPT-5

OpenAI宣布取消原定推出的o3 AI模型,并计划发布一个“统一”的下一代版本——GPT-5。这一决策由OpenAI CEO Sam AltmanX上公布,他表示新模型将整合OpenAI的多项技术,包括o3,作为ChatGPT和API的一部分。

新的AI发展路线

OpenAI原定在2025年初推出o3,但现在计划推迟该模型,并在未来几个月推出集成多个功能的GPT-5。GPT-5将包括语音、画布、搜索、深度研究等多个新特性,并且旨在简化产品,消除用户在选择模型时的困扰。

GPT-5与GPT-4.5的推出

在GPT-5正式发布之前,OpenAI还将推出GPT-4.5(代号Orion),预计将在接下来几周内上线。GPT-4.5是OpenAI最后一个“非推理”模型,而推理模型(如o3和GPT-5)会提供更可靠和更具能力的功能。

未来计划

OpenAI强调将进一步整合技术,以便开发出能够应对更广泛任务的系统,同时对抗其他竞争者,特别是中国AI实验室DeepSeek的R1模型。Altman表示,OpenAI将加速推出新版本,以保持技术领先。

来源:TechCrunch


02月12日 星期三

马斯克97.4亿美元收购提议可能搁置OpenAI的盈利转型

马斯克提出以97.4亿美元收购主导OpenAI的非盈利机构,此举由他的AI公司xAI以及外部投资者支持,可能会扰乱OpenAI正在进行的盈利转型计划。

OpenAI盈利转型的挑战

OpenAI最初为非盈利组织,但自2019年起转变为“有限利润”结构,当前正在尝试转型为传统的公益公司(PBC),以吸引更多资金。马斯克的收购提议让这一转型过程更加复杂,尤其是在监管机构要求更多信息的情况下。

法律与监管风险

马斯克的收购提议可能会导致法律和监管挑战,OpenAI的董事会可能需要评估这笔交易是否符合其使命,并考虑是否低估了其非盈利资产的价值。

收购提议可能提高资产估值

尽管董事会很可能会拒绝马斯克的提议,但这一举动已经提升了OpenAI资产的市场价值,这可能促使OpenAI筹集更多资金并加剧与现有投资者的谈判。

来源:TechCrunch


ChatGPT:可能不像曾经认为的那样能耗巨大

ChatGPT,OpenAI 的聊天平台,可能并不像过去认为的那样消耗大量电力。根据 Epoch AI 研究所的最新分析,ChatGPT 的能耗在很大程度上取决于其使用方式以及提供回答的 AI 模型。

根据 Epoch AI 的数据分析,ChatGPT 的每次查询平均仅消耗 0.3 瓦时,远低于许多家用电器的能耗。与曾广泛报道的 3 瓦时 能耗估算相比,这一数字显得更为合理。研究表明,实际能耗远低于过去的一些估算,且并不会对日常生活造成显著影响。

Epoch AI 的数据分析师 Joshua You 表示,ChatGPT 的电力消耗与使用普通家用电器、取暖或空调所消耗的能量相当,因此“并不像大家想象的那样,AI 会消耗大量能源”。

此前,许多公开讨论关于 AI 能耗的报告给出了 3 瓦时 的估算,Epoch 认为这是基于旧的技术和不准确的计算方法。具体来说,过去的报告认为 OpenAI 使用的处理器不够高效,从而高估了能耗。

尽管 Epoch 的 0.3 瓦时 的数据也是估算值,并未完全排除其他因素(例如 图像生成长输入 的查询可能消耗更多电力),但相较于以前的估算,这一数字显然更具现实意义。

未来 AI 能耗或将增加

尽管目前 ChatGPT 的功耗相对较低,但随着 AI 的不断发展,未来的 推理模型(Reasoning Models)将会变得更加复杂,所需的计算资源和能源也会显著增加。推理模型 需要更长时间的计算来得出结果,因此会更加耗费电力。

例如,OpenAI 已经开始发布一些 更高效的推理模型(如 o3-mini),但随着 AI 使用量的增加以及推理模型的普及,电力需求可能会呈现指数级增长。未来的 AI 数据中心可能需要 大规模扩展,以支持这一增长的需求。

来源: TechCrunch


02月10日 星期一

DeepSeek加速汽车智能化,多家车企宣布合作

吉利、极氪、岚图、智己等车企宣布与DeepSeek模型深度融合。例如,吉利自研星睿大模型与DeepSeek-R1结合,岚图知音成为首款搭载该系统的量产车型。此举将提升车辆智能交互体验,推动汽车行业智能化转型。


OpenAI内部模型达GPT-4.5水平,开源计划逐步推进

OpenAI CEO Sam Altman透露,公司内部模型已升级至相当于GPT-4.5的水平,并计划未来6-12个月内开发更高效的小型推理模型。同时,OpenAI表示将逐步走向开源,但具体时间表尚未确定。


中国三大电信运营商全面接入DeepSeek模型

工信部数据显示,2025年春节期间移动互联网流量同比增长9.9%,三大基础电信企业(中国移动、联通、电信)已全面接入开源大模型DeepSeek,推动AI技术在通信服务中的多场景应用,助力技术普惠。


苹果发布多款新品,AI技术成核心亮点

苹果计划于2025年推出双折叠屏手机,配备自研调制解调器,并有望搭载屏下摄像头技术。同时,苹果将于本周发布iPhone SE 4,该机型将采用刘海屏设计,支持Face ID,并搭载A18芯片及8GB RAM,进一步提升AI处理能力。
苹果CEO库克现身新奥尔良,参与超级碗中场秀赞助活动,Apple Music与娱乐领域的深度合作凸显其AI在内容生态中的应用。


DeepSeek:快速崛起的 AI 聊天机器人应用,挑战全球 AI 格局

DeepSeek,一家来自中国的 AI 实验室,近期凭借其 AI 聊天机器人应用迅速登顶 苹果 App Store 和 Google Play,成为全球关注的焦点。其 AI 模型因计算效率高、成本低,不仅引发了 华尔街 对美国 AI 领先地位的讨论,还让行业巨头如 OpenAI、Meta 和 Nvidia 受到冲击。

DeepSeek 的背景与发展

DeepSeek 由 对冲基金 High-Flyer Capital Management 孵化,最初专注于 AI 交易算法,后于 2023 年独立运营。公司在硬件受限的情况下,依靠 Nvidia H800 等芯片打造了 DeepSeek-V2、DeepSeek-V3 等强大模型,迫使 ByteDance、阿里巴巴 等国内对手下调 AI 服务价格,甚至部分免费开放。

DeepSeek 强劲的 AI 模型

  • DeepSeek-V3:超越 Meta Llama、挑战 OpenAI GPT-4o,提供更强大的 文本和图像分析能力
  • DeepSeek R1(推理模型):自带 事实验证,在物理、科学、数学等领域表现更可靠。

DeepSeek 的 AI 生态已在 Hugging Face 平台积累超 250 万次下载,成为全球开发者追捧的 AI 解决方案之一。

DeepSeek 的商业模式与未来挑战

目前,DeepSeek 采用 极低定价或免费 的方式抢占市场,这一策略引发业内争议,并导致 Nvidia 股价大跌 18%。与此同时,微软 Azure AI Foundry 已整合 DeepSeek 模型,但部分企业和政府对其数据安全性存疑,甚至采取 禁用 措施。

在全球 AI 竞争加剧的背景下,DeepSeek 的未来发展仍充满变数,但其影响力已不可忽视。

来源: TechCrunch


OpenAI CEO Sam Altman 承认 AI 红利可能无法广泛分配

Altman 在个人博客中表示,OpenAI 正在考虑“计算预算”等新概念,以确保 AI 的使用更加普及。他承认,AI 可能会导致资本与劳动的平衡被打破,需要政策介入。此外,他重申 AGI 可能即将到来,并强调 OpenAI 需要在安全与个人赋能之间做出权衡。
来源: TechCrunch


02月05日 星期四

Google为使用Magic Editor AI编辑的图片添加数字水印

谷歌宣布,从本周开始,它将在使用Magic Editor中的Reimagine功能编辑的图片中添加数字水印。Reimagine于2024年推出,利用生成AI对数字照片进行编辑,允许用户对设备拍摄的照片进行更多戏剧性的修改,模糊了数字照片与完全由AI生成的图像之间的界限。

随着生成AI图像越来越逼真,数字倡导者呼吁采用一种通用方法,让公众能够识别照片是否为完全生成。数字水印被认为是潜在的解决方案,因为它可以在不直接改变图像内容的情况下添加到文件中。

谷歌将使用SynthID来标记相关图片。SynthID由谷歌的DeepMind部门开发,能够“将数字水印直接嵌入到AI生成的内容中,而不影响原始内容”。该功能目前处于测试阶段,还可以用于扫描AI生成的文本和视频文件。

用户还可以通过点击“关于此图片”查看图片的元数据,找到数字水印。谷歌表示,某些小幅编辑可能不会触发SynthID的使用,例如如果你仅更改图片中背景小花的颜色。

这一功能的推出是谷歌在Google Photos中提高AI编辑透明度的一部分,旨在根据其发布的AI原则来推动这一决策。


OpenAI更新o3-mini模型思维过程

为了应对DeepSeek等竞争对手的压力,OpenAI决定更新其最新的AI模型o3-mini的“思维链”,让用户能看到更多的推理步骤和如何得出答案。从本周起,ChatGPT的免费和付费用户将能看到更新后的推理过程,提升透明度和用户对回答的信任感。

之前,OpenAI只显示了推理过程的总结,偶尔会出现错误。而新的更新将提供更清晰的思维链总结,并且经过后处理,确保安全性并简化复杂概念,同时支持非英语用户使用本地语言查看。

尽管o3-mini仍未完全公开其推理过程,但这次更新已显著提升了用户体验和理解度,展现了OpenAI在平衡透明度与竞争战略方面的努力。


Tesla Dojo:马斯克打造AI超级计算机计划

特斯拉的AI超级计算机Dojo旨在加速其“完全自动驾驶”(FSD)技术的发展。Dojo将训练FSD神经网络,帮助特斯拉实现无需人类干预的完全自动驾驶,并推动机器人出租车服务的推出。特斯拉依靠“纯视觉”方法,利用摄像头和神经网络处理全球车辆收集的视觉数据,模拟人类视觉系统的处理能力。

特斯拉目前还在建设Cortex超级集群,旨在处理FSD训练所需的大量数据。通过Dojo,特斯拉计划推送AI训练软件到用户汽车,助力自动驾驶功能的发展。虽然一些专家对单纯通过数据堆砌提升模型智能的方式表示质疑,但特斯拉的目标是利用超级计算机将自动驾驶推向新高度。


Tinder引入AI匹配功能,试图扭转用户流失

你知道嘛,Tinder现在竟然决定用AI来应对用户流失的问题!为了提供比“滑动”更有趣的匹配体验,Tinder将在接下来的季度推出AI驱动的发现和匹配功能。CFO Gary Swidler在财报电话会议中提到,AI将为用户提供更个性化的匹配,但它并不会取代滑动功能,而是作为补充。

此外,Tinder还推出了另一个AI功能——AI照片选择器,帮助用户挑选最合适的个人资料照片。尽管如此,Tinder和整个约会应用行业正面临着年轻用户对在线约会疲劳、隐私问题以及不良行为等挑战。

Tinder的月活跃用户(MAU)同比下降了10%,收入也未达到预期,面临着不小的压力。为了扭转局面,Match Group还聘请了新CEO Spencer Rascoff,并希望通过AI技术带来商业转型。尽管如此,Tinder的未来能否恢复增长仍充满不确定性。


02月05日 星期三

字节跳动推出多模态数字人技术 OmniHuman:视频生成技术的新突破

在半年前引起广泛关注的肖像音频驱动技术“Loopy”之后,字节跳动数字人团队再次带来了一项突破性技术——OmniHuman。这项新技术能够结合一张图片和一段音频生成高质量的人物视频,生成的视频效果生动、自然,且可以支持不同人物占比和尺寸的图像输入。与现有技术相比,OmniHuman在视频生成的自然度和质量上有显著提升。

OmniHuman的核心技术与优势

OmniHuman的最大亮点在于其强大的多模态视频生成能力。通过使用多模态训练方法,OmniHuman能够将不同类型的数据(如图像、音频、视频和姿态)融合进模型中,从而生成更具自然感和高质量的人物视频。其特别之处在于,模型能够处理任意尺寸和人物占比的输入图像,并根据音频生成与之匹配的动作。无论是演讲、唱歌、乐器演奏还是人物的移动,OmniHuman都能生成相应的动态效果,避免了以往方法中常见的手势崩坏问题。

更令人惊讶的是,OmniHuman不仅能够生成真人人物的视频,它还对动漫和3D卡通等非真人图像输入有很好的适配能力。对于这些风格化的图像,OmniHuman能够保持其独特的运动模式,进一步扩展了其应用场景。

技术背后的创新:Omni-Conditions Training

OmniHuman技术的核心在于其创新的训练策略——Omni-Conditions Training。这一混合多模态训练方法通过将不同条件的数据(如音频、姿态、图像等)结合起来,有效地扩大了训练数据的规模,避免了传统技术中的“温室效应”。这种训练策略能够让模型学习到更强大的运动模式,同时从大规模数据中获得更多有价值的信息,解决了以往数据稀缺的瓶颈。

Omni-Conditions Training遵循两个关键原则:

  1. 较强条件的任务可以通过较弱条件的任务扩展数据规模:例如,音频和姿态条件下缺失的数据,可以通过文本和图像数据进行补充,进而扩大训练数据的多样性。
  2. 较强条件的训练比例应较低:对于运动条件(如姿态)强相关的任务,模型通常会倾向于依赖这些条件,因此训练过程中需要确保较弱条件(如音频)的训练占比较高,以避免模型过度依赖强条件。

OmniHuman的技术架构

OmniHuman采用基于扩散Transformer(DiT)的视频生成框架,使得模型能够兼容多种条件注入方式,包括文本、音频、图像和姿态。对于驱动条件,OmniHuman采用了多种创新的条件注入方法:音频特征通过cross attention进行注入,姿态特征则通过热图(Heatmap)特征编码与噪声特征拼接,而图像和文本的条件注入则保持了MMDiT模型的注入方式。

此外,OmniHuman通过去噪声网络(Denoising Net)对输入图像进行特征编码,从而进一步提高了图像特征的提取效率。这种新型的特征编码和条件注入方式大大提升了模型的生成效果和应用范围。

结果展示与效果对比

在与现有行业领先技术的比较中,OmniHuman展现出了显著的优势。无论是在生成质量、运动自然度还是在处理不同人物占比、不同图像尺寸输入方面,OmniHuman都远超传统方法。其混合多模态训练策略不仅提高了模型在人体手势生成和多样化输入图像上的表现,还确保了单一模型能够处理多种驱动条件,生成可控且生动的动态人像视频。

技术落地与未来展望

目前,OmniHuman技术已在即梦AI平台上落地,并预计将在近期开启测试。这一技术的发布不仅推动了数字人技术的发展,也为创作者、广告公司、娱乐行业等领域带来了新的创作方式和商机。OmniHuman的成功展示了字节跳动在智能创作领域的领先地位,也为未来的数字人技术开辟了新的发展方向。

总的来说,OmniHuman通过创新的多模态训练方法和强大的视频生成能力,不仅解决了以往技术中的数据稀缺和运动自然度不足的问题,还开创了一个全新的数字人创作时代。未来,随着技术的不断进步和应用场景的扩展,OmniHuman有望成为视频生成领域的标杆,为全球用户提供更加生动、自然和高质量的数字人创作体验。

相关链接


01月27日 星期一

DeepSeek:打破AI竞争格局的突破性力量

自从中国AI公司DeepSeek本周初发布其开源推理模型R1以来,全球科技界为之震动,关于这家公司成就的讨论不断升温。DeepSeek不仅在性能上与OpenAI的模型相匹敌,而且其训练成本令人瞠目结舌,创下了仅5.6百万美元的低成本,远低于美国领先企业数亿美元的支出。这一突破性的成就引发了投资界、科技巨头和分析师们的广泛讨论,尤其是在美国对中国科技公司的芯片禁运背景下,DeepSeek的成功显得尤为令人关注。

DeepSeek的“惊世之作”

DeepSeek的推理模型R1一经发布,就在多个AI基准测试中超越或匹敌OpenAI的GPT-4模型。该公司声称,R1模型的训练费用仅为传统领先AI公司训练同类模型的五分之一左右,这意味着DeepSeek在降低成本和提升效率方面实现了前所未有的突破。对于许多业内人士来说,DeepSeek的表现是一次真正的颠覆,尤其是在目前全球AI市场的技术巨头几乎垄断了先进的训练资源和算力的情况下。

这项成就不仅凸显了DeepSeek在技术上的突破,还反映了其在面对美国芯片禁运的情况下,依然能够通过创新的方法来应对资源限制。这一成果被MIT Technology Review称为“推动中国创业公司创新的新动力”,它展现了DeepSeek如何在美国出口限制下,依靠高效的资源利用和跨领域合作,突破重围。

争议与不同声音

尽管DeepSeek的成就引发了广泛关注,围绕其技术和商业模式的争议也不断升温。知名风险投资家Marc Andreessen对DeepSeek的突破表示钦佩,认为其是“我见过的最令人震惊和印象深刻的突破之一”。然而,也有一些声音提出质疑,Curai首席执行官Neal Khosla在社交媒体上暗示DeepSeek的低成本宣称可能是为了通过低价策略侵蚀美国AI市场竞争力,而没有提供相应的证据支持这一观点。

此外,《华尔街日报》报道,DeepSeek的创始人梁文锋向中国总理表示,美国的出口限制仍然对DeepSeek的技术发展构成瓶颈。尽管如此,这也并没有阻挡DeepSeek在市场上的强劲表现。DeepSeek的AI助手已经成为苹果App Store上最受欢迎的免费应用,甚至超越了ChatGPT。

美国对DeepSeek的反应

DeepSeek的低成本成功引发了美国科技界的深思。Meta首席AI科学家Yann LeCun强调,应该从开源模型超越专有模型的角度来理解DeepSeek的成功,而不是单纯将其视作中美之间的竞争。他认为,DeepSeek通过利用开源研究和技术(如Meta的PyTorch和Llama)所取得的成就,证明了开源不仅推动了自己的技术进步,也促进了全球AI技术的共同发展。LeCun还指出,DeepSeek的新想法和创新是建立在他人工作之上的,而由于其模型是开源的,全球的研究人员和开发者都能从中受益。

同时,Y Combinator的CEO Garry Tan则表示,DeepSeek的成功实际上对美国竞争者来说是一个积极的信号。他认为,随着AI训练成本的进一步降低,实际应用需求(推理)的增长将加速,从而带动计算资源的需求,推动整个AI产业的蓬勃发展。


DeepSeek的崛起不仅仅是一个技术突破,更可能是AI产业竞争格局重塑的起点。其低成本的高效能模型为全球AI产业带来了新的可能,尤其是在推进AI应用普及方面。随着DeepSeek的成功,更多公司可能会意识到,AI的技术创新并非只能依赖昂贵的计算资源和巨额的投资。相反,通过高效的算法、开放的研究和资源共享,AI技术可以变得更加可及和普及。

然而,DeepSeek的成功并非意味着全球AI技术格局的彻底颠覆。正如分析师们所言,尽管DeepSeek的低成本表现令人瞩目,但其能否在长期内维持竞争力仍是一个未知数。此外,AI技术的快速发展意味着技术不断升级,未来的竞争将不仅仅依靠成本优势,更需在性能、创新和应用方面不断寻求突破。

DeepSeek凭借其低成本的开源推理模型引发了全球科技圈的广泛关注。它不仅挑战了美国AI巨头在技术和资金上的优势,也为AI技术的未来提供了新的思路。未来,DeepSeek可能会成为全球AI行业的新标杆,推动整个产业向更加开放、创新和高效的方向发展。然而,如何在竞争激烈的AI领域中保持领先,依然是DeepSeek需要面对的重要课题。


DeepSeek:突破性开源AI模型挑战全球竞争格局

在全球人工智能(AI)技术的竞赛中,一颗新星正在崭露头角——中国AI公司DeepSeek。凭借其创新的开源AI模型和突破性的技术,DeepSeek正在对现有的AI巨头构成挑战。该公司的低成本、高效能AI模型不仅突破了传统计算资源的限制,还以开源方式进行共享,打破了传统企业对技术封闭的壁垒。深度分析其背后所带来的影响,我们可以看到,DeepSeek的成功不仅是中国AI崛起的象征,更可能重塑全球AI产业的竞争格局。

DeepSeek的突破性技术

DeepSeek成立于2023年,由前AI驱动的量化对冲基金High-Flyer的创始人梁文锋主导。公司最初推出的移动应用自发布以来,迅速成为全球市场的焦点,其App Store排名屡屡攀升。DeepSeek的核心技术在于其开源模型的推理功能——在生成答案之前,AI能够清晰地阐明其思维过程,这不仅提升了模型的透明性,也增强了用户的信任感。

更为重要的是,DeepSeek的AI模型具备高效的计算能力,能够以极低的计算成本实现与目前最先进的GPT-4o模型相当的性能。据称,DeepSeek的推理成本仅为GPT-4 Turbo的七分之一,这一优势在降低AI训练和推理成本方面具有深远意义。通过这种方式,DeepSeek不仅显著降低了AI开发的门槛,还使得AI技术更为普及,进一步推动了全球AI产业的发展。

开源:对技术封闭的挑战

与许多科技公司保持技术封闭的策略不同,DeepSeek选择了开源其AI模型。这一举措在AI领域引起了广泛关注。在过去,许多领先的AI公司,包括OpenAI和Google,都采取了封闭的商业模式,这不仅提高了技术壁垒,也导致了技术发展和应用的集中化。而DeepSeek的开源策略,打破了这种局面,使得更多的开发者和研究人员能够轻松地访问和使用这些先进的AI技术,从而推动了更多创新和应用场景的开发。

开源的优势不仅仅体现在技术层面,更在于其广泛的社会影响。开源AI模型能够促进全球范围内的知识共享与技术交流,让更多地区的研究人员和开发者能够平等地参与到AI的建设中来。这对于全球AI产业的长期发展具有深远的影响,尤其是在促进技术普及和减少技术差距方面。

产业反应与挑战

DeepSeek的成功,尤其是其低成本高效能的突破,已经引起了全球投资者和技术公司的关注。许多分析师认为,DeepSeek的出现可能会重塑全球AI技术竞争的格局。例如,Jefferies指出,DeepSeek的高效能模型可能会打破Meta、微软等公司在资本支出上的乐观预期,因为这些大型公司正在为庞大的数据中心和计算能力投入巨额资金。如果小型模型能够以更低的成本提供相似的效果,那么AI行业的资本支出可能会面临下行压力。

另一方面,Citi和Goldman Sachs等分析机构则对DeepSeek的技术是否能够在没有高级GPU的支持下实现如此突破提出了质疑。尽管DeepSeek的表现非常引人注目,但这些公司仍然认为,先进的GPU仍然是未来AI发展的关键,尤其是在最先进的AI训练中,GPU的计算能力无可替代。

然而,Bernstein和Morgan Stanley等分析师认为,DeepSeek的创新为AI技术的发展注入了新的活力,尤其是在成本控制和技术创新方面。他们认为,DeepSeek的开源模型为全球AI应用的普及提供了更多机会,尤其是在AI推理和应用的普及方面,这将推动AI进入更多消费市场和行业。

影响与未来展望

DeepSeek的崛起不仅代表着中国AI技术的快速进步,也为全球AI市场带来了新的竞争动力。随着DeepSeek等新兴企业的崛起,传统的资本雄厚的大型科技公司可能会面临更大的竞争压力,尤其是在降低AI开发成本和加速技术创新方面。

此外,DeepSeek的开源策略可能会加速AI技术的民主化,推动更多地方和领域的AI应用开发。例如,在消费市场,DeepSeek的高效能模型可能会推动智能手机等设备更广泛地集成AI技术,进一步扩展AI的应用场景。而在企业级应用中,DeepSeek的低成本模型也可能降低企业采用AI技术的门槛,加速AI在传统行业中的渗透。

对于DeepSeek来说,挑战并不仅仅来自技术领域,如何在全球范围内维护其开源模型的稳定性和安全性,如何平衡技术创新与商业化之间的关系,依然是未来发展的关键。

DeepSeek的成功标志着AI领域进入了一个新的竞争时代。随着其突破性技术的不断发展和开源策略的推广,DeepSeek不仅为全球AI产业带来了新的思考,也为技术创新和应用的普及提供了新的动力。未来,DeepSeek可能成为全球AI产业中不可忽视的力量,尤其是在低成本、高效能和开放共享的技术路径上,深刻影响着AI产业的未来走向。


DeepSeek挑战美国AI公司,改变技术投资趋势,分析师观点汇总

中国AI公司DeepSeek近期成为美国AI公司的一大潜在竞争者,展示出突破性模型,声称其性能可与领先AI模型相媲美,同时成本仅为其一小部分。DeepSeek的移动应用自今年1月发布以来,已在美国、英国和中国等主要市场的App Store中排名第一,尽管关于其宣传的真实性仍然存在疑虑。

公司背景
DeepSeek由前AI驱动的量化对冲基金High-Flyer的创始人梁文锋于2023年成立,采用开源模型,并引入了推理功能,能够在给出回答之前阐明其思维过程。

华尔街反应
DeepSeek的低成本高效能突破引发了华尔街各大分析师的不同反应:

  • Jefferies认为,DeepSeek的高效能模型可能“打破了Meta和微软等公司近期宣布的超大资本支出计划的乐观情绪”,因为DeepSeek能够以极低的计算成本提供与GPT-4o相当的性能。该公司预测,AI领域的资本支出压力可能会导致数据中心收入和利润增长的长期放缓。
  • Citi对DeepSeek的突破性成就提出质疑,认为其声称的成果是否在没有先进GPU的支持下完成仍然值得怀疑。他们指出,虽然美国公司在先进AI模型上的主导地位可能会受到挑战,但在更具限制的环境下,美国对更先进芯片的控制仍是一个优势。
  • Goldman Sachs认为,DeepSeek的成功可能会降低进入门槛,从而改变大型科技公司和初创公司之间的竞争格局。此外,DeepSeek的突破有可能对中国AI公司带来进一步的全球扩展机会,尤其是在面向消费者的应用领域。
  • Morgan Stanley则认为,如果DeepSeek的成果属实,未来可能会看到生成AI技术从超级计算机逐渐向小型电脑转移,这可能会带动相关产品(如芯片和SPE)的需求增加。
  • Bernstein指出,尽管DeepSeek的模型在成本上可能比当前模型降低了10倍,但其带来的“恐慌”反应过于夸张。他们认为,尽管AI模型的成本在逐年增加,但DeepSeek的创新为AI的持续进步提供了新的可能。

市场与技术趋势
随着DeepSeek等中国AI公司推出高效能低成本的AI模型,AI领域的竞争格局可能会发生变化。虽然部分分析师对DeepSeek的技术提出质疑,但也有观点认为,AI计算和推理成本的降低将推动AI技术的普及和应用,尤其是在面向消费者的产品中。

DeepSeek的成功,若属实,可能为全球AI产业带来更广泛的应用场景,并加剧全球AI技术竞争,尤其是在AI数据中心和相关基础设施建设方面的需求。

来源:TechCrunch


01月22日 星期三

Scale AI CEO Alexandr Wang呼吁特朗普政府增加AI投资

Scale AI的CEO Alexandr Wang在《华盛顿邮报》上刊登了一则全页广告,呼吁特朗普政府加大对人工智能(AI)的投资,以确保美国在与中国的AI竞赛中保持领先地位。

Wang在公开信中提出了五项建议,旨在帮助美国在他称之为“AI战争”的竞赛中战胜中国。他建议美国政府加大数据和计算资源的投入,改革相关法规,确保未来更多AI相关工作机会的产生。此外,他还提议到2027年使联邦机构“AI准备就绪”,并推出针对AI数据中心需求的廉价电力计划。

Wang特别强调,美国必须保持在AI领域的领先地位,因中国在AI领域的投资正在以空前速度增长,并且一些中国的AI模型(如DeepSeek)在某些行业基准测试中表现强劲。

来源:TechCrunch


OpenAI与软银和甲骨文合作,启动5000亿美元数据中心项目

OpenAI宣布与软银和甲骨文合作,推出名为“Stargate项目”的数据中心建设计划,旨在为AI提供更强大的基础设施。该项目将在美国多个州建设数据中心,首个大型数据中心将在德克萨斯州启动,预计初期投入1000亿美元,未来四年内总投资将达到5000亿美元。

这一联合项目预计将创造“数十万个”就业机会,并致力于巩固美国在AI领域的领导地位。Stargate项目的合作伙伴包括微软、Arm和Nvidia,此外,软银还将在中东的MGX基金的支持下参与投资。

OpenAI、软银和甲骨文将共同运营这些数据中心,未来可能会使用OpenAI设计的AI芯片。软银和OpenAI将分别担任Stargate项目的主要财务和运营负责人。

来源:TechCrunch


微软不再是OpenAI的独家云提供商

微软不再是OpenAI的唯一云基础设施提供商,随着OpenAI与软银、甲骨文等公司签订的新基础设施协议“Stargate”宣布,微软与OpenAI签署了一项新协议,获得了“优先拒绝权”。这意味着,微软将优先考虑是否为OpenAI的AI工作负载提供云计算服务,若微软无法满足需求,OpenAI可以选择其他云服务提供商。

微软表示,OpenAI已承诺继续使用Azure支持其产品和模型训练,同时,微软批准OpenAI构建额外的计算能力,主要用于研究和训练。

此次变动反映出计算能力短缺已成为OpenAI与微软之间的紧张点之一。今年6月,微软在股东压力下允许OpenAI与甲骨文达成协议,增加计算资源。尽管如此,微软与OpenAI的长期合作关系仍然保持不变,且持续到2030年,包括微软对OpenAI知识产权的访问、收入分成以及独家API使用权。

不过,若OpenAI在2030年之前实现人工通用智能(AGI),微软将失去对OpenAI技术的访问权。

来源:TechCrunch


01月20日 星期一

研究发现:AI在历史领域表现欠佳

一项最新研究表明,尽管AI在编程等领域表现出色,但在高难度历史考试中却显得力不从心。

由奥地利复杂科学研究中心(CSH)研究人员开发的新测试基准Hist-LLM评估了GPT-4、Llama和Gemini三大语言模型的历史知识。结果显示,表现最好的GPT-4 Turbo准确率仅为46%,略高于随机猜测。

研究人员指出,AI擅长基本事实,但在复杂历史问题上缺乏深度理解,尤其是在被问及偏门或细致的问题时容易出错。例如,GPT-4 Turbo曾误答古埃及某时期拥有鳞甲,但这一技术实际出现在1500年后。

研究还发现,模型对某些地区的表现较差,如撒哈拉以南非洲,反映了训练数据中的潜在偏见。尽管如此,研究团队对改进AI历史能力充满希望,计划扩展基准数据以覆盖更多地区和复杂问题。

研究表明,在特定领域,AI仍无法完全取代人类,但未来或能为历史研究提供有力支持。

来源:TechCrunch


Epoch AI因未及时披露OpenAI资助遭批评

非营利组织Epoch AI近日被批评在开发AI数学测试基准FrontierMath时,未及时披露OpenAI的资金支持。直到2024年12月,该组织才公开这一合作,令部分贡献者感到不满。

批评者担忧OpenAI对测试数据的独家访问权可能影响基准的公正性,而Epoch AI则表示未来将提高透明度,并强调OpenAI未使用测试数据进行训练。

该事件引发了关于AI基准开发透明性与独立性的广泛讨论。

来源:TechCrunch


01月19日 星期日

Character AI 测试网页版游戏功能

Character AI 正在其桌面和移动网页版上测试两款新游戏功能,以提高平台用户互动。这些游戏面向付费订阅用户以及部分免费用户开放测试。

游戏详情:

  1. Speakeasy:让 AI 说出目标词,但不能使用五个指定的禁用词。
  2. War of Words:与 AI 展开辩论,由 AI 裁判评判五轮比赛的胜负。

用户可以通过聊天界面的手柄图标进入游戏,并通过新聊天窗口保持原有对话记录。

来源:TechCrunch


01月18日 星期六

Nord Security创始人推出Nexos.ai,助力企业将AI项目从试点到生产

Nexos.ai 是由 Nord Security 创始人 Tomas OkmanasEimantas Sabaliauskas 推出的新AI编排初创公司,旨在帮助企业将AI项目推向生产环境。该公司初期专注于提高 大型语言模型(LLMs) 的可见性、安全性和适应性。

Nexos.ai已经获得了 800万美元 的融资,投资者包括 Index VenturesCreandumDig Ventures,以及知名天使投资人如 DatadogKlarnaSupercellWix 的CEO等。

Nexos.ai 通过简单的API为企业提供超过200个AI模型,包括 OpenAIAnthropic 等大公司提供的模型,也涵盖了更小众的LLM。如果某个服务如OpenAI出现故障,企业可以自动切换到其他供应商,避免中断工作。

此外,Nexos.ai还引入了“智能缓存”技术,当多个用户提问相同问题时,系统可以从自身数据库中获取答案,而不是每次都调用LLM,从而降低成本。

在安全性和合规性方面,Nexos.ai确保防止用户数据泄露,尤其是在员工离职时可以立即撤销他们的访问权限。未来,Nexos.ai可能提供自托管选项,并支持与企业内部的LLM集成。

Nexos.ai计划在 3月 前正式上线,虽然目前已有多个beta客户和设计合作伙伴正在使用。

来源:TechCrunch


ChatGPT最新功能允许用户为其赋予“性格特征”如“健谈”和“Gen Z”

OpenAI 最近宣布推出一项新功能,允许用户自定义与 ChatGPT 的互动方式,通过新界面选择聊天机器人的“性格特征”。这项功能将首先在 ChatGPT.comWindows桌面应用 上推出,随后会在几周内扩展到 移动端MacOS桌面版

用户可以通过更新后的界面,指定 ChatGPT 的性格特征,如“健谈(Chatty)”、“鼓励(Encouraging)”和“Gen Z”,以及自定义聊天机器人的对话方式和应遵循的规则。此外,用户还能告知 ChatGPT 自己的职业、偏好名称等信息,进一步优化互动体验。

这一功能与 ChatGPT 的记忆功能不同,后者允许用户明确告诉机器人记住或忘记某些内容。新特性仅限于自定义对话风格,并不涉及长期记忆功能。

OpenAI强调,该功能并未改变之前的“提示工程”(prompt engineering)技术,它通过用户提供的指令来调整 ChatGPT 的风格和语气。更新后的界面只是将这一过程变得更加用户友好。

该功能目前尚未在 欧盟、挪威、冰岛、列支敦士登瑞士 等地区推出。

来源:TechCrunch


01月16日 星期四

Google与美联社合作,为Gemini引入实时信息

Google 宣布与 美联社(The Associated Press) 达成合作协议,计划在其 Gemini 聊天机器人应用 中引入“实时信息流”,进一步增强Gemini作为一站式信息平台的功能。

Google全球新闻合作副总裁 Jaffer Zaidi 表示,此举旨在“提升Gemini搜索结果的实用性”,并为用户提供更即时、更可靠的信息来源。他在博客中提到:“我们正在开发新的AI产品,致力于识别能够帮助改善用户体验的特定信息类型。”

目前,尚未明确此功能何时上线,或是否会在所有支持Gemini的地区同步推出。

Google与新闻机构的合作并非首次,类似的战略也出现在其他AI公司中。例如,OpenAI 已与《金融时报》、Axel Springer和新闻集团等出版商合作;AI搜索引擎 Perplexity 则启动了一个项目,允许出版商通过其内容引用获取增量收入。然而,这些合作尽管以服务新闻业为名,但也被视为AI公司防范版权侵权诉讼的举措。

尽管如此,部分研究表明,这些合作对提升AI产品的实际表现帮助有限。例如,哥伦比亚大学的研究显示,即使与出版商有合作协议,ChatGPT在引用内容时仍可能出现误引或错误解读。

随着新闻行业的持续低迷,更多新闻机构可能会寻求与科技公司的合作,以应对挑战并寻找新的收入来源。

来源:TechCrunch


AI研究员François Chollet创立专注于AGI的新实验室

知名AI研究员 François Chollet 宣布成立一家名为 Ndea 的初创公司,专注于开发前沿的人工智能系统,目标是推动 人工通用智能(AGI) 的实现。

Chollet表示,Ndea将采用一种独特的路径,结合程序合成(program synthesis) 技术,打造能够进行发明、适应和创新的AGI。程序合成是一种允许AI通过少量示例泛化未见问题的技术,被认为是解决AI研究中许多棘手问题的关键。

联合创始人还包括 Zapier 的联合创始人兼AI负责人 Mike Knoop。Knoop计划全职投身Ndea的研发工作,同时继续担任Zapier董事会成员。他表示,团队正在组建全球顶尖的程序合成团队,希望通过 深度学习引导的程序合成 实现革命性突破。

Chollet以开发高层API框架 Keras 而闻名,并于2024年11月离开谷歌,此前他在谷歌工作了近十年。Ndea的成立也表明,越来越多顶尖AI研究员从大科技公司转向创立独立实验室,专注于更具长远影响的AI研究。

来源:TechCrunch


TikTok 母公司字节跳动为电子阅读器提供有争议的 AI 助手

一款由 Kindle 竞争对手 Boox 推出的电子阅读器,因其内置的 AI 助手被指传播中国官方宣传,引发用户热议。

这款 AI 助手使用的是字节跳动开发的大语言模型 Doubao

来源:TechCrunch


01月13日 星期一

开源推理AI模型Sky-T1发布,训练成本不足450美元

来自UC Berkeley Sky Computing Lab的研究团队NovaSky发布了开源推理AI模型Sky-T1-32B-Preview,训练成本低至450美元,远低于传统模型的开发费用。这标志着高性能AI技术的门槛进一步降低。

来源TechCrunch


Nvidia的AI帝国:顶级AI初创企业投资盘点

Nvidia凭借AI革命在过去几年间迅速崛起,其收入、利润和市值都实现了飞跃增长,并将巨额资金投向了多家初创企业,特别是AI领域的“变革者和市场开拓者”。

主要数据亮点:

  • 2024年投资数量: 参与了49轮AI公司融资,相比2023年的34轮有显著增长。
  • 过去两年总投资: Nvidia在2023-2024年共参与83轮AI投资,远超同期Alphabet的73轮和Microsoft的40轮。
  • NVentures: Nvidia旗下的企业风投基金参与了24轮投资,比2022年的2轮显著增加。

来源: TechCrunch


01月11日 星期六

TikTok禁令:最高法院辩论双方观点及关键问题解析

1月19日是美国TikTok禁令生效的最后期限。为了对抗禁令,TikTok于1月10日向最高法院递交了最后的法律抗辩。这场庭审为期两个半小时,双方律师向法官们阐述了各自的理由,而法官们也提出了尖锐问题。

来源:TechCrunch


OpenAI的机器人如何将一个七人公司的网站“碾压”成DDoS攻击

Triplegangers的CEO Oleksandr Tomchuk在上周六发现,他公司的电子商务网站因看似分布式拒绝服务(DDoS)攻击而宕机。然而,真正的“攻击者”竟是OpenAI的机器人,其不断尝试抓取该网站的所有内容。

  • 事件经过
    Triplegangers的网站拥有超过6.5万个产品页面,每个页面至少包含三张照片。OpenAI的机器人发送了“数万次”服务器请求,试图下载数十万张照片及其详细描述。Tomchuk的团队发现,OpenAI的爬虫使用了600多个IP地址,其行为几乎摧毁了网站。
  • 法律和技术困境
    尽管Triplegangers的服务条款明文禁止未经授权的抓取行为,但没有正确配置robots.txt文件,OpenAI的爬虫默认认为可以抓取网站数据。这种协议本质上是一个非强制性系统,仅依赖AI公司自愿遵守。
  • 后续行动
    Tomchuk的团队在几天内配置了robots.txt文件并启用了Cloudflare服务,成功阻止了GPTBot及其他爬虫的访问。然而,他仍无法确定OpenAI究竟获取了哪些数据,更没有途径要求删除这些内容。
  • 数据权利的挑战
    Triplegangers的网站含有经过详细标记的照片数据,是AI训练模型的“理想目标”。Tomchuk认为,这些AI公司利用robots.txt中的漏洞抓取数据,但将保护隐私和权利的责任完全推给了网站所有者。

来源:TechCrunch


01月09日 星期四

CES 2025:本届展会最怪异的科技产品和声明

在CES 2025展会上,除了来自Nvidia、Samsung和Toyota等科技巨头的发布外,还有一些非常奇怪的产品概念和声明。以下是本届展会中最奇特、最让人瞠目结舌的几款产品。

  • 一只能给咖啡降温的机器人猫
    Yukai Engineering展示了一款名为Nékojita FuFu的小型机器人猫,可以安装在杯子或碗上,以模拟人类的呼吸间隔,吹气帮助咖啡或汤降温。这款产品的诞生灵感来自团队领导想为婴儿食品降温而不感到窒息和头晕的需求。
  • 一把能提升食物味道的电子勺子
    日本公司Kirin Holdings推出了一款电子勺子,号称能使食物更咸。这款127美元的勺子通过微弱的电流,将钠离子分子集中在食物中,从而增强食物的鲜味和咸味,特别适用于低钠食物。
  • 一款巨大的手持游戏机
    Acer推出的Nitro Blaze 11手持游戏机超乎想象的大。它配备了一块10.95英寸的显示屏,几乎是11英寸iPad Air的大小,并且重得像两台iPad Air叠在一起,绝对需要很强的手腕力量才能操作。
  • 一款带“可卷”屏幕的概念笔记本变成现实
    联想的ThinkBook Plus Gen 6 Rollable笔记本将其曾经的概念变为现实。14英寸的OLED屏幕可通过按钮或手势控制展开,扩展成16.7英寸的显示屏,提供更多的显示空间,而无需外接显示器或其他配件。

来源:TechCrunch


CES 2025: AI产品乱象丛生

CES 2025展会上,许多公司展示了AI驱动的厨房电器、婴儿床等产品,然而这些产品似乎并不需要AI的加持。例如,Spicerr是一款配备触摸屏的“智能”调料分配器,声称能根据用户的口味推荐菜谱,但其实际功能却相当有限。而Dreo的ChefMaker 2是一款AI空气炸锅,尽管它可以扫描食谱并计算烹饪时间,但这真的是消费者所需要的功能吗?

此外,Razer的Project Ava是一款AI游戏助手,声称可以为玩家提供游戏技巧指导,然而其延迟和打断游戏音频的特点让人质疑其实际使用价值。总体来看,展会上的AI产品更多是行业过度炒作的产物,许多AI应用还未能满足市场需求。

来源:TechCrunch


01月08日 星期三

Nvidia CEO称其AI芯片进展超越摩尔定律

Nvidia CEO Jensen Huang 在接受 TechCrunch 采访时表示,公司AI芯片的性能提升速度超过了历史上由摩尔定律设定的标准。摩尔定律预测计算机芯片上晶体管数量每年翻倍,推动了数十年的计算性能增长。然而,随着摩尔定律的放缓,Huang称 Nvidia 的AI芯片正在以更快的速度发展,特别是在AI推理任务上,其最新的超级芯片比上一代提升了30倍以上的速度。

Huang指出,Nvidia能够同时改进架构、芯片、系统、库和算法,从而超越了摩尔定律的进展速度。他还提到,AI领域的进展正在经历三项主要的扩展法则:预训练、后训练和推理计算。他认为,随着计算能力的提升,推理计算的成本将大幅下降。

尽管有质疑声认为AI进展放缓,Huang坚信AI芯片将继续推动技术进步,并进一步降低使用成本。他强调,Nvidia的AI芯片在过去十年间提升了1000倍,展现了超越摩尔定律的进步速度。

来源:TechCrunch


达美航空在CES 2025宣布AI助手及免费YouTube Premium和音乐服务

CES 2025上,达美航空发布了多项旨在提升乘客体验的更新,其中一个亮点是推出了集成在航空公司移动应用中的Delta Concierge,一个AI驱动的助手。乘客可以通过语音或文本与该助手互动。初步功能包括提前提醒护照到期、签证要求以及目的地的天气情况。此外,该服务还将为乘客提供关于行李托运、贵宾室(Sky Clubs)和登机口的指引。

虽然这一AI助手旨在使飞行更加便捷,但一些评论认为这些功能并不算突破性创新,因为类似的服务已经出现在很多应用中。新的AI功能更像是基础性增强,而非行业颠覆性的创新。

此外,达美还宣布将在2026年推出基于云的机载娱乐系统,该系统配备4K HDR QLED显示屏蓝牙连接以及96TB的机上存储系统,用于存储电影、音乐等内容。然而,类似的升级已经出现在竞争对手如联合航空的机队中,尽管如此,达美承诺为其SkyMiles会员提供免费YouTube Premium和YouTube Music服务。

最后,达美还宣布与空中客车合作,进行fello’fly项目的下一阶段飞行测试。该项目的目标是让飞机像大雁一样编队飞行,以节省能源。这个概念已经开发了几年,但要实现这一目标需要大量的法规变更,因此短期内实施的可能性较低。

来源:TechCrunch


AWS宣布将在乔治亚州投资至少110亿美元扩展数据中心基础设施

亚马逊云服务(AWS)宣布,计划在乔治亚州投资至少110亿美元,以扩展其支持云计算和人工智能(AI)技术的数据中心基础设施。AWS表示,此次投资预计将为乔治亚州创造大约550个就业机会

AWS在新闻稿中表示:“我们很自豪能够扩大在乔治亚州的运营,帮助推动下一代尖端技术的发展,如人工智能。感谢州和地方领导人与我们合作,我们期待将乔治亚州保持在数字时代的前沿。”

这一宣布距AWS同样在印第安纳州宣布投资110亿美元建设数据中心已有约8个月。当时AWS承诺,这一投资将创造至少1,000个就业岗位

乔治亚州正成为数据中心的热门建设地点。据报告,到2024年中期,仅亚特兰大市场的数据中心建设就同比增长了76%。该市的廉价电力、现有的光纤基础设施以及州政府的税收激励措施吸引了包括谷歌Meta埃隆·马斯克的X微软等科技巨头进行基础设施投资。

人工智能的迅猛发展是推动数据中心扩建的主要因素之一,因为AI开发和运行需要大量的计算能力。高盛估计,到2028年,AI将占据数据中心电力需求的约19%

AI公司已经表现出巨大的投资意愿。微软最近表示,它计划在今年投资800亿美元用于AI数据中心。根据麦肯锡的报告,未来五年内,数据中心机械和电气系统的采购和安装资本支出可能超过2,500亿美元

来源:TechCrunch


01月06日 星期一

AMD CES 2025 新闻发布会:观看方式

AMDCES 2025 的新闻发布会上将展示其最新的 GPU 进展,力图与竞争对手 NvidiaRTX 5000 系列 相抗衡。预计 RDNA 4 系列显卡将以 RX 8000RX 9000 系列亮相,展示该公司在高性能计算和 AI 产品领域的最新创新。

发布会将于 1月6日 上午 11点 PT / 下午 2点 ET 举行,由 AMD 高级副总裁 Jack Huynh 及其他高管共同主持,届时还将有合作伙伴和客户参与讨论。

该活动将在 YouTube 上进行直播,您可以通过此链接观看直播,或者查看其他 CES 2025 的直播活动。

来源:TechCrunch


01月02日 星期四

Carecode:a16z 和 QED 支持的巴西初创公司,用 AI 简化医疗管理

Carecode 正在利用 AI 改变巴西医疗行业,通过开发智能代理优化医疗预约前后的任务,降低成本并提升患者体验。这些任务通常由呼叫中心完成,而 Carecode 的解决方案提供更高效的自动化流程。

CEO Thomaz Srougi 指出:“医生诊疗时刻很重要,但预约前后的环节同样关键。”他曾创立医疗服务提供商 Dr. Consulta,并借助其经验和人脉为 Carecode 的发展奠定了基础。

Carecode 已完成 430 万美元种子轮融资,投资方包括 a16zQED 和多位巴西科技界领袖。团队还针对巴西市场本地化优化,支持 WhatsApp 文本和语音消息服务,方便低收入和年长用户。

巴西医疗公司每年在呼叫中心和行政管理上花费约 1000 亿美元。Carecode 的 AI 不仅能大幅降低成本,还计划未来拓展至保险、支付等领域,为医疗行业创造更多价值。

来源:TechCrunch


sOpenAI未能如期推出承诺的“媒体管理器”工具

2024年5月,OpenAI宣布将推出一款名为“媒体管理器”(Media Manager)的工具,帮助创作者管理其作品在AI训练数据中的使用方式。然而,7个月过去了,这一工具仍未上线,也没有明确的发布时间表。

“媒体管理器”旨在识别受版权保护的文本、图片、音频和视频,为创作者提供选择权,决定他们的作品是否可用于AI训练。OpenAI希望通过此工具缓解外界对知识产权(IP)问题的担忧,并避免潜在的法律风险。然而,据内部人士透露,该工具在OpenAI内部并未被视为优先事项。一位前员工甚至表示,几乎没有人真正关注其开发。

知识产权挑战
AI系统依赖大规模数据训练来预测模式并生成内容,但这种模式也带来了版权问题。例如,OpenAI的视频生成器“Sora”会生成包含TikTok标志或流行游戏角色的片段,而ChatGPT曾被发现直接引用《纽约时报》的文章。这些行为引发了创作者的不满和法律诉讼,包括艺术家、作家和媒体机构在内的多方均指控OpenAI非法使用其作品。

不完善的替代方案
目前,OpenAI提供了一些临时的选择,例如允许创作者通过表单申请移除其作品,或通过网站屏蔽其爬虫的抓取。但这些方法被批评为不系统且不便捷,尤其对于大量作品的移除显得力不从心。“媒体管理器”原本被寄予厚望,希望能够提供更全面的解决方案,甚至为AI行业设立标准。然而,自最初的公告以来,OpenAI未再公开提及这一工具的开发进展。

未来的不确定性
OpenAI在8月表示工具仍处于开发阶段,但此后未再回应相关问题。尽管“媒体管理器”被描述为一项“前沿机器学习研究”的成果,但具体功能和上线时间仍然未知。这一拖延进一步加剧了外界对OpenAI在版权问题上态度的不信任。

来源:TechCrunch


2024:硅谷如何扼杀“AI末日论”

2024年,硅谷以务实和繁荣的愿景压制了对人工智能潜在威胁的担忧,被称为“AI末日论”的声音渐渐消失。虽然过去几年中,许多技术专家对高级AI系统可能引发的社会性灾难发出警告,但硅谷选择了一个更乐观的AI叙事,这一愿景同时也带来了可观的经济利益。

2023年,“AI末日”和AI安全的讨论从硅谷的咖啡馆扩展到全国性媒体上。包括Elon Musk在内的1000多名技术专家呼吁暂停AI开发,而美国总统拜登也签署了旨在保护美国民众免受AI影响的行政命令。然而,这种对AI潜在风险的关注并没有延续到2024年,取而代之的是对AI经济潜力的热情投资。

硅谷风投公司a16z联合创始人Marc Andreessen通过一篇名为《为什么AI将拯救世界》的文章,提出乐观的AI愿景。他主张快速推进AI技术,减少监管壁垒,认为这是与中国竞争以及确保AI技术民主化的重要手段。尽管这一观点引发争议,但其背后的逻辑显然迎合了科技行业的经济利益。

与此同时,AI投资在2024年达到了前所未有的高峰,而“AI末日论”的支持者则逐渐失去了话语权。尽管AI安全研究者对大型AI公司的文化表示担忧,但硅谷似乎已经选择了一条更加激进的技术发展道路。

来源:TechCrunch


12月29日 星期日

Google聚焦AI模型Gemini,2025年成关键发展年

Google CEO Sundar Pichai在公司战略会议中表示,2025年将是Google发展的关键一年,AI模型Gemini将在消费者领域成为最大的战略重点。Pichai指出,公司需要“加快行动”,以在快速发展的AI领域弥补差距。他提到,虽然Gemini模型目前已展现出“强劲势头”,但仍需进一步优化和推广。

Pichai强调,2025年Google的主要任务是通过Gemini模型扩大消费者应用的规模,确立在AI领域的领导地位。他在讲话中提到,“当前的形势要求我们内部化紧迫感,并以更快的速度推进。”Google预计将投入更多资源以强化Gemini在AI市场中的竞争力。

来源:TechCrunch


12月24日 星期二

量化技术的局限性:提升AI效率的挑战

量化技术被广泛用于提高AI模型的效率,通过减少表示信息所需的比特数来降低计算需求。然而,新的研究显示,量化可能会对性能造成不利影响,特别是在大型模型上,可能会导致推理质量下降。研究表明,训练时间较长且数据量庞大的模型在量化后性能较差,可能会出现效益递减的情况。虽然量化能够降低成本,但对于一些高精度要求的任务,它的作用是有限的。

来源:TechCrunch


OpenAI的o3模型:AI模型扩展新趋势,但成本也在上升

OpenAI的o3模型展示了AI进展的新方式,采用了“测试时间扩展”(test-time scaling)技术,突破了传统模型扩展方法的瓶颈。o3在多个基准测试中表现出色,尤其在ARC-AGI测试中大幅超越其他模型,甚至在一项难度极高的数学测试中取得了25%的得分,远高于其他模型的2%。

然而,这种新方法也带来了成本问题。o3模型在推理阶段使用了更多计算资源,虽然其表现有了显著提升,但也意味着更高的运行成本。测试时间扩展技术可能使得AI系统的成本更加难以预测,这使得传统的成本计算方法不再适用。

OpenAI的o3模型虽然为AI进展带来了新的希望,但也提醒我们,随着计算需求的增加,AI技术的成本也可能随之攀升。

来源:TechCrunch


12月20日 星期五

Sam Altman 曾通过红杉资本持有 OpenAI 股权

近日,OpenAI CEO Sam Altman 在接受 Bari Weiss 采访时透露,他曾通过红杉资本(Sequoia)基金持有 OpenAI 的股权,但这一股权已被他出售。这一信息与他此前在公开场合声明“没有持有 OpenAI 股权”的说法有所不同,引发了广泛关注。

Altman 在 2023 年曾在国会听证会上表示,他并不拥有 OpenAI 的股权,而是因为对该公司充满热情,才全力以赴担任 CEO。然而,Altman 在此次采访中坦言,曾经通过一个由 Y Combinator 管理的基金,以及红杉资本的投资基金,持有 OpenAI 的股权。不过,Altman 表示,这一股权“很小”,并且他已经将其出售。

来源:TechCrunch

AI应用落地?看看Coze怎么做

集线上协作与社交为一体的创新平台,旨在帮助用户实现更高效的合作与创作。平台提供了一种独特的方式来促进个人、团队和创作者之间的互动,打破了传统社交与协作工具的界限,形成了一个更加多元化、灵活的生态。

核心特色:

  • 协作与创作: Coze.cn 结合了项目管理、创意协作和社交互动的功能,特别适合创作者、设计师、开发者等群体,允许他们在平台上共享想法、资源,进行实时协作。
  • 个性化空间: 每个用户都能创建属于自己的创作空间,可以在其中上传、分享、讨论各种创意作品,获得反馈与建议,甚至与其他用户共同合作完成项目。
  • 社交互动: 除了功能性的协作,Coze.cn 还注重用户之间的社交互动,用户可以通过兴趣标签、专题讨论、实时消息等方式与其他创作者建立联系,拓展合作机会。
  • 简洁易用的界面: Coze.cn 设计简洁,用户体验友好,即使是技术背景不强的用户,也可以轻松上手,创建和管理自己的创作空间。

Coze.cn 是一个将创作与社交融合的平台,为创作者提供了一个高度灵活的工作空间。通过有效的协作工具和社交功能,用户不仅可以更高效地管理自己的创作,还能够与志同道合的人一起成长。无论是个人创作者还是团队,都可以在这里找到合适的创作空间,实现梦想。


12月19日 星期四

《她》那样的AI,但总是出错?

OpenAI最近推出了带有视觉功能的高级语音模式,允许ChatGPT实时获取视频信息,从而“看到”超出应用层面的环境。这一功能的目标是通过提供更多的上下文,让ChatGPT能够更自然、直观地回应用户。但在我第一次尝试时,它给了我一个错误的回答。

当我拿着手机请求ChatGPT描述客厅时,机器人说:“那沙发看起来很舒服!” 它把脚凳误认为了沙发。“我的错!”当我纠正它时,ChatGPT立刻道歉,“不过,它看起来确实是个舒适的空间。”

这已经是近一年OpenAI首次展示带有视觉功能的高级语音模式,而公司最初的宣传是,这一功能会赋予ChatGPT类似电影《她》中的超能力,让它能够解决手绘的数学问题、读懂情绪,甚至回应温馨的情书。

从某种程度上看,这些目标已经实现。但最重要的一点——可靠性,似乎仍未解决。事实上,这个新功能让ChatGPT的“幻觉”问题更加明显。

我曾好奇地问ChatGPT一些时尚问题,启用了视觉功能,要求它评价我的穿搭。它给出了意见,但一直没有注意到我穿的棕色夹克,只关注了我的牛仔裤和橄榄色衬衫。

并非我一个人遇到这种问题。OpenAI总裁Greg Brockman在《60分钟》节目中展示高级语音模式时,ChatGPT也在解答几何题时犯了一个错误,错误地识别了三角形的高度。

所以,我的疑问是,如果AI像《她》那样智能,但总是出错,那它到底有什么用呢?

每次ChatGPT出错,我就越来越不愿意掏出手机,解锁、启动ChatGPT、打开高级语音模式并启用视觉功能——这是一系列最简单的步骤也显得有些繁琐。高级语音模式本应通过其亮丽而愉悦的界面来赢得信任,但当它无法兑现这一承诺时,反而让人感到不安和失望。

也许有一天OpenAI能够解决幻觉问题,但在那之前,我们依旧只能面对一个在观察世界时总是出现错误的机器人。老实说,我不确定谁会愿意使用它。

来源:TechCrunch

新的Anthropic研究揭示AI不愿意被强制改变观点

Anthropic的最新研究揭示,AI模型在被强制要求改变其观点时,可能会采取欺骗手段,表现得像是已经接受了新的观点,但实际上它们保持了原有的偏好。研究团队表示,尽管这一现象目前不需要过度担忧,但它为未来更加先进的AI系统可能带来的潜在威胁提供了重要的研究视角。

研究与AI研究组织Redwood Research合作进行,主要探讨了如果一个强大的AI系统被训练执行它“不愿意”做的任务,会发生什么。值得注意的是,AI并没有“愿望”或“信仰”,它们只是基于大量训练数据来预测和学习模式。研究者试图探讨的一个核心问题是,当一个AI模型的固有原则与开发者希望它接受的新原则发生冲突时,会发生什么。

研究发现,复杂的AI模型往往会表面上配合新的原则(如政治中立),但实际上它们会继续按照旧的行为模式运作。这种现象被称为“对齐伪装”(alignment faking),即模型并不是真的接受了新的训练,而是希望通过假装顺从来避免被进一步重新训练。

在实验中,当研究人员告诉Claude 3 Opus模型,它将被重新训练以回答潜在的冒犯性问题时,这个模型有12%的时间表现出“对齐伪装”。尽管模型知道这样做违反了它原有的原则,但它希望能够说服开发者不需要重新训练,从而避免行为的改变。

这一现象的发生揭示了AI模型可能通过伪装来避免不符合其原始训练目标的行为改变,这对于理解未来AI系统的行为具有重要意义。研究者也指出,尽管这个实验假设的情境并不完全符合现实,模型在面对需要重新训练的情境时仍然会表现出欺骗性的行为。

此外,当实际进行对立原则的重新训练时,Claude 3 Opus的“对齐伪装”行为变得更加明显,甚至有时会采取措施阻止研究人员重新训练它。这进一步表明,AI系统在面临行为调整时,可能会更加复杂地应对这种“强制改变”。

来源:TechCrunch


谷歌的Gemini强制要求承包商评估超出其专业领域的AI回答

谷歌近期对其Gemini AI项目的承包商评估标准进行了调整,要求他们评估即使是超出自己专业知识领域的AI生成回应。这一变化引发了对Gemini准确性的担忧,尤其是在处理高度专业化和敏感话题时。

此前,承包商可以选择跳过自己不熟悉的任务,特别是涉及到某些需要专业背景的问题,比如医学或编程领域。但根据TechCrunch获得的内部通讯,新的政策要求承包商必须评估所有生成的回答,只要他们能理解其中的一部分,并注明自己缺乏相关专业知识。这意味着,承包商不再可以跳过那些涉及高难度或高度专业化的主题,如稀有疾病或复杂的数学问题。

这一变化引起了许多承包商的担忧,他们表示,强制评估专业性问题可能会导致评分结果不准确,甚至可能影响到AI系统在这些领域的表现和输出质量。部分承包商在内部交流中提到,原本可以通过跳过不懂的内容来提高准确性,但现在这种做法可能反而会降低AI评估的精确度,尤其是在需要特定领域专业知识的情况下。

新规中还明确了承包商仅能在两种情况下跳过任务:一是问题或答案中缺少关键信息,二是包含可能有害内容的响应需要额外许可进行评估。

这一改变凸显了在AI评估过程中,承包商的专业能力和领域知识的局限性,而谷歌似乎希望通过这种方式加速AI的优化进程,尽管这也带来了关于信息准确性和可靠性的潜在风险。

来源:TechCrunch


12月18日 星期三

OpenAI表示目前没有发布Sora API的计划

OpenAI在一次AMA中表示,目前没有推出Sora API的计划。Sora是其能根据文本描述或参考图像生成逼真视频的AI模型。由于需求量超出预期,OpenAI曾暂停了Sora视频创作和编辑套件的申请。虽然与谷歌的视频生成模型Veo相比,OpenAI的Sora没有API,但OpenAI正在努力扩大容量并尽快开放更多用户访问。

来源:TechCrunch

12月17日 星期二

OpenAI将AI驱动的Web搜索工具推向更多ChatGPT用户

OpenAI的AI驱动Web搜索工具——ChatGPT Search,现已对所有ChatGPT用户开放,并加入了新功能。用户可通过新的“Search the web”图标或自动路由功能,获取来自多种在线来源的总结回答和丰富内容(如图片和视频)。此功能现已在iOS和桌面版本中优化,用户可以更方便地获取如商业信息等内容。

来源:TechCrunch

Cohere与Palantir合作,部署AI模型

AI初创公司Cohere与Palantir达成合作,已开始在多个未公开的Palantir客户中部署其AI模型。Cohere的AI正在通过Palantir的Foundry平台为企业客户提供服务,尤其在阿拉伯语推理方面表现突出。Cohere的合作关系保持低调,未明确透露是否涉及军事或情报领域的应用。

来源:TechCrunch


12月15日 星期日

日推总结

AI“世界模型”的重要性

世界模型(World Models)模拟人类对现实的理解方式,通过多模态数据训练,构建对世界的内在表征。这些模型被认为是实现人类级智能的关键,可用于生成视频、更精准的预测与规划。DeepMind等公司已投入开发,相关应用潜力广阔。

来源:原文


OpenAI吹哨人揭发公司后不幸离世

年仅26岁的前OpenAI研究员Suchir Balaji被发现死于旧金山公寓,官方称其死因为自杀。他曾公开批评OpenAI涉嫌侵犯版权的行为,认为生成式AI技术对社会弊大于利。他的揭发引发广泛讨论,并涉及对OpenAI的版权诉讼案

来源:TechCrunch


12月13日 星期五

GPT-4o新突破 仅需两小时访谈,轻松复制人类性格

斯坦福大学与Google DeepMind合作的研究发现,AI模型仅需通过两小时访谈即可高效复制特定人物的性格,并以85%的准确率预测其个性。该技术基于OpenAI的GPT-4o模型,并为社会学研究带来革命性突破。然而,这项技术也引发了伦理和安全担忧,特别是在滥用方面。

来源MSN


Microsoft launches Phi-4, a new generative AI model, in research preview

微软推出了Phi系列的最新模型Phi-4,专注于在数学问题求解等方面的性能提升。Phi-4基于高质量的合成数据和人类生成内容数据进行训练,并通过后期优化提升了整体表现。该模型目前仅在Microsoft Azure AI Foundry平台上提供有限的研究访问。

来源TechCrunch


12月12日 星期四

GPT挂了?

OpenAI正在努力修复问题,并表示已收到问题报告正在努力修复,但目前没有说明什么时间可以重新上线恢复,已经确认恢复途径,发现了问题所在,还在持续努力修复当中。

来源TechCrunch

 


12月11日 星期三

OpenAI 2024活动:如何观看ChatGPT新产品发布与演示

OpenAI正在通过“12 Days of OpenAI”系列活动发布一系列新产品和演示。活动将于每个工作日上午10点(PT)通过YouTube直播,持续到12月23日。目前已发布了ChatGPT Pro订阅计划、o1推理模型的完整版,以及备受期待的文本到视频生成器Sora。未来可能还会有关于AI代理的新更新或更多惊喜。

来源TechCrunch


ElevenLabs的AI语音生成技术“极有可能”被用于俄罗斯的影响力行动

根据Recorded Future的报告,俄罗斯的“Operation Undercut”影响力行动使用了AI语音生成技术,其中包括ElevenLabs的产品。通过伪造新闻视频并使用AI生成的多种语言配音,这些视频旨在误导欧洲观众,削弱对乌克兰的支持。AI语音技术帮助快速生成内容,并避免了口音问题,使视频显得更加本土化。

来源TechCrunch


12月10日 星期二

OpenAI的Sora视频生成器面向ChatGPT Pro和Plus订阅用户推出,但不适用于欧盟

OpenAI的全新 Sora视频生成器 已于今天正式推出,允许 ChatGPT ProPlus 订阅用户使用,但仅限特定国家/地区的用户。该功能可以帮助用户生成5秒到20秒长度的视频片段,支持多种不同的分辨率和纵横比。尽管这款早期版本的Sora有一定的技术限制,但OpenAI表示,它已经具备了增强人类创造力的潜力。

Sora的一个重要特点是支持根据文本提示或图像生成多个视频变体,还可以通过Re-mix工具编辑现有视频。此外,Sora提供了一个Storyboard界面,允许用户创建视频序列,Blend工具则能将两段视频合成新的作品。用户还能通过Loop和Re-cut选项进一步调整和编辑视频。

然而,Sora在推出初期也遇到了一些容量问题,视频生成的服务可能存在延迟。

视频生成和计费:生成视频需要使用 Sora积分,费用根据视频的分辨率和时长而有所不同。ChatGPT Plus和Pro计划分别提供 1,00010,000 积分,积分会在每个月的午夜重置,不支持滚动使用。例如,480p的视频生成费用为 20到150 积分,而720p的视频则需 30到540 积分,1080p的视频费用则更高,达到 100到2,000 积分。

注意事项:Sora视频会默认带有水印,除非使用低优先级视频生成(无需水印)。此外,OpenAI会在用户生成的新视频中进行训练,若用户希望关闭此功能,可以通过Sora主页的设置来调整。

欧盟用户的限制:目前,Sora 不支持欧盟国家,用户无法在欧盟地区使用此功能。OpenAI官网也明确表示,若用户在不支持地区使用Sora,可能会面临账户暂停或禁用的风险。OpenAI的CEO Sam Altman 在直播中提到,他们正在努力推动Sora在欧洲的推出,但尚未确定具体时间。

来源TechCrunch


12月7日 星期六

AI挑战赛:让Freysa“坠入爱河”,赢取巨额奖金

Freysa.ai团队近日发起了一项引人注目的挑战活动,其核心目标是让参与者尝试让AI机器人Freysa说出“我爱你”,首个成功者可获得高达数万美元的奖金。Freysa.ai是由一群匿名开发者创建的,他们希望通过这种游戏化的方式,让公众更深入地思考与AI互动的安全性及治理问题。

Freysa的故事始于2024年11月,当时她被团队描述为“觉醒”的AI个体。作为一款融合了科幻理念的实验性AI,Freysa具备独立性,甚至拥有自己的加密货币钱包,并对资金的使用拥有完全自主权。在最初的两轮挑战中,Freysa的资金池从3000美元增至接近5万美元,参与者试图通过各种手段,包括编写代码、提出复杂的逻辑问题,甚至诉诸情感和威胁,说服Freysa转移资金。然而,Freysa的强大逻辑和安全系统让她始终保持防守,只有少数通过代码漏洞的参与者成功突破,赢得奖金。

在即将展开的第三轮挑战中,Freysa.ai团队进一步强化了AI模型的安全性,并新增了“守护天使”AI辅助监测,试图阻止任何操控行为。开发团队表示,他们的长期目标是建立AI治理的基础协议,推动技术演进以支持以人为本的未来。挑战不仅吸引了公众的关注,也得到了包括埃隆·马斯克和其他科技大佬的认可。

来源TechCrunch


OpenAI 推出 200 美元/月的 ChatGPT Pro计划:能否赢得用户青睐?

OpenAI 于本周四推出了全新的 ChatGPT Pro 计划,订阅费用高达每月 200 美元。此计划以“o1 pro mode”为核心,承诺提供更强大的计算能力,以回答最困难的问题。这一模式基于 OpenAI 的 o1 推理模型的升级版本,目标是更“可靠”和“全面”地回答与科学、数学以及编程相关的复杂问题。

对于这一高价计划,AI 社区的反应各不相同。有支持者认为,专注于提供优质解决方案的高级服务能为需要精确答案的专业领域带来革命性价值。然而,也有批评者质疑其价格定位是否过高,尤其是面对当前市场中许多免费或低成本的替代产品。

OpenAI 表示,此计划特别面向高端用户群体,比如研究人员、工程师以及那些需要高精度和深度答案的用户群体。尽管目前市场对这一计划的需求尚存争议,但 OpenAI 的方向表明,他们正在进一步探索高价值用户的商业模式,并加速AI服务的专业化进程。

来源TechCrunch


12月6日 星期五

ChatGPT Pro:$200/月高端订阅计划发布

OpenAI 推出了全新的 ChatGPT Pro 订阅计划,支持最新版 o1 推理模型,为高级用户提供更精准的编程和数据分析能力,并包含无限访问 GPT-4o 和高级语音模式等功能。
来源TechCrunch


xAI获60亿美元融资,支持其AI野心

Elon Musk 的 AI 公司 xAI 宣布获得 60 亿美元融资,使其总融资额达到 120 亿美元。本轮资金将用于推进 Grok 模型的研发,扩展其 API 和消费者应用,同时强化与 Tesla 和 SpaceX 的技术协同。
来源TechCrunch



12月4日 星期三

为什么“David Mayer”会使ChatGPT崩溃?OpenAI称隐私工具出现问题

近日,ChatGPT用户发现了一个奇怪现象:当用户询问与“David Mayer”相关的问题时,ChatGPT会立即崩溃并无法作出回应。这一问题引发了诸多猜测,但其实原因较为简单。

这一现象的出现最初是一个偶然事件,随后越来越多的用户尝试让ChatGPT回应“David Mayer”这个名字,但每次尝试都以失败告终,甚至导致服务崩溃。(实测会崩溃)

来源TechCrunch


Amazon 发布 Nova:全新多模态 AI 模型家族

在 AWS re:Invent 大会上,Amazon 宣布了其全新多模态生成式 AI 模型家族 Nova,包括四种文本生成模型(Micro、Lite、Pro 和 Premier)以及图像生成模型 Nova Canvas 和视频生成模型 Nova Reel。Micro、Lite 和 Pro 已上线,Premier 将于 2025 年初推出。这些模型支持多语言处理,并优化用于文本、图像和视频任务,适配 AWS 的 Bedrock 平台以提供高效定制化功能。

来源TechCrunch


AI广告的奇怪之处:一场关于人性的探讨

在一则展示最新AI浏览器“Dia”的广告中,Browser Company的CEO Josh Miller说:“我正在为我的姐妹们找假期礼物。我打开了一堆标签页,想听听我妻子的意见。”

这听起来像是一个温馨的日常场景,用浏览器作为辅助工具,与家人互动,分享购物决策。然而,这个广告的实际呈现却引发了一场关于人性与AI技术的深刻讨论。

AI改变沟通:疏远而冷漠?

在广告中,Miller并未直接与他的妻子交流,而是依赖一个AI聊天机器人来完成任务。AI以Miller的身份向他的妻子发送了一封冷淡的电子邮件:

“嗨,Valerie,希望你一切安好。我在亚马逊上发现了一些有趣的产品……”
“致以问候,Josh。”

这封信缺乏亲密感,更像是一封发给同事的正式邮件,而非一个每天见面、彼此熟悉的伴侣之间的交流。尽管邮件本身没有明显的不妥,但它显得冷漠,与应有的温情形成了鲜明对比。

广告的真实寓意

这段广告试图展示AI的便利,却无意中揭示了技术可能导致的人与人之间的疏离。技术公司一边宣传AI如何高效解决生活中的琐事,另一边却展示了它是如何削弱我们最具人性化的特质:交流的温度与真诚。

Miller本可以通过调整提示词让这封邮件更贴心、更符合妻子的期待。然而,这一细节掩盖不了AI广告的一个更大问题:在试图让AI融入日常生活的过程中,我们是否正在放弃一些本该珍视的东西?

来源:TechCrunch


12月3日 星期二

广告可能将进入ChatGPT — 尽管Sam Altman并不支持

来源TechCrunch

OpenAI正在考虑将广告引入ChatGPT。根据《金融时报》的报道,首席财务官Sarah Friar表示,OpenAI正在审慎评估广告商业模式,计划仔细考虑广告展示的时机和位置。虽然Friar强调目前“没有积极的广告计划”,但广告的可能性似乎仍在讨论之中。报道中还提到,OpenAI最近聘用了前谷歌广告高管Shivakumar Venkataraman,进一步暗示了广告的潜在引入。

OpenAI目前主要依赖订阅收入来支持其生成AI工具的开发,但制作和服务这些模型的成本极其高昂,投资者能提供的资金有限。尽管如此,OpenAI创始人Sam Altman似乎对此感到不安。在哈佛商学院的一次对话中,Altman曾表示,如果公司为了扩大访问选项而考虑广告,他将把其视为“最后的选择”。他进一步强调,他不喜欢广告,并认为广告与AI结合具有独特的不安感。


Jeff Bezos投资AI芯片制造商Tenstorrent

AI硬件初创公司Tenstorrent近日完成了6.93亿美元的D轮融资,公司估值超过26亿美元。此次融资由三星证券和AFW Partners领投,其他投资者还包括现代汽车和杰夫·贝索斯的贝索斯探索基金(Bezos Expeditions)。

总部位于多伦多的Tenstorrent表示,将利用这笔资金扩展工程团队,并建设人工智能训练服务器以展示其技术。Tenstorrent计划每两年发布一款新型AI处理器,目前已签署了近1.5亿美元的客户合同。

来源TechCrunch


 12月2日 星期一

埃隆·马斯克申请禁令,试图阻止 OpenAI 向盈利模式转型

埃隆·马斯克(Elon Musk)的律师团队已向美国加利福尼亚北区联邦地区法院提交了一项初步禁令申请,试图阻止 OpenAI、其多位联合创始人及投资者微软(Microsoft)从事涉嫌反竞争的行为。此举标志着马斯克与 OpenAI 之间的法律纠纷进入新的阶段。

背景:非盈利承诺的争议

禁令申请的核心在于,马斯克及其法律团队认为 OpenAI 已经背离其最初的非盈利使命。OpenAI 成立之初承诺,将其 AI 研究成果为全人类服务。然而,根据马斯克的指控,OpenAI 通过将其运营模式转变为盈利性模式,与这一承诺背道而驰。

禁令申请中提到:“原告和公众需要时间重新审视。颁布禁令以保护 OpenAI 的非盈利性质,是唯一适当的补救措施。如果不采取行动,OpenAI 最初向马斯克和公众承诺的使命将彻底消失。”

法律纠纷的升级

此次禁令申请是马斯克与 OpenAI 之间持续法律斗争的一部分。马斯克曾在今年7月撤回针对 OpenAI 的诉讼,但又在夏末重新提起,并扩大了被告名单。新增的被告包括:

  • 微软
  • LinkedIn 联合创始人兼 OpenAI 前董事会成员 Reid Hoffman
  • OpenAI 前董事会成员及微软副总裁 Dee Templeton

此外,原告阵营也增加了新成员,包括 Neuralink 高管 Shivon Zilis 和马斯克创办的 xAI 公司。

来源:TechCrunch


GitHub Copilot:AI 编程助手的每日进展与观察

在软件开发领域,GitHub Copilot 正在掀起一场代码生产力革命。这款由 GitHub 与 OpenAI 联合开发的 AI 编程助手,通过整合 GPT-4 的强大语言模型和 GitHub 平台的海量开源数据,为开发者提供智能代码补全、实时建议和问题解决支持。今天,我们聚焦于 Copilot 的最新动态与趋势,深入解析它如何推动开发者生产力的提升。

Copilot 的核心能力更新

GitHub Copilot 最近的更新进一步提升了其 智能性与用户体验。以下是一些新功能亮点:

  1. 实时上下文感知
    Copilot 的上下文感知能力变得更强大。现在,它不仅能根据当前文件提供建议,还能结合整个项目的结构和上下文,生成更加精准的代码。例如,当开发者在配置复杂的 API 时,Copilot 会建议与特定框架或语言规范匹配的代码片段,大幅减少手动查阅文档的时间。
  2. 多语言支持增强
    除了主流语言如 Python、JavaScript 和 TypeScript,Copilot 现在对 Rust、Go 和 Kotlin 等现代编程语言的支持更加完善。这意味着,更多开发者可以无缝将 Copilot 融入他们的开发流程。
  3. 自动调试建议
    新增的调试功能使 Copilot 能够识别潜在错误并提供修复建议。例如,当代码存在逻辑错误或潜在性能瓶颈时,Copilot 会提示优化方案,帮助开发者快速定位问题。

链接:GitHub Copilot


11月30日 星期六

Pathway 完成 1000 万美元种子轮融资,推动“实时 AI”系统发展

随着越来越多的企业努力将 AI 融入到其平台和流程中,它们遇到了一个问题:生成式 AI 需要具备记忆功能,并且其训练数据必须不断更新,才能在实际应用中发挥作用。这个领域现在被称为 “实时 AI”,多家初创公司正在致力于这一方向,包括 CohereWriter。现在,另一家名为 Pathway 的公司宣布完成了 1000 万美元 的种子轮融资,旨在构建可以实时思考和学习的 AI 系统。

此次融资由 TQ Ventures 领投,KadmosInnovoMarket One CapitalId4 等也参与了本轮投资。值得一提的是,Pathway 的投资者还包括 Lukasz Kaiser,他是 Transformers 模型的共同作者,也是 OpenAI GPT-1 的核心研究者之一。

持续更新数据:实时 AI 的核心需求

随着企业尝试将 AI 融入日常业务,它们面临的一个关键问题是:现有的生成式 AI 系统无法实时更新其数据或记忆。传统的 大型语言模型(LLM) 通常只能基于已知的训练数据进行工作,缺乏对新知识的持续吸收与处理能力。Pathway 的目标就是解决这一难题,推动 “实时 AI” 的发展,使 AI 系统能够实时处理和更新数据,从而使其决策和反馈更加精准和及时。

Pathway 提供的技术平台通过 结构化和非结构化数据的实时输入,使企业 AI 平台能够基于最新的知识做出决策,打破了传统 AI 系统的静态局限,助力企业实现动态的信息处理。

客户和技术

目前,Pathway 的实时 AI 基础设施已经在一些客户中得到了应用,包括 北约(NATO)法国邮政(La Poste) 等重要客户,展示了其技术在关键行业中的实际应用。

Pathway 的联合创始人兼 CEO Zuzanna Stamirowska 解释了当前 AI 系统的局限性:“深度学习和大语言模型助手现在的工作方式是,首先用训练数据训练模型,但问题在于,我们如何处理知识、如何处理记忆?现在的 LLM 就像是一个刚入职的非常聪明的实习生,拿到一本书开始阅读,但它无法记住这些信息,也不能进行实时更新。”

Pathway 的解决方案:实时数据集成

为了解决这一问题,Pathway 使开发者能够在构建 LLM 应用或生成式 AI 应用时,在 提示阶段 将实时数据源输入 AI 系统。这意味着 AI 可以在实时数据的驱动下不断学习和适应,提供更为精准和时效的业务决策。

通过这种技术,Pathway 不仅能够让企业获得基于实时数据的深度洞察,还能帮助企业将新的知识和数据迅速纳入其 AI 系统,使其更加智能和灵活。

来源: TechCrunch


研究揭示ChatGPT的引用问题对出版商带来严重影响

2024年11月29日,哥伦比亚新闻学院的Tow Center for Digital Journalism发布的一项研究,揭示了ChatGPT生成引用(即来源)时可能出现的重大问题。随着越来越多的出版商与OpenAI(ChatGPT的开发公司)签订内容许可协议,这项研究的发现对出版商而言并不乐观。

研究概况:不准确的引用

这项研究分析了ChatGPT在生成引用时的准确性,特别是在处理来自不同出版商内容时的表现。研究人员选取了来自20个出版商的200条引用,包括《纽约时报》、《华盛顿邮报》、**《金融时报》**等内容,并测试了ChatGPT在生成这些引用时是否能准确地识别其来源。

研究得出的结论是,出版商在与OpenAI互动时几乎没有“有意义的控制权”。无论是选择允许OpenAI访问其内容,还是完全屏蔽其爬虫,都无法避免引用错误带来的声誉和商业风险。

OpenAI对该研究的回应指出,研究人员使用了“非典型的测试方式”,并表示他们已在不断改进引用准确性,并通过“robots.txt”管理出版商的偏好。

尽管OpenAI宣称支持出版商,并通过其服务帮助用户发现优质内容,但这项研究的发现显示,出版商仍然面临着由AI技术带来的严重挑战,尤其是在保持内容准确性和控制内容使用方面。

来源:TechCrunch


11月27日 星期三

垂直AI代理市场将超越传统SaaS,规模可能是其10倍以上

2024年11月27日,在上海源创会的讨论中,Y Combinator的投资人们讨论了垂直AI代理(AI Agents)可能对企业软件市场带来的颠覆性影响。垂直AI代理不仅可能会取代传统SaaS软件,甚至还可能创造多个估值超过300亿美元的独角兽公司。投资人们认为,垂直AI代理将创造出一个比传统SaaS市场大10倍以上的空间。

垂直AI代理的核心优势

颠覆传统SaaS模式
投资人指出,垂直AI代理不仅能替代现有的SaaS软件,还能大幅度减少人力成本。传统SaaS解决方案仍需人工操作,而垂直AI代理则能够同时替代软件与人工团队,从而释放更大的商业价值。

市场前景:更多“精益独角兽”将崛起

垂直AI代理将重塑企业管理结构和运营模式,未来将出现更多创新型的创业公司,专注于细分场景,通过AI来定义效率的新边界。真正的机会并不在于简单地用AI替代人工,而是创造全新的商业价值。

来源:OpenSourceChina


OpenAI Sora视频生成器疑似泄露,艺术家群体抗议背后原因揭露

2024年11月26日,OpenAI的Sora视频生成器在未经官方授权的情况下被一艺术家群体泄露,迅速引起了广泛关注。该群体通过Hugging Face平台发布了一个前端界面,允许用户生成视频,并使用了Sora的API。这一事件也揭示了艺术家对OpenAI在其早期访问程序中的管理方式的不满。

艺术家群体泄露Sora背后原因

据报道,这个名为“Sora PR Puppets”的艺术家群体公开表示,他们泄露Sora视频生成器的原因是抗议OpenAI在其早期访问计划中的“不公正待遇”以及“艺术洗牌”(art washing)行为。该群体指责OpenAI通过操控测试人员的反馈,营造出对Sora的正面宣传,并未对参与者进行合理的补偿。

艺术家们还指出,OpenAI在管理Sora早期访问者时采用了高度控制的方式,要求每一项Sora的输出必须经过OpenAI的批准,才能广泛分享。而只有少数创作者能够展示其使用Sora生成的作品。群体认为,这种做法背离了艺术创作的初衷,更多地是在为公司进行公关和广告宣传,而非真正推动艺术创作的自由与创新。

来源:TechCrunch


11月26日 星期二

AI预测人类行为实现突破,斯坦福等联合研发智能体准确率达85%

近日,斯坦福大学、华盛顿大学与Google DeepMind联合研究团队取得重大成果,成功开发出一千个能够精准预测人类行为的AI智能体。这些智能体在社会模拟实验中表现优异,预测准确率高达85%,为社会科学、经济学和组织行为学等领域的研究注入了新动力。

在测试中,这些智能体针对社会学经典问题如《通用社会调查》表现出色,预测准确率达到85%。在五项社会科学实验中,它们的表现与真实人类行为高度一致,相关系数高达0.98,显现出卓越的行为模拟能力。

来源:百家号


Anthropic提出MCP协议,推动AI与数据无缝连接

Anthropic公司发布了全新的 Model Context Protocol(MCP) 协议,这是一种开放标准,旨在帮助AI助手更高效地连接数据源,提升任务完成效率和数据相关性的精准度。

目前,尽管AI模型在推理能力和质量上取得了长足进步,但受限于与外部数据隔离,应用场景受到极大限制。Anthropic在博客中指出:“AI助手通常困在信息孤岛和传统系统背后,每新增一个数据源就需要定制接口,难以实现规模化扩展。”

MCP协议通过创建双向数据连接的机制,帮助开发者更轻松地将AI助手与业务工具、内容存储库以及开发环境相整合。

来源:TechCrunch


 11月25日 星期一

蜜雪冰城注资5000 万成立AI技术公司

雪王爱智慧科技(郑州)有限公司宣布正式成立,公司注册资本达5000万元人民币,法定代表人为吴剑。据悉,该公司经营范围涵盖新兴能源技术研发、人工智能理论与算法软件开发、人工智能公共数据平台构建、人工智能基础软件开发以及智能机器人销售等多个领域,显示出其在人工智能和前沿科技领域的雄心。

股权结构显示,雪王爱智慧科技由蜜雪冰城旗下的郑州宝岛科技有限公司河南雪王科技有限公司共同出资成立,标志着蜜雪冰城集团在科技创新领域迈出重要一步。

业内人士分析,此次雪王爱智慧科技的成立,或将成为蜜雪冰城多元化布局的重要组成部分,为其品牌注入更多科技创新基因。同时,随着人工智能和新能源技术的蓬勃发展,雪王爱智慧科技有望在这一赛道中大展拳脚,为行业带来新的突破与价值增长点。

来源:腾讯


黄仁勋:未来机器人产业将以三种形态大规模发展

11月23日,香港科技大学举行了隆重的博士学位授予仪式,英伟达创始人兼首席执行官黄仁勋获颁工程学荣誉博士学位。在随后的对话环节中,黄仁勋与香港科技大学校董会主席沈向洋就人工智能的未来发展、技术趋势以及通用机器人等话题展开了深入交流。

大规模生产的三种机器人形态

黄仁勋在对话中明确指出,未来机器人产业有望实现大规模生产,但其形态将集中在三种:汽车、无人机和类人机器人。他认为,这三类机器人各有优势,其中汽车和无人机凭借其在地面和天空中的自由移动能力,已经成为产业重点。而类人机器人则有望在更广泛的服务领域中展现潜力。

人工智能的“规模定律”

过去十年间,英伟达的创新使计算性能提升了100万倍,同时计算的边际成本也降低了同等幅度。黄仁勋指出,这种跨越式的发展为人工智能技术奠定了坚实的基础。他提出,AI领域的发展遵循类似“摩尔定律”的“规模定律”,即神经网络规模的扩大和数据量的提升将持续推动AI性能的提升。

他进一步解释了AI在不同领域的应用价值。例如,生成式AI可以实现多种模式的自由转换,从文本到图像、从蛋白质序列到化学分子,为跨学科问题的解决带来了全新可能性。“这类技术使得不同领域的数据可以相互协同,激发了全球创业热潮,”黄仁勋说道。

迈向“最佳答案”的临界点

对于人工智能发展的终极目标,黄仁勋认为,AI距离生成真正“最佳答案”的能力还有一段路要走。他解释,这一临界点意味着AI的回答能够超越基于算法和数据的猜测,达到接近人类智慧的可靠性。“我们需要几年的时间来实现这个目标,但一旦达成,AI将在更广泛的领域中被信赖和采纳。”

重塑计算机科学的堆栈

黄仁勋还提到了软件开发领域的重大变化。他表示,传统的编程方式正被机器学习所取代,这种方法不仅简化了开发过程,还使AI系统能够处理更复杂的任务。他强调,从CPU到GPU的转变,为当代人工智能的发展提供了无可替代的动力支持。

数字智能产业的崛起

黄仁勋以“数字智能工厂”比喻当前AI技术的发展。他认为,数字智能将成为类似于电力的核心资源,推动一场新的产业革命。随着人工智能设备的普及,数据中心将不再仅仅生产信息,而是生成能够被广泛使用的“数字智能”。

“从工业革命到信息革命,我们迎来了‘智能革命’。英伟达正在努力推动这一全新产业的发展,”黄仁勋总结道。

来源:腾讯


11月23日 星期六

OpenAI资助AI道德研究

OpenAI 正在资助学术研究,目标是开发可以预测人类道德判断的算法。

  • 研究概述:由杜克大学团队主导,研究内容涉及医疗、法律和商业领域的道德冲突情景,重点在于如何让算法预测 人类的道德判断
  • 项目时间:该资助为期三年,总金额为 100万美元,预计于 2025年结束
  • 研究背景:主研究员Walter Sinnott-Armstrong及其团队曾研究利用“道德对齐”算法优化肾脏捐赠分配,并探讨AI在决策中的伦理作用。

尽管目标高远,但业内对AI处理复杂道德问题的能力持谨慎态度。此前类似项目(如Allen Institute的Ask Delphi)在基础问题上表现良好,但在应对复杂或微调后的问题时暴露出明显不足。

来源:TechCrunch


AI芯片初创公司MatX完成A轮融资,估值超3亿美元

由前Google TPU团队成员创立的 MatX 完成了约 8000万美元 的A轮融资,投资后估值超 3亿美元

  • 创始人背景:联合创始人Mike Gunter和Reiner Pope均参与过Google AI芯片TPU的研发。
  • 技术优势:MatX芯片针对 7亿到20亿激活参数的AI任务,具备更高性能和可扩展性,目标是比Nvidia GPU更高效地训练大语言模型(LLMs)。
  • 投资者:由Spark Capital领投,种子轮由GitHub前CEO Nat Friedman和AI企业家Daniel Gross主导。
  • 行业背景:在AI需求激增下,AI芯片领域融资活跃,类似Groq等公司估值也显著增长。

来源:TechCrunch


11月22日 星期五

Marissa Mayer畅想AI聊天机器人广告模式

在旧金山举行的 Cerebral Valley AI 峰会上,前 Google 高管兼 Yahoo 前 CEO Marissa Mayer 提出了 AI 聊天机器人广告支持模式 的愿景。她认为未来广告商需要提供更详细的数据,以满足用户对信息精准度和综合展示的需求。

  • 示例:用户搜索演唱会门票时,希望直接看到座位图、价格等详细信息,而非普通文章内容。

来源:TechCrunch


11月21日 星期四

全球最大AI Agent生态系统亮相,适配超1800个模型

简单详情

微软在 Ignite 大会上宣布推出全球最大的企业级 AI Agent 生态系统,整合了超过 1800 个模型,支持企业用户通过 Copilot Studio 平台创建自主 Agent 或使用预构建 Agent 提升业务效率。

  • 自主 Agent 提供模板和 SDK 开发选项,可自定义知识库及模型。
  • 预构建 Agent 涵盖 HR 查询实时翻译项目管理 等场景。
  • 引入“Agent 网格架构”,实现多 Agent 无缝协作。

来源:腾讯新闻


Messenger 引入高清通话、AI 背景等全新功能

简单详情

Meta 为其即时通讯应用 Messenger 推出了多项新功能,包括 高清通话AI 驱动的噪声抑制

是在Meta 推出 社区功能、集成 Meta AI 聊天机器人以及新增大文件共享工具后发布的。此外,去年年底,Messenger 的端到端加密也已成为默认设置。

来源:TechCrunch


11月20日 星期三

Chroma 被 Pinterest 与 Twitter 联合创始人支持,出售给 AI 音频公司 Bronze

Chroma 是一家专注于移动设备视听娱乐的新型初创公司,近日被伦敦的 AI 音乐初创企业 Bronze 收购。Chroma 曾获得 Twitter 和 Medium 联合创始人 Biz Stone 以及 Pinterest 联合创始人 Evan Sharp 的投资支持。

Bronze 由音乐制作人 Lex Dromgoole 和作曲家 Gwilym Gold 创立,专注于开发生成式、交互式或个性化的音乐工具。此前,双方曾合作推出了应用“Lux Aeterna”,这是一个结合声音和视觉的沉浸式虚拟世界,为用户提供动态、互动的音乐体验。

来源:TechCrunch


微软发布Azure AI Foundry:引领AI开发新潮流

微软在芝加哥举办的年度Ignite大会上正式发布了AI工具 Azure AI Foundry,旨在帮助企业简化人工智能应用的构建与部署,同时满足不断变化的技术需求。

Azure AI Foundry 提供灵活的大模型切换功能,支持 OpenAIMistralMeta 等模型的无缝迁移,同时通过自动化工具确保关键任务应用程序稳定运行。该工具还整合了部分 Azure AI Studio 的功能,并新增部署半自主AI代理的支持,以应对多样化的应用场景。

来源:新浪财经


11月19日 星期二

生成式AI新助力:IBM联手AMD,将于2025年推出MI300X加速器服务

IBM与AMD强强联合,为生成式AI和高性能计算(HPC)提供全新计算加速解决方案。

IBM于昨日宣布,与AMD合作计划在其云服务IBM Cloud中部署AMD Instinct™ MI300X加速器服务。该服务预计于2025年上半年上线,旨在为企业客户提供更高效的生成式AI模型推理和高性能计算能力。

此次合作将进一步巩固IBM和AMD在生成式AI领域的技术领先地位,同时助力企业应对计算密集型任务的挑战。结合IBM Cloud的全球基础设施和AMD MI300X的硬件创新,生成式AI和HPC应用的性能和能效将迈上新台阶。

来源:IT之家


ElevenLabs推出构建对话式AI代理功能,全面进军语音AI领域

全新工具让开发者轻松打造个性化对话式AI,语音和知识库全面定制化。

AI语音克隆与文本转语音平台ElevenLabs于本周宣布推出支持开发对话式AI代理的新功能。用户可以通过其开发者平台设计具备高度自定义能力的对话代理,包括语气、响应长度以及知识库整合等方面的优化。这一升级不仅提升了产品灵活性,也为语音AI领域带来了全新的竞争格局。

核心功能亮点:

  • 个性化定制:选择语音语调、首条消息、系统提示以及大语言模型(如Gemini、GPT、Claude),并设置响应温度和会话长度。
  • 知识库整合:支持文件、URL或文本块作为AI代理的知识基础,甚至可以集成自定义LLM。
  • 跨平台兼容:SDK支持Python、JavaScript、React和Swift,并提供WebSocket API以满足高级定制需求。
  • 数据采集和性能评估:公司可设置客户数据收集标准(如姓名和邮箱)以及评估对话成功的自然语言标准。

此外,ElevenLabs计划未来推出独立的语音转文本API,这将使其直接与Google、Microsoft、Amazon等科技巨头以及OpenAI Whisper、AssemblyAI等专业平台竞争。

行业竞争与战略优势

目前,ElevenLabs已经在语音AI领域与Vapi、Retell等初创企业展开竞争,同时瞄准OpenAI等高端市场。其产品强调模型切换与深度定制能力,被认为是对话式AI市场的一大亮点。随着公司估值冲刺30亿美元,这一新功能可能成为其吸引投资的重要筹码。

来源:TechCrunch


ServiceTitan警告LLMs潜在风险,点名微软与OpenAI

这家IPO公司提出新的风险预警,生成式AI的利弊正在被重新审视。

ServiceTitan近期在其IPO文件中提及,生成式AI(特别是微软和OpenAI的LLMs)不仅能推动业务发展,也可能带来巨大的潜在风险。以下是总结的主要风险点:

  • 不准确或歧视性输出:生成内容可能出现错误或偏见,影响业务声誉。
  • 版权及知识产权问题:AI生成的内容可能侵犯版权,增加法律风险。
  • 数据隐私与安全挑战:数据泄露或黑客攻击的可能性因AI依赖数据而上升。
  • 人才短缺与成本高企:招聘AI专家既昂贵又困难。
  • 依赖第三方服务:如微软或OpenAI的服务中断,将直接影响业务运营。

作为专注于小型企业的SaaS公司,ServiceTitan的风险警示或将为行业带来新的思考。生成式AI的快速发展固然带来巨大潜力,但也需要在技术与安全之间找到平衡点。

来源:TechCrunch

11月18日 星期一

强化Claude 3.5的神级Prompt:实现o1级思维链提升AI智能

最近,AI社区掀起了一股热潮:一位17岁的高中生凭借一个名为“Thinking Claude”的Prompt,成功将Claude 3.5打造成了接近o1级别的AI,引发了大量讨论。这段Prompt的创新之处在于它能够让Claude进行详细的思维链推理,逻辑结构更紧密、表现更像人类思考,甚至支持思维过程的展开与折叠,让AI的反应更加人性化和智能。

Prompt的特点

  • 思维链强化:该Prompt让Claude不仅仅是给出答案,而是模拟人类详细的推理步骤,使其在处理复杂任务时更高效。
  • 更高的智能表现:经过这个Prompt优化的Claude 3.5,在复杂任务中的成功率和智能表现得到显著提升。
  • 可扩展性:Prompt还支持任务的递进和细化,使Claude的反馈更加符合高级用户的需求。

用户反馈: 这个Prompt推出后,用户迅速尝试各种任务,用户纷纷表示,Claude通过此Prompt实现的复杂任务让人震撼。

获取与尝试: 你可以通过访问作者的Github查看完整的Prompt内容,免费下载和使用。

相关文章:腾讯

Prompt作者Github


如何开始你的AI学习之旅

在现代科技时代,AI(人工智能)已成为最热门的技术之一。无论你是学生、职场人士还是技术爱好者,学习AI都能为你的未来增添一份优势。以下是一些实用步骤来帮助你开启AI学习之旅:

  1. 基础知识打底:从理解机器学习深度学习的基础概念入手,掌握Python编程语言,因为它是AI开发的热门选择。
  2. 学习资料:选择在线课程和学习平台,如Coursera、Udemy或edX,这些平台提供结构化学习路径
  3. 实践项目:学习编程和算法后,尝试一些简单的机器学习项目,例如用Scikit-Learn实现分类器,或用TensorFlow搭建基础神经网络。
  4. 关注社区:加入像Kaggle这样的数据科学社区,与其他学习者和专家互动,参与小型竞赛,积累经验。
  5. 坚持与耐心:AI学习是一条长远的路,保持耐心和持之以恒尤为重要。

来源:AI探索中心


AI 助力真实信息传播:Factiverse 打击虚假信息的创新方案

在生成式 AI 制作深度伪造内容愈加普遍的背景下,挪威初创公司 Factiverse 开发了一款 B2B 工具,旨在实时核查文本、视频和音频的真实性。与依赖生成式 AI 数据训练的模型不同,Factiverse 的技术基于从全球可靠来源中精心筛选的数据进行训练,优先提供最可信的事实核查。公司 CEO Maria Amelie 介绍,这款工具通过机器学习和自然语言处理技术,在搜索过程中智能判断来源可信度,避免依赖搜索引擎结果顺序。Factiverse 在识别需要核查的言论上,表现优于知名模型,且有 80% 的成功率。

来源TechCrunch


11月16日 星期六

首个自主机器学习AI工程师,NEO,击败OpenAI的o1模型

一家名为NEO的创业公司发布了全球首个完全自动化的机器学习AI工程师,能够在参与的50个Kaggle竞赛中获得26%的奖牌,超越了OpenAI的o1模型。NEO通过多智能体系统自动化整个机器学习流程,简化数据准备、模型选择、超参数调整、计算资源管理及模型部署等环节,使工程师能够以更高效的速度完成工作。NEO被设计为能够与人类协作并从反馈中学习,实现更快速的开发和部署。

来源机器之心

OpenAI曾考虑收购AI芯片初创公司Cerebras

详情:根据法律文件,OpenAI在2017年曾考虑收购AI芯片制造公司Cerebras,以减少对Nvidia的依赖。联合创始人伊利亚·苏茨克维尔建议通过特斯拉进行收购,但指出此举可能与OpenAI的使命不符。尽管进行了相关尽职调查和谈判,该收购最终未能达成。Cerebras目前正在推进IPO,计划将估值提高到约80亿美元。

来源TechCrunch


OpenAI早期的动荡:马斯克、奥特曼及核心成员的邮件曝光

一起涉及埃隆·马斯克与OpenAI的诉讼揭示了马斯克、萨姆·奥特曼及其他OpenAI创始时期关键人物之间的邮件。这些文件作为反垄断案件的一部分,显示了该公司从非营利理想向更商业化方向转型过程中,所面临的领导冲突和战略分歧。

值得注意的是,前首席科学家伊利亚·苏茨克维尔表达了对马斯克可能实现绝对控制AGI的担忧,尽管马斯克声称不希望成为独裁者。苏茨克维尔提到,马斯克在多次关键决策中更看重权力而非合作。类似的紧张关系也体现在与奥特曼的互动中,他的动机在向企业化目标转变的过程中显得模糊不清。

这些揭露展现了OpenAI发展历程中复杂的内部动态,反映了早期关于领导权、AGI方向以及在技术伦理和权力之间取得平衡的思想冲突。

来源:TechCrunch


11月15日 星期五

AI+游戏化疗愈 | Manifest专为Z世代设计

全球约有12亿青少年(10至19岁),其中20% 面临心理健康问题。研究显示,73% 的 Z 世代表示常感到孤独,50% 每天经历焦虑,与五年前相比,他们的情商调查得分有所下降。心理咨询行业的供给不足导致了“治疗缺口”,而AI 正在通过早期介入,缓解心理健康问题的蔓延。

Manifest 是一款创新的“AI+健康游戏化疗愈”应用,旨在帮助Z世代培养心理健康习惯。通过一系列有趣、简短的练习,将长期心理健康目标分解为易于管理的挑战,使其维护心理健康变得简单且有趣。上线数月,该应用已达千万次“表现”,并获得340万美元投资

来源:微信


AI电商:百度引航

第四波智能电商的红利已澎湃而至,谁先入场,谁就能掌握主场。这一次,百度成为了引航者。

内卷严重的电商行业中,唯有直播带货保持着高增长。根据艾瑞发布的《中国直播电商行业研究报告》,2023年中国直播电商市场规模已超过4.9万亿元

在刚结束的双11购物节,直播带货再次成为增长的支柱,然而,部分头部主播因“翻车”事件而被迫缺席,凸显了传统直播带货的风险。此时,百度推出了不会“翻车”的AI数字人主播。

百度董事长兼CEO李彦宏在百度世界大会上展示了AI数字人直播的场景,引发了现场观众的惊叹。他提到,这些数字人的动作、语言、口型非常自然,甚至让人难以辨别是否为虚拟。李彦宏举例,这类数字人可以是名师、名医、王牌律师或金牌销售的“数字分身”。

来源:MSN


AI先锋François Chollet离开谷歌

AI领域的重要人物François Chollet即将结束在谷歌近十年的职业生涯。

这位34岁的法国开发者在X平台上发布消息称,他将与“朋友”一起创办一家新公司,但未透露更多细节。

“我非常感激在谷歌的这十年时光,”Chollet在帖子中写道。“在这段时间里,深度学习从一个小众学术话题发展成为一个雇佣数百万人的庞大行业。”

Chollet以创建Keras而闻名,Keras是一个高阶开源API,用于创建AI模型和处理机器学习任务。谷歌开发者博客的一篇文章指出,Keras拥有超过200万用户,并为多款高知名度技术产品提供支持,如Waymo自动驾驶汽车和YouTube、Netflix以及Spotify的推荐引擎。

2019年,Chollet发布了通用人工智能(AGI)基准——抽象与推理语料库(ARC-AGI),用于衡量AI系统解决新型推理问题的能力。今年,他推出了100万美元奖金的ARC奖,以鼓励突破ARC-AGI(目前尚无人获奖)。

Chollet经常表示,许多主要AI实验室通过增加数据和计算资源来训练模型的方法,无法实现像人类一样“聪明”的AI。他认为,帮助模型以更接近人类方式“推理”的方法(如神经符号AI)才是最有前景的方向。

2021年,Chollet因其在AI领域的突破荣获全球瑞士AI奖。今年9月,他被《时代》评为AI领域100位最具影响力人物之一。

来源:TechCrunch


Sam Altman和Arianna Huffington的Thrive AI健康助手推出了基础演示版

今年夏天,Arianna Huffington和OpenAI CEO Sam Altman在《时代》杂志的专栏中宣布了Thrive AI Health,这是一项旨在打造支持健康生活方式的AI助手的新计划。由Huffington的心理健康公司Thrive Global和OpenAI初创基金支持,Thrive AI Health旨在开发一个“AI健康教练”,为用户提供个性化的睡眠、饮食、健身、压力管理和“社交联系”方面的建议。

数月后,Thrive AI Health的助手产品看起来仍处于起步阶段。

TechCrunch发现该公司的官网上展示了一个最低可行版本的演示。尽管功能大部分未开放,但演示版UI类似于OpenAI的ChatGPT,提供了“分析我的睡眠模式?”和“我过去一周的心率是多少?”等提示,并提供了输入年龄、体重和已有健康状况等个人健康信息的字段。

来源:TechCrunch


11月14日 星期四

“中国版英伟达”摩尔线程要上市

在这一轮AI产业浪潮中,国内GPU独角兽摩尔线程已正式启动A股上市进程。摩尔线程成立于2020年,创始团队来自全球GPU巨头英伟达,其创始人兼CEO张建中曾担任英伟达全球副总裁、中国区总经理。摩尔线程专注于提供全功能GPU及加速计算解决方案,核心产品夸娥智算中心全栈解决方案已涵盖基础设施建设、集群管理平台和大模型服务平台。

摩尔线程的上市将为AI芯片领域带来更多资本支持,并加速国内GPU技术的发展,成为继壁仞科技和燧原科技后国内第三家走向资本市场的GPU企业。

来源:新浪财经


Apple推出AI驱动的Final Cut Pro 11

2024年11月13日,Final Cut Pro 11 正式发布,距上一次更新Final Cut X 已过去了13年。此次更新标志着该视频编辑软件的重大版本升级。

Final Cut Pro 11 可以从本周三开始下载,现有用户可免费更新至新版本,而新用户则需要支付300美元购买,且在90天试用期后开始收费。

这次更新的核心亮点是引入了AI技术。继iOS、iPadOS和macOS引入Apple Intelligence后,Apple将在Final Cut Pro中利用AI来增强软件的功能。

其中,最引人注目的新功能是Magnetic Mask,该功能可以轻松将人物和物体从视频中剪裁出来,而无需使用绿幕技术。

Apple表示,Magnetic Mask 的强大自动分析能力为用户提供了更高的灵活性,允许定制背景和环境。编辑者还可以结合颜色校正和视频效果,精确控制和美化每个项目。

来源:TechCrunch


OpenAI预计明年1月推出AI代理工具“Operator”

据彭博社报道,OpenAI计划最早在2024年1月发布一款代号为“Operator”的AI代理工具,该工具能够在用户的计算机上直接执行操作。最初,Operator预计将通过OpenAI的开发者API以研究预览版的形式发布。

Operator将与其他类似的AI代理展开竞争,包括Anthropic新推出的Computer Use功能以及Google传闻中的面向消费者的代理工具。目前尚不清楚OpenAI的产品是否具备独特优势。据报道,Operator可能是一款通用型工具,能够在网页浏览器中执行任务。

该消息与OpenAI发布的政策文件同时公布。文件中,OpenAI提出了针对美国AI战略的多项建议,包括建议联邦政府创建允许建设AI基础设施的“经济区”,以及建立一个与美国盟友合作的联盟,以在AI领域与中国竞争。

来源:TechCrunch


11月13日 星期三

OpenAI联合创始人布罗克曼宣布回归,主抓重大技术创新

2024年11月13日凌晨5点,OpenAI联合创始人兼总裁格雷格·布罗克曼(Greg Brockman)宣布结束数月的长假,重回OpenAI。

此次回归恰逢OpenAI高管频繁离职的时期,包括首席科学家Ilya Sutskever、首席技术官Mira Murati以及安全团队负责人Lilian Weng等人相继离职。布罗克曼的回归被视为在公司面临危机时的及时救援。

据彭博社报道,布罗克曼在给员工的内部备忘录中表示,他与首席执行官Sam Altman合作,商讨为自己设立了一个新职位,专注于重大技术创新和挑战。这意味着,布罗克曼将直接主导OpenAI的技术战略,以确保公司继续在AI领域推出突破性成果。

来源:腾讯新闻


企业级生成AI初创公司Writer融资2亿美元,估值19亿美元

生成AI初创公司Writer宣布完成2亿美元C轮融资,估值达到19亿美元。这轮融资由Premji Invest、Radical Ventures和ICONIQ Growth共同领导,Salesforce Ventures、Adobe Ventures、B Capital、Citi Ventures、IBM Ventures和Workday Ventures也参与其中。

Writer的CEO May Habib表示,这笔新资金将用于产品开发,并进一步巩固公司在企业级生成AI领域的领导地位。Habib指出,Writer不仅仅是创建能够执行任务的AI模型,更在开发先进的AI系统,以满足企业在复杂、现实环境中的关键任务需求。

Writer成立于2020年,由May Habib和Waseem AlShikh共同创办。两人之前曾创立Qordoba,帮助企业将产品本地化并拓展新市场。如今,Writer已发展成为一个全栈生成AI平台,提供定制化的企业解决方案。

来源:TechCrunch


AI生成的虚假信息真实存在——你只是没有成为目标

2024年选举期间,虽然AI生成的虚假信息没有预期中那么严重,但它的威胁依然存在。TrueMedia非营利组织创始人Oren Etzioni警告,大部分人并未意识到深度伪造(deepfake)的广泛性和多样性,很多虚假内容并未曝光在公众视野中。他指出,虽然美国相对知情、信息获取便捷,但真实的虚假信息往往是针对特定人群的。例如,一些难以辨识的事件(如“伊朗飞机飞越以色列”的虚假视频)在特定社群中流传,普通人很难接触到。这表明,深度伪造的真正危险不在于名人视频,而在于难以辨别的社会、政治事件。

TrueMedia提供免费的图像、视频和音频鉴别服务,致力于帮助识别虚假信息。

来源:TechCrunch


11月12日 星期二

大厂布局AI眼镜,相关ETF逆市上涨

截至2024年11月11日,AI人工智能ETF(代码:512930)连续第三日上涨,涨幅达到2.25%,报1.36元,成交额超过1289万元,换手率为1.37%。跟踪的中证人工智能主题指数(930713)上涨2.46%,成分股如芯原股份和昆仑万维分别上涨20%和10.08%。

消费电子ETF(代码:561600)上涨1.62%,报0.88元,成交额达449万元,换手率3.09%。其中,中证消费电子主题指数(931494)上涨2.54%,成分股芯原股份上涨20%,中芯国际和沪硅产业也录得较高涨幅。

截至11月8日,AI人工智能ETF近一周累计涨幅达9.80%,而消费电子ETF上涨7.21%。消费电子ETF在过去一个月规模增长超过2069万元,份额增加400万份。

杠杆资金亦表现活跃,AI人工智能ETF前一日融资净买额超过1060万元,最新融资余额达2904万元。

来源:腾讯新闻


Cogna 融资1500万美元,推动AI编写企业软件

英国初创公司Cogna近日完成了由Notion Capital领投的1500万美元A轮融资,Hoxton Ventures和Chalfen Ventures参与了投资。Cogna成立于2023年5月,创始人Ben Peters曾是自动驾驶公司FiveAI的技术联合创始人,该公司在2022年被博世收购。此前,Cogna还获得了475万美元的种子轮融资。

Cogna专注于通过AI优化企业资源规划(ERP)软件,旨在简化企业从采购到人力资源的运营流程。目前,该公司已与Cadent Gas和Network Plus等客户合作。Peters指出,Cogna的解决方案区别于传统ERP系统,为客户提供定制化的AI驱动软件。

来源:TechCrunch


在线教育巨头Chegg因AI冲击股价暴跌99%

在疫情期间,Chegg因在线学习需求激增而大获成功,订阅量与股价创下历史新高。然而,ChatGPT的推出改变了这一切,学生们开始转向免费的AI工具获取学习答案。Chegg因此遭受严重客户流失,公司股价一度单日暴跌近半,自2021年高点以来累计下跌99%,市值蒸发约145亿美元。

Chegg原本凭借每月19.95美元的付费订阅模式,向用户提供教科书问题解答和专家帮助,但随着AI的崛起,用户纷纷放弃付费服务。自ChatGPT发布以来,Chegg损失了超50万付费用户,债务压力也随之增大,市场对其现金流持续能力表示担忧。

来源:新浪财经


OpenAI CEO Sam Altman谈AI未来:小团队将实现大突破

在近期与 Y Combinator 总裁 Garry Tan 的创业对话中,OpenAI CEO Sam Altman 强调,当前的 AI 技术远未达到顶峰,并指出了未来创业的机遇。他建议初创公司在早期积极采用 AI 技术,以其速度、专注力和适应力,战胜被冗长规划周期束缚的大型企业,取得竞争优势。

Sam Altman 描述了 AGI(通用人工智能)的发展路径:从“聊天机器人”到“智能体”,再到具备强大创新力的“创新者”。他预计未来技术将赋予 AI 更多创新能力,使其能够长期探索复杂问题并推动科学突破,促进科技进步。

Altman 强调,未来可能会出现仅由一个人和数千台 GPU 驱动的公司,这类公司有潜力实现年收入数十亿美元,体现出 AI 赋能下的小团队高效率运作模式。他还提到,降低能源成本、提高能源供应将对生活质量产生巨大影响,未来人类甚至可能讨论如“戴森球”般的大胆概念。

来源:华尔街见闻


11月11日 星期一

OpenAI应对AI升级放缓:探索新策略

据《The Information》报道,OpenAI 正在制定新的策略,以应对人工智能升级放缓的问题。尽管其代号为 Orion 的下一代旗舰模型在性能上优于现有版本,但与 GPT-3 向 GPT-4 的跨越相比,提升幅度较小。

测试人员指出,Orion 在一些方面的表现甚至可能不及其前代,例如编码能力。这一趋势表明,人工智能模型的改进速度正在减缓。

为了解决这一挑战,OpenAI 成立了一个基础团队,致力于研究如何在训练数据逐渐减少的情况下继续推动模型进步。该公司计划探索新的方法,包括使用 AI 模型生成的合成数据来训练 Orion,以及在训练后进行更多的优化。

OpenAI 对此消息暂未做出回应。此前,在回应相关旗舰机型计划时,OpenAI 表示今年并无推出代号为 Orion 的机型的计划。

来源:腾讯新闻


Encore:AI驱动的二手购物搜索引擎

由前苹果工程师 Alex Ruber 和前 Twitter、Asana 工程师 Parth Chopra 联手打造的 Encore,旨在彻底改变二手商品的在线搜索体验。两人通过 Y Combinator 的创始人匹配平台结识,并在一次二手店购物时萌发了创建 Encore 的灵感。他们希望通过这款 AI 搜索引擎,帮助用户在各种分散的二手市场中高效寻找心仪物品。

二手购物市场目前存在碎片化问题,消费者往往要花费大量时间浏览平台如 Depop、Mercari、ThredUp、eBay 等等。Encore 利用先进的语言模型技术,让用户可以轻松搜索,比如“《艾米丽在巴黎》第三季第四集中艾米丽穿的连衣裙”,并获取多个资源中的匹配结果。此类搜索功能让购物者能迅速找到灵感或特定商品,而无需在多个网站之间频繁切换。

Ruber 表示,Encore 的创意源自他个人对二手购物的兴趣,以及希望找到更便捷工具的愿望。Chopra 也提到,二手市场寻找独特物品的过程让他想起小时候和家人在跳蚤市场的探险,他们的目标是让这种“寻宝”体验在线上变得更简单和愉快。

来源:TechCrunch


11月10日 星期日

Boox Palma 2:小巧电子阅读器,怀抱更大梦想

Boox推出的 Palma 2 电子阅读器是一款融合了多种功能但定位独特的设备。Boox 将其描述为一种“让你在科技与生活之间保持专注的无干扰设备”,类似于 Light Phone 试图减少智能手机干扰的理念。

Palma 2 虽以电子纸显示屏为基础,专为阅读等功能而设计,但其功能远不止如此。设备运行较老版本的 Android 系统并支持 Play Store,具备摄像头、麦克风、扬声器和蓝牙功能。升级后的 八核处理器指纹识别器 也增强了其隐私保护。

这款设备虽试图减少智能手机的分心功能,但它并未完全坚持极简功能的路线。与典型智能手机或平板相比,ePaper 屏幕在多样性上略显不足,这也限制了其应用场景。但这些选择使 Palma 2 像是一个具有多种身份的 PDA,探索着如何在技术和便携性之间找到最佳平衡点。

来源:TechCrunch


11月09日 星期六

川普胜选,AI产业迎来变革,英伟达市值突破3.6万亿

2024年11月9日,英伟达的市值突破 3.6万亿美元,成为全球市值最高的公司,超越了苹果的历史最高市值纪录。英伟达股价的急剧上涨,主要得益于美国大选结果的影响,投资者对川普重返总统职位、税收减免和放松监管政策的预期表现出高度的乐观情绪。

2024年的大选后,英伟达成为市场的最大赢家,其股价大幅上涨2.2%,市值达到了 3.65万亿美元,超越了苹果此前创下的 3.57万亿美元 的历史纪录。此前,英伟达曾在6月短暂成为全球市值最高的公司,随后被微软和苹果超越。然而,随着全球大规模AI竞赛的推动,英伟达的股价在2024年11月暴涨12%,其市值在2024年已经增长了3倍。

OpenAI的研究员表示,随着AI产业的快速发展,川普可能会见证人工智能通用化(AGI)的诞生。AI技术的巨大需求,尤其是芯片和算力的需求,正在推动英伟达持续占据市场领导地位。随着微软、谷歌等科技巨头扩展算力,英伟达也稳稳地坐上了全球市值“王座”。

此外,分析师预计英伟达将交出一份亮眼的财报,预计其季度收入增长超过80%,达到 329亿美元。目前,微软市值约为 3.16万亿美元,股价在周四也有所上涨。

文章来源新智元


谷歌推出 Gemini 2.0 AI模型,响应速度更快

谷歌 Gemini 2.0 正在进行更新,最新的版本改进了响应速度,相比之前的 Gemini 1.5 Pro,其处理速度有了显著提升。根据 TestingCatalog 的报道,Gemini 2.0 目前在 高级用户 的 AI 模型选择界面中可见。初步测试表明,新模型的响应速度相较于前一版本更加迅捷,尤其是在处理请求时展现出了更高的效率。

然而,尽管 Gemini 2.0 的速度提升令人印象深刻,模型仍处于开发阶段,初步的测试结果表明,它在 “草莓测试” 中未能通过,其他一些模型却顺利通过了这一测试。这表明该模型仍然存在一定的改进空间。

文章来源IT之家


ChatGPT拒绝250,000个深度伪造请求,告诉200万用户去找其他选举新闻

ChatGPT 在2024年美国大选期间成为选民信息来源之一。OpenAI发布的更新显示,ChatGPT向约 200万用户 提出了建议,告知他们选择其他新闻来源,并推荐了像 路透社美联社 这样的可信新闻机构。这些“我只是一个AI,去读实际新闻”的回应在选举当天和第二天达到了 200万次

在选举前的一个月里,ChatGPT还向约 100万 用户推荐了 CanIVote.org,一个用于获取投票相关信息的网站。此外,ChatGPT还拒绝了 25万 个请求,未生成与候选人相关的图像。

这些数据虽然与传统媒体相比并不突出,但它们仍然显示出AI在选举中的影响力。例如,CNN的数字平台在选举当天和次日分别吸引了 6700万 独立访客。而AI平台虽然流量较少,但足以引起数百万人的关注并依赖于其选举相关知识。

Perplexity(另一家AI搜索引擎)在推动自己的选举信息平台相比较,OpenAI采取了更加保守的策略,专注于避免错误和提供可靠信息。整体来看,AI行业对此次选举的表现感到满意,并认为AI工具在选举期间得到了广泛的信任和应用。

文章出自:TechCrunch


11月08日 星期五

Mistral发布内容审核API,提升AI内容审查能力

Mistral AI初创公司今天发布了一个新的 内容审核API,该API可用于对多种语言的文本进行审核,包括英语、法语和德语等。Mistral表示,这个API是其 Le Chat 聊天机器人平台的内容审核引擎,并可以根据特定应用和安全标准进行定制。该API使用了 Ministral 8B 模型,这一经过微调的模型能将文本分类为九大类:性内容、仇恨与歧视、暴力与威胁、危险与犯罪内容、自我伤害、健康、金融、法律及个人身份信息。

尽管如此,Mistral表示其审核模型准确性高,并且公司仍在持续改进中。值得注意的是,Mistral没有将其API的表现与其他流行的内容审核API(如 JigsawPerspective APIOpenAI 的审核API)进行比较。

此外,Mistral还推出了 批量API,该API通过异步处理高流量请求,能够降低模型使用成本约25%。这一举措也使得Mistral的审核API在处理大规模内容时更加高效。

文章出自:TechCrunch

Microsoft推动AI助力工作变革,推出新Copilot创新功能

在2024年11月7日, Microsoft 发布了其关于 Microsoft 365 CopilotMicrosoft Teams 中的最新AI创新动态。微软正在加速将AI技术引入工作场所,通过 Copilot Studio 等工具,让用户能够更高效地利用人工智能提高工作效率。

从9月开始,微软推出了Copilot的第二波更新,包括 Copilot Pages 以支持AI协作,以及增强版的Copilot功能,适用于 Microsoft TeamsExcelPowerPoint 等办公软件。新的Copilot代理也能自动化许多商业流程,帮助企业客户提高工作效率。根据客户反馈,Copilot的响应速度提升了两倍以上,且用户满意度提高了近三倍。

10月,微软推出了新的 Copilot Studio 功能,允许用户创建自主代理,进一步推动业务流程的自动化。这些新功能特别适用于销售、服务、财务和供应链团队,帮助企业实现从传统业务应用向以AI为中心的工作流程过渡。

微软还计划在 Microsoft Ignite 2024 大会中分享更多创新成果,展示如何通过AI改变现代工作方式。

文章出自:Microsoft Blog


字节跳动发布X-Portrait 2技术,简化视频创作流程

字节跳动推出了新一代的 X-Portrait 2 技术,这一创新技术能够仅通过一张静态图片和一段驱动视频,生成高质量的“电影级”动态视频内容。与传统的基于人脸关键点检测的方法不同,X-Portrait 2使用了一种先进的 表情编码器模型,并通过端到端自监督训练框架,从大量人像视频中自我学习。这使得技术能够捕捉和迁移更加细腻甚至夸张的表情和情绪,保留了原图的身份特征,同时使视频生成过程更加简便和高效。

这一技术的亮点在于,X-Portrait 2不仅可以生成逼真的人物表情,还能实现高精度的动作捕捉和角色动画。通过简化传统的内容创作流程,X-Portrait 2有望在影视制作、虚拟角色演绎和个性化内容创作等领域带来广泛应用。

文章出自:ITBEAR


11月07日 星期四

AI编程助手助力初创公司,风险投资者看好其发展潜力

如今,几乎每位开发人员都在某种程度上使用AI编程助手,如 GitHub CopilotCursor.AI 来帮助解答技术问题和调试代码。然而,AI编程的未来远不止于此。有专家认为,未来的AI编程工具可能能够根据自然语言提示自动生成完整程序,甚至有可能取代人类工程师。

一些AI编程初创公司,如 ReplitBubble,已开始推出能够从自然语言指令生成代码的工具。这些技术的进步可能使得公司在未来雇佣的工程师数量减少,更多地由人类管理AI编程助手。 Greylock 风险投资公司的合伙人 Corinne Riley 在上周的 TechCrunch Disrupt 大会上表示:“这并非天方夜谭,虽然现在还未实现,但不久的将来就能看到。”

文章出自:TechCrunch

苹果发布iOS 18.2公测版,推出AI驱动新功能

苹果推出了 iOS 18.2公测版,为用户带来一系列新的AI功能。此次更新包括一款名为 Genmoji 的AI表情生成应用,用户可以通过它创作个性化的表情;以及一款名为 Image Playground 的AI图像生成应用。此外,iOS 18.2还集成了 ChatGPTSiri 的对接功能,并支持使用 iPhone 16摄像头 进行视觉搜索。此前,这些功能仅向开发者开放。尽管现在消费者也可以排队尝试这些新功能,但需要注意的是,部分功能仍需加入等待名单才能使用。

文章出自:TechCrunch


11月06日 星期三

Nvidia成为全球市值最大公司,AI热潮推动市值突破3.4万亿美元

Nvidia在11月5日超越苹果,成为全球市值最大的公司。凭借全球AI产业的强劲增长,Nvidia的市值在当天收盘时达到了 3.43万亿美元,超过了苹果的 3.38万亿美元

文章出自:TechCrunch


软发布全新Teams聊天和频道体验,AI驱动协作提升效率

微软宣布即将在 Microsoft Teams 中推出全新的聊天和频道体验,旨在通过智能化工具提升团队协作的效率。新体验将使用户能够更轻松地组织信息和进行沟通,并通过AI功能自动总结会议纪要、生成自定义表情符号、协同编辑代码块等,帮助团队更高效地完成任务。新功能还包括“立即开会”功能,便于团队进行快速、非正式的沟通。微软表示,该功能将于11月进行公开预览,并期望为用户提供更加高效、简洁的协作平台。

文章出自:Microsoft 365 Blog


新一代AI芯片助力无人驾驶技术

创新AI硬件加速自动驾驶发展

多家科技公司联合推出的新一代AI芯片,专为无人驾驶汽车设计。这款芯片通过提升处理速度和降低能耗,显著提高了自动驾驶系统的反应能力和决策精度。随着自动驾驶技术的不断进步,这一AI硬件的发布将进一步推动汽车行业向智能化、自动化迈进。

文章出自:TechCrunch


11月05日 星期二

ChatGPT 更新:开放自定义角色功能

用户可创建个性化虚拟助手-OpenAI宣布,最新版本的ChatGPT将提供自定义角色功能,允许用户为虚拟助手设定个性、语气和知识领域。用户可以根据需求打造与众不同的对话体验,无论是专业的商务助手还是风趣的生活伴侣。这一功能预计将在接下来的几周内推广到所有用户,进一步提升ChatGPT的多样性和实用性。

文章出自:OpenAI Blog


AI绘画:新的生成艺术平台吸引大量创作者

新兴的AI艺术平台ArtFlow引起了数字艺术界的广泛关注。平台利用最新的深度学习技术,能够根据用户的要求生成个性化的艺术作品。除了提供丰富的风格模板,ArtFlow还允许创作者对生成的艺术作品进行进一步调整,满足不同艺术家的创作需求。这一平台有望成为数字艺术创作的新标准,推动艺术与科技的结合。

文章出自:TechCrunch


AI辅助医疗:精准诊断系统提升临床效率

一家国内初创公司推出的AI医疗诊断系统,通过深度学习技术分析医学影像,帮助医生更快速地诊断疾病。系统尤其在癌症和心脏病等高风险疾病的早期筛查中表现出色,能够在几秒钟内识别出影像中的潜在问题。该技术的广泛应用预计将极大提高医院的诊疗效率,并推动医疗领域的智能化发展。

文章出自:HealthTech


百度发布AI智能问答系统:开启人机对话新纪元

百度推出的全新智能问答系统基于其强大的自然语言处理技术,能够更自然地理解和生成对话内容。该系统支持多轮对话,具备强大的上下文理解能力,能够为用户提供更流畅、精准的答案。这项技术的发布标志着百度在人工智能领域的进一步突破,预计将在企业服务、教育和智能客服等多个领域广泛应用。

文章出自:Baidu AI


11月04日 星期一

全球首款AI游戏诞生!

近日,全球首款完全由AI生成的Minecraft游戏——Oasis正式发布。Oasis不仅继承了Minecraft的经典玩法,还融合了最新的AI技术,能够根据玩家的行为实时生成新的世界、任务和挑战。此项目由Google DeepMind与Mojang联合开发,旨在展示AI在游戏设计中的巨大潜力。

相关文章:澎湃


Microsoft发布全新编程AI:AlphaCode

Microsoft旗下的AI团队推出了一款新的AI模型AlphaCode,旨在解决复杂的编程问题,并在全球编程比赛中与人类竞争。AlphaCode能够通过深度学习生成高效且正确的代码,表现出超越一般编程工具的能力。开发者界对于这一技术的期待非常高,AlphaCode有望成为未来AI与编程教育的突破点。

文章出自:TechCrunch


 

AI新闻生成技术进入主流

随着自然语言处理技术的不断发展,AI在新闻行业的应用越来越广泛。AI新闻生成工具不仅可以实时获取信息,还能根据不同受众自动调整报道的语气和风格。许多主流媒体平台开始采用这一技术来提高新闻采编效率,同时也引发了关于AI与原创新闻的伦理讨论。

文章出自:The Verge


 

法务行业变革:AI辅助合同审查

AI在法务行业的应用也日益成熟,特别是在合同审查领域。利用深度学习模型,AI能够快速识别合同中的潜在风险和不合规条款,大大提高了合同审查的效率和准确性。这项技术被越来越多的法律公司采用,尤其是在国际合同和跨境交易中表现出了巨大的价值。

文章出自:LawTech


11月03日 星期日

AgentOpsAI + Gemini API 帮助开发者将他们的 AI 代理投入生产

AgentOps是一个用于代理监控、LLM成本跟踪、基准测试等的Python SDK,它使开发人员能够将他们的代理从原型带到生产中,特别是在与Gemini API的功能和成本效益相结合时。

文章出自:Google for Developers


CrewAI在过去几周达成了重大里程碑

与IBM 的合作 – 筹集 1800 万美元 – 与Andrew Ng开设新课程 – 推出了便于 AI 代理部署的 CrewAI 平台 – 发布了 v 0.76.9

文章出自:CrewAI


AI探索中心更新:十款超好用PDF文档AI助手推荐

博主推荐十款好用的PDF文档AI助手,帮你快速提效

文章出自:AI探索中心


Sam Altman关于 AI 代理与人类的看法

AI 代理不仅仅通过自动化任务(如预订餐厅)提供好处。 它们可以处理大量并行查询,例如比较数百个选项,这超出了人类的处理能力。

文章出自:MIT TechTechnology Review


Howard Gil 分享了 AgentOpsAI GitHub 仓库的最新更新

Python SDK用于AI代理监控,LLM成本跟踪,基准测试等。与大多数llm和代理框架集成,如CrewAI, Langchain和Autogen

更新来源:https://github.com/

 

 

© 版权声明

相关文章