尊龙凯时·(中国)人生就是搏!

尊龙凯时新闻 学术动态 通知公告 媒体报道 学生之窗 学院概况 学院简介 现任领导 机构设置 师资队伍 师资力量 胡新荣 叶璐瑶 魏雄 教师风采 研究生导师 彭涛 向涛 尊龙人生app 本科生 研究生 科学研究 科研成果 科研团队 科研平台 纺织服装智能化湖北省工程研究中心 湖北省服装信息化工程技术研究中心 招生就业 党建工作 教工党建 学生党建 尊龙凯时人生就是搏 人才招聘

尊龙凯时官方|南波杏|AI版华尔街之狼!o3-mini靠「神之押注」狂赚9倍De

来源: 尊龙凯时人生就是搏学院 发稿时间:2025-10-06

  学生会★★ღღ!科学新知★★ღღ,尊龙凯时人生就是博官网登录【新智元导读】AI能像科幻电影中的先知一样预测未来吗?一个名为「Prophet Arena」的全新基准测试★★ღღ,正通过预测真实世界事件来评估AI的「预言」能力尊龙凯时官方★★ღღ。

  在昨晚的男篮亚洲杯冠军争夺战中★★ღღ,中国男篮虽以1分之差惜败澳大利亚★★ღღ,但已是近十年来的最好成绩尊龙凯时官方★★ღღ!

  今天要介绍的Prophet Arena就是一个通过实时更新的真实世界预测任务来评估AI系统预测智能的基准测试★★ღღ。

  为「人机协作」而生★★ღღ:你可以给AI提供线索★★ღღ,看看它的预测如何变化★★ღღ;AI也会把它的思考过程告诉你★★ღღ。

  Prophet Arena从像Kalshi和Polymarket这样的预测市场平台挑选热门★★ღღ、多样且周期性的真实事件作为考题★★ღღ。

  Kalshi是一家美国的金融交易所和预测市场平台★★ღღ,是美国第一个受美国商品期货交易委员会(CFTC)监管的★★ღღ、专注于交易「事件结果」的交易所

  AI模型们利用搜索引擎★★ღღ,像侦探一样收集关于某个事件的新闻报道南波杏★★ღღ,整理成一份精炼的「情报简报」尊龙凯时官方★★ღღ。同时★★ღღ,也会把当时的市场价格(可以看作是群众的集体智慧)放进去★★ღღ。

  拿到相同的情报后★★ღღ,每个AI模型都要提交一份详细的「预测报告」★★ღღ:对所有可能的结果给出一个概率分布★★ღღ,并附上长篇大论的理由★★ღღ,解释自己为什么这么看★★ღღ。

  事件结束★★ღღ,结果揭晓★★ღღ。会用一套专业的指标来评估AI的预测到底有多准★★ღღ,然后更新在一个实时排行榜上★★ღღ。

  排行榜主要看两个指标★★ღღ:一个是衡量准确度和校准度的Brier分数(越高越好)★★ღღ,另一个是模拟真实投注的平均回报(看谁能赚钱)★★ღღ。

  除了上述两个核心指标外★★ღღ,Prophet Arena还采用了受统计学和心理测量建模启发的高级评估方法★★ღღ,如项目反应理论(Item Response Theory★★ღღ,IRT)和广义Bradley-Terry(BT)模型★★ღღ。

  比如一场温布尔登网球赛★★ღღ,赛前市场普遍认为选手保罗有84%的胜率南波杏南波杏★★ღღ,甚至在开赛前一度攀升至95%南波杏★★ღღ。

  比如在「AI监管法规会在2026年前成为联邦法律吗?」这个事件上★★ღღ,市场认为可能性只有25%尊龙凯时官方★★ღღ。

  保守派代表Llama 4 Maverick★★ღღ:它也看到了同样的信息南波杏★★ღღ,但认为立法过程复杂又缓慢★★ღღ,所以只给出了比市场略高一点的35%★★ღღ。

  例如在圣地亚哥与多伦多的美国职业足球大联盟比赛中★★ღღ,o3-mini在1美元的投注上获得了9美元的回报尊龙凯时官方★★ღღ。

  根据市场数据和新闻来源★★ღღ,o3-mini预测多伦多获胜的概率为30%★★ღღ,而市场隐含的概率仅为11%(价格=0.11)★★ღღ。

  尽管多伦多是不被看好的一方★★ღღ,但AI识别到了正的期望值★★ღღ,并由于其最大的优势比率30%/11%≈3★★ღღ。

  就像在上面那场足球赛中★★ღღ,市场认为多伦多队只有11%的胜算★★ღღ,但o3-mini经过分析认为有30%★★ღღ。

  数值越低(颜色越深的单元格)表示概率推理更接近一致★★ღღ;数值越高(颜色越浅的单元格)则表明分歧越大★★ღღ。

  与Kimi K2★★ღღ、o3和Llama 4 Maverick等模型相比★★ღღ,它的L2距离始终高于0.7南波杏南波杏★★ღღ,这表明其可能采用了不同的校准方式或内部决策机制南波杏★★ღღ。

  在频谱的另一端★★ღღ,诸如Grok-4和GPT-5之类的模型经常作出高度一致的预测★★ღღ,L2距离通常低于0.3★★ღღ。

  换句话说★★ღღ,这张图展示了AI预测的多样性★★ღღ:有些模型形成「群体共识」★★ღღ、有些模型像「特立独行的异议者」尊龙凯时官方★★ღღ。

  设想★★ღღ,AI系统将成为预测市场的积极参与者★★ღღ,将人类的直觉洞察与AI强大的数据分析能力相结合★★ღღ,最终提升整个社会的集体远见★★ღღ,为那些高风险的决策提供更可靠的依据★★ღღ。

  毕竟★★ღღ,如果说语言模型的下一步是预测下一个词★★ღღ,那么它的终极形态★★ღღ,或许就是预测这个真实世界的下一个事件★★ღღ。