麻省理工学院研究团队将生成式人工智能应用于数据库

一种新工具使数据库用户可以更容易地对表格数据执行复杂的统计分析,而不需要知道幕后发生了什么。 GenSQL是一种用于数据库的生成式人工智能系统,它...

一种新工具使数据库用户可以更容易地对表格数据执行复杂的统计分析,而不需要知道幕后发生了什么。

GenSQL是一种用于数据库的生成式人工智能系统,它可以帮助用户进行预测、检测异常、猜测缺失值、修复错误,或者只需敲击几下键盘就能生成合成数据。

例如,如果该系统用于分析一位一直患有高血压的患者的医疗数据,它可以捕捉到该特定患者的血压读数较低,但在其他情况下则在正常范围内。

GenSQL自动集成了表格数据集和生成概率AI模型,可以考虑不确定性并根据新数据调整决策。

此外,GenSQL可以用来生成和分析模拟数据库中真实数据的合成数据。这在不能共享敏感数据的情况下特别有用,比如患者健康记录,或者真实数据很少。

这个新工具构建在SQL之上,SQL是一种用于创建和操作数据库的编程语言,于20世纪70年代末推出,被全球数百万开发人员使用。

从历史上看,SQL教会了商业世界计算机可以做什么。他们不需要编写自定义程序,他们只需要用高级语言对数据库提出问题。“我们认为,当我们从仅仅查询数据转向询问模型和数据问题时,我们将需要一种类似的语言来教授人们可以向具有数据概率模型的计算机提出的连贯问题,”Vikash Mansinghka说,他是一篇介绍GenSQL的论文的高级作者,也是麻省理工学院脑与认知科学系概率计算项目的首席研究科学家和负责人。

当研究人员将GenSQL与流行的基于人工智能的数据分析方法进行比较时,他们发现它不仅更快,而且产生的结果也更准确。重要的是,GenSQL使用的概率模型是可解释的,因此用户可以阅读和编辑它们。

“仅仅通过使用一些简单的统计规则来查看数据并试图找到一些有意义的模式,可能会错过重要的相互作用。您确实希望捕获模型中变量之间的相关性和依赖性,这可能非常复杂。有了GenSQL,我们希望让大量用户能够查询他们的数据和模型,而不必知道所有的细节,”该研究的主要作者、脑与认知科学系的研究科学家、概率计算项目成员马修·霍特补充道。

麻省理工学院的研究生马丁·加瓦米和亚历山大·卢在论文中加入了他们;研究科学家卡梅隆·弗里尔(Cameron Freer);Digital Garage的Ulrich Schaechtel和Zane Shelby;麻省理工学院电子工程与计算机科学系教授、计算机科学与人工智能实验室(CSAIL)成员Martin Rinard;以及卡内基梅隆大学助理教授费拉斯·萨阿德。这项研究最近在ACM编程语言设计与实现会议上发表。

结合模型和数据库

SQL是结构化查询语言(structured query language)的缩写,是一种用于存储和操作数据库信息的编程语言。在SQL中,人们可以使用关键字询问有关数据的问题,例如对数据库记录进行求和、过滤或分组。

然而,查询模型可以提供更深入的见解,因为模型可以捕获数据对个人意味着什么。例如,一名女性开发人员想知道自己的工资是否过低,她可能更感兴趣的是工资数据对她个人的意义,而不是数据库记录的趋势。

研究人员注意到,SQL并没有提供一种有效的方法来整合概率人工智能模型,但与此同时,使用概率模型进行推断的方法不支持复杂的数据库查询。

他们建立了GenSQL来填补这一空白,使人们能够使用一种简单而强大的正式编程语言来查询数据集和概率模型。

用户上传自己的数据和概率模型,系统自动进行整合。然后,她可以对数据运行查询,这些查询也从后台运行的概率模型中获得输入。这不仅支持更复杂的查询,还可以提供更准确的答案。

例如,GenSQL中的查询可能是这样的,“来自西雅图的开发人员知道编程语言Rust的可能性有多大?”仅仅查看数据库中列之间的相关性可能会错过微妙的依赖关系。结合概率模型可以捕获更复杂的交互。

此外,GenSQL使用的概率模型是可审计的,因此人们可以看到模型用于决策的数据。此外,这些模型提供了校准不确定性的措施,以及每个答案。

例如,有了这种校准的不确定性,如果有人向模型查询来自数据集中代表性不足的少数群体的患者的不同癌症治疗的预测结果,GenSQL会告诉用户它是不确定的,以及它有多不确定,而不是过于自信地倡导错误的治疗。

更快,更准确的结果

为了评估GenSQL,研究人员将他们的系统与使用神经网络的流行基线方法进行了比较。GenSQL比这些方法快1.7到6.8倍,在几毫秒内执行大多数查询,同时提供更准确的结果。

他们还在两个案例研究中应用了GenSQL:一个案例中,该系统识别了错误标记的临床试验数据,另一个案例中,它生成了准确的合成数据,捕捉了基因组学中的复杂关系。

接下来,研究人员希望更广泛地应用GenSQL来进行大规模的人口建模。有了GenSQL,他们可以生成合成数据来推断健康和工资等信息,同时控制在分析中使用的信息。

他们还希望通过向系统中添加新的优化和自动化,使GenSQL更易于使用,功能更强大。从长远来看,研究人员希望用户能够在GenSQL中进行自然语言查询。他们的目标是最终开发出一个类似chatgpt的人工智能专家,人们可以与之谈论任何数据库,它的答案基于GenSQL查询。

这项研究部分由美国国防高级研究计划局(DARPA)、谷歌和西格尔家族基金会资助。

本文来自作者[新瑶]投稿,不代表日行轩立场,如若转载,请注明出处:https://cn.ttshucha.net/zlan/202505-103.html

(8)

文章推荐

  • 疫情期间复工怎么投诉(疫情期间复工怎么投诉电话)

    疫情老板不发工资怎么办法律分析:疫情期间不发工资怎么举报疫情期间,如果用人单位不发工资,可以拨打电话投诉,也可以到劳动局监察大队投诉。法律依据:《工资支付暂行规定》第七条工资必须在用人单位与劳动者约定的日期支付。如遇节假日或休息日,则应提前在最友兄近的

    2025年05月14日
    0
  • 疫情传播途径是什么(疫情传播的三个途径)

    新型冠状病毒的传播途径1、接触传播:新型冠状病毒可以通过接触被病毒污染的物体表面后,再触摸自己的口、鼻或眼睛而传播。飞沫传播:这是新型冠状病毒传播的主要途径,病毒通过感染者咳嗽、打喷嚏或说话时产生的飞沫传播给其他人。土壤传播:目前没有证据表明新型冠状病毒

    2025年05月14日
    0
  • 疫情的疫苗叫什么(疫情接种的疫苗)

    最新疫苗有效性研究出炉:莫德纳辉瑞国药科兴!钟南山:混打疫苗更有...1、接种科兴疫苗后,感染风险是辉瑞的37倍。接种国药疫苗后,感染风险是辉瑞的62倍。接种莫德纳疫苗后,感染风险是辉瑞的0.84倍。研究还显示,疫苗对重症的预防效果依次递减。接种科兴疫苗后,

    2025年05月14日
    0
  • 疫情大考有哪些(疫情大考告诉了我们什么心得体会)

    大考有哪些演员1、在《大考》这部剧中,颜丙燕的演技更惊艳我。以下是几位女演员表现的具体分析:颜丙燕饰演的赵珊:-颜丙燕将赵珊这个角色演绎得极为真实且富有层次。她通过细腻的表演,展现了赵珊作为农村妇女的坚韧与温情,尤其是对丈夫无微不至的关怀,既让人无奈又让

    2025年05月14日
    0
  • 通海有疫情吗(通海新型冠状病毒)

    通海封城了吗1、没有。通海是云南省玉溪市下辖县,截止至2022年12月8日,该地球疫情得到了很好地控制,其所在地区属于低风险地区,是没有进行封城管理的,当地居民出行时需根据防疫政策做好个人防护措施。2、云南玉溪未封城。根据查询相关公开信息显示云南玉溪现有确诊

    2025年05月14日
    1
  • 美国疫情还要多久结束(美国疫情多久恢复)

    啥时候疫情可以结束有专家认为,2025年左右可在全球建立群体免疫,这意味着全球疫情有望于2025年结束。全球范围内的疫情结束时间是在2023年1月30日,中国国内是在2022年12月9日宣布疫情结束。全球范围:世界卫生组织(WHO)宣布新冠疫情不再构成“国

    2025年05月14日
    1
  • 疫情期间好求职吗(疫情期间求职人多)

    疫情对找工作的影响大吗?找工作难吗1、由于新冠疫情的影响,全球经济都受到了很大的冲击。很多企业、行业受到影响导致裁员、停工、减薪等现象。同时疫情也导致了各种产业链条中断、跨国物流不畅、商业活动降温等情况,从而也使得就业市场出现了一些问题。2、疫情的因素对于今

    2025年05月14日
    3
  • 疫情应该怎么办(疫情要怎么办)

    全球疫情持续,我们怎么办?1、如果全球疫情持续,我们该怎么办?关于这个问题钟南山院士早就给出了答案,我们应该主动做好以下几点:少出国,疫苗应接尽接,全民健身,理性抗疫。要相信新冠疫情在中国是可防可控的。从202022022年发生的疫情可见,中国的防控工作是组

    2025年05月14日
    2
  • 疫情持续了几天(疫情大概持续多久)

    请问西安这次封城,大概多久才能结束?1、西安封城持续了28天。具体来说,自疫情出现以来,西安为了控制疫情的蔓延,采取了封城的措施。这意味着城市的主要出入通道被封锁,人员和车辆的流动受到了严格的限制。根据记录和统计数据,从封城开始到解封的这段时间内,共计大约一

    2025年05月14日
    3
  • 韩国疫情为什么(韩国疫情为什么控制的好)

    韩国政府进入24小时全面戒备状态,为何感染人数还在快速增加?首先就是韩国政府的公信力实际上非常低,韩国民众对政府的信任并不够。其次就是韩国之前并不是没有采取过类似的措施,但是收效甚微,这就导致了韩国国内已经感染了的人开始出现了病情的爆发。韩国政府想要在短时间

    2025年05月14日
    2

发表回复

本站作者后才能评论

评论列表(4条)

  • 新瑶
    新瑶 2025年05月01日

    我是日行轩的签约作者“新瑶”!

  • 新瑶
    新瑶 2025年05月01日

    希望本篇文章《麻省理工学院研究团队将生成式人工智能应用于数据库》能对你有所帮助!

  • 新瑶
    新瑶 2025年05月01日

    本站[日行轩]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 新瑶
    新瑶 2025年05月01日

    本文概览:一种新工具使数据库用户可以更容易地对表格数据执行复杂的统计分析,而不需要知道幕后发生了什么。 GenSQL是一种用于数据库的生成式人工智能系统,它...

    联系我们

    邮件:日行轩@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们