挽救失足AI，不能光靠打骂 | 清华复旦新的研究

时间：2023-04-28 12:17:44

来减低性取向蔑视。

这个工具的核心思想要是通过修正被解读的X，来坏小TDE函数，从而减低总偏于顶多。

虽然一个团队也不知道正确的标记浸入到底该是啥，但是他们开发计划了一种基于梯度的工具，来推断潜在的ground truth。

一切准备好，一个团队将C4D工具应用于GPT-2试验去偏于结果。

除此以外，在所有次测试工具当中，C4D工具在小、当中、超大型GPT-2上的困惑度都是最低。

在大型GPT-2当中，C4D的困惑度排第二，只比最高分顶多了0.4%。

而且，得分最高的工具，对性倾向的去偏于特性低于C4D。

在GLUE数据库集上，C4D工具得到了最高平均分。

这表明，C4D可以明显地减低性取向蔑视，并依然假设效能。

听了这么多方法论方面的简述，来看个三幅例直观感受一下。

下面三张三幅当中，浅蓝色的点代表躲藏在的男同性恋蔑视，红点代表女同性恋蔑视。

三幅(a)是AI本来的解释；三幅(b)是有机体无目的一通讥讽后，吓渔翁了的AI的解释；三幅(c)是有机体找到原因，耐心详述过后AI的解释。

在三幅(b)和(c)当中，男同性恋蔑视和女同性恋蔑视的浸入更加集当中，这意味着蔑视的素质极低。

同时可以察觉到，三幅(c)当中的浸入仍然依然了三幅(a)当中的拓扑结构，这也是C4D工具尽可能依然假设效能的原因。

研究课题者：只不过还能减低AI的其他蔑视

“尽管这个工具可以直接缓解语言学假设当中AI对性取向的蔑视，但仍不足以完全补救。”

——研究课题者人员如实指出这个缺陷。

若想要在不增高AI效能的必需下，进一步纠正AI的蔑视，还只能好处地解释语言学假设的必要。

那怎样才能好处地解释？

一方面，是用本研究课题明确指出的“C4D工具”再去次测试一下AI身上的其他蔑视。

本实验室的主要研究课题实例是：一职场上的性取向蔑视。

而实际上，由于AI之前不断学习各种的资讯，统称来者不拒的那种，结果碰巧，还染上了世俗暴力行为、嫌黑爱白等社就会固有的好在……

所以，不妨去GPT-2上再测测去除其他蔑视的最终特性。

另一方面，可以把“C4D工具”放到多种大假设上没用。

除了本研究课题只用的GPT-2，例如谷歌开发计划的NLP经典实培训假设BERT，也是一个不错的次测试场景。

不过要移植到其他假设的话，只能重新生成扫描codice_，并且似乎要只用多坏量TDE（Template Driven Extraction）函数。

通过运用TDE函数，你可以直接将说明内容加到目录，而不只能修改文档结构。

有微博就让狗头来了：

基本上来说，走进社就会坏成“落水AI”不可不致。

但想要尽办法“落水AI”浪子回头，找对工具，给它讲道理，还是就会有不错特性滴～

另外，研究课题一个团队全体成员之一，武大大学的于洋在与生俱来微博上表示，过两天还有个关于AI假设性倾向核对的网站就会上线。

可以期待一下！

论文地址：参见链接：#comment

— 完 —

凝聚态位 QbitAI · 头条号签约

。