AI写作检测工具不靠谱 美国宪法竟被认为是AI写的
arstechnica消息,如果你把美国宪法输入到一个旨在检测是否由ChatGPT等人工智能模型编写的工具中,它会显示这份文件几乎肯定是AI编写的。但显然,詹姆斯·麦迪逊不是穿越者。为什么检测工具会误报呢?arstechnica采访了几位专家,包括人工智能写作检测器GPTZero的创造者。
不同的人工智能写作检测工具的检测方法虽然略有不同,但基本原理都是相似的:通过一个人工智能模型,在大量文本和一套假定的规则上进行训练。
例如,CPTZero的核心是一个神经网络,它在一个大型、多样化的语料素材库上进行了训练,其中包括人类写作的文本和AI生成的文本,重点是英语散文。然后,该系统会使用一些属性来对文本进行评估,包括“困惑度”和“突发性”等。
在机器学习中,"困惑度"是对一段文本与人工智能模型在训练过程中学习到的内容之间偏差程度的测量。
因此,测量困惑度背后的想法是,当它们编写文本时,像ChatGPT这样的人工智能模型会自然而然地使用它们最熟悉的东西,这些东西来自它们的训练数据。输出结果越接近训练数据,困惑度就越低。
人类是更混乱的写作者--至少理论上是这样--但人类也可以写出低困惑度的文章,尤其是在模仿法律或某些类型的学术写作中使用的正式文体时。此外,我们使用的许多短语都出奇地常见。
比方说,我们要猜测短语 "I'd like a cup of _____"的下一个单词。大多数人会填 "水"、"咖啡 "或 "茶"。在大量英语文本中训练出来的语言模型也会这样做,因为这些短语在英语写作中经常出现。这三个结果中任何一个的困惑度都会很低,因为预测结果是相当确定的。
而再想一个不常见的短语:“我想要一杯蜘蛛”。人类和训练有素的语言模型都会对这句话感到非常惊讶(或 "困惑"),因此它的困惑度会很高。
GPTZero测量的另一个文本属性是 "突发性",它指的是某些单词或短语在文本中快速连续或“突然”出现的现象。
例如,我们可能会在写完一个长而复杂的句子后接着写一个短而简单的句子,或者我们可能会在一个句子中使用大量的形容词,而在下一个句子中却一个也不使用。这种可变性是人类创造力和自发性的自然结果。
而另一方面,AI生成的文本往往更加一致和统一,其生成的句子长度和结构更有规律。这种缺乏可变性的情况会导致突发性得分较低,表明文本可能是人工智能生成的。