最新的人工智能技术几乎可以模仿任何人的声音——总统、某位亲属或银行客户。

  这就是成立已有十年的音频技术初创公司Pindrop Security 要解决的问题和机遇。该公司长期为银行和保险公司提供语音认证服务。最近,它发布了一款新产品,称其可以检测电话和数字媒体内容中由人工智能生成的语音。该公司正向媒体、政府机构和社交网络推销这项功能。

  Pindrop是越来越多具有安全意识、意欲打击人工智能造假和欺诈威胁的公司之一。Protect AI 和萨姆·奥尔特曼(Sam Altman)麾下的Tools For Humanity Corp.(即Worldcoin,通过扫描眼睛来识别人的身份)等都属于这类公司。

  Pindrop专注于音频领域,今年1月,该公司因检测到美国总统拜登的声音通过自动语音电话唆使人们不要在新罕布什尔州初选中投票的深度伪造来源而登上了新闻头条。攻击的规模在不断扩大:该公司称,自去年以来,针对其客户的未遂攻击数量增加了五倍多。

  SocialProof Security的首席执行官雷切尔·托巴克(Rachel Tobac)说:“把语音克隆和欺骗软件结合起来,伪装成其他人在打电话,非常容易办到。”

  Pindrop从一批知名投资者那里获得了融资,包括Andreessen Horowitz和GV。今年,该公司又从Hercules Capital 获得了1亿美元债务融资。其最新估值为9.25亿美元。

  联合创始人维贾伊·巴拉苏布拉马尼扬(Vijay Balasubramaniyan)攻读博士期间在印度旅行时曾想购买一套西装,之后他开始思考音频造假问题。他开户的某美国银行在当地时间凌晨3点左右打电话给他核实交易,问他的社保号码。由于无法核实来电者是谁,银行也没有提供太多信息,他就挂断了电话。

  “这太奇怪了,”巴拉苏布拉马尼扬回忆起他在回美国的飞机上的想法,“亚历山大·格雷厄姆·贝尔(Alexander Graham Bell)发明电话已经很久了,但我们仍然没有办法识别电话的另一头是谁。”(他没买到那套西装。)

  Pindrop的技术通过分析音频来判断声音是属于真人,还是与人相像。巴拉苏布拉马尼扬说,人类通过发出特定的声音来说话,用声音组成单词。但机器的发音不像人类,偶尔会产生一些变化,超出人嘴发音的物理限制。由于每秒钟的语音音频可以采集8000个样本,人工智能有可能在几千个地方出错。

  巴拉苏布拉马尼扬说:“随着你获得的音频越来越多,你就会发现这些异常现象。”他补充说,由于人类的发音方式都一样,因此他们的检测软件与语言种类无关。

  该公司称,其新工具可识别人工智能生成的音频,准确率在99%,但业内对人工智能检测的局限性仍有争议。对于教师、研究人员和社交媒体用户来说,随着技术的进步,识别人工智能生成的文字和图像一直是令人头疼的问题。今年3月,OpenAI发布了一款可以复制人声的工具,该公司在一篇博文中建议,企业对于访问银行账户和其他敏感信息应逐步淘汰基于语音的身份验证方法。

  在Pindrop担任董事的思科系统公司前总裁约翰·钱伯斯(John Chambers)认为,语音ID是一种异常安全的在线身份验证方式。钱伯斯通过他的公司JC2 Ventures投资了这家初创公司。“语音将成为未来识别身份的主要网络安全验证方式,”他说,当语音与生物特征识别和所使用设备的相关数据结合起来时,“几乎不可能有人完全破解。”

  一些业内人士对应对人工智能问题的人工智能公司数量增多表达了疑虑。身份盗窃研究中心(Identity Theft Research Center)的詹姆斯·李(James E. Lee)说,除非通过法律来减少网上可获得的个人数据数量,否则业界就可能卷入好坏人工智能之间的长期争斗之中。

  安全技术的发展同时,威胁也会随之而来。斯坦福大学的网络安全政策专家安德鲁·格罗托(Andrew Grotto)说,坏人有可能训练出一种算法,来逃避Pindrop等公司用来识别深度伪造的检查。格罗托说:“你最终会陷入这场军备竞赛,即防御者和威胁者之间的猫鼠游戏。”编辑/陈佳靖