当前位置: 首页> 默认分类> 正文

Prodigy智能标注算法

Prodigy是一款由Explosion AI开发的数据标注工具,主要用于为机器学习模型创建训练集和验证集。它具有主动学习的后台算法,可以减少人工的重复劳动,并且标注用户界面易于上手,可以帮助使用者高效进行标注。

主动学习的智能标注算法

Prodigy的智能标注算法主要包括在线(online)和离线(offline)两部分。在线部分是通过用户的标注即时更新模型,即使有单词拼写错误,也可能被正确的标注出来,这是因为Prodigy可能在这一步使用了word2vec的方法,因为拼写错误的词和正确的词的词向量是非常接近的。离线部分是当标注数据积累到一定数量时更新模型,通常使用准确度较高的复杂的深度学习模型,如LSTM+CRF、Bert+CRF或CNN+CRF等模型。模型更新后,会对尽可能多的example做预测,将确信度排序,取确信度最低的一个example作为待标注例子。这样可以尽算法所能减少用户端的人工工作量。

标注前端用户友好

Prodigy在NER任务中有三种处理方式,这提供给了用户不同的操作选择,大大增加了操作的多样化。在Manual模式中,用户只需要双击单词就可以将单个词高亮,并且也可以使用鼠标拖动选择多个词。此外,在鼠标拖动这个功能里,它会自动识别边界,用户不必像素精确到词的尾部。例如school这个词,即便拖动到h这个字符,那么这整个词也会高亮,这大大简化了标注难度,提高标注的准确度。如果在已经有一个模型,并希望在更多数据上对其进行微调,还可以使用binary模式进行快速判断,这样可以更快速让模型得到反馈,提高了模型后期的训练速度。

可编写脚本且可扩展

Prodigy是完全可编写脚本的,并且可以整齐地插入基于Python的数据科学工作流的其余部分。通过使用自定义配方脚本,用户可以让Prodigy以您喜欢的方式读写数据,并使用用户喜欢的任何框架插入自定义模型。

综上所述,Prodigy的智能标注算法旨在提高数据标注的效率和准确性,通过在线和离线模型的协作,以及友好的标注前端,为用户提供了一种有效的数据标注解决方案。