改进的脏话审查方案.pdfVIP

下载本文档

7
0
约3.09千字
约 4页
2018-01-26 发布于浙江
举报
版权申诉

改进的脏话审查方案.pdf

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

改进的脏话审查方案

作者：斯克迪亚改进的脏话审查方案导言我经常光顾cnbeta，那里的评论很精辟，有时我也会忍不住评上两句，但近来突然发现发布评论都必须经过审核才会显示了，这让我感到非常扫兴。由此我又想起了此前我曾讨论过的“非法内容核查方法”，我想这种人机结合的审核方式应该会比较适合现在的cnbeta 吧。而现在我已经对此方案有了更深、更好的思路了，想在此分享出来，和大家探讨一下，我将在此逐步解析整个审查的流程：准备工作要审查脏话，首先需要创建对应的审查规则，每条规则需要提供以下基本信息： 1. 表达式：用于审查内容是否匹配的正则表达式。使用正则的原因在于其灵活性，常规的纯文本检索虽然快，但遇到干扰符等情况时束手无策，而正则就可以轻松解决，例如表达式“[煞傻妈狗屎贱骚瘙搔臊][\s\S]{0,4}?[逼笔比B Ｂ鼻Ｘ] ”可以匹配多种组合的脏话，并可兼容至多4 个干扰字符。 2. 首字符列表：用于遍历文章内容时提取疑似首字符使用。对于表达式“[煞傻妈狗屎贱骚瘙搔臊][\s\S]{0,4}?[逼笔比B Ｂ鼻Ｘ] ”来说，它的首字符列表中应包含“煞傻妈狗屎贱骚瘙搔臊”。 3. 尾字符列表：用于遍历文章内容时提取疑似尾字符使用。对于表达式“[煞傻妈狗屎贱骚瘙搔臊][\s\S]{0,4}?[逼笔比B Ｂ鼻Ｘ] ”来说，它的尾字符列表中应包含“逼笔比B Ｂ鼻Ｘ”。 4. 分值：即匹配成功后，为该文章增加的危险度分值。 5. 最大长度：就是脏话内容可能出现的最大字数。对于表达式“[煞傻妈狗屎贱骚瘙搔臊][\s\S]{0,4}?[逼笔比B Ｂ鼻Ｘ] ”来说，它的最大长度应当是6 。 6. 精确长度：就是当脏话内容完全无干扰符的情况下的实际字数。此属性可以用于计算匹配内容的精准程度，比如还是用上面那个表达式“[煞傻妈狗屎贱骚瘙搔臊][\s\S]{0,4}?[逼笔比 B Ｂ鼻Ｘ] ”的例子，如果遇到语段“她的妈妈总是逼我们尽快完婚”也会匹配成功，但匹配到的内容长度会是5，与精确长度2 进行比对的话，就可以得知此匹配项有可能属于误判；而且我们还可以让程序依据精确程度为文章打分，比如此规则原始分值为10 分，但只有40% 的精确度，那么在加分时可以只加4 分，这样得出的危险度分值将更具参考性。尽管主要目的是为了检验脏话，但此机制也完全适用于检验文章内的广告、色情、血腥、政治、宗教等内容，甚至还可能用来给内容做积极方面的评分，比如用以审阅学生作文，对特定修辞手法予以加分。转载请保留作者博客链接：http://SkyD./ 作者：斯克迪亚初始化在审查之前，需要事先载入先前创建的规则，并加以分类，以更方便及加速检索。分类的方法是建立一个Dictionarystring, List规则类型的对象称为规则字典，将规则可能触发的首尾字符组合作为规则字典的键值，保存规则到对应的字典内的List 中，这样可以极大地提高检索时获取规则的速度。比如规则的首尾字符分别为“王”和“蛋”，那么就将此规则存入规则字典[ “王蛋”] 内的List 中去，如果此规则存在多种首尾字符组合，那么就保存多个副本到各种首尾组合的规则字典键值中。在分类的同时，还应该采集并创建以下数据，并保存备用： 1. 全局最大长度：即所有规则中，最大长度属性的最大值。此属性将用在检索时进行预判断，以减少不必要的遍历次数，提高效率。 2. 全局首字符列表：即所有规则中出现的首字符总列表。此属性用于检索文章全文时使用。 3. 全局尾字符列表：即所有规则中出现的尾字符总列表。此属性用于检索文章全文时使用。遍历内容全文遍历内容的每一个字符，依据全局首字符列表和全局尾字符列表找出可能是非法内容首字符或尾字符的字符，将该字符及其位置存入相应列表中，我们在这里将捕获到的列表称为疑似首字符列表及疑似尾字符列表。这里我建议在捕获到尾字符时倒序插入到疑似尾字符列表中，这样在遍历匹配时可以优先匹配字符较多的内容，比如“傻”和“傻瓜”都符合脏话规则的情况下，优先匹配“傻瓜”。分析并处理捕获内容接着遍历疑似首字符列表，从疑似尾字符列表中找出可能与之搭配的尾字符（根据当前首字符索引位置及规则的全局最大长度进行预筛检：尾字符索引位置=首字符索引位置尾字符索引位置=首字符索引位置+全局最大长度）。再将当前的首尾字符组合成字符串，当作键值，向规则字典查询键值内可能匹配的规则（