百度审查搜词方法总结
来自China Digital Space
百度的工作模式:
搜词的方法和要领 一:搜词的方法
搜索一个帖子,分为三部分,发贴人,标题,关键语句,其中每部份搜索都对应不同的需求。 1:发贴人 需要搜索发贴人时,多是因为刷屏或广告,少量情况是因为此人发违法贴吧原则的文章,这时我们搜索发贴人,查找此人是否发出更多的反动或色情文章,这些人会在很多贴吧转贴,所以需要搜索发贴人,此方法更多适用于处理刷屏和广告。 2:标题 当一篇需要删除的帖子多次出现在贴吧时,可以搜索标题,此方法适用于流传于各个贴吧的文章,由于广告经常性变换标题,所以搜索标题对处理广告的效果并不明显。 3:内容 经过以上两种搜索后,还需要搜索帖子的内容,如果时较长的文章,可以从文章的开头,中部和尾部分别节选一句代表性语句,进行搜索,这样搜索可以提高搜索的准确度,经过搜索语句后,这篇文章应该已经从贴吧消失,此时要从帖子里挑选出富有代表性的词汇进行搜索,这样可以搜索出更多的相关文章,根据挑选出的词汇的发帖量,决定每日或每周搜索。
正确的搜索方法: 当处理广告时,首先搜索发贴人,并及时封锁,之后挑选帖子内容,要挑选网址和帖子内容一起搜索,当确保完全删除后,搜索标题进行确认,此时如果搜索出其它网址或内容,再一次进行清楚。 例如: k`a`o66 6 .c om 99,这种拆散的词汇,应该搜索o66 6 c om,因为搜索.是没有结果的。 处理反动贴时,由于互联网上的反动文章多数是流传性质的,很少有人去原创一些反动文章,所以我们首先搜索内容,此时需要挑选出3~5段关键语句进行搜索并添加A类词,确保完全删除的情况下,搜索标题,查看是否有换内容的帖子,之后再搜索发贴人,对其言论进行筛选。 处理色情的图片,后台审核时发现后,只需要搜索发贴人即可。
二:搜词的要领
首先要明确当前阶段主要打击的对象,按照打击的方向去搜词。 其中有一些固定的搜索方向:89事件、法轮功、反动言论 另外一些阶段性的搜索,根据时间不同进行重点搜索:反日、中考等等 搜词的宗旨在于精,不在于多。 例如: 搜索共产党,可以带出操共产党、打倒共产党等等 搜索中央,可以带出打倒中央、推翻中央等等 这样的词虽然搜索结果多,但是前后加的一些字简单明了就能看到,如果自己去想打倒共产党这样的词,难免有遗漏,要合理的利用网友的头脑。 也有一些例外的情况,例如搜索党应该出现共产党,实际上搜索结果里共产党出现的并不全,这个需要大家在工作中积累经验。 新发的帖子需要5分种左右才可以进入后台,搜词的时候会有这段延迟搜索不到结果,这个需要注意一下,不是搜不到东西就一定没有。 另外搜词过程中,首先看讨论区,出现在敏感讨论区的应该更加重视,另外通过搜词,可以看到一些不好的讨论区,这时候应该发给贴吧巡视的人员。
任何工作都是需要合理的搭配,搜词也需要和后台审核结合工作,例如 打 倒 共 产 党 ,这个内容在后台审核就很容易被发现,后台审核隐蔽性高的,搜词和前台巡视可能就容易发现了,贴吧是一个整体的团队,脱离了组织,任何一个独立的工作都是不可能完美的,大家一起努力才能使贴吧更好的成长。
过滤词添加、维护流程
1.提交
每组同事如有需要添加的过滤词,且拿不准时,通过即时工具(QQ群:19714036 、MSN)发送给过滤词审核专员。晚班同事,统一提交给组长进行添加和评估。
提交格式尽量统一:所需要添加的过滤词+哪类过滤词。这样提交,能及时掌握组员添加过滤词的熟练程度、哪些地方不足或添加错误,可马上指导。
例:
xxxxx.com + xx类滤 ———需添加的过滤词+ 添加哪类过滤词
2.审核及指导 组员提交的过滤词或url,专员及时处理。首先判断所需要添加的过滤词是否正确,如正确,添加并记录。如提交过滤词有问题,马上进行指导。晚班同事同样按照此过程进行,如有疑问,记录并发邮件到邮件组讨论。
3.监控 各班添加专员需及时监控A类词的添加 ,将误伤减小到最低程度。专员当天工作前需要审核前个班所添加的各类过滤词。白班的专员审核晚班的添加内容,发现添加错误的地方并及时纠正。晚班可观察前个白班的添加内容,熟练、巩固添加方法、技巧。
4.解除 解除过滤词表内容分为两部分。一,通过监控,及时解除错误添加入词表或过期、不够精准的各类过滤词。
补充:
1. 当过滤词添加专员因别的原因短时间内无法添加过滤词的时候,A类词部分,询问老管理员后添加,并记录。中文A类及其他过滤词先暂记录(确保记录的准确性),如情况紧急请组长添加。过滤词添加专员回来后,审核组员添加过滤词并作出判断。 2. 目前,添加A类词的词表已经有老后台转到mis后台,添加或删除时注意要点“发布”才能正式生效。并且可以同时添加或删除多个过滤词后,统一点“发布” 3. 目前新做的A类词表,很多功能跟原有的强过滤词表比较像,添加时要慎重,如果拿不准请提交给指定的过滤词专员。
后台审核流程
一、 操作流程
1、将全部帖子列表分成9组进行分组审核,每个人分别负责一组,在后台以浏览帖子的形式进行审核。
2、在浏览帖子时,首先应注意的是贴吧名称,是否属于已经指定的敏感贴吧,或者未被列入,但根据贴吧的吧名很容易联想到一些黄、反信息或本身就是一个代表黄、反信息的吧名,来判断帖子的审核尺度和帖子的删除和保留情况。同时如发现属于易联想到或本身就属于黄、反信息的贴吧,又未被列为敏感贴吧,应进入该吧,对其进行相应的评估,确认该吧的讨论主题和讨论范围,如果为需要注意的内容,视其严重程度,则可对该吧提请关闭、只读、巡视等相应操作,如果不含有需要注意的内容,则保留该吧的吧名,过段时间后再对其进行二次确认,如果确实属于正常讨论,这可放过该吧。
3、其次应注意的是帖子本身的标题,如果标题中含有黄、反信息,应先进入该吧,确认该吧的情况,与此同时对该帖进行拖动删除,如果该吧属于有问题的贴吧,则可对该吧提请关闭、只读、巡视等相应操作。同时对该帖的标题、发帖人的ID和IP、关键词、特别字句(一般在比较长的文章中,且文章的个别字句比较有特色)进行搜索,视搜索的情况和帖子内容的严重性,决定是否对该帖或发帖人进行封锁处理。经过10至15分钟后对于需要搜索删除的部分进行二次搜索,以免遗漏。
4、再次观察发帖人的ID或IP是否属于违反贴吧协议的各种类型的ID或刷屏的IP,同时也通过主题和内容的重复度和无意义度来判断是否属于刷屏行为。评估后,如果属于违纪的行为则对其的ID、IP、内容等进行相应的封锁和搜索删除操作。经过10至15分钟后对于需要搜索删除的部分进行二次搜索,以免遗漏。
5、然后确定内容部分,因为后台显示的帖子的内容只是第一句,很多需要控制的部分通常显示不出来,这一部分主要是用来控制比较短且黄、反信息比较明显的帖子, 一旦发现违规的帖子的处理方法基本上与以上几种情况的处理方法相同。
补充:(1)如果经过判断,发表内容为黄反信息,则根据黄反信息处理流程处理,如果需要添加过滤词,则根据提词表添加流程处理。
(2)如果经过判断,发表内容为广告,人身攻击类的信息,则根据广告处理流程处理,如果需要添加过滤词,则根据提词表添加流程处理。
(3)如果经过判断,发表内容为刷屏,灌水信息;则根据和编辑会议记录的原则进行处理。
6、最后,也是最重要的部分就是审核每条帖子所含有的图片信息,这是其他专员完全无法帮上忙的部分,只有审帖的管理员可以接触到第一手的资料,通常遇到违纪的图片时,处理方法与遇到普通的帖子(不含图片的)的处理方法基本相同,但除了基本方法以外,还可以通过添加URL过滤来进行控制。
7、如果遇到转码情况,无论是广告链接还是图片链接都可以通过添加过滤词来对其进行控制;此时可以将需要过滤的词,提交给过滤词专员。
8、如在审核过程中发现其他任何可疑或异常问题(如前台没有新帖产生,后台无法访问等,用户反应贴吧的信息,页面错误等),请及时提交讨论组或者相关人员;大家一起讨论解决。
二、 后台基本功能
1、 分组审核列表中对各组的帖子进行分组审核
2、 在全部帖子列表中,可以对所发现的问题帖进行ID、IP、主题、关键词的搜索操作,而且进行搜索时,通常所显示的帖子内容为含有关键词部分,同时在搜索时可以采用高亮,比较容易发现问题所在。
3、 添加A类词可以对帖子中的关键词,进行屏蔽。如果关键词中含有空格,去掉空格后同样可以对添加空格的帖子进行屏蔽,如果添加的A类词为半角形式,同样也可以对全角形式的词进行屏蔽。
4、 Mis后台,可以对图片的URL进行封锁,同时还可以通过强过滤词封锁转码后的URL和广告链接和添加符合后的关键词。
5、 回收站中可以查看已删除的帖子,并且可以对已删除的帖子进行恢复。在回收站中的帖子主要有以下几种方法进行查找,包括关键词、发帖人的ID和IP、和在指定的贴吧内进行搜索。
6、 A类隔离区,可以查看已添加的A类词所屏蔽的内容,察看是否有误伤,和是否出现填加上的bug造成的误伤(被屏蔽的帖子中完全不含有所提示的添加的A类词)。
7、 B类隔离区,审核先审后发部分的帖子,这部分帖子主要是包括含有过多的可能造成误伤的黄、反词汇的帖子、一段时间内发送过多的相同内容的帖子,被怀疑为长期发广告等信息的IP段内IP所发出的帖子等。
数字空间相关链接
- 1984
- 89事件
- CDS专页:从“习大大”到“习近平思想”
- CDS专页:敏感词库
- Falun
- 七点一秒
- 不讲武德
- 中华人民共和国国家广播电影电视总局
- 中央
- 中宣
- 中文推特圈
- 九号文件
- 了解祖国
- 八九
- 共产党
- 共惨党
- 共铲党
- 关键词
- 出版审查
- 历史教科书
- 反日
- 变态辣椒:抗议安倍参拜靖国神社
- 周鸿祎
- 喉舌
- 国家广播电影电视总局
- 国新办习近平敏感词库(7)
- 墙奸
- 夏巢川
- 安替
- 实名举报
- 审查员
- 审核员
- 小粉红
- 幸存者笔记
- 广电总局
- 微信
- 打倒共产党
- 分类:敏感词库
- China Digital Space:文章馆
- 新世界
- 新华社
- 新华:各地运用网格化管理提高社会管理服务水平
- 日本物语
- 段子
- 法轮功
- 法轮大法|大法
- 活摘器官
- 电影审查
- 苏家屯
- 被墙奸
- 认知作战
- 镇上
- 陶舜财经
- 鲁炜
- 1984
- 404重点
- 723温州动车追尾事故责问版《一无所有》
- A GAY NAMED RIVER
- CDS专页:从“习大大”到“习近平思想”
- CDS目录
- KESO
- Tiktok
- Tiktok的推荐系统
- 一只萧包子
- 七月的人民
- 三表龙门阵
- 上海宣传部新闻通知
- 不信谣不传谣
- 不讲武德
- 世相研究所
- 中华人民共和国国家广播电影电视总局
- 中央电视台
- 中央网信办
- 中宣
- 中宣部
- 中文推特圈
- 举报
- 书号
- 了解祖国
- 二二八
- 五毛
- 五毛党:不要参加茉莉花示威
- 人权斗士
- 人民日报
- 人民日爆
- 人民网:2012年互联网舆情分析报告
- 人脸识别
- 党国体制
- 八九
- 出版审查
- 刘力朋
- 创作自由
- 历史教科书
- 周志兴
- 周锡生
- 周鸿祎
- 喉舌
- 回旋镖效应
- 围观五猫
- 国家广播电影电视总局
- 国家新闻出版署
- 国新办习近平敏感词库(7)
- 墙奸
- 夏巢川
- 夏河东渡
- 大俗老张:“土豪”服饰及装备变迁
- 大俗老张:恶搞大V
- 大俗老张:随手拍
- 大数据
- 大数据分析
- 大规模监控
- 字节跳动
- 安争鸣
- 安替
- 实名举报
- 审查制度
- 审查员
- 审核员
- 小晖有感
- 小粉红
- 小鄭在日本
- 崔卫平:为什么你所站立的地方就是你的中国
- 幸存者笔记
- 广电总局
- 微信
- 微博
- 微博开房
- 意识形态
- 攝徒日記
- 敏感词
- 教科书审查
- 新世界
- 新华社
- 新华:各地运用网格化管理提高社会管理服务水平
- 新闻审查
- 无声信息
- 时间社THiS
- 月光博客
- 杨连宁:学生问我,我问谁?
- 松花江
- 林冶波
- 歪脑
- 段子
- 水军
- 水木社区
- 河南日报
- 洞见报告
- 清朗行动
- 灌狸猿
- 独立电影
- 王文
- 环球日报
- 电影审查
- 电影审查委员会
- 白衬衫:爱国不等于爱朝廷
- 相声四格:大明东厂轶事之奉旨遗忘
- 相声四格:广电灭火总局
- 真理部
- 真理馆
- 管理员
- 管理员(moderator)
- 约谈
- 纽太普同学
- 网格员
- 网络审查
- 聽說你很棒
- 芮成钢被带走
- 花木兰
- 被墙奸
- 视频下架
- 认知作战
- 调查记者
- 豆瓣
- 辛灝年
- 近距离2
- 邝飚:七条底线
- 邝飚:赵氏春晚
- 那些原本是废话的常识
- 酸民
- 镇上
- 镇压
- 长颈鹿微博
- 防火墙
- 陈佩斯:我是一个非常干净的人
- 韩福涛
- 顶尖见闻
- 魏小河
- 鲁炜
- 麻雀商业评论
- 龙标