srcid 词源
srcid 全拼是 resource_id,另外 rsv_srcid 是带 rsv 前缀的 srcid 参数,含义差不多。
或许你不了解 resource_id 是什么,但肯定知道 url 指网址。
url 全拼是 uniform resource locator,是 uri 的子集
uri 全拼是 uniform resource identifier,
去掉 uri 前面的 uniform(统一),再去掉 resource 的前缀 re(反复) 缩写为 src,最后把 identifier 改成常用的缩写形式 ID,就是 srcid
靠通过有无 F 系列和 fk,先区分出 3 类百度搜索产品。
F 系列参数是百度记录搜索结果页点击数据,但与 srcid 放在一起会出现单独研究时没有发现的新意,成为了判断第 2 类百度搜索产品的必要条件之一。
同理,fk(fetch key) 是辨别第 3 类搜索结果的必要条件之一。
这里的第 1 类、第 2 类、第 3 类是以我研究这些参数的时间排序,并非优先级。
优先级:第 2 类 > 第 3 类 > 第 1 类
默认 rn = 10 //result number(结果数量)
实际查询不会出现被第 3 类压制的第 1 类来源
但是直接访问百度 IP 会有机会看到。
所以第 3 类优先级高于第 1 类
第 2 类权重高于第 3 类则留到后面再讨论
不同的境界看到的风景也不一样
使用笛卡儿坐标系是较为直观的区分百度搜索产品方式
从坐标系可以看出,seo 只能操作第 1 类搜索结果来源,其他不受 seo 直接控制。
这是由于百度并不是简单的线性增加搜索产品数量,而是二维地增加,随着 seo 不断增长,搜索产品也同比增加。
php 正则表达式
觉得用正则表达式较中文能更为简约地表达出 3 类搜索结果来源在网页源代码中的差异。
第 1 类百度搜索结果来源
(?<=id\=\")(\d{1,2})(\" srcid\=\")(\d{1,5})(?=\")
第 2 类百度搜索结果来源
(?<=srcid\=\")(\d{1,5})(\" fk=\")(\d{0,5})(_{0,1})(.+)(\" id\=\")(\d{1,2})
第 2 类百度搜索结果来源(增补)
(?<=srcid=\")(\d{1,5})(\" fk=\"\" id=\")(\d{1,2})
第 2 类百度左侧知心结果
(?<=srcid\=\")(\d{1,5})(\" fk=\")(\d{0,5})(_{0,1})(\w+)(\.)(\w+)(\.)(\d{6})(\.)(\d{10})(\.)(\d{1})(\" id\=\")(zxl_)(\d{1,2})
第 3 类百度搜索结果来源
(?<=srcid\=\")(\d{1,5})(.+)(id\=\")(\d{1,2})(.+)(?=tpl)
第 3 类百度左侧知心结果
(?<=srcid\=\")(\d{1,5})(.+)(id\=\")(zxl_)(\d{1,2})(.+)(?=tpl)
当然面试 seo 的时候,hr 不会给你机会用正则表达式取代华语描述百度搜索结果,他们想要的只是汉字或 English
你能用文字解释清楚下面 5 种百度搜索结果类型的差异吗?
common result 普通结果
general result 一般结果
natural result 自然结果
normal result 正常结果
standard result 标准结果
那么,接下来还是用华文翻译正则表达式。
第 1 类 有 F 系列,无 fk
这类是传统的百度搜索结果,可以通过 seo 改变权重。
数量较多,仅列出我所知晓的一部分
srcid = 1599 普通结果(common result)
srcid = 1533 论坛帖子
srcid = 1530 百度贴吧 更多贴吧相关帖子>>
srcid = 1529 百度知道|搜搜问问
srcid = 1528 百度知道 更多知道相关问题>>
srcid = 1526 百度文库 更多文库相关文档>>
srcid = 1525 百度文库
srcid = 1524 缩略图结果,不过不是每个查询词显示缩略图
srcid = 1523 robots.txt 文件存在限制指令的结果
srcid = 1522 百度经验组图
srcid = 1517 [图文],不过不是每个查询词都显示 [图文]
srcid = 1514 在线文档 - 结构化数据
srcid = 1513 软件下载 - 结构化数据
srcid = 1511 [原创] 星火计划
srcid = 1509 官网
srcid = 1508 单一视频结果
srcid = 1505 百度知道(知道达人)
srcid = 1502 百度百科
srcid = 1501 评分 - 结构化数据
这些结果都是可以用 seo 直接去改变排序的,譬如 srcid = 1511 [原创] 星火计划,百度明显是想让站长亲自写点原创内容,作为 seo 权重的一个元素。
1501, 1513, 1514 等结构化数据也是未来 seo 需要掌握的技能。
F 系列参数与 第 1 类 srcid 的对应关系
F1 = Bxxxxxxx
srcid = 1526 更多文库相关文档
F1 = xxxxBxxx
srcid = 1528 更多知道相关问题
F2 = x8xxxxxx
srcid = 1530 更多贴吧相关帖子
srcid 与 tpl 的密切关系
淘宝
srcid = 1509 官网
tpl = se_st_guanwang 搜索引擎_标准_官网
srcid = 1523 robots.txt
tpl = se_st_robots 搜索引擎_标准_robots.txt
tpl(type-link 链接类型) 与 srcid 意义不同,但两者属于亦步亦趋的夫妻关系。
第 2 类 无 F 系列,有 fk
百度搜索产品 百度阿拉丁开放平台合作伙伴
无法获得全部数据,下面只列出部分第 2 类 srcid 含义
百度文库
官微
百度知道
百度百科
百度视频
知乎
topik
医院
腾讯科技
电视猫
系统吧
新闻时间轴
东方财富网
禁止抓取
百度软件中心
京东
系统之家
百度贴吧
新浪财经
寻医问药网
百度旅游
代名词
官网
起点中文网
百度经验
百度站长平台
中关村在线
中公教育
悦美网
人人网
电话联系方式
百度轻应用
好大夫
乐视网
百度团购
品牌词
汽车点评
新浪微博
中国天气网
hao123下载站
百度乐居
腾讯视频
录取分数线
百度口碑
知名网站
融360
手机中国
求医网
豆瓣
国家授时中心标准时间
Mtime时光网
百度音乐
易车网
最佳答案
百度阿拉丁 - 框计算
百度招聘搜索
百度视频
日历
IP地址查询
百度翻译
第 2 类(补) 无 F 系列,有 fk,fk 为空
srcid = 35 百度移动应用
srcid = 2 百度地图
第 3 类 无 F 系列,无 fk
音乐 图片 视频 地图 文库 实时(realtime) 百度汇
部分第 3 类搜索结果来源
百度财富
百度教育
百度健康
百度微购
去哪儿
百度团购
百度地图
百度购物搜索
百度经验
百度文库
百度百科
最新图片
最新微博结果
最新相关消息
百度音乐
百度图片
百度视频
百度左侧知心结果
第 2 类 无 F 系列,有 fk
百度视频
官微 百度知心左侧卡片框内
百度百科 百度知心左侧卡片框内
百度图片 百度知心左侧卡片框内
百度音乐 百度知心左侧卡片框内
百度视频 百度知心左侧卡片框内
百度贴吧 百度知心左侧卡片框内
百度知心左侧卡片框中的键值较为特殊
貌似 Unix 时间戳是生成来源的时间,像刘德华是2013年09月12日 21点56分06秒生成的第 7 个来源,放在人物目录下的基础里。
估计百度每秒限定生成 10 个来源,1 小时最多 36000 个。
第 3 类 无 F 系列,无 fk
百度知心左侧卡片框内来源举例
srcid = 29090 百度教育_热门课程
srcid = 19 最新相关消息
综上因为无法穷尽百度 srcid,而且有的百度搜索产品像百度百科在 3 类搜索结果来源里会以不同的身份出现。所以要依赖 F 系列,fk 辅助判断哪一类的百度百科可以被 seo 改变排名,哪些则对 seo 免疫。
srcid, F 系列,fk 三位一体
用 php 将百度搜索结果页(baidu-serp)的 srcid, F 系列,fk 捏合到一起,就能弥补无法知道所有 srcid 的缺点。
只要能或不能匹配 fk, F 系列,就能将未知的 srcid 归类,具体含义以后能够慢慢完善。
百度没有给 seo 留一丁点把小米手机做到首页的可能性。
联想的 3 类搜索结果来源: 第 2 类平均排名最好,第 3 类次之,第 1 类全部在 11 位以后。
因此第 2 类 优先级高于第 3 类高于第 1 类。
第 2 类中的百度自家产品优先级又高于非百度产品像被百度收购的手机中国,中关村在线等。
2014年04月02日更新
百度删除了 srcid = 15883 等引起的 bug,百度快照时间恢复正常。
小米手机第 1 名 20点21分还是第 2 类 srcid = 14545,到了0点56分发现已经被删除了,回到了第 1 类搜索结果来源。对 seo 而言是利好消息