PhrmaSUG是生物医药行业程序员最关注的行业会议之一,其年度会议也是药企程序员们分享知识、行业交流的顶级盛会。而目前会议投稿人的稿件会存储在lexjansen网站,据目前网站信息,已有PharmaSUG的China和Global两部分文章汇总,中国从2012-2025年共计12届会议,国际从1997-2025年共计29届会议。

这些文章资料:

  • 既是程序员进阶的宝贵学习资料,也能说明全球的药企程序员们关注的工作问题;

  • 同样,因为有近30年的文章资料存档、有国内和海外之分,可以从时间跨度上、也可以从地域维度上观察从业人员关注的问题;

本次文章,记录我用python从这两个会议页面获取网站全部存储的pdf版本文章标题和链接,尝试自己完成一个知识库建立的过程,本篇为第一部分。

文章信息获取

首先我们打开2024年会议页面,确定文章内容是从该页面获取:

https://www.lexjansen.com/cgi-bin/xsl_transform.php?x=pharmasug-cn2024

然后鼠标右键通过页面检查去找pdf文章链接的内容存储在哪里,这里需要用到一点html语法的知识: