PharmaSUG知识库建立(1/2)
PhrmaSUG是生物医药行业程序员最关注的行业会议之一,其年度会议也是药企程序员们分享知识、行业交流的顶级盛会。而目前会议投稿人的稿件会存储在lexjansen网站,据目前网站信息,已有PharmaSUG的China和Global两部分文章汇总,中国从2012-2025年共计12届会议,国际从1997-2025年共计29届会议。
这些文章资料:
-
既是程序员进阶的宝贵学习资料,也能说明全球的药企程序员们关注的工作问题;
-
同样,因为有近30年的文章资料存档、有国内和海外之分,可以从时间跨度上、也可以从地域维度上观察从业人员关注的问题;
本次文章,记录我用python从这两个会议页面获取网站全部存储的pdf版本文章标题和链接,尝试自己完成一个知识库建立的过程,本篇为第一部分。
文章信息获取
首先我们打开2024年会议页面,确定文章内容是从该页面获取:
https://www.lexjansen.com/cgi-bin/xsl_transform.php?x=pharmasug-cn2024
然后鼠标右键通过页面检查去找pdf文章链接的内容存储在哪里,这里需要用到一点html语法的知识:
本文是原创文章,采用 CC BY-NC-ND 4.0 协议,完整转载请注明来自 药企SP程序员Allen
评论
匿名评论
隐私政策
你无需删除空行,直接评论以获取最佳展示效果