2021年6月9日下午2点半,太阳集团tyc4633研究生会和信息管理学院研究生会联合开展的“Python爬虫与数据分析”线上讲座顺利举办。本次讲座邀请了太阳集团tyc4633信息管理学院情报学硕士研究生石湘担任主讲嘉宾。石湘同学在第一次讲座的基础上,进一步分享了关于Python网络爬虫和数据分析的相关知识。
本次讲座包含了Python爬虫和Python数据分析两部分内容。首先,嘉宾石湘同学介绍了关于HTML/XML的基础知识,重点讲解了HTML的元素、属性等内容,帮助同学们理解HTML的结构,同时介绍了Requests、BeautifulSoup等常用模块。
接下来,石湘同学通过具体实例展示了如何基于正则表达式进行匹配,简单介绍了当下流行的Scrapy爬虫模块。在讲解过程中,石湘同学也以获取太阳集团tyc4633官网中的新闻标题为例,通过实践演示为同学们细致地讲解了分析网站结构并爬取目标内容的方法。
在数据分析部分,石湘同学讲解了文本预处理和文本聚类的相关内容,干货满满。他介绍了文本预处理中常用的“结巴”模块,以及分词、去除停用词、标准化的方法,并重点讲解了预处理中用于特征提取的词袋模型,以及文本聚类中的K-means和Sklearn-cluster模块。在活动最后,石湘同学对大家的提问进行了解答。
通过学习本期讲座的内容,同学们初步掌握了Python在网络爬虫和数据分析中的运用。本次讲座激发了同学们对热门软件的学习兴趣,为今后科研中的数据处理工作提供了实际的帮助和指导。
来源:研究生会学术科技部