需要用到库:无    编辑器:vscode    运行语言:python

index文件查看与下载:Download

计算index的文本中,有多少个url地址(url也可以称作网址,通常在html语言中用href标记)

import re #连接re库正则表达式必须
n = 0 #存数
fil= open("index.txt",'r',encoding='utf-8')#已将信息写入文件,省去转义过程(懒) '''这里为了防止报错使用utf-8打开'''
t = fil.read()
fil.close()
urls = re.findall(r'href="(.+?)"',t)#进行匹配 匹配以href="开头然后接一个或多个任意字符以" 结尾的字符串
for url in urls:#遍历正则表达式所匹配到的url地址
    n = n + 1
print("本代码中共有:"+str(n)+"个url地址\t"+"ps:只统计了href连接")

找出文本中包含的书名,以及书名所对应的书的介绍,将书名与对应的介绍保存在字典中

import re #连接re库正则表达式必须
abou = []
tit = []
dic = {}
n = 0 #存数
fil= open("index.txt",'r',encoding='utf-8')#已将信息写入文件,省去转义过程(懒) '''这里为了防止报错使用utf-8打开'''
t = fil.read()
fil.close()
# imglist = re.findall(r'title="(.+?)"',t)#进行匹配 匹配以href="开头然后接一个或多个任意字符以" 结尾的字符串

abouts = re.findall(r'<p>(.+?)</p>',t)[0:8]
for about in abouts:#遍历正则表达式所匹配到的url地址
    abou.append(about)
tittles = re.findall(r'title="(.+?)"\noncl',t)[0:8] #寻找前8个【目前能力有限】
for tittle in tittles:#遍历正则表达式所匹配到的url地址
    tit.append(tittle)
a = 0
b = 0
for i in tit:#【将书名与简介拼凑到一块】
    abou[b] = abou[b].replace("&#34;","")#去掉无关的东西
    dic[(tit[a])]=(abou[b])
    a = a + 1
    b = b + 1
print(dic)#输出结果
'''{'小王子': '小王子是一个超凡脱俗的仙童,他住在一颗只比他大一丁点儿的小行星上。陪伴他的是一朵他非常喜爱的小玫瑰花。但玫瑰花的虚荣心伤害了小王子对她的感情。小王子告别小行... ', '牧羊少年奇幻之旅': '牧羊少年圣地亚哥接连两次做了同一个梦,梦见埃及金字塔附近藏有一批宝藏。少年卖掉羊群,历尽千辛万苦一路向南,跨海来到非洲,穿越“死亡之海”撒哈拉大沙漠……期间
... ', '安徒生童话故事集': ' ', '格林童话全集': '《格林童话全集》是德国民间故事集。由德国的雅各・格林和威廉・格林兄弟根据民间口述材料改写而成。他们搜集、整理、出版这些民间童 
话的目的,正如威廉所说,是希望... ', '一千零一夜': '《一千零一夜》又名《天方夜谭》。天方是从前中国对阿拉伯的称呼。这本书中的故事,多是阿拉伯地区国家的传说。 公元9世纪时,是阿
拉伯帝国的全盛时期,它横跨亚... ', '夏洛的网': '一个蜘蛛和小猪的故事,写给孩子,也写给大人。在朱克曼家的谷仓里,快乐地生活着一群动物,其中小猪威尔伯和蜘蛛夏洛建立了最真挚的友
谊。然而,一个最丑恶的消息打... ', '窗边的小豆豆': '《窗边的小豆豆》讲述了作者上小学时的一段真实的故事。作者因淘气被原学校退学后,来到巴学园。在小林校长的爱护和引导下,让一般
人眼里“怪怪”的小豆豆逐渐成了一个... ', '哈利·波特与魔法石': '一岁的哈利・波特失去父母后,神秘地出现在姨父姨妈家的门前。哈利在姨父家饱受欺凌,度过十年极其痛苦的日子。姨父和姨 
妈好似凶神恶煞,他们那混世魔王儿子达力――一... '}'''

提示:如果遇到代码没有高亮请刷新页面