博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
使用Python批量抓取单词发音
阅读量:5740 次
发布时间:2019-06-18

本文共 3579 字,大约阅读时间需要 11 分钟。

备注:今年1月份写的文章,以后准备长期驻扎在这儿,就贴过来了。

        1.12号晚上总算彻底的考完了所有的科目,昨天可以睡一个安稳的懒觉了。从床上爬起来之后,随便从书架上拿了一本书,竟然是《备战大学德语四级考试·词汇篇》,不觉想起当初“战绩辉煌”的德语课。翻开书,看了几个单词后,发现都忘记了该怎么发音,所以想把每个单词的发音放到P3里,等睡不着的时候可以听一听~

        所以,具体需求就是:根据一个文本文件,该文件中提供了一个单词列表,格式为每个单词占一行。需要根据这个列表,从某个网站上把对应单词的发音的mp3文件保存在本地磁盘上,而且mp3文件保存为相应的单词的名称。

         大致就是这些,想想还缺点什么,恩,多线程---典型的多线程应用环境啊。确定一下实现环境,看来Python是首选了。因为快,当然是说开发速度快了~

         该找个网站,从google上搜了搜(最近学校可以用ipv6google了,速度很快,过滤也少),找到一个网站,上面有一个Deutsch–Englisch的图标,当然也有Deutsch –Chinesisch图标,想想欧洲人那种自恃清高的态度,还是果断选了Deutsch-Englisch。随便搜索一个单词,比如“abendessen”,然后会弹出一个列表,点击发音图标的时候,会弹出一个框,框中还有一个推荐网站。点击之后,感觉风格清新自然简洁。还是输入刚刚那个单词“abendessen”,点击“suche”之后,在浏览器上看到一个URL区分了是从主页搜索单词还是从搜索单词后弹出的某个页面中搜索的单词两种情况。可以在当前这个页面(http://www.dwds.de/?qu=abendessen&view=1)再输入“abendessen”,点击“suche”后,你会发现URL地址已经改变了,变为:

         再试几个单词后,基本就可以确定每个单词对应的查询页面的URL地址格式为:

=所查询的单词

接下来就是看下声音地址的组成格式。查看下页面的Html源代码,CTRL+F搜索sound。在刚刚查询“abendessen”的页面中可以找到这样的一个filename: 文件格式如下:

不知道这里为什么要用哈希值,可以肯定的是不是用来提高检索速度的,因为单词本身就可以作为唯一的键,而且单词的最大长度应该也不会超过一个固定的上限值(比如:40?)。也许使用哈希值是为了防止用程序自动下载发音文件,减少对服务器的冲击吧,我猜。刚看到这个32位的串,我想大家第一反应应该都是猜它是不是单词对应的md5值(比如QQ登录的时候,就对针对密码进行三次md5加密),很不幸的,这个串不是(这个,可以使用Python在交互式模式下做一个简单的验证)。不过这个并不影响下载这个mp3文件,恩,就是先打开页面,然后从页面上找到mp3URL,然后再下载。

         好了,整理一下思路,简单的说,下载一个单词对应的mp3的流程如下:

         Step1:从文件中读取一个单词

         Step2:构造一个单词查询页面的URL,将此URL对应的html源代码保存到content

         Step3:使用正则表达式在content中搜索对应mp3文件的URL

         Step4:读取mp3数据,在本地新建一个文件,把数据保存进去

         Step5:如果没有结束,跳转到Step1

         恩,挺简单的流程。还需要增添的设施就是多线程,测试表明,平均每下载一个单词将近4秒钟,不能在一个线程在访问网络或者保存文件的时候让CPU空闲啊。所以,在运行程序的时候需要传入两个参数,一个就是需要开启的线程的数量,另外一个就是保存单词列表的文件名。不过,等我改天有时间了,实现一个线程池,这样就省事了,把任务扔到池子里就行了。否则在程序中还要考虑加锁解锁这种琐碎的事情,因为保存单词列表的队列是共享资源。这些分析清楚了,差不多就可以写代码了。把代码贴到这儿,仅供参考:

 

 
  1. #!/usr/bin/python 
  2.  
  3. #Author:lichao 
  4.  
  5. #Date:01-13-2012 
  6.  
  7. #Description:Download the .mp3 sound files that correspoding to the words in the given file. 
  8.  
  9. import threading 
  10.  
  11. import time 
  12.  
  13. import fileinput 
  14.  
  15. import re 
  16.  
  17. import urllib2 
  18.  
  19. import sys 
  20.  
  21.   
  22.  
  23. class DownloadWorker(threading.Thread): 
  24.  
  25.          global mutext 
  26.  
  27.          def __init__(self,wordsList,workerIndex): 
  28.  
  29.                    threading.Thread.__init__(self
  30.  
  31.                    self.queue=wordsList 
  32.  
  33.                    self.index=workerIndex 
  34.  
  35.          def run(self): 
  36.  
  37.                    print('worker%d start to work' % (self.index)) 
  38.  
  39.                    mutex.acquire() 
  40.  
  41.                    self.word=self.queue.front() 
  42.  
  43.                    mutex.release() 
  44.  
  45.                    while self.word!="0"
  46.  
  47.                             url = "http://www.dwds.de/?qu="+self.word 
  48.  
  49.                             urlContent = urllib2.urlopen(url).read() 
  50.  
  51.                             urlList = re.findall('http://media.dwds.de/dwds/media/sound/dwdswb_aussprache_dev/.*\.mp3', urlContent) 
  52.  
  53.                             try
  54.  
  55.                                      soundData = urllib2.urlopen(urlList[0]).read() 
  56.  
  57.                                      saveName=self.word+".mp3" 
  58.  
  59.                                      output = open(saveName,'wb'
  60.  
  61.                                      output.write(soundData) 
  62.  
  63.                                      output.close() 
  64.  
  65.                                      print('%s:OK                                 --Post by worker%d' % (self.word,self.index) ) 
  66.  
  67.                             except
  68.  
  69.                                      print('%s:FAILED                                   --Post by worker%d' % (self.word,self.index) ) 
  70.  
  71.                             finally
  72.  
  73.                                      mutex.acquire() 
  74.  
  75.                                      self.word=self.queue.front() 
  76.  
  77.                                      mutex.release() 
  78.  
  79.                    print('worker%d eixt' % self.index) 
  80.  
  81. class WordsList(): 
  82.  
  83.          def __init__(self,filePath): 
  84.  
  85.                    self.t=[] 
  86.  
  87.                    for line in fileinput.input(filePath): 
  88.  
  89.                             if(len(line)>1 and line[len(line)-1]=='\n'): 
  90.  
  91.                                      line=line[0:len(line)-1
  92.  
  93.                                      self.t.append(line) 
  94.  
  95.                             else
  96.  
  97.                                      self.t.append(line) 
  98.  
  99.                    self.t.append('0'
  100.  
  101.          def front(self): 
  102.  
  103.                    if(self.t[0]!='0'): 
  104.  
  105.                             return self.t.pop(0
  106.  
  107.                    else
  108.  
  109.                             return self.t[0
  110.  
  111.                             
  112.  
  113. def main(): 
  114.  
  115.          global mutex 
  116.  
  117.          mutex=threading.Lock() 
  118.  
  119.          workerNumber=int(sys.argv[1]) 
  120.  
  121.          filePath=sys.argv[2
  122.  
  123.          wordsList=WordsList(filePath) 
  124.  
  125.          workerPool=[] 
  126.  
  127.          for i in range(0,workerNumber): 
  128.  
  129.                    worker=DownloadWorker(wordsList,i) 
  130.  
  131.                    workerPool.append(worker) 
  132.  
  133.          for i in range(0,workerNumber): 
  134.  
  135.                    workerPool[i].start() 
  136.  
  137.                    
  138.  
  139. if __name__ == "__main__"
  140.  
  141.          main() 

下面两张截图是运行效果图,其中图1是运行效果图。是的,有些单词的mp3下载过程中出错了,这是由于某些单词的发音太简单了,这些单词级别估计是1级,估计是网站的设计者觉得这种简单的单词没有必要制作一个mp3文件放在上面。一般来说,稍难一点的单词的发音都能下载到的。图2是下载后的截图,以后可以用来催眠了。

 

1:下载器运行效果

 

本文转自hipercomer 51CTO博客,原文链接:http://blog.51cto.com/hipercomer/789423

转载地址:http://jubzx.baihongyu.com/

你可能感兴趣的文章
tmux不自动加载配置文件.tmux.conf
查看>>
经验分享:JavaScript小技巧
查看>>
[MOSEK] Stupid things when using mosek
查看>>
程序实例---栈的顺序实现和链式实现
查看>>
服务的使用
查看>>
Oracle 用户与模式
查看>>
MairDB 初始数据库与表 (二)
查看>>
拥在怀里
查看>>
chm文件打开,有目录无内容
查看>>
whereis、find、which、locate的区别
查看>>
一点不懂到小白的linux系统运维经历分享
查看>>
桌面支持--打不开网页上的pdf附件解决办法(ie-tools-compatibility)
查看>>
nagios监控windows 改了NSclient++默认端口 注意事项
查看>>
干货 | JAVA代码引起的NATIVE野指针问题(上)
查看>>
POI getDataFormat() 格式对照
查看>>
Python 中的进程、线程、协程、同步、异步、回调
查看>>
好的产品原型具有哪些特点?
查看>>
实现java导出文件弹出下载框让用户选择路径
查看>>
刨根问底--技术--jsoup登陆网站
查看>>
OSChina 五一劳动节乱弹 ——女孩子晚上不要出门,发生了这样的事情
查看>>