之前从豆瓣音乐上爬了大概98万个专辑,包括各个专辑的参数。
为了处理专辑的发布日期,我写了一个简单的日期格式化函数。
豆瓣音乐上的日期没有统一规范,还包含不少错误,混乱,甚至无关的文字。
但正确出现的日期字符串,则主要有这几种形式:
10 December, 1991
30 June 1992
April 13, 1999
December 1994
June, 1992
2004 03
2002年08月05日
2004年6月
2002年
我需要的最终格式是:
2013-09-15
2013-09
2013
源代码在: https://github.com/lijiejie/format-date-str
请传入一个unicode字符串
之前写过豆瓣电影的日期格式化的,怎么他们的工程师不统一一下呢~~
是啊,要是规范一下就好了。 可能因为常常需要附加文字说明什么的,为了偷懒,就直接用一个文本域来编辑和保存了。 我还遇到了日期是第00天和40的。。。
正常,我也看到19920的。。。
比如这一个: http://music.douban.com/subject/1408650/