先说这名字好长,我也觉得长,只是没办法,本体的名字就有13字之多!上简称吧:嫦三月车征名辅,再简之:嫦车辅...唔...如何?

说正经的,写这个小程序的起因在于自己提交作品时,不知道是否已经有重复的作品,也没地方去检索。而这次活动的官网[url=http://act3.news.qq.com/10240/]腾讯网[/url]和[url=http://forum.home.news.cn/detail/126673699/]新华网[/url]都只提供登录和一览,只能一页一页翻。特别初期每天都上万的新数据,哪里翻得过来,于是自己想搞个检索和统计的辅助程序。这样有一搭没一搭的搞到现在...马上都快到截至日了...我这效率...

最终完成的辅助程序放在GAE上 —— [url=https://clxystudios.appspot.com/mooncar]嫦三月车辅[/url]。因为是appspot,请自备云梯。

截至20日的部分统计信息:
[img]http://dl2.iteye.com/upload/attachment/0090/3416/6ce2e8c1-a31d-3145-91df-46eca92b4577.png[/img]

其实这篇博文原打算叫“奋斗记”的,实在是有够折腾的。

[list]
[*][b]GAE数据存储的配额太低了![/b]Datastore Write Operations 0.05 Million Ops,5万次写。我当时收集到的原始数据就13万,根本就不敢想。整理后的数据倒是只有3万,一试之下,毫无悬念的崩!减半,分两次如何?崩!好吧好吧,减到1万,再来过,崩!不高兴再试了!再少也没什么意义。
[*][b]打算转Google Cloud SQL。[/b]必须缴费,作罢。
[*][b]转其他Online DB。[/b]急切间没有合适的,最终作罢。
[/list]
于是放弃存储,一切都On The Fly,全部走内存!话说GAE这点不错,内存倒是足够,不崩!且快!哈。除了每次启动后重新上传数据...

再就是数据,真够劲!

 ★ [b]腾讯网[/b] 最初从列表页面取,可以一次多条,效率会高,毕竟有十几万(至10月17日)的数据,但是此路不通。一是没有作者,日期等信息,二是名字过长时用...代替。最终改成从详细页面取,十几万的数据,又不敢开多线程(不能去添乱啊),每次都得6,7个小时...

 ★ [b]新华网[/b] 好些,因为本身就用论坛做的活动页面。加上数据量不大,几万(至10月17日)的数据,每页20楼,半个小时就搞定。但是,新华网的问题是把作者提交的作品和描述等都合并在一处显示,用<br>分割。还自动为每个名称加上“号”字,这处理就比较多余了。因为作者本身就会以“Xx号”命名,于是满眼的”Xxx号号”,我整个人都“号号”了。

 ★ [b]最后是作品[/b] 真够劲!正常是每人限5件作品,名称和描述分开。无论腾讯还是新华都是有输入框的,名称有名称的输入框,描述有描述的输入框。应该说绝大多数作品都是按规矩来的,但还有那许多的作者“勇于打破条条框框”!
  - 名称和描述都写在名称里的。
  - 多个名称用标点符号或文字分割写在一次提交里的。这是我处理分隔符的正则表达式。

半角空白|全角空白|,|,|》|《|】|【|、|;|/|/|;|:|:|。|(|)|\"|”|“||\\(|\\)|\\*|&|’|‘|[|]|\\d{1}\\.|简称|或(者){0,1}(叫){0,1}

  - 上面这些分割符的用途也各不相同,有的是分割多个名字的,有的是标注读音的,有的则是名称描述的...我选择数据量最大的“分割”来处理。

  - 然后是后缀。由于设计上打算去除重复的数据,比如“玉兔”和“玉兔号”或“玉兔号月球车”,这些都算做“玉兔”。但是这些个后缀也太“丰富”了。这是我能分辨后缀的正则表达式。

(((?i)no)*(—|-|·|\\.)*(\\d|一|二|三|I|壹|X|1)*(号|號)*(月球|探月|探测)*(车|器)*)*$

(这么看来恐怕官网得上大量人工处理了吧...)

由于能力有限,太多例外,只能做最简处理。毕竟只是辅助程序,所以一定有好多漏洞。比如哪位的作品叫:“简称”,那么多半会被我的程序滤掉了。

嫦娥三号月球车全球征名活动辅助程序开发小记相关推荐

  1. 中国首辆火星车全球征名,李彦宏推荐命名:祝融

    昨天中国首次火星探测任务"天问一号"成功发射.今天中国第一辆火星车全球征名活动正式开启.百度CEO李彦宏也在社交平台上参与了这项"中国火星车征名"活动,并推荐命 ...

  2. 【数学建模】国赛真题分析 2014A题 嫦娥三号软着陆轨道设计与控制策略

    2014A题 嫦娥三号软着陆轨道设计与控制策略 优秀论文合集: 链接:https://pan.baidu.com/s/1NtSBfE-jCXXpwhLOX1InXQ?pwd=uon1 提取码:uon1 ...

  3. 3个阶段 项目征名_有奖征名活动方案

    有奖征名活动方案 [篇一:有奖征名活动方案] 一字千金,唾手可得 ※※项目万元有奖征名活动方案 活动信息: 活动主办: 活动承办: 活动理念: 为了更好的凸显楼盘的特征及增加项目美誉度,向社会开展楼盘 ...

  4. 中国探月计算机考试时间,中国探月工程三级跳:嫦娥一号到嫦娥三号

    新华网西昌11月29日电(记者李宣良.王经国.余晓洁)即将实施的嫦娥三号任务,将实现中国探测器首次在地外天体的软着陆和巡视探测.从2007年到2013年,从嫦娥一号到嫦娥三号,中国探月工程实现了&qu ...

  5. 2014年数学建模国赛A题(嫦娥三号软着陆轨道设计与控制策略)优秀论文.doc

    本博客下载链接包含修改的word版本, 可免费下载阅览学习, 也可作为数学建模相关课程作业修改上交: 链接:https://pan.baidu.com/s/10ppBciECgT9qqKH-6GYzt ...

  6. 数学建模【嫦娥三号软着陆轨道设计与控制策略】

    2014年国赛A题 pdf下载地址 https://download.csdn.net/download/yaoning6768/10641219 摘要 嫦娥三号在高速飞行的情况下,要保证准确地在月球 ...

  7. 中国探月计算机考试时间,关于选拔2020年波兰罗兹大嫦娥三号登月时间 学暑期实习实训项目学员的通知...

    具体如下: 一. 2020 年暑期学习项目简介 1. 项目名额:学生自主申报,如不遵照学院统一安排和临时退出,自费 10 名, 2. 项目费用: 900 欧元 / 人. 将严格遵循学院行程安排, 6. ...

  8. AnySDK吉祥物征名活动开始啦!

    一轮轮春去秋来,转眼间这是我在打包界的第十二个年头了. 在这个世界,在这个人人都苦学本领试图打造天下第一手游的残酷江湖,我很早就认清了自己,武艺不精,不管是设计还是开发都难以登峰造极.于是,我准备进入 ...

  9. 全国大学生数学建模2014年A题嫦娥三号软着陆轨道设计与控制策略论文与代码

    培训练手题,有一些瑕疵,本人在小队中负责模型的建立.由于本题量较大,后面部分处理的不是很好,大家仅供参考.论文代码链接在文后. 糖-果的博客_CSDN博客-数学建模,STM32领域博主获取代码(他是我 ...

  10. 3个阶段 项目征名_萧山日报数字报-蓝城萧立7大代建项目征名开启

    ■记者 陈胜楠 "家",对于中国人而言,代表的是心灵深处的幸福感.因此它的赋名不光大气悦耳,更饱含美好寓意.不过,一般而言,自己家小区的案名往往是"与生俱来"的 ...

最新文章

  1. PHP+redis实现超迷你全文检索
  2. twitter bbs
  3. LeetCode 20 有效的括号
  4. Android人脸识别Demo竖屏YUV方向调整和图片保存
  5. 图片的base64编码实现以及网页上显示
  6. uboot启动 及命令分析(3)
  7. 再来一波不错的学习资源
  8. 揭秘世界首位机器人公民:按照赫本形象设计、曾扬言毁灭人类
  9. 偏最小二乘回归分析_线性回归特征归一化
  10. mysql 随机函数 效率_MySQL 随机函数获取数据速度和效率分析
  11. 南阳ACM 题目275:队花的烦恼一 Java版
  12. matlab飞机飞行模型,使用 MATLAB/Simulink 设计无人机飞行控制系统(二、动力学模型建立)...
  13. 《分布式微服务电商源码》-项目简介
  14. python爬取虎扑评论_python-2:爬取某个网页(虎扑)帖子的标题做词云图
  15. Linux 脚本修改ps1,Linux使环境变量PS1的修改永久生效——修改配置文件/etc/profile...
  16. springboot jpa 一对一级联查询
  17. 从头实现YOLOv3:第4部分
  18. 转载总结总结一些常用的页面小技巧
  19. 2020厦门大学计算机系学硕,2020考研厦门大学推荐:热门专业及学科设置
  20. 计算机盖,盖珂珂_北京理工大学计算机学院

热门文章

  1. 比尔盖茨死没死_“杀死比尔” / 2 =“伤口比尔”
  2. java工程师个人简历模板下载,附面试题
  3. 上海拓盟计算机科技,邱兆文-东北林业大学信息与计算机工程学院
  4. Verilog wait语句
  5. 黑苹果安装,usb 不能用,键盘不能用
  6. I/O error while reading input message; nested exception is org.apache.catalina.connector.ClientAbort
  7. 16_python笔记-正则爬虫-高阶函数
  8. 红帽加大布局开放混合云
  9. maven打包时去除不需要的jar包策略
  10. 韩老师的早期作品(爆笑)