深渊数据统计OCR自动化教程

精华2019/09/028391 浏览玩家攻略
前言
众所周知,家族管理在数据统计上面是个脏活累活。依托现在OCR技术,其实可以减轻这一过程的负担。这一帖子一是技术交流,其次也是希望有老哥能帮我一起维护和使用我的开源代码。目前刚起步,还在画饼阶段,仅实现每周深渊副本的一套识别。也欢迎各位家族管理想使用的加我qq交流。QQ:477977734。
简介
理想的全自动过程是:(1)机器人进入深渊列表,(2)获取图片,(3)OCR识别,(4)生成结构化数据及可视化
由于(1), (2)步过程比较繁琐,我的实现还不稳定,而且有违规被用于非法用途之嫌,所以这里不公开及介绍这部分。(4)有空我单独开贴介绍。这里主要介绍目前我实现(3)步骤的大体思路。简单来说:如何上传图片到百度API识别,再拉下来试用。
大致流水线:
TapTap
Disclaimer: 虽然这里用到了百度的技术,但这绝对不是百度AI平台的广告,我也没收过百度一分钱。这里只是分享这个技术在自动化家族深渊数据的应用。
第一步 你先要获得一张像这样的深渊的图片:
TapTap
第二步 百度云账号申请,可以参考这个帖子前半部分https://www.jianshu.com/p/816cc6ef571b 第三步 进入OCR子模块:https://console.bce.baidu.com/ai/#/ai/ocr/overview/index
第四步 点击iOCR-创建模板-上传模板图片(刚才的深渊图片)
TapTap
第五步 设置参照字段,用于程序校准,能够识别到深渊板块的位置。这里我的工程实践是选择:深渊顶部标签页的:家族状况、全国。下面的玩家、挑战次数。
TapTap
第六步 设置识别内容
TapTap
第七步 模板完成了,可以点击右上角试一试。在这里分享一下我的模板ID5e325de161f970154c1d11c26147712b
TapTap
可以看到虽然有一些不完美,但是大体名字和数字还是很准确的。由于百度提供的是API(python可以pip安装baidu-aip库直接调用,很方便),我们可以借助本地脚本一些后处理,去和提前录入的玩家metadata做匹配(名字,UID等),来校准名字,最后输出成CSV文件。我的python实现在这里(在此不多作展开,有兴趣的话我可以再开一贴介绍)。如果没有编程经验的小伙伴,也可以想借助平台上的DEMO来加速数据收集过程。
结束
毕竟是Tap论坛,在这里只是对我这个闲暇时间小项目做个推广,我不想写的太硬核。更多后续教程我应该会发布在我Github库的WIKI里。
最后,再招募一下有兴趣的家族管理和我联系。
1.希望至少有一定python基础。
2.此外,有测试相关经验的可以帮助我继续完善文档。有Web全栈能力的也可以试着将写下前后端(Web我实在苦手),方便没有编程技术的小伙伴。
3.有计算机视觉相关经验的也可以联系我。但目前为了程序效率,和不想标注数据(神TM还在游戏里加班标数据),不需要深度学习经验的小伙伴。更加希望对传统方法:基于HOG特征的图像搜索等等的联系我,便于宝物自动识别的工作。
133
143
70