博文

目前显示的是 四月, 2018的博文

TensorForce: (可能是)最好用的强化学习库

前言: 实现好用的强化学习算法不容易,这之间需要踩许多坑。工业界使用强化学习的话可以考虑使用这个现成的库,基于宽松的 Apache-2.0 协议;学术界也可以将其作为 baseline 。我自己实现过一些算法,如果对论文理解的不正确,或代码里有小疏漏,查错和调试是一件非常难的事情。有的时候做项目移植别人的代码会降低许多风险。 优点: 1. 把有名的 主流算法 全都实现了,共十几种算法,算法效果在 这里 。 2. API 设计非常方便,非常值得借鉴,这也是为什么我没有推荐 OpenAI 的 baselines 3. TensorFlow 实现的 A3C 有两种可选选项:基于多线程的和基于分布式的,可以合理避免掉 Python 的GIL 4, 用了 TensorBoard 做可视化,会很好用 5, 代码结构比较清晰,静下心来慢慢看可以作为不错的教学代码 6. 可以快速应用自己设计的强化学习环境,只需要继承自 Environment 类并实现相关方法即可,把自己设计的环境包装一下工作量非常小 缺点: 1. 用的 TensorFlow,而不是PyTorch,如果单机多 CPU 并行依赖分布式,并不是个好思路,而且显存使用会很不合理,也会更麻烦,比 PyTorch 的 multiprocessing 麻烦多了,这也是为什么我切换到了 PyTorch 2. 包装的层数实在太多了,源码阅读起来时间成本很高,毕竟用的是 TF。竟然把 TF用成了PyTorch 风格 结论: 1. 工业界使用的话问题不大 2. 科研完全可以基于这个框架写新的强化学习算法,或只用它作为 baselines 3. 用它学习强化学习也不错 4. 学学它的 API 设计会很好,现有的开源强化学习代码通常写得都很乱 5, 我用 PyTorch 链接: TensorForce: A TensorFlow library for applied reinforcement learning

在Blogger上书写LaTeX公式

坑: 如果你在后台设置的主题背景中编辑HTML,出现下面这个错误: The widget settings in widget with id <b>AdSense1</b> is not valid. An internal error occurred. Please try again. 我在网上发现有不少人都遇到过,而且没有太好的解决办法。所以我就用比较暴力的方法: 直接定位到这个插件的位置,把AdSense的两个插件相关的几行代码删掉。 教程: 1. 复制下面的内容 2. 在后台设置$\rightarrow$主题背景$\rightarrow$编辑HTML,把这些内容粘贴到head标签内 示例: $\LaTeX$ $\sum \limits_{i=0}^n(\gamma \times Q(s|a))$

使用Ubuntu创建Windows安装盘(懒人法)

前言: 以前用过一个软件可以在Linux下创建Windows安装盘的,因为极少用Windows所以忘记是哪个软件了。今天突然有装Windows的任务,在网上找了半天都没找到,后来心想不能偷懒全都找中文教程,换成英文关键词“windows bootable usb from iso on linux”,结果第一个搜索结果就解决了问题。从这次事故中收获了两个教训: 有收获就赶紧记下来,好脑子不如烂笔头 偷懒有时反而要付出更多辛苦 正文: 1. 安装 winusb (现在叫 woeusb ) sudo apt install woeusb 2. 打开 woeusb (在Application菜单里面) 3. 插上U盘 4. 这一步有点坑,需要手动卸载U盘,不然没法把Windows写入U盘 sudo umount /media/xxx/xxxxxx 5. 然后在woeusb界面里面点refresh然后随便点点点就ok 评价: 比用老毛桃方便多了

此博客中的热门博文

Flash被淘汰后打开swf文件的最佳方法

[SOLVED] Supermicro cannot connect to VGA video port or iKVM

MacBook日文键盘四种输入模式输入法切换(同样适用于其他布局的键盘)