标签: 计划

ow.thnuclub.com 更新与计划更新

小站因为忙停更了一段时间,结果被各种催更。值此国庆佳节加之周末免费,趁势也更新一下,再开些空头支票。

  • Done:更新末日铁拳、地平线月球基地及其它英雄新增语音。(1.13 版客户端拆解)
  • 时间有限,只处理了增量更新部分。旧数据的疏漏错误更新后依然存在。他日有空再逐步更新旧数据。

  • Done:去掉了早期开发的赞与踩功能。
  • 在去年小站刚出来时,曾指望让热心用户通过 vote / devote 功能,把『有内容的音频』也就是台词、音乐等条目上浮到前几页,让意义不大的嘈杂环境音下沉。但事实看来结果不好,一来是用户并没有很好地理解该功能。后台数据显示,被踩得最多的是源氏的龙神拔刀,其次是麦爹的午时已到。想必是冤魂太多,多少发泄一下吧╮( ̄▽ ̄”)╭。二来呢,我看到这个数据以后也就懒病发作,没有继续考虑改进该功能了。后来还短暂地改成『倒放音频』,也就是猎奇一番,甚不实用。今日该功能彻底取消,就当是当年那几千投票,终于修正成果了吧。

  • Done:调整了下界面,加了圆角、阴影,js 代码的报错部分也处理了。
  • 主要新增数据会用黄色标签显示在上方。条目按钮加了细微的圆角和渐变阴影,整体会更柔和一些。同时每页条目数从 200 条减少到 100 条,相应的显然页码数量也加了一倍。因为网页背景本身是守望的全屏截图,故整体风格不会有大的变化,没有前后对比,不仔细看的话应该看不出来。修正 JS 报错这事其实也可做可不做,只要不搞死页面,能正常执行功能,jQuery 也就这样了。

  • Done:加了打赏按钮。
  • 这个没啥说的,目前平均也就每周一罐可乐,但听见叮咚声时的好心情很值钱。摊开算收益的话应该现在就把小站关掉,每年能省千儿块服务器钱。

  • Done:更新 36729 条音频的 MP3,音质略有提升。
  • 音频文件的处理路径是游戏客户端→.wem格式→.ogg格式→.mp3格式,理论上每一步都会有损耗。为了能在网页上直接播放必须使用 MP3,但之前在把 OGG 转为 MP3 时我选的是 LameXP 里的质量等级 2(一共 10 级),现在我想通了,把质量等级改成了最高的 0。当然,质量越高,mp3 的体积也越大,从质量 2 到质量 0 体积平均会增大 50%,也就是大概每个文件 20KB 会增加到 30KB。

    这对视频制作者会有所帮助,下载的音频在嵌入视频后的音效会有略微的提升。对 Lame 编码而言,质量 2 到质量 0,新增的数据主要集中在轻微的、高频的或者低频音域。这些音域的补足会让音频的回声、立体感和通透性更好一点点点点,就当是信则有吧。

    缺点是,对于使用手机流量访问的用户流量的消耗会增加。目前统计的平均每条数据大概是 28KB,请量力而行。至于对网页响应速度则是几乎没影响的,你的主要延迟是来自于与 Github.io 这个网站(我拿来存音频源)之间的通讯延迟,至于下载的数据是 20KB 还是 30KB,差的不过是 0.0x 秒而已。

  • Done:当条目文字很长时改用换行式,取代当前的隐藏式。
  • 这个功能和上一条类似,不难,但是会比较烦。换行以后会涉及到每行高度的变化,于是打开编辑面板时的对齐代码就需要调整。同时变化的高度也意味着右侧的齿轮按钮也要相应变化,现在它的高度是写死的。更麻烦的是 Input 框的高度自适应我没做过,可能要换用 contenteditable 的 div,要调整不少代码。好处当然也是显而易见的,长句子台词可以一次看完整了。

    Input 框暂时先不修改了,太麻烦要查资料,一时搞不定。条目本身现在是换行式的了。

  • Done:编辑条目时按 Ctrl+Enter 直接提交当前条目并自动打开下一条的编辑界面并同时播放音频。
  • 我自己,目前还是小站音频条目听写的第一贡献者,我觉得我在编辑条目时遇到的麻烦,你们肯定也遇到了。这个 Ctrl+Enter 的连续编辑提交功能应该会对热心的贡献者比较有帮助。当然伸手党是永远不会遇到这种麻烦的,但谁管你们那么多呢。

    我还没写过根据键盘组合键执行功能的代码,不过想必 Google 一下很容易就能得到答案。这功能不难,但是会比较烦。

 

  • Todo:编辑界面的标签钩选稍微改进一点。
  • 打算把现在的钩选换成和顶部筛选框类似的变色选中,顺便加上和英雄主题色相同的背景色。估计也挺麻烦的,tag 数据都是根据数据库生成的,现在数据库里没有英雄颜色,于是得改后端代码了。

  • Todo:逐步修正音频标签数据。
  • 这个没啥说的,其实主要依靠的是拆解软件的更新。之所以写在这里,是因为现有拆解结果,在数据处理上还能有少许改进,只是要花不少时间。

你看,写完这个,又快天亮了。

Cos交易酱搜索优化计划

COS 酱的核心功能是促成 cosplay 交易信息的交换流通,所以对信息的采集、整理和优化是最重要的部分。

经过一段时间的数据积累,目前数据库中已有 60000 多余条微博数据,过滤掉的垃圾信息已经有 20000 多条。我们使用最简单的规则过滤掉了三分之一的无用信息,这些信息绝大部分来自于机器控制的僵尸帐号微博。但目前而言,过滤完的信息依然有不少可以定义为重复、垃圾的信息,所以接下来准备对过滤规则进行一些改进。

1. 微博中有“微话题主持人”这样一种角色,我完全不知道有什么存在意义。他们做的唯一的工作就是把同话题下大量的微博重新转发一下,并在转发时再次添加同一个话题,比如 #cos 二手#。由于本站对微博采集就是基于话题、关键词等方式进行的。因而这些无用的微博也会被搜索到。接下来打算通过帐号黑名单方式过滤这一类需求。

2. 热门微博的多次转发。在最初设计这个网站时,考虑过是否采集转发的,最后确定是包括转发也采集。因为存在二手信息发布者通过转发微博的方式提供一些补充信息,比如 “xx 已经出售,还剩 yy、zz” 等。但当初考虑不周的是,某些粉丝众多的红人 cos 的微博存在大量转发,会导致采集到的数据也出现 “刷屏”。另一种是专业转发号在某一时段大量转发,也会出现类似的情况。基于此,接下来需要添加一些入库规则过滤。

2.1 如果一条转发微博的原微博不在库内,则转发微博和原微博都入库。
2.2 如果原微博已有,转发微博用户和原微博用户相同,则视为对原微博的“补充说明”,也入库。
2.3 如果原微博已有,转发用户非原博用户,则入库标记为垃圾微博。
2.4 如果原微博已有,转发微博用户和原微博用户相同,且转发内容为“转发微博”,则入库标记为垃圾微博。

——以上:原则是,对于搜索引擎而言,多条相同信息是无意义的,只需要保留确实有意义的内容即可。

3. 对于搜索请求,由于动漫这个特定领域的分词非常难做。目前网站的搜索是没有分词的,于是导致“火神毛”的搜索请求并没有表达用户本来的意思 “火神+毛”。接下来会研究一下如何变通地实现这个需求。